Właśnie. Jemu się wydaje że ma jakiś patent na liczenie entropii, a to jest sprawa niejednoznaczna, niestety.
Sprawa jest jednoznaczna, przy założeniu że mówimy o uniwersalnym algorytmie kompresji -> takim który działa dla dowolnych danych. Jasne że kompresowanie danych o których coś wcześniej wiemy (patrz mój punkt 2.) może oznaczać że licząc entropię uwzględniamy większe "symbole" niż 1 bajt, ale wzór pozostaje ten sam. Tylko że taki algorytm wcale nie zadziała dobrze dla danych które nie pasują do rozkładu prawdopodobieństwa dla którego algorytm projektowaliśmy.
Właśnie że nie jest, i na kilka sposobów!
W systemach deterministycznych nie istnieje w ogóle pojęcie entropii - dlaczego?
Bo ona jest tam bezużyteczna, z powodu pełnej znajomości parametrów każdego z elementów systemu.
Entropia jest pojęciem statystycznym, czyli dotyczy układów, których znamy jedynie parametry grupowe - średnie, statystyczne, np. średnia prędkość, gęstość, albo liczba poszczególnych bitów, czy bajtów w danych (to też jest średnia: c/N = średnia).
A po drugie: ciąg pseudolosowy, albo plik zaszyfrowany i/lub skompresowany ma maks. entropii,
co nie jest przecież prawdą, bo ciąg random jest jednoznaczy - można go odtworzyć ze stanu początkowego generatora,
a po odszyfrowaniu/dekompresji danych entropia spadnie kilka razy.