'przejrzec' to sie mozna w lustrze...
@Demonical Monk -
Swoją drogą wrzucanie pliku tekstowego do hexedytora to też niezły wyczyn
znasz inna metode na wykrycie czy plik ma BOM i jakie ma kodowanie? chyba ze chodzilo Ci o cos innego
na pewno rozpoznawanie kodowania znakow w pliku poprzez hexedytor do najlatwiejszych nie nalezy
z jednym sie zgodze - fakt, kod na pewno by sie przydal...bede go musial samodzielnie przejrzec(a jest tego troche bo kilka klas), i znalezc fragment ktory psuje kodowanie, jak juz wrzuce ten konkretny fragment
@Azarien, @Demonical Monk - do postu dolaczam zrzut pliku tekstowego z mojego hexedytora, wg mnie kodowanie na pewno nie jest utf-8, bo liczby szesnastkowe znakow z mojego edytora zupelnie nie odpowiadaja liczbom z tablicy znakow utf-8, wystarczy spojrzec na polskie litery.
Poza tym kodowanie jest dwubajtowe, wiec na pewno nie bedzie to iso-8859-2, ani ASCII, ani tez iso-8859-1 jak pisze azariel bo to kodowania jednobajtowe.
Dla przykladu podam: literka ł w moim edytorze kodowana jest symbolem 4201 (zaznaczylem na screenie), a w tablicy znakow utf-8 (zrodlo: http://pl.wikipedia.org/wiki/Kodowanie_polskich_znaków, http://www.gajdaw.pl/varia/polskie-ogonki-na-www/print.html#R1) to symbol C582, wiec jak widac znaki w moim pliku na pewno nie sa kodowane w utf-8, ani tez jednobajtowo.
Mi to wyglada na kodowanie utf-16le..skad ten pomysl? bom wyglada jak w utf-16le(wystarczy porownac z tabelka na stronach wiki), bom dla utf16le - 0xff 0xfe czyli fffe - 'czarno na bialym' na screenie(przeciecie kolumn 0000 i 0000), kodowanie pozostalych znakow(w tym polskich) tez odpowiada liczbom utf16le. Wystarczy przejrzec strone z kodowaniem polskich liter w utf-16 pod adresem http://www.gajdaw.pl/varia/polskie-ogonki-na-www/print.html#R1 (o ile jest prawidlowa), na ktorej widac ze nie tylko literka ł sie zgadza ale i inne polskie litery np ę - symbol 1901. I tu jedna uwaga, na stronie jest 0119 bo jest podany utf16be(Big-endian), utf-16le ma odwrotna kolejnosc stad 1901.
(tak nawiasem mowiac myli sie i edytor ktory wskazuje utf-8 co widac na screenie u dolu i php, dziwna sprawa)
chyba ze ja sie myle..nie mam doswiadczenia w tym temacie, moze ktos bardziej obeznany wyprowadzi mnie z bledu, jezeli sie nie myle - potwierdzi ze mam racje:]
przydatny moze tez byc artykul: http://programowanie.opole.pl/archives/2406 o kodowaniu utf z ktorego skorzystalem...