Witam.
Piszę program, który przeszukuje pliki *.html i wyciąga z nich pewne dane.
Mam problem z kodowaniem znaków. Strony, które przeglądam są w kodowane w UTF-8.
W kodzie html są polskie znaczki, natomiast w skryptach JS zamiast nich pojawiają się ich kody np.:
var name= = ("M\u0119\u017cczy\u017ani i Kobiety");
Dotychczas używałem prostej zamiany tych znaczków tj.:
public static String replaceU(String str){
str= str.replace("\\u0104", "Ą");
str= str.replace("\\u0105", "ą");
// itd.
return str;
}
Jednak użytkownicy tej strony pokochali ostatnio pokemońskie pismo i używają wielu różnych znaków,
a moja metoda jest bez sensu przy tak dużej ilości znaków.
Potrzebuję algorytmu, lub gotowej klasy, która zamieni wszystkie "\uxxxx" na odpowiadające im znaki.