Zamiana sekwencji "\uxxx" na znaki UTF-8

0

Witam.

Piszę program, który przeszukuje pliki *.html i wyciąga z nich pewne dane.
Mam problem z kodowaniem znaków. Strony, które przeglądam są w kodowane w UTF-8.
W kodzie html są polskie znaczki, natomiast w skryptach JS zamiast nich pojawiają się ich kody np.:

var name= = ("M\u0119\u017cczy\u017ani i Kobiety");

Dotychczas używałem prostej zamiany tych znaczków tj.:

public static String replaceU(String str){

        str= str.replace("\\u0104", "Ą");
        str= str.replace("\\u0105", "ą");
        // itd.

        return str;
}

Jednak użytkownicy tej strony pokochali ostatnio pokemońskie pismo i używają wielu różnych znaków,
a moja metoda jest bez sensu przy tak dużej ilości znaków.
Potrzebuję algorytmu, lub gotowej klasy, która zamieni wszystkie "\uxxxx" na odpowiadające im znaki.

0

Dzięki, dokładnie o to mi chodziło.
Pozdrawiam.

1 użytkowników online, w tym zalogowanych: 0, gości: 1