Zamiana sekwencji "\uxxx" na znaki UTF-8

Witam.

Piszę program, który przeszukuje pliki *.html i wyciąga z nich pewne dane.
Mam problem z kodowaniem znaków. Strony, które przeglądam są w kodowane w UTF-8.
W kodzie html są polskie znaczki, natomiast w skryptach JS zamiast nich pojawiają się ich kody np.:

var name= = ("M\u0119\u017cczy\u017ani i Kobiety");

Dotychczas używałem prostej zamiany tych znaczków tj.:

public static String replaceU(String str){

        str= str.replace("\\u0104", "Ą");
        str= str.replace("\\u0105", "ą");
        // itd.

        return str;
}

Jednak użytkownicy tej strony pokochali ostatnio pokemońskie pismo i używają wielu różnych znaków,
a moja metoda jest bez sensu przy tak dużej ilości znaków.
Potrzebuję algorytmu, lub gotowej klasy, która zamieni wszystkie "\uxxxx" na odpowiadające im znaki.

http://stackoverflow.com/questions/275011/double-escaped-unicode-javascript-issue - podobny problem z JS.
http://pagesofinterest.net/blog/2009/02/strip-uxxxx-from-string-and-replace-it-with-the-correct-unicode-character/ - pobierasz zapis \uXXXX i na jego podstawie tworzysz char.

Dzięki, dokładnie o to mi chodziło.
Pozdrawiam.

Liczba odpowiedzi na stronę

Zamiana sekwencji "\uxxx" na znaki UTF-8

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami