Krzaczki po ściągnięciu strony HTML

0

Ściągam stronę, w której mamy: <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
więc kodowanie znamy. UTF-8 jest domyślne dla Javy więc bez problemu powinniśmy to wyświetlić jednak zamiast np. przybliżony dostajemy w programie przybliĹĽony itd.

Trochę poszperałam i znalazłam np. coś takiego:
String newString = new String(oldString.getBytes("UTF-8"), "UTF-8"));
Jednak efekt dokładnie taki sam, nie wiem po co, ale też kombinowałam zmieniając na cp1250, ISO-8859-2 i nic z tego, co najwyżej inne krzaczki dostaję.

Dziwi mnie, że strona w UTF-8, nie może zostać od razu poprawnie odczytana w programie. Ma ktoś pomysł co trzeba zrobić?

Znalazłam też: String z CP1250 do Javy Ale nie pomogło, bo też trochę innego kodowania dotyczył wątek.

Proszę o pomoc, z góry dzięki.

0

Ok, poradziłam sobie.
Wątek do usunięcia. Szkoda że konta wcześniej nie założyłam to mogłabym sama chyba to usunąć?

0

Tutaj się wątków nie usuwa - ale można za to edytować posty ;)

0

Bez sensu. Po prostu autor pobierał dane ze strony najprawdopodobniej jako windows-1250 (ale na 100% nie jako utf-8) a później takie śmieci konwertował na utf-8 i zadziwiony był, że nie działa.
Wszystko działało BO cyt: "efekt był taki sam" a więc znaki się nie pozmieniały przy konwersji:)

1 użytkowników online, w tym zalogowanych: 0, gości: 1