Polskie znaki w sczytanej stronie www, urllib

0

Hej. Napisałem sobie w Pythonie króciótki kodzik, który mi pobiera podaną stronę internetową. Problem jest jedynie z polskimi znakami. Kod jest taki:

# -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib2

try :
    web_page = urllib2.urlopen("http://kwejk.pl").read()
    print(web_page)
except urllib2.HTTPError :
    print("HTTPERROR!")
except urllib2.URLError :
    print("URLERROR!")

i dostaję zamiast polskich liter jakieś śmieszne znaczki. Jak mogę sobie to 'normalnie' odczytać?

0

Zdekoduj wczytaną stronę do swojego kodowania...

web_page = urllib2.urlopen("http://kwejk.pl").read().decode('utf8')
0

Takie proste a jakie piękne.

A jeszcze jedno pytanko: odłączył mi się Internet, a program cały czas "wisiał" -> jaki jest błąd w przypadku "braku Internetu", -> tak jak tu mam URLError, HTTPError a na przerwanie połączenia jaki byłby najlepszy, aby program nie "wisiał" tylko przewał działanie?

0

A, nie do końca to działa jednak. Dalej mam krzaczki, może nie na tej stronie, ale np. na tej: http://release24.pl/

0

Zostaje tylko stary dobry 'replace' ?

0

Ciekawe co chcesz replacować... Może po prostu te strony mają rożne kodowanie znaków?
Lekcja na dziś: http://www.joelonsoftware.com/articles/Unicode.html

1 użytkowników online, w tym zalogowanych: 0, gości: 1