Wyrażenia regularne do wyłuskania linków z pliku HTML

Cześć.

chce uzyc wyrazenia regularnego do przeszukania pliku htm w celu wylapania linków

<a href="">

i tekstu ktory jest zaraz za nimi

<span>mojtekst</span>

napisałem takie wyrazenie:

pattern = """r'<a href="(.*)">\s*<span>(.*%s.*)</span>""" % seekKey

no i interesuja mnie tylko znaleziska ktore zawieraja dane slowo kluczowe seekKey.

moje wyrazenie jednak nie dziala, mozecie mnie nakierowac?

Dzieki,
pozdrawiam

dodanie znaczników <code class="html"> - @furious programming

zauwazylem ze w przeszukiwanym pliku, linki a maja jeszcze poustawiane klasy o ktorych zapomnialem w wyrazeniu, moze to tu pies pogrzebany.

Moze uzyj czegos normalnego do parsowania htmla? Na przyklad: http://www.crummy.com/software/BeautifulSoup/

niestety dalej nic to nie zmienilo, nie moge wylapac zadnego elementu.
obecne wyrazenie:

pattern = """r''<a href='"('.*')" class=".*">\s*<span>('.*%s.*')'</span>'""" % seekKey

macie jakis pomysl?

n0name_l napisał(a):

Moze uzyj czegos normalnego do parsowania htmla? Na przyklad: http://www.crummy.com/software/BeautifulSoup/

Chcialbym przy okazji nauczyc sie stosowac wyrazenia regularne. Widzisz jakis blad w moim wyrazeniu?

Liczba odpowiedzi na stronę