parsowanie html- linki

0

Witam
Moze ktos robil parser do html co by wyciagal linki (href) ze strony.
I co dziala dla 'roznych' stron informacyjnych (onet.pl, interia.pl etc)
Przegladalem parsery na codeprojeckt ale nie znalazlem tam takiego co bym nie musial zmieniac, wiekszosc byla w formie CStatickontrolki zeby parsowala caly html i troche przerabiania jest, wiec moze ktos ma.
Dziekuje
Michał

0

na ftp.microsoft.com plik webband.exe -> unpack sfx-> WBExplorerBar.cpp-> CWBExplorerBar::ManageAnchorsEventSink
masz pokazane jak dostać się do anchorów.
Niestety nie działa to na wszystkich stronach - np u borlanda.

Inny sposób - szukaj <A w html a następnie href= zanim trafisz na >.
tagi zaczynają sie naraz po znaku < bez żadnego odstępu; jeśli odstęp tam będzie - mshtml ignoruje taki tag.

Można stokenizować cały dokument np. wzorując się na kodzie tokenizera z nasm, jest malutki, napisany bardzo przyjaźnie. Dopiszesz tylko funkcję GetNextToken() i w pętli powyciągasz anchory

0 użytkowników online, w tym zalogowanych: 0, gości: 0