C++ - filtrowanie treści www

0

Witam! Jako ze jestem poczatkujacy w dziedzinie programowania w jezykach C/C++ - prosze sie nie smiac jesli ponizsze pytanie jest glupie.
Chcialbym stworzyc mala aplikacyjke, ktora filtrowalaby tresci www (czyli pewnie przechwytywala pakiety TCP), i zapisywala w podrecznej bazie adresy stron, spelniajacych pewne wymagania (czyli np adresy takich stron, na ktorych bylo uzyte slowo 'sex'). To mialby byc taki maly program szpiegowski.
Ktos moglby mnie nakierowac?

0

Co dokładnie chcesz zrobić? To ma być aplikacja na zaliczenie czy do użytku?

To ma znaczenie, bo jeżeli na uczelnię to prawdopodobnie wymogiem jest użycie socketów. Ogólnie http jest tekstowym protkołem. Takim human-readable. Oznacza to, że możesz połączyć się telnetem z serwerem na porcie 80 albo 8080 i wysłać zapytanie GET. Dostaniesz nagłówek oraz treść odpowiedniej strony www (jako kod html). Dalej parsujesz jak zwykły plik. Czyli programem się łączysz przez gniazdo i wysyłasz komendy jako tekst.

Jeżeli do użytku to najprościej skorzystać z biblioteki typu libcurl albo nawet z programu wget wołanego jako polecenie. Dostajesz plik na dysku i parsujesz go do woli (jest to zwykły plik tekstowy).

Musisz wiedzieć, że htmla bardzo trudno się parsuje :-) Jeżeli szukasz słowa sex to wystarczą Ci wyrażenia regularne (np. boost::regex). Gorzej gdy potrzebujesz trochę dokładniej parsować - wtedy jest potrzebna wyspecjalizowana biblioteka (nie wiem jaka), bo samemu parsować html to masochizm.

1 użytkowników online, w tym zalogowanych: 0, gości: 1