Parsowanie strony HTML, szukanie informacji na podstronach.

0

Witam,

Piszę program w C#, który parsuje stronę HTML w poszukiwaniu konkretnych informacji (np. książek w danym dziale na stronie głównej księgarni), następnie chciałbym by automatycznie przeszedł do podstrony danego działu (programowanie) i wypisał mi dostępne książki z tego działu (programowanie).

Największy problem mam jak zaimplementować w C# automatyczne przejście do wybranych podstron?

0

Rekurencją? Zakładając, że parser odnajduje jakiś interesujący Cię link, odpalasz go jeszcze raz, ale już dla tej podstrony. Pamiętaj, żeby sobie zdefiniować głębokość, bo jeszcze skopiujesz cały internet :P

SomeType ParseHtml(string url,int maxDepth)
{
    if(urlFound && maxDepth > 0)
        ParseHtml(url, maxDepth-1);
}
0

No dobrze wyszukuje linki lecz nie wszystkie (korzystam z wyrażeń regularnych), wyszukuje linki w pełnej wersji
<a href="http://www.jakaś strona... ale już nie wyszukuje odnośników typu:
<a href="/pl/pl/coś tam dalej choć po najechaniu myszką na pasku wyświetla się cały adres, dlaczego tak się dzieje?

0

podstawy html - nie wiem jak bez tego chcesz się zabierać za parser -,-
słowa kluczowe ścieżka względna i bezwzględna

0

Problem polega na tym, że parsuję kod HTML przy pomocy wyrażeń regularnych i nie wiem jak napisać kod aby mieć dostęp do całej ścieżki bezwzględnej a nie tylko do jej fragmentu.

0

Możesz to i parsować znak po znaku jakimś switchem, url musisz sobie sam wygenerować. Skoro w pliku masz zapisany względny to sam z siebie się na bezwzględny nie zmieni.

1 użytkowników online, w tym zalogowanych: 0, gości: 1