Znalezienie WSZYSTKICH podstron serwisu

0

Witam, ostatnio potrzebowałem pobrać dane z wielu podstron JEDNEJ strony, no i ustawiałem te strony ręczenie i zacząłem się zastanawiać czy istnieje jakaś w miarę szybka i niezawodna metoda, która dla podanego adresu np: wp.pl znajdzie wszystkie podstrony należące do tego serwisu.

Oczywiście możliwe jest parsowanie każdej strony i wyszukiwanie np wszystkich i rekurencyjnie przechodzenie na każdą taką stronę i szukanie dalej itd, ale zastanawiam się czy istnieje lepszy sposób?

(poprawienie formatowania = usunięcie <a href> znikąd w środku posta) - msm

0

Nie jestem pewna, czy dokładnie tego szukasz, ale możesz wykorzystać istniejące narzędzia, np. wget. Projekt jest również dostępny na Windowsa.

Przykład rekursywnego pobierania danych:

$ wget  --recursive --reject "index.html*" http://wp.pl

--recursive - pobierz rekursywnie wszystkie strony spięte z główną stroną
--reject "index.html"* - pomiń pliki index

1 użytkowników online, w tym zalogowanych: 0, gości: 1