Zbieranie informacji ze stron WWW - jak ?

0

Witam,
ostatnio na jednym z portali ogłoszeniowych znalazłem zlecenie dotyczące zbierania danych firm z serwisu pf.pl. Temat ten zainteresował mnie, ponieważ nigdy nie miałem okazji robić coś podobnego.. (w ogóle mój związek z Web'em to jedynie proste strony html/php).

Zastanawiam się, jak tego typu zadanie zostałoby zrealizowane od strony programistycznej? Jeżeli byłoby udostępniane API serwisu, to wtedy można byłoby wszystko bardzo łatwo obsłużyć. Co w przypadku, gdy takowego API brakuje... czy realizowane jest to w taki sposób, że pobierana jest zawartość jakiejś podstrony serwisu i według 'przyjętego wzorca' (regex) wyszukiwane są pożądane informacje ? Ale chyba tego typu 'zabiegi' nie są zbyt wydajne ? Poza tym jak przechodzić po wszystkich podstronach danego serwisu ? (a najlepiej w tym przypadku po podstronach będących 'wizytówką' danego przedsiębiorstwa).

Ogólnie proszę o wypowiedzenie się w temacie ;)

0

Jeżeli dany serwis nie oferuje API, to zapewne jego właściciel celowo nie udostępnia możliwości pobierania i wykorzystywania materiałów; W takim przypadku pobieranie i wykorzystywanie zgromadzonych na stronie informacji to kradzież, na pewno niezgodna z regulaminem serwisu :]

0

@furious programming Nie zmienia to faktu, że takich zleceń na zebranie danych ze stron jest wiele.

mareKO Tak dobrze mówisz, pobierasz zawartość strony wyszukujesz potrzebnych treści + wszystkie linki wewnętrzne i lecimy z rekurencją :p

0

@mareKO lekcja na dziś: crawler
Poza tym ja bym nie przesadzał z tą kradzieżą. Czasami ktoś potrzebuje pobrać dane z jakiejś strony w celach naukowych a API nie ma. Na przykład crawlowanie 4programmers żeby zrobić tu analizę sieci społecznych i inferencje tematyki poruszanej przez odszukane w ten sposób grupy? ;) Albo przeanalizować kto jest największym trollem? ;)

0

@furious programming -

..zapewne jego właściciel celowo nie udostępnia możliwości pobierania i wykorzystywania materiałów

  • za pewnik bym tego nie brał ;)

Podsumowując - trzeba to robić tak jak podejrzewałem .. (bo raczej innej metody nie ma..).

A pisząc tego pierwszego posta napisałem...

Poza tym jak przechodzić po wszystkich podstronach danego serwisu ? (a najlepiej w tym przypadku po podstronach będących 'wizytówką' danego przedsiębiorstwa).

i odnosząc się już do przytoczonego przykładu strony pf.pl - to jaki mielibyście pomysł na wyszukiwanie podstron będących 'wizytówkami', gdyż tylko tam znajdowałyby się istotne informacje do przetworzenia ? W tym przypadku można by przeglądać kategorie/podkategorie i następnie przeglądać po kolei kolejne podstrony.. (albo wykorzystać jakąś sitemape o ile jest..) ?

1 użytkowników online, w tym zalogowanych: 0, gości: 1