Automatyzacja żmudnego zadania

Dany jest serwis internetowy, który udostępnia interesujące mnie treści, ale są one rozlokowane na wielu jego podstronach. Ręczne ich pobieranie byłoby żmudne. Chciałbym ten proces zautomatyzować. Pomocna w tym przypadku byłaby modyfikacja kodu javascript, ale czy nie jest to nielegalne (nawet jeśli odwołujemy się do danych, do których i tak mamy legalny dostęp)? Niezależnie od tego, czy istnieją programy, które ułatwiają takie i im podobne zadania bez umiejętności programowania i/lub ingerowania w konstrukcję owych witryn?

program wget
zapytanie w google + dodanie site: np.
https://www.google.pl/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#safe=off&q=site:4programmers.net+kalkulator
selenium
phantomjs, casperjs etc.
curl
i tak dalej... ;)

Miałem kiedyś bardzo podobny program do rozwiązania.
Jeżeli adres podstron ma konkretną, systematyczną strukturę np. http://website.com/page/1, http://website.com/page/2 itd. oraz dane na stronie są sformatowane zawsze w ten sam sposób np. w określonej strukturze tagów HTML, to możesz:

Napisać w dowolnym, znanym Ci języku parser pojedynczej strony za pomocą wyrażeń regularnych, za pomocą którego wyciągniesz interesujące Cię dane.
Uruchomić w terminalu skrypt lub program który wykona zapytania do serwera w pętli inkrementując numer strony, wyciągając i zapisując wcześniej dane za pomocą przygotowanego parsera.

A nie udostępnia ten serwis jakiegoś API do uzyskania tych treści?

Liczba odpowiedzi na stronę

Automatyzacja żmudnego zadania

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami