Automatyzacja żmudnego zadania

0

Dany jest serwis internetowy, który udostępnia interesujące mnie treści, ale są one rozlokowane na wielu jego podstronach. Ręczne ich pobieranie byłoby żmudne. Chciałbym ten proces zautomatyzować. Pomocna w tym przypadku byłaby modyfikacja kodu javascript, ale czy nie jest to nielegalne (nawet jeśli odwołujemy się do danych, do których i tak mamy legalny dostęp)? Niezależnie od tego, czy istnieją programy, które ułatwiają takie i im podobne zadania bez umiejętności programowania i/lub ingerowania w konstrukcję owych witryn?

1
  1. program wget
  2. zapytanie w google + dodanie site: np.
    https://www.google.pl/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#safe=off&q=site:4programmers.net+kalkulator
  3. selenium
  4. phantomjs, casperjs etc.
  5. curl
    i tak dalej... ;)
0

Miałem kiedyś bardzo podobny program do rozwiązania.
Jeżeli adres podstron ma konkretną, systematyczną strukturę np. http://website.com/page/1, http://website.com/page/2 itd. oraz dane na stronie są sformatowane zawsze w ten sam sposób np. w określonej strukturze tagów HTML, to możesz:

  1. Napisać w dowolnym, znanym Ci języku parser pojedynczej strony za pomocą wyrażeń regularnych, za pomocą którego wyciągniesz interesujące Cię dane.
  2. Uruchomić w terminalu skrypt lub program który wykona zapytania do serwera w pętli inkrementując numer strony, wyciągając i zapisując wcześniej dane za pomocą przygotowanego parsera.
0

A nie udostępnia ten serwis jakiegoś API do uzyskania tych treści?

1 użytkowników online, w tym zalogowanych: 0, gości: 1