Dany jest serwis internetowy, który udostępnia interesujące mnie treści, ale są one rozlokowane na wielu jego podstronach. Ręczne ich pobieranie byłoby żmudne. Chciałbym ten proces zautomatyzować. Pomocna w tym przypadku byłaby modyfikacja kodu javascript, ale czy nie jest to nielegalne (nawet jeśli odwołujemy się do danych, do których i tak mamy legalny dostęp)? Niezależnie od tego, czy istnieją programy, które ułatwiają takie i im podobne zadania bez umiejętności programowania i/lub ingerowania w konstrukcję owych witryn?
0
1
- program wget
- zapytanie w google + dodanie site: np.
https://www.google.pl/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#safe=off&q=site:4programmers.net+kalkulator - selenium
- phantomjs, casperjs etc.
- curl
i tak dalej... ;)
0
Miałem kiedyś bardzo podobny program do rozwiązania.
Jeżeli adres podstron ma konkretną, systematyczną strukturę np. http://website.com/page/1, http://website.com/page/2 itd. oraz dane na stronie są sformatowane zawsze w ten sam sposób np. w określonej strukturze tagów HTML, to możesz:
- Napisać w dowolnym, znanym Ci języku parser pojedynczej strony za pomocą wyrażeń regularnych, za pomocą którego wyciągniesz interesujące Cię dane.
- Uruchomić w terminalu skrypt lub program który wykona zapytania do serwera w pętli inkrementując numer strony, wyciągając i zapisując wcześniej dane za pomocą przygotowanego parsera.
0
A nie udostępnia ten serwis jakiegoś API do uzyskania tych treści?