Web scraping - jak się zabrać?

Cześć.
Nigdy nie parsowałem stron, dlatego chciałbym prosić o jakiekolwiek wskazówki dotyczące tego problemu.

Mam zrobić stronę według tych wstępnych wytycznych:

Do postawienia serwis na harvestowanej z http://www.example-addr.com/en/movies/all treści Czyli bierzemy np: http://www.example-addr.com/en/movies/14/PulpFiction.html
Potrzeba zharvestować dane: Direction: Quentin Tarantino
Scenario: Quentin Tarantino
Year: 1994
(...)
Dane są w języku angielskim.

Import do strony (nie posta) WPka na example.pl
tytuł filmu = title
kategoria = strona nadrzedna (zrobi się listę)
Opis = treść, fajnie by było jakby w locie się dało to przez API gTranslate puścić i żeby były 2 wersje od razu, będzie łatwiej moderatorowi to obrabiać Reszta danych (rok wydania, miniaturki, itd) - trzeba chyba użyć https://wordpress.org/plugins/advanced-custom-fields/

Jakie narzędzia byłyby przydatne? Załóżmy, że spis filmów na stronie do scrapowania to paginowana lista z elementami, po kliknięciu których otwierają się szczegóły filmu.

strzelam, że php, choć z samym wodpressem coś takiego niewiele ma wspólnego.

phpQuery, być może mała znajomość wyrażeń regularnych. dodatkowo jezeli chcesz masowo zbierać wszystko to lepiej to odpalać z konsoli (dostęp do ssh), a nie przez uruchomienie skryptu przez przeglądarkę.

Wordpress jest jako wymóg, nic na to nie poradzę. Zaletą jest to, że w ogóle nie martwię się o wygląd, a dostosuję tylko treść.

obczaję sobie to phpQuery, dzięki

Liczba odpowiedzi na stronę

Web scraping - jak się zabrać?

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami