Jak optymalnie scrapować i zapisywać duże zbiory danych

Pytanie jak w temacie. Mam scraper, który dla kazdego elementu z tablicy wykonuje coś takiego:

requset http po html
wyciągnięcie danej z html
zapis danej do bazy

Punkt 1 trwa zdaje się najdłużej. Pytanie jak mogę wykorzystać asynchroniczność / wielowątkowość żeby przyspieszyć cały proces. Elementów w tablicy jest kilka milionów, w obecnym tempie będą się pobierać przez kilka dni. Scraper piszę w nodzie. Może ktoś pomóc?

W czym jest ten scrapper napisany?

Napisałem - Node.js

Nie znam tego czegoś w czym Piszesz, ale jest sporo bibliotek asynchronicznych, na necie; np., ta:
https://github.com/async-js/async
wygląda obiecująco, ma to co Potrzebujesz: mapę. Tutaj, co prawda w Pythonie:
https://realpython.com/python-concurrency/
ale ładnie wytłumaczone, jak to zrobić (korzystałem ze wzrców z tego artykułu i śmigało :)).

Liczba odpowiedzi na stronę

Jak optymalnie scrapować i zapisywać duże zbiory danych

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami