Jak optymalnie scrapować i zapisywać duże zbiory danych

0

Pytanie jak w temacie. Mam scraper, który dla kazdego elementu z tablicy wykonuje coś takiego:

  1. requset http po html
  2. wyciągnięcie danej z html
  3. zapis danej do bazy

Punkt 1 trwa zdaje się najdłużej. Pytanie jak mogę wykorzystać asynchroniczność / wielowątkowość żeby przyspieszyć cały proces. Elementów w tablicy jest kilka milionów, w obecnym tempie będą się pobierać przez kilka dni. Scraper piszę w nodzie. Może ktoś pomóc?

1

W czym jest ten scrapper napisany?

0

Napisałem - Node.js

1

Nie znam tego czegoś w czym Piszesz, ale jest sporo bibliotek asynchronicznych, na necie; np., ta:
https://github.com/async-js/async
wygląda obiecująco, ma to co Potrzebujesz: mapę. Tutaj, co prawda w Pythonie:
https://realpython.com/python-concurrency/
ale ładnie wytłumaczone, jak to zrobić (korzystałem ze wzrców z tego artykułu i śmigało :)).

1 użytkowników online, w tym zalogowanych: 0, gości: 1