Web scraping i zapis danych do bazy

Hej,
W ramach wolnego czasu chcę sobie zrobić ciekawy projekt. Wymyśliłam aplikację przeszukującą kilka stron i zbierającą wszystkie ogłoszenia/oferty. Przykładowo - może być to kilka serwisów z ogłoszeniami sprzedaży samochodów, skąd pobierałabym oferty.
Kiedyś robiłam aplikację scrapującą, używając jSoup. Samo scrapowanie nie jest problemem, ale zastanawiam się nad przechowywaniem danych i problemem duplikatów.
Pobierając ofertę samochodu A ze strony xx.pl chcę sprawdzić czy przypadkiem nie mam już tej oferty w bazie (z tej samej strony lub innych).
Myślę też nad sprytnym rozwiązaniem sprawdzania czy oferta jest wciąż aktualna - tak bym po kilku tygodniach/miesiącach nie miała bazy-cmentarza starych ofert. Moglabym trzymać URLa do ogloszenia w tabeli z ofertą i stworzyć joba sprawdzającego co kilka godzin czy przypadkiem serwis z ogłoszeniem nie zwraca 404. Może macie lepszy pomysł?

Podsumowując, jakiej bazy byście do tego użyli? Elasticsearch czy może zwykłe, relacyjne?

Potrzebujesz zestawu parametrów identyfikujących dany samochód. Kiedy dla Ciebie 2 oferty są takie same? Bierzesz pod uwagę przebieg, cenę itd?
Możesz użyć relacyjnej bazy, Elastic przydałby się do fulltext searcha. Wtedy odpalasz na niej joba, który jest takim garbage collectorem :) zastanów się, co w przypadku, kiedy odpytywany serwis jest niedostępny.

Liczba odpowiedzi na stronę

Web scraping i zapis danych do bazy

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami