Web scraping i zapis danych do bazy

0

Hej,
W ramach wolnego czasu chcę sobie zrobić ciekawy projekt. Wymyśliłam aplikację przeszukującą kilka stron i zbierającą wszystkie ogłoszenia/oferty. Przykładowo - może być to kilka serwisów z ogłoszeniami sprzedaży samochodów, skąd pobierałabym oferty.
Kiedyś robiłam aplikację scrapującą, używając jSoup. Samo scrapowanie nie jest problemem, ale zastanawiam się nad przechowywaniem danych i problemem duplikatów.
Pobierając ofertę samochodu A ze strony xx.pl chcę sprawdzić czy przypadkiem nie mam już tej oferty w bazie (z tej samej strony lub innych).
Myślę też nad sprytnym rozwiązaniem sprawdzania czy oferta jest wciąż aktualna - tak bym po kilku tygodniach/miesiącach nie miała bazy-cmentarza starych ofert. Moglabym trzymać URLa do ogloszenia w tabeli z ofertą i stworzyć joba sprawdzającego co kilka godzin czy przypadkiem serwis z ogłoszeniem nie zwraca 404. Może macie lepszy pomysł?

Podsumowując, jakiej bazy byście do tego użyli? Elasticsearch czy może zwykłe, relacyjne?

1
  1. Potrzebujesz zestawu parametrów identyfikujących dany samochód. Kiedy dla Ciebie 2 oferty są takie same? Bierzesz pod uwagę przebieg, cenę itd?
  2. Możesz użyć relacyjnej bazy, Elastic przydałby się do fulltext searcha. Wtedy odpalasz na niej joba, który jest takim garbage collectorem :) zastanów się, co w przypadku, kiedy odpytywany serwis jest niedostępny.

1 użytkowników online, w tym zalogowanych: 0, gości: 1