Hej,
W ramach wolnego czasu chcę sobie zrobić ciekawy projekt. Wymyśliłam aplikację przeszukującą kilka stron i zbierającą wszystkie ogłoszenia/oferty. Przykładowo - może być to kilka serwisów z ogłoszeniami sprzedaży samochodów, skąd pobierałabym oferty.
Kiedyś robiłam aplikację scrapującą, używając jSoup. Samo scrapowanie nie jest problemem, ale zastanawiam się nad przechowywaniem danych i problemem duplikatów.
Pobierając ofertę samochodu A ze strony xx.pl chcę sprawdzić czy przypadkiem nie mam już tej oferty w bazie (z tej samej strony lub innych).
Myślę też nad sprytnym rozwiązaniem sprawdzania czy oferta jest wciąż aktualna - tak bym po kilku tygodniach/miesiącach nie miała bazy-cmentarza starych ofert. Moglabym trzymać URLa do ogloszenia w tabeli z ofertą i stworzyć joba sprawdzającego co kilka godzin czy przypadkiem serwis z ogłoszeniem nie zwraca 404. Może macie lepszy pomysł?
Podsumowując, jakiej bazy byście do tego użyli? Elasticsearch czy może zwykłe, relacyjne?