W 2021 chcialem poanalizowac dane dla ofert na rynku IT w Polsce i ustawilem sobie malego crona w AWSie, ktory raz dziennie zaciagal dane z JustJoinIT (z endpointu wystawiajacego wszystkie oferty) i zapisywal otrzymanego JSONa do bucketu w S3. Zarzucilem projekt z braku czasu, natomiast cron dzialal sobie caly czas i nazbieralo sie troche danych - pierwszy zaciagniety dzien to 2021-10-23, a ostatni dzien to 2023-09-25 (no i brakuje 32 dni z powodu blednego kodu lambdy).
Postanowilem opublikowac ten dataset, wiec jak ktos ma ochote pogrzebac w tych danych, to mozna je sciagnac tutaj: https://www.kaggle.com/datasets/jszafranqb/justjoinit-job-offers-data-2021-10-2023-09
1GB po skompresowaniu, ~8.5GB bez kompresji, 1 plik JSON per dzien.