Przykładowe dane (np. CSV) - duże pliki 2-3 gb

0

Heja,

obecnie bawię się w Pandas w Pythonie, wszystko fajnie, tylko chciałbym poćwiczyć na dużych plikach.

Czy orientuje się ktoś, gdzie mogę znaleźć duże darmowe pliki (np. CSV), które będę mógł zaimportować do mojego projektu?

Pisząc "duże pliki" mam na myśli pliki o wadze co najmniej 2 gb.

1

Coś z tego może? Mogą być za duże niektóre — na przykład Google Books Ngrams waży 2.2 TB.

0

@slepysnajper: ostrożnie z tak dużymi plikami, bo potrzeba na nie dużo pamięci. Może okazać się konieczne rozbicie DataFrame na kawałki.

1

Nie trzeba od razu całego pliku wczytywać do pamięci można wczytywać tylko jedną linijkę z danego pliku, obsłużyć ja i do następnej linii. Przy takim podejściu wielkość pliku jest pomijalna jeśli chodzi o pamięć ram.

0

Jeżeli Twój system wczytuje duże pliki po 2-3gb a chcesz poćwiczyć może lepiej zainteresować się bazami danych gdzie za pomocą generatora wygenerujesz sobie 2-3gb rekordów.
duże pliki są problematyczne, przechowywanie takiej ilości danych w plikach csv jest moim zdaniem błędem architektonicznym

1

@slepysnajper: pod Javę mam np. fajna bibliotekę Java Faker. Można sobie wygenerować "losowe" bazy z dowolną ilością danych i się nimi bawić.

Poszukaj podobnej biblioteki pod Pajtona.

0

Wczytaj dump StackOverflow do bazy danych i wyeksportuj do CSV. Tutaj przykład dotyczący SQL Servera.
https://www.brentozar.com/archive/2015/10/how-to-download-the-stack-overflow-database-via-bittorrent/

0
Masteratom napisał(a):

Nie trzeba od razu całego pliku wczytywać do pamięci można wczytywać tylko jedną linijkę z danego pliku, obsłużyć ja i do następnej linii. Przy takim podejściu wielkość pliku jest pomijalna jeśli chodzi o pamięć ram.

możesz rozwiąć myśl? chodzi Ci o iterrows?, analiza dużych zbiorów linia po linii to bardzo zły pomysł ,jeżeli chodziło CI o iteracje line by line.
Pliki tak duze można np na kaggle znaleźć. I te 2gb to jest tak na prawde mały plik dla Pandasa.
Ten misiek ma dużo rozwiązań które pomagają w szybkim wczytywaniu większych zbiorów.- ostatecznie DASK

1 użytkowników online, w tym zalogowanych: 0, gości: 1