przetworzenie 8 000 000 wierszy

0

Rozszerzenie .txt
Mamy tam około 8 000 000 wierszy.
Interesuje mnie jedna kolumna z komunikatem.
Potrzebuję policzyć ilość tych komunikatów ze wzgledu na rodzaj.
czyli np. jak mam na wejsciu:
k1
k1
k1
k2
k43
k2
k244

to na wyjsciu chce miec k1 3
k2 2
k43 1
k244 1

Import do Excela odpada. Jak byście przetworzyli ten plik?

0

Hashmapa (słownik) nazwa komunikatu -> ilość wystąpień. Co do narzędzia to Perl, Python, lub programy z powłoki Uniksa (których nigdy się nie nauczyłem się używać bo piszę skrypty w Pythonie).

0
Zjarek napisał(a):

Hashmapa (słownik) nazwa komunikatu -> ilość wystąpień.

ok, a skąd wziąć takie cudo w notatniku, excelu, R, SASie itp?

0
from __future__ import with_statement
import collections

def main():
	with open("dane.txt") as f:
		counting = collections.defaultdict(int)
		for entry in f:
			counting[entry]+=1
		for entry,occurrences in counting.items(): 
			print "%s : %s" % (entry,occurrences)
main()
0

Shalom, dzięki, ale gdzie mam to wpisać? do notatnika? lol nie jestem programista nie znam sie...

0

dzięki, pojawia sie tylko problem ze nie moge sobie tak o sciagnac intepretera i zainstalowac... u nas w firmie na instalacje czegokolwiek czeka się tygodniami ;/ (sprawdzaja cala licencję czy program jest takze na uzytek komercyjny).
a nie dalo by sie tego zrobic z poziomu VBA w EXcelu?

1 użytkowników online, w tym zalogowanych: 0, gości: 1