Witam,
Mam pewien problem związany plikiem txt o rozmiarze 10 GB (zawiera 181 milionów linii tekstu). Pliku takiego nie da się otworzyć standardowym edytorem tj. notepad czy Notepad++. W związku z tym chciałem wczytać go programowo i podzielić na kilkadziesiąt mniejszych plików, które następnie będzie można przejrzeć i poddać dalszej analizie. Problemem jaki mam jest czas potrzebny na podział. Próbowałem różnych strategii: włącznie z czytaniem pliku przez wiele wątków niezależnie od siebie (tzn. jeden wątek wczytuje i dzieli część od linii 0 do linii 100 000, drugi od 100 001 linii do 200 000 linii itd). W przypadku pracy na wielu wątkach widać pewne przyspieszenie, ale wciąż czas potrzebny na przetworzenie takiej ilości danych jest strasznie długi (na mocnej maszynie wyszło mi że musiałbym czekać na wynik kilka dni). Czy istnieje jakaś opcja, która pozwoliłaby dokonać takiej operacji w sensownym czasie (np. kilka godzin/1 dzień)? Czy też może należy wykonać takie zadanie w innym języku programowania niż C#?
Pozdrawiam.