Trenowanie Silnika OCR

0

Cześć,

chcę z pomocą tesseractu wytrenować odczywtywanie tekstu z dość specyficznych plików. Zna ktoś może narzedzie które pozwoli w miarę sprawnie przygotować pliki txt dla każdego zdjęcia? Przykładowo. Dla 0001.png 0001.gt.txt. Bardzo by to przyszpieszyło pracę nad tym.

Z góry dzięki za pomoc! 

(nie wiem czy to dobry dział)

0

@Wiktor Ludwiniak:
Czy dobrze rozumiem, że chcesz przygotować sobie ground truth przy pomocy jakiegoś działającego silnika OCR, żeby wytrenować własny?

0

Nie wiem, na czym polega specyfika tych twoich plików, ale może łatwiej byłoby dokonać operacji odwrotnej:
Na podstawie plików tekstowych wygenerować bitmapy z ich zapisem + ew. szum i zniekształcenia.

1 użytkowników online, w tym zalogowanych: 0, gości: 1