Próbowałam kilku programów do OCRowania tekstu maszynowego. Testy odbyły się poprzesz eksport tabel z LibreOffice - dokumenty czytelne, litery wyraźne, bez żadnych defektów. W trakcie testów simpleOCR, GOCR/JOCR oraz Tesseract po prostu stopień rozpoznania tekstu jest porażająco kiepski. Zakres znaków w tekście był z alfabetu polskiego
Czy znają Państwo jakiś program/bibliotekę (inną niż wymienione), która potrafi rozczytywać dokumenty, (najlepiej aby miała możliwość --verbose, która też podaje pozycję znaków) niemal bezbłędnie. Po prostu nie wyobrażam sobie sytuacji by program nie potrafił przeczytać dokumentu napisanego Arialem, Courierem lub Times New Roman. Nie było w plikach png (wyraźnych, nie pixeloza, innych czcionek, nie było nawet czcionki pochylonej, gdzie mogłabym stwierdzić, że program może robić błędy. Wskazane, aby nie mylił program dużych liter z małymi, pomłka zera z O i małego L szeryfowego z 1 nie jest problemem, po OCRowaniu moge to poprawić. Jednak pomyłki "fl" z "A" i dalej sianie kaszanki zamiast tekstu są raczej niedopuszczalne.
Inetresują mnie głównie otwarte rozwiązania i bezpłatne.