Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.
Niektórzy po prostu template matching używają do tego po oczywiście wstępnej obróbce np adaptive threshold.
Jak masz bardzo kiepskiej jakości, albo powyginane to wtedy bym się bawił w OCR.
A google drive nie robi tego domyślnie?
phantom_wizard napisał(a):
Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.
Wszystko zależy jak bardzo idealnego rozwiązania potrzebujesz, ale darmowe alternatywy radzą sobie całkiem dobrze (przetestowałem):
https://ocrmypdf.readthedocs.io/en/latest/index.html
główne problemy jakie mogą się pojawić to np kastrowanie polskich znaków z ogonków, lub rozdzielanie na znak i przecinek.
Ale jak potrzebujesz z pdf-a będącego stertą grafik zrobić pdf-a wyszukiwalnego to jak najbardziej.