Wątek przeniesiony 2024-04-23 10:01 z Off-Topic przez cerrato.

Jaki OCR do PDF?

0

Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.

0

Niektórzy po prostu template matching używają do tego po oczywiście wstępnej obróbce np adaptive threshold.

Jak masz bardzo kiepskiej jakości, albo powyginane to wtedy bym się bawił w OCR.

0

A google drive nie robi tego domyślnie?

0
phantom_wizard napisał(a):

Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.

Wszystko zależy jak bardzo idealnego rozwiązania potrzebujesz, ale darmowe alternatywy radzą sobie całkiem dobrze (przetestowałem):

https://ocrmypdf.readthedocs.io/en/latest/index.html

główne problemy jakie mogą się pojawić to np kastrowanie polskich znaków z ogonków, lub rozdzielanie na znak i przecinek.
Ale jak potrzebujesz z pdf-a będącego stertą grafik zrobić pdf-a wyszukiwalnego to jak najbardziej.

0 użytkowników online, w tym zalogowanych: 0, gości: 0