PoDoFo PdfContentsTokenizer Access violation reading location

0

Hej, kiedy próbuję wydobyć tekst z pdf poprzez coś takiego:

string input_name = "example.pdf";
PdfMemDocument pdf(input_name.c_str());
    for (int pn = 0; pn < pdf.GetPageCount(); ++pn) {
        PdfPage* page = pdf.GetPage(pn); 
        PdfContentsTokenizer tok(page);
        const char* token = nullptr;
        PdfVariant var;
        EPdfContentsType type;
        while (tok.ReadNext(type, token, var)) {
           //etc.

nie zawsze to wychodzi, polecenie

PdfContentsTokenizer tok(page);

**dla jednych plików działa bez problemu, a dla innych wyrzuca błąd **

Access violation reading location

w tym miejscu
inffas32.asm, 669 linijka:

L_get_length_code_mmx:
pand mm4,mm0
movd eax,mm4
movq mm4,mm3
mov  eax, [ebx+eax*4]////////////w tej linijce pokazuje się błąd

Od czego to zależy? Czy da się jakoś inaczej dotrzeć do suchego tekstu w pdf?

0

segfault.
Uzyj debugera.

0

Ktoś się orientuje czy da się(ew. jak) wczytać polskie znaki poleceniem

 PdfString x_s = var.GetString();

ewentualnie jakimś innym?

1 użytkowników online, w tym zalogowanych: 0, gości: 1