gdyby ktoś z was chciał pisać OCR dla captchy to...

2

ciekawy art:
http://ocrwdokumentach.pl/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/

jak widzicie, jeden wyraz w recaptcha jest wyrazem, z którym OCR sobie nie radzi, a co dopiero gdybyście wy chcieli pisać łamacza OCR i łamać pofalowane, zakrzywione słowa, jeszcze trudniej jest (a OCR nawet bez zmian może mieć problemy).
Testowałem 5 OCRów na captcha google, żaden sobie nie radził z rozpoznawaniem (te OCRy były różne, niektóre przeznaczone specjalnie do captcha, inne do skanów książek). Może jest jakiś PRO OCR o którym nie wiem? chętnie poznam.

2

prawdziwe przeznaczenie recaptchy nie jest tajemnicą ;-)

Ale dodam że nie jest (z ich punktu widzenia) w 100% pewna metoda. Skanowane książki często są stare, a czasem bardzo stare.
A stare teksty mogą mieć różne typograficzne wynalazki, które wyszły z użycia:

250px-Milton_paradise.jpg

Co byście wpisali? “Paradife loft”? Nie, to jest “Paradise lost”, tylko to takie s dziwne.
Ma nawet osobny znak w Unicode:

Paradiſe loſt.

Kilka razy już trafiałem na tego typu kwiatki, i mimo że słowo podawałem prawidłowo (bo „wiem lepiej”) to recaptcha mi odrzucała odpowiedź, bo większość odpowiadała źle i nieprawidłowa odpowiedź już została zaindeksowana.

1

To i ja dorzucę swoje dwa kwiatki z reCaptcha ;-)
recaptcha-greek.png
recaptcha-chineese.png

1

moze teraz palne cos oczywistego dla wielu ...
ale recaptcha sklada sie z 2 wyrazow 1 prawidlowego pod captche tego server oczekuje i 2 tego z ksiazki/pergaminu/scian piramid etc to mozna ignorowac , wpisac dupa .. cokolwiek i przejdzie , kwesia skapniecia sie ktore to te niewymagane

0

niewymagany jest ten niepofalowany - nie utrudniaja rozpoznawania znaków, których sami nie mogą odczytać (choć są od tego wyjątki, patrz drugi obrazek)

moje recaptche:
zjOkaQy.jpg (nie chcialo mi sie szukac greckiego slownika)

2audAcS.jpg
0

Wśród ludzi na tym forum pewnie 90% wie do czego służy reC i z czego się biorą dane, więc nie burzysz nam światopoglądu ;)

Z ciekawszych captchy:
user image

user image

0

Ja kilka razy w "reC" dostałem kawałek zdjęcia z tabliczką z numerem jakiegoś domu.

1

ponoć kiedyś była akcja ,że wszyscy zaczęli w te słowo co służyło do OCR wpisywać "nigger" i ponoć google translate przez jakiś czas jakimś cudem ,źle tłumaczyło słowa(np ktoś chciał przetłumaczyć słowo "jajko" na angielski to wyskakiwało nigger). Nie wiem czy to prawda czy mit.

0

Mam pewien pomysł na serwis, który łamał by takie rzeczy. Dla przykładu przy logowaniu na 4p dodano by recaptche, ale nie własną tylko z innego serwisu np. rejestracja maila, w ten sposób jeśli rejestracja maila się udała to i user może się zalogować jeśli nie no to dostaje kolejny obrazek z innego serwisu :P. Dwie pieczenie na 1 ogniu albo zatrudnić hińczyków i płacić juana za 5 obrazków hehe.

1 użytkowników online, w tym zalogowanych: 0, gości: 1