mam taki dziwny problem, mianowicie potrzeba skrypt/kod, który przeszuka 1 linijki i porówna ze sobą. Ale żeby nie było tak prosto, to warunkiem jest, że muszą być rozbudowane funkcje tego przeszukania, np. "zgodność i podobieństwo w 70%".
podam przykłady:
pracujemy na plikach *.txt (zwykłe dane tekstowe), w każdym z tych plików jest 1 linijka = 1 wartość nazwa. Np:
czerwony kapturek idzie przez las
szklanka wody jest pusta
pada deszcz, grzmi burza
czarna komórka leży na stole
w lesie jest kapturek koloru czerwonego
kapturkowi czerwonemu dobrze jest w lesie
i teraz tak
-1 linijka = 1 wartość do przeszukania
- linijek w pliku może być nawet 15 000
- każda linijka ma od 1 znaku do 50, włącznie ze spacjami i przecinkami (znaki używane przez ludzi gdy pisza teksty, czyli w sumie utf-8).
Zależy mi, żeby skrypt wyłapał, że linijka 1 i dwie ostatnie są do siebie podobne, ale nie identyczne. Zauważmy, że linijki różnią się np. gramatyką, ale w sumie ich treść może być zbliżona.
i teraz fajnie byłoby, żeby np. w skrypcie dało się ustawiać jakieś bardziej zaawansowane paramety dotyczące analizy składni, w sensie, żeby te podobieństwa wyłapał nawet na poziomie 30%.
reasumując: wyłapanie wszystkiego (linijek w *.txt) co jest w jakimś stopniu podobne, ale nie identyczne (NIE: 1 do 1). No i określamy stopień podobieństwa (np. na podstawie pojedynczych słów, cząstek słów w całej linijce) - np. 50%.
jak się za to zabrać, jakiej biblioteki python/php użyć, jakiego softu? (tylko rzeczy konsolowe)