Mam liste słów, która zawiera wyrazy ze znakami niedozwolonymi np. &€@,
lista = [‚slowo’ , ‚do&’, ‚dwa’, ‚t@y’]
Jeżeli wyraz składa się ze znaków dozwolonych i nie, to zamieniamy znaki niedozwolone na spacje -- jeżeli podzieli to wyraz na co najmniej dwie części traktujemy je jako oddzielne wyrazy w późniejszym wyszukiwaniu n-gramów.
Po takich filtracjach do każdego wyrazu na początku dodajemy znak '<' i '>', które będą oznaczać początek i koniec wyrazu.
Jakieś pomysły?