Mam za zadanie zbudować wyszukiwarkę produktów z naszej bazy danych działającej w sposób deskryptywny. Baza danych składa się różnych hoteli, pokoi, sal konferencyjnych itp. Idea działania sprowadza się do wyodrębnienia z wprowadzonego tekstu par typu: atrybut - wartość. Czyli użytkownik wpisuje: pokój dla dwóch osób dostępny 30 września w Warszawie
W efekcie mamy następujące pary:
typ rezerwacji - pokój
liczba osób - 2
okres - 30.09.
miejsce - Warszawa
Lista atrybutów jest odgórnie zdefiniowana, tzn. istnieje pewna skończona liczba atrybutów opisujących produkty, które mnie interesują.
Sam opis jak to działa jest zawarty w tym dokumencie: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.102.1095&rep=rep1&type=pdf natomiast jako, że zupełnie nie jestem w temacie algorytmów tekstowych, zastanawiam się, czy są już gotowe implementacje takich rozwiązań, które mógłbym wykorzystać, ewentualnie jakich algorytmów użyć, by złożyć wszystko w całość?
Obstawiam, że trzeba użyć "suffix stripping" dla języka polskiego.