Wyodrębnianie atrybutów produktu na podstawie opisu - implementacja

0

Mam za zadanie zbudować wyszukiwarkę produktów z naszej bazy danych działającej w sposób deskryptywny. Baza danych składa się różnych hoteli, pokoi, sal konferencyjnych itp. Idea działania sprowadza się do wyodrębnienia z wprowadzonego tekstu par typu: atrybut - wartość. Czyli użytkownik wpisuje: pokój dla dwóch osób dostępny 30 września w Warszawie
W efekcie mamy następujące pary:
typ rezerwacji - pokój
liczba osób - 2
okres - 30.09.
miejsce - Warszawa

Lista atrybutów jest odgórnie zdefiniowana, tzn. istnieje pewna skończona liczba atrybutów opisujących produkty, które mnie interesują.

Sam opis jak to działa jest zawarty w tym dokumencie: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.102.1095&rep=rep1&type=pdf natomiast jako, że zupełnie nie jestem w temacie algorytmów tekstowych, zastanawiam się, czy są już gotowe implementacje takich rozwiązań, które mógłbym wykorzystać, ewentualnie jakich algorytmów użyć, by złożyć wszystko w całość?

Obstawiam, że trzeba użyć "suffix stripping" dla języka polskiego.

1

suffix stripping czyli lematyzacja albo stemming, oba nie takie znowu proste dla języka polskiego (ale jest np. Morfeusz i CLP) ;) A co do samego pytania to obawiam sie że nie ma gotowca a napisanie tego samemu też wcale takie proste nie będzie. Raczej nie da rady tego zrobić inaczej jak tylko pattern matching na tym zapuścić i na pałe dopasowywać sobie frazy z tekstu.
Przetwarzanie języka naturalnego to nie rurki z kremem a dla jezyka polskiego to jeszcze level wyżej. Zajmowałem się tym trochę więc służę pomocą jakbyś miał jakieś konkretne pytania.

1 użytkowników online, w tym zalogowanych: 0, gości: 1