Witam,
Borykam się z problemem stworzenia systemu do rozpoznawanie prostych komend głosowych.
Do zadań tego systemu będzie należało rozpoznawanie takich komend jak np. :
"Robot go 10" (robot idź prosto o 10 jednostek)
"Robot turn 45" (robot obróć się o 45 stopni)
"Robot go minus 10" (do tyłu o 10 jednostek)
Docelowo z robotem miałem porozumiewać się po polsku, ale dla ułatwienia można to zrobić po angielsku.
Teraz pytanie od czego właściwie zacząć bo ze sphinxem nie miałem do tej pory kontaktu. Z tego co przeczytałem to trzeba stworzyć model języka, słownik, a później model akustyczny. Czy to się zgadza?
Rozumiem, że tworzenia słownika polega na wpisania słowa np. robot i obok jego fonetycznego odpowiednika. Ze sphinxem dostarczany jest obszerny słownik z językiem angielskim. Czy można go wykorzystać? Czy można zwiększyć efektywność poprzez wyrzucenie słów, których nie potrzebuję?
Co dalej? Rozumiem, że do stworzenia modelu akustycznego potrzebne są próbki dźwiękowe, ale czy to mają być nagrane pojedyncze słowa, czy też całe zdania?
W jaki sposób stworzyć model ciszy? (odstęp pomiędzy wypowiadanymi komendami)
Za wszelkie porady z góry dziękuję.