cmu sphinx tworzenie modelu języka

0

Witam,

Borykam się z problemem stworzenia systemu do rozpoznawanie prostych komend głosowych.
Do zadań tego systemu będzie należało rozpoznawanie takich komend jak np. :

"Robot go 10" (robot idź prosto o 10 jednostek)
"Robot turn 45" (robot obróć się o 45 stopni)
"Robot go minus 10" (do tyłu o 10 jednostek)

Docelowo z robotem miałem porozumiewać się po polsku, ale dla ułatwienia można to zrobić po angielsku.

Teraz pytanie od czego właściwie zacząć bo ze sphinxem nie miałem do tej pory kontaktu. Z tego co przeczytałem to trzeba stworzyć model języka, słownik, a później model akustyczny. Czy to się zgadza?

Rozumiem, że tworzenia słownika polega na wpisania słowa np. robot i obok jego fonetycznego odpowiednika. Ze sphinxem dostarczany jest obszerny słownik z językiem angielskim. Czy można go wykorzystać? Czy można zwiększyć efektywność poprzez wyrzucenie słów, których nie potrzebuję?

Co dalej? Rozumiem, że do stworzenia modelu akustycznego potrzebne są próbki dźwiękowe, ale czy to mają być nagrane pojedyncze słowa, czy też całe zdania?
W jaki sposób stworzyć model ciszy? (odstęp pomiędzy wypowiadanymi komendami)

Za wszelkie porady z góry dziękuję.

0

http://cmusphinx.sourceforge.net/sphinx4/doc/ProgrammersGuide.html
Z tym, że to jest tylko wejście; Chwila roboty.

0

Najpierw piszesz np. "Halo jestem" plik.txt Tekst
Potem H AH L AO
Y EH S T EH M plik.word Tekst Foniczny ( model foniczny)
Potem lmplz zamienia to na n-gram ( u mnie aż order=5 ) ( model językowy )
potem kolejne aż 7 sphinx_fe.... bw ....itd ( ścieżki !!! ) ( model akustyczny )
i już chodzi u mnie WER 85% w word_align ( genialny program w pythonie )
a jak poprawić to WYTRENOWAĆ

g2p-seq2seq --train --text plik.word --model_dir directory_dla_modelu_akustycznego czyli tam gdzie sphinx_fe.... i te 7
aha tam wlaśnie wypełnienie modelu akustycznego i jego TRENOWANIE w katalogu mdef variances ......
Uruchamiasz : pocketsphinx_continuous -inmic yes --hmm........... wg. cmu-sphinx

1 użytkowników online, w tym zalogowanych: 0, gości: 1