integracja rozpoznawania mowy z Asteriskiem

0

Witam!

Otóż stworzyłem sobie model akustyczny (na postawie mowy nagranej przez siebie, listy słów, fonemów) dla j. polskiego w programie SphinxTrain. Chciałbym teraz połączyć wszystkie komponenty, tj. bramkę abonencką PBX (Asterisk) przy pomocy Cairo/Zanzibar z rozpoznawaniem mowy Sphinx4. I mam parę problemów z konfiguracją tego całego Cairo/Zanzibar. Ich wsparcie działa raczej kiepsko, lista mailingowa Zanzibaru jest pusta, Cairo ma, ale mało aktywną. Na szczęście ich dokumentacja on-line (http://www.spokentech.org/openivr/intro.html oraz http://www.speechforge.org/projects/cairo/intro.html) jest w miarę dobra. Niestety, nie potrafiłem znaleźć tam jednej rzeczy, choć pewnie osoba znająca się na Asterisku byłaby w stanie udzielić mi odpowiedzi. A mianowicie jak miałbym zawrzeć swój model akustyczny? Używają domyślnych modeli ze Sphinksa, ja chciałbym użyć swojego modelu akustycznego. (Druga kwestia to miejsce, gdzie mam specyfikować algorytm, czy będzie to w kodzie źródłowym Zanzibar czy rozpoznawania mowy Sphinx).

Swój problem przedstawiłem tutaj: http://old.nabble.com/using-other-acoustic-models-in-Cairo-Zanzibar-to26879547.html na ich liście mailingowej, ale odpowiedzi się nie doczekałem. Podjerzewam, że jest to kwestia edycji jakichś prostych plików konfiguracyjnych.

Bardzo mi zależy na odpowiedzi na to pytanie, więc jeśli ktoś sobie tego zażyczy, mogę przetłumaczyć swój temat z ich listy mailingowej na j. polski.

Pozdrawiam!

0

a jak skompilowałeś sphinxa 4 bo ja próbuję i mi się nie udaje, właściwie nie ma żadnej strony, w której byłoby opisane jak to się kompiluje cały ten pakiet.

0

Witam!

Jeśli chcesz zrobić to w NetBeansie to proponuję:

Sphinx recognizer program will work in IDE itself
if use Netbean follow these steps

1.Right click the project
2.Select Properties
3.Select Run
4 in VM option type -Xmx256m
5 save

Then run your program
Make sure you have added all the required jar file in library

Podpowiedział mi to niejaki Shakthy doss, który najpierw samemu przejrzał moje tematy poświęcone Sphinx w NetBeans/Eclipse i miał te same trudności co ja. W końcu on doszedł do tych wniosków, które powyżej zacytowałem i poinformował mnie o nich mailem, ja zaś dałem sobie spokój z IDE i wszystko robiłem z poziomu Terminala w Linuksie przy pomocy Ant-a, zamiast IDE.

Generalnie to zacząć powinieneś od tego http://www.speech.cs.cmu.edu/sphinx/tutorial.html . Kilka drobnych uwag:

  1. Pod Windowsami są jakieś problemy z tym Microsoft Visual Studio C++. Trzeba było pewne pliki przenieść z jednego katalogu do drugiego (możesz poszukać mojego tematu na https://sourceforge.net/projects/cmusphinx/support -> Project Forums
  2. Tak że lepiej pod Linuksem. Nie zapomnij o ./ (kropka slash) przed komendami configure. Na Ubuntu była też konieczność dodania sudo przed make install, czyli 'sudo make install'. Trzy polecenia, które najczęściej się wykonuje jedno po drugim to ./configure, make, sudo make install.
    Czasem pojawia się też symbol tyldy (koło cyfry jeden na klawiaturze). Do tego trzeba pamiętać, że skrypty nie będą działać, jeśli się je wykona w nieodpowiednim katalogu.

Samo skompilowanie programów nie jest trudne. Potem więcej trudności pojawia się np. z decode.pl, który ciągle wyrzucał mi jakieś błędy, nawet dla an4, nie tylko mojego modelu.

Kompilacja własnego programu (albo demo po wprowadzeniu w nim zmian, np. w HelloDigits) sprowadza się do wykonania ant w głównym katalogu Sphinx4. Dla własnego programu trzeba oczywiście edytować build.xml i nazwaProgramu.xml, które wskazują na odpowiedni model akustyczny itd. No, chyba, że uda Ci się w NetBeansie/Eclipse, też można.

Jak coś to pytaj. Do czego w ogóle potrzebujesz tego Sphinksa? Ja teraz siedzę nad integracją z Cairo/Zanzibar: http://forum.dug.net.pl/viewtopic.php?pid=138574#p138574 oraz http://old.nabble.com/using-other-acoustic-models-in-Cairo-Zanzibar-to26879547.html#a26998499

Pozdrawiam!

0

mam zrobić rozpoznawanie mowy na pracę magisterską z użyciem sphinxa 4. Dema sphinxa mozna łatwo skompilować Antem nawet pod windowsem. Ale mnie trzeba skompilować jakieś demo pod netbeansem albo eclipsem albo jcreatorem 4.5. Jak umiesz to napisz proszę dokładnie jak to się robi np. jak skompilować wybrane demo HelloDigits.

0

Może trochę obok tematu, jest już dostępne polskie rozpoznawanie mowy
link do programu (działa w windows xp vista 7, 32 lub 64 bit) który
rozpoznaje dyktowaną polską mowę i zamienia ją na tekst i wpisuje do
dowolnego pola tekstowego innego dowolnego programu z pakietu office,
wordpad, notepad, itp.

tutaj jest polskie rozpoznawanie mowy:
http://skrybot.pl/produkty/rozpoznawanie-mowy-skrybot-domowy/
darmowy!
kod do interfejsu jest na sourceforge.net

1 użytkowników online, w tym zalogowanych: 0, gości: 1