Wypowiedzcie się proszę na temat wykonania domowym sposobem Systemu Rozpoznawania Mowy Polskiej. Pozdrawiam.
Wypowiedzcie się proszę na temat wykonania domowym sposobem Systemu Rozpoznawania Mowy Polskiej. Pozdrawiam.
Jesli masz odpowiednia wiedze i doswiadczenie, to pare miesiecy roboty, jesli nie to pare lat. Zalezy tez od czego chcesz zaczac... ;)
Nie zrobisz tego i tak bo i tak nie istnieje nawet angielsko jezyczny system który by działał w pełni sprawnie.
Nie zrobisz tego i tak bo i tak nie istnieje nawet angielsko jezyczny system który by działał w pełni sprawnie.
Akurat angielski jest jednym z trudniejszych języków pod tym względem. Ale i tak łatwe to na pewno nie jest (nie męczyliby się tak ludzie na naszych uczelniach :P).
Ale powodzenia.
Akurat angielski jest jednym z trudniejszych języków pod tym względem.
Tzn. pod jakim? Pod wzgledem konwersji grafemy <-> fonemy owszem, ale rozpoznawac mowe wystarczy do postaci fonemow :P Na tym etapie nie widze zbytniej roznicy w komplikacji problemu.
Zalezy co on dalej z tym chce robic...
z tego co mi wiadomo to wszystko opiera sie na sztucznych sieciach neuronowych. Owym sieciom "pokazuje" sie np dana zgloske i uczy sie je rozpoznawac owe zgloski w zdaniu etc. Potem to co jakas osoba mowi "do programu" jest pokazywane znowu owej sieci i ona mowi programowi co to znaczy ;P
//ash, przeciez OCRy tez ponoc na sieciach neuronowych bazuja
z tego co mi wiadomo to wszystko opiera sie na sztucznych sieciach neuronowych. (...)
Nie opowiadaj bajek ;) Na sieciach neuronowych to sie opieraja najwyzej systemy eksperymentalne majace na celu znalezienie analogii jakiegos konkretnego zjawiska u ludzi i w uczeniu maszynowym. Systemy produkcyjne nie maja nic, albo minimalnie malo wspolnego z sieciami neuronowymi. Chocby dlatego, ze sieci neuronowe bardzo slabo sobie radza ze zjawiskami dynamicznymi, zachodzacymi w czasie.
// że co? a słyszał o dynamicznych sieciach neuronowych? poza tym czasu można się dość łatwo pozbyć - ŁF
Akurat angielski jest jednym z trudniejszych języków pod tym względem.
Tzn. pod jakim? Pod wzgledem konwersji grafemy <-> fonemy owszem, ale rozpoznawac mowe wystarczy do postaci fonemow :P Na tym etapie nie widze zbytniej roznicy w komplikacji problemu.
Zalezy co on dalej z tym chce robic...
Grafemy <-> fonemy także. Ale w angielskim jest też dużo głosek. W wielu innych językach jest ich mniej :P (niestety w polskim też sporo jest).
Zastanawiam się, czy języki chińskie nie byłyby łatwiejsze. Nie wiem jak trudno jest rozpoznać tony (tzn. wzrost lub opadanie głośności sylaby).
// że co? a słyszał o dynamicznych sieciach neuronowych? poza tym czasu można się dość łatwo pozbyć - ŁF
Slyszal o wielu rodzajach sieci neuronowach... Co rozumie przez "dynamiczne"? Latwo sie czasu pozbyc? Jak na przyklad? Prosze o skuteczny sposob i nieczuly na dlugosc sygnalu.
Ale w angielskim jest też dużo głosek. W wielu innych językach jest ich mniej (niestety w polskim też sporo jest).
A w rownie wielu jest ich co najmniej tyle samo lub wiecej ;) Problem tez w tym, ze nie samymi gloskami zyje czlowiek ;) W roznych zlepkach i kontekstach brzmia one inaczej, choc zapisywane sa tym samym znakiem (fonemem).
Zastanawiam się, czy języki chińskie nie byłyby łatwiejsze.
No tam to na pewno nie ma mniej fonemow...
Ale w angielskim jest też dużo głosek. W wielu innych językach jest ich mniej (niestety w polskim też sporo jest).
A w rownie wielu jest ich co najmniej tyle samo lub wiecej ;) Problem tez w tym, ze nie samymi gloskami zyje czlowiek ;) W roznych zlepkach i kontekstach brzmia one inaczej, choc zapisywane sa tym samym znakiem (fonemem).
Zastanawiam się, czy języki chińskie nie byłyby łatwiejsze.
No tam to na pewno nie ma mniej fonemow...
No właśnie w takim Esperanto, przez to, że się "sledzikuje", to tych zbitek jest niewiele i głoski brzmią jakby były samodzielne (a przynajmniej w znacznej mierze powinny).
Co do języków chińskich, to tam generalnie rozróżnia się podstawowe sylaby w 4 tonach i także są w miarę rozdzielone. Sylaby są dosyć krótke (tzn. nie ma pogłosu, nie ciągną się długo) i wypowiadane jakby były samodzielnymi głoskami: mowa = my-o-wy-a :).
Ale nie zmienia to faktu, że i tak autorowi pytania wiele nie pomogę...
Co do języków chińskich, to tam generalnie rozróżnia się podstawowe sylaby w 4 tonach i także są w miarę rozdzielone. Sylaby są dosyć krótke (tzn. nie ma pogłosu, nie ciągną się długo) i wypowiadane jakby były samodzielnymi głoskami: mowa = my-o-wy-a :).
Co prawda moja aktywna przygoda z jezykiem chinskim byla dosc krotka, ale Chinczykow na ulicach wokol mnie nie brakuje. I prawde mowiac nie zauwazylem jakiegos znaczacego rozdzielania dzwiekow. A co do "ciagniecia sie", to zalezy to jak najbardziej od tonu. No ale ekspertem nie jestem i moglem cos przeoczyc ;P
Co prawda moja aktywna przygoda z jezykiem chinskim byla dosc krotka, ale Chinczykow na ulicach wokol mnie nie brakuje. I prawde mowiac nie zauwazylem jakiegos znaczacego rozdzielania dzwiekow. A co do "ciagniecia sie", to zalezy to jak najbardziej od tonu. No ale ekspertem nie jestem i moglem cos przeoczyc ;P
Ja ekspertem tym bardziej nie jestem i po chińsku jedyne co powiedzieć potrafię to "dzień dobry" :P Ale tyle co wyczytałem to napisałem.
//ash, przeciez OCRy tez ponoc na sieciach neuronowych bazuja
- OCR a rozpoznawanie mowy, to w stopniu skomplikowania jak metalowy pret do miecza laserowego ;)
- Watpie, zeby komercyjne OCRy bazowaly w znaczacej czesci na sieciach neuronowach. Sa znacznie szybsze, pewniejsze i wydajniejsze metody uczenia maszynowego...
Powiem tak: jestem zwolennikiem (ba, wrecz fanem) stosowania sieci neuronowych do modelowania zachowan poznawczych czlowieka w badaniach, ale w produkcie komercyjnym nie zdecydowalbym sie na ich stosowanie na duza skale. Przynajmniej nie przy obecnym stanie rozwoju tej technologii.
Ale to chyba jest off-topic [diabel]
Również off-topic do tego tematu, dorzucam swoje dwa grosze, jak już jest tłoczony problem sieci neuronowych:
http://www.naturalmotion.com/pages/technology.htm
Ktoś tu rzucił o zastosowaniu sieci nauronowych do rozpoznawania mowy... Może kolega napisze więcej na ten temat i poprze to jakimś przykładem???
Romantiko napisał(a)
Ktoś tu rzucił o zastosowaniu sieci nauronowych do rozpoznawania mowy... Może kolega napisze więcej na ten temat i poprze to jakimś przykładem???
http://server.eletel.p.lodz.pl/~materka/sieci_doc.pdf
Sieci neuronowe s uywane w przemyle, jednak informacje na temat szczegółowych
rozwiza rzadko s ujawniane. Informacje ogólne s dostpne w biuletynach informacyjnych i
w Internecie. Główne obszary zastosowa to
? Wojsko. Przetwarzanie sygnałów i obrazów (radar, sonar, termowizja) dla identyfikacji
celu lub ródła sygnału, analiza obrazów satelitarnych, teledetekcja.
? Telekomunikacja. Wytyczanie tras połcze i sterowanie, kodowanie, filtracja, alokacja i
korekcja kanałów, kompresja sygnałów i obrazów dla skrócenia czasu transmisji.
? Przetwarzanie mowy. Rozpoznawanie mowy, identyfikacja i weryfikacja mówców.
? Przemysł. Prognoza zuycia energii i surowców, testowanie nieinwazyjne, kontrola jakoci
wyrobów.
? Sterowanie produkcj. Identyfikacja i sterowanie procesami przemysłowymi.
? Robotyka. Pojazdy autonomiczne, sterowanie ramieniem robota.
? Biologia i medycyna. Analiza obrazów i sygnałów, wspomaganie diagnozy.
? Przemysł wydobywczy. Analiza obrazów sejsmicznych, monitorowanie szybów
naftowych.
? Usługi. Automatyczne przetwarzanie dokumentów drukowanych i pisanych, identyfikacja
podpisów, wykrywanie fałszerstw, rozpoznawanie osób (biometria), analiza danych
marketingowych.
? Finanse. Predykcja wskaników giełdowych, kursów wymiany walut, analiza ryzyka.
http://sztucznaiq.hitnews.pl/sneuro.html
Ze względu na specyficzne cechy i niepodważalne zalety obszar zastosowań sieci neuronowych jest rozległy:
<b> Rozpoznawanie wzorców (znaków, liter, kształtów, sygnałów mowy, sygnałów sonarowych)</b> Klasyfikowanie obiektów Prognozowanie i ocena ryzyka ekonomicznego Prognozowanie zmian cen rynkowych (giełdy, waluty) Ocena zdolności kredytowej podmiotów Prognozowanie zapotrzebowania na energię elektryczną Diagnostyka medyczna Dobór pracowników Prognozowanie sprzedaży Aproksymowanie wartości funkcji
http://aipsa.ita.pwr.wroc.pl/dydaktyka.html#rozpmowy_info
ROZPOZNAWANIE MOWY
Tematyka wykładu:
Parametry lingwistyczne sygnału mowy i kryteria ich oceny i doboru. Procedury tworzenia obrazów akustycznych. Podstawowe jednostki językowe, ich segmentacja i statystyki. Procedury uczenia i rozpoznawania obrazów (NN, NM, DTW, itp.). Niejawne modele Markowa (HMM) w ARM. Zastosowanie sztucznych sieci neuronowych, algorytmów genetycznych i logiki rozmytej w ARM. Automatyczne rozpoznawanie mowy ciągłej.
Tematyka projektu:
Projekt "Rozpoznawanie mowy" ma na celu pogłębienie wiedzy z tej problematyki poprzez praktyczne wykonanie modułów lub całości systemu Automatycznego Rozpoznawania Mowy w formie algorytmu z fragmentami oprogramowania. Przykładami tematów są: metoda ekstrakcji parametrów liniowego kodowania predykcyjnego dla ARM, algorytm dynamicznego dopasowania czasowego dla ARM, model sieci neuronowej w ARM, itp.
starczy?
Tak, ale nic tu nie napisali o skutecznosci w porownaniu z innymi metodami. Na pewno jest to jedna z wielu drog, a czy dobra, trudno powiedziec. Jesli chodzi o rozpoznawanie twarzy (tez bardzo trudne), sieci neuronowe wypadaja blado na tle innych metod. Przede wszystkim maja jedna b. duza wade: dzialaja duzo wolniej niz inne metody o podobnej skutecznosci (a nawet gorszej). Wiec do rozpoznawanie mowy w czasie rzeczywistym to chyba na PC tez nie pojdzie...
Czy starczy... dobre pytanie. Generalnie to wolałbym jakiś konkret, bo o tym że się sieci neuonowe do takich rzeczy wykorzystuje wiem. Wg książki http://www.lideria.pl/sklep/opis?nr=13925 co 30 sekund sieci neuronowe zostają z sukcesem wykorzystane w jakiejś dziedzinie, więc dlaczego nie w rozpoznawaniu mowy?? Jesli znajdziesz coś ciekawego to z chęcią rzucę na to okiem.
Pozdro.