Konwerter dźwięku na tekst

0

Witam,

chciałbym stworzyć aplikację, która z nagranego dźwięku generowałaby tekst. Oczywiście mam wyobrażenie, że trafność 100% będzie ciężko uzyskać, a nawet nie do końca pewnie to możliwe. Mam na to ponad rok czasu, więc myślę, że nie porywam się z 'motyką na księżyc'. Chciałbym zapytać bardziej doświadczonych kolegów od czego mogę zacząć, jakie język będzie się do tego najbardziej nadawać i na jakiej platformie mogłoby coś takiego powstać.

Koncepcja jest taka:

  • nagrywam dźwięk(np. w formacie mp3)
  • wczytuje do aplikacji
  • aplikacja generuje mi tekst(ewentualnie plik .txt z przekonwertowanym dźwiękiem)
  • pojawia mi się uśmiech na twarzy, że udało mi się coś takiego zrobić

Mam nadzieję, że przez rok czasu pisania takiej aplikacji mógłbym się wiele nauczyć.

Bardzo proszę o komentarze.

Pozdrawiam,
Mały John

0

Dwa słowa: sieci neuronowe.
Język i platforma nie robią większej różnicy w tym przypadku.

3

Ale chcesz tam robić to speech recognition? Czy chcesz wykorzystać jakieś istniejące rozwiązania od Microsoftu czy Google? Bo samemu to raczej z motyką na słońce i wybrałbym coś łatwiejszego.
O razu mówie że używanie gotowych narzędzi to nie jest nic złego. To by moglo być bardzo wartościowe gdybyś wykorzystał np. przetwarzanie jezyka naturalnego żeby automatycznie poprawiać jakość takiego tłumaczenia :)

0

Speech Recognition wykorzystałbym gotowca od M$ pewnie. Upchałbym to w ładnej aplikacji, którą myślę, że C++ poradziłby sobie.
Ten pomysł z przetwarzaniem języka naturalnego do poprawy tego tekstu to całkiem fajny pomysł. Zwiększyłoby to na pewno trafność tłumaczeń, ale dokładnie jak to NLP miałby działać w tym projekcie?

1

Na przykład mógłbyś podziałać analizą semantyczną (latent semantic analysis) na tlumaczony tekst i na tej podstawie analizować czy slowa które dostajesz od speech recognition pasują "tematycznie" do treści wypowiedzi i czy może jednak nie ma innego bardzo zbliżonego słowa które pasuje lepiej :)

edit: a jak chcesz użyc gotowego silnika to można takie coś zrobić od zera w max kilka godzin :P podczas tego ctfa Writeup VolgaCTF 2015 (zadanie YACST) zrobiliśmy takie cudo korzystającego z google speech api w dość krótkim czasie (nie działalo zbyt dobrze i przeprobiliśmy na bardziej prymitywne rozwiązanie, ale mimo wszystko ;) )

0

Nie będzie to proste, ale i tak dalej mnie ten temat interesuje. Dziękuję za dotychczasowe komentarze. Będę wdzięczny za więcej :)
Zagadnienie na pewno jest bardzo ciekawe i ogromnie szerokie. Dobrze byłoby je minimalnie zawęzić ;)

0

jak to się obecnie robi za pomocą "deep learning"

0

Speech recognition to jest teraz naprawdę duży temat. Ostatnio (http://www.theverge.com/2015/9/14/9322555/eric-schmidt-artificial-intelligence-real-progress) firma Google chwaliła się sporym postępem, może więc ichniejsze API jest warte poznania. Masz właściwie dwie opcje:

  • użyć gotowego API i naprawdę napisać swoją apkę.
  • poświęcić najbliższy rok i nauczyć się jak wszystko to działa, ale pewnie uzyskać bardzo słabe wyniki ;-)

1 użytkowników online, w tym zalogowanych: 0, gości: 1