Technologia wykrywania mowy.

0

Witam przychodzę z pytaniem na temat wykrywania glosu. Czy jest możliwe aby napisać aplikacje, która np. rozumie komendy stworzone przeze mnie? Dla lepszego zrozumienia mojej myśli podam przykłady: Aplikacja na telefon, która po usłyszeniu danej komendy wykonuje daną czynność napisaną przeze mnie. Są aplikacje, które w momencie jak się gwizdnie wydają dźwięk. Bardziej mi tu chodzi o aplikacje na telefon, a nie na komputerze. Jestem początkowym programistą i chcę stworzyć program opierający się w dużej mierze na komendach głosowych tylko problem jest taki, że nie ma na ten temat żadnych poradników, informacji, więc pytam was. Wole od razu dostać odpowiedź, niż napalać się na to co moja aplikacja by mogła w momencie gdy nie jestem w stanie nawet zaprogramować tego.

1

Był niedawno wątek o rozpoznawaniu mowy:
https://4programmers.net/Forum/Nietuzinkowe_tematy/328840-rozpoznawanie_glosu
Do rozpoznawania pojedynczych słów można użyć MFCC https://en.wikipedia.org/wiki/Mel-frequency_cepstrum
Do rozpoznawania mowy ciągłej można użyć ukrytych modeli Markova.
W innych przypadkach przyda się sztuczna sieć neuronowa.
Zaznaczam, że do rozpoznawania mowy przyda się wiedza z zakresu algorytmiki i początkującemu programiście może być ciężko. W samym MFCC jest kilka parametrów, które trzeba dopasować samemu.

0

Ja bym zaczął od tego...
https://cloud.google.com/speech-to-text/

Jak potrafisz uzyskać tekst z głosu, to możesz ten tekst porównać do tekstów przypisanych do komend, które chcesz wykonywać.

0

Rozpoznawanie mowy to domena sztucznej inteligencji AI. Jeżeli będzie to stały zestaw komend to potrzebujesz czegoś o funkcjonalności speech-to-text. Nie znam konkretnych bibliotek ale jak chcesz spróbować to AWS ma taką usługę https://aws.amazon.com/transcribe.

1 użytkowników online, w tym zalogowanych: 0, gości: 1