Potrzebuję jakiegoś rozwiązania (hardware + software), które rozpozna, co do niego się mówi, wyłapie słówka kluczowe, skonwertuje to do jakiegoś JSONa i prześle dalej.

Założenia:

  • customizowalny wake-up word
  • mikrofony będą umieszczone w dosyć odległych (10-15 metrów) od siebie miejscach, oczywiście powinna iść informacja z którego mikrofonu informacja poszła
  • preferowany język polski lecz niekoniecznie (docelowi użytkownicy nie mówią po angielsku, ale jak trzeba to tych kilku haseł się nauczą)
  • musi działać offline, nie może być to w cloudzie
  • połączenie z siecią jest dostępne jeśli to jest ważne
  • dowolna ilość mikrofonów
  • może być na jakimś Raspberry Pi czy innym Arduino, ale nie chciałbym rzeźbić obsługi głosu (tzn. wyłapywania słów kluczowych) ręcznie

Ktoś coś wie?
Moja zdolność googlania trochę mnie zawiodła - znalazłem albo jakieś pakiety home assistance albo jakieś usługi cloud :/