Mam doświadczenie tylko w algorytmach językowych. Powie ktoś na jakiej w ogóle zasadzie jest to zrobione?
Zawsze mnie takie wątki rozwalają:
Google, Apple, Microsoft pracują latami nad systemami rozpoznawania głosu. Wydają na to grube miliony dolarów, mają dziesiątki czy setki ludzi do tego, uczą się na miliardach próbek przetwarzanych przez jakieś kosmiczne serwery w ich data centrach. A potem przychodzi na forum jakiś typ, który ogólnie pyta na jakiej zasadzie to jest zrobione
i myśli, że będzie w stanie sobie sam w weekend ogarnąć to, co giganci branży IT ćwiczą latami z ogromnymi budżetami.
Moja porada - zapomnij żeby samodzielnie to robić, szkoda czasu bo nie ogarniesz, a jeśli nawet to wyniki będą marne.
Jak już to zainteresuj się API którejś z wielkich firm - chociażby od Google: https://cloud.google.com/speech-to-text. Masz $300 oraz godzinę za free co miesiąc do testów.
Jeśli pod hasłem "Speech to Text" niczego nie znalazłeś, to nie wiem jak my możemy Ci pomóc...
Masz trochę ogólnych informacji do poczytania: https://chat.openai.com/share/28c5f7af-ce6f-481e-8496-d3a8c7744802
Nawet są projekty OpenSource tego typu: https://fosspost.org/open-source-speech-recognition/
Dorzuć któryś do swojego projektu, albo stwórz coś swojego na ich podstawie...
Ja bym użył gotowego modelu takiego jak whisper, który jest bardzo dobry, open-source (MIT) i możesz go sobie umieścić w swojej aplikacji i ma prosty interfejs do użycia bezpośrednio w Pythonie.
A może wy sami nie potraficie zrozumieć jak to jest zrobione i dlatego demotywujecie kolegę
Visiate napisał(a):
jprd nie rozumiesz że opracowałem już działający program typu chat gpt posiada 200000000połączeń neuronowych i potrzebuje takie coś po to abym mógł uzupełnić aplikacje którą planuje wypuścić mam pytanie czy ten program do odczytywania głosu google mogę udostępnić w aplikacji jeśli nie pomyśl trochę zanim napiszesz taki post.
I chcesz mi powiedzieć, że jesteś takim kozakiem w dziedzinie AI, pythona masz w lewym paluszku, a nie wiesz jak połączyć obcą usługę ze swoim kodem? Użycie słowa program sprawia, że raczej nie wiesz co mówisz.