Elevenlabs to generator głosu stworzony przez dwójkę młodych Polaków. Skoro im we dwojke udało się to napisac, to czy stworzenia podobnego toola jest trudne?
To jest ogólnie ciekawe, bo oni zebrali ponad 80 milionów dolarów od inwestorów, co pozwoli ci duży zespół specjalistów zatrudnić, w dodatku jak we dwóch zrobili syntezator i dzięki niemu takie fundusze otrzymali to mogli się rozwijać, bo nawet dwie osoby to masa roboty, po za samym modelem, jego skalowaniem, dystrybucją, reklamą, planem biznesowym.
W dodatku modele text to speech i voice cloning dla różnych języków już istniały i dodali do tego multilanguage, więc jest to pewne ułatwienie gdyż nie trzeba od zera uczyć modeli mogą one destylować wiedzę od innych modeli, coś jak zbiór danych w pigułce, wykorzystali różne modele dla różnych języków i główny model wykorzystywał je do uczenia się generowania w dowolnym języku warunkowo.
Zwykle inwestorzy jak już się dokładają to także biorą aktywny udział w rozwoju firmy i kierowaniu jej biznesowo.
Więc mają decydujący głos decyzyjny.
W Polsce to by im nie wyszło u nas tak inwestorzy raczej nie szastają hajsem, nawet sam nie wiem jak oni tych inwestorów pozyskują.
W dodatku tam było dwóch Polaków, a ty jesteś sam :>
Ale tak czy siak wydaje się to proste, ale tak nie jest i takie duże modele bez dobrego sprzętu to większość czasu spędzisz czekając na wyniki, które na końcu mogą się i tak kiepskie okazać, bo rzadko kiedy człowiek nie popełni żadnego błędu.
I to też jest takie dziwne myślenie, że jak ktoś coś osiągnął to ty też, na tych lepszych uczelniach one same pomagają wypromować u inwestorów jakieś projekty, może nawet mają jakieś współprace, żeby konkurencji najlepszych podkosić, a u nas w Polsce to głównie inwestują materialne inwestycje.