Kiedy doczekamy się solidnego syntezatora mowy?

1

Ivonę każdy zna, syntezator ma różne głosy, jednak każdy brzmi bardzo sztucznie, nienaturalnie. Do lektora do filmów za bardzo się nie nadaje przez sztuczność. Nie chodzi o mówienie z emocjami, że szepcze, zmienia tempo mowy w zależności od zdania, krzyczy itd, chodzi o zwyczajną mowę, jest zbyt sztuczna.
W którym roku moglibyśmy doczekać się porządnego syntezatora nadającego się jako lektor do filmów lub czytania książek? 2030 rok? a może po naszej śmierci dopiero coś będzie, albo za 150 lat?
Jesteście programistami, niektórzy świetnymi, potraficie udzielić odpowiedzi (jak wam się wydaje)?

0

Nie wygłupiaj się. Za 15 lat? Sprawdź jak wyglądały komputery 15 lat temu ;) W tej branży to są 3 epoki co najmniej. Zresztą przecież już dziś są w miare sensowne syntezatory. Sprawdź sobie jak Ivona radzi sobie z angielskim (bo polski jest po prostu trudnym językiem).

0

polskie głosy są identyczne od wielu, wielu, wielu lat. Nie wiem ile lat minęło, 5, 9? i w polskim głosie zero zmian właściwie. Jak tak dalej pójdzie to polski głos będzie naturalniejszy za 100 lat, czyli przyszłe pokolenia po rodzicach przejmą firmę i zaczną pisać lepszy kod

0

"Prace nad flagowym produktem – syntezatorem mowy IVONA – rozpoczęły się w 2003 roku."
mnóstwo lat, a wcześniej przez 2 lata robili Spikera. Od 2005 roku chyba gada normalnie i pewnie identycznie do dziś, czyli 9 lat bez zmian w standardowym głosie :)

0

czyli przyszłe pokolenia po rodzicach przejmą firmę i zaczną pisać lepszy kod

A to obecny kod jest zły? Laguje, zwiesza się, daje złe wyniki?

Nie da się przewidzieć, kiedy ktoś wymyśli nowy wynalazek, który popchnie temat do przodu. Ale można proces przyspieszyć np wywalając kupę kasy na badania, czy zajmując się badaniami hobbystycznie.

0

nie rozumiem po co piszesz o lagowaniu etc skoro wiesz, że nie o to chodzi. Chodzi o napisanie lepszego kodu, czyli bardziej naturalnego. Codziennie słucham nagrań głosów przez kilka godzin więc widzę ogromną różnicę pomiędzy prawdziwym głosem, a tym z ivony (dowolnym polskim). Na razie nie zapowiada się by w najbliższych 5 latach poprawili głos :) (oczywiście strzelam z tymi 5 latami, może cud będzie i za rok będzie zmiana duża, a może przez kolejne 10 lat nic się nie zmieni, bo programiści nie ogarniają sposoby na naturalniejszy, polski głos?)

0

edytować nie mogę to dopiszę coś byś mi nie zarzucił, że piszę o "bardziej naturalnym kodzie", oczywiście chodzi o bardziej naturalny głos. A te nagrania słuchane codziennie to prawdziwych osób.

0

Nie wiem dlaczego, ale kojarzysz mi się z gościem z tego postu: jakich programów brakuje? (czyli nie istnieją)

1

Programiści są od klepania kodu, a nie pisania nowych algorytmów. Wymyślaniem algorytmów zajmują się naukowcy ;]
Rozróżnienie takie samo jak między architektami, a robotnikami. Jak most będzie wzdłuż rzeki to też będziesz miał pretensje do robotnika lejącego beton? A może jednak do architekta?

1

Sprawdź sobie jak Ivona radzi sobie z angielskim (bo polski jest po prostu trudnym językiem).
Bzdura.
Polski ma więcej spółgłosek od angielskiego, a mniej samogłosek. Ale pisownia jest znacznie bardziej fonetyczna, można napisać algorytm przekształcający pisownię na wymowę - w angielskim to jest jedna wielka lista wyjątków.
Różnice w gramatyce są bez znaczenia, jeśli mówimy o syntezie wymowy z gotowego tekstu.

0

By w Ivona można było coś znacząco poprawić (zmiana tempa intonacji oraz głośności), komputer musiałby chociaż w minimalnym stopniu rozumieć kontekst zdania. Biorąc pod uwagę, że są takie projekty jak cleaverbot, to jakieś stochastyczne metody oceny emocji w zdaniu mogą się niedługo pojawić, a za parę lat (5-10) może zostanie to połączone z syntezatorem mowy.

0

To ja mam takie pytanie kiedy będzie taki lektor, który będzie potrafił analizować próbkę np. twojego głosu i na podstawie twojego głosu tworzyć lektora o twoim głosie.

0

To ja mam takie pytanie kiedy będzie taki lektor, który będzie potrafił analizować próbkę np. twojego głosu i na podstawie twojego głosu tworzyć lektora o twoim głosie.

Myślę że to dałoby się przy współczesnej technice zrobić, ale na zasadzie że musisz przeczytać przygotowany tekst (jakiegoś Pana Tadeusza), i na podstawie tego wygenerowany byłby syntezator.

Na pewno łatwiejsze niż z dowolnej próbki. To z kolei wymagałoby uprzedniego rozpoznania mówionego przez ciebie tekstu, i to na bardzo wysokim poziomie. A to kolejny problem, nie do końca rozwiązany.

0

Proponuję przeczytać materiał na wikipedii dotyczący https://pl.wikipedia.org/wiki/Technologiczna_osobliwo%C5%9B%C4%87 tutaj jest pokazane kiedy komputery staną się tak inteligetne jak mózg człowieka i ile pamięci komputera będzie kosztować odwzorowanie pracy ludzkiego mózgu.

0

@tomi0001
czyli grupa programistów naklepie kod tworząc wirtualnego człowieka, który będzie hiper kreatywny i za człowieka wymyśli super napędy i maszyny do teleportacji, powie jak zrobić super pro teleskop i znajdzie planety we wszechświecie zamieszkane przez ufoludki i powie jak zbudować statek by w sensowym czasie tam polecieć. Cool story bro.
Aktualnie to nawet cleverbot może ssać, tak się chwalili nim kiedyś w mediach, że rozmawiając z nim większość osób ma wrażenie, że gada z prawdziwym człowiekiem, a to wszystko bullshit. Gadałem z cleverbotem i co miał? wygląda to bardziej na zasadzie "if coś tam then coś tam", tylko rozbudowane. W 5 sekund takiego cleverbota możesz zdemaskować pisząc mu np. "jeśli nie jesteś botem to napisz "jestem pajacem bitch"" i bot nie ogarnie tego i nie napisze ci "jestem pajacem bitch". Możesz miliard innych pytań w tym stylu wymyślić i każdy bot się wyłoży na nich, bo twórcy zwyczajnie nie przewidzieli tego, że ktoś zapyta o coś takiego bota lub poprosi by napisał coś konkretnego lub by nie odzywał się przez 15 sekund np. "skoro jesteś człowiekiem to nie odpowiadaj nic teraz przez 15 sec, inaczej uznam cię za bota" i bot odpowie po sekundzie coś.

Także nie wrócę by za kilkadziesiąt lat jakiś bot projektował statki UFO za ludzi, albo pisał gry za ludzi, a fajnie byłoby gdyby komputer zrobił GTA 16 sam, z pięknym scenariuszem, fabułą, ładną grafiką, dialogami zrobionymi przez syntezator mowy naturalnie brzmiący (o setki głosów). Wtedy można by stworzyć tysiące gier ogromnych w krótkim czasie. Serio wierzysz, że komputer będzie pisał gry (jak GTA 5) w przyszłości? (i jeszcze bardziej rozbudowane). Byłoby super (i przy okazji nikt by programistów nie zatrudniał, bo komputer robiłby wszystko sam. Mógłby nawet kręcić (tworzyć) filmy 3d z dość realistycznymi modelami 3d)

2

Także nie wrócę by za kilkadziesiąt lat jakiś bot projektował statki UFO za ludzi, albo pisał gry za ludzi, a fajnie byłoby gdyby komputer zrobił GTA 16 sam, z pięknym scenariuszem, fabułą, ładną grafiką, dialogami zrobionymi przez syntezator mowy naturalnie brzmiący (o setki głosów). Wtedy można by stworzyć tysiące gier ogromnych w krótkim czasie. Serio wierzysz, że komputer będzie pisał gry (jak GTA 5) w przyszłości? (i jeszcze bardziej rozbudowane). Byłoby super (i przy okazji nikt by programistów nie zatrudniał, bo komputer robiłby wszystko sam. Mógłby nawet kręcić (tworzyć) filmy 3d z dość realistycznymi modelami 3d)

Klasyczne błędne podejście do rozwoju informatyki. Od lat ludzie opowiadają takie bajki ze narzędzia do tworzenia oprogramowania i języki robią się coraz potężniejsze i łatwiejsze i że zaraz programiści będą zbędni bo soft będzie się "sam generował". I co? I po prostu robi się bardziej rozbudowane i skomplikowane systemy ;) 40-50 lat temu szczyt marzeń to był prosty kalkulator zaklepany na kartach perforowanych. Później można było napisać "coś większego" w asemblerze. Dzisiaj za pomocą kilku kliknięć z IDE i kilku linijek kodu można postawić w parę minut aplikację webową, którą 20 lat temu klepałby cały zespół programistów. Tylko ze zamiast szybciej i wydajniej generować proste programy tworzy się teraz programy dużo większe.

Pewnie komputer nie będzie całkiem sam projektował statków kosmicznych, ale przecież już dziś większość pracy inżynierów którzy się tym zajmują to wklepanie do odpowiedniego programu CAD / CAE wytycznych i sprawdzeniu co im wypluje. Tak samo projektuje się teraz nowe procesory i układy scalone. Przecież nikt ręcznie nie układa miliardów tranzystorów i bramek. Robi to odpowiedni CAD.
Jeśli chodzi o robienie gier, to zauważ że są dziś narzędzia które pozwalają "wyklikać" sobie grę o której 10 lat temu można było tylko pomarzyć albo trzeba było czekać długie miesiace aż dziesiątki programistów ją napiszą. I czy to znaczy ze dziś takie gry się wyklikuje w ten sposób? Nie, teraz robi się dużo bardziej rozbudowane gry, z lepiej dopracowaną grafiką i większymi możliwościami.

Jestem pewien że za 10 lat GTA5 będzie można sobie wyklikać przy porannej kawie, tylko że to wyklikane GTA5 w porównaniu do gier które będą wtedy na rynku będzie jak porównywanie Crysisa i Wolf3d ;) BTW zauważ że między Wolfem a Crysisem to jest raptem 15 lat różnicy ;)

0

to dzisiejsze "wyklikanie" gier to jest ograniczone okropnie. Masz w programie kilka grafik 2d postaci jak poruszają się, wybierasz jedną z paru opcji poruszania się postaci, a kolizje grafikom nadajesz ręcznie, ale inne rzeczy, za dużo nie wyklikasz, zrobisz to co twórca programu przewidział klikając. Zresztą podaj mi jakiś program, w którym wyklikam sobie sensowną grę, znasz jakiś?
A jeśli chodzi o inne rzeczy jak edytory z "gotowym" częściowo silnikiem jak Unity, że mamy światło, cienie, poruszanie kamerą i kolizje na modelach 3d to i tak musimy sami w 3ds maxie robić przez wiele godzin kilka modeli 3d, oteksturować je w photoshopie (UVMapy) i wrzucić do Unity przeciągając plik 3d do okna edytora. Później musimy sami zaprojektować ciekawe AI dla wrogów, ataki, zachowanie, zdarzenia, masę innych rzeczy. Sami musimy dubbing nagrać i tak dalej.

Gdyby gry aktualnie szło wyklikać szybko tak jak mówisz, to wszystkie gry INDIE robiliby przez kilka dni lub miesiąc, a tymczasem jakieś gry 2d niezależne mające w zespole kilka osób powstają w rok dobry z czego przez kolejne lata są rozwijane ciągle i wiele gier po 3, 4 latach nie oferuje zbyt wiele (zazwyczaj po niecałej godzinie już jest nudno bo nie ma co robić, zna się wszystko).

A to GTA gdyby komputer miał robić, to musiałby mieć świetnie zaprogramowane generowanie modeli 3d, budynków różnego typu (np. lata 70te, średniowiecze, albo 21 wiek lub coś nowszego, musiałby je z sensem zrobić, oteksturować ładnie [najlepiej jeśli sam generuje textury tak by gracz nie mówił, że to dwunasta część gry, a budynki praktycznie identyczne jak w poprzednich częściach, a tekstury identyczne, tylko miejscami pozamieniane]). Musiałby AI zrobić fajne (ale nie z jednego zaprogramowanego z góry schematu), niech sam wymyśla AI, bo co z tego, że ktoś napisze AI gotowe, które program użyje jeśli przez 100 lat chodzenie z bronią po mieście lub jazda rozbitym autem nie zwróci uwagi policji, komputer sam powinien zrobić takie AI by policja zaczepiała gracza z różnych powodów bo np. w okolicy komputerowa postać z kumplami obrobiła sklep, a my wyglądamy podobnie do kogoś. Albo mamy na masce auta krew i policjant wypytuje o to. Jelenia też komputer mógłby dodać, który może wbiec pod koła lub dziecko, które pod koła wpadnie. Mógłby kamery w mieście rozmieścić i jakbyśmy rozjechali kogoś to po numerach auta szukaliby właściciela i po gębie. To są przykładowe możliwości. Jeśli komputer sam by tworzył grę to by brał pod uwagę różne rzeczy, mógłby AI dać proste, albo hiper rozbudowane). Jeszcze fabuła do gry 10/10 przydałaby się, wygenerowana przez komputer, dialogi dla postaci (i jak wspomniałem, użycie syntezatora dla każdej postaci).
Teraz do wielu filmów i seriali dodają różne obiekty 3d, czasem nawet postać jest modelem 3d. W przyszłości chciałbym by komputer tworzył całe filmy w 3d sam, sam by wygenerował postacie i scenariusz, zrobił efekty specjalne, sam by kamerą operował w świetny sposób. Ciekawe czy ktoś doceniłby scenariusz wygenerowany przez komputer. Chciałbym, by scenariusze takie były zachwycające i filmy oceniane 100/100 punktów przez ludzi na świecie i krytycy jaraliby się mówiąc "cudowny scenariusz, poruszone ważne tematy, nieprzewidywalny! zadziwiający, niesamowity! w życiu lepszego scenariuszu nie widziałem! 100/100!".

A to wymyślanie nowych technologii, napędów, pojazdów to nie byłoby na zasadzie, że "my naukowcy wiemy jak działa to to i to i wiemy, że będzie można z tego zrobić paliwo, ale nie wiemy jak" i komputer powie jak. Komputer ma sam wymyślać nowe rzeczy, o których nikomu się nie śniło! Ma zachwycić naukowców, którzy w życiu nie wpadliby na to (tzn. wpadliby np. po 500 latach lub po tysiącu). To coś jak ludzie przed wynalezieniem koła lub odkryciem elektryczności, żarówki, prochu czarnego itd i niech to będzie wiek, w którym nikt nie zna koła, a komputer wtedy wymyśla koło, czarny proch, elektryczność, żarówkę, bombę atomową, samolot, wifi i inne rzeczy. Tak niech komputer działa w przyszłości, o takie wynalazki mi chodzi. Czyli jakby w tej chwili taki komputer z oprogramowaniem się pojawił to miałbyś już dziś lek na wszystkie możliwe choroby, opóźniony proces starzenia się lub zatrzymany całkiem. Odkrytych np. 100 planet z istotami na poziomie co najmniej ludzi w XX wieku oraz statki zrobione tak, że w tydzień doleciałbyś na takie planety (zakładając, że np. bez komputera takiego ludzie wymyśliliby je sami za 1500 lat).

Łatwo napisać teraz, że za kilkadziesiąt lat to co opisałem będzie, ale w praktyce może nie być tak i prawdopodobnie tak nie będzie.
btw. czemu aktualnie nie ma programu, który generuje scenariusze filmowe? Obecne komputery nie pozwalają na to? Scenariusz taki byłby tak cudowny, że oskara by dostał? A może byłby sztuczny jak cleverbot, czyli "debilny"?

0

jak dam wam milion euro to zbierzecie najlepszych programistów z tego forum i napiszecie program, który generuje muzykę? (sama muzyka, bez słów) np. na pianinie lub skrzypcach? Wygenerowane piosenki musiałyby być na takim poziomie by mogły śmiało konkurować z Mozartem lub kimś współczesnym dobrym. Co wy na to? Ile lat robilibyście taki program? Wiecie ile byście kasy wtedy nabili dzięki takiemu programowali? Moglibyście wydawać codziennie nowy album muzyczny np. smutne piosenki, pogrzebowe lub wesołe, albo takie dynamiczne, dobre do filmów. Miliardy ludzi na świecie by się podniecało muzyką wygenerowaną przez program (myśląc, że to człowiek zagrał i skomponował utwór)

1

Zresztą podaj mi jakiś program, w którym wyklikam sobie sensowną grę, znasz jakiś?

Co to znaczy sensowną grę? Zdajesz sobie sprawę z tego że 30 lat temu sensowna gra to byl arkanoid? A 20 lat temu Wolf3d? A dziś jakimś darmowym fps makerem mógłbyś zrobić dużo lepszą grę w ciągu kilku godzin, może dni?

Gdyby gry aktualnie szło wyklikać szybko tak jak mówisz, to wszystkie gry INDIE robiliby przez kilka dni lub miesiąc

Masz chyba problemy z czytaniem... Gry wyklikać się da, ale nikt poważnie tego nie traktuje bo to co możesz wyklikać jest po prostu nieporównywalnie słabsze od tego co jest "na rynku". W efekcie po co ktos miałby marnować czas na klikanie w jakimś rpg makerze skoro to co mu wyjdzie będzie na poziomie gier które mają po 15-20 lat?

Widzę że nie zrozumiałeś nic z mojego postu. Napisze więc bardziej dosadnie: komputery nie potrafią myśleć i nie potrafią "wymyślać" niczego. Komputery radzą sobie nieźle z wykonywaniem prostych, powtarzalnych, bardzo wąskich zadań. Zresztą komputery bardzo słabo radzą sobie z przetwarzaniem wiedzy i z reprezentacją wiedzy.
Jeśli wstukasz do CADa jakąś konstrukcje to on potrafi policzyć jak będzie się ona zachowywać w różnych sytuacjach. Ale nie potrafi wskazać ci "najlepszej" konstrukcji dla zadanych parametrów, bo musiałby iterować po wszystkich możliwych konstrukcjach i każdą z osobna sprawdzać. Dzieje się tak z podobnych powodów z których komputery przez długi czas nie radziły sobie w szachach a potem w go - bo dla komputera wszystkie możliwości są równie prawdopodobne. Są bardzo wąskie dziedziny (np. rzeczone szachy) gdzie udało się jako-tako stworzyć reprezentacje wiedzy dla komputera (m.in. w postaci historycznych zagrywek), ale to są wyjątki. Nie ma ogólnej reprezentacji z której komputery potrafiłyby korzystać.

W związku z tym komputery nie "zastąpią" ludzi, tak jak nowoczesne IDE i frameworki RAD nie zastąpiły programistów. Pozwolą jedynie na szybsze tworzenie bardziej zaawansowanych rzeczy.
Jeśli chodzi o muzykę to przecież są takie narzędzia wspomagające jak http://pl.wikipedia.org/wiki/FL_Studio Ale tak jak mówiłem - one nie tworzą nic same z siebie, tylko pozwalają komuś skomponować piosenkę w dzień zamiast tygodnia ;)
Tak samo jeśli chodzi o grafikę 3d, masz takiego cuda jak http://pl.wikipedia.org/wiki/Houdini_(program) Znów nic się "samo nie tworzy", ale możesz do jakiegoś modelu kilkoma kliknięciami dodać różne transformacje i efekty, dzięki czemu stworzysz animację w ciągu tygodnia a nie w ciągu miesiąca.

0

W temacie... można się przyjrzeć Vocaloidom, jak komuś się chce ;)

http://en.wikipedia.org/wiki/Vocaloid#Software

0
dsvfdrrgfv napisał(a):

Komputer ma sam wymyślać nowe rzeczy, o których nikomu się nie śniło!

Tylko po co takiemu komputerowi byliby potrzebni jacyś ludzie? Czemu w ogóle miałby ich słuchać i wykonywać ich polecenia?

0
somekind napisał(a):
dsvfdrrgfv napisał(a):

Komputer ma sam wymyślać nowe rzeczy, o których nikomu się nie śniło!

Tylko po co takiemu komputerowi byliby potrzebni jacyś ludzie? Czemu w ogóle miałby ich słuchać i wykonywać ich polecenia?

Jak nie będzie słuchał, to mu się odłączy wtyczkę z gniazdka ;]

1
Wibowit napisał(a):

Jak nie będzie słuchał, to mu się odłączy wtyczkę z gniazdka ;]

No i wtedy ludzie pozbawią się swojego superkomputera. Więc po co ludziom taki komputer?

2

Lem już w 1973 roku napisał opowiadanie Przyjaciel o superkomputerze zdecydowanie przewyższającym ludzi. Ten komputer nie dopuścił do wyciągnięcia wtyczki z gniazdka.

0

Juz byl nawet taki film o komputerze ktory zaczal myslec i przestal sluchac ludzi. Z Arnoldem Schwarceneggerem w czarnych okularach i skorzanej kurtce ;) A co do syntezatorow to Siri od Apple prezentuje juz calkiem przyzwoity poziom.

0

Ta Siri to lektor typu Ivona czy może po prostu zbiór nagrań?

Moim zdaniem przez większość czasu lecą po prostu nagrania - lektor czyta zbiór najczęstszych kawałków odpowiedzi, a oprogramowanie tylko je skleja.

Choć w sumie nie znam się na tym ustrojstwie kompletnie :)

0

Ja używam głosu Agata ScanSoft'u 22kHz i jestem bardzo zadowolony. Nagrałbym wam próbkę głosu, ale nie chce mi się pobierać programów do nagrywania dźwięku w systemie a przez mikrofon to raczej nie nagrywanie. Używam syntezatorów od momentu gdy pojawiły się na rynku i zawsze z tym głosem. Jacek lub Ewa to naprawdę sztuczne głosy, ale ten którego używam słucha się bardzo przyjemnie.

1 użytkowników online, w tym zalogowanych: 0, gości: 1