Spoločnosť Google respektíve skupinou Google vlastnená spoločnosť DeepMind sa aktuálne pochválila vyvinutím novej podľa spoločnosti výrazne lepšej počítačovej syntetizácie ľudského hlasu.
V súčasnosti sa pri syntetizácii hlasu z textu používajú podľa spoločnosti dve metódy, metóda spájajúca prednahraté vzorky zvukov reálneho človeka a tzv. parametrizovateľná syntetizácia vytvárajúca hlas na základe vytvoreného modelu generujúceho charakteristiky produkovaného zvuku. Táto metóda už umožňuje parametrami meniť povahu a charakteristiky hlasu.
V jazykoch založených na slabikách podľa DeepMind dosahuje stále lepšie výsledky metóda postavená na spájaní nahratých zvukov.
U parametrickej syntetizácie sa už aj doteraz síce používali neurónové siete, DeepMind ale teraz vyvinula systém pomocou neurónových sietí negenerujúci len charakteristiky zvuku ale priamo kompletné finálne vzorky zvuku s frekvenciou 16 kHz.
DeepMind využíva plne konvolučnú neurónovú sieť označenú WaveNet, ktorú vie naraz natrénovať na vzorkách viacerých ľudí a následne si pri generovaní hlasu vyberať ktorý hlas sa použije.
Subjektívne skóre kvality novej metódy WaveNet a doterajších metód syntetizácie zvuku, kliknite pre zväčšenie (graf: DeepMind)
Výsledný hlas má podľa DeepMind lepšiu kvalitu ako doterajšie metódy. Spoločnosť nechala otestovať zvuk vytvorený doterajšími metódami používanými Google a novou metódou subjektívne ľuďmi a tí v prípade angličtiny na päťstupňovej stupnici dali zvuku vygenerovanému WaveNet známku 4.21, kým u doterajších metód to bolo 3.67 a 3.86. Zvuku naozaj nahovorenému človekom dali priemernú známku 4.55.
Podľa DeepMind sa dá jej metóda ľahko rozšíriť aj o natrénovanie na prízvuky a emócie. Ako a kedy bude technológia nasadená v produktoch Google spoločnosť neinformovala.
Parametric
Concatenative
WaveNet
Vzorky zvuku vytvorené doterajšími metódami a novou metódou (zdroj: DeepMind)
Google čoraz intenzívnejšie využíva metódy umelej inteligencie a strojového učenia, upozornili sme na to v máji. Google si dokonca na akceleráciu výpočtov vyvinul vlastný procesor pre umelú inteligenciu, Tensor Processing Unit, TPU.
Využíva pritom najmä neurónové siete, spôsob analýzy a spracovania dát, pri ktorom sa vstup pretransformováva na výstup spracovaním sieťou uzlov komunikujúcich rovnakým spôsobom ako neuróny v mozgu človeka.
Na rozdiel od deterministických algoritmov u neurónových sietí programátori neprogramujú algoritmy a konkrétne kroky ako spracovať vstupy, siete sa učia generovať požadovaný výstup trénovaním na vzorkách dát.
Snad raz nastane den, kedy filmy budu dabovane pocitacom do roznych jazykov (napriklad z AJ do SJ) so zachovanim tonu hlasu, presne ako je original (cize presne aky "zvuk" hlasu ma herec vo filme bude mat aj zvuk v slovencine - v dabingu). Bola by to parada...
aj PC hry by sa s tym robili super, si predstav ze si na kolene spravis nejake male RPGcko s dobrou temnou atmosferou a NPC budu mat realny hlas, bez toho aby si hiroval daberov a minal prachy a cas.
nie uplne, but good enough
Od: knjiCdo
|
Pridané:
10.9.2016 0:43
DSL: "Využíva pritom najmä neurónové siete, spôsob analýzy a spracovania dát, pri ktorom sa vstup pretransformováva na výstup spracovaním sieťou uzlov komunikujúcich rovnakým spôsobom ako neuróny v mozgu človeka. "
Upravil by som slovo "rovnakým" na "podobným" pretože to nie je úplne pravda. Neurónové siete sú iba veľmi zjednodušeným modelom skutočnej komunikácie mozgu (o ktorej naozaj ešte stále vieme len málo). Keď sa povie slovo rovnakým, je to trochu zavádzajúce, ako keby sme už mali technológiu na vymodelovanie ľudského mozgu, čo samozrejme nemáme a ešte veľmi dlho mať nebudeme.
Ale k téme, musím povedať, že WaveNet vygeneroval naozaj veľmi presvedčivú reč! Znie to ozaj dobre :)
nie uplne, aber gut ist uns nicht gut genug
Od: syntaxterrorA
|
Pridané:
10.9.2016 11:45
Akurat ze pre NULL hodnotu, "o ktorej naozaj ešte stále vieme len málo", je vzhladom k vypoctu pravdepodobnosti vyskytu chyby pri overovani objektivnosti hodnotenia tendencia presnosti porovnania poctom pouzivania nutnych operacii vypocitatelna pomerne jednoducho trivialnou matematickou operaciou odcitania nad zjednotenim mohutnosti mnozin porovnacich operatorov.
rovnaky: =
podobny: <,>
Re: ako to je
Od reg.: Jaa 1
|
Pridané:
10.9.2016 6:45
A to odjakziva je a mal by zostat zmyslom pocitacov byt striktne logicky a strojovy nie suplovat cloveka. Tam kde to realny clovek vyzaduje a chce to, tam je nieco v neporiadku s nim.