A Google egy olyan hangszintézis-programot fejlesztett ki Tacotron 2 néven, amelynek hangját nem lehet megkülönböztetni az emberi hangtól.
Egy mesterséges intelligencia dolgozta ezt a hangot, amely két különböző ideghálózaton alapszik – tudható meg a Google szakembereinek írásában, amely az ArXiv című szakportálon jelent meg. A rendszert a Google Assistant fejlesztésére használják fel.
A Tacotron 2 technikailag egy „text-to-speech”, vagyis, mint készítő magyarázzák, olyan szerkezet, amely ideghálókra támaszkodik a vokális szintézis megvalósításában, közvetlenül a szövegből. A hang generálása két részletben valósul meg: az első idegháló leolvassa a szöveget, és lefordítja egy spektrogrammára, amely mutatja a hangfrekvenciák időbeni alakulását. Majd a spektrogrammát megkapja a wave Net, egy algortimus, amelyet a Google tavaly dolgozott ki. Ez leolvassa a frekvenciákat és nagy pontossággal visszaadja a megfelelő hangokat. Még a lélegzetvételt is a szavak között.
A Tacotron 2 végtelenül érzékeny. Az ideghálók képesek felfogni a szöveg általános értelmét, azt, hogy pl. milyek szót kell hangsúlyozni. Ügyelnek a mondatvégekre, a nagybetűs szavakat hangosabban mondják és ki tudják ejteni a legnehezebbeket, a nyelvtörőket is.
A kezdeti szakaszban a rendszert még csak egy különleges női hang reprodukálására állították be. A hangok variációja egy későbbi feladat lesz.
https://qz.com/1165775/googles-voice-generating-ai-is-now-indistinguishable-from-humans/
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.