Hogyan tehetné a mesterséges intelligencia természetesebbé a számítógépes beszédet

Tartalomjegyzék:

Hogyan tehetné a mesterséges intelligencia természetesebbé a számítógépes beszédet
Hogyan tehetné a mesterséges intelligencia természetesebbé a számítógépes beszédet
Anonim

Kulcs elvitelek

  • A vállalatok versenyeznek, hogy megtalálják a módját, hogyan tegyék valósághűbbé a számítógéppel generált beszédet.
  • Az NVIDIA nemrégiben bemutatta azokat az eszközöket, amelyek megragadhatják a természetes beszéd hangját, lehetővé téve, hogy saját hangjával tanítson mesterséges intelligenciát.
  • Az intonáció, az érzelmek és a zeneiség azok a tulajdonságok, amelyek a számítógépes hangokból még mindig hiányoznak, mondja egy szakértő.
Image
Image

A számítógép által generált beszéd hamarosan sokkal emberibbnek hangzik.

A számítógép-alkatrészeket gyártó NVIDIA a közelmúltban bemutatta azokat az eszközöket, amelyek megragadják a természetes beszéd hangját azáltal, hogy hangjával oktatják a mesterséges intelligenciát. A szoftver egy beszélő szavait is képes továbbítani egy másik személy hangjával. Ez része annak a növekvő erőfeszítésnek, amely a számítógépes beszéd valósághűbbé tételére irányul.

"A fejlett hangalapú mesterséges intelligencia technológia lehetővé teszi a felhasználók számára, hogy természetesen beszéljenek, egyetlen mondatba egyesítve sok kérdést, és szükségtelenné válik az eredeti lekérdezés részleteinek folyamatos ismétlése." Michael Zagorsek, a SoundHound beszédfelismerő cég operatív igazgatója, mondta a Lifewire-nek egy e-mailes interjúban.

"A több nyelv hozzáadásával, amely már elérhető a legtöbb beszéd-AI-platformon, a digitális hangasszisztensek több földrajzi területen és több lakosság számára érhetők el" - tette hozzá.

Robospeech Rising

Az Amazon Alexa és az Apple Siri sokkal jobban hangzik, mint akár egy évtizeddel ezelőtti számítógépes beszéd, de egyhamar nem fogják összetéveszteni őket hiteles emberi hangokkal.

A mesterséges beszéd természetesebb hangzása érdekében az NVIDIA szövegfelolvasó kutatócsoportja kifejlesztett egy RAD-TTS modellt. A rendszer lehetővé teszi az egyének számára, hogy a hangjukkal megtanítsák a szövegfelolvasó (TTS) modellt, beleértve az ingerlést, a hangszínt, a hangszínt és egyéb tényezőket.

A vállalat az új modelljét arra használta, hogy több társalgási hangzású hangalámondást hozzon létre az I Am AI videósorozatához.

Ezzel a felülettel videóproducerünk rögzítheti magát, amint elolvassa a videó forgatókönyvét, majd az AI-modell segítségével beszédét női narrátor hangjává alakíthatja. Ezzel az alapszintű narrációval a producer az AI-t úgy irányíthatja, mint egy szinkronszínész – a szintetizált beszéd finomhangolása bizonyos szavak kiemelése érdekében, és a narráció ütemének módosítása, hogy jobban kifejezze a videó hangját” – írta az NVIDIA a honlapján.

Nehezebb, mint hangzik

A számítógéppel generált beszéd természetes hangzása bonyolult probléma, mondják a szakértők.

"Több száz órányi hangot kell rögzítenie valakinek, hogy számítógépes verziót hozzon létre" - mondta Nazim Ragimov, a Kukarella szövegfelolvasó szoftvercég vezérigazgatója a Lifewire-nek egy e-mailes interjúban. „A felvételnek pedig jó minőségűnek kell lennie, professzionális stúdióban rögzítve. Minél több órányi minőségi beszéd van betöltve és feldolgozva, annál jobb az eredmény."

A szövegfelolvasó funkció használható a játékokban, hangzavarral küzdő egyének támogatására, vagy arra, hogy a felhasználók saját hangjukon fordíthassanak a nyelvek között.

A hanglejtés, az érzelmek és a zeneiség azok a tulajdonságok, amelyek a számítógépes hangokból még mindig hiányoznak – mondta Ragimov.

Ha a mesterséges intelligencia hozzá tudja adni ezeket a hiányzó láncszemeket, a számítógéppel generált beszéd „megkülönböztethetetlen lesz a valódi színészek hangjától” – tette hozzá. "Ez egy folyamatban lévő munka. Más hangok felvehetik majd a versenyt a rádiós műsorvezetőkkel. Hamarosan olyan hangokat láthat majd, amelyek képesek énekelni és hangoskönyveket olvasni."

A beszédtechnológia egyre népszerűbb a vállalkozások széles körében.

"Az autóipar a közelmúltban alkalmazta a hangos mesterséges intelligenciát, hogy biztonságosabb és összekapcsoltabb vezetési élményeket teremtsen" - mondta Zagorsek.

"Azóta a hangos asszisztensek egyre szélesebb körben jelennek meg, mivel a márkák keresik a módját, hogy javítsák az ügyfélélményt, és megfeleljenek a termékeikkel és szolgáltatásaikkal való interakció egyszerűbb, biztonságosabb, kényelmesebb, hatékonyabb és higiénikusabb módszerei iránti igénynek."

A hangalapú mesterséges intelligencia általában a lekérdezéseket válaszokká alakítja egy kétlépéses folyamat során, amely a beszéd szöveggé történő átírásával kezdődik az automatikus beszédfelismerés (ASR) segítségével, majd ezt a szöveget egy természetes nyelvértési (NLU) modellbe táplálja.

Image
Image

A SoundHound megközelítése ezt a két lépést egyetlen folyamatban egyesíti a beszéd valós idejű nyomon követésére. A vállalat azt állítja, hogy ez a technika lehetővé teszi a hangasszisztensek számára, hogy megértsék a felhasználói lekérdezések jelentését, még azelőtt, hogy a személy befejezné a beszédet.

A számítógépes beszéd jövőbeli fejlődése, beleértve a különféle csatlakozási lehetőségek elérhetőségét a csak beágyazotttól (felhőkapcsolat nélkül) a hibridig (beágyazott plusz felhő) és a csak felhőig több választási lehetőséget biztosít a vállalatok számára az iparágakban a költségek, az adatvédelem és a feldolgozási teljesítmény elérhetősége tekintetében” – mondta Zagoresk.

NVIDIA azt mondta, hogy a mesterséges intelligencia modelljei túlmutatnak a hangosításon.

"A szövegfelolvasó funkció használható a játékokban, hangzavarral küzdő egyének támogatására, vagy arra, hogy a felhasználók saját hangjukon fordíthassanak a nyelvek között" - írta a cég. "Még az ikonikus énekesek előadásait is visszaadhatja, nemcsak a dal dallamához, hanem az énekhang mögött meghúzódó érzelmi kifejezéshez is."

Ajánlott: