Hogyan tehetné a mesterséges intelligencia természetesebbé a számítógépes beszédet

👤 Szerző Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:50.
🖍 Utoljára módosítva 2025-06-01 07:16.

Kulcs elvitelek

A vállalatok versenyeznek, hogy megtalálják a módját, hogyan tegyék valósághűbbé a számítógéppel generált beszédet.
Az NVIDIA nemrégiben bemutatta azokat az eszközöket, amelyek megragadhatják a természetes beszéd hangját, lehetővé téve, hogy saját hangjával tanítson mesterséges intelligenciát.
Az intonáció, az érzelmek és a zeneiség azok a tulajdonságok, amelyek a számítógépes hangokból még mindig hiányoznak, mondja egy szakértő.

A számítógép által generált beszéd hamarosan sokkal emberibbnek hangzik.

A számítógép-alkatrészeket gyártó NVIDIA a közelmúltban bemutatta azokat az eszközöket, amelyek megragadják a természetes beszéd hangját azáltal, hogy hangjával oktatják a mesterséges intelligenciát. A szoftver egy beszélő szavait is képes továbbítani egy másik személy hangjával. Ez része annak a növekvő erőfeszítésnek, amely a számítógépes beszéd valósághűbbé tételére irányul.

"A fejlett hangalapú mesterséges intelligencia technológia lehetővé teszi a felhasználók számára, hogy természetesen beszéljenek, egyetlen mondatba egyesítve sok kérdést, és szükségtelenné válik az eredeti lekérdezés részleteinek folyamatos ismétlése." Michael Zagorsek, a SoundHound beszédfelismerő cég operatív igazgatója, mondta a Lifewire-nek egy e-mailes interjúban.

"A több nyelv hozzáadásával, amely már elérhető a legtöbb beszéd-AI-platformon, a digitális hangasszisztensek több földrajzi területen és több lakosság számára érhetők el" - tette hozzá.

Robospeech Rising

Az Amazon Alexa és az Apple Siri sokkal jobban hangzik, mint akár egy évtizeddel ezelőtti számítógépes beszéd, de egyhamar nem fogják összetéveszteni őket hiteles emberi hangokkal.

A mesterséges beszéd természetesebb hangzása érdekében az NVIDIA szövegfelolvasó kutatócsoportja kifejlesztett egy RAD-TTS modellt. A rendszer lehetővé teszi az egyének számára, hogy a hangjukkal megtanítsák a szövegfelolvasó (TTS) modellt, beleértve az ingerlést, a hangszínt, a hangszínt és egyéb tényezőket.

A vállalat az új modelljét arra használta, hogy több társalgási hangzású hangalámondást hozzon létre az I Am AI videósorozatához.

Ezzel a felülettel videóproducerünk rögzítheti magát, amint elolvassa a videó forgatókönyvét, majd az AI-modell segítségével beszédét női narrátor hangjává alakíthatja. Ezzel az alapszintű narrációval a producer az AI-t úgy irányíthatja, mint egy szinkronszínész - a szintetizált beszéd finomhangolása bizonyos szavak kiemelése érdekében, és a narráció ütemének módosítása, hogy jobban kifejezze a videó hangját” - írta az NVIDIA a honlapján.

Nehezebb, mint hangzik

A számítógéppel generált beszéd természetes hangzása bonyolult probléma, mondják a szakértők.

"Több száz órányi hangot kell rögzítenie valakinek, hogy számítógépes verziót hozzon létre" - mondta Nazim Ragimov, a Kukarella szövegfelolvasó szoftvercég vezérigazgatója a Lifewire-nek egy e-mailes interjúban. „A felvételnek pedig jó minőségűnek kell lennie, professzionális stúdióban rögzítve. Minél több órányi minőségi beszéd van betöltve és feldolgozva, annál jobb az eredmény."

A szövegfelolvasó funkció használható a játékokban, hangzavarral küzdő egyének támogatására, vagy arra, hogy a felhasználók saját hangjukon fordíthassanak a nyelvek között.

A hanglejtés, az érzelmek és a zeneiség azok a tulajdonságok, amelyek a számítógépes hangokból még mindig hiányoznak - mondta Ragimov.

Ha a mesterséges intelligencia hozzá tudja adni ezeket a hiányzó láncszemeket, a számítógéppel generált beszéd „megkülönböztethetetlen lesz a valódi színészek hangjától” - tette hozzá. "Ez egy folyamatban lévő munka. Más hangok felvehetik majd a versenyt a rádiós műsorvezetőkkel. Hamarosan olyan hangokat láthat majd, amelyek képesek énekelni és hangoskönyveket olvasni."

A beszédtechnológia egyre népszerűbb a vállalkozások széles körében.

"Az autóipar a közelmúltban alkalmazta a hangos mesterséges intelligenciát, hogy biztonságosabb és összekapcsoltabb vezetési élményeket teremtsen" - mondta Zagorsek.

"Azóta a hangos asszisztensek egyre szélesebb körben jelennek meg, mivel a márkák keresik a módját, hogy javítsák az ügyfélélményt, és megfeleljenek a termékeikkel és szolgáltatásaikkal való interakció egyszerűbb, biztonságosabb, kényelmesebb, hatékonyabb és higiénikusabb módszerei iránti igénynek."

A hangalapú mesterséges intelligencia általában a lekérdezéseket válaszokká alakítja egy kétlépéses folyamat során, amely a beszéd szöveggé történő átírásával kezdődik az automatikus beszédfelismerés (ASR) segítségével, majd ezt a szöveget egy természetes nyelvértési (NLU) modellbe táplálja.

A SoundHound megközelítése ezt a két lépést egyetlen folyamatban egyesíti a beszéd valós idejű nyomon követésére. A vállalat azt állítja, hogy ez a technika lehetővé teszi a hangasszisztensek számára, hogy megértsék a felhasználói lekérdezések jelentését, még azelőtt, hogy a személy befejezné a beszédet.

A számítógépes beszéd jövőbeli fejlődése, beleértve a különféle csatlakozási lehetőségek elérhetőségét a csak beágyazotttól (felhőkapcsolat nélkül) a hibridig (beágyazott plusz felhő) és a csak felhőig több választási lehetőséget biztosít a vállalatok számára az iparágakban a költségek, az adatvédelem és a feldolgozási teljesítmény elérhetősége tekintetében” - mondta Zagoresk.

NVIDIA azt mondta, hogy a mesterséges intelligencia modelljei túlmutatnak a hangosításon.

"A szövegfelolvasó funkció használható a játékokban, hangzavarral küzdő egyének támogatására, vagy arra, hogy a felhasználók saját hangjukon fordíthassanak a nyelvek között" - írta a cég. "Még az ikonikus énekesek előadásait is visszaadhatja, nemcsak a dal dallamához, hanem az énekhang mögött meghúzódó érzelmi kifejezéshez is."

Ajánlott:

Hogyan tehetné a mesterséges intelligencia természetesebbé a számítógépes beszédet

Tartalomjegyzék:

Kulcs elvitelek

Robospeech Rising

Nehezebb, mint hangzik

Ajánlott:

Hogyan segíthetnek a hallucinációk a mesterséges intelligencia jobb megértésében

Hogyan tud a mesterséges intelligencia gyorsabban építeni számítógépes chipeket

Hogyan tehetne mindenkit gazdaggá a mesterséges intelligencia

Hogyan tehetné okosabbá a mesterséges intelligencia az emberi agy másolásával?

Hogyan bizonyíthatja a mesterséges intelligencia, hogy számítógépes szimulációban élünk

Mi az a Microsoft Excel, és mit csinál?

Adja hozzá az aktuális dátumot/időt az Excelben gyorsbillentyűk segítségével

Mi az a WEP-kulcs a Wi-Fi hálózatokban?

Mi a teendő, ha az Excel TRIM funkciója nem működik

A nem található hálózati útvonal hibáinak javítása a Windows rendszerben

Hogyan készítsünk képernyőképet számítógépen

Fényképek gyors beolvasása és digitalizálása

Hogyan készítsünk elszakadt papírélet a GIMP-ben

Hogyan korlátozható a Google-keresés egy adott domainre

Képernyőkép készítése Androidon

Gmail-fiók törlése

Védje meg Outlook.com-fiókját kétlépcsős azonosítással

A Pixel 6 lassabb töltésének előnyei nézőpont kérdése

Az új Windows 11 frissítés számos javítást és több hangulatjelet tartalmaz

Hogyan lehet hozzáférni egy e-mail üzenetforráshoz az Outlook.com webhelyen