A számítógéppel folytatott beszélgetések valósághűbbé válhatnak

Tartalomjegyzék:

A számítógéppel folytatott beszélgetések valósághűbbé válhatnak
A számítógéppel folytatott beszélgetések valósághűbbé válhatnak
Anonim

A legfontosabb elvitelek

  • A Meta mesterséges intelligencia segítségével olyan programokat készít, amelyek képesek érzelmeket kifejezni beszédben.
  • A cég mesterséges intelligenciával foglalkozó csapata azt mondta, hogy előrelépést ért el az olyan kifejező hangok modellezésében, mint a nevetés, ásítás, sírás és a "spontán csevegés" valós időben.
  • Az AI-t a beszédfelismerés fejlesztésére is használják.
Image
Image

A mesterséges intelligencia (AI) erejének köszönhetően hamarosan természetesebben cseveghet a számítógépével.

A Meta azt mondta, hogy jelentős előrelépést tett a valósághűbb, mesterséges intelligencia által generált beszédrendszerek létrehozása terén. A vállalat mesterséges intelligencia csapata azt mondta, hogy a valós idejű „spontán chatelés” mellett előrehaladást ért el az olyan kifejező hangok modellezésében, mint a nevetés, ásítás és sírás.

"Bármely adott beszélgetés során az emberek telis-tele vannak nonverbális jelekkel, például intonációkkal, érzelmi kifejezésekkel, szünetekkel, hangsúlyokkal, ritmusokkal - amelyek mindegyike fontos az emberi interakciókhoz" - írta a csapat a legutóbbi blogbejegyzésben.. "A mai mesterséges intelligencia rendszerek azonban nem képesek megragadni ezeket a gazdag, kifejező jeleket, mert csak az írott szövegből tanulnak, amely azt rögzíti, amit mondunk, de nem azt, ahogy mondjuk."

Intelligensebb beszéd

A blogbejegyzésben a Meta AI csapata elmondta, hogy azon dolgoznak, hogy leküzdjék a hagyományos mesterséges intelligencia rendszerek korlátait, amelyek nem képesek megérteni a beszéd nonverbális jeleit, például intonációkat, érzelmi kifejezéseket, szüneteket, hangsúlyokat és ritmusokat.. A rendszerek vissza vannak tartva, mert csak írott szövegből tudnak tanulni.

A Meta munkája azonban eltér a korábbi erőfeszítéseitől, mivel AI-modellei természetes nyelvi feldolgozási modelleket használhatnak a beszélt nyelv teljes természetének megragadására. A Meta kutatói szerint az új modellek lehetővé teszik a mesterséges intelligencia rendszerek számára, hogy az általuk közvetíteni kívánt érzéseket közvetítsék – például unalmat vagy iróniát.

"A közeljövőben a szöveg nélküli technikák alkalmazására fogunk összpontosítani, hogy hasznos downstream alkalmazásokat készítsünk anélkül, hogy erőforrásigényes szövegcímkékre vagy automatikus beszédfelismerő rendszerre (ASR) lenne szükség, mint például a kérdések megválaszolása (pl. "Hogy van a időjárás?”) – írta a csapat a blogbejegyzésben. "Úgy gondoljuk, hogy a beszédben a prozódia segíthet a mondatok jobb elemzésében, ami viszont megkönnyíti a szándék megértését és javítja a kérdés megválaszolásának teljesítményét."

Az AI erősíti a megértést

A számítógépek nemcsak a jelentésközlés terén fejlődnek, hanem a mesterséges intelligencia is használatos a beszédfelismerés fejlesztésére.

Számítógépes tudósok legalább 1952 óta dolgoznak a számítógépes beszédfelismeréssel, amikor a Bell Labs három kutatója olyan rendszert hozott létre, amely képes felismerni az egyes számjegyeket – mondta Ryan Monsurate, az AI Dynamics technológiai igazgatója egy e-mailben. Lifewire. Az 1990-es évekre a beszédfelismerő rendszerek kereskedelmi forgalomban kaphatók voltak, de még mindig elég magas volt a hibaarányuk ahhoz, hogy visszatartsa a használattól a nagyon speciális alkalmazási területeken, például az egészségügyön kívül.

"Most, hogy a mélytanulási modellek lehetővé tették az együttes modellek (például a Microsoft modelljei) számára, hogy emberfeletti teljesítményt érjenek el a beszédfelismerés során, rendelkezésünkre áll a technológiánk, amely lehetővé teszi a beszélőtől független verbális kommunikációt a számítógépekkel nagy léptékben" - mondta Monsurate. "A következő szakasz a költségek csökkentését foglalja magában, hogy mindenki, aki Siri-t vagy a Google mesterséges intelligencia asszisztenseit használja, hozzáférjen ehhez a beszédfelismerési szinthez."

Image
Image

A A mesterséges intelligencia hasznos a beszédfelismeréshez, mert a tanulás révén idővel javulhat – mondta Ariel Utnik, a Verbit.ai mesterséges intelligencia hangszolgáltató vállalat bevételi igazgatója és vezérigazgatója a Lifewire-nek adott e-mailben. Például a Verbit azt állítja, hogy a házon belüli mesterséges intelligencia technológiája észleli és kiszűri a háttérzajt és a visszhangokat, és az akcentustól függetlenül átírja a hangszórókat, hogy részletes, professzionális átiratokat és feliratokat hozzon létre élő és rögzített videóból és hangból.

Az Utnik azonban azt mondta, hogy a legtöbb jelenlegi beszédfelismerő platform csak 75-80%-ban pontos.

"A mesterséges intelligencia soha nem fogja teljesen helyettesíteni az embereket, mivel az átírók, a lektorok és a szerkesztők személyes áttekintése szükséges a jó minőségű és maximális pontosságú végső átirat biztosításához" - tette hozzá.

A jobb hangfelismerés a hackerek megelőzésére is használható – mondta egy e-mailben Sanjay Gupta, a Mitek Systems hangfelismerő cég termék- és vállalatfejlesztési alelnöke. A kutatások azt mutatják, hogy két éven belül az összes sikeres fiókátvételi támadás 20 százaléka szintetikus hangjavítást használ majd – tette hozzá.

"Ez azt jelenti, hogy ahogy a mélyhamisítási technológia egyre kifinomultabbá válik, egyidejűleg olyan fejlett biztonságot kell létrehoznunk, amely képes felvenni a harcot ezekkel a taktikákkal a képi és videós mélyhamisítások mellett" - mondta Gupta. "A hanghamisítás elleni küzdelemhez élethűség-észlelési technológiára van szükség, amely képes megkülönböztetni az élő hangot a hang rögzített, szintetikus vagy számítógéppel generált változatától."

Javítás 2022-05-04: Ryan Monsurate nevének helyesírása javítva a 9. bekezdésben.

Ajánlott: