A számítógéppel folytatott beszélgetések valósághűbbé válhatnak

2025 Szerző: Abigail Brown | [email protected]. Utoljára módosítva: 2025-06-01 07:16

A legfontosabb elvitelek

A Meta mesterséges intelligencia segítségével olyan programokat készít, amelyek képesek érzelmeket kifejezni beszédben.
A cég mesterséges intelligenciával foglalkozó csapata azt mondta, hogy előrelépést ért el az olyan kifejező hangok modellezésében, mint a nevetés, ásítás, sírás és a "spontán csevegés" valós időben.
Az AI-t a beszédfelismerés fejlesztésére is használják.

A mesterséges intelligencia (AI) erejének köszönhetően hamarosan természetesebben cseveghet a számítógépével.

A Meta azt mondta, hogy jelentős előrelépést tett a valósághűbb, mesterséges intelligencia által generált beszédrendszerek létrehozása terén. A vállalat mesterséges intelligencia csapata azt mondta, hogy a valós idejű „spontán chatelés” mellett előrehaladást ért el az olyan kifejező hangok modellezésében, mint a nevetés, ásítás és sírás.

"Bármely adott beszélgetés során az emberek telis-tele vannak nonverbális jelekkel, például intonációkkal, érzelmi kifejezésekkel, szünetekkel, hangsúlyokkal, ritmusokkal - amelyek mindegyike fontos az emberi interakciókhoz" - írta a csapat a legutóbbi blogbejegyzésben.. "A mai mesterséges intelligencia rendszerek azonban nem képesek megragadni ezeket a gazdag, kifejező jeleket, mert csak az írott szövegből tanulnak, amely azt rögzíti, amit mondunk, de nem azt, ahogy mondjuk."

Intelligensebb beszéd

A blogbejegyzésben a Meta AI csapata elmondta, hogy azon dolgoznak, hogy leküzdjék a hagyományos mesterséges intelligencia rendszerek korlátait, amelyek nem képesek megérteni a beszéd nonverbális jeleit, például intonációkat, érzelmi kifejezéseket, szüneteket, hangsúlyokat és ritmusokat.. A rendszerek vissza vannak tartva, mert csak írott szövegből tudnak tanulni.

A Meta munkája azonban eltér a korábbi erőfeszítéseitől, mivel AI-modellei természetes nyelvi feldolgozási modelleket használhatnak a beszélt nyelv teljes természetének megragadására. A Meta kutatói szerint az új modellek lehetővé teszik a mesterséges intelligencia rendszerek számára, hogy az általuk közvetíteni kívánt érzéseket közvetítsék - például unalmat vagy iróniát.

"A közeljövőben a szöveg nélküli technikák alkalmazására fogunk összpontosítani, hogy hasznos downstream alkalmazásokat készítsünk anélkül, hogy erőforrásigényes szövegcímkékre vagy automatikus beszédfelismerő rendszerre (ASR) lenne szükség, mint például a kérdések megválaszolása (pl. "Hogy van a időjárás?”) - írta a csapat a blogbejegyzésben. "Úgy gondoljuk, hogy a beszédben a prozódia segíthet a mondatok jobb elemzésében, ami viszont megkönnyíti a szándék megértését és javítja a kérdés megválaszolásának teljesítményét."

Az AI erősíti a megértést

A számítógépek nemcsak a jelentésközlés terén fejlődnek, hanem a mesterséges intelligencia is használatos a beszédfelismerés fejlesztésére.

Számítógépes tudósok legalább 1952 óta dolgoznak a számítógépes beszédfelismeréssel, amikor a Bell Labs három kutatója olyan rendszert hozott létre, amely képes felismerni az egyes számjegyeket - mondta Ryan Monsurate, az AI Dynamics technológiai igazgatója egy e-mailben. Lifewire. Az 1990-es évekre a beszédfelismerő rendszerek kereskedelmi forgalomban kaphatók voltak, de még mindig elég magas volt a hibaarányuk ahhoz, hogy visszatartsa a használattól a nagyon speciális alkalmazási területeken, például az egészségügyön kívül.

"Most, hogy a mélytanulási modellek lehetővé tették az együttes modellek (például a Microsoft modelljei) számára, hogy emberfeletti teljesítményt érjenek el a beszédfelismerés során, rendelkezésünkre áll a technológiánk, amely lehetővé teszi a beszélőtől független verbális kommunikációt a számítógépekkel nagy léptékben" - mondta Monsurate. "A következő szakasz a költségek csökkentését foglalja magában, hogy mindenki, aki Siri-t vagy a Google mesterséges intelligencia asszisztenseit használja, hozzáférjen ehhez a beszédfelismerési szinthez."

A A mesterséges intelligencia hasznos a beszédfelismeréshez, mert a tanulás révén idővel javulhat - mondta Ariel Utnik, a Verbit.ai mesterséges intelligencia hangszolgáltató vállalat bevételi igazgatója és vezérigazgatója a Lifewire-nek adott e-mailben. Például a Verbit azt állítja, hogy a házon belüli mesterséges intelligencia technológiája észleli és kiszűri a háttérzajt és a visszhangokat, és az akcentustól függetlenül átírja a hangszórókat, hogy részletes, professzionális átiratokat és feliratokat hozzon létre élő és rögzített videóból és hangból.

Az Utnik azonban azt mondta, hogy a legtöbb jelenlegi beszédfelismerő platform csak 75-80%-ban pontos.

"A mesterséges intelligencia soha nem fogja teljesen helyettesíteni az embereket, mivel az átírók, a lektorok és a szerkesztők személyes áttekintése szükséges a jó minőségű és maximális pontosságú végső átirat biztosításához" - tette hozzá.

A jobb hangfelismerés a hackerek megelőzésére is használható - mondta egy e-mailben Sanjay Gupta, a Mitek Systems hangfelismerő cég termék- és vállalatfejlesztési alelnöke. A kutatások azt mutatják, hogy két éven belül az összes sikeres fiókátvételi támadás 20 százaléka szintetikus hangjavítást használ majd - tette hozzá.

"Ez azt jelenti, hogy ahogy a mélyhamisítási technológia egyre kifinomultabbá válik, egyidejűleg olyan fejlett biztonságot kell létrehoznunk, amely képes felvenni a harcot ezekkel a taktikákkal a képi és videós mélyhamisítások mellett" - mondta Gupta. "A hanghamisítás elleni küzdelemhez élethűség-észlelési technológiára van szükség, amely képes megkülönböztetni az élő hangot a hang rögzített, szintetikus vagy számítógéppel generált változatától."

Javítás 2022-05-04: Ryan Monsurate nevének helyesírása javítva a 9. bekezdésben.

Ajánlott:

A számítógéppel folytatott beszélgetések valósághűbbé válhatnak

Tartalomjegyzék:

A legfontosabb elvitelek

Intelligensebb beszéd

Az AI erősíti a megértést

Ajánlott:

A Skype-beszélgetések törlése

A beszélgetések egyszerűsítése az Outlookban

A hamburgerforgató „botok egy napon valósággá válhatnak”

Hogyan válhatnak a filmek & TV-ből az Ön új hangoskönyvei

A Netflix Indiára tekint az előfizetőkért folytatott harcban

Cserélje ki az adatokat az Excel SUBSTITUTE funkciójával

A legújabb PC-játékbemutatók listája

GPS autózáshoz, túrázáshoz, sporthoz és csónakázáshoz

Váltás a parancssorra és a PowerShellre a Win&43;x menüben

Az 5 legjobb rajzfilmes hálózati játék Androidra

Twitter-felhasználónév megváltoztatása

A 12 legjobb WhatsApp-trükk és tipp 2022-ben

A 7 legjobb Twitter- alternatíva 2022-ben

Hogyan hozzunk létre virtuális gépet a Windows 10 rendszerben

A 9 legjobb ajándék animátoroknak 2022-ben

A Microsoft integrálja a Spotify-t a Windows 11 Focus Sessions rendszerébe

A Twitter több társműsorvezetővel és résztvevővel bővíti a tereket

Az első hetem a Portiánál

Az Amazon IMDb TV streaming szolgáltatása már elérhető Android és iOS rendszeren

Avira Rescue System Review (ingyenes indítható AV-eszköz)