Hamarosan talán nem is tudod, hogy számítógéphez beszélsz

Tartalomjegyzék:

Hamarosan talán nem is tudod, hogy számítógéphez beszélsz
Hamarosan talán nem is tudod, hogy számítógéphez beszélsz
Anonim

Kulcs elvitelek

  • Hamarosan közeleg a nap, amikor nem fogod tudni megkülönböztetni a számítógéppel generált beszédet a valóditól.
  • A Google nemrégiben bemutatta a LaMDA-t, egy olyan modellt, amely természetesebb beszélgetéseket tesz lehetővé.
  • Az emberszerű beszéd előállítása szintén hatalmas feldolgozási teljesítményt igényel.
Image
Image

Jelenleg könnyű megállapítani, ha számítógéppel beszél, de ez a mesterséges intelligencia legújabb fejlesztéseinek köszönhetően hamarosan megváltozhat.

A Google a közelmúltban bemutatta a LaMDA-t, egy kísérleti modellt, amely a vállalat állítása szerint javíthatja társalgási AI-asszisztenseinek képességét, és természetesebb beszélgetéseket tesz lehetővé. A LaMDA arra törekszik, hogy végül szinte bármiről normálisan társalogjon mindenféle előzetes képzés nélkül.

Egyike azon növekvő számú mesterséges intelligencia projektnek, amely elgondolkodtathat azon, hogy emberi lénnyel beszél-e.

"Becslésem szerint az elkövetkező 12 hónapon belül a felhasználók elkezdik megismerni és megszokni ezeket az új, érzelmesebb hangokat." James Kaplan, a MeetKai vezérigazgatója, egy virtuális mesterséges intelligencia-asszisztens és kereső. motor, mondta egy e-mailes interjúban.

"Ha ez megtörténik, a mai szintetizált beszéd úgy fog hangzani a felhasználók számára, mint a 2000-es évek elejének beszéde."

Hangasszisztens karakterekkel

A Google LaMDA a Transformerre, a Google Research által kifejlesztett neurális hálózati architektúrára épül. Más nyelvi modellekkel ellentétben a Google LaMDA-ja valódi párbeszédre lett kiképezve.

A természetes hangzású mesterséges intelligencia beszédet jelentő kihívás része a beszélgetések nyílt végű természete – írta Eli Collins, a Google egy blogbejegyzésében.

Image
Image

"Egy tévéműsorról szóló csevegés egy barátjával a műsort forgató országról szóló beszélgetéssé fajulhat, mielőtt az ország legjobb regionális konyhájáról vitatkozna" - tette hozzá.

A dolgok gyorsan haladnak a robotbeszéddel. Eric Rosenblum, a társalgási mesterséges intelligencia fejlesztésébe befektető Tsingyuan Ventures ügyvezető partnere azt mondta, hogy a számítógéppel segített beszéd legalapvetőbb problémái gyakorlatilag megoldódtak.

Például a beszédmegértés pontossága már most is rendkívül magas az olyan szolgáltatásoknál, mint az Otter.ai szoftverrel végzett átírások vagy a DeepScribe által készített orvosi feljegyzések.

"A következő határ azonban sokkal nehezebb" - tette hozzá.

"A kontextus megértésének megőrzése, ami jóval túlmutat a természetes nyelvi feldolgozáson, és az empátia, például az emberekkel kölcsönhatásba lépő számítógépeknek meg kell érteniük a frusztrációt, a haragot, a türelmetlenséget stb. Mindkét probléma megoldása folyamatban van, de mindkettő messze van a kielégítőtől."

A neurális hálózatok a kulcsok

Az életszerű hangok generálására a vállalatok olyan technológiát használnak, mint a mély neurális hálózatok, a gépi tanulás egy olyan formája, amely rétegeken keresztül osztályozza az adatokat. Matt Muldoon, a ReadSpeaker, egy szövegből beszédre fejlesztő szoftvert fejlesztő cég észak-amerikai elnöke, mondta egy e-mailes interjúban.

"Ezek a rétegek finomítják a jelet, összetettebb osztályozásokba rendezve" - tette hozzá. "Az eredmény egy szintetikus beszéd, amely hihetetlenül úgy hangzik, mint egy ember."

Egy másik fejlesztés alatt álló technológia a Prosody Transfer, amely magában foglalja az egyik szöveg-beszéd hang hangzásának egy másik beszédstílusával való kombinálását, mondta Muldoon. Létezik továbbá az átviteli tanulás, amely csökkenti az új neurális szövegfelolvasó hang létrehozásához szükséges betanítási adatok mennyiségét.

Kaplan azt mondta, hogy az emberszerű beszéd előállítása óriási feldolgozási teljesítményt is igényel. A vállalatok neurális gyorsító chipeket fejlesztenek, amelyek olyan egyedi modulok, amelyek normál processzorokkal együtt működnek.

"Ebben a következő lépés ezeknek a chipeknek a kisebb hardverekbe való elhelyezése lesz, ahogy jelenleg ez már megtörténik a kameráknál, amikor mesterséges intelligencia szükséges a látáshoz" - tette hozzá. "Nem fog sokáig várni, hogy ez a fajta számítási képesség elérhetővé váljon magában a fejhallgatóban."

A mesterséges intelligencia által vezérelt beszéd fejlesztésének egyik kihívása, hogy mindenki másképp beszél, így a számítógépek általában nehezen értenek meg minket.

"Gondoljon a Georgia vs. Boston vs. North Dakota akcentusokra, és arra, hogy az angol az Ön elsődleges nyelve vagy sem" - mondta Monica Dema, aki az MDinc hangalapú keresési elemzésével foglalkozik. "Globálisan gondolkodva, költséges ezt megtenni Németország, Kína és India összes régiójában, de ez nem jelenti azt, hogy nem vagy nem lehet megtenni."

Ajánlott: