A legfontosabb elvitelek
- Az új technológiák olyan számítógépekhez vezethetnek, amelyek jobban megértik az emberi beszédet.
- A Microsoft és az NVIDIA a közelmúltban bejelentett egy új, mesterséges intelligencia által vezérelt módszert a nyelv értelmezésére.
- A kvantumszámítás a nyelvi feldolgozás egy másik módja lehet.
Napjainkban rengeteg intelligens kütyü létezik, amellyel parancsokat adhatunk, de még mindig messze vagyunk a társalgási beszédet megértő számítógépektől.
A Microsoft és az NVIDIA a közelmúltban bejelentett egy új, mesterséges intelligencia által vezérelt módszert a beszéd értelmezésére, amely megváltoztathatja az elektronikai eszközeinkkel való csevegésünket. Ez egy olyan növekvő mozgalom része, amely megváltoztatja a számítógépek beszédértelmezését, más néven Natural Language Processing (NLP).
"Az NLP-t működtető modellek egyre nagyobbak és fejlettebbek, és egyre közelebb kerülnek az emberi megértéshez" - mondta Hamish Ogilvy AI-szakértő a Lifewire-nek adott e-mailes interjújában.
"Az egyik nagy előrelépés az, hogy az NLP túlmutat az egyszerű kulcsszavakon. Ma már megszokhatta, hogy begépel vagy kimond egy vagy két kulcsszót a keresési eredmények eléréséhez, de az újabb természetes nyelvi feldolgozási modellek a kontextust használják a gazdagabb eredmények eléréséhez."
Csevegőbotok
Az NVIDIA és a Microsoft összefogott, hogy megalkossák a Megatron-Turing Natural Language Generation modellt (MTNLG), amely a páros állítása szerint "a legerősebb monolitikus transzformátornyelvi modell, amelyet a mai napig képeztek". Az AI modell szuperszámítógépeken fut.
A kutatók azonban azt találták, hogy az MTNLG-modell emberi torzításokat vett fel, miközben emberi beszédminták hegyeit fésülte át.
"Miközben az óriási nyelvi modellek fejlesztik a nyelvgenerálás legkorszerűbb szintjét, olyan problémákkal is küzdenek, mint az elfogultság és a mérgezés" - írták a kutatók egy blogbejegyzésben. "Az MT-NLG-vel kapcsolatos megfigyeléseink szerint a modell sztereotípiákat és torzításokat vesz fel azokból az adatokból, amelyekre képezte."
A beszédet jobban megértő számítógépek nem csak az intelligens hangszórókat javítják, mint például az Alexa, állítja Ogilvy. A szöveges keresőwebhelyek, például az Amazon, jobban megértik a beírt lekérdezéseket is.
"A Google nyilvánvalóan vezet itt, de az NLP technológia mindenhol jelen lesz" - mondta Ogilvy. "A szöveges és hangalapú kereséseknél a felhasználók leíróbbak lehetnek, mivel az NLP nem csak a szöveget érti; megérti a keresett szöveg kontextusát, hogy jobb eredményeket adjon."
Quantum Chat?
A kvantumszámítás lehet az egyik módja az NLP területének előrelépésének. Szerdán a Cambridge Quantum cég bejelentette a lambeq-et, amely állítása szerint az első kvantumeszközkészlet az NLP számára.
…Az NLP többet ért, mint a szöveget; megérti az Ön által keresett szövegkörnyezetet, hogy jobb eredményeket érjen el.
A vállalat szerint az eszköz lehetővé teszi a mondatok természetes nyelvű fordítását kvantumszámítógépeken futtatott kvantumáramkörök segítségével. A kvantumszámítás a számítások olyan fajtája, amely a kvantumállapotok szokatlan tulajdonságait, például a szuperpozíciót, az interferenciát és az összefonódást használja a számítások elvégzéséhez.
"A kvantumszámítógépek NLP-kezelési módja nagyon különbözik a klasszikus gépektől. Valójában az NLP "kvantum-natív"" - mondta Bob Coecke, a Cambridge Quantum vezető tudósa a Lifewire-nek adott e-mailes interjújában. "Ez annak köszönhető, hogy néhány évvel ezelőtt felfedeztük, hogy a mondatokat és jelentéseket szabályozó nyelvtan szerkezete nagyon hasonló a kvantumszámítógépek programozására használt matematikához."
Coecke azt mondta, hogy a kvantum-NLP jobb hangsegédekhez és fordítóeszközökhöz vezethet.
A beszédfelismerés javításának egy másik ígéretes megközelítése, Zac Liu, a Hypergiant cég adattudósa elmondta a Lifewire-nek egy e-mailes interjúban. "Röviden: amikor az adatkutatók javítják az NLP-adatokat, az szinte garantálja, hogy jobb NLP-modelljük és jobb NLP-képességük lesz."
A következő lépés a számítógépes látásmodellek integrálása az NLP-vel, például egy mesterséges intelligencia-modell kiképzése videók megtekintéséhez és szöveges összefoglaló elkészítéséhez a videóról – mondta Liu.
"E fejlesztés alkalmazása korlátlan lehet, az egészségügytől, a radiológiai filmek olvasásától és az előzetes diagnózis felállításától az otthonok, ruhák, ékszerek vagy hasonló tárgyak tervezéséig" - tette hozzá. "Az ügyfél szóban vagy írásban elmagyarázhatja a követelményeket, és ez a leírás automatikusan konvertálható képekké vagy videókká a jobb megjelenítés érdekében."