A legfontosabb elvitelek
- A kutatók azt mondják, hogy megtaníthatják a mesterséges intelligenciát videók címkézésére nézéssel és hallgatással.
- A mesterséges intelligencia rendszer megtanulja ábrázolni az adatokat, hogy rögzítse a vizuális és audioadatok között megosztott fogalmakat.
-
Része annak az erőfeszítésnek, hogy a mesterséges intelligencia megértse azokat a fogalmakat, amelyeket az embereknek nem okoz nehézségek a tanulás, de a számítógépek nehezen érthetők meg.
Egy új mesterséges intelligencia rendszer (AI) képes megnézni és hallgatni a videóidat, és felcímkézni a történéseket.
MIT kutatók kifejlesztettek egy technikát, amely megtanítja a mesterséges intelligencia a kép és a hang között megosztott műveletek rögzítésére. Módszerük például képes megérteni, hogy egy kisbaba sírása egy videóban összefügg a hangklipben kimondott „sírás” szóval. Része annak az erőfeszítésnek, hogy megtanítsuk a mesterséges intelligencia megértésére olyan fogalmakat, amelyek elsajátítása az emberek számára nem okoz nehézséget, de amelyeket a számítógépek nehezen képesek megérteni.
"Az elterjedt tanulási paradigma, a felügyelt tanulás jól működik, ha jól leírtak és teljesek az adatkészletek" - mondta Phil Winder mesterséges intelligencia szakértő egy e-mailes interjúban a Lifewire-nek. "Sajnos az adatkészletek ritkán teljesek, mert a valós világnak rossz szokása van új helyzetek bemutatására."
Intelligens mesterséges intelligencia
A számítógépek nehezen tudják kitalálni a mindennapi forgatókönyveket, mert a hangok és képek helyett adatokat kell összetörniük, mint az emberek. Amikor egy gép "lát" egy fényképet, azt olyan adatokba kell kódolnia, amelyeket olyan feladatok elvégzésére használhat, mint a képbesorolás. A mesterséges intelligencia elakadhat, ha a bemenetek többféle formátumban érkeznek, például videók, hangklipek és képek.
"A fő kihívás itt az, hogyan tudja egy gép összehangolni ezeket a különböző módozatokat? Emberekként ez könnyű számunkra" - mondta egy közleményben Alexander Liu, az MIT kutatója és a témával foglalkozó tanulmány első szerzője. híradás. "Látunk egy autót, majd halljuk egy elhaladó autó hangját, és tudjuk, hogy ezek ugyanazok. De a gépi tanulás szempontjából ez nem olyan egyszerű."
Liu csapata kifejlesztett egy mesterséges intelligencia technikát, amely szerintük megtanulja az adatokat ábrázolni, hogy rögzítse a vizuális és audioadatok között megosztott fogalmakat. Ezt a tudást felhasználva gépi tanulási modelljük azonosítani tudja, hol játszódik egy adott művelet a videóban, és felcímkézi azt.
Az új modell nyers adatokat, például videókat és a hozzájuk tartozó szöveges feliratokat vesz fel, és kódolja azokat a videó objektumaira és műveleteire vonatkozó jellemzők vagy megfigyelések kinyerésével. Ezután leképezi ezeket az adatpontokat egy rácsban, amelyet beágyazási térnek neveznek. A modell a hasonló adatokat egyetlen pontként klaszterezi a rácsban; ezen adatpontok vagy vektorok mindegyikét egy-egy szó képviseli.
Például egy zsonglőrködő személy videoklipje leképezhető egy "zsonglőrködés" feliratú vektorra.
A kutatók úgy tervezték meg a modellt, hogy csak 1000 szót tudjon használni a vektorok címkézésére. A modell el tudja dönteni, hogy mely műveleteket vagy fogalmakat akarja egyetlen vektorba kódolni, de csak 1000 vektort használhat. A modell azokat a szavakat választja, amelyek szerinte a legjobban reprezentálják az adatokat.
Ha van egy videó a sertésekről, a modell hozzárendelheti a „disznó” szót az 1000 vektor egyikéhez. Ha a modell hallja, hogy valaki a „disznó” szót mondja egy hangklipben, ennek a kódolásához továbbra is ugyanazt a vektort kell használnia” – magyarázta Liu.
Saját videóid, dekódolva
Az MIT által kifejlesztetthez hasonló jobb címkézési rendszerek segíthetnek csökkenteni a mesterséges intelligencia torzítását – mondta Marian Beszedes, az Innovatrics biometrikus cég kutatási és fejlesztési részlegének vezetője a Lifewire-nek adott e-mailben. Beszedes azt javasolta, hogy az adatipar a mesterséges intelligencia rendszereit a gyártási folyamat szemszögéből is szemlélje.
"A rendszerek nyers adatokat fogadnak be bemenetként (nyersanyag), előfeldolgozzák, bekebelezik, döntéseket hoznak vagy előrejelzéseket hoznak, és elemzéseket (késztermékeket) adnak ki" - mondta Beszedes. "Ezt a folyamatfolyamatot "adatgyárnak" nevezzük, és más gyártási folyamatokhoz hasonlóan minőségi ellenőrzésnek kell alávetni. Az adatiparnak minőségi problémaként kell kezelnie a mesterséges intelligencia torzítását.
"Fogyasztói szemmel nézve a rosszul felcímkézett adatok megnehezítik például az egyes képek/videók online keresését" - tette hozzá Beszedes. "A helyesen kifejlesztett mesterséges intelligencia segítségével automatikusan címkézhet, sokkal gyorsabban és semlegesebben, mint a kézi címkézéssel."
De az MIT-modellnek még mindig vannak korlátai. Egyrészt kutatásaik egyszerre két forrásból származó adatokra összpontosítottak, de a valós világban az emberek sokféle információval találkoznak egyszerre, mondta Liu
"És tudjuk, hogy 1000 szó működik az ilyen típusú adathalmazokon, de nem tudjuk, hogy általánosítható-e egy valós problémára" - tette hozzá Liu.
Az MIT kutatói szerint új technikájuk sok hasonló modellt felülmúl. Ha a mesterséges intelligencia megtanítható a videók megértésére, akkor előfordulhat, hogy kihagyhatja barátja nyaralási videóit, és helyette számítógép által generált jelentést kaphat.