Az AI mostantól megértheti videóit, ha megnézi őket

👤 Szerző Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:50.
🖍 Utoljára módosítva 2025-06-01 07:16.

A legfontosabb elvitelek

A kutatók azt mondják, hogy megtaníthatják a mesterséges intelligenciát videók címkézésére nézéssel és hallgatással.
A mesterséges intelligencia rendszer megtanulja ábrázolni az adatokat, hogy rögzítse a vizuális és audioadatok között megosztott fogalmakat.
Része annak az erőfeszítésnek, hogy a mesterséges intelligencia megértse azokat a fogalmakat, amelyeket az embereknek nem okoz nehézségek a tanulás, de a számítógépek nehezen érthetők meg.

Egy új mesterséges intelligencia rendszer (AI) képes megnézni és hallgatni a videóidat, és felcímkézni a történéseket.

MIT kutatók kifejlesztettek egy technikát, amely megtanítja a mesterséges intelligencia a kép és a hang között megosztott műveletek rögzítésére. Módszerük például képes megérteni, hogy egy kisbaba sírása egy videóban összefügg a hangklipben kimondott „sírás” szóval. Része annak az erőfeszítésnek, hogy megtanítsuk a mesterséges intelligencia megértésére olyan fogalmakat, amelyek elsajátítása az emberek számára nem okoz nehézséget, de amelyeket a számítógépek nehezen képesek megérteni.

"Az elterjedt tanulási paradigma, a felügyelt tanulás jól működik, ha jól leírtak és teljesek az adatkészletek" - mondta Phil Winder mesterséges intelligencia szakértő egy e-mailes interjúban a Lifewire-nek. "Sajnos az adatkészletek ritkán teljesek, mert a valós világnak rossz szokása van új helyzetek bemutatására."

Intelligens mesterséges intelligencia

A számítógépek nehezen tudják kitalálni a mindennapi forgatókönyveket, mert a hangok és képek helyett adatokat kell összetörniük, mint az emberek. Amikor egy gép "lát" egy fényképet, azt olyan adatokba kell kódolnia, amelyeket olyan feladatok elvégzésére használhat, mint a képbesorolás. A mesterséges intelligencia elakadhat, ha a bemenetek többféle formátumban érkeznek, például videók, hangklipek és képek.

"A fő kihívás itt az, hogyan tudja egy gép összehangolni ezeket a különböző módozatokat? Emberekként ez könnyű számunkra" - mondta egy közleményben Alexander Liu, az MIT kutatója és a témával foglalkozó tanulmány első szerzője. híradás. "Látunk egy autót, majd halljuk egy elhaladó autó hangját, és tudjuk, hogy ezek ugyanazok. De a gépi tanulás szempontjából ez nem olyan egyszerű."

Liu csapata kifejlesztett egy mesterséges intelligencia technikát, amely szerintük megtanulja az adatokat ábrázolni, hogy rögzítse a vizuális és audioadatok között megosztott fogalmakat. Ezt a tudást felhasználva gépi tanulási modelljük azonosítani tudja, hol játszódik egy adott művelet a videóban, és felcímkézi azt.

Az új modell nyers adatokat, például videókat és a hozzájuk tartozó szöveges feliratokat vesz fel, és kódolja azokat a videó objektumaira és műveleteire vonatkozó jellemzők vagy megfigyelések kinyerésével. Ezután leképezi ezeket az adatpontokat egy rácsban, amelyet beágyazási térnek neveznek. A modell a hasonló adatokat egyetlen pontként klaszterezi a rácsban; ezen adatpontok vagy vektorok mindegyikét egy-egy szó képviseli.

Például egy zsonglőrködő személy videoklipje leképezhető egy "zsonglőrködés" feliratú vektorra.

A kutatók úgy tervezték meg a modellt, hogy csak 1000 szót tudjon használni a vektorok címkézésére. A modell el tudja dönteni, hogy mely műveleteket vagy fogalmakat akarja egyetlen vektorba kódolni, de csak 1000 vektort használhat. A modell azokat a szavakat választja, amelyek szerinte a legjobban reprezentálják az adatokat.

Ha van egy videó a sertésekről, a modell hozzárendelheti a „disznó” szót az 1000 vektor egyikéhez. Ha a modell hallja, hogy valaki a „disznó” szót mondja egy hangklipben, ennek a kódolásához továbbra is ugyanazt a vektort kell használnia” - magyarázta Liu.

Saját videóid, dekódolva

Az MIT által kifejlesztetthez hasonló jobb címkézési rendszerek segíthetnek csökkenteni a mesterséges intelligencia torzítását - mondta Marian Beszedes, az Innovatrics biometrikus cég kutatási és fejlesztési részlegének vezetője a Lifewire-nek adott e-mailben. Beszedes azt javasolta, hogy az adatipar a mesterséges intelligencia rendszereit a gyártási folyamat szemszögéből is szemlélje.

"A rendszerek nyers adatokat fogadnak be bemenetként (nyersanyag), előfeldolgozzák, bekebelezik, döntéseket hoznak vagy előrejelzéseket hoznak, és elemzéseket (késztermékeket) adnak ki" - mondta Beszedes. "Ezt a folyamatfolyamatot "adatgyárnak" nevezzük, és más gyártási folyamatokhoz hasonlóan minőségi ellenőrzésnek kell alávetni. Az adatiparnak minőségi problémaként kell kezelnie a mesterséges intelligencia torzítását.

"Fogyasztói szemmel nézve a rosszul felcímkézett adatok megnehezítik például az egyes képek/videók online keresését" - tette hozzá Beszedes. "A helyesen kifejlesztett mesterséges intelligencia segítségével automatikusan címkézhet, sokkal gyorsabban és semlegesebben, mint a kézi címkézéssel."

De az MIT-modellnek még mindig vannak korlátai. Egyrészt kutatásaik egyszerre két forrásból származó adatokra összpontosítottak, de a valós világban az emberek sokféle információval találkoznak egyszerre, mondta Liu

"És tudjuk, hogy 1000 szó működik az ilyen típusú adathalmazokon, de nem tudjuk, hogy általánosítható-e egy valós problémára" - tette hozzá Liu.

Az MIT kutatói szerint új technikájuk sok hasonló modellt felülmúl. Ha a mesterséges intelligencia megtanítható a videók megértésére, akkor előfordulhat, hogy kihagyhatja barátja nyaralási videóit, és helyette számítógép által generált jelentést kaphat.

Ajánlott:

Az AI mostantól megértheti videóit, ha megnézi őket

Tartalomjegyzék:

A legfontosabb elvitelek

Intelligens mesterséges intelligencia

Saját videóid, dekódolva

Ajánlott:

Mostantól különösebb erőfeszítés nélkül futtathatja a Windows 11-et macOS rendszeren

A Photoshop for the Web mostantól mindenki számára ingyenes

Hogyan derítheti ki, hogy ki nézi a YouTube-videóit

Mostantól a hackerek könnyebben használhatják fel a nyilvános információkat Ön ellen

A Spotify Blend mostantól nagyobb csoportokat és előadókat is támogat

Hasznos az SSID sugárzás letiltása?

Hogyan készíthetsz nagyobb képeket minimális minőségveszteséggel

A szinusz, koszinusz és tangens keresése a Google Táblázatokban

ViewSonic M1+ hordozható kivetítő áttekintése: Könnyen használható mini projektor, amely olcsón is jó

AAXA P7 LED-projektor áttekintése: Egy tisztességes miniatűr projektor, amely nehezedik a pénztárcára

Hogyan oszthat meg egy névjegyet a WhatsApp-on

A Signal Group Call Options használata

Miért fogsz látni több videorecepcióst?

Hangmegosztás a zoom funkcióval

Szöveges vízjel alkalmazása a Paint.NET grafikájára

A YouTube olyan funkcióval bővül, amellyel telefonról asztali számítógépre válthat

Hogyan hozhatok létre Windows jelszó-visszaállító lemezt?

A Prime tagok csak e-mailben küldhetnek ajándékokat

A Facebook most leálltvagy csak te?

Az Apple kiadja az iOS 15.0.1 és az iPadOS 15.1 verzióját