Jók vagy rosszak ezek a szuper lenyűgöző mesterséges intelligencia hangoskönyvek?

Tartalomjegyzék:

Jók vagy rosszak ezek a szuper lenyűgöző mesterséges intelligencia hangoskönyvek?
Jók vagy rosszak ezek a szuper lenyűgöző mesterséges intelligencia hangoskönyvek?
Anonim

A legfontosabb elvitelek

  • A DeepZen mesterséges intelligenciát (AI) használ, hogy megdöbbentően valósághű hangoskönyveket hozzon létre szövegből.
  • A technológia valódi emberi hangszínészeket használ az építőelemek biztosításához.
  • Az Amazon és az Audible jelenleg nem fogad el számítógéppel készített hangoskönyveket.
Image
Image

A DeepZen egy olyan cég, amely hangoskönyvekben használt számítógépes hangokat készít emberi színészek valódi hangja alapján. A minőség ijesztő – könnyen elég jó ahhoz, hogy órákig hallgathassa. A trükk itt az AI (mesterséges intelligencia) komponens, amely képes elolvasni a szöveget, és a kontextus alapján következtetni a helyes érzelmi reakcióra. Ezután ezt az érzelmet a hangba helyezi.

Lenyűgöző és nagyon kényelmes. De valóban homogenizált hangoskönyv-élményt akarunk? És mi van azokkal a szinkronszínészekkel?

"A független kiadó szemszögéből minden, ami csökkenti a hangoskönyvek előállításának költségeit, nagyon érdekes" - mondta Rick Carlile, a Carlile Media független kiadó tulajdonosa a Lifewire-nek e-mailben.

"De ez a vonzalom azt feltételezi, hogy a termék ugyanolyan minőségű lenne, mint a hagyományos narráció. Szerintem még nem tartunk száz százalékig. Félreértés ne essék, a DeepZen elképesztően jó. Ez egy óriási áttörés, és alkotói hatalmas dicséretet és sikert érdemelnek. De még nem tökéletes."

Audio, ami „elég jó”

A DeepZen minőségének megértésének legjobb módja a minták meghallgatása. Ha nem tudná, hogy számítógéppel hozták létre, talán észre sem venné. Egy darabig amúgy sem. Tételezzük fel, hogy a DeepZen mesterséges intelligencia tökéletes, és soha nem értelmezi félre az érzelmi hangokat, amelyeket el kell érnie.

Image
Image

Az ember még ekkor is tud árny altabb és gyakran meglepőbb értelmezéseket kínálni. Előfordulhat, hogy egy színész olyan váratlan fordulatot tesz a szavakon, amelyekre egy számítógép soha nem gondolna. És a valóságban a mesterséges intelligencia értelmezése még biztosan nem olyan jó, mint egy profi szinkronszínészé.

"Mint aki filmeken dolgozik, és legutóbb a hangos narráció világában, miközben lenyűgözött a mesterséges intelligencia – pontosan tudom, hogy a jelentésnek mély mélységei vannak, amelyeket egy gép nem tud értelmezni." Professzionális hang Paul Cram színész e-mailben elmondta a Lifewire-nek.

"Többnyire fognak ismeretlen szerzők használni? Garantálom, hogy lesz, mert "elég jó"."

Ha elég jók vagyunk, a kényelemmel és a költségmegtakarítással párosulva, ez elegendő lehet ahhoz, hogy a független kiadókat a szolgáltatáshoz terelje.

"A hangoskönyvek ára akár 500 dollárba is kerülhet egy kész hangóránként (sokkal több egy híresség hangja esetén), és ez nem tartalmazza a menedzsment és a rendszergazda időköltségét" - mondja Carlile. „Rendkívül vonzó, ha ezt a költséget felére tudjuk csökkenteni azáltal, hogy egyszerűen feltöltünk egy kéziratot egy olyan szolgáltatóhoz, mint a DeepZen.”

Beszédprobléma

Ez még nem olyan egyszerű, mint kirúgni a szinkronszínészeket és feltölteni a kéziratokat a DeepZenbe. Jelenleg egyetlen akadálya van a hangoskönyvek mesterséges intelligenciájának egyszerű megfogalmazásának, és ez az Amazontól származik.

Image
Image

"Jelenleg az ACX, a saját kiadó útja az Audible és az Amazon hangoskönyvek terjesztéséhez, nem fogad el olyan hangoskönyveket, amelyeket nem ember rögzített" - mondja Carlile.

Miért? Minőség. Íme a GYIK bejegyzés a webhelyről:

"Szövegfelolvasó vagy egyéb automatizált felvételek nem engedélyezettek. A hallható hallgatók hangoskönyveket választanak az anyag és a történet előadásához. Ahhoz, hogy megfeleljen ennek az elvárásnak, a hangoskönyvet embernek kell rögzítenie."

Ez azt jelenti, hogy a DeepZen által generált hangoskönyvek legalábbis mostanra nem használhatók. Ez puszta spekuláció, de a DeepZen elég jó beszerzésnek tűnik az Amazon számára, engedné, hogy eladja a szolgáltatást, és csak az Audible könyvek számára tartsa meg. És még ha ez nem is történik meg, ha a számítógéppel készített hangoskönyvek minősége ilyen jó, akkor kevés okunk van arra, hogy ne tegyen kivételt e szabály alól.

Szívesen hallgatna így készült hangoskönyveket? Amikor ez megtörténik, a legtöbb ember nem is sejti. Vannak, akik előnyben részesítik a számítógép által generált hangok tökéletességét, mert mentesek lesznek azoktól az énekhangoktól és szokásoktól, amelyek néha elvonhatják a figyelmet. A technológia alkalmas videojátékokhoz, TV- és rádióhirdetésekhez, valamint minden olyan esethez, amikor szinkronszínészt alkalmaznak.

A DeepZen technológiája nagyszerű módja annak, hogy írott cikkekből automatikusan hírpodcastokat hozzanak létre, amelyek hasznosak lehetnek az ingázáshoz.

És mi lesz azokkal a szinkronszínészekkel? Nos, legalább egy lehetőség lesz: elmehetnek dolgozni a DeepZenhez.

Ajánlott: