Umělá inteligence Googlu vytváří dobře padnoucí zvuk pro videa

Pavel Trousil 20.06.2024

Udělali jsme pokrok v naší generativní technologii pro převod videa na zvuk (video-to-audio:V2A), hlásí Google DeepMind. Přidat správný zvukový doprovod k videu by tak za chvíli neměl být problém. Jak tato technologie funguje?

Díky programům, jako je Canva, už není problém si nechat vygenerovat video. A modely pro generování videa se vyvíjejí neuvěřitelným tempem. Ale mnoho současných systémů dokáže generovat pouze tichý výstup – video bez zvuku. Umělá inteligence Deepmind společnosti Google k němu doplňuje další důležitou ingredienci –bohatou zvukovou kulisu pro dění na obrazovce, například dramatickou hudbu a realistické zvukové efekty.

We're sharing progress on our video-to-audio (V2A) generative technology. 🎥

It can add sound to silent clips that match the acoustics of the scene, accompany on-screen action, and more.

Here are 4 examples - turn your sound on. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) June 17, 2024

Zdroj: X, DeepMind

Google Deepmind to komentuje: "Jedním z dalších velkých kroků při oživování generovaných filmů je vytvoření zvukové stopy pro tato němá videa." A současné možnosti umělé inteligence v technologii převodu videa na zvuk (Video to Audio, V2A) také demonstruje na několika videích. Do V2A generátoru je potřeba zadat video a textový pokyn v přirozeném jazyce. Umělá inteligence na základě toho doprovodí obrázky odpovídajícími zvuky, jako je hudba, zvukové efekty nebo dialogy.

Zdroj: YouTube, Deepmind

Umělá inteligence dokáže také generovat zvukovou stopu pro řadu tradičních záběrů, včetně archivních materiálů, němých filmů a dalších - otevírá to podle Googlu širší škálu tvůrčích možností. V2A technologie může generovat neomezený počet zvukových stop pro libovolné vstupní video. Volitelně lze také definovat "pozitivní výzvu", která nasměruje generovaný výstup k požadovaným zvukům, nebo naopak "negativní výzvu", která jej odvede od nežádoucích zvuků.

Proces začíná zakódováním vstupního videa do komprimované reprezentace. Poté difuzní model iterativně zpřesňuje zvuk z náhodného šumu. Tento proces je řízen vizuálním vstupem a zadanými výzvami v přirozeném jazyce, aby se generoval synchronizovaný, realistický zvuk, který úzce souvisí s výzvou. Nakonec je zvukový výstup dekódován, přeměněn na zvukovou vlnu a zkombinován s obrazovými daty.

Podle Googlu se umělá inteligence učí "spojovat určité zvukové události s různými vizuálními scénami a reagovat na informace uvedené v anotacích nebo přepisech". V oblasti synchronizace rtů u videí s řečí je třeba ještě zapracovat. V současné době probíhá sběr zpětné vazby od tvůrců a filmařů. Google zdůrazňuje, že se "zavázala k odpovědnému vývoji a používání technologií umělé inteligence". Videa vytvořená pomocí Google Deepmind budou prozatím opatřena vodoznakem. Než bude technologie zpřístupněna široké veřejnosti, projde "přísnými bezpečnostními kontrolami a testy".

Zdroj: DeepMind