Generátor s umělou inteligencí od Googlu udělá z textu nebo obrázku video

Pavel Trousil 29.01.2024

Nástroj Lumiere od Googlu vytváří pětisekundová videa, která "zobrazují realistický, rozmanitý a souvislý pohyb". Stačí napsat textové pokyny, nebo poskytnou obrázek a vznikne pěkné video v jednom průchodu. Lumier také umí měnit styl videí, nebo měnit objekty.

Společnost Google oznámila generátor videí s umělou inteligencí Lumiere, který nazývá "časoprostorový difuzní model pro realistické generování videa". Skvěle se mu například daří vytvářet videa roztomilých zvířátek v absurdních situacích, jako je jízda na kolečkových bruslích, řízení auta nebo hra na klavír.

Podle Googlu využívá Lumiere jedinečnou architekturu, která umožňuje vygenerovat celé videa najednou. Nebo, jak společnost říká: "Zavádíme architekturu Space-Time U-Net, která generuje celé video najednou, prostřednictvím jediného průchodu modelem. To je v protikladu ke stávajícím modelům videa, které syntetizují vzdálené klíčové snímky a následované časovým super-rozlišením."

Video — Stačí mít obrázek a Lumiere z něj udělá krátké video.

Technologie společnosti Google je tedy navržena tak, aby zvládala současně aspekty prostoru (kde se věci ve videu nacházejí) a času (jak se objekty v průběhu videa pohybují a mění). Takže místo toho, aby se video vytvářelo skládáním mnoha malých částí nebo snímků, dokáže vytvořit celé video od začátku do konce v jednom plynulém procesu.

Lumiere umí také spoustu triků, které jsou na ukázkové stránce Google docela dobře vysvětleny pomocí příkladů. Umí například provádět text na video (přeměnu psané výzvy na video), převádět statické obrázky na videa, generovat videa ve specifických stylech pomocí referenčního obrázku, aplikovat úpravu videa pomocí textových výzev, vytvářet cinemagrafy animací specifických oblastí obrázku a nabízet možnosti malování videa (například umí změnit typ šatů, které má osoba na sobě).

Výzkumníci společnosti Google uvádějí, že model umělé inteligence vytváří pětisekundová videa s rozlišením 1024 × 1024 pixelů, která označují jako "nízké rozlišení". Pokud jde o tréninková data, Google neuvádí, odkud získal videa, která vložil do nástroje Lumiere, ale píše: "Náš model T2V [text to video] trénujeme na souboru dat obsahujícím 30 milionů videí spolu s jejich textovými popisky. [Videa mají délku 80 snímků při 16 fps (5 sekund). Základní model je natrénován v rozlišení 128×128."

Zdroj: YouTube Lumiere

Video generované umělou inteligencí stále není dokonalé, ale v posledních dvou letech se jeho kvalita zlepšuje. V říjnu 2022 Google veřejně představila model syntézy obrazu Imagen Video. Dokázal generovat krátké videoklipy o rozlišení 1280×768 z písemné výzvy rychlostí 24 snímků za sekundu, ale výsledky nebyly vždy koherentní. Ještě předtím společnost Meta debutovala se svým generátorem videa s umělou inteligencí Make-A-Video. V červnu loňského roku umožnil model syntézy videa Runway Gen2 vytvářet dvouvteřinové videoklipy z textových podnětů, což podpořilo tvorbu surrealistických parodických reklam. A videa zvládá na základě obrázku generovat i aplikace Stable Video Diffusion.

Zdroj: Lumiere, Lumiere, Ars Technica