Společnost Stability AI zveřejnila novou verzi Stable Diffusion 3 (SD3) Medium, což je model, který na základě textové výzvy vygeneruje pomocí umělé inteligence obrázek. Její příchod však nebyl na internetu přijat zrovna s nadšením a některé výsledky jsou zesměšňovány. Generuje totiž obrázky lidí způsobem, který se zdá být krokem zpět oproti jiným nejmodernějším AI modelům, jako je Midjourney nebo DALL-E 3. Uživatelům totiž předkládá anatomicky bizardní postavy.
Například ve vlákně na Redditu s názvem "Má být toto vydání vtip? [SD3-2B]," se podrobně popisují nepovedené výsledky SD3 při vykreslování lidí, zejména lidských končetin, tedy rukou a nohou. Další vlákno s názvem "Proč je SD3 tak špatný při generování dívek ležících na trávě?" ukazuje podobné problémy, ale u celých lidských těl.
SD3 se bojí nahoty
Ruce byly pro generátory obrázků s podporou umělé inteligence tradičně problémem, ale v poslední době se zdá, že několik hlavních modelů pro syntézu obrázků tento problém už překonalo. V tomto smyslu se tedy zdá být SD3 velkým krokem zpět.
Fanoušci generovaných obrázků pomocí AI viní z neúspěchů anatomie SD3 to, že Stability trvá na odfiltrování obsahu pro dospělé (často označovaného jako "NSFW" - not safe for work) z tréninkových dat SD3, na které model učí generovat obrázky. "Věřte tomu nebo ne, silná cenzura modelu také zbavuje model lidské anatomie, takže... to se stalo," napsal jeden uživatel Redditu ve vlákně. Je tedy možné, že SD3 neví, jak lidské tělo vlastně vypadá.
Mohlo by vás zajímat
Dalším problémem, který se mohl vyskytnout během předtrénování modelu, je, že někdy je filtr NSFW, který výzkumníci používají k odstranění obrázků „pro dospělé“, až příliš vybíravý, takže omylem se pak nepracuje s obrázky, které by nemusely být nevhodné, a připraví model o možnost naučit se, jak vypadají lidé v určitých situacích. SD3 ale funguje dobře, pokud na obrázku nejsou osoby.
Jeden z příspěvků na Redditu zní: „Vtipné je, že když z těchto zmatených výsledků vyčleníte "ženu" a vložíte "psa", většinou získáte docela slušné výsledky. Opravdu to vypadá, jako by zcenzurovali spoustu výcvikového materiálu s lidmi, a model je prostě neumí správně vykreslit.“
Vyzkoušejte sami
Stable Diffusion 3 ve verzi Medium jsme si vyzkoušeli a musíme dát kritikům nové verze za pravdu. Na textové výzvy, jako například „Dvě dívky ležící na louce v české krajině. Pohled shora“, nebo „Muž se ženou ležící v plavkách na břehu Vltavy.“, apod., předkládá program opravdu bizarní výsledky. Demoverze je volně dostupná na webu Hugging Face, takže ji můžete klidně vyzkoušet.
Problémy jsou hlubší
Společnost Stability oznámila model Stable Diffusion 3 v únoru a plánovala, že jej bude nabízet v různých verzích. Dnes je tu řeč o verzi Medium, což je model s 2 miliardami parametrů. Krátce po únorovém oznámení se objevily zvěsti, že vydání modelu SD3 se zdržuje kvůli technickým problémům, nebo špatnému vedení.
Mohlo by vás zajímat
Společnost Stability AI se totiž nedávno dostala do krize, když v březnu odstoupil její zakladatel a generální ředitel Emad Mostaque a následně došlo k sérii propouštění. Těsně předtím firmu opustili tři klíčoví inženýři. Zprávy o neutěšené finanční situaci společnosti se táhnou už od roku 2023. Podle některých fanoušků Stable Diffusion tedy stojí za neúspěchy SD3 Medium špatné řízení celé společnosti.
Zdroj: Stability AI, Reddit, Reddit, Hugging Face