Novinky

Dall-E ve verzi 3: má lepší výsledky a s výzvou vám pomůže ChatGPT

Pavel Trousil 21.09.2023

OpenAI představila nástroj Dall-E 3, který využívá pro vytváření textových výzev technologii ChatGPT. Budete si tak moct vytvořit umělecké dílo pouhým oslovením chatbota a nebudete muset vymýšlet složité texty. Kromě toho Dall-E 3 poskytuje lepší výsledky a dbá více o bezpečí.

Kapitoly článku

Snadné psaní výzev a vyšší bezpečnost

DALL-E je generativní model umělé inteligence vyvinutý společností OpenAI. Byl představen v lednu 2021 a je konkrétně navržen pro generování obrazů a ilustrací na základě textových popisů (tzv. výzev). Jeho název je složen z kombinace jmen "DALI" (po španělském malíři Salvadoru Dalím) a "Wall-E" (podle animované postavy z filmu Wall-E).

DALL-E dokáže převádět textové popisy na vizuální obsah tím způsobem, že generuje obrázky, které odpovídají popisu. Například, když dostane textový popis jako "strakatý pes s čepicí na hlavě jede na skateboardu", dokáže vytvořit obrázek, který tuto popsanou scénu ilustruje. Model je schopen generovat širokou škálu různých obrázků v různých stylech na základě textových vstupů.

V roce 2022 byla vydána verze DALL-E 2 a OpenAI otevřela čekací listinu, aby mohla kontrolovat, kdo bude moci platformu používat. V září loňského roku čekací listinu zrušila a otevřela DALL-E 2 veřejnosti. Můžete si ji po registraci vyzkoušet.

Pes na skateboardu — Na základě výzvy "strakatý pes s čepicí na hlavě jede na skateboardu" vygeneruje Dall-E obrázek.

Nyní OpenAI představila už třetí verzi DALL-E, která opět lépe kreslí. Ale co je pro některé uživatele asi zajímavější, zjednoduší se systém psaní výzev, tedy popisů na základě kterých pak umělá inteligence vygeneruje obrázek. V OpenAI totiž DALL-E spojili i s jejich chatbotem ChatGPT.

Snadné psaní výzev a vyšší bezpečnost

Model DALL-E 2 se v některých věcech mýlil a často ignoroval konkrétní znění zadání. Nejnovější verze podle vývojářů OpenAI pochopí kontext mnohem lépe. Novinkou verze 3 je totiž integrace s ChatGPT. Díky použití ChatGPT nemusí někdo vymýšlet vlastní podrobnou výzvu: stačí požádat ChatGPT, aby výzvu vymyslel, a chatbot napíše delší text, podle kterého bude DALL-E 3 pracovat -DALL-E přesněji pracuje na základě delšího popisu. ChatGPT tedy automaticky rozšíří zadání tak, aby generátor dostal podrobnější a ucelenější instrukce. Pokud to někomu nevyhovuje, může stále používat své vlastní výzvy.

Bastetball — I se stejnou výzvou přináší DALL•E 3 oproti DALL•E 2 významná vylepšení.

Novinkou u Dall-E 3 je také to, že odstraňuje některé složitosti spojené s upřesňováním textu - což je známé jako "prompt engineering". Dovoluje uživatelům provádět upřesnění opět prostřednictvím konverzačního rozhraní ChatGPT.

OpenAI tvrdí, že se při vývoji DALL-E 3 soustředila i na vytvoření robustních bezpečnostních opatření, která mají zabránit vytváření oplzlých nebo potenciálně nenávistných obrázků. Spolupracovala při tom i s externisty. Jazykové modely určitá slova ignorují, aby se vyhnuly explicitním nebo násilným podnětům a AI tak nebude generovat obrázky, kde je násilí, obsah pro dospělé nebo nenávistný obsah. DALL-E 3 také nebude schopen reprodukovat obrázky veřejně známých osobností - za předpokladu, že ve výzvě bude výslovně uvedeno jejich jméno. DALL-E 3 byl také vycvičen tak, aby odmítal generovat obrazy ve stylu žijících umělců.

DALL·E 3🤝ChatGPT pic.twitter.com/90ITkUAln2
— OpenAI (@OpenAI) September 21, 2023

Zdroj: X/Twitter

Tato nová verze bude nejprve v říjnu zpřístupněna uživatelům ChatGPT Plus a ChatGPT Enterprise, na podzim pak výzkumným laboratořím a službě API. OpenAI plánuje postupné uvolňování DALL-E 3, ale zatím se nezavázala nějakým termínem, kdy bude uvolněna bezplatná veřejná verze.

Zdroj: OpenAI, Wired