ChatGPT už vidí a naučil se mluvit

Pavel Trousil 26.09.2023

Umělá inteligence ChatGPT se velmi rychle vyvíjí a získává nové funkce. Firma OpenAI, která za tímto jazykovým modelem stojí, ohlásila, že teď už vidí, takže umí pracovat s obrázky a také mluví. Můžete si s ní tedy popovídat. Zatím ale pouze u placené a firemní verze aplikace.

Kapitoly článku

Jak to funguje

V aplikaci ChatGPT jsou k dispozici nové hlasové a obrazové funkce. Práce s tímto jazykovým modelem, který je často označován jako umělá inteligence, tak bude mnohem intuitivnější. Umožňuje to totiž vést běžnou hlasovou konverzaci nebo ChatGPT ukázat a vyfotit, o čem chcete mluvit. Doposud bylo možné jen zadávat textové dotazy, nebo dotazy hlasem. Teď už umí i hlasově odpovídat.

Jak to funguje

Jako příklad použití OpenAi na svém blogu uvádí, že si například na výletě vyfotografujete nějakou pamětihodnost a pak s ChatGPT můžete živě konverzovat o tom, co je na ní zajímavého. Když jste doma, vyfotografujte svou ledničku a spíž a zjistíte, co si tak můžete dát k večeři. Můžete se zeptat i na recept. Nebo vyfotografujete kolo a zeptáte se, jak dát níž jeho sedlo.

Po večeři pomůžete dětem s matematickým problémem tak, že ho vyfotíte, zakroužkujete zadání problému a necháte ho, aby se s vámi podělil o nápovědu. A až půjdou děti spát, může jim ChatGPT přečíst pohádku.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Zdroj: X/Twitter

Nová hlasová funkce je založena na novém modelu převodu textu na řeč, který dokáže generovat zvuk podobný lidskému pouze z textu. K přepisu mluvených slov do textu používá OpetnAI také Whisper, její open-source systém rozpoznávání řeči.

Co se týká obrázků, chcete-li je začít používat, stačí klepnout na tlačítko fotografie, pořídit obrázek fotoaparátem, nebo ho vybrat z galerie. Pokud používáte systém iOS nebo Android, klepnete nejprve na tlačítko plus. Můžete také diskutovat o více obrázcích nebo použít náš nástroj pro kreslení, který asistenta povede.

Porozumění obrázkům zajišťují multimodální technologie GPT-3.5 a GPT-4. Tyto modely aplikují své schopnosti jazykového uvažování na širokou škálu obrázků, jako jsou fotografie, snímky obrazovky a dokumenty obsahující text i obrázky.

Podle OpenAi jsou přijata technická opatření, která výrazně omezují schopnost ChatGPT analyzovat a přímo se vyjadřovat o lidech, protože ChatGPT není vždy přesný a tyto systémy by měly respektovat soukromí osob.

Hlasové a obrazové funkce v aplikaci ChatGPT se v průběhu příštích dvou týdnů dostanou mezi uživatele aplikací Plus a Enterprise. Hlas bude dostupný v systémech iOS a Android a práce s obrázky bude k dispozici na všech platformách.

Zdroj: OpenAI