AI výzkumník Simon Willison chtěl sečíst poplatky za používání cloudové služby, ale hodnoty a data plateb, které potřeboval, byly rozptýleny mezi mnoha samostatnými e-maily. Ruční vkládání by tedy bylo zdlouhavé, a tak se rozhodl pro experiment, který nazval „video scraping“. Nahrál co se děje na obrazovce a vložil video do AI modelu AI Gemini. Výsledek ho příjemně překvapil.
„Nedávno jsem se ocitl v situaci, kdy jsem potřeboval sečíst numerické hodnoty rozptýlené ve dvanácti různých emailech. Neměl jsem chuť ručně kopírovat a vkládat všechna čísla jedno po druhém, tak jsem se rozhodl vyzkoušet něco jiného: mohl bych nahrát záznam obrazovky při procházení mého účtu na Gmailu a poté extrahovat čísla z tohoto videa pomocí Google Gemini?“, popsal ve svém blogu.
Ukázalo se, že tento postup funguje neuvěřitelně dobře. Video nahrál pomocí nástroje QuickTime Playeru na svém Macu. Označil oblast obrazovky obsahující Gmailový účet, pak postupně klikal na každý z emailů a na každém se na pár sekund zastavil. Výsledný soubor nahrál přímo do nástroje Google AI Studio a zadal následující prompt:
"Turn this into a JSON array where each item has a yyyy-mm-dd date and a floating point dollar amount for that date“ (Převeď toto na JSON pole, kde každá položka má datum ve formátu rrrr-mm-dd a částku v dolarech jako desetinné číslo pro dané datum). ... a fungovalo to. Výstupem bylo JSON pole, které převedl na formát CSV.
Nedůvěřoval tomu, že by tyto nástroje neudělaly chybu, takže si 35sekundové video znovu přehrál a ručně zkontroloval čísla. Vše bylo správně. Původně měl v úmyslu použít Gemini 1.5 Pro, tedy nejlepší model od Googlu, ale zapomněl ho vybrat, takže celý proces proběhl na mnohem levnějším modelu Gemini 1.5 Flash 002.
Podle AI Studia použil 11 018 tokenů, z nichž 10 326 bylo pro video. Gemini 1.5 Flash si účtuje 0,075 $ za 1 milion tokenů. Takže celé toto cvičení by ho mělo stát jen něco málo pod desetinou centu. A ve skutečnosti to bylo zdarma. Google AI Studio v současnosti "zůstává bezplatné bez ohledu na to, zda nastavíte fakturaci ve všech podporovaných regionech".
Alternativy, které jinak připadají v úvahu:
- Proklikat emaily a ručně kopírovat data jeden po druhém. To je náchylné k chybám a nudné. Pro dvanáct emailů by to ještě šlo, ale pro sto by to bylo otravné.
- Programový přístup k datům v Gmailu. Stále je možné k datům přistupovat přes IMAP, pokud nastavíte vyhrazené heslo aplikace, ale to je spousta práce pro jednorázový úkol scrapingu.
- Nějaký druh automatizace prohlížeče (Playwright nebo podobné), který by mohl proklikat účet Gmailu. I s pomocí LLM při psaní kódu je to stále mnohem více práce a nepomáhá to řešit rozdíly ve formátování emailů.
- Použití nějakého mnohem sofistikovanějšího předem existujícího AI nástroje, který má přístup k emailu. Samostatný produkt Googlu, také nazvaný Gemini, to dokáže, pokud mu udělíte přístup. A ale vědec s dosavadními výsledky nebyl spokojen. AI nástroje jsou ze své podstaty nepředvídatelné.
Video scraping je mocný nástroj
Skvělá věc na této technice video scrapingu je, že funguje s čímkoli, co lze vidět na obrazovce. A máte kontrolu nad tím, co nakonec AI modelu předáte. Výsledky, závisí zcela na tom, jak pečlivě umístíte oblast zachycení obrazovky a jak přesně klikáte.
Není zde žádná počáteční investice - přihlaste se na stránku, spustíte nahrávání, chvíli prohlížíte a pak nahrajte zachycené video do Gemini. A náklady jsou opravdu nízké. Metoda by jistě našla uplatnění v mnoha oblastech, například ve světě datové žurnalistiky, která často zahrnuje potřebu dostávat data z různých zdrojů.
Zdroj: Simon Willison’s Weblog, AI Studio