Od jazykových modelů k AI programátorům: Co přinesl poslední měsíc?

Claude 3 poráží GPT-4, Devin programuje, Suno skládá hudbu a recenzní řízení vědeckých časopisu tváří v tvář AI selhává

Mar 31, 2024

Někdy mám dojem, že se celé měsíce nestane nic, co by ve mně vyvolalo touhu sem něco napsat, a pak je toho najednou tolik!

"Král je mrtev" - Anthropic překonal OpenAI

Anthropic je americká společnost, která se odštěpila od OpenAI v roce 2021 a dlouho se zdálo, že její Claude bude v orchestru velkých jazykových modelů hrát maximálně druhé housle. Ne, že by byl špatný, ale ChatGPT4 se jednoduše jevil jako lepší. To se změnilo 4. března, s třetí generací Claude dodávanou hned ve třech velikostech (a cenách) Opus, Sonet a Haiku. Přiznám se, že když jsem poprvé viděl tabulku níže, byl jsem skeptický. Google nedávno při uvedení Gemini Ultra též tvrdil, že se GPT4 minimálně vyrovná, ale praktické zkušenosti většiny z nás svědčily o opaku.

Nezávislá srovnání ale údaje potvrzují, pro češtinu se dokonce zdá, že má lepší cit. Tabulka níže je slepý test z lmsys arény (uživatel položí dotaz dvou jazykovým modelům a potom určí, který lépe odpověděl). Nejde jen o to, že Claude 3 Opus je nejlepší, ale že i nejmenší Claude 3 Haiku není o mnoho horší než GPT4. Přitom pokud jej integrujete do svých aplikací pomocí API, vyjde vás levněji než mnohem horší a hloupější ChatGPT3.5, na vstupním textu dokonce dvakrát. Můžete mu tak dát několik příkladů očekávaného výstupu (tzv. few-shot) - a stejně ušetřit.

Pokud si chce OpenAI udržet své vedoucí postavení, měl by rychle zlevnit nebo přijít s něčím novým, nejlépe oboje.

Z praxe

Švédský fintech Klarna oznámil na síti X, že po přesměrování 2/3 dotazů uživatelské podpory na AI asistenta dosáhl stejné spokojenosti zákazníků, o 25% snížil opakované dotazy a celý proces výrazně zrychlil (2min vs 11min). AI asistent je nabízen v 35 jazycích a Klarna odhaduje úsporu za letošní rok na 40 milionů dolarů.

Letecká společnost AirCanada byla donucena vrátit peníze za letenky, neboť chatbot na stránkách společnosti halucinoval pravidla refundace a soud donutil AirCanada tato vymyšlená pravidla dodržet.

Daniela Klette, teroristka RAF, byla po 30 letech dopadena v centru Berlína. Zdá se, že klíčovou stopu (fotku Daniely na stránkách místního fitcentra) pomohla nalézt kontrovezní služba PimEyes. PimEyes vám za drobný poplatek pomůže nalézt všechny vaše fotografie na internetu. Nebo někoho jiného.

Z vědy

Pokud jste věřili review procesu u vědeckých publikací, je čas změnit názor. Obrázek krysy s obřími varlaty a zjevně nesmyslnými popisky není ze školního projektu mého devítiletého syna (byť se mu velmi podobá!), ale vyšel v renomovaném vědeckém časopise Frontiers in Cell and Developmental Biology.

Jedno selhání by se dalo omluvit, když navíc byl problém jen s obrázky a text článku se zdál být v pořádku. Bohužel to rozhodně nebyl jediný případ.

Pokud stále nevěříte, nechte si ve vyhledávači vědeckých článků Google Scholar nalézt frázi “as an AI language model“ naznačující, že nejenže autor vygeneroval text článku pomocí ChatGPT, ale ani si to po sobě (po něm?) nepřečetl. V tuto chvíli tam takových článků je čtyřicetjedna!

Devin = první AI programátor

Těžko říct, jestli se jedná o revoluci nebo uměle vyvolanou senzaci, ale jedna z nejdiskutovanějších zpráv posledního měsíce byla tohle video.

Scott Wu na něm tvrdí, že vyvinuli systém, který je do jisté míry schopen nahradit (lidského) programátora a například opravit 14% problémů u volně šiřitelného softwaru. Na hodnocení si budeme muset počkat, až bude Devin dostupný i někomu jinému než úzké skupince. Osobně se mi líbí shrnutí na síti X od Andreje Karpathyho, který autonomního AI programátora srovnává s autonomním řízením auta.

Otevřené modely

Můžete si o Elonu Muskovi myslet co chcete, ale slib dodržel a Grok-1, velký jazykový model vyvinutý pro Twitter, je k dispozici ke stažení. Byť je tedy na pováženou, kdo si 314 miliard parametrů velký model bude schopen někde rozeběhnout.

Podobný pocit mám z oznámení Databricks, že jejich nový model DBRX překonává na benchmarcích ostatní otevřené modely. Pěkné, ale 132 miliard parametrů vyžaduje při 16bitové přesnosti čtyři 80 GB GPU, což je mimo možnosti (nejen) moje.

Zajímavější je model uvolněný společností Cohere s nekomerční licencí Command-R, na který už vám jedna 80GB GPU stačí. Testoval jsem shrnutí článků v češtině (model se chlubí, že byl trénován na 23 jazycích) a výsledky jsou úctyhodné. Shrnutí od ChatGPT mi přijdou subjektivně o chlup lepší, ale ten rozdíl už není velký.

Z malých modelů se sluší zmínit novou verzi základního Mistral7B s 32K kontextem, konečně použitelný Gemma 7B od Googlu a z něj odvozený Zephyr-7b-gemma.

Zkuste si…

…složit song s aplikací Suno. Cenu Anděl za to asi nedostanete, ale ušní červa červ se tak dá vyrobit vcelku zdařilý a to i v češtině.

Převážně nevážně o AI