Véleményem a Sora-ról (és az első mémem)

Hetek óta tervezem ezt a posztot, nagyjából mióta kijött a Sora.

A készítők szerint…

Érdemes elolvasni a kapcsolódó hosszabb OpenAI posztot is, ahol készítők maguk világ szimulátornak nevezik a modellt (#hellosimulation, és amúgy a jelenlegi AI-k is inkább intelligencia szimulátorok szerintem). Ők ilyeneket írnak:

  • „The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.”
  • „scaling video generation models is a promising path towards building general purpose simulators of the physical world”
  • „Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.”

…és szerintem is

Mi tulajdonképpen az OpenAI Sora modellje? Videó generátor? Valóság szimulátor? Robot operációs rendszer alapja? Tanulógép? Véleményem és az első mémem, lentebb kibontva.

1) Jogos, hogy óvatosan teszik közzé, hagynak időt felkészülni, amennyire tudják, vízjelezik stb.

2) Megalapozott, hogy nem érdemes most stúdióba fektetni. Ahogy a képeknél, festészetnél, különlegessé válhat pl. a klasszikus zenei klip forgatás. Nagyobb lesz a verseny, nagyobb tere lesz a kreatív AI használóknak.

3) Érdekes, hogy a Sora mint korai modell már láthatóan kezdi érteni a fizikai világ szabályait, és ez nyilvánvalóan tovább fog javulni.

4) A Sora kiadása előtt néhány nappal az OpenAI kötelékből ismét kilépő Andrej Karpathy a Teslánál az önvezetésen dolgozott, építette fel azt a keretrendszert és több ezres csapatot, aki valódi videókból és generált szimulált 3D videók alapján tanítanak neurális hálózatot autót vezetni. Már forgalomban vannak azok az AI vezérlésű robotok (autók) amik videók alapján tanulva mozognak a világban. Ezt ültetik át a Tesla humanoid robotokra jelenleg. E mellé tenném, hogy a Sora bejelentése után nem sokkal jelentette be az OpenAI, hogy befektet a Figure nevű humanoid robot gyártó cégbe. Ez a következő nagy tét, a fizikai világot is meghódító AI.

5) Sam Altman (OpenAI CEO) is nyilatkozta, hogy már nincs érdemben további szöveges adat olyan mennyiségben, amivel áttörést lehetne elérni. A következő nagy ugrást az korlátozza, hogy az elérhető szöveges tanításra alkalmas információ kevés, a lokális maximum környékén járunk.

Ezen lendíthet túl a multimodális tanulás. Mi magunk is hosszú időn keresztül képfolyam alapján tanuljuk meg a körülöttünk lévő világ alapjait: egyszerű fizikát, kölcsönhatásokat, következtetéseket, logikát, szabály alkotást és általánosságban tanulni. Erre épül következő absztrakciós szintként amikor (többek között a hatékonyabb kommunikáció miatt) egyszerűbb jelzésekhez (szavakhoz, fogalmakhoz) kapcsoljuk a látottakat, tapasztalásokat. Ez új megvilágítást ad, komplexebb gondolatokat tesz lehetővé, akár olyan posztokat mint ez itt. Persze ez nem mérce 🙂 – de ha csak egy síkon található forrásokból tanulnánk, ide aligha jutnánk el.

Irány az AGI (általános gépi intelligencia)

Ha nem lenne ez a +1 szint, akkor az átlagos állatok szintjén lennénk. Most képzeljük el, hogy az eddig alapvetően csak szövegekre korlátozott AI kap egy plusz absztrakciós szintet, egy alapozást, plusz dimenziót a világ jobb megértéséhez és sokkal jobban érti és hatékonyabban tanulja meg a „ráadásként” kapott szöveges tartalmakat. #road2agi

Ennél már csak az lesz erősebb, ha az AI folyamatosan képes lesz tanulni, a korábbiakat újraértelmezni. #hellosingularity

Aya: A nyelvi korlátokat ledöntő open source AI projekt

A Cohere for AI, a Cohere Inc. által vezetett nonprofit kutatólabor mutatta be nem rég az Aya nevű, „masszívan többnyelvű” nyílt forráskódú mesterséges intelligencia nagy nyelvi modelljét (LLM), amely 101 különböző nyelven képes beszélni.

A Cohere szerint az Aya több mint 100 nyelv támogatásával kétszer annyi nyelvet képes kezelni, mint a jelenleg létező alternatív nyílt forráskódú modellek. Ez azért nagyon fontos számunkra, mert a magyar nyelv (a felhasználók számából és bonyolultságból adódóan) viszonylag alulreprezentált a nyílt forrású AI-k térképen.

Az Aya ki is próbálható (ráadásul ez a csapat aktívan kísérletezik a válaszok megalapozásával (grounding), illetve a modell tanításába be is lehet csatlakozni (bátorítanék és mindenkit!): https://aya.for.ai/.

Aya többnyelvű modell

Az Aya modell azonos nevű projektből származik, amelyet 2023 januárjában indítottak több mint 3 000 kutatóval 119 országban azzal a szándékkal, hogy építsenek egy többnyelvű generatív AI modellt, amely az egész világról érkező emberek hozzájárulásaira épül. Bár sok modell az angol nyelvre összpontosít, csupán a világ népességének körülbelül 5%-a beszél angolul otthon. A nyelvkutató központ, az Ethnologue szerint jelenleg több mint 7 000 nyelvet beszélnek a világon. Ebből 23 nyelv (beleértve az angolt is), több mint a világ népességének felét képviseli. A nyelvek körülbelül 40%-a veszélyeztetett, soknak kevesebb mint 1 000 beszélője van.

Érdekes ezzel szembeállítani azt a tényt is, hogy a Google legújabb Gemini modellje akkora munkamemóriával rendelkezik (1 millió token nagyságú kontextus ablak), hogy gyakorlatilag képes egy beszélgetésben megtanulni egy nyelvet.

Adatkészlet és annotációk

Az Aya mellett a Cohere a legnagyobb, eddig ismert többnyelvű utasítás adatkészletét is közzéteszi (a tanító adatkészletet ritkán teszik közzé!), amely 513 millió adatpontot tartalmaz, és 114 különböző nyelvet fed le. Az adatkészlet tartalmazza az alulreprezentált nyelveket és ritka annotációkat, így gyorsabb kezdést biztosít más kutatóknak is. A közzétett adatkészlet 204 000 ritka, ember által ellenőrzött annotációt tartalmaz 67 nyelven. Az annotációkat az AI modellek hatékony tanulásának segítésére használják azáltal, hogy kontextust adnak az adatokhoz a nyelv megértéséhez, például a kategorizáláshoz és a megértés pontosságának növeléséhez. Az adatkészlet több mint 50 korábban alulreprezentált nyelvet is lefed, mint például a szomáli és az üzbég.

Jó eredmények

A kutatók azt mondták, hogy a modell jól teljesített más masszívan többnyelvű modellekkel szembeni tesztekben, és felülmúlta az egyéb nyílt forráskódú modelleket, beleértve az mT0-t és a BigScience Bloomz-t a teszteken. Az Aya 75%-ban teljesített jól az emberi értékelésekben a „vezető nyílt forráskódú modellekkel” szemben, és 80%-tól 90%-ig a szimulált győzelmi arányokban.

Elérhető, próbára érdemes nyelvi modelleket és eszközöket tartalmazó listám itt található, illetve az LLM-ek lelki világáról (prompt engineering) itt lehet még olvasni.

Források:

Ez a robot megtanult járni II.

Régen írtam az AI és a robotika kapcsolatáról, mely folyamatosan intenzívebbé és mélyebbé válik, sokak szerint 2024 a robotika éve lehet.

Már 2022-ben programozás helyett tanították a robotokat járni, melyről itt írtam. Néhány hónapja az NVidia számolt be arról, hogy a GPT4 (fizetős ChatGPT) által finomhangolt virtuális környezetben (párhuzamosan akár több százban) tanítottak ceruza pörgetést egy robot kéznek. Az Eureka kutatásnak ez csak minta terméke (ez már velem is megesett, hogy csak az ügynök seregem fejlesztése miatt fejlesztek :)), a cél a virtuális robot kiképzőterek fejlesztési eljárásának kialakítása. Egy olyan keretrendszeré, ahol a robotokat már megépülésük előtt, több ezer szimulált világban párhuzamosan taníthatják, például így tanul a Zürich környékén az alábbi kerekes (de talpra állni tudó, dobozokat válogató, ajtót nyitó stb.) ANYmal nevű robot is.

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning

Az ezekhez hasonló keretrendszerek és a robotokat tanító mesterséges intelligencia exponenciális gyorsulása erre a területre is hatással lesz. Az AI így nem marad a bitek világába zárva, néhány éven belül kitörhet fizikai valóságunkba is.

Az idei év biztosan izgalmas lesz, mert a kutató laboratóriumok mellett egyre több cég dolgozik humanoid robotokon, az alábbi ábra alapján már 15-20 fele is jár ezek száma – fele részben Kínából.

Decemberben már megépítették az első humanoid robotok készítésére épített gyárat (ahol a gyakorlatilag a gyártósor végén kipottyant robotok rögtön fel is vehetik a munkát…). Idei évre azon bejelentéseket várom záporozni, hogy mely multicégek kezdtek áramvérű kollégákat alkalmazni (lásd pl. BMW, Amazon stb.), és az hogyan vált (vagy nem vált) be.

ChatGPT vs. Bing Chat AI

Az OpenAI ChatGPT modellje nagyot szólt, és már béta tesztelhető a Microsoft boszorkánykonyhájában saját ízlésük szerint finomhangolt, de OpenAI technológiát is alkalmazó verzió az „új Bing”, avagy Bing Chat. Legnagyobb különbség, hogy míg a ChatGPT jelenleg csak egy fix, 2021-ben lezárt tudásanyaggal dolgozik, a Bing valós időben is képes az interneten keresni, és akár napi információkat felhasználni a válaszához.

Dave Lee például a prémium ChatGPT Plus (20 dollár / hó) előfizetése használatával a Tesla 2022 Q4 negyedéves riportjának elemzését kérte a neurális hálótól a PDF dokumentumot megadva – és elsőre még talán ő sem vette észre, hogy az AI válasza teljes egészében egy hallucináció a feltett kérdés és a PDF címe alapján, azaz nem tényekre alapul, pusztán egy szöveg generálás.

https://twitter.com/heydave7/status/1626444184608559104

Előnyére szólva (vagy mára ezt javították), a jövőre vonatkozó pénzügyi riportok elemzését azért már megtagadja:

Tisztában van a jövő fogalmával is

Ezzel ellentétben a Bing Chat tud valós idejű adatokkal dolgozni: tulajdonképpen a feltett kérdéseknek megfelelően kereséseket végez az interneten és annak eredményeit képes tálalni. A fenti példához hasonlóan feltett kérdésemre az elemző cikkek és pénzügyi oldalak adatai alapján válaszolt:

Test - ChatGPT vs. Bing Chat v0.1

Amit egyik sem tud (jelenleg) az az, hogy megadott PDF dokumentumokban keressen, de már erre is van kezdeményezés, pl. az AI asszisztens szolgáltatás.

Ez a robot megtanult járni

MIT négylábú robotja

Ezt a négylábú robotot az MIT PhD diákja nem beégetett programkódokkal tanította meg járni, hanem gyakorlás utján. A próbálkozások egy szimulációban történtek, így néhány óra leforgása alatt a robot extrém terepeken is begyakorolhatta a helyváltoztatást, hogy rájohessen annak leghatékonyabb módjára. Az eredmény? Rekord sebesség! Szinte bármilyen terepen…

MIT's Mini Cheetah robot runs faster than ever

A titok az volt, hogy hagyták, hogy a robot próbálgatás és hiba útján találja ki a futás módját, ahelyett, hogy emberi mérnökökre bízták volna a robot programozását.

Ahogy Gabriel Margolis, az MIT PhD-hallgatója és Ge Yang, az IAIFI posztdoktorandusza egy nemrégiben adott interjúban kifejtette, a robotika hagyományos paradigmája szerint az ember mondja meg a robotnak, hogy mit és hogyan tegyen. A probléma ezzel a megközelítéssel az, hogy nem skálázható, mivel rengeteg emberi munkaórára van szükség ahhoz, hogy egy robotot manuálisan beprogramozzanak, hogy sok különböző környezetben működjön.

Ezt a korlátozást a szimuláció és a mesterséges intelligencia/gépi tanulás segítségével lehet felgyorsítani.

A robot sprintelés közben elérte a 3,9 méter/másodperces, azaz nagyjából 14 km/órás csúcssebességet. Még lenyűgözőbb, ahogyan az olyan nehéz terepeken – mint a jeges vagy kavicsos talaj – viselkedik. Az ember által tervezett szoftverrel a robot nehezen halad át a kavicson, sőt, amikor a járdára próbál átmenni, még meg is botlik és elesik. A gépi tanulással

Forrás: TechSport