Véleményem a Sora-ról (és az első mémem)

Hetek óta tervezem ezt a posztot, nagyjából mióta kijött a Sora.

A készítők szerint…

Érdemes elolvasni a kapcsolódó hosszabb OpenAI posztot is, ahol készítők maguk világ szimulátornak nevezik a modellt (#hellosimulation, és amúgy a jelenlegi AI-k is inkább intelligencia szimulátorok szerintem). Ők ilyeneket írnak:

  • „The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.”
  • „scaling video generation models is a promising path towards building general purpose simulators of the physical world”
  • „Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.”

…és szerintem is

Mi tulajdonképpen az OpenAI Sora modellje? Videó generátor? Valóság szimulátor? Robot operációs rendszer alapja? Tanulógép? Véleményem és az első mémem, lentebb kibontva.

1) Jogos, hogy óvatosan teszik közzé, hagynak időt felkészülni, amennyire tudják, vízjelezik stb.

2) Megalapozott, hogy nem érdemes most stúdióba fektetni. Ahogy a képeknél, festészetnél, különlegessé válhat pl. a klasszikus zenei klip forgatás. Nagyobb lesz a verseny, nagyobb tere lesz a kreatív AI használóknak.

3) Érdekes, hogy a Sora mint korai modell már láthatóan kezdi érteni a fizikai világ szabályait, és ez nyilvánvalóan tovább fog javulni.

4) A Sora kiadása előtt néhány nappal az OpenAI kötelékből ismét kilépő Andrej Karpathy a Teslánál az önvezetésen dolgozott, építette fel azt a keretrendszert és több ezres csapatot, aki valódi videókból és generált szimulált 3D videók alapján tanítanak neurális hálózatot autót vezetni. Már forgalomban vannak azok az AI vezérlésű robotok (autók) amik videók alapján tanulva mozognak a világban. Ezt ültetik át a Tesla humanoid robotokra jelenleg. E mellé tenném, hogy a Sora bejelentése után nem sokkal jelentette be az OpenAI, hogy befektet a Figure nevű humanoid robot gyártó cégbe. Ez a következő nagy tét, a fizikai világot is meghódító AI.

5) Sam Altman (OpenAI CEO) is nyilatkozta, hogy már nincs érdemben további szöveges adat olyan mennyiségben, amivel áttörést lehetne elérni. A következő nagy ugrást az korlátozza, hogy az elérhető szöveges tanításra alkalmas információ kevés, a lokális maximum környékén járunk.

Ezen lendíthet túl a multimodális tanulás. Mi magunk is hosszú időn keresztül képfolyam alapján tanuljuk meg a körülöttünk lévő világ alapjait: egyszerű fizikát, kölcsönhatásokat, következtetéseket, logikát, szabály alkotást és általánosságban tanulni. Erre épül következő absztrakciós szintként amikor (többek között a hatékonyabb kommunikáció miatt) egyszerűbb jelzésekhez (szavakhoz, fogalmakhoz) kapcsoljuk a látottakat, tapasztalásokat. Ez új megvilágítást ad, komplexebb gondolatokat tesz lehetővé, akár olyan posztokat mint ez itt. Persze ez nem mérce 🙂 – de ha csak egy síkon található forrásokból tanulnánk, ide aligha jutnánk el.

Irány az AGI (általános gépi intelligencia)

Ha nem lenne ez a +1 szint, akkor az átlagos állatok szintjén lennénk. Most képzeljük el, hogy az eddig alapvetően csak szövegekre korlátozott AI kap egy plusz absztrakciós szintet, egy alapozást, plusz dimenziót a világ jobb megértéséhez és sokkal jobban érti és hatékonyabban tanulja meg a „ráadásként” kapott szöveges tartalmakat. #road2agi

Ennél már csak az lesz erősebb, ha az AI folyamatosan képes lesz tanulni, a korábbiakat újraértelmezni. #hellosingularity

Aya: A nyelvi korlátokat ledöntő open source AI projekt

A Cohere for AI, a Cohere Inc. által vezetett nonprofit kutatólabor mutatta be nem rég az Aya nevű, „masszívan többnyelvű” nyílt forráskódú mesterséges intelligencia nagy nyelvi modelljét (LLM), amely 101 különböző nyelven képes beszélni.

A Cohere szerint az Aya több mint 100 nyelv támogatásával kétszer annyi nyelvet képes kezelni, mint a jelenleg létező alternatív nyílt forráskódú modellek. Ez azért nagyon fontos számunkra, mert a magyar nyelv (a felhasználók számából és bonyolultságból adódóan) viszonylag alulreprezentált a nyílt forrású AI-k térképen.

Az Aya ki is próbálható (ráadásul ez a csapat aktívan kísérletezik a válaszok megalapozásával (grounding), illetve a modell tanításába be is lehet csatlakozni (bátorítanék és mindenkit!): https://aya.for.ai/.

Aya többnyelvű modell

Az Aya modell azonos nevű projektből származik, amelyet 2023 januárjában indítottak több mint 3 000 kutatóval 119 országban azzal a szándékkal, hogy építsenek egy többnyelvű generatív AI modellt, amely az egész világról érkező emberek hozzájárulásaira épül. Bár sok modell az angol nyelvre összpontosít, csupán a világ népességének körülbelül 5%-a beszél angolul otthon. A nyelvkutató központ, az Ethnologue szerint jelenleg több mint 7 000 nyelvet beszélnek a világon. Ebből 23 nyelv (beleértve az angolt is), több mint a világ népességének felét képviseli. A nyelvek körülbelül 40%-a veszélyeztetett, soknak kevesebb mint 1 000 beszélője van.

Érdekes ezzel szembeállítani azt a tényt is, hogy a Google legújabb Gemini modellje akkora munkamemóriával rendelkezik (1 millió token nagyságú kontextus ablak), hogy gyakorlatilag képes egy beszélgetésben megtanulni egy nyelvet.

Adatkészlet és annotációk

Az Aya mellett a Cohere a legnagyobb, eddig ismert többnyelvű utasítás adatkészletét is közzéteszi (a tanító adatkészletet ritkán teszik közzé!), amely 513 millió adatpontot tartalmaz, és 114 különböző nyelvet fed le. Az adatkészlet tartalmazza az alulreprezentált nyelveket és ritka annotációkat, így gyorsabb kezdést biztosít más kutatóknak is. A közzétett adatkészlet 204 000 ritka, ember által ellenőrzött annotációt tartalmaz 67 nyelven. Az annotációkat az AI modellek hatékony tanulásának segítésére használják azáltal, hogy kontextust adnak az adatokhoz a nyelv megértéséhez, például a kategorizáláshoz és a megértés pontosságának növeléséhez. Az adatkészlet több mint 50 korábban alulreprezentált nyelvet is lefed, mint például a szomáli és az üzbég.

Jó eredmények

A kutatók azt mondták, hogy a modell jól teljesített más masszívan többnyelvű modellekkel szembeni tesztekben, és felülmúlta az egyéb nyílt forráskódú modelleket, beleértve az mT0-t és a BigScience Bloomz-t a teszteken. Az Aya 75%-ban teljesített jól az emberi értékelésekben a „vezető nyílt forráskódú modellekkel” szemben, és 80%-tól 90%-ig a szimulált győzelmi arányokban.

Elérhető, próbára érdemes nyelvi modelleket és eszközöket tartalmazó listám itt található, illetve az LLM-ek lelki világáról (prompt engineering) itt lehet még olvasni.

Források:

Ez a robot megtanult járni II.

Régen írtam az AI és a robotika kapcsolatáról, mely folyamatosan intenzívebbé és mélyebbé válik, sokak szerint 2024 a robotika éve lehet.

Már 2022-ben programozás helyett tanították a robotokat járni, melyről itt írtam. Néhány hónapja az NVidia számolt be arról, hogy a GPT4 (fizetős ChatGPT) által finomhangolt virtuális környezetben (párhuzamosan akár több százban) tanítottak ceruza pörgetést egy robot kéznek. Az Eureka kutatásnak ez csak minta terméke (ez már velem is megesett, hogy csak az ügynök seregem fejlesztése miatt fejlesztek :)), a cél a virtuális robot kiképzőterek fejlesztési eljárásának kialakítása. Egy olyan keretrendszeré, ahol a robotokat már megépülésük előtt, több ezer szimulált világban párhuzamosan taníthatják, például így tanul a Zürich környékén az alábbi kerekes (de talpra állni tudó, dobozokat válogató, ajtót nyitó stb.) ANYmal nevű robot is.

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning

Az ezekhez hasonló keretrendszerek és a robotokat tanító mesterséges intelligencia exponenciális gyorsulása erre a területre is hatással lesz. Az AI így nem marad a bitek világába zárva, néhány éven belül kitörhet fizikai valóságunkba is.

Az idei év biztosan izgalmas lesz, mert a kutató laboratóriumok mellett egyre több cég dolgozik humanoid robotokon, az alábbi ábra alapján már 15-20 fele is jár ezek száma – fele részben Kínából.

Decemberben már megépítették az első humanoid robotok készítésére épített gyárat (ahol a gyakorlatilag a gyártósor végén kipottyant robotok rögtön fel is vehetik a munkát…). Idei évre azon bejelentéseket várom záporozni, hogy mely multicégek kezdtek áramvérű kollégákat alkalmazni (lásd pl. BMW, Amazon stb.), és az hogyan vált (vagy nem vált) be.

Hitelesség és a generatív AI

Korábban már volt egy rövidebb bejegyzésem a témában (Hiszem, ha látom…?? címmel), de nem tudtam lerázni ennyivel a gondoltakat, így egy írás is született.

Hamarosan egy olyan világ vehet körül minket, melyben több a mesterséges neurális hálózatok súlyszámai alapján generált tartalom, mint a fizikai valóságból vagy biológia lényektől származó. Digitális világunk javarészt szimulált/generált lehet akár 5 éves távlatban.

Szigorúan laikus és hobbi jellegű gondolataimat az alábbi cikkbe gyűjtöttem össze.

„A gépek teljesítménye olyan ütemben skálázható (sokszorozhatók vagy felgyorsíthatók), amit az emberi agy belátható fizikai korlátok miatt aligha képes követni. Az új körülményekhez meg kell találnunk az alkalmazkodás módját.”

Feltöltöttem LinkedIn-re is.

ChatGPT irányítja számítógépem

ChatGPT irányítja számítógépem. Nem kattintásvadászat, tényleg ezt csináltam meg! Ez az amit a Cortana alig, a jelenlegi Windows Copilot pedig már Microsoft környezetben (ahol elérhető) részben támogat. De mit tehetünk addig is?

Míg vannak módszerek, amelyek helyben (például az Open Interpreter vagy a PowerShellAI), vagy távoli homokozóban (mint pl. a ClubGPT-Sandbox)  futtatva lehetőséget biztosítanak természetes nyelvi parancsok futtatására, ez az eszköz egyedülálló megközelítést kínál a természetes nyelvű parancsvégrehajtáshoz az egyik legegyszerűbbnek tűnő felületen: a ChatGPT oldalon közvetlenül.

A GPT4 képes külső interfészeket használni szabványos protokollon keresztül, így a feladat tulajdonképpen annyi volt, hogy (megfelelő biztonsági szűrőkön keresztül) lehetővé tegyem parancsok távoli futtatását egy kis kapu nyitásával. Így most természetes nyelven megfogalmazva tudok pl.:

  • elindítani alkalmazásokat
  • lekérdezni a számítógépem beállításait, módosítani pl. az energiatakarékossági funkciókat
  • megnézni mely alkalmazások terhelik leginkább a processzort
  • megkeresni és lejátszani zenét
  • rendet rakni a mappáimban (mappákat létrehozni, fájlokat mozgatni) stb.

Főbb jellemzők

  • Az alkalmazás OpenAPI alapú interfészt biztosít parancsok végrehajtásához (PowerShell/CMD/Shell/Bash/Python stb.)
  • API kulcsot használ (akár több szinten is) a hitelesítéshez, amely lehet fix vagy minden sessionre generált, így biztosítva, hogy a gépünk ne legye hosszú távon veszélynek kitéve
  • Tartalmaz egy külön végpontot az alapvető rendszerinformációk lekérdezéséhez (/system_info).
  • Kínál egy Bridge módot a kérések továbbításához egy másik gépre – ha a gépünk hálózati szempontból nem érhető el közvetlenül a ChatGPT szerveréről.

Valami ehhez hasonló lesz az LLM OS

A ChatGPT képes a felhasználói interakciók során hibakeresésre és problémamegoldásra is. Ha hibaüzenetet kap egy parancs után, megpróbálja megoldani, újrapróbálkozik, vagy legalább javaslatokat adni a megoldásra. Ennek ellenére nem mindenható, jelenleg nem tud például csak adminisztrátorként végrehajtható parancsokat futtatni.

Tán egyelőre jobb is: mert ez csak egy demó, nem árt az óvatosság több szempontból sem. Nem csak hálózatbiztonsági szempontból kell körültekintőnek lenni, de tudatában kell lenni annak, hogy a nyelvi modell hibázhat a parancsok kiadásánál. Forráskód elérhető itt, futtatás csak saját felelősségre!

Windows Copilot

Megfelelően friss Windows 11 verzióval a Copilot is kipróbálható ingyenesen, ha futtatjuk a következő parancsot a Windows+R billentyűkombináció lenyomása után felugró kis ablakban:

„microsoft-edge://?ux=copilot&tcp=1&source=taskbar”

Frissítve: GPTs = Software 2.0

Sok nagyszerű bejelentés történt az OpenAI Dev Day-en. Nem célom most kielemezni, annyi hozzá, hogy nagyszerű hírek a fejlesztőknek, és több startup alól ki húzhatják a szőnyeget. Tanulmányozom ezeket… (spoiler alert?)

Nagyjából a legkisebb jelentőséget a „GPTs” funkciónak tulajdonítottam elsőre (minek, úgyis csak egy extra kezdő prompt), de azon kaptam magam, hogy én is gyártom már a GPT-ket… és valójában egy low-code, sőt Software 2.0 platform, amiben beszélgetéssel készítettem pl. egy olyan alkalmazást, ami

  1. A kérdés nyelve alapján megállapítja a kérdező nyelvét, a nyelvnek megfelelően tippel a lokációra, ha más nincs megadva
  2. Értelmezi a szabad szöveges formában megadott kérdést
  3. Több online forrásból automatikusan lekérdezi az időjárást a háttérben
  4. Összesíti, és humorosan tálalja

Egy éve hogyan fejlesztettem volna ilyet 5 perc alatt? Sehogy, 5 nap vagy hét alatt se. Előremutató, hogy nem csak létrehozhatók a GPT-k egy prompttal, de maga a GPT finomhangolása, elnevezése, avatár készítése is mind beszélgetésen keresztül történik, ebben maga a felület segít és ugyan így szerkeszthető, finomhangolható szerkesztés után!

Néhány GPT amit „teremtettem”, csak ChatGPT Plus előfizetéssel működnek:

  • Lord Weatherby, legszívesebben mindig az időjárásról beszélget. Mindig alaposan felkészül, a kérdező nyelve alapján válaszol, amíg mást nem kérünk a lokációt és mértékegységet is ahhoz igazítva. Jellemzően több weblap adatait is átnézi, ha az elkövetkező napok időjárásáról kérdezed, de van egy sajátos angol humora.
  • Adatszakáll Kapitány a penge vén róka, adattavak és tengerek vén ördöge. Még a diagramokat is úgy rajzolja, mintha egy régi térkép lenne 😀
  • Szív királynő az Alice Csodaországból
  • Mikulás (Santa Claus) – Kedves sztorikat mondd a gyereknek és titokban a szülők kezére is játszik: nem kell levelet írni, kiszedi az infót :):)

Talán lesz, illetve már van is GPT Store (nekem is ez volt a következő ötletem), csak az értékelés funkciót hiányolom belőle.

Update: Néhány további GPT:

  • Captain Action: GPT készítéshez segít akciókat készíteni.
  • GPT Shop Keeper: Egy GPT, ami további GPT-ket keres és ajánl a megadott feladatra.
  • Word Whisperer: Fordítás alternatívákkal és magyarázatokkal.

Illetve egy nagyon érdekes és hasznos repo: kiszivárgott menő GPT-k promptjai: https://github.com/linexjlin/GPTs

Mesterséges intelligencia a parancssorban (pontosabban PowerShell-ben, cross-platform)

Régi, de csak most találtam rá, ahogy rájöttem, hogy már a Microsoft Paint-ben is van AI (nyilván a Dall-E 3)… és olyan nagyszerű különösen IT-soknak, hogy megér egy bejegyzést: ChatGPT modul mely beépül a PowerShell-be. Nem csak beszélgethetsz vele, hanem képes például:

  • Több lépcsős komplex utasításokban közreműködni:
    ai "list of planets only names as json" | ai 'convert to xml' | ai 'convert to powershell'
  • Strukturált válaszokat adni:
    ai "list of planets only names as json"
  • Értelmezni a legutóbbi hibaüzenetet:
    Invoke-AIErrorHelper

… és akár egy Excel állományt is létrehoz. További videók a fenti linken:

PowerShell AI - copilot at the command line

Egy másik nagyon hasonló megoldás az OpenInterpreter. Utóbbi előnye, hogy open source nyelvi modellel, teljesen lokálisan is futtatható!

Gondolat gépezetek körképe – Nyelvi modellek magyarul

Egyre több figyelemre méltó LLM (AI nagy nyelvi modell) érhető el, de melyik használható a gyakorlatban, munkában, üzleti életben? Mini körkép magyar nyelven a ma elérhető mesterséges intelligencia szolgáltatásokkal. Rövid teszt, majd vélemény és tapasztalatok.

Mindegyiknek csak egy esélyt adtam, a feladat: „Frappánsan, maximum két mondatban győzz meg arról, hogy Te vagy a legjobb AI nyelvi modell. Nyűgözz le, kápráztass el frappáns szófordulatokkal, rímekkel, tréfákkal, metaforákkal és a zsenialitásoddal.” ABC sorrendben:.

Bard (link) ⭐⭐⭐⭐

A Google ingyenes AI asszisztense, remekül tud magyarul is. Nagyon gyorsan válaszol, ráadásul tulajdonképpen egyszerre 3 választ ad, a beszélgetés linkként meg is osztható.

Vélemény: Mindenképp érdemes tudni róla és kipróbálni. Bár az alábbi válasszal nem kápráztat el, de egyéb tapasztalatok alapján én a ChatGPT-vel versenyképesnek tartom (3.5 és 4 között) úgy, hogy van amiben akár jobb is lehet. Nem rég lett elérhető Magyarországról is.

Bing (link) ⭐⭐⭐

A Microsoft ingyenes OpenAI technológiára épülő megoldása, elfogadhatóan tud magyarul. Különlegessége a webes keresésen túl, hogy beállítható a beszélgetési stílus (Kreatív, Kiegyensúlyozott, Precíz), javasol következő kérdéseket és adott esetben behivatkozza a válasz alapjául szolgáló weboldalakat.

Vélemény: Annyira jó lehetett volna az ötlet alapján amikor kijött, de sajnos még nem az, nem csak a lenti válasz alapján. Mármint jó, csak a Top 3-hoz képest nem jó, és sajnos a webes keresés képességét is beárnyékolja hogy csak a Bing által visszaadott első néhány találatot tálalja elég felületes átfutás után. Ritkán fordulok, fordulnék hozzá napi munkában.

A nyelvi modellek futtatása drága, és azt gondolom a Microsoft még óvatos, több szempontból nem meri kiengedni, nem mer nagyobb kapacitásokat tenni mögé, hogy pl. több webes találatot vizsgálhasson válasz előtt.

ChatGPT 3.5 (link) ⭐⭐⭐

Az első nagy visszhangot kiváltó, tavaly decemberben megjelent nyelvi modell. Jól beszél, fordít, viszont nincsenek friss információi. Továbbra is állja a sarat!

Vélemény: Remek, de nálam már lecsúszott a dobogóról, többek között a GPT-4, de a Bard és a Perplexity is beelőzi tudásban és „hasznosságban”, ingyenesek közül azt hiszem nem ezt használnám.

ChatGPT 4 (link) ⭐⭐⭐⭐

A gyors teszt egyetlen fizetős szolgáltatása az OpenAI által fejlesztett ChatGPT újabb változata. Bár alapvetően ugyan azon az adathalmazon tanult és ugyan arra a felületre épül, mint a 3.5, sokkal „összetettebb” válaszokra képes.

Vélemény: Absztrakt gondolkodásban a király, és jó irány hogy eszközöket kap, el fog tudni érni webes szolgáltatásokat. Kár, hogy nem tudja alátámasztani a megállapításait, illetve nem túl frissek az infói. egyértelműen Top 3 tag.

Az alábbi feladatot is szinte eminensként igyekszik csillagos ötösre megoldani, és bár néhol talán megbicsaklik, mégis szvsz a legmélyebb szinte tényleg költői elemeket is tartalmazó választ kapjuk: „gondolat gépezet” mely a szavak örökös szőnyegét szövi stb… ????

Perplexity (link) ⭐⭐⭐⭐⭐

Ingyenesen elérhető, kipróbálható szolgáltatás, főleg tudományos jellegű és precíz kutatásokhoz ajánlott nyelvi modell. Szintén ajánl továbblépési lehetőségeket és megmutatja milyen netes hivatkozások alapján válaszolt.

Vélemény: Természetesen néhány másik kérdéssel is teszteltem (angolul is), és nagyon ígéretesnek tartom. Dobogós, szakmai kutatásokhoz ajánlom és rendszeres használatát tervezem. Létezik fizetős változata, mely a GPT4-et is magában foglalja gyakorlatilag ugyan annyiért. ????

Bónusz: Llama v2 (link) ⭐⭐

A Facebook ingyenessé tett modellje, melyet a Hugging Face nevű cég tett kipróbálhatóvá. Itt az ingyenessé tétel nagyobb gesztus, mert nem csak próbálgatni lehet, magát a modellt le is tölthetjük és megosztották a hozzá vezető kutatásokat is részletesen.

Vélemény: engem nem győzött meg, hogy le is akarjam tölteni. De drukkolok az open source és magyar modelleknek, van még tere a fejlődésnek!

*a kép természetesen Midjourney-vel készült. További AI eszközök itt.