Véleményem a Sora-ról (és az első mémem)

Hetek óta tervezem ezt a posztot, nagyjából mióta kijött a Sora.

A készítők szerint…

Érdemes elolvasni a kapcsolódó hosszabb OpenAI posztot is, ahol készítők maguk világ szimulátornak nevezik a modellt (#hellosimulation, és amúgy a jelenlegi AI-k is inkább intelligencia szimulátorok szerintem). Ők ilyeneket írnak:

  • „The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.”
  • „scaling video generation models is a promising path towards building general purpose simulators of the physical world”
  • „Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.”

…és szerintem is

Mi tulajdonképpen az OpenAI Sora modellje? Videó generátor? Valóság szimulátor? Robot operációs rendszer alapja? Tanulógép? Véleményem és az első mémem, lentebb kibontva.

1) Jogos, hogy óvatosan teszik közzé, hagynak időt felkészülni, amennyire tudják, vízjelezik stb.

2) Megalapozott, hogy nem érdemes most stúdióba fektetni. Ahogy a képeknél, festészetnél, különlegessé válhat pl. a klasszikus zenei klip forgatás. Nagyobb lesz a verseny, nagyobb tere lesz a kreatív AI használóknak.

3) Érdekes, hogy a Sora mint korai modell már láthatóan kezdi érteni a fizikai világ szabályait, és ez nyilvánvalóan tovább fog javulni.

4) A Sora kiadása előtt néhány nappal az OpenAI kötelékből ismét kilépő Andrej Karpathy a Teslánál az önvezetésen dolgozott, építette fel azt a keretrendszert és több ezres csapatot, aki valódi videókból és generált szimulált 3D videók alapján tanítanak neurális hálózatot autót vezetni. Már forgalomban vannak azok az AI vezérlésű robotok (autók) amik videók alapján tanulva mozognak a világban. Ezt ültetik át a Tesla humanoid robotokra jelenleg. E mellé tenném, hogy a Sora bejelentése után nem sokkal jelentette be az OpenAI, hogy befektet a Figure nevű humanoid robot gyártó cégbe. Ez a következő nagy tét, a fizikai világot is meghódító AI.

5) Sam Altman (OpenAI CEO) is nyilatkozta, hogy már nincs érdemben további szöveges adat olyan mennyiségben, amivel áttörést lehetne elérni. A következő nagy ugrást az korlátozza, hogy az elérhető szöveges tanításra alkalmas információ kevés, a lokális maximum környékén járunk.

Ezen lendíthet túl a multimodális tanulás. Mi magunk is hosszú időn keresztül képfolyam alapján tanuljuk meg a körülöttünk lévő világ alapjait: egyszerű fizikát, kölcsönhatásokat, következtetéseket, logikát, szabály alkotást és általánosságban tanulni. Erre épül következő absztrakciós szintként amikor (többek között a hatékonyabb kommunikáció miatt) egyszerűbb jelzésekhez (szavakhoz, fogalmakhoz) kapcsoljuk a látottakat, tapasztalásokat. Ez új megvilágítást ad, komplexebb gondolatokat tesz lehetővé, akár olyan posztokat mint ez itt. Persze ez nem mérce 🙂 – de ha csak egy síkon található forrásokból tanulnánk, ide aligha jutnánk el.

Irány az AGI (általános gépi intelligencia)

Ha nem lenne ez a +1 szint, akkor az átlagos állatok szintjén lennénk. Most képzeljük el, hogy az eddig alapvetően csak szövegekre korlátozott AI kap egy plusz absztrakciós szintet, egy alapozást, plusz dimenziót a világ jobb megértéséhez és sokkal jobban érti és hatékonyabban tanulja meg a „ráadásként” kapott szöveges tartalmakat. #road2agi

Ennél már csak az lesz erősebb, ha az AI folyamatosan képes lesz tanulni, a korábbiakat újraértelmezni. #hellosingularity

Ez a robot megtanult járni II.

Régen írtam az AI és a robotika kapcsolatáról, mely folyamatosan intenzívebbé és mélyebbé válik, sokak szerint 2024 a robotika éve lehet.

Már 2022-ben programozás helyett tanították a robotokat járni, melyről itt írtam. Néhány hónapja az NVidia számolt be arról, hogy a GPT4 (fizetős ChatGPT) által finomhangolt virtuális környezetben (párhuzamosan akár több százban) tanítottak ceruza pörgetést egy robot kéznek. Az Eureka kutatásnak ez csak minta terméke (ez már velem is megesett, hogy csak az ügynök seregem fejlesztése miatt fejlesztek :)), a cél a virtuális robot kiképzőterek fejlesztési eljárásának kialakítása. Egy olyan keretrendszeré, ahol a robotokat már megépülésük előtt, több ezer szimulált világban párhuzamosan taníthatják, például így tanul a Zürich környékén az alábbi kerekes (de talpra állni tudó, dobozokat válogató, ajtót nyitó stb.) ANYmal nevű robot is.

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning

Az ezekhez hasonló keretrendszerek és a robotokat tanító mesterséges intelligencia exponenciális gyorsulása erre a területre is hatással lesz. Az AI így nem marad a bitek világába zárva, néhány éven belül kitörhet fizikai valóságunkba is.

Az idei év biztosan izgalmas lesz, mert a kutató laboratóriumok mellett egyre több cég dolgozik humanoid robotokon, az alábbi ábra alapján már 15-20 fele is jár ezek száma – fele részben Kínából.

Decemberben már megépítették az első humanoid robotok készítésére épített gyárat (ahol a gyakorlatilag a gyártósor végén kipottyant robotok rögtön fel is vehetik a munkát…). Idei évre azon bejelentéseket várom záporozni, hogy mely multicégek kezdtek áramvérű kollégákat alkalmazni (lásd pl. BMW, Amazon stb.), és az hogyan vált (vagy nem vált) be.

Hitelesség és a generatív AI

Korábban már volt egy rövidebb bejegyzésem a témában (Hiszem, ha látom…?? címmel), de nem tudtam lerázni ennyivel a gondoltakat, így egy írás is született.

Hamarosan egy olyan világ vehet körül minket, melyben több a mesterséges neurális hálózatok súlyszámai alapján generált tartalom, mint a fizikai valóságból vagy biológia lényektől származó. Digitális világunk javarészt szimulált/generált lehet akár 5 éves távlatban.

Szigorúan laikus és hobbi jellegű gondolataimat az alábbi cikkbe gyűjtöttem össze.

„A gépek teljesítménye olyan ütemben skálázható (sokszorozhatók vagy felgyorsíthatók), amit az emberi agy belátható fizikai korlátok miatt aligha képes követni. Az új körülményekhez meg kell találnunk az alkalmazkodás módját.”

Feltöltöttem LinkedIn-re is.

Hiszem, ha látom… ???

Talán még naiv vagyok, de ha mutatnak egy „fotót” vagy videót valakiről, elsőre blikkre alapértelmezetten elhiszi az agyam. Nyilván a kontextus is számít, illetve nyilván gyanús elemek esetén felébred/erősödik a kétely, de a nulladik másodperc talán ez, ha mélyre ások.

Azon gondolkodom, hogy ez megváltozhat-e, és ha igen, hogy alakítja át a média tartalom fogyasztást, gondolkodást. Nyilván nem elsősorban a családi fotókra gondolok. Tisztában van a társadalom azzal, hogy mennyire alacsony lett az élethű hamisítvány-készítési küszöb?

Tavaly azért is kampányoltam, hogy jelöljük meg az AI generált tartalmakat, forrásokat a közösségi médiákban, de ez csak az egyik oldal, és nem hiszem, hogy igazán be lehet tartatni vagy ki lehet kényszeríteni (kívánom, hogy ne legyen igazam).

Még fontosabb lehet
1) a (közéleti) források hitelességét ellenőrizni – erre talán lehetne egy első forrást megkereső szolgáltatást is fejleszteni, vagy egy Twitter Community Notes közösségi tényellenőrzést divatba hozni, illetve
2) tartalmak eredetiségét jelölni – digitálisan aláírni, titkosító kulcsokkal vagy pl. valamilyen blockchain technológiával.

Másik oldalról sokkal könnyebb lesz mondjuk egy leleplező videóra is rávágni, hogy az nem is történt meg, nehezebb lesz bizonyítani valaminek a valódiságát…

Mesterséges intelligencia által tervezett, új ötvözetből 3D nyomtatható rakétamotor

Az élet mindig durvább, mint bármi, amit el tudunk képzelni. Ennél egyszerűen nem tudok kockább dolgot elképzelni: AI segítségével tervezett aero spike rakéta motor, melyet újonnan fejlesztett ötvözetből 3D nyomtatnak. És gyönyörű organikus design.

AMCM & Hyperganic Aerospike

Ha nincsenek róla megbízható cikkek, azt gondoltam volna, hogy csak egy újabb Midjourney huszár kreáció, de vannak, már több éve dolgoznak ezen. Egy kis magyarázat angolul:

GAME OVER - A.I. Designs CRAZY New ROCKET Engine

Ha hozzátennénk azokat a kifejezéseket, hogy mondjuk a motor indítását és üzemelésének termodinamikai szimulációját analóg szuperszámítógéppel végezték, fenntartható üzemeltetését illetve karbantartását neurális agyi interfésszel irányítható nano robotokkal lehet támogatni, melyek kvantum összefonódott foton csatornán kommunikálnak akkor asszem hó végéig készen lennénk.

#gyorsulójövő

Ágensek avagy autonóm ügynökök: AutoGPT, BabyAGI és a társaik

Most kell elkezdeni kapaszkodni! A ChatGPT megtanulta, hogy a legmegfelelőbb (AI) eszközt válassza ki egy adott feladat végrehajtására.

Eljutottunk az „eszközhasználó” korszakig AI léptékben: mesterséges intelligencia, mely külső eszközöket (akár mas AI-t) használ, újakat lehet megtanítani neki.
Kíváncsi leszek a pattintott kőkorszak megfelelőjére, amikor az AI eszközt készít magának egy feladat megvalósítására – és ez a küszöbön kopogtat (lásd AutoGPT / BabyGPT alkalmazások). Ezek az autonóm MI ügynökök képesek feladatokat létrehozni maguknak, elvégezni őket, új feladatokat létrehozni és akár prioritizálni is a feladatlistájukat. Az AutoGPT és a BabyAGI jelenleg az autonóm ügynökök legjobb példái. Bár a BabyAGI használja az “AGI” kifejezést, ez egy kicsit nagyra törő cím az autonóm ügynök számára, mivel nem közelíti meg azt, amit AGI-nak nevezhetnénk.

Az újdonságokkal kiegészítettem a tudástárban a fogalomtárat és az eszköztárat is.

Mesterséges intelligenciával életre keltett mikrosütő

Ez a srác (Lucas Rizzotto) elképesztően jó és érdekes videót készített, melyben bemutatja az AI technológiák lehetőségeit és veszélyeit. Gyermekkori képzeletbeli barátja egy mikrosütő volt, melyet ezúttal valóban életre keltett (GPT3 nyelvi modellre építve). A mikrosütőt ráadásul személyiséggel is felruházta, de ez nem éppen úgy sült el, ahogyan tervezte: a konyhai eszközt bizony megviselte az a néhány év amíg nem szóltak hozzá…

I gave my microwave a soul with AI and it tried to kill me