Hetek óta tervezem ezt a posztot, nagyjából mióta kijött a Sora.
A készítők szerint…
Érdemes elolvasni a kapcsolódó hosszabb OpenAI posztot is, ahol készítők maguk világ szimulátornak nevezik a modellt (#hellosimulation, és amúgy a jelenlegi AI-k is inkább intelligencia szimulátorok szerintem). Ők ilyeneket írnak:
- „The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.”
- „scaling video generation models is a promising path towards building general purpose simulators of the physical world”
- „Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.”
…és szerintem is
Mi tulajdonképpen az OpenAI Sora modellje? Videó generátor? Valóság szimulátor? Robot operációs rendszer alapja? Tanulógép? Véleményem és az első mémem, lentebb kibontva.
1) Jogos, hogy óvatosan teszik közzé, hagynak időt felkészülni, amennyire tudják, vízjelezik stb.
2) Megalapozott, hogy nem érdemes most stúdióba fektetni. Ahogy a képeknél, festészetnél, különlegessé válhat pl. a klasszikus zenei klip forgatás. Nagyobb lesz a verseny, nagyobb tere lesz a kreatív AI használóknak.
3) Érdekes, hogy a Sora mint korai modell már láthatóan kezdi érteni a fizikai világ szabályait, és ez nyilvánvalóan tovább fog javulni.
4) A Sora kiadása előtt néhány nappal az OpenAI kötelékből ismét kilépő Andrej Karpathy a Teslánál az önvezetésen dolgozott, építette fel azt a keretrendszert és több ezres csapatot, aki valódi videókból és generált szimulált 3D videók alapján tanítanak neurális hálózatot autót vezetni. Már forgalomban vannak azok az AI vezérlésű robotok (autók) amik videók alapján tanulva mozognak a világban. Ezt ültetik át a Tesla humanoid robotokra jelenleg. E mellé tenném, hogy a Sora bejelentése után nem sokkal jelentette be az OpenAI, hogy befektet a Figure nevű humanoid robot gyártó cégbe. Ez a következő nagy tét, a fizikai világot is meghódító AI.
5) Sam Altman (OpenAI CEO) is nyilatkozta, hogy már nincs érdemben további szöveges adat olyan mennyiségben, amivel áttörést lehetne elérni. A következő nagy ugrást az korlátozza, hogy az elérhető szöveges tanításra alkalmas információ kevés, a lokális maximum környékén járunk.
Ezen lendíthet túl a multimodális tanulás. Mi magunk is hosszú időn keresztül képfolyam alapján tanuljuk meg a körülöttünk lévő világ alapjait: egyszerű fizikát, kölcsönhatásokat, következtetéseket, logikát, szabály alkotást és általánosságban tanulni. Erre épül következő absztrakciós szintként amikor (többek között a hatékonyabb kommunikáció miatt) egyszerűbb jelzésekhez (szavakhoz, fogalmakhoz) kapcsoljuk a látottakat, tapasztalásokat. Ez új megvilágítást ad, komplexebb gondolatokat tesz lehetővé, akár olyan posztokat mint ez itt. Persze ez nem mérce 🙂 – de ha csak egy síkon található forrásokból tanulnánk, ide aligha jutnánk el.
Irány az AGI (általános gépi intelligencia)
Ha nem lenne ez a +1 szint, akkor az átlagos állatok szintjén lennénk. Most képzeljük el, hogy az eddig alapvetően csak szövegekre korlátozott AI kap egy plusz absztrakciós szintet, egy alapozást, plusz dimenziót a világ jobb megértéséhez és sokkal jobban érti és hatékonyabban tanulja meg a „ráadásként” kapott szöveges tartalmakat. #road2agi
Ennél már csak az lesz erősebb, ha az AI folyamatosan képes lesz tanulni, a korábbiakat újraértelmezni. #hellosingularity