Véleményem a Sora-ról (és az első mémem)

Hetek óta tervezem ezt a posztot, nagyjából mióta kijött a Sora.

A készítők szerint…

Érdemes elolvasni a kapcsolódó hosszabb OpenAI posztot is, ahol készítők maguk világ szimulátornak nevezik a modellt (#hellosimulation, és amúgy a jelenlegi AI-k is inkább intelligencia szimulátorok szerintem). Ők ilyeneket írnak:

  • „The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.”
  • „scaling video generation models is a promising path towards building general purpose simulators of the physical world”
  • „Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.”

…és szerintem is

Mi tulajdonképpen az OpenAI Sora modellje? Videó generátor? Valóság szimulátor? Robot operációs rendszer alapja? Tanulógép? Véleményem és az első mémem, lentebb kibontva.

1) Jogos, hogy óvatosan teszik közzé, hagynak időt felkészülni, amennyire tudják, vízjelezik stb.

2) Megalapozott, hogy nem érdemes most stúdióba fektetni. Ahogy a képeknél, festészetnél, különlegessé válhat pl. a klasszikus zenei klip forgatás. Nagyobb lesz a verseny, nagyobb tere lesz a kreatív AI használóknak.

3) Érdekes, hogy a Sora mint korai modell már láthatóan kezdi érteni a fizikai világ szabályait, és ez nyilvánvalóan tovább fog javulni.

4) A Sora kiadása előtt néhány nappal az OpenAI kötelékből ismét kilépő Andrej Karpathy a Teslánál az önvezetésen dolgozott, építette fel azt a keretrendszert és több ezres csapatot, aki valódi videókból és generált szimulált 3D videók alapján tanítanak neurális hálózatot autót vezetni. Már forgalomban vannak azok az AI vezérlésű robotok (autók) amik videók alapján tanulva mozognak a világban. Ezt ültetik át a Tesla humanoid robotokra jelenleg. E mellé tenném, hogy a Sora bejelentése után nem sokkal jelentette be az OpenAI, hogy befektet a Figure nevű humanoid robot gyártó cégbe. Ez a következő nagy tét, a fizikai világot is meghódító AI.

5) Sam Altman (OpenAI CEO) is nyilatkozta, hogy már nincs érdemben további szöveges adat olyan mennyiségben, amivel áttörést lehetne elérni. A következő nagy ugrást az korlátozza, hogy az elérhető szöveges tanításra alkalmas információ kevés, a lokális maximum környékén járunk.

Ezen lendíthet túl a multimodális tanulás. Mi magunk is hosszú időn keresztül képfolyam alapján tanuljuk meg a körülöttünk lévő világ alapjait: egyszerű fizikát, kölcsönhatásokat, következtetéseket, logikát, szabály alkotást és általánosságban tanulni. Erre épül következő absztrakciós szintként amikor (többek között a hatékonyabb kommunikáció miatt) egyszerűbb jelzésekhez (szavakhoz, fogalmakhoz) kapcsoljuk a látottakat, tapasztalásokat. Ez új megvilágítást ad, komplexebb gondolatokat tesz lehetővé, akár olyan posztokat mint ez itt. Persze ez nem mérce 🙂 – de ha csak egy síkon található forrásokból tanulnánk, ide aligha jutnánk el.

Irány az AGI (általános gépi intelligencia)

Ha nem lenne ez a +1 szint, akkor az átlagos állatok szintjén lennénk. Most képzeljük el, hogy az eddig alapvetően csak szövegekre korlátozott AI kap egy plusz absztrakciós szintet, egy alapozást, plusz dimenziót a világ jobb megértéséhez és sokkal jobban érti és hatékonyabban tanulja meg a „ráadásként” kapott szöveges tartalmakat. #road2agi

Ennél már csak az lesz erősebb, ha az AI folyamatosan képes lesz tanulni, a korábbiakat újraértelmezni. #hellosingularity

A neurális hálózatok és az információ

A mesterséges intelligencia és a neurális hálózatok fejlődése folyamatosan változtatja az információ kezelését. A hagyományos adattárolási és -feldolgozási módszerek helyett a neurális hálózatok egy új paradigmát kínálnak az (elsősorban jelenleg szöveges) információ) tömörítésére, lekérdezésére és megértésére.

Így látom az információmenedzsment történetének négy fő szakaszát:

  1. Lokális, volatilis tárolás:
    A legelső információ kezelési „módszer” a saját fejünkben történő tárolás volt, amely korlátozott és személyes átadást tett lehetővé (1:1). Ebben az esetben az információ lekérdezése bizonytalan és alacsony sávszélességű volt, mivel az emlékek alapján történt.
  2. Fizikai eszközön való tárolás:
    A következő szint a fizikai eszközökön, például kőtáblákon, vagy könyvekben történő tárolás volt. Ez lehetővé tette, hogy több ember számára elérhető és hivatkozható legyen az információ (1:n). Bár a keresés lassú volt, a fizikai eszközök nagyobb stabilitást és megbízhatóságot biztosítottak az információ tárolásában.
  3. Digitális eszközön való tárolás:
    A digitális technológia fejlődésével az információ tárolása és megosztása diszkeken és az interneten vált lehetővé. Ez jelentősen javította a sávszélességet és a keresési képességeket, lehetővé téve mindenki számára az információ elérését és közzétételét (n:n). Az információ ezen módszerrel történő tárolása és lekérdezése pontos és gyors.
  4. Neurális hálózatok és a jövő:
    A neurális hálózatok tulajdonképpen egyfajta tömörítést végeznek az adaton, amelyet a megfelelő lekérdezéssel átlagként értelmezhetünk a megadott paraméterek mentén. Az adat tárolása neurális hálózatokban hatalmas sávszélességet és holografikus, élő adatból képződő intelligens válaszokat tesz lehetővé (nn:n). Igény szerinti tanulás és kutatás során tetszőleges mélységben kérdezhetjük le az információt. Kérhetjük egy téma részletes kibontását vagy akár rövid összefoglalóját. Mintha egy fényképen zoomolnánk, a neurális hálózatok lehetővé teszik a tudásban (szövegben) történő elmélyülést.

Az információmenedzsment fejlődése folyamatos a technológia fejlődésének köszönhetően. A neurális hálózatok által nyújtott lehetőségek a jövőben újraformálhatják ahogy problémákat oldunk meg, gondolkodunk, az információt kérünk le vagy osztunk meg.