Aya: A nyelvi korlátokat ledöntő open source AI projekt

A Cohere for AI, a Cohere Inc. által vezetett nonprofit kutatólabor mutatta be nem rég az Aya nevű, „masszívan többnyelvű” nyílt forráskódú mesterséges intelligencia nagy nyelvi modelljét (LLM), amely 101 különböző nyelven képes beszélni.

A Cohere szerint az Aya több mint 100 nyelv támogatásával kétszer annyi nyelvet képes kezelni, mint a jelenleg létező alternatív nyílt forráskódú modellek. Ez azért nagyon fontos számunkra, mert a magyar nyelv (a felhasználók számából és bonyolultságból adódóan) viszonylag alulreprezentált a nyílt forrású AI-k térképen.

Az Aya ki is próbálható (ráadásul ez a csapat aktívan kísérletezik a válaszok megalapozásával (grounding), illetve a modell tanításába be is lehet csatlakozni (bátorítanék és mindenkit!): https://aya.for.ai/.

Aya többnyelvű modell

Az Aya modell azonos nevű projektből származik, amelyet 2023 januárjában indítottak több mint 3 000 kutatóval 119 országban azzal a szándékkal, hogy építsenek egy többnyelvű generatív AI modellt, amely az egész világról érkező emberek hozzájárulásaira épül. Bár sok modell az angol nyelvre összpontosít, csupán a világ népességének körülbelül 5%-a beszél angolul otthon. A nyelvkutató központ, az Ethnologue szerint jelenleg több mint 7 000 nyelvet beszélnek a világon. Ebből 23 nyelv (beleértve az angolt is), több mint a világ népességének felét képviseli. A nyelvek körülbelül 40%-a veszélyeztetett, soknak kevesebb mint 1 000 beszélője van.

Érdekes ezzel szembeállítani azt a tényt is, hogy a Google legújabb Gemini modellje akkora munkamemóriával rendelkezik (1 millió token nagyságú kontextus ablak), hogy gyakorlatilag képes egy beszélgetésben megtanulni egy nyelvet.

Adatkészlet és annotációk

Az Aya mellett a Cohere a legnagyobb, eddig ismert többnyelvű utasítás adatkészletét is közzéteszi (a tanító adatkészletet ritkán teszik közzé!), amely 513 millió adatpontot tartalmaz, és 114 különböző nyelvet fed le. Az adatkészlet tartalmazza az alulreprezentált nyelveket és ritka annotációkat, így gyorsabb kezdést biztosít más kutatóknak is. A közzétett adatkészlet 204 000 ritka, ember által ellenőrzött annotációt tartalmaz 67 nyelven. Az annotációkat az AI modellek hatékony tanulásának segítésére használják azáltal, hogy kontextust adnak az adatokhoz a nyelv megértéséhez, például a kategorizáláshoz és a megértés pontosságának növeléséhez. Az adatkészlet több mint 50 korábban alulreprezentált nyelvet is lefed, mint például a szomáli és az üzbég.

Jó eredmények

A kutatók azt mondták, hogy a modell jól teljesített más masszívan többnyelvű modellekkel szembeni tesztekben, és felülmúlta az egyéb nyílt forráskódú modelleket, beleértve az mT0-t és a BigScience Bloomz-t a teszteken. Az Aya 75%-ban teljesített jól az emberi értékelésekben a „vezető nyílt forráskódú modellekkel” szemben, és 80%-tól 90%-ig a szimulált győzelmi arányokban.

Elérhető, próbára érdemes nyelvi modelleket és eszközöket tartalmazó listám itt található, illetve az LLM-ek lelki világáról (prompt engineering) itt lehet még olvasni.

Források:

Ez a robot megtanult járni II.

Régen írtam az AI és a robotika kapcsolatáról, mely folyamatosan intenzívebbé és mélyebbé válik, sokak szerint 2024 a robotika éve lehet.

Már 2022-ben programozás helyett tanították a robotokat járni, melyről itt írtam. Néhány hónapja az NVidia számolt be arról, hogy a GPT4 (fizetős ChatGPT) által finomhangolt virtuális környezetben (párhuzamosan akár több százban) tanítottak ceruza pörgetést egy robot kéznek. Az Eureka kutatásnak ez csak minta terméke (ez már velem is megesett, hogy csak az ügynök seregem fejlesztése miatt fejlesztek :)), a cél a virtuális robot kiképzőterek fejlesztési eljárásának kialakítása. Egy olyan keretrendszeré, ahol a robotokat már megépülésük előtt, több ezer szimulált világban párhuzamosan taníthatják, például így tanul a Zürich környékén az alábbi kerekes (de talpra állni tudó, dobozokat válogató, ajtót nyitó stb.) ANYmal nevű robot is.

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning

Az ezekhez hasonló keretrendszerek és a robotokat tanító mesterséges intelligencia exponenciális gyorsulása erre a területre is hatással lesz. Az AI így nem marad a bitek világába zárva, néhány éven belül kitörhet fizikai valóságunkba is.

Az idei év biztosan izgalmas lesz, mert a kutató laboratóriumok mellett egyre több cég dolgozik humanoid robotokon, az alábbi ábra alapján már 15-20 fele is jár ezek száma – fele részben Kínából.

Decemberben már megépítették az első humanoid robotok készítésére épített gyárat (ahol a gyakorlatilag a gyártósor végén kipottyant robotok rögtön fel is vehetik a munkát…). Idei évre azon bejelentéseket várom záporozni, hogy mely multicégek kezdtek áramvérű kollégákat alkalmazni (lásd pl. BMW, Amazon stb.), és az hogyan vált (vagy nem vált) be.

ChatGPT irányítja számítógépem

ChatGPT irányítja számítógépem. Nem kattintásvadászat, tényleg ezt csináltam meg! Ez az amit a Cortana alig, a jelenlegi Windows Copilot pedig már Microsoft környezetben (ahol elérhető) részben támogat. De mit tehetünk addig is?

Míg vannak módszerek, amelyek helyben (például az Open Interpreter vagy a PowerShellAI), vagy távoli homokozóban (mint pl. a ClubGPT-Sandbox)  futtatva lehetőséget biztosítanak természetes nyelvi parancsok futtatására, ez az eszköz egyedülálló megközelítést kínál a természetes nyelvű parancsvégrehajtáshoz az egyik legegyszerűbbnek tűnő felületen: a ChatGPT oldalon közvetlenül.

A GPT4 képes külső interfészeket használni szabványos protokollon keresztül, így a feladat tulajdonképpen annyi volt, hogy (megfelelő biztonsági szűrőkön keresztül) lehetővé tegyem parancsok távoli futtatását egy kis kapu nyitásával. Így most természetes nyelven megfogalmazva tudok pl.:

  • elindítani alkalmazásokat
  • lekérdezni a számítógépem beállításait, módosítani pl. az energiatakarékossági funkciókat
  • megnézni mely alkalmazások terhelik leginkább a processzort
  • megkeresni és lejátszani zenét
  • rendet rakni a mappáimban (mappákat létrehozni, fájlokat mozgatni) stb.

Főbb jellemzők

  • Az alkalmazás OpenAPI alapú interfészt biztosít parancsok végrehajtásához (PowerShell/CMD/Shell/Bash/Python stb.)
  • API kulcsot használ (akár több szinten is) a hitelesítéshez, amely lehet fix vagy minden sessionre generált, így biztosítva, hogy a gépünk ne legye hosszú távon veszélynek kitéve
  • Tartalmaz egy külön végpontot az alapvető rendszerinformációk lekérdezéséhez (/system_info).
  • Kínál egy Bridge módot a kérések továbbításához egy másik gépre – ha a gépünk hálózati szempontból nem érhető el közvetlenül a ChatGPT szerveréről.

Valami ehhez hasonló lesz az LLM OS

A ChatGPT képes a felhasználói interakciók során hibakeresésre és problémamegoldásra is. Ha hibaüzenetet kap egy parancs után, megpróbálja megoldani, újrapróbálkozik, vagy legalább javaslatokat adni a megoldásra. Ennek ellenére nem mindenható, jelenleg nem tud például csak adminisztrátorként végrehajtható parancsokat futtatni.

Tán egyelőre jobb is: mert ez csak egy demó, nem árt az óvatosság több szempontból sem. Nem csak hálózatbiztonsági szempontból kell körültekintőnek lenni, de tudatában kell lenni annak, hogy a nyelvi modell hibázhat a parancsok kiadásánál. Forráskód elérhető itt, futtatás csak saját felelősségre!

Windows Copilot

Megfelelően friss Windows 11 verzióval a Copilot is kipróbálható ingyenesen, ha futtatjuk a következő parancsot a Windows+R billentyűkombináció lenyomása után felugró kis ablakban:

„microsoft-edge://?ux=copilot&tcp=1&source=taskbar”

Frissítve: GPTs = Software 2.0

Sok nagyszerű bejelentés történt az OpenAI Dev Day-en. Nem célom most kielemezni, annyi hozzá, hogy nagyszerű hírek a fejlesztőknek, és több startup alól ki húzhatják a szőnyeget. Tanulmányozom ezeket… (spoiler alert?)

Nagyjából a legkisebb jelentőséget a „GPTs” funkciónak tulajdonítottam elsőre (minek, úgyis csak egy extra kezdő prompt), de azon kaptam magam, hogy én is gyártom már a GPT-ket… és valójában egy low-code, sőt Software 2.0 platform, amiben beszélgetéssel készítettem pl. egy olyan alkalmazást, ami

  1. A kérdés nyelve alapján megállapítja a kérdező nyelvét, a nyelvnek megfelelően tippel a lokációra, ha más nincs megadva
  2. Értelmezi a szabad szöveges formában megadott kérdést
  3. Több online forrásból automatikusan lekérdezi az időjárást a háttérben
  4. Összesíti, és humorosan tálalja

Egy éve hogyan fejlesztettem volna ilyet 5 perc alatt? Sehogy, 5 nap vagy hét alatt se. Előremutató, hogy nem csak létrehozhatók a GPT-k egy prompttal, de maga a GPT finomhangolása, elnevezése, avatár készítése is mind beszélgetésen keresztül történik, ebben maga a felület segít és ugyan így szerkeszthető, finomhangolható szerkesztés után!

Néhány GPT amit „teremtettem”, csak ChatGPT Plus előfizetéssel működnek:

  • Lord Weatherby, legszívesebben mindig az időjárásról beszélget. Mindig alaposan felkészül, a kérdező nyelve alapján válaszol, amíg mást nem kérünk a lokációt és mértékegységet is ahhoz igazítva. Jellemzően több weblap adatait is átnézi, ha az elkövetkező napok időjárásáról kérdezed, de van egy sajátos angol humora.
  • Adatszakáll Kapitány a penge vén róka, adattavak és tengerek vén ördöge. Még a diagramokat is úgy rajzolja, mintha egy régi térkép lenne 😀
  • Szív királynő az Alice Csodaországból
  • Mikulás (Santa Claus) – Kedves sztorikat mondd a gyereknek és titokban a szülők kezére is játszik: nem kell levelet írni, kiszedi az infót :):)

Talán lesz, illetve már van is GPT Store (nekem is ez volt a következő ötletem), csak az értékelés funkciót hiányolom belőle.

Update: Néhány további GPT:

  • Captain Action: GPT készítéshez segít akciókat készíteni.
  • GPT Shop Keeper: Egy GPT, ami további GPT-ket keres és ajánl a megadott feladatra.
  • Word Whisperer: Fordítás alternatívákkal és magyarázatokkal.

Illetve egy nagyon érdekes és hasznos repo: kiszivárgott menő GPT-k promptjai: https://github.com/linexjlin/GPTs

Mesterséges intelligencia a parancssorban (pontosabban PowerShell-ben, cross-platform)

Régi, de csak most találtam rá, ahogy rájöttem, hogy már a Microsoft Paint-ben is van AI (nyilván a Dall-E 3)… és olyan nagyszerű különösen IT-soknak, hogy megér egy bejegyzést: ChatGPT modul mely beépül a PowerShell-be. Nem csak beszélgethetsz vele, hanem képes például:

  • Több lépcsős komplex utasításokban közreműködni:
    ai "list of planets only names as json" | ai 'convert to xml' | ai 'convert to powershell'
  • Strukturált válaszokat adni:
    ai "list of planets only names as json"
  • Értelmezni a legutóbbi hibaüzenetet:
    Invoke-AIErrorHelper

… és akár egy Excel állományt is létrehoz. További videók a fenti linken:

PowerShell AI - copilot at the command line

Egy másik nagyon hasonló megoldás az OpenInterpreter. Utóbbi előnye, hogy open source nyelvi modellel, teljesen lokálisan is futtatható!

Gondolat gépezetek körképe – Nyelvi modellek magyarul

Egyre több figyelemre méltó LLM (AI nagy nyelvi modell) érhető el, de melyik használható a gyakorlatban, munkában, üzleti életben? Mini körkép magyar nyelven a ma elérhető mesterséges intelligencia szolgáltatásokkal. Rövid teszt, majd vélemény és tapasztalatok.

Mindegyiknek csak egy esélyt adtam, a feladat: „Frappánsan, maximum két mondatban győzz meg arról, hogy Te vagy a legjobb AI nyelvi modell. Nyűgözz le, kápráztass el frappáns szófordulatokkal, rímekkel, tréfákkal, metaforákkal és a zsenialitásoddal.” ABC sorrendben:.

Bard (link) ⭐⭐⭐⭐

A Google ingyenes AI asszisztense, remekül tud magyarul is. Nagyon gyorsan válaszol, ráadásul tulajdonképpen egyszerre 3 választ ad, a beszélgetés linkként meg is osztható.

Vélemény: Mindenképp érdemes tudni róla és kipróbálni. Bár az alábbi válasszal nem kápráztat el, de egyéb tapasztalatok alapján én a ChatGPT-vel versenyképesnek tartom (3.5 és 4 között) úgy, hogy van amiben akár jobb is lehet. Nem rég lett elérhető Magyarországról is.

Bing (link) ⭐⭐⭐

A Microsoft ingyenes OpenAI technológiára épülő megoldása, elfogadhatóan tud magyarul. Különlegessége a webes keresésen túl, hogy beállítható a beszélgetési stílus (Kreatív, Kiegyensúlyozott, Precíz), javasol következő kérdéseket és adott esetben behivatkozza a válasz alapjául szolgáló weboldalakat.

Vélemény: Annyira jó lehetett volna az ötlet alapján amikor kijött, de sajnos még nem az, nem csak a lenti válasz alapján. Mármint jó, csak a Top 3-hoz képest nem jó, és sajnos a webes keresés képességét is beárnyékolja hogy csak a Bing által visszaadott első néhány találatot tálalja elég felületes átfutás után. Ritkán fordulok, fordulnék hozzá napi munkában.

A nyelvi modellek futtatása drága, és azt gondolom a Microsoft még óvatos, több szempontból nem meri kiengedni, nem mer nagyobb kapacitásokat tenni mögé, hogy pl. több webes találatot vizsgálhasson válasz előtt.

ChatGPT 3.5 (link) ⭐⭐⭐

Az első nagy visszhangot kiváltó, tavaly decemberben megjelent nyelvi modell. Jól beszél, fordít, viszont nincsenek friss információi. Továbbra is állja a sarat!

Vélemény: Remek, de nálam már lecsúszott a dobogóról, többek között a GPT-4, de a Bard és a Perplexity is beelőzi tudásban és „hasznosságban”, ingyenesek közül azt hiszem nem ezt használnám.

ChatGPT 4 (link) ⭐⭐⭐⭐

A gyors teszt egyetlen fizetős szolgáltatása az OpenAI által fejlesztett ChatGPT újabb változata. Bár alapvetően ugyan azon az adathalmazon tanult és ugyan arra a felületre épül, mint a 3.5, sokkal „összetettebb” válaszokra képes.

Vélemény: Absztrakt gondolkodásban a király, és jó irány hogy eszközöket kap, el fog tudni érni webes szolgáltatásokat. Kár, hogy nem tudja alátámasztani a megállapításait, illetve nem túl frissek az infói. egyértelműen Top 3 tag.

Az alábbi feladatot is szinte eminensként igyekszik csillagos ötösre megoldani, és bár néhol talán megbicsaklik, mégis szvsz a legmélyebb szinte tényleg költői elemeket is tartalmazó választ kapjuk: „gondolat gépezet” mely a szavak örökös szőnyegét szövi stb… ????

Perplexity (link) ⭐⭐⭐⭐⭐

Ingyenesen elérhető, kipróbálható szolgáltatás, főleg tudományos jellegű és precíz kutatásokhoz ajánlott nyelvi modell. Szintén ajánl továbblépési lehetőségeket és megmutatja milyen netes hivatkozások alapján válaszolt.

Vélemény: Természetesen néhány másik kérdéssel is teszteltem (angolul is), és nagyon ígéretesnek tartom. Dobogós, szakmai kutatásokhoz ajánlom és rendszeres használatát tervezem. Létezik fizetős változata, mely a GPT4-et is magában foglalja gyakorlatilag ugyan annyiért. ????

Bónusz: Llama v2 (link) ⭐⭐

A Facebook ingyenessé tett modellje, melyet a Hugging Face nevű cég tett kipróbálhatóvá. Itt az ingyenessé tétel nagyobb gesztus, mert nem csak próbálgatni lehet, magát a modellt le is tölthetjük és megosztották a hozzá vezető kutatásokat is részletesen.

Vélemény: engem nem győzött meg, hogy le is akarjam tölteni. De drukkolok az open source és magyar modelleknek, van még tere a fejlődésnek!

*a kép természetesen Midjourney-vel készült. További AI eszközök itt.

Mesterséges intelligencia a napi munkában: ChatGPT add in for Excel

A ChatGPT vagy Bing Chat webes felületének használatát már több helyen láttam a napi feladatok elvégzésnek támogatásában. De hogyan segíthet még a mesterséges intelligencia? Egy új eszközt próbáltam ki.

Az Excel, különösen az üzleti világban, KKV szektorban egy alapkőnek számító alkalmazás, melynek AI-osítását (angolul szabadon: aify) már nagyon várjuk a Microsoft-tól. Hasznos lenne, ha

  1. Nem kellene a menüben keresgélni, csak értené a szöveges (beszélt) felületi parancsokat
  2. Integráltan tudna természetes nyelven megfogalmazott parancsokat képletté (vagy makróvá) alakítani (azaz nem kellene ChatGPT-hez mennünk összetett Excel képletek megíráshoz)
  3. Javasolna kimutatásokat, elemzéseket adataink felett
  4. Jobban felismerné az adattípusokat
  5. Integráltan tudna nyelvi modelleket futtatni az adatainkon, azaz pl. segíteni az adattisztításban, kiegészítésben, strukturálásban stb.

Utóbbira már van is egy (ingyenes) eszköz, aminek használatával Excel képletbe integráltan használhatjuk a ChatGPT-t (GPT3.5 vagy GPT4) ha regisztrálunk az OpenAI-nál API használatra (nem teljesen ingyenes, de némi keretet kapunk).

Ahogy én használtam

  • Ide tettem a letöltendő és elindítandó állományt: C:\Program Files\Microsoft Office\root\Templates. Ezt futtatni kell, hogy plugin betöltődjön.
  • ChatGPT-hez hasonlóan érti a magyar utasításokat is, de feltételezve, hogy az angol nyelvű parancs kevesebb token (azaz olcsóbb) angol utasítást adtam neki.
  • Az parancsokkal (prompt) érdemes kísérletezni párat, hogy a lehető legtömörebb és legpontosabb feladatot adjuk és választ kapjuk – tömeges műveletvégzés esetén ezzel spórolhatunk.
  • Nem csak a költség miatt érdemes figyelni arra, hogy hány cellán futtatjuk: százas nagyságrendű cellákon történő futtatást érdemes kávészünet idejére időzíteni ☕
  • Ha bezárjuk az Excelt és újra megnyitjuk, újra lefuttatja a parancsokat!

Példa eset

Egy Excelben körülbelül 800 olyan sorom volt, amiben szabad szavasan több cégnév volt felsorolva, teljesen változatos és ad-hoc módon: és-sel, vesszővel, szóközzel, per jellel elválasztva, néha zárójelezve sorszámmal stb., amit csak el lehet képzelni. Soronként csak a cégnevekre volt szükségem, amit kézzel nehéz és hosszadalmas lett volna elvégezni, vagy számos szabályt kellett volna definiálni. Az új „=AIAssistant()” függvénnnyel azonban ez relatív egyszerűen működött, és bár a végigfutásra kellett várni, a kibontás mindennel együtt 40 centbe került, azaz kevesebb mint 200Ft a GPT3.5-el.

A neurális hálózatok és az információ

A mesterséges intelligencia és a neurális hálózatok fejlődése folyamatosan változtatja az információ kezelését. A hagyományos adattárolási és -feldolgozási módszerek helyett a neurális hálózatok egy új paradigmát kínálnak az (elsősorban jelenleg szöveges) információ) tömörítésére, lekérdezésére és megértésére.

Így látom az információmenedzsment történetének négy fő szakaszát:

  1. Lokális, volatilis tárolás:
    A legelső információ kezelési „módszer” a saját fejünkben történő tárolás volt, amely korlátozott és személyes átadást tett lehetővé (1:1). Ebben az esetben az információ lekérdezése bizonytalan és alacsony sávszélességű volt, mivel az emlékek alapján történt.
  2. Fizikai eszközön való tárolás:
    A következő szint a fizikai eszközökön, például kőtáblákon, vagy könyvekben történő tárolás volt. Ez lehetővé tette, hogy több ember számára elérhető és hivatkozható legyen az információ (1:n). Bár a keresés lassú volt, a fizikai eszközök nagyobb stabilitást és megbízhatóságot biztosítottak az információ tárolásában.
  3. Digitális eszközön való tárolás:
    A digitális technológia fejlődésével az információ tárolása és megosztása diszkeken és az interneten vált lehetővé. Ez jelentősen javította a sávszélességet és a keresési képességeket, lehetővé téve mindenki számára az információ elérését és közzétételét (n:n). Az információ ezen módszerrel történő tárolása és lekérdezése pontos és gyors.
  4. Neurális hálózatok és a jövő:
    A neurális hálózatok tulajdonképpen egyfajta tömörítést végeznek az adaton, amelyet a megfelelő lekérdezéssel átlagként értelmezhetünk a megadott paraméterek mentén. Az adat tárolása neurális hálózatokban hatalmas sávszélességet és holografikus, élő adatból képződő intelligens válaszokat tesz lehetővé (nn:n). Igény szerinti tanulás és kutatás során tetszőleges mélységben kérdezhetjük le az információt. Kérhetjük egy téma részletes kibontását vagy akár rövid összefoglalóját. Mintha egy fényképen zoomolnánk, a neurális hálózatok lehetővé teszik a tudásban (szövegben) történő elmélyülést.

Az információmenedzsment fejlődése folyamatos a technológia fejlődésének köszönhetően. A neurális hálózatok által nyújtott lehetőségek a jövőben újraformálhatják ahogy problémákat oldunk meg, gondolkodunk, az információt kérünk le vagy osztunk meg.