Aya: A nyelvi korlátokat ledöntő open source AI projekt

A Cohere for AI, a Cohere Inc. által vezetett nonprofit kutatólabor mutatta be nem rég az Aya nevű, „masszívan többnyelvű” nyílt forráskódú mesterséges intelligencia nagy nyelvi modelljét (LLM), amely 101 különböző nyelven képes beszélni.

A Cohere szerint az Aya több mint 100 nyelv támogatásával kétszer annyi nyelvet képes kezelni, mint a jelenleg létező alternatív nyílt forráskódú modellek. Ez azért nagyon fontos számunkra, mert a magyar nyelv (a felhasználók számából és bonyolultságból adódóan) viszonylag alulreprezentált a nyílt forrású AI-k térképen.

Az Aya ki is próbálható (ráadásul ez a csapat aktívan kísérletezik a válaszok megalapozásával (grounding), illetve a modell tanításába be is lehet csatlakozni (bátorítanék és mindenkit!): https://aya.for.ai/.

Aya többnyelvű modell

Az Aya modell azonos nevű projektből származik, amelyet 2023 januárjában indítottak több mint 3 000 kutatóval 119 országban azzal a szándékkal, hogy építsenek egy többnyelvű generatív AI modellt, amely az egész világról érkező emberek hozzájárulásaira épül. Bár sok modell az angol nyelvre összpontosít, csupán a világ népességének körülbelül 5%-a beszél angolul otthon. A nyelvkutató központ, az Ethnologue szerint jelenleg több mint 7 000 nyelvet beszélnek a világon. Ebből 23 nyelv (beleértve az angolt is), több mint a világ népességének felét képviseli. A nyelvek körülbelül 40%-a veszélyeztetett, soknak kevesebb mint 1 000 beszélője van.

Érdekes ezzel szembeállítani azt a tényt is, hogy a Google legújabb Gemini modellje akkora munkamemóriával rendelkezik (1 millió token nagyságú kontextus ablak), hogy gyakorlatilag képes egy beszélgetésben megtanulni egy nyelvet.

Adatkészlet és annotációk

Az Aya mellett a Cohere a legnagyobb, eddig ismert többnyelvű utasítás adatkészletét is közzéteszi (a tanító adatkészletet ritkán teszik közzé!), amely 513 millió adatpontot tartalmaz, és 114 különböző nyelvet fed le. Az adatkészlet tartalmazza az alulreprezentált nyelveket és ritka annotációkat, így gyorsabb kezdést biztosít más kutatóknak is. A közzétett adatkészlet 204 000 ritka, ember által ellenőrzött annotációt tartalmaz 67 nyelven. Az annotációkat az AI modellek hatékony tanulásának segítésére használják azáltal, hogy kontextust adnak az adatokhoz a nyelv megértéséhez, például a kategorizáláshoz és a megértés pontosságának növeléséhez. Az adatkészlet több mint 50 korábban alulreprezentált nyelvet is lefed, mint például a szomáli és az üzbég.

Jó eredmények

A kutatók azt mondták, hogy a modell jól teljesített más masszívan többnyelvű modellekkel szembeni tesztekben, és felülmúlta az egyéb nyílt forráskódú modelleket, beleértve az mT0-t és a BigScience Bloomz-t a teszteken. Az Aya 75%-ban teljesített jól az emberi értékelésekben a „vezető nyílt forráskódú modellekkel” szemben, és 80%-tól 90%-ig a szimulált győzelmi arányokban.

Elérhető, próbára érdemes nyelvi modelleket és eszközöket tartalmazó listám itt található, illetve az LLM-ek lelki világáról (prompt engineering) itt lehet még olvasni.

Források:

Frissítve: GPTs = Software 2.0

Sok nagyszerű bejelentés történt az OpenAI Dev Day-en. Nem célom most kielemezni, annyi hozzá, hogy nagyszerű hírek a fejlesztőknek, és több startup alól ki húzhatják a szőnyeget. Tanulmányozom ezeket… (spoiler alert?)

Nagyjából a legkisebb jelentőséget a „GPTs” funkciónak tulajdonítottam elsőre (minek, úgyis csak egy extra kezdő prompt), de azon kaptam magam, hogy én is gyártom már a GPT-ket… és valójában egy low-code, sőt Software 2.0 platform, amiben beszélgetéssel készítettem pl. egy olyan alkalmazást, ami

  1. A kérdés nyelve alapján megállapítja a kérdező nyelvét, a nyelvnek megfelelően tippel a lokációra, ha más nincs megadva
  2. Értelmezi a szabad szöveges formában megadott kérdést
  3. Több online forrásból automatikusan lekérdezi az időjárást a háttérben
  4. Összesíti, és humorosan tálalja

Egy éve hogyan fejlesztettem volna ilyet 5 perc alatt? Sehogy, 5 nap vagy hét alatt se. Előremutató, hogy nem csak létrehozhatók a GPT-k egy prompttal, de maga a GPT finomhangolása, elnevezése, avatár készítése is mind beszélgetésen keresztül történik, ebben maga a felület segít és ugyan így szerkeszthető, finomhangolható szerkesztés után!

Néhány GPT amit „teremtettem”, csak ChatGPT Plus előfizetéssel működnek:

  • Lord Weatherby, legszívesebben mindig az időjárásról beszélget. Mindig alaposan felkészül, a kérdező nyelve alapján válaszol, amíg mást nem kérünk a lokációt és mértékegységet is ahhoz igazítva. Jellemzően több weblap adatait is átnézi, ha az elkövetkező napok időjárásáról kérdezed, de van egy sajátos angol humora.
  • Adatszakáll Kapitány a penge vén róka, adattavak és tengerek vén ördöge. Még a diagramokat is úgy rajzolja, mintha egy régi térkép lenne 😀
  • Szív királynő az Alice Csodaországból
  • Mikulás (Santa Claus) – Kedves sztorikat mondd a gyereknek és titokban a szülők kezére is játszik: nem kell levelet írni, kiszedi az infót :):)

Talán lesz, illetve már van is GPT Store (nekem is ez volt a következő ötletem), csak az értékelés funkciót hiányolom belőle.

Update: Néhány további GPT:

  • Captain Action: GPT készítéshez segít akciókat készíteni.
  • GPT Shop Keeper: Egy GPT, ami további GPT-ket keres és ajánl a megadott feladatra.
  • Word Whisperer: Fordítás alternatívákkal és magyarázatokkal.

Illetve egy nagyon érdekes és hasznos repo: kiszivárgott menő GPT-k promptjai: https://github.com/linexjlin/GPTs

Mesterséges intelligencia a parancssorban (pontosabban PowerShell-ben, cross-platform)

Régi, de csak most találtam rá, ahogy rájöttem, hogy már a Microsoft Paint-ben is van AI (nyilván a Dall-E 3)… és olyan nagyszerű különösen IT-soknak, hogy megér egy bejegyzést: ChatGPT modul mely beépül a PowerShell-be. Nem csak beszélgethetsz vele, hanem képes például:

  • Több lépcsős komplex utasításokban közreműködni:
    ai "list of planets only names as json" | ai 'convert to xml' | ai 'convert to powershell'
  • Strukturált válaszokat adni:
    ai "list of planets only names as json"
  • Értelmezni a legutóbbi hibaüzenetet:
    Invoke-AIErrorHelper

… és akár egy Excel állományt is létrehoz. További videók a fenti linken:

PowerShell AI - copilot at the command line

Egy másik nagyon hasonló megoldás az OpenInterpreter. Utóbbi előnye, hogy open source nyelvi modellel, teljesen lokálisan is futtatható!

Gondolat gépezetek körképe – Nyelvi modellek magyarul

Egyre több figyelemre méltó LLM (AI nagy nyelvi modell) érhető el, de melyik használható a gyakorlatban, munkában, üzleti életben? Mini körkép magyar nyelven a ma elérhető mesterséges intelligencia szolgáltatásokkal. Rövid teszt, majd vélemény és tapasztalatok.

Mindegyiknek csak egy esélyt adtam, a feladat: „Frappánsan, maximum két mondatban győzz meg arról, hogy Te vagy a legjobb AI nyelvi modell. Nyűgözz le, kápráztass el frappáns szófordulatokkal, rímekkel, tréfákkal, metaforákkal és a zsenialitásoddal.” ABC sorrendben:.

Bard (link) ⭐⭐⭐⭐

A Google ingyenes AI asszisztense, remekül tud magyarul is. Nagyon gyorsan válaszol, ráadásul tulajdonképpen egyszerre 3 választ ad, a beszélgetés linkként meg is osztható.

Vélemény: Mindenképp érdemes tudni róla és kipróbálni. Bár az alábbi válasszal nem kápráztat el, de egyéb tapasztalatok alapján én a ChatGPT-vel versenyképesnek tartom (3.5 és 4 között) úgy, hogy van amiben akár jobb is lehet. Nem rég lett elérhető Magyarországról is.

Bing (link) ⭐⭐⭐

A Microsoft ingyenes OpenAI technológiára épülő megoldása, elfogadhatóan tud magyarul. Különlegessége a webes keresésen túl, hogy beállítható a beszélgetési stílus (Kreatív, Kiegyensúlyozott, Precíz), javasol következő kérdéseket és adott esetben behivatkozza a válasz alapjául szolgáló weboldalakat.

Vélemény: Annyira jó lehetett volna az ötlet alapján amikor kijött, de sajnos még nem az, nem csak a lenti válasz alapján. Mármint jó, csak a Top 3-hoz képest nem jó, és sajnos a webes keresés képességét is beárnyékolja hogy csak a Bing által visszaadott első néhány találatot tálalja elég felületes átfutás után. Ritkán fordulok, fordulnék hozzá napi munkában.

A nyelvi modellek futtatása drága, és azt gondolom a Microsoft még óvatos, több szempontból nem meri kiengedni, nem mer nagyobb kapacitásokat tenni mögé, hogy pl. több webes találatot vizsgálhasson válasz előtt.

ChatGPT 3.5 (link) ⭐⭐⭐

Az első nagy visszhangot kiváltó, tavaly decemberben megjelent nyelvi modell. Jól beszél, fordít, viszont nincsenek friss információi. Továbbra is állja a sarat!

Vélemény: Remek, de nálam már lecsúszott a dobogóról, többek között a GPT-4, de a Bard és a Perplexity is beelőzi tudásban és „hasznosságban”, ingyenesek közül azt hiszem nem ezt használnám.

ChatGPT 4 (link) ⭐⭐⭐⭐

A gyors teszt egyetlen fizetős szolgáltatása az OpenAI által fejlesztett ChatGPT újabb változata. Bár alapvetően ugyan azon az adathalmazon tanult és ugyan arra a felületre épül, mint a 3.5, sokkal „összetettebb” válaszokra képes.

Vélemény: Absztrakt gondolkodásban a király, és jó irány hogy eszközöket kap, el fog tudni érni webes szolgáltatásokat. Kár, hogy nem tudja alátámasztani a megállapításait, illetve nem túl frissek az infói. egyértelműen Top 3 tag.

Az alábbi feladatot is szinte eminensként igyekszik csillagos ötösre megoldani, és bár néhol talán megbicsaklik, mégis szvsz a legmélyebb szinte tényleg költői elemeket is tartalmazó választ kapjuk: „gondolat gépezet” mely a szavak örökös szőnyegét szövi stb… ????

Perplexity (link) ⭐⭐⭐⭐⭐

Ingyenesen elérhető, kipróbálható szolgáltatás, főleg tudományos jellegű és precíz kutatásokhoz ajánlott nyelvi modell. Szintén ajánl továbblépési lehetőségeket és megmutatja milyen netes hivatkozások alapján válaszolt.

Vélemény: Természetesen néhány másik kérdéssel is teszteltem (angolul is), és nagyon ígéretesnek tartom. Dobogós, szakmai kutatásokhoz ajánlom és rendszeres használatát tervezem. Létezik fizetős változata, mely a GPT4-et is magában foglalja gyakorlatilag ugyan annyiért. ????

Bónusz: Llama v2 (link) ⭐⭐

A Facebook ingyenessé tett modellje, melyet a Hugging Face nevű cég tett kipróbálhatóvá. Itt az ingyenessé tétel nagyobb gesztus, mert nem csak próbálgatni lehet, magát a modellt le is tölthetjük és megosztották a hozzá vezető kutatásokat is részletesen.

Vélemény: engem nem győzött meg, hogy le is akarjam tölteni. De drukkolok az open source és magyar modelleknek, van még tere a fejlődésnek!

*a kép természetesen Midjourney-vel készült. További AI eszközök itt.

Mesterséges intelligencia a napi munkában: ChatGPT add in for Excel

A ChatGPT vagy Bing Chat webes felületének használatát már több helyen láttam a napi feladatok elvégzésnek támogatásában. De hogyan segíthet még a mesterséges intelligencia? Egy új eszközt próbáltam ki.

Az Excel, különösen az üzleti világban, KKV szektorban egy alapkőnek számító alkalmazás, melynek AI-osítását (angolul szabadon: aify) már nagyon várjuk a Microsoft-tól. Hasznos lenne, ha

  1. Nem kellene a menüben keresgélni, csak értené a szöveges (beszélt) felületi parancsokat
  2. Integráltan tudna természetes nyelven megfogalmazott parancsokat képletté (vagy makróvá) alakítani (azaz nem kellene ChatGPT-hez mennünk összetett Excel képletek megíráshoz)
  3. Javasolna kimutatásokat, elemzéseket adataink felett
  4. Jobban felismerné az adattípusokat
  5. Integráltan tudna nyelvi modelleket futtatni az adatainkon, azaz pl. segíteni az adattisztításban, kiegészítésben, strukturálásban stb.

Utóbbira már van is egy (ingyenes) eszköz, aminek használatával Excel képletbe integráltan használhatjuk a ChatGPT-t (GPT3.5 vagy GPT4) ha regisztrálunk az OpenAI-nál API használatra (nem teljesen ingyenes, de némi keretet kapunk).

Ahogy én használtam

  • Ide tettem a letöltendő és elindítandó állományt: C:\Program Files\Microsoft Office\root\Templates. Ezt futtatni kell, hogy plugin betöltődjön.
  • ChatGPT-hez hasonlóan érti a magyar utasításokat is, de feltételezve, hogy az angol nyelvű parancs kevesebb token (azaz olcsóbb) angol utasítást adtam neki.
  • Az parancsokkal (prompt) érdemes kísérletezni párat, hogy a lehető legtömörebb és legpontosabb feladatot adjuk és választ kapjuk – tömeges műveletvégzés esetén ezzel spórolhatunk.
  • Nem csak a költség miatt érdemes figyelni arra, hogy hány cellán futtatjuk: százas nagyságrendű cellákon történő futtatást érdemes kávészünet idejére időzíteni ☕
  • Ha bezárjuk az Excelt és újra megnyitjuk, újra lefuttatja a parancsokat!

Példa eset

Egy Excelben körülbelül 800 olyan sorom volt, amiben szabad szavasan több cégnév volt felsorolva, teljesen változatos és ad-hoc módon: és-sel, vesszővel, szóközzel, per jellel elválasztva, néha zárójelezve sorszámmal stb., amit csak el lehet képzelni. Soronként csak a cégnevekre volt szükségem, amit kézzel nehéz és hosszadalmas lett volna elvégezni, vagy számos szabályt kellett volna definiálni. Az új „=AIAssistant()” függvénnnyel azonban ez relatív egyszerűen működött, és bár a végigfutásra kellett várni, a kibontás mindennel együtt 40 centbe került, azaz kevesebb mint 200Ft a GPT3.5-el.

OpenChatKit: nyílt forrású, tanítható ChatGPT alternatíva

A hét a Google AI Workspace és a Microsoft Copilot 365 bejelentésektől volt hangos – azt gondolom megalapozottan, kíváncsian várom a tesztelési lehetőséget én is! Azonban bejelentésre került egy új, már tesztelhető, viszont teljesen nyílt forráskódú, kipróbálható betanított modell is, az OpenChatKit, amely GitHub-ról is elérhető.

Az OpenChatKit egy nyílt forráskódú projekt (opesn source Apache-2.0 licenc alatt kerül kiadásra), amelyet speciális és általános célú chatbotok létrehozására terveztek különböző alkalmazásokhoz. Tulajdonképpen egy beszélgetésre hangolt nagy nyelvi modell, mely a GPT-NeoX-20B-ből került finomhangolásra 43 millió utasítással. Az OpenChatKit erősségei közé tartozik

  • az összegzés, a kontextuson belüli kérdésválaszolás,
  • az információkinyerés és
  • a szövegosztályozás.

Az alkotók szerint a következőkön szükséges még finomhangolni:

  • a tudásalapú zárt kérdésválaszolás,
  • a kódolási feladatok,
  • a kontextusváltás és
  • a kreatív írás vagy a hosszabb válaszok.

Számomra az egyik legérdekesebb momentum, hogy a projekt emellett egy bővíthető lekérdezési rendszerrel is rendelkezik (retrieval), amely lehetővé teszi, hogy a chatbot rendszeresen frissített vagy egyéni tartalmakat építsen be a válaszaiba: tehát például folyamatosan betöltse a friss információkat megadott helyről (pl. Wikipedia vagy valamilyen üzleti adatforrás) és így naprakészen tartsa tudását.

Kipróbálható a Hugging Face-en (a linket felvettem az AI Eszközök közé is). Itt találsz eszközt több LLM párhuzamos tesztelésére is!

Forrás: Together

ChatGPT vs. Bing Chat AI

Az OpenAI ChatGPT modellje nagyot szólt, és már béta tesztelhető a Microsoft boszorkánykonyhájában saját ízlésük szerint finomhangolt, de OpenAI technológiát is alkalmazó verzió az „új Bing”, avagy Bing Chat. Legnagyobb különbség, hogy míg a ChatGPT jelenleg csak egy fix, 2021-ben lezárt tudásanyaggal dolgozik, a Bing valós időben is képes az interneten keresni, és akár napi információkat felhasználni a válaszához.

Dave Lee például a prémium ChatGPT Plus (20 dollár / hó) előfizetése használatával a Tesla 2022 Q4 negyedéves riportjának elemzését kérte a neurális hálótól a PDF dokumentumot megadva – és elsőre még talán ő sem vette észre, hogy az AI válasza teljes egészében egy hallucináció a feltett kérdés és a PDF címe alapján, azaz nem tényekre alapul, pusztán egy szöveg generálás.

https://twitter.com/heydave7/status/1626444184608559104

Előnyére szólva (vagy mára ezt javították), a jövőre vonatkozó pénzügyi riportok elemzését azért már megtagadja:

Tisztában van a jövő fogalmával is

Ezzel ellentétben a Bing Chat tud valós idejű adatokkal dolgozni: tulajdonképpen a feltett kérdéseknek megfelelően kereséseket végez az interneten és annak eredményeit képes tálalni. A fenti példához hasonlóan feltett kérdésemre az elemző cikkek és pénzügyi oldalak adatai alapján válaszolt:

Test - ChatGPT vs. Bing Chat v0.1

Amit egyik sem tud (jelenleg) az az, hogy megadott PDF dokumentumokban keressen, de már erre is van kezdeményezés, pl. az AI asszisztens szolgáltatás.

ChatGPT programozás, okos otthon konfiguráció

Impresszív a GPT3-ra alapuló ChatGPT szolgáltatástól magyar prompt (parancs) után, hogy több nyelven it tud programozni. Nagy segítség a tanulásban, vagy akár programozási nyelvek közötti fordításban (portolásban).

ChatGPT programozás

Külön kiemelném, hogy nem csak programozni tud, hanem például okos otthon felkonfigurálásában is hasznos segítség. Én Home Assistant kapcsán próbáltam ki.

ChatGPT home Assistant
ChatGPT ❤️ Home Assistant

Milyen további AI eszközöket használhatsz a napi munkád megkönnyítésére? Lásd itt: