
Az AI-benchmarkok jó viszonyítási alapok lehetnek, de nem a valós életbeli problémákra fókuszálnak
Amikor egy gyártó piacra dobja legújabb AI-modelljét, a leggyakrabban felmerülő kérdés általában, hogy az adott modellek hogyan teljesítenek más fejlesztők termékeihez képest a különböző feladatok megoldása terén. Ezen összehasonlítások során a modellek erejét különféle benchmarkok segítségével mérik össze, amelyek különféle tudományterületekről származó feladatokkal tesztelik azok képességeit.
Ezen tesztekkel szemben azonban számos kritika hozható fel. Sajtos István, a PeakX Innovációs igazgatója a vállalat szerdai sajtóeseményén elmondta, hogy szerintük a legtöbb ilyen benchmark "laborkörülmények között" képes csak tesztelni a modellek képességeit, nem a valós, mindennapi problémák esetében. Ezen felül, szerinte azért is érdemes fenntartásokkal kezelni ezeket a teszteket, mert akár az is előfordulhat, hogy egyes modellek tanuló adatbázisában már a benchmarkok tesztkérdéseinek válaszai is szerepelhetnek.

Hogyan teljesítenek az AI-modellek a magyar oktatásban is felmerülő problémák terén?
A PeakX egy az eseményen bemutatott kísérlettel próbálta meg más megközelítésből mérni a modellek teljesítményét; a vezető AI-fejlesztők modelljeit a magyar közoktatásban a 6., 8. és 10. osztályos tanulók körében végzett kompetenciamérési feladatsorok kérdéseivel tesztelték le.
A vállalat előzetes hipotézise szerint
mivel a kompetenciatesztek jellemzően nem a tankönyvi tudását mérik a diákoknak, hanem a tananyagon alapuló, önálló gondolkodást igénylő feladatokat tartalmaznak, képesek lehetnek az AI-modellek képességeit valós, hétköznapokban is előforduló feladatokban mérni.
Szerintük, egyes modellek nem mérhetőek pusztán benchmarkokkal, ugyanis azok a komplexebb, emberek számára is gondolkodást igénylő feladatokban gyakran elakadnak.
A valós időben lefuttatott kísérlet során egy a PeakX által kifejezetten arra a célra kifejlesztett AI-ügynök (agent) adott meg feladatokat az összes vizsgált modellnek a kompetenciamérési feladatsorok 5 témakörében (matematika, szövegértés, történelem, természettudomány és digitális kultúra). Ezt követően a modellek válaszait egy másik, AI-ügynök értelmezte
A tesztek során a Peak saját kompetenciatesztjével
- az OpenAI,
- az Antrophic,
- az Elon Musk által tulajdonolt xAI,
- a Google,
- valamint a francia Mistral AI-modelljeit hasonlították össze.

A teszt során a PeakX százalékos formában adta meg, hogy egyes modellek milyen pontossággal válaszoltak a kompetenciamérési feladatsorok kérdéseire. Ezen felül a tesztek azt is megmutatták, hogy egyes modellek milyen költségek mellett és mennyi idő alatt voltak képesek megoldani a problémákat.
A végeredmények tekintetében elmondható, hogy a tesztek győztese az OpenAI O1-es modellje volt szinte az összes témában.
A kaliforniai gyártó modellje a "reasoning modellek" közé tartozik, amely azt jelenti, hogy a rendszer a válaszadás előtt több ideig gondolkodik a megoldáson ezáltal képes a bonyolultabb feladatok végiggondolására is. Ez nagy előnyt jelent különösen a matematikai feladatok esetén.

Említésre méltó még a teszteredmények alapján az Antropic Claude Sonnet 3.7-es modellje is, amely az O1 eredményeitől nem maradt el számottevő mértékben, azonban az átlagköltések tekintetében jóval hatékonyabban volt képes választ adni a kérdésekre.
A vállalat közleménye szerint a többi modell jelentős megkötésekkel alkalmazhatóak csak a komplexebb problémák terén. Az xAI Grok2 modellje például rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített. A Google Gemini 2.0 kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt. Az elmúlt időszakban jelentős figyelmet kapó kínai DeepSeek modelljei ugyan olcsók és gyorsak, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, így a kompetenciamérés képi feladataival nehezen birkózik meg.
A vállalat szerint a költséghatékonyság fontos szempont a modellek alkalmazhatósága terén; bizonyos feladatok esetén még a modell összesített tudásánál is fontosabb tényező lehet.
A tesztek alapján Sajtos István elmondta, hogy az AI-modellek alkalmazása alapvetően a
a humán intelligenciából képes kihozni a legtöbb potenciált, de nem helyettesíti teljes mértékben az emberi gondolkodást.
Integrált modellek vállalati környezetben
A PeakX vezetője a teszteket követően arra is rávilágott, hogy vállalati környezetben ugyan sok felhasználási területe mutatkozik meg az AI-modelleknek, a rendszerek integrációját számos akadály nehezíti. Ezek közül az egyik legnagyobb, hogy még mindig kevés a bizalom az AI-ban és az egyre növekvő AI iparágban még mindig kevés a hozzáértő szakember.
Problémás továbbá még, hogy a modelleket fix adatbázisokon tanítják, amely nem biztos, hogy egyes konkrét, vállalatokat érintő problémákra képes választ adni, egyes esetben pedig a modell akár légből kapott válaszokat is adhat. Az aggályok megoldására a PeakX a RAG (Retrieval Augmented Generation) megközelítést alkalmazza, amellyel a már említett nagy nyelvi modelleket (például az OpenAI termékeit) alapul véve képesek olyan AI-rendszereket létrehozni, amelyek lekorlátozzák a nagy nyelvi modellek képességeit, hogy az csak a megadott eszköztár és háttéranyag segítségével adjon megoldást a problémákra.
Ennélfogva, ha a rendszer olyan kérdést kap, amelynek helyes megválaszolásához nincs megfelelő tudása, azokra a modell egyszerűen azt a választ adja, hogy nem képes rá válaszolni. Ha azonban megvan hozzá a megfelelő tudása, akkor a legoptimálisabb eszközök segítségével oldja meg a problémát.
A címlapkép illusztráció. Címlapkép forrása: Getty Images
Újra kap amerikai fegyvereket Ukrajna, Putyin nagyon dilemmázik a tűzszüneten – Háborús híreink szerdán
Folyamatosan frissülő hírfolyamunk.
Kihajítaná az európai katonákat a forrongó balkáni állam, az oroszok segítségét kérték ehhez
Tovább forrnak az indulatok.
Idén még nem láttunk ilyet, különleges időjárási jelenség alakult Magyarországon
Vámosgyörk térségében.
Elmondta Donald Trump, mi Amerika következő lépése a békéhez
Már útnak is indította az embereit.
Mennyire lehet jó egy 19 dolláros eper?
Nagyot megy most egy eper. egy szemet(!) adnak 19 dollárért, igaz, szépen becsomagolva. Az emberek pedig veszik, mint a cukrot, mert bár drága, de annyira finom, hogy minden pénzt megér. Az egyik am
Ellenségből szövetséges, majd újra rivális
Arra talán senki sem számított, hogy Donald Trump elsőként békés északi szomszédját sújtja brutális védővámokkal. Kanadaiak tömege tekint árulásként a lépésre, amellyel az Egyesült Á
Demján 1+1 után se állj le: pénz még van, csak kérni kell!
Az elmúlt hónapokban a Demján 1+1 pályázat felforgatta a pályázati ökoszisztémát.
Munkabérelőleg kezelése - digitális megoldással
A munkabérelőleg kifizetések hagyományosan sok adminisztrációval és manuális munkával jártak mind a HR, mind a pénzügyi osztályok számára. Az RSM Hungary élen jár abban, hogy ügyfelei sz
Az európai autópiac alakulása 2015 és 2024 között
2015 és 2024 között jelentős átalakuláson ment keresztül az európai autópiac. Mai blogposztunkban azt vizsgáljuk, milyen trendek olvashatók ki a főbb mutatókból.
Swiftonomics - Taylor Swift gazdasági hatása
Taylor Swift legutóbbi, 2023 és 2024 között 5 kontinensen zajló, 149 állomásból álló \"Eras Tour\" világkörüli koncertturnéja körülbelül 2 milliárd dollár bevételt generálva világszer
Újra a rajtnál a legenda - A TAG Heuer-sztori, 2. rész
A TAG Heuer történelmi hullámvasútja során már több csúcs- és mélypontot is megélt, erről az első részben írtunk. Az elmúlt időszakban pedig az LVMH-tulaj Bernard...
The post Újra a rajtn
A Fogtündér is megszorít
Cudarul alakul a tejfogpiac az elmúlt időszakban, a Fogtündér sem kerülhette el a gazdasági viharokat, zsinórban második éve csökken a kiesett fogakért járó juttatás. Pedig...
The post A Fogt


- Itt a nagy bejelentés: megállapodott egymással Ukrajna és az Egyesült Államok, jelentős lépés a béke felé
- A kisgyerekeket támadja ez a betegség - Csúcson van a magyar kórházak terhelése
- Pár nap alatt elszabadult a pokol: kegyetlen rezsimet takart a nyugatbarát álca
- Trump háta mögött Ursula von der Leyen kiszervezte az Egyesült Államok mögül a világot
- A világ egyik legerősebb hatalma már a háborúra készül, ennek már látszanak a jelei
Portfolió menedzser
Mi kell még a tűzszünethez Ukrajnában?
Egyebek mellett erről is szó volt a szerdai Checklistben.
Krízisben a kávé: meddig drágulhat még a magyarok kedvence?
Nagy kérdés, hogy lehet-e jó minőségű kávét fenntartható módon előállítani.
Új fegyvert vet be a kormány az infláció ellen – Sikerülhet letörni a bolti árakat?
Erről is kérdeztük Török Zoltánt, a Raiffeisen Bank vezető elemzőjét.
Kiadó raktárak és logisztikai központok
A legmodernebb ipari és logisztikai központok kínálata egy helyen
Sikeres befektető online tanfolyam
Képes leszel megtalálni a számodra legmegfelelőbb befektetési terméket, miközben olyan gyakorlati stratégiákat sajátítasz el, amiket azonnal bevethetsz a sikeres befektetésekhez!
Divat vagy okosság? ETF-ek és a passzív befektetések világa
Fedezd fel az ETF-ek izgalmas világát, és tudd meg, miért válhatnak a befektetők kedvenceivé!