Egyre erősebb a mesterséges intelligencia, most kiderült, hogyan boldogul a magyar kompetenciamérések feladataival
Gazdaság

Egyre erősebb a mesterséges intelligencia, most kiderült, hogyan boldogul a magyar kompetenciamérések feladataival

Portfolio
Az AI-modellek piacán különösen nagy a verseny az egyes megoldások között. A gyártók sorra adják ki a korábbiaknál erősebb nagy nyelvi modelljeiket, amelyek erejét különféle benchmarkok segítségével mérik. Néha azonban ezek a tesztek nehezen értelmezhető kritériumok mentén határozzák meg egy-egy új modell erejét, a pontszámok ezáltal nehezen fordíthatóak le valós problémamegoldó képességre. A PeakX szerdai sajtóeseményén a ma legnépszerűbbnek számító AI-modellek erejét, Magyarország oktatási kontextusában tesztelték le, az országos iskolai kompetenciamérések feladatainak segítségével. Bár a mesterséges intelligencia jelenleg az egyik legfontosabb technológiai iparágnak számít és nagy fejlődésen mentek keresztül a különféle nyelvi modellek, a valós oktatási környezetben felmerülő problémákkal gyakran még mindig meggyűlik a bajuk.
2025. május 6-án újra körüljárjuk, hogyan hat a LegalTech és a DigitalCompliance a versenyképességre és melyek a digitális térben való vállalati jelenlétet meghatározó legfontosabb jogi-szabályozási területek.

Az AI-benchmarkok jó viszonyítási alapok lehetnek, de nem a valós életbeli problémákra fókuszálnak

Amikor egy gyártó piacra dobja legújabb AI-modelljét, a leggyakrabban felmerülő kérdés általában, hogy az adott modellek hogyan teljesítenek más fejlesztők termékeihez képest a különböző feladatok megoldása terén. Ezen összehasonlítások során a modellek erejét különféle benchmarkok segítségével mérik össze, amelyek különféle tudományterületekről származó feladatokkal tesztelik azok képességeit.

Ezen tesztekkel szemben azonban számos kritika hozható fel. Sajtos István, a PeakX Innovációs igazgatója a vállalat szerdai sajtóeseményén elmondta, hogy szerintük a legtöbb ilyen benchmark "laborkörülmények között" képes csak tesztelni a modellek képességeit, nem a valós, mindennapi problémák esetében. Ezen felül, szerinte azért is érdemes fenntartásokkal kezelni ezeket a teszteket, mert akár az is előfordulhat, hogy egyes modellek tanuló adatbázisában már a benchmarkok tesztkérdéseinek válaszai is szerepelhetnek.

AI benchmark eredmények
A vezető AI-modellek teljesítménye a piacon legelterjedtebb benchmarkok mérései alapján. Kép forrása: PeakX

Hogyan teljesítenek az AI-modellek a magyar oktatásban is felmerülő problémák terén?

A PeakX egy az eseményen bemutatott kísérlettel próbálta meg más megközelítésből mérni a modellek teljesítményét; a vezető AI-fejlesztők modelljeit a magyar közoktatásban a 6., 8. és 10. osztályos tanulók körében végzett kompetenciamérési feladatsorok kérdéseivel tesztelték le.

A vállalat előzetes hipotézise szerint

mivel a kompetenciatesztek jellemzően nem a tankönyvi tudását mérik a diákoknak, hanem a tananyagon alapuló, önálló gondolkodást igénylő feladatokat tartalmaznak, képesek lehetnek az AI-modellek képességeit valós, hétköznapokban is előforduló feladatokban mérni.

Szerintük, egyes modellek nem mérhetőek pusztán benchmarkokkal, ugyanis azok a komplexebb, emberek számára is gondolkodást igénylő feladatokban gyakran elakadnak.

A valós időben lefuttatott kísérlet során egy a PeakX által kifejezetten arra a célra kifejlesztett AI-ügynök (agent) adott meg feladatokat az összes vizsgált modellnek a kompetenciamérési feladatsorok 5 témakörében (matematika, szövegértés, történelem, természettudomány és digitális kultúra). Ezt követően a modellek válaszait egy másik, AI-ügynök értelmezte

A tesztek során a Peak saját kompetenciatesztjével

  • az OpenAI,
  • az Antrophic,
  • az Elon Musk által tulajdonolt xAI,
  • a Google,
  • valamint a francia Mistral AI-modelljeit hasonlították össze.
AI-modellek teljesítménye a kompetenciafeladatokban
Egyes AI-szolgáltatók számszerűsített teljesítménye a kompetenciafeladatok terén. Kép forrása: PeakX

A teszt során a PeakX százalékos formában adta meg, hogy egyes modellek milyen pontossággal válaszoltak a kompetenciamérési feladatsorok kérdéseire. Ezen felül a tesztek azt is megmutatták, hogy egyes modellek milyen költségek mellett és mennyi idő alatt voltak képesek megoldani a problémákat.

A végeredmények tekintetében elmondható, hogy a tesztek győztese az OpenAI O1-es modellje volt szinte az összes témában.

A kaliforniai gyártó modellje a "reasoning modellek" közé tartozik, amely azt jelenti, hogy a rendszer a válaszadás előtt több ideig gondolkodik a megoldáson ezáltal képes a bonyolultabb feladatok végiggondolására is. Ez nagy előnyt jelent különösen a matematikai feladatok esetén.

AI-modellek összehasonlítása kompetenciamérés alapján
Kép forrása: PeakX

Említésre méltó még a teszteredmények alapján az Antropic Claude Sonnet 3.7-es modellje is, amely az O1 eredményeitől nem maradt el számottevő mértékben, azonban az átlagköltések tekintetében jóval hatékonyabban volt képes választ adni a kérdésekre.

A vállalat közleménye szerint a többi modell jelentős megkötésekkel alkalmazhatóak csak a komplexebb problémák terén. Az xAI Grok2 modellje például rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített. A Google Gemini 2.0 kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt. Az elmúlt időszakban jelentős figyelmet kapó kínai DeepSeek modelljei ugyan olcsók és gyorsak, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, így a kompetenciamérés képi feladataival nehezen birkózik meg.

A vállalat szerint a költséghatékonyság fontos szempont a modellek alkalmazhatósága terén; bizonyos feladatok esetén még a modell összesített tudásánál is fontosabb tényező lehet.

A tesztek alapján Sajtos István elmondta, hogy az AI-modellek alkalmazása alapvetően a

a humán intelligenciából képes kihozni a legtöbb potenciált, de nem helyettesíti teljes mértékben az emberi gondolkodást.

Integrált modellek vállalati környezetben

A PeakX vezetője a teszteket követően arra is rávilágott, hogy vállalati környezetben ugyan sok felhasználási területe mutatkozik meg az AI-modelleknek, a rendszerek integrációját számos akadály nehezíti. Ezek közül az egyik legnagyobb, hogy még mindig kevés a bizalom az AI-ban és az egyre növekvő AI iparágban még mindig kevés a hozzáértő szakember.

Problémás továbbá még, hogy a modelleket fix adatbázisokon tanítják, amely nem biztos, hogy egyes konkrét, vállalatokat érintő problémákra képes választ adni, egyes esetben pedig a modell akár légből kapott válaszokat is adhat. Az aggályok megoldására a PeakX a RAG (Retrieval Augmented Generation) megközelítést alkalmazza, amellyel a már említett nagy nyelvi modelleket (például az OpenAI termékeit) alapul véve képesek olyan AI-rendszereket létrehozni, amelyek lekorlátozzák a nagy nyelvi modellek képességeit, hogy az csak a megadott eszköztár és háttéranyag segítségével adjon megoldást a problémákra.

Ennélfogva, ha a rendszer olyan kérdést kap, amelynek helyes megválaszolásához nincs megfelelő tudása, azokra a modell egyszerűen azt a választ adja, hogy nem képes rá válaszolni. Ha azonban megvan hozzá a megfelelő tudása, akkor a legoptimálisabb eszközök segítségével oldja meg a problémát.

A címlapkép illusztráció. Címlapkép forrása: Getty Images

Kiszámoló

Mennyire lehet jó egy 19 dolláros eper?

Nagyot megy most egy eper. egy szemet(!) adnak 19 dollárért, igaz, szépen becsomagolva. Az emberek pedig veszik, mint a cukrot, mert bár drága, de annyira finom, hogy minden pénzt megér. Az egyik am

Holdblog

A Fogtündér is megszorít

Cudarul alakul a tejfogpiac az elmúlt időszakban, a Fogtündér sem kerülhette el a gazdasági viharokat, zsinórban második éve csökken a kiesett fogakért járó juttatás. Pedig... The post A Fogt

FRISS HÍREK
NÉPSZERŰ
Összes friss hír
Itt a nagy bejelentés: megállapodott egymással Ukrajna és az Egyesült Államok, jelentős lépés a béke felé

Portfolió menedzser

Portfolió menedzser
Portfolio Retail Day 2025
2025. április 2.
Biztosítás 2025
2025. március 4.
Agrárium 2025
2025. március 19.
Portfolio Construction Industry 2025
2025. március 27.
Hírek, eseményajánlók első kézből: iratkozzon fel exkluzív rendezvényértesítőnkre!
Portfolio hírlevél

Ne maradjon le a friss hírekről!

Iratkozzon fel mobilbarát hírleveleinkre és járjon mindenki előtt.

Kiadó raktárak és logisztikai központok

A legmodernebb ipari és logisztikai központok kínálata egy helyen

Tanfolyam

Sikeres befektető online tanfolyam

Képes leszel megtalálni a számodra legmegfelelőbb befektetési terméket, miközben olyan gyakorlati stratégiákat sajátítasz el, amiket azonnal bevethetsz a sikeres befektetésekhez!

Díjmentes előadás

Divat vagy okosság? ETF-ek és a passzív befektetések világa

Fedezd fel az ETF-ek izgalmas világát, és tudd meg, miért válhatnak a befektetők kedvenceivé!

Ez is érdekelhet