Miben jobb egyik vagy másik AI-modell, melyek azok a paraméterek, tulajdonságok, amelyeket érdemes figyelni?
Egyre kiélezettebb a nagy nyelvi modellek közötti verseny, ami nem csupán a problémamegoldást, a multimodális - nem csak szöveges, hanem kép és hang alapú – információfeldolgozást és a költséghatékonyságot is alapjaiban változtatja meg. Számos modellt adtak ki a 2025-ös év elején, ezek közül az OpenAI, Google és DeepSeek megoldásait érdemes megvizsgálni, melyek technológiai áttörést jelentenek.
Az OpenAI o3-mini modellje egy sokkal költséghatékonyabb megoldás lett, mint az előd o1-es modell, emellett kifejezetten világos, logikus gondolkodásra lett tanítva. A modell 200 ezer tokenes kontextusablakkal rendelkezik, ami azt jelenti, hogy így hosszú távú összefüggéseket, komplex tudományos kutatásokat és versenyszintű programozási feladatokat is hatékonyan tud megoldani. Az o3-mini kiválóan alkalmas olyan feladatok elvégzésére, amik esetében a precíz és strukturált gondolkodás elengedhetetlen.
A Google, legújabb zászlóshajója a, Gemini 2.0 egy teljesen új megközelítést használ, amellyel egyszerre képes feldolgozni akár több könyvnyi információt egyidejűleg. A modell – csak az összehasonlíthatóság kedvéért az előzőhöz képest - 1 millió tokenes kontextusablakkal rendelkezik, ami képessé teszi akár 1500 oldalnyi szöveg vagy 30 ezer sornyi kód egyidejű feldolgozására, és emellett képes hangot, képet vagy videót is kezelni, és integrálódik olyan Google-szolgáltatásokkal, mint például a kereső, térkép vagy a Youtube.
A DeepSeek januárban bemutatott R1 modellje egy nyílt forráskódú megoldás, melynek teljesítménye számos feladatban hasonló szinten van, mint versenytársaié. A modell 128 ezer tokenes kontextusablakkal rendelkezik, és 671 milliárd paramétert foglal magában. Azonban a DeepSeek által publikált dokumentum alapján ennek a modellnek a fejlesztési költségei jelentősen alacsonyabbak, mint a hagyományos zárt rendszerek esetében. A matematikai és adatelemzési képessége az egyik legjobb, viszont a nyelvi készségekben jelenleg gyengébb, mint versenytársai.
Hogyan érdemes tesztelni a modelleket?
A nagy nyelvi modellek tanítása során az internetes anyagok egy jelentős részét megismerhették már a modellek, így a tesztelésük során nagyon fontos, hogy olyan valós, változatos környezetben teszteljük őket, ahol képesek megmutatni a valódi teljesítményüket, és ne a memóriájukból dolgozzanak. Ehhez olyan összehasonlító platformot érdemes választani, amely rendszeres frissítésen esik át. Ilyen például a LiveBench.ai, ami több kategóriában is tesztel, legyen szó matematika, kódolás, logikai feladatok, nyelvi megértés utasítás követés és adatelemzés.
A kiértékeléseknek objektív módon kell történiük, előre meghatározott helyes válaszokon kell alapulniuk, és fontos elkerülni a szubjektív ítélkezést vagy a korábban a modell által látott adatokból származó hatásokat. Így biztosítható, hogy valódi általánosítható képességeket tükrözzön a teszt.
Ez a megközelítés megbízható és átfogó képet tud adni arról, hogy mennyire alkalmasak a modellek a valós problémák megoldására, és folyamatosan frissített feladatokkal nyomon követhető a fejlődésük is.
Milyen gyorsan fejlődnek az AI-modellek, mennyivel jobbak a ma elérhető szolgáltatások, mint a ChatGPT debütálásakor?
Az újabb architektúrák és a számítási kapacitás növekedése robbanásszerű fejlődést idézett elő a nagy nyelvi modellek fejlesztésében, amely messze meghaladja azt a technológiai szintet, amit a OpenAI ChatGPT 2022-es bemutatásakor tapasztaltunk. Míg akkoriban a GPT-3 modell 175 milliárd paraméterrel rendelkezett, addig ma már olyan új modellek jöttek létre, mint a DeepSeek-R1, mely 671 milliárd paraméterrel rendelkezik, ezáltal sokkal jobbak a modell képességeit a komplex mintázatok felismerésében és a kontextus mélyebb megértésében.
A fejlődés nem csak a modellek paraméterszámában érhető tetten, hanem abban is, hogy milyen típusú feladatokat képesek megoldani. A kezdeti ChatGPT szöveges adatokat volt képes feldolgozni, azonban az újabb modellek, mint például a Gemini 2.0, teljes mértékben multimodális megoldással rendelkeznek. Ez azt jelenti, hogy ezek a modellek képesek egyszerre kezelni szöveget, képet, hangot vagy akár videót is, ami új perspektívát nyit meg az üzleti kommunikációs és kreatív alkalmazások területén.
Ezen felül a modellek válaszideje is jelentősen csökkent a korábbiakhoz képest, eközben a bemeneti szöveg mennyisége hatványozottan több lehet. Az újabb modellek akár 1 millió tokent (vagyis számkombinációra fordított adategységet) is képesek egyszerre feldolgozni, mely lehetővé teszi, hogy sokkal hosszabb dokumentumokat, kódokat vagy komplexebb feladatokat dolgozzanak fel gyorsabban és hatékonyabban.

Mi alapján érdemes választani az AI-modellek közül, ha elsősorban vállalati célokra szeretnénk használni?
Vállalati szinten a nagy nyelvi modellek kiválasztása során az elsődleges szempont az adatbiztonság és kockázatkezelés. Elsősorban azt kell megvizsgálni, milyen jellegű adatokat adnánk át szolgáltatóknak, mint például az OpenAI vagy a Google. Ha érzékeny információk, illetve nem bizalmas jellegű adatokról van szó, akkor a lokális, vállalaton belüli megoldások mellett érdemes dönteni, viszont ezeknek megvannak a maguk korlátai.
Fontos számba venni, hogy míg a felhőalapú, nagy nyelvi modellek, mint az o3-mini vagy Gemini 2.0, jóval nagyobb pontossággot és gyorsabb válaszidőt biztosítanak, addig a lokális rendszerek kompromisszumot jelenthetnek a teljesítmény és válaszidő terén is.
Amikor hosszú dokumentumokkal kapcsolatban szeretnénk beszélgetni a mesterséges intelligenciával, akkor komoly korlátokba ütközhetünk a lokális megoldásokkal. Emellett a nyelvi támogatottság is döntő szerepet játszik, mivel a kisebb modellek gyakran csak angol nyelvre optimalizáltak, ami más nyelveken, mint például a magyar, jelentősen romló teljesítményt eredményezhet. A piac dinamikussága és az újabbnál újabb modellválaszték miatt a legjobb modell kiválasztása akár heti szinten is változhat, így a vállalatoknak folyamatosan figyelemmel kell követniük az aktuális fejlesztéseket.
Nagyot robbant, jelentős tőzsdei mozgásokat indított el, amikor leleplezték a kínai DeepSeek modellt. Mi okozta ezt a hype-hullámot? Mik az erősségei a DeepSeeknek és mitől más, mint a korábbiak?
A DeepSeek január közepén publikált modellje az R1 hatalmas turbulenciát idézett elő a piacokon. Az R1 modell kérdéseket vetett fel az Egyesült Államok vezető szerepével kapcsolatban, mivel egy sokkal olcsóbb és számos feladatban hasonló teljesítményt nyújtó modellt dobtak a piacra, ami ráadásul teljesen nyílt forráskódú (vagyis bárki hozzáférhet) is.A DeepSeek fejlesztői egy részletes technikai dokumentációt is publikáltak a modellről. Ha rendelkezünk a megfelelő infrastruktúrával, akkor azon futtatni tudjuk a DeepSeek-et lokálisan is.
A DeepSeek-R1 egy új generációs nagy nyelvi modell, amely nem csupán szövegek értelmezésére és generálására képes, hanem valódi „gondolkodó” képességeket is mutat.
A kulcs a modellben alkalmazott megerősítő tanulás, amely lehetővé teszi, hogy önállóan fejlessze megoldási stratégiáit – így nem csupán előre betanított sablont követ, hanem kitalálja a legjobb megoldást a problémára. Ez valódi áttörést jelent.
A technikai dokumentációja szerint a DeepSeek-R1 több szempontból is előrelépést jelent. Az új modell képes hosszú, részletes gondolatmeneteket generálni, ami azt jelenti, hogy a bonyolult feladatok megoldásakor lépésről lépésre gondolkodik, így sokkal pontosabb és megbízhatóbb válaszokat tud adni. A fejlesztők innovatív módon alkalmaztak ún. „cold start” adatokat, amelyek elősegítik a modellt a kezdeti tanulási fázisban, hogy válaszai olvashatóbb és felhasználóbarátabbak legyenek. Ennek köszönhetően nemcsak a szakmai benchmarkokon teljesít kiemelkedően, hanem a mindennapi felhasználásban is könnyebben érthető.
A DeepSeek-R1 modellnek bár számos előnye van, azonban korlátai is megjelennek. A modell bár erős a matematikai és logikai gondolkodásban, néhány területen – például a több lépéses párbeszédekben, összetett szerepjátékokban vagy strukturált JSON válaszok előállításában – még nem éri el az alapmodell teljesítményét. Emellett a nyelvi keveredés is problémát okozhat, mert a modellt elsősorban kínai és angol nyelvre optimalizálták, így más nyelvek esetén előfordulhat, hogy a válaszokban keveredik a nyelvhasználat.
A címlapkép illusztráció. Címlapkép forrása: Getty Images
A cikk elkészítésében a magyar nyelvre optimalizált Alrite online diktáló és videó feliratozó alkalmazás támogatta a munkánkat.