Egy friss kutatás szerint az interneten elérhető tartalmak több mint 75 százalékát már botok és mesterséges intelligencia (AI) generálja. Az elemzés során több millió weboldalt és online platformot vizsgáltak, beleértve közösségi médiát, blogokat, fórumokat és hírportálokat is. A kutatók rámutattak, hogy az AI-alapú rendszerek gyors fejlődése, például a nyelvi modellek és tartalomgeneráló algoritmusok, jelentős mértékben hozzájárultak ehhez a drámai átalakuláshoz.
A tanulmány külön hangsúlyozza, hogy a mesterségesen generált tartalmak túlnyomó része nemcsak reklám- vagy marketingcélokat szolgál, hanem információszerzési és akár dezinformációs kampányok eszköze is lehet. Az AI által írt szövegek gyakran annyira hitelesnek tűnnek, hogy az emberek számára nehéz megkülönböztetni őket a valódi, emberi szerzőktől származó tartalmaktól.
Ez a tendencia komoly kérdéseket vet fel a digitális környezet hitelességével és az információk megbízhatóságával kapcsolatban.
A kutatás eredményei rávilágítanak arra is, hogy az AI-alapú tartalomgyártás növekedésével új etikai és technológiai kihívások merülnek fel. Szakértők szerint sürgősen szükség van olyan eszközökre, amelyek képesek azonosítani az AI által létrehozott anyagokat, valamint a szabályozási keretek kiépítésére, amelyek korlátozhatják a mesterséges tartalmak negatív hatásait. Mindeközben az embereknek is fokozott éberséget kell tanúsítaniuk az online információk értékelésekor, hogy elkerüljék a manipulációt és félrevezetést.
De a legmegdöbbentőbb a fenti kutatással kapcsolatban, hogy:
EGYÁLTALÁN NEM LÉTEZIK, EGY SZÓ SEM IGAZ BELŐLE, CSAK A CHATGPT ÁLLÍTOTTA ELŐ, MÉGIS TELJESEN HITELESNEK TŰNIK, pedig csak annyit kértem, hogy írjon nekem három bekezdést a témában.
Mielőtt itt abbahagyná a cikk olvasását, azt tudnia kell, hogy a veszély valós: az internet évek óta haldoklik, és a nagy nyelvi modellek térhódításával a haláltusa csak egyre látványosabb és gyorsabb lesz.
Valójában már most sem tudjuk, hogy nem egy teljesen kietlen, egymással beszélgető algoritmusok előállította tartalommal feltöltött interneten bolyongunk, ahol azt sem vesszük észre, hogy egyre inkább elszakadt a valóságtól, mindaz, amit olvasunk és látunk.
A Chatgpt-hez hasonló generatív nyelvi modellek önmaguk farkába harapó kígyóként a saját maguk által előállított valótlan tartalmakból gyártanak válaszokat akkor is, ha tényleg precizitásra törekszenek. Így egy teljesen fiktív, szennyezett adatokkal teli hazugsághalom vár ránk nem is olyan sokára.
Az internet egyre nagyobb része teljes szemét
Nem születhet újabb apokalipszisváró cikk a „régen minden jobb volt” nosztalgiája nélkül, így muszáj megemlékezni az internet hőskoráról. Már arról a korszakról érdemes beszélni, amikor nem pusztán egy egyetemek és katonai bázisok közötti hálózat volt, főként akadémiai adatbázisok elérhetőségét biztosítva, hanem azt a korszakot, amikor a '90-es években robbanásszerűen kezdtek el szaporodni a civil felhasználók a világhálón. Az őskor, amikor az emberek maguk állíthattak elő weboldalakat, amelyek jellemzően saját magukról, vagy a hobbijaikról szóltak.
Persze a múltidézést beárnyékolja, hogy már az első tömegfelhasználási korszakban megjelentek a pedofil, csaló és fajgyűgyűlölő oldalak és tartalmak, de az internet még ezzel együtt is egy őszintébb és tisztább hely volt.
Ugyanakkor a weblapokat a közösségek tartották fenn a forgó, színes gifekkel, Times New Romannal írt szövegekkel együtt, ha pedig eltűntek az érdeklődők, a weboldalak is az enyészetté lettek. Leginkább csak szájhagyomány útján terjedtek a hírek az izgalmasabbnál izgalmasabb új portálokról, weblapokról. Ha pedig valaki rábukkant valamire, tudta, hogy azt egy ember írta, mégha a felhasználók hol teljesen értelmetlen, hol viccesnek szánt álnevek mögé bújtak (soha nem felejtünk el Sir Telen! - a szerk.).
Ebben a vadnyugati szabadságromantikával színezett korszakban a legidegesítőbb jelenség a spam volt: az első dokumentált ilyen üzenetküldés 1978. május 3-án történt, amikor az ARPANET-en, az internet elődjén, egy Gary Thuerk nevű marketinges tömeges e-maillel bombázta meg a rendszer összes felhasználóját azzal a céllal, hogy egy új terméket, a DEC (Digital Equipment Corporation) VAX számítógépeit népszerűsítse.
A spam aztán átlépett egy új korszakba: teljesen értelmetlen álhírek, összeesküvés-elméletek kezdtek el landolni az első emailfiókokban, amiknek semmi közük nem volt a valósághoz.
Biztosan nem ez volt az első vakhülyeség az interneten, de az első dokumentált álhír az 1994-ben terjedő „Good Times” nevű hoax volt: ekkor a korai felhasználók többségéhez eljutott az az álhír, hogy ha valaki megnyitja a Good Times tárggyal érkező e-mailt, az súlyosan megfertőzi a számítógépet, és helyrehozhatatlan károkat okoz.
Ez a spamtípus pedig már jó ugró deszka napjainkba, amikor az interneten egyre több az ilyen szemét, amit már nem is emberek állítanak elő, és fertőzésként ölik meg az AI-forradalmat.
Az adatminőség romlásával az AI egyre veszélyesebb lesz
A nagy nyelvi modellek, mint a ChatGPT vagy a Gemini népszerűsége egyre nagyobb, az „optimista jóslatok” pedig azt várják, hogy több millió munkahelyet válthatnak ki a közeli jövőben, mert az embereknél is gyorsabban elláthatnak olyan feladatokat, mint az ügyfelek kezelése, adatgyűjtés tudományos kutatásokhoz, vagy a mérnöki tervezésekhez. De másfajta neurális hálózatoktól (ezek valójában a mesterséges intelligenciák) például azt remélik, hogy olyan kényelmi szolgáltatásokat hoznak el nekünk, mint az önvezető járművek vagy az autonóm gyógyszervegyületeket kutató algoritmusok.
A probléma alapja viszont az, hogy elképesztő mennyiségű adat kell ahhoz, hogy a mesterséges intelligenciákat betanítsák akár a szöveggenerálásra, akár a KRESZ-szabályok, forgalmi helyzetek felismerésére.
Mindehhez pedig tiszta, jó minőségű adatok kellenek, ami viszont szépen lassan egyre kevesebb van az interneten.
Egy példával leírva a problémát, elég csak az önvezető autókra gondolni: ahhoz, hogy egy algoritmus biztonságosan szállítsa az utasait bárhol a világon, fel kell ismernie a KRESZ-táblákat, ismernie kell az adott ország forgalmi szabályait. A fejlesztők ilyenkor nagy adatbázisokat használnak fel, például a Google Maps szolgáltatás képeit, hogy megtanítsák a rendszernek, hogyan néz ki egy behajtani tilos, vagy sebességkorlátozást jelző tábla. Ezt aztán valós körülmények között egy képfeldolgozó algoritmus értelmezi és kiadja az utasítást a motorvezérlésnek, hogy lassítson vagy álljon meg az autó.
Azonban ha a betanításkor rossz minőségű adat kerül a rendszerbe, akkor az autó egy 30-as táblát 80-asnak is értelmezhet, így lassítás helyett gyorsítani kezd.
A módszer mostanra egyáltalán nem más a Chatgpt-hez hasonló szöveggeneráló, válaszokat adó rendszereknél sem, csak itt az adatforrás mostanra már az egész internet. Ha egy egyetemi hallgató például forrásanyagot keres a dolgozatához, ami az AI által generált internetes tartalmakról szól, jó eséllyel ezután belefut a cikk első három bekezdéséhez gyártott teljesen fiktív kutatásba.
Az adathalmazt tehát sikeresen beszennyeztük egy mesterséges intelligencia által generált tartalommal.
Hogy a probléma teljesen valós, azt maga a ChatGPT-t fejlesztő OpenAI alapítója, Ilya Sutskever jelentette ki egy decemberi konferencián, hogy elfogyott a jó minőségű adat az interneten és nem lesz több belőle. A tavaly decemberi Neurips éves rendezvényén tartott beszédében azt mondta
az interneten található összes hasznos adatot már felhasználták a mesterséges intelligencia modellek betanítására.
Eddig pont az internetes adatok feldolgozása hozott javulást a ChatGPT-hez hasonló rendszerek által adott válaszok minőségénél, azonban a folyamat mostanra lelassult, és Sutskever szerint ennek a korszaknak hamarosan „kétségtelenül vége lesz”.
Miért pesszimista az OpenAI szakértője? Mert a jelenlegi nagy nyelvi modellek valójában csak mimikálják azt, hogy érvelnek, valójában korábban látott mintákból állítanak elő válaszokat az emberek által feltett kérdésekre, a válasz tehát pont olyan lesz, mint a minta. Ha a minta hülyeség, a válasz is hülyeség – legalábbis erre a logikus következtetésre jutott Ilia Shumailov, az Oxford Egyetem kutatója tavalyi kutatásában.
A minta pedig maga az AI által előállított sületlenség egyre nagyobb mennyiségben.
Erről valódi kutatások is készültek:
-
Az Amazon Web Services kutatócsoportjának tavaly júniusban közzétett külön tanulmánya szerint az összes webes szöveg nagyjából 57%-a mesterséges intelligencia által generált vagy AI-algoritmus segítségével lefordított szöveg.
-
A 2024-es Imperva által készített Bad Bot Report szerint az internetes forgalom 49,6%-át tették ki botok 2023-ban, ami 2%-os növekedést jelent az előző évhez képest, és a legmagasabb érték a jelentések kezdete óta (2013). Ezen belül a rosszindulatú botok aránya 32%-ra nőtt, míg az emberi forgalom 50,4%-ra csökkent. A generatív AI technológiák elterjedése, különösen a web-scraping és az automatizált szkriptek, tovább növelte az egyszerű botok arányát (39,6%-ra a 2022-es 33,4%-ról).
Mindezt pedig a felhasználók is tapasztalhatják, akik a Google-keresőben egyre többször futnak bele a dísznövények gondozásától kezdve egészen a háztartási eszközök műszaki hibáin át az egyes egészségügyi tartalmakra vonatkozó teljesen magyartalan, gépi fordítóval összedobott weboldalakkal. Ezek legnagyobb része nem rossz indulatú tartalom, a leggyakrabban autentikus forrásokat használtak fel hozzájuk, de pusztán azt a célt szolgálják, hogy a keresőoptimalizált szövegek miatt az oldalakat megnyissák, az ott lévő hirdetések után pedig a weblap üzemeltetője pénzt keressen. Az AI pedig a leggyorsabb módja, hogy tartalommal töltse fel az oldalt különböző nyelveken így növelve a potenciálisan elérhető felhasználói bázist.
A mesterséges intelligenciák képesek egymással kommunikálni is, így akár egy algoritmus utasíthat egy nagy nyelvi modellt, hogy a Google Trends szerint éppen leginkább pörgő kifejezésekre állítson elő tartalmat, majd azokat egy másik algoritmusnak küldi tovább, ami feltölti egy weboldalra, egy negyedik pedig még képet is generálhat ahhoz.
A gond az, hogy egy később a versenyhez csatlakozó AI már ezekből a silányabb tartalmakból fog dolgozni, még gyengébb minőségű szöveget előállítva. A sor pedig a végtelenségig folytatódik, mint a suttogós játékban, ahol az utolsó emberhez az eredeti üzenet egy teljesen torzult változata köszön vissza.
Megoldás látszik, csak nem tudjuk, hogy akarjuk-e
A nagy nyelvi modellek fejlesztői természetesen tisztában vannak ezzel a problémával, a már idézett OpenAI-alapító Sutskever szerint létezik is megoldás a problémára.
Úgy véli, hogy a válasz a kihívásra az AI új generációinak képességeiben rejlik, különösen az autonóm ügynöki rendszerek (agentic systems) fejlesztésében. Ezek a rendszerek képesek lesznek önállóan feladatokat végrehajtani, döntéseket hozni és szoftverekkel interakcióba lépni. Az ilyen rendszerek nem csupán a meglévő mintázatokat ismétlik, hanem valódi érvelési képességgel rendelkeznek majd, lehetővé téve számukra, hogy lépésről lépésre dolgozzák fel a problémákat, ami közelebb áll az emberi gondolkodáshoz. Ez az autonóm és érvelési képesség csökkentheti az adatigényt, hiszen ezek a rendszerek kevesebb adatból is megértenek összetett helyzeteket.
Leegyszerűsítve, saját háttértudásuk lesz, ami alapján elkezdik átgondolni az adott helyzeteket, adatokat, és az alapján lépnek tovább a megadott parancsok szerint.
Egyelőre viszont a nagy nyelvi rendszerek nem így működnek, és amíg ez nem változik meg, méltó kihívói maradnak az emberiségnek a megtévesztő tartalmak és hülyeségek gyártásában.
Így jutunk vissza az internet ezüstkorához, amikor 2019-ben megjelent a 4chan felületén a halott internet elmélet (Dead Internet Theory). Az összeesküvés-elmélet lényege, hogy nagyjából 2015 óta az internet jelentős része valójában nem valódi emberek által generált tartalom, hanem mesterséges intelligenciák és automatizált botok által létrehozott hamis információk és interakciók halmaza. A teóriát akkor semmilyen tudományos igényességű módszertannal vagy kutatással, méréssel nem támasztották alá, ezért inkább netes viccek alapja lett, mint elfogadott igazság.
Akkor túlzónak tűnt az állítás, de mostanra már egy AI is alkothatna egy hasonló elméletet anélkül, hogy sokan gyanakodni kezdenének.
A cikk végére érve pedig tegye fel magának a kérdést, van kedve végigellenőrizni az összes linket és állítást, amit olvasott, vagy elfogadja, hogy mindez igaz volt, amit egy húsvér ember írt!
A címlapkép illusztráció. Címlapkép forrása: Getty Images