Az LLM-ek technikai háttere

1. fejezet: Adatgyűjtés és előfeldolgozás

Fodor Tamás írása

Ez a cikksorozat Andrej Karpathy LLM-ekről (Large Language Model – nagy nyelvi modellek) tartott előadásán alapul. Karpathy, aki korábban a Tesla mesterséges intelligencia részlegét vezette és az OpenAI egyik alapítója volt, részletesen bemutatja a ChatGPT-hez hasonló rendszerek működését. Az előadás végigvezet minket azon az úton, amely a nyers internetes szövegektől az intelligens AI-asszisztensekig vezet.

A sorozat további részei: Tokenizáció • Neurális hálózatok • Tanítási folyamat • Következtetés • Utótanítás • Fejlett képességek • Értékelés és telepítés

Az LLM-ek alapja

A mai LLM-ek működésének alapja egy látszólag egyszerű, de komplex folyamat: az interneten található szövegek módszeres összegyűjtése és feldolgozása. A ChatGPT-hez hasonló rendszerek intelligenciája nem előre beprogramozott tudástárakból származik, hanem az emberi kommunikáció digitális nyomainak statisztikai elemzéséből.

A fejlesztőcégek speciális webböngésző robotokat használnak, amelyek módszeresen végigpásztázzák az internet szöveges tartalmait. Ezek a robotok hírportálokat, tudományos cikkeket, oktatási anyagokat, szakmai fórumokat és dokumentumokat gyűjtenek össze. A modern adathalmazok, mint például a FineWeb, 44 terabájtnyi szöveget tartalmaznak – ez körülbelül 15 billió tokennek felel meg.

Hogy érzékeljük a méreteket: ha valaki másodpercenként egy tokent tudna feldolgozni, közel félmillió évébe telne egyetlen ilyen adathalmaz teljes átnézése. Ez lényegében az emberiség digitálisan rögzített tudásának összességét foglalja magában.

Szövegfeldolgozás és tartalomkinyerés

A weboldalak letöltése után következik a hasznos tartalom elkülönítése a navigációs elemektől és a reklámoktól. Minden weboldal összetett szerkezet, ahol az értékes szöveges információ navigációs gombok, hirdetések, hozzászólások és különféle kiegészítő adatok között rejtőzik.

A feldolgozás során okos algoritmusok azonosítják és nyerik ki a fontos tartalmakat. Ehhez olyan rugalmas elemző rendszerekre van szükség, amelyek különböző tartalomkezelő rendszerek és weboldal-felépítések esetén is jól működnek. A nehézséget az jelenti, hogy minden platform más-más szerkezettel rendelkezik, mégis egységesen kell őket kezelni.

A sikeres kinyerés után a különböző forrásokból származó szövegek egyetlen nagy adatfolyammá állnak össze. Egy kvantumfizikai Wikipedia-szócikket követhet egy receptes fórumbejegyzés, majd egy klímaváltozásról szóló hír és egy programozási útmutató. Ez az “emberi kommunikáció hatalmas szövetét” alkotja, amely tükrözi beszédünk és írásunk sokszínűségét.

A számokká alakítás kihívásai

A neurális hálózatok csak számokkal tudnak dolgozni, ezért minden szöveget matematikai formába kell alakítani úgy, hogy közben megőrizzük a jelentését. Kézenfekvő lenne az UTF-8 karakterkódolást használni, ahol minden betűt egyedi bitsorozat jelöl.

Ez a megoldás azonban számítási szempontból túl költséges. Az UTF-8 kódolás nagyon hosszú bitsorozatokat eredményez, amelyek feldolgozása neurális hálózatokkal túl sok erőforrást igényelne. A cél az, hogy megtaláljuk az optimális egyensúlyt a szótár mérete és a sorozatok hossza között.

A karakterszintű ábrázolás kis szótárat használ (100-200 jel), de hosszú sorozatokat eredményez. A szószintű megközelítés teljes szavakat kezel önálló egységként, ami 50-100 ezer elemű szótárat jelent, viszont gondot okoz a ritka szavak és a ragozott alakok kezelése. A mai megoldás az úgynevezett részszavas módszer, amely szótöredékeket használ építőkockákként – ez adja a legjobb egyensúlyt a két megközelítés között.

Adatszűrés és minőségellenőrzés

Az interneten található tartalmak nem mind alkalmasak fejlett AI-rendszerek tanítására. A feldolgozás során alapos szűrést végeznek, hogy kiszűrjék azokat a tartalmakat, amelyek rontanák a teljesítményt vagy nem kívánt viselkedéshez vezetnének.

Fontos az ismétlődő tartalmak felismerése és eltávolítása, mert ha ugyanazon szövegeken többször tanul a rendszer, akkor csak bemagol ahelyett, hogy a valódi mintákat ismerné fel. Személyes adatok, elérhetőségek és érzékeny információk törlése adatvédelmi szempontból elengedhetetlen. A legnehezebb feladat azonban a tartalmi minőség megítélése: ki kell szűrni a nyelvtanilag helyes, de gyenge minőségű, elfogult vagy félrevezető szövegeket.

A tanítóadatok minősége közvetlenül meghatározza, hogy az AI-rendszer milyen jó lehet. Az LLM csak olyan okos és képzett lehet, amilyen minőségű szövegeken tanították. Amikor a ChatGPT fizikai jelenségeket magyaráz, olyan tankönyvekre, kutatási cikkekre és oktatási anyagokra támaszkodik, amelyek benne voltak a tanítóadataiban. Programkód írásakor pedig a nyílt forráskódú programtárakból és műszaki dokumentációkból tanult mintákat használja.

Műszaki és infrastrukturális kérdések

A teljes folyamat óriási műszaki kihívást jelent. Webböngésző robotokat kell építeni, amelyek milliónyi oldalt tudnak feldolgozni, elemző algoritmusokat kell fejleszteni különböző webformátumokhoz, és terabájtnyi szöveget kell olyan formába rendezni, amely alkalmas a neurális hálózatok tanítására.

Ez az infrastruktúra működik a háttérben, miközben nap mint nap milliárdnyi felhasználó használja az AI-rendszereket. Minden ChatGPT-beszélgetés mögött ott van ez a hatalmas adatgyűjtési, tisztítási és feldolgozási gépezet.

A nagy mennyiségű adat feldolgozása olyan tulajdonságokat hoz létre, amelyeket senki sem programozott be közvetlenül. Az emberi szövegek 15 billió tokenjében rejlő minták a neurális hálózati feldolgozás során érvelési és kommunikációs képességeket hoznak létre. Az adatgyűjtési folyamat megértése kulcsfontosságú ahhoz, hogy megértsük, hogyan válik az emberiség közös tudása intelligens rendszerekké.

Következő lépések

Az adatgyűjtés és előfeldolgozás megteremti az AI alapanyagát, de ez csak az első lépés egy összetett folyamatban. A következő fontos szakasz a tokenizáció: a gondosan előkészített szövegek olyan speciális számsorozatokká alakítása, amelyekkel a neurális hálózatok dolgozni tudnak.

A következő fejezetben részletesen megnézzük, hogyan alakul át a “Hello world” kifejezés számokká, és hogy ezek a látszólag technikai döntések milyen mélyen befolyásolják az AI-rendszerek nyelvi megértési és szövegalkotási képességeit.

A sorozat további részei: Tokenizáció • Neurális hálózatok • Tanítási folyamat • Következtetés • Utótanítás • Fejlett képességek • Értékelés és telepítés