Az InstructGPT áttörése: Amikor az AI végre megtanult parancsokat fogadni

Így oldotta meg az OpenAI a mesterséges intelligencia egyik legnagyobb gondját emberi tanítással

Fodor Tamás írása

A GPT-3 megjelenésekor mindenkit lenyűgözött a szöveggenerálási képessége, de volt egy nagy baja: ritkán csinálta azt, amit a felhasználó akart. Kértél tőle egy történetet, ő meg történet ötleteket sorolt fel. Összefoglalást akartál, ő meg nekiállt folytatni az eredeti szöveget. Ez a szakadék a felhasználói szándék és az AI viselkedése között a legnagyobb akadálya volt annak, hogy a nagy nyelvi modellek tényleg hasznosak legyenek.

Itt jött képbe az InstructGPT – az OpenAI megoldása, ami teljesen átformálta, hogyan tanítunk segítőkész, őszinte és biztonságos AI rendszereket.

Silurus AI teaching

Hibás célok

Nem az volt a baj, hogy a GPT-3 gyenge lett volna – helyesen jósolta meg a szövegek folytatását. De hatalmas különbség van a “találd ki, mi jön ezután az internetes szövegben” és a “segíts a felhasználónak biztonságosan elérni a célját” között. Ezen eltérés miatt olyan modelleket kaptunk, amik ugyan lenyűgöző szövegeket írtak, de nem egyeztek a felhasználó szándékával.

A hagyományos nyelvi modellek arra specializálódtak, hogy statisztikailag valószínű folytatásokat generáljanak, nem arra, hogy tényleg hasznosak legyenek. Mintha egy szakácsot úgy tanítanál, hogy mindig azt főzze, ami a leginkább hasonlít a korábban szagolt ételekre, ahelyett hogy azt tanítanád meg neki, amit az emberek tényleg enni akarnak.

Emberi visszajelzésekből tanulás

Az OpenAI áttörése egy háromfázisú tanítási módszerben rejlett, ami közvetlenül emberi visszajelzésekből tanította meg a modelleket parancsok követésére:

Első fázis: Irányított finomítás A csapat emberekkel íratott jó példákat arra, hogyan kell különféle kérésekre reagálni. Ezután ezen gondosan összeválogatott példákon finomították a GPT-3-at, gyakorlatilag megmutatva neki, mi számít jó parancskövetésnek.

Második fázis: Értékelő modell készítése Ezután egy külön “értékelő modellt” tanítottak be: ugyanarra a kérésre több AI-választ mutattak, és emberekkel rangsoroltatták őket. Ez a modell megtanulta kitalálni, melyik választ részesítik előnyben az emberek.

Harmadik fázis: Megerősítéses tanulás Végül az értékelő modell segítségével tovább tanították a nyelvi modellt megerősítéses tanulással. Az AI megtanult olyan válaszokat generálni, amiket az emberek jónak tartanának, vagyis tényleg azt optimalizálta, amit az emberek akarnak, nem csak azt, ami statisztikailag valószínű.

Kicsi modell, nagy teljesítmény

Az 1,3 milliárd paraméteres InstructGPT modell rendszeresen verte a 175 milliárd paraméteres GPT-3-at emberi értékelésekben – pedig 100-szor kisebb volt. Már nem a paraméterek száma döntött, hanem az, mennyire van összhangban az emberi szándékkal.

Az emberi értékelők 85%-ban találták jobbnak az InstructGPT válaszait a GPT-3-énál, és ez nem csak szubjektív benyomás volt. Az InstructGPT modellek mérhető javulást mutattak:

  • Igazmondás: Majdnem kétszer olyan jól teljesített az igazságot kereső teszteken
  • Pontos követelmények betartása: Sokkal jobban betartotta a formázási vagy hosszúsági előírásokat
  • Kevesebb toxicitás: 25%-kal kevesebb káros kimenetet produkált, ha udvariasságra kérték
  • Utasításkövetés: Drasztikusan javult abban, hogy a megfelelő feladatot próbálja megoldani

A legfontosabb, hogy ezek a javulások alig rontottak a hagyományos nyelvi feladatokon mért teljesítményen, bizonyítva hogy az emberi igényekhez igazítás nem jár képesség vesztéssel.

Mit jelent ez az iparágnak?

Az InstructGPT több mint technikai siker – ez paradigmaváltás az AI fejlesztésben. A kutatás több kulcsfontosságú tanulsággal szolgál:

Megéri: Az emberi visszajelzés költsége töredéke volt az eredeti modell tanításának, mégis óriási javulást hozott a hasznosságban. Ez azt jelenti, hogy ezekbe a technikákba fektetni kivételes megtérülést hoz.

Skálázható: A módszer működik különböző modell méretekre, és úgy tűnik, olyan feladatokra és nyelvekre is általánosítható, amik nem voltak benne a tanításban, tehát könnyen skálázható.

Validált: A sok akadémiai benchmarkon tesztelt AI kutatással ellentétben az InstructGPT-t az OpenAI API valós felhasználóival tesztelték, bizonyítva hogy a gyakorlatban is működik.

Kihívások és lehetőségek

Bár az InstructGPT nagy áttörés volt, a kutatás fontos fejlesztendő területeket is feltárt. A modellek még mindig követnek el alapvető hibákat, néha túl óvatosak, és végrehajtanak káros utasításokat is, ha közvetlenül arra kérik őket.

Bonyolult kérdés marad, hogy kinek az értékeihez igazítsuk az AI rendszereket. Az OpenAI módszere a saját alkalmazottaik és API-felhasználóik preferenciáihoz igazította a modelleket – ez egy specifikus csoport, ami nem feltétlenül képviseli az összes érintettet.

Szoftvercégek számára az InstructGPT útmutatást ad hasznosabb és megbízhatóbb AI alkalmazások fejlesztéséhez. Ezeket a technikákat ma már az egész iparágban használják, chatbotoktól kódgenerátorokig és tartalomkészítő platformokig.

Az emberközpontú AI új korszaka

Az InstructGPT nem csak javított egy nyelvi modellen – bebizonyította, hogy lehet olyan AI rendszereket tanítani, amik tényleg hasznosak, miközben biztonságosak és hitelesek maradnak. Azzal, hogy közvetlenül emberi preferenciákból tanulnak ahelyett, hogy csak adatmintákat követnének, ezek a modellek alapvető lépést jelentenek az emberi igényeket valóban kiszolgáló AI felé.

Ahogy egyre több AI rendszer épül be a mindennapjainkba, az InstructGPT tanulságai felbecsülhetetlenek: az emberi igényekhez igazítás nem luxus, hanem alapvető követelmény ahhoz, hogy megbízható AI-t építsünk. A mesterséges intelligencia jövője nem arról szól, hogy nagyobb és okosabb modelleket készítsünk, hanem arról, hogy jobban összehangoljuk őket azzal, amit tényleg akarunk tőlük.

Ez a cikk a “Training language models to follow instructions with human feedback” publikáció alapján készült. Link: https://arxiv.org/pdf/2203.02155

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük