Az apró nyelvi modellek boldogulnak a GPT-4 segítségével tanárként | Quanta Magazin

Az apró nyelvi modellek boldogulnak a GPT-4 segítségével tanárként | Quanta Magazin

Tiny Language Models Thrive With GPT-4 as a Teacher | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Bevezetés

Az angol nyelv elsajátítása nem könnyű feladat, ezt számtalan diák jól tudja. De amikor a tanuló számítógép, az egyik megközelítés meglepően jól működik: egyszerűen tápláljon be szöveghegyeket az internetről egy óriási matematikai modellbe, amelyet neurális hálózatnak neveznek. Ez a működési elve az olyan generatív nyelvi modellek mögött, mint az OpenAI ChatGPT, amelynek azon képessége, hogy koherensen (ha nem is mindig őszintén) tud sokféle témáról beszélgetni, meglepte a kutatókat és a közvéleményt az elmúlt évben.

De a megközelítésnek megvannak a maga hátrányai. Egyrészt a hatalmas szövegarchívumok legkorszerűbb nyelvi modelljévé alakításához szükséges „képzési” eljárás költséges és időigényes. Másrészt még a nagy nyelvi modelleket kiképző emberek is nehezen értik meg belső működésüket; ez viszont megnehezíti a kudarcok sokféle módját.

Ezekkel a nehézségekkel szembesülve néhány kutató a képzés mellett döntött kisebb modellek kisebb adathalmazokon, majd tanulmányozzuk viselkedésüket. „Olyan ez, mint a szekvenálás Drosophila genom kontra az emberi genom szekvenálása” – mondta Ellie Pavlick, a Brown Egyetem nyelvmodell-kutatója.

Most, a papír A közelmúltban az arxiv.org tudományos preprint szerveren közzétett pár Microsoft-kutató új módszert vezetett be az apró nyelvi modellek képzésére: Nevelje fel őket a gyerekek meséiből álló szigorú étrendre.

A gépi tanulással foglalkozó kutatók magukévá tették ezt a leckét. A GPT-3.5, a ChatGPT felületet működtető nagy nyelvi modell közel 200 milliárd paraméterrel rendelkezik, és egy több száz milliárd szót tartalmazó adatkészletre képezték ki. (Az OpenAI nem hozta nyilvánosságra a megfelelő adatokat utódjáról, a GPT-4-ről.) Az ilyen nagy modellek betanításához általában legalább 1,000 speciális processzorra, úgynevezett GPU-ra van szükség, amelyek hetekig párhuzamosan futnak. Csak néhány vállalat tudja összegyűjteni a szükséges erőforrásokat, nem beszélve a képzésről és a különböző modellek összehasonlításáról.

A két kutató kimutatta, hogy a mai korszerű rendszereknél ezerszer kisebb nyelvi modellek gyorsan megtanultak következetes és nyelvtani történeteket mesélni, ha ilyen módon képezték őket. Eredményeik olyan új kutatási irányokra utalnak, amelyek hasznosak lehetnek a nagyobb modellek képzésében és viselkedésük megértésében.

„Nagyon informatívnak találtam ezt a papírt” – mondta Chandra Bhagavatula, a seattle-i Allen Institute for Artificial Intelligence nyelvi modell kutatója. "Maga a koncepció rendkívül érdekes."

Egyszer régen

A nyelvi modellek középpontjában álló neurális hálózatok olyan matematikai struktúrák, amelyeket lazán az emberi agy ihletett. Mindegyik sok mesterséges neuront tartalmaz rétegekbe rendezve, kapcsolatokkal a szomszédos rétegekben lévő neuronok között. A neurális hálózat viselkedését ezen kapcsolatok erőssége, az úgynevezett paraméterek szabályozzák. Egy nyelvi modellben a paraméterek szabályozzák, hogy a modell mely szavakat köpje ki legközelebb, egy kezdeti prompt és a már generált szavak alapján.

Egy modell csak akkor kel igazán életre a képzés során, amikor ismételten összehasonlítja saját kimenetét a betanítási adathalmaz szövegével, és a hasonlóság növelése érdekében módosítja a paramétereit. Egy képzetlen hálózat véletlenszerű paraméterekkel triviálisan könnyen összeállítható néhány sor kódból, de csak halandzsát fog produkálni. Edzés után gyakran hihetően folytathatja az ismeretlen szöveget. A nagyobb modellek gyakran további finomhangoláson esnek át, ami megtanítja őket a kérdések megválaszolására és az utasítások követésére, de a képzés nagy része a szójóslás elsajátítása.

A szójóslás sikeréhez olyan nyelvi modellre van szükség, amely sok különböző készség elsajátítását teszi lehetővé. Például az angol nyelvtan szabályai azt sugallják, hogy a „going” szó után a következő szó valószínűleg a „to” lesz, függetlenül a szöveg tárgyától. Ezen túlmenően egy rendszernek tényismeretre van szüksége ahhoz, hogy „Franciaország fővárosa az”, és kitöltse a szöveget tartalmazó részt a "nem" szó a logika kezdetleges megértését követeli meg.

„A nyers nyelv nagyon bonyolult” – mondta Timothy Nguyen, a DeepMind gépi tanulással foglalkozó kutatója. „Ahhoz, hogy érdekes nyelvi képességek keletkezzenek, az emberek a „jobb több adat”-hoz folyamodtak.

Bevezetés

Ronen Eldan, egy matematikus, aki 2022-ben csatlakozott a Microsoft Researchhez, hogy generatív nyelvi modelleket tanulmányozzon, egy olcsóbb és gyorsabb módszert akart kidolgozni képességeik felfedezésére. Ennek természetes módja egy kis adathalmaz használata volt, ami viszont azt jelentette, hogy modelleket kellett képeznie, hogy egy adott feladatra szakosodjanak, hogy ne szóródjanak túl vékonyra. Kezdetben modelleket akart képezni bizonyos matematikai feladatok megoldására, de egy délután, miután 5 éves lányával töltötte az időt, rájött, hogy a gyerekeknek szóló mesék tökéletesen illeszkednek.

„Szó szerint azután jutott eszembe, hogy elolvastam neki egy történetet” – mondta.

A koherens gyermektörténetek létrehozásához egy nyelvi modellnek meg kell tanulnia a világ tényeit, nyomon kell követnie a szereplőket és az eseményeket, és be kell tartania a nyelvtani szabályokat – a nagy modellek előtt álló kihívások egyszerűbb változatait. A hatalmas adathalmazokra kiképzett nagy modellek azonban számtalan lényegtelen részletet tanulnak meg az igazán fontos szabályokkal együtt. Eldan remélte, hogy a gyerekeknek szóló történetek rövidsége és korlátozott szókincse könnyebben kezelhetővé teheti a tanulást a kis modellek számára – így könnyebben taníthatók és könnyebben megérthetők.

A nyelvi modellek világában azonban a „kicsi” relatív: a GPT-3.5 betanításához használtnál ezerszer kisebb adathalmaznak továbbra is több millió történetet kell tartalmaznia. "Nem tudom, mennyi pénzt akarsz költeni, de azt hiszem, nem fogsz szakembereket felvenni, hogy írjanak [pár millió] novellát" - mondta Nguyen.

Rendkívül termékeny szerzőre lenne szükség, hogy kielégítse az ilyen falánk olvasókat, de Eldan néhány jelöltre gondolt. Ki írhatna jobban a kis nyelvi modellek közönségének, mint a nagyoknak?

Játéktörténetek

Eldan azonnal nekilátott, hogy létrehozza a nagy nyelvi modellek által generált szintetikus gyermektörténetek könyvtárát. De hamarosan rájött, hogy még a legmodernebb modellek sem természetüknél fogva túl kreatívak. Ha csak azt mondod a GPT-4-nek, hogy írjon a 4 éveseknek megfelelő történeteket, Eldan elmondta: „a történetek körülbelül egyötöde arról szól majd, hogy a parkba menő gyerekek félnek a csúszdáktól.” Úgy tűnik, ez a lényegi óvodai történet, ami az internetet illeti.

A megoldás az volt, hogy egy kis véletlenszerűséget adtunk a prompthoz. Először is, Eldan a GPT-4 segítségével 1,500 főnévből, igéből és melléknévből álló listát készített, amelyet egy 4 éves gyerek ismerhet – elég rövid ahhoz, hogy maga is könnyen ellenőrizhesse. Aztán írt egy egyszerű számítógépes programot, amely ismételten felszólította a GPT-3.5-öt vagy a GPT-4-et, hogy készítsen egy életkornak megfelelő történetet, amely három véletlenszerűen kiválasztott szót tartalmazott a listáról, valamint egy további véletlenszerűen kiválasztott részletet, például egy happy endet vagy egy cselekménycsavart. Az így létrejött történetek könyörületesen kevésbé koncentráltak az ijesztő diákra.

Eldan most már rendelkezett egy eljárással a képzési adatok igény szerinti összegyűjtésére, de fogalma sem volt, hány történetre van szüksége egy funkcionális modell betanításához, vagy hogy mekkora legyen a modell. Ekkor összeállt Yuanzhi Li, a Microsoft és a Carnegie Mellon Egyetem gépi tanulással foglalkozó kutatója, hogy különböző lehetőségeket próbáljon ki, kihasználva azt, hogy a kis modellek nagyon gyorsan betaníthatók. Az 1. lépés az volt, hogy eldöntsék, hogyan értékeljék modelleiket.

Bevezetés

A nyelvi modellkutatásban – mint minden osztályteremben – az osztályozás nehéz téma. Van nincs tökéletes rubrika amely magában foglal mindent, amit a kutatók tudni akarnak, és a modellek, amelyek bizonyos feladatokban kiválóak, gyakran látványosan kudarcot vallanak másoknál. Az idő múlásával a kutatók különféle szabványos benchmarkokat dolgoztak ki olyan kérdések alapján, amelyek egyértelmű válaszokat adtak, ami jó megközelítés, ha konkrét készségeket próbál értékelni. Eldant és Li-t azonban valami ködösebb dolog érdekelte: valójában mekkoranak kell lenniük a nyelvi modelleknek, ha a lehető legnagyobb mértékben leegyszerűsítjük a nyelvet?

„Ahhoz, hogy közvetlenül tesztelhessük, beszél-e a modell angolul, szerintem az egyetlen dolog, amit tehetünk, ha hagyjuk, hogy a modell nyílt végű angol nyelvet generáljon” – mondta Eldan.

Csak kétféleképpen lehet mérni egy modell teljesítményét az ilyen minőségi kérdésekben: támaszkodjon emberi osztályozókra, vagy forduljon ismét a GPT-4-hez. A két kutató az utóbbi utat választotta, gyakorlatilag hagyta, hogy a nagy modellek írják a tankönyveket és osztályozzák az esszéket.

Bhagavatula azt mondta, szerette volna látni, hogy a GPT-4 értékelései a humán felülvizsgálók értékeléseihez képest mennyire elfogultak az általa kiképzett modellek felé, és a nyelvi modellek átláthatatlansága megnehezíti az ilyen torzítások számszerűsítését. De nem hiszi, hogy ezek a finomságok befolyásolnák a különböző, szintetikus történetek hasonló sorozatára kiképzett modellek összehasonlítását – ez Eldan és Li munkájának fő hangsúlya.

Eldan és Li egy kétlépcsős eljárást alkalmazott kis modelljeik kiértékeléséhez a képzés után. Először is elindították a kis modellt a történet első felével, amely különbözik a betanítási adathalmazban szereplőktől, így új befejezést generált, megismételve ezt a folyamatot 50 különböző teszttörténettel. Másodszor, utasították a GPT-4-et, hogy a kis modellek mindegyik végét három kategória – kreativitás, nyelvtan és a történet kezdetével való összhang – alapján minősítse. Ezután minden kategóriában átlagolták a pontszámokat, így modellenként három végső osztályzatot kaptak.

Ezzel az eljárással Eldan és Li végre készen álltak arra, hogy összehasonlítsák a különböző modelleket, és kiderítsék, kik voltak a sztártanulók.

Vizsgálati eredmények

Némi előzetes feltárás után a két kutató egy nagyjából 2 millió történetet tartalmazó képzési adathalmaz mellett döntött. Ezt a TinyStories névre keresztelt adatkészletet használták fel az 1 milliótól 30 millióig terjedő méretű modellek betanításához, változó számú réteggel. Gyors munka volt: mindössze négy GPU-t használva a legnagyobb modellek betanítása nem tartott egy napnál tovább.

A legkisebb modellek küszködtek. Például egy teszttörténet azzal kezdődik, hogy egy aljas kinézetű férfi azt mondja egy lánynak, hogy elviszi a macskáját. Egy milliós paraméterű modell beleragadt a hurokba, amikor a lány többször is elmondta a férfinak, hogy barátok akar lenni. De a nagyobbak – még mindig több ezerszer kisebbek, mint a GPT-3.5 – meglepően jól teljesítettek. A 28 milliós paraméteres változat koherens történetet mesélt el, bár a vége komor volt: „Katie sírni kezdett, de a férfit nem érdekelte. Elvitte a macskát, és Katie soha többé nem látta a macskáját. Vége."

Amellett, hogy tesztelték saját modelleiket, Eldan és Li ugyanezt a kihívást állította az OpenAI GPT-2-jére, egy 1.5-ben kiadott 2019 milliárd paraméterű modellre. Sokkal rosszabbul járt – a történet hirtelen vége előtt a férfi azzal fenyegetőzik, hogy elviszi a lányt. a bíróságra, a börtönbe, a kórházba, a hullaházba és végül a krematóriumba.

Bevezetés

Nguyen szerint izgalmas, hogy az ilyen apró modellek ilyen gördülékenyek voltak, de talán nem meglepő, hogy a GPT-2 megküzdött a feladattal: ez egy nagyobb modell, de távol áll a technika legkorszerűbb szintjétől, és nagyon eltérő adatkészletre képezték ki. „Egy kisgyermek, aki csak kisgyermekes feladatokat oktat, például játékkal, jobban teljesíthet, mint te vagy én” – jegyezte meg. – Nem erre az egyszerű dologra specializálódtunk.

A különböző TinyStories modellek összehasonlítása nem ugyanazoktól a zavaró tényezőktől szenved. Eldan és Li olyan utalásokat figyeltek meg, amelyek szerint a kevesebb réteget, de rétegenként több neuront tartalmazó hálózatok jobban megválaszolják a tényszerű ismereteket igénylő kérdéseket; fordítva, a több réteggel és rétegenként kevesebb neuronnal rendelkező hálózatok jobban nyomon követték a történet korábbi szereplőit és cselekménypontjait. Bhagavatula ezt az eredményt különösen érdekesnek találta. Ha ez megismételhető nagyobb modellekben, az nagyon klassz eredmény lenne, ami ebből a munkából származhatna.

Eldan és Li azt is tanulmányozták, hogyan függenek kis modelljeik képességei a képzési időszak időtartamától. A modellek minden esetben először a nyelvtant, majd a következetességet sajátították el. Eldan számára ez a minta azt szemlélteti, hogy a jutalmazási struktúrák különbségei hogyan vezetnek különbségekhez a neurális hálózatok és a gyerekek nyelvelsajátítási mintáiban. Azoknál a nyelvi modelleknél, amelyek a szavak előrejelzésével tanulnak, „az „akarok enni” szavakra ugyanolyan ösztönző hatást gyakorolnak, mint a „jégkrém” szavakra” – mondta. Ezzel szemben a gyerekeket „nem érdekli, hogy azt mondják-e, hogy „szeretnék egy kis fagyit”, vagy csak „fagyi, fagyi, fagyi”.

Minőségi versus mennyiség

Eldan és Li reméli, hogy a kutatás más kutatókat is motivál majd arra, hogy különböző modelleket képezzenek a TinyStories adatkészlet és hasonlítsa össze képességeiket. De gyakran nehéz megjósolni, hogy a kis modellek mely jellemzői jelennek meg a nagyobbakban is.

„Lehet, hogy a látás egérmodelljei valóban jó helyettesítői az emberi látásnak, de vajon a depresszió egérmodellei jók-e az emberi depresszió modelljei?” – mondta Pavlick. "Minden esetben egy kicsit más a helyzet."

A TinyStories modellek sikere egy szélesebb körű tanulságot is sugall. A tanítási adatkészletek összeállításának szokásos megközelítése az internetről származó szövegek felszívását, majd a szemét kiszűrését jelenti. A nagy modellek által generált szintetikus szöveg alternatív módot kínálhat a kiváló minőségű adatkészletek összeállítására, amelyeknek nem kellene olyan nagyoknak lenniük.

„Egyre több bizonyítékunk van arra, hogy ez nagyon hatékony, nem csak a TinyStories méretű modelleknél, hanem a nagyobb modelleknél is” – mondta Eldan. Ez a bizonyíték Eldan, Li és más Microsoft-kutatók több milliárd paraméterű modelljére vonatkozó nyomon követési dokumentumból származik. Ban,-ben első papír, egy modellt képeztek ki a Python programozási nyelv megtanulására a GPT-3.5 által generált kódrészletek és az internetről származó gondosan összeállított kód segítségével. Ban,-ben második, a képzési adatkészletet szintetikus „tankönyvekkel” egészítették ki, amelyek sokféle témát lefednek, hogy általános célú nyelvi modellt képezzenek. Tesztjeik során mindkét modell kedvezően viszonyult a nagyobb adathalmazokon betanított nagyobb modellekhez. A nyelvi modellek értékelése azonban mindig bonyolult, és a szintetikus képzési adatok megközelítése még gyerekcipőben jár – több független tesztre van szükség.

Ahogy a legmodernebb nyelvi modellek egyre nagyobbakká válnak, apró unokatestvéreik meglepő felfedezései emlékeztetnek arra, hogy még mindig sok mindent nem értünk még a legegyszerűbb modellekkel kapcsolatban is. Nguyen arra számít, hogy még sok újság fog megjelenni a TinyStories által úttörő megközelítéssel.

"A kérdés az: hol és miért számít a méret?" ő mondta. "Erről tudománynak kellene lennie, és ez a cikk remélhetőleg egy gazdag történet kezdete."

Időbélyeg:

Még több Quantamagazine