Pienet kielimallit menestyvät GPT-4:n avulla opettajana | Quanta-lehti

Pienet kielimallit menestyvät GPT-4:n avulla opettajana | Quanta-lehti

Pienet kielimallit menestyvät GPT-4:n avulla opettajana | Quanta Magazine PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

esittely

Englannin oppiminen ei ole helppo tehtävä, kuten monet opiskelijat tietävät hyvin. Mutta kun opiskelija on tietokone, yksi lähestymistapa toimii yllättävän hyvin: Syötä vain vuoria tekstiä Internetistä jättimäiseen matemaattiseen malliin, jota kutsutaan neuroverkoksi. Tämä on generatiivisten kielimallien, kuten OpenAI:n ChatGPT:n, toimintaperiaate, jonka kyky keskustella johdonmukaisesti (jos ei aina totuudenmukaisesti) useista eri aiheista on yllättänyt tutkijat ja yleisön viimeisen vuoden aikana.

Mutta lähestymistavalla on huonot puolensa. Ensinnäkin "koulutus" -menettely, joka vaaditaan suurten tekstiarkistojen muuntamiseksi huippuluokan kielimalleiksi, on kallis ja aikaa vievä. Toisaalta jopa suuria kielimalleja kouluttavien ihmisten on vaikea ymmärtää sisäistä toimintaansa; Tämä puolestaan ​​tekee vaikeaksi ennustaa monia tapoja, joilla he voivat epäonnistua.

Näiden vaikeuksien vuoksi jotkut tutkijat ovat valinneet koulutuksen pienempiä malleja pienempiin tietokokonaisuuksiin ja tutkia sitten niiden käyttäytymistä. "Se on kuin sekvensointia Drosophila genomi vs. ihmisen genomin sekvensointi", sanoi Ellie Pavlick, kielimallin tutkija Brownin yliopistossa.

Nyt, a paperi Äskettäin tieteelliselle preprint-palvelimelle arxiv.org lähetetyt Microsoftin tutkijat ovat ottaneet käyttöön uuden menetelmän pienten kielimallien kouluttamiseen: Kasvata ne tiukkaan lastentarinoiden ruokavalioon.

Koneoppimisen tutkijat ovat ottaneet tämän oppitunnin vastaan. GPT-3.5, suuri kielimalli, joka käyttää ChatGPT-rajapintaa, sisältää lähes 200 miljardia parametria, ja se on koulutettu satoja miljardeja sanoja käsittävälle tietojoukolle. (OpenAI ei ole julkaissut vastaavia lukuja seuraajalleen, GPT-4:lle.) Tällaisten suurten mallien kouluttaminen vaatii tyypillisesti vähintään 1,000 erikoisprosessoria nimeltä GPU, jotka toimivat rinnakkain viikkoja kerrallaan. Vain harvat yritykset voivat kerätä tarvittavat resurssit, puhumattakaan kouluttamisesta ja eri mallien vertailusta.

Kaksi tutkijaa osoittivat, että tuhansia kertoja pienemmät kielimallit kuin nykyiset huipputekniikat oppivat nopeasti kertomaan johdonmukaisia ​​ja kieliopillisia tarinoita, kun niitä oli koulutettu tällä tavalla. Niiden tulokset vihjaavat uusiin tutkimussuuntiin, joista voi olla apua suurempien mallien kouluttamisessa ja niiden käyttäytymisen ymmärtämisessä.

"Minusta tämä lehti oli erittäin informatiivinen", sanoi Chandra Bhagavatula, kielimallin tutkija Allen Institute for Artificial Intelligence -instituutissa Seattlessa. "Konsepti itsessään on erittäin mielenkiintoinen."

Once Upon a Time

Kielimallien ytimessä olevat hermoverkot ovat matemaattisia rakenteita, jotka ovat löyhästi ihmisaivojen inspiroimia. Jokainen niistä sisältää monia keinotekoisia hermosoluja, jotka on järjestetty kerroksiin, ja vierekkäisten kerrosten hermosolujen välillä on yhteyksiä. Neuraaliverkon käyttäytymistä säätelee näiden yhteyksien vahvuus, joita kutsutaan parametreiksi. Kielimallissa parametrit ohjaavat, mitkä sanat malli saattaa seuraavaksi sylkeä ulos, kun annetaan aloituskehote ja sanat, jotka se on jo luonut.

Malli herää aidosti henkiin vasta harjoittelun aikana, kun se vertaa toistuvasti omaa tulostaan ​​harjoitustietojoukossaan olevaan tekstiin ja säätää parametrejaan lisäämään samankaltaisuutta. Kouluttamaton verkko satunnaisin parametrein on triviaalisen helppo koota muutamasta koodirivistä, mutta se tuottaa vain hölynpölyä. Harjoittelun jälkeen se voi usein todennäköisesti jatkaa tuntematonta tekstiä. Suurempiin malleihin tehdään usein lisäsäätöä, joka opettaa heitä vastaamaan kysymyksiin ja noudattamaan ohjeita, mutta suurin osa koulutuksesta on sanan ennustamisen hallintaa.

Menestys sanan ennustamisessa vaatii kielimallin, joka hallitsee monia erilaisia ​​taitoja. Esimerkiksi englannin kieliopin säännöt ehdottavat, että seuraava sana sanan "going" jälkeen on todennäköisesti "to" riippumatta tekstin aiheesta. Lisäksi järjestelmä tarvitsee faktatietoa täydentääkseen "Ranskan pääkaupunki on" ja täydentääkseen sen sisältävän kohdan sana "ei" vaatii alkeellista logiikkaa.

"Raakakieli on hyvin monimutkaista", sanoi Timothy Nguyen, koneoppimisen tutkija DeepMindissä. "Mielenkiintoisten kielellisten kykyjen syntymiseksi ihmiset ovat turvautuneet "enemmän dataa on parempi".

esittely

Ronen Eldan, matemaatikko, joka liittyi Microsoft Researchiin vuonna 2022 tutkimaan generatiivisia kielimalleja, halusi kehittää halvemman ja nopeamman tavan tutkia kykyjään. Luonnollinen tapa tehdä se oli käyttää pientä tietojoukkoa, mikä puolestaan ​​merkitsi sitä, että hänen täytyi kouluttaa malleja erikoistumaan tiettyyn tehtävään, jotta ne eivät leviäisi liian ohuiksi. Aluksi hän halusi kouluttaa malleja ratkaisemaan tietyn luokan matemaattisia tehtäviä, mutta eräänä iltapäivänä vietettyään aikaa 5-vuotiaan tyttärensä kanssa hän tajusi, että lasten tarinat sopivat täydellisesti.

"Se tuli minulle kirjaimellisesti, kun luin hänelle tarinan", hän sanoi.

Johdonmukaisten lastentarinoiden luomiseksi kielimallin pitäisi oppia tosiasioita maailmasta, seurata hahmoja ja tapahtumia sekä noudattaa kieliopin sääntöjä – yksinkertaisempia versioita suurten mallien haasteista. Mutta suuret mallit, jotka on koulutettu valtaviin tietokokonaisuuksiin, oppivat lukemattomia merkityksettömiä yksityiskohtia ja todella tärkeitä sääntöjä. Eldan toivoi, että lasten tarinoiden lyhyys ja rajallinen sanavarasto voisivat tehdä oppimisesta helpommin hallittavissa pienille malleille – mikä helpottaa niiden kouluttamista ja ymmärtämistä.

Kielimallien maailmassa "pieni" on kuitenkin suhteellista: GPT-3.5:n kouluttamiseen käytettyä tuhatta kertaa pienemmän datajoukon pitäisi silti sisältää miljoonia tarinoita. "En tiedä, kuinka paljon rahaa haluat käyttää, mutta oletan, että et aio palkata ammattilaisia ​​kirjoittamaan [paria miljoonaa] novelleja", Nguyen sanoi.

Tarvittaisiin poikkeuksellisen tuottelias kirjailija tyydyttämään niin ahneita lukijoita, mutta Eldanilla oli mielessään muutama ehdokas. Kuka olisi parempi kirjoittaa pienten kielimallien yleisölle kuin suurille?

Lelutarinoita

Eldan ryhtyi välittömästi luomaan kirjaston synteettisiä lastentarinoita, jotka on luotu suurten kielimallien avulla. Mutta pian hän huomasi, että edes huippuluokan mallit eivät ole luonnostaan ​​kovin luovia. Jos käsket GPT-4:ää kirjoittamaan 4-vuotiaille sopivia tarinoita, Eldan sanoi: "Noin viidesosa tarinoista koskee puistoon meneviä lapsia, jotka pelkäävät liukumäkiä." Se on ilmeisesti pohjimmainen esikoulun tarina, mitä tulee Internetiin.

Ratkaisu oli lisätä kehotteeseen hieman satunnaisuutta. Ensin Eldan käytti GPT-4:ää luodakseen luettelon 1,500 substantiivista, verbistä ja adjektiivista, jotka 4-vuotias saattaa tietää – riittävän lyhyt, jotta hän voisi helposti tarkistaa sen itse. Sitten hän kirjoitti yksinkertaisen tietokoneohjelman, joka kehotti toistuvasti GPT-3.5:tä tai GPT-4:ää luomaan ikään sopivan tarinan, joka sisälsi kolme satunnaista sanaa luettelosta sekä satunnaisesti valitun lisäyksityiskohdan, kuten onnellinen loppu tai juonenkäänne. Tuloksena saadut tarinat, armollisesti, keskittyivät vähemmän pelottaviin dioihin.

Eldanilla oli nyt menetelmä harjoitustietojen keräämiseksi pyynnöstä, mutta hänellä ei ollut aavistustakaan, kuinka monta tarinaa hän tarvitsisi kouluttaakseen toiminnallista mallia tai kuinka suuri mallin tulisi olla. Silloin hän liittoutui Yuanzhi Li, Microsoftin ja Carnegie Mellonin yliopiston koneoppimisen tutkija, kokeilemaan erilaisia ​​mahdollisuuksia hyödyntäen sitä, että pienet mallit voidaan kouluttaa hyvin nopeasti. Vaiheessa 1 päätettiin, kuinka heidän mallinsa arvioidaan.

esittely

Kielimallitutkimuksessa - kuten jokaisessa luokkahuoneessa - arvosanat ovat täynnä ongelmia. Siellä on ei täydellistä rubriikia joka kiteyttää kaiken, mitä tutkijat haluavat tietää, ja joissakin tehtävissä menestyvät mallit epäonnistuvat usein näyttävästi toisissa. Ajan mittaan tutkijat ovat kehittäneet erilaisia ​​​​standardeja vertailuarvoja, jotka perustuvat kysymyksiin, joihin on vastattu yksiselitteisesti, mikä on hyvä lähestymistapa, jos yrität arvioida tiettyjä taitoja. Mutta Eldan ja Li olivat kiinnostuneita jostakin hämärämmästä: kuinka suuria kielimallien pitää todella olla, jos kieltä yksinkertaistetaan mahdollisimman paljon?

"Jotta voit testata suoraan, puhuuko malli englantia, mielestäni ainoa asia, jonka voit tehdä, on antaa mallin tuottaa englantia avoimesti", Eldan sanoi.

On vain kaksi tapaa mitata mallin suorituskykyä tällaisissa laadullisissa kysymyksissä: Luota ihmisluokkiin tai käänny jälleen GPT-4:ään. Kaksi tutkijaa valitsivat jälkimmäisen reitin, jolloin suuret mallit antoivat tehokkaasti sekä kirjoittaa oppikirjoja että arvostella esseitä.

Bhagavatula sanoi, että hän olisi halunnut nähdä, kuinka GPT-4:n arviot ihmisten arvioijien arvioihin verrattuna voivat olla puolueellisia malleja, joita se auttoi kouluttamaan, ja kielimallien läpinäkyvyys tekee tällaisten harhojen kvantifioinnin vaikeaksi. Hän ei kuitenkaan usko, että sellaiset hienovaraisuudet vaikuttaisivat vertailuun eri mallien välillä, jotka on koulutettu samanlaisiin synteettisiin tarinoihin – Eldanin ja Lin työn pääpainopisteeseen.

Eldan ja Li käyttivät kaksivaiheista menettelyä jokaisen pienen mallinsa arvioimiseksi harjoittelun jälkeen. Ensinnäkin he kehittivät pienen mallin tarinan ensimmäisellä puoliskolla, joka erosi harjoitustietojoukossa olevista, joten se loi uuden lopun, toistaen tämän prosessin 50 eri testitarinalla. Toiseksi he kehottivat GPT-4:ää arvioimaan jokaisen pienen mallin päätteen kolmen kategorian perusteella – luovuus, kielioppi ja johdonmukaisuus tarinan alun kanssa. Sitten he laskivat kunkin luokan pisteet keskiarvon ja päätyivät kolmeen lopulliseen arvosanaan mallia kohden.

Tämän menettelyn ollessa käsissä Eldan ja Li olivat vihdoin valmiita vertailemaan eri malleja ja selvittämään, mitkä olivat tähtiopiskelijoita.

Testitulokset

Pienen alustavan tutkimuksen jälkeen kaksi tutkijaa päätyivät harjoitustietosarjaan, joka sisälsi noin 2 miljoonaa tarinaa. Sitten he käyttivät tätä tietojoukkoa, nimeltään TinyStories, kouluttaakseen malleja, joiden koko vaihteli 1 miljoonasta 30 miljoonaan parametriin vaihtelevalla määrällä kerroksia. Se oli nopeaa työtä: käyttämällä vain neljää GPU:ta, suurimman mallin harjoittelu kesti enintään päivän.

Pienimmät mallit kamppailivat. Esimerkiksi yksi testitarina alkaa siitä, että ilkeän näköinen mies kertoo tytölle, että hän vie hänen kissansa. Miljoonaparametrinen malli juuttui silmukkaan, kun tyttö kertoi toistuvasti miehelle haluavansa olla ystäviä. Mutta suuremmat – silti tuhansia kertoja pienempiä kuin GPT-3.5 – toimivat yllättävän hyvin. 28 miljoonan parametrin versio kertoi johdonmukaisen tarinan, vaikka loppu oli synkkä: ”Katie alkoi itkeä, mutta mies ei välittänyt. Hän vei kissan pois, eikä Katie koskaan nähnyt kissaansa enää. Loppu."

Omien malliensa testaamisen lisäksi Eldan ja Li esittivät saman haasteen OpenAI:n GPT-2:lle, 1.5 miljardin parametrin mallille, joka julkaistiin vuonna 2019. Siinä kävi paljon huonommin – ennen tarinan äkillistä loppua mies uhkaa viedä tytön. oikeuteen, vankilaan, sairaalaan, ruumishuoneeseen ja lopulta krematorioon.

esittely

Nguyen sanoi, että on jännittävää, että tällaiset pienet mallit toimivat niin sujuvasti, mutta ei ehkä yllättävää, että GPT-2 kamppaili tehtävän kanssa: Se on suurempi malli, mutta kaukana tekniikan tasosta, ja se on koulutettu hyvin erilaiselle tietojoukolle. "Taaperoharjoitteleminen vain taaperotehtävissä, kuten leikkiminen joidenkin lelujen kanssa, saattaa pärjätä paremmin kuin sinä tai minä", hän huomautti. "Emme erikoistuneet tähän yksinkertaiseen asiaan."

Eri TinyStories-mallien vertailut eivät kärsi samoista hämmentävästä tekijästä. Eldan ja Li havaitsivat vihjeitä, että verkot, joissa on vähemmän kerroksia, mutta enemmän hermosoluja kerrosta kohti, pystyivät paremmin vastaamaan kysymyksiin, jotka vaativat asiatietoa; päinvastoin, verkot, joissa oli enemmän kerroksia ja vähemmän neuroneja kerrosta kohti, pystyivät paremmin pitämään kirjaa hahmoista ja juonenpisteistä tarinan aikaisemmasta osasta. Bhagavatula piti tätä tulosta erityisen kiehtovana. Jos se voidaan kopioida suurempiin malleihin, hän sanoi, "se olisi todella hieno tulos, joka voisi johtua tästä työstä."

Eldan ja Li tutkivat myös kuinka heidän pienten malliensa kyvyt riippuivat harjoittelujakson kestosta. Joka tapauksessa mallit hallitsivat ensin kieliopin ja myöhemmin johdonmukaisuuden. Eldanille tämä malli havainnollistaa, kuinka erot palkitsemisrakenteissa johtavat eroihin hermoverkkojen ja lasten välisissä kielen hankinnassa. Kielimalleissa, jotka oppivat ennustamalla sanoja, "sanojen "haluan" kannustin on yhtä suuri kuin sanoilla "jäätelö", hän sanoi. Lapset sen sijaan "eivät välitä siitä, sanovatko he "haluaisin jäätelöä" vai vain "jäätelöä, jäätelöä, jäätelöä".

Laatu vs. määrä

Eldan ja Li toivovat, että tutkimus motivoi muitakin tutkijoita kouluttamaan erilaisia ​​malleja TinyStories-tietojoukosta ja vertailla heidän kykyjään. Mutta usein on vaikea ennustaa, mitkä pienten mallien ominaisuudet näkyvät myös suuremmissa.

"Ehkä hiirimallit näkemään ovat todella hyviä esimerkkejä ihmisen näkökyvystä, mutta ovatko masennuksen hiirimallit hyviä malleja ihmisen masennuksesta?" Pavlick sanoi. "Jokaisessa tapauksessa se on hieman erilainen."

TinyStories-mallien menestys viittaa myös laajempaan opetukseen. Harjoitteludatajoukkojen kokoamisen vakiolähestymistapa sisältää tekstin imuroimisen Internetistä ja sitten roskien suodattamisen. Suurten mallien luoma synteettinen teksti voisi tarjota vaihtoehtoisen tavan koota korkealaatuisia tietojoukkoja, joiden ei tarvitse olla niin suuria.

"Meillä on yhä enemmän todisteita siitä, että tämä on erittäin tehokasta, ei vain TinyStories-kokoisissa malleissa vaan myös suuremmissa malleissa", Eldan sanoi. Nämä todisteet ovat peräisin Eldanin, Lin ja muiden Microsoftin tutkijoiden miljardiparametrimalleista kertovista seurantapapereista. Vuonna ensimmäinen paperi, he kouluttivat mallin oppimaan ohjelmointikieltä Python käyttämällä GPT-3.5:n luomia koodinpätkiä ja huolellisesti kuratoitua koodia Internetistä. Vuonna toinen, he täydensivät harjoitustietojoukkoa synteettisillä "oppikirjoilla", jotka kattavat monenlaisia ​​aiheita yleiskäyttöisen kielimallin kouluttamiseksi. Testeissään molemmat mallit verrattiin suotuisasti suurempiin malleihin, jotka on koulutettu suuremmilla tietojoukoilla. Mutta kielimallien arvioiminen on aina hankalaa, ja synteettisen harjoitusdatan lähestymistapa on vielä lapsenkengissään – tarvitaan enemmän riippumattomia testejä.

Kun huippuluokan kielimallit kasvavat koko ajan, heidän pienten serkkujensa yllättävät havainnot muistuttavat siitä, että yksinkertaisimmissakin malleissa on vielä paljon asioita, joita emme ymmärrä. Nguyen odottaa näkevänsä monia muita julkaisuja, joissa tutkitaan TinyStoriesin pioneeria.

"Kysymys kuuluu: missä ja miksi koolla on väliä?" hän sanoi. "Siitä pitäisi olla tiedettä, ja tämä paperi on toivottavasti rikkaan tarinan alku."

Aikaleima:

Lisää aiheesta Kvantamagatsiini