Kuinka koneet "grokoavat" dataa? | Quanta-lehti

Kuinka koneet "grokoavat" dataa? | Quanta-lehti

Kuinka koneet "grokoavat" dataa? | Quanta Magazine PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

esittely

Kaikesta loistostaan ​​huolimatta keinotekoiset hermoverkot pysyvät yhtä tutkimattomina kuin koskaan. Kun nämä verkostot kasvavat, niiden kyvyt räjähtävät, mutta niiden sisäisten toimien tulkitseminen on aina ollut lähes mahdotonta. Tutkijat etsivät jatkuvasti oivalluksia, joita he voivat löytää näistä malleista.

Muutama vuosi sitten he löysivät uuden.

Tammikuussa 2022 ChatGPT:n takana olevan yrityksen OpenAI:n tutkijat raportoitu että nämä järjestelmät kehittivät ainutlaatuisia tapoja ratkaista ongelmia, kun niiden annettiin vahingossa murskata tietoja tavallista pidempään. Tyypillisesti, kun insinöörit rakentavat koneoppimismalleja hermoverkoista – jotka koostuvat laskentayksiköistä, joita kutsutaan keinotekoisiksi neuroneiksi –, he yleensä lopettavat harjoittelun tietyssä vaiheessa, jota kutsutaan ylisovitusjärjestelmäksi. Tällöin verkko alkaa pohjimmiltaan muistaa harjoitustietojaan eikä useinkaan yleisty uuteen, näkymättömään tietoon. Mutta kun OpenAI-tiimi vahingossa koulutti pientä verkkoa pidemmälle kuin tämä piste, se näytti kehittävän ymmärrystä ongelmasta, joka ylitti pelkän muistamisen – se saattoi yhtäkkiä saada minkä tahansa testidatan.

Tutkijat antoivat ilmiölle nimen "grokking", tieteiskirjailija Robert A. Heinleinin keksimä termi tarkoittamaan jonkin "niin perusteellista ymmärtämistä, että tarkkailijasta tulee osa tarkkailtavaa prosessia". Ylikoulutettu neuroverkko, joka oli suunniteltu suorittamaan tiettyjä matemaattisia operaatioita, oli oppinut lukujen yleisen rakenteen ja sisäistänyt tuloksen. Se iski ja siitä tuli ratkaisu.

"Tämä [oli] erittäin jännittävää ja ajatuksia herättävää", sanoi Mihail Belkin Kalifornian yliopistosta San Diegosta, joka tutkii hermoverkkojen teoreettisia ja empiirisiä ominaisuuksia. "Se innostaa paljon jatkotyöhön."

Toiset ovatkin toistaneet tulokset ja jopa käännelleet ne. Viimeisimmät paperit eivät vain selventäneet, mitä nämä hermoverkot tekevät, kun ne kasvavat, vaan tarjosivat myös uuden linssin, jonka läpi niiden sisäelimet voi tutkia. "Grokking-asetus on kuin hyvä malliorganismi syväoppimisen monien eri näkökohtien ymmärtämiseen", sanoi Eric Michaud Massachusettsin teknillisen instituutin

Tämän organismin sisään katsominen on toisinaan varsin paljastavaa. "Ei vain voi löytää kaunista rakennetta, vaan se kaunis rakenne on tärkeä ymmärtää, mitä sisäisesti tapahtuu", sanoi Neel Nanda, nyt Google DeepMindissä Lontoossa.

Rajojen yli

Pohjimmiltaan koneoppimismallin tehtävä näyttää yksinkertaiselta: Muunna annettu syöte halutuksi tuotokseksi. Oppimisalgoritmin tehtävänä on etsiä paras mahdollinen toiminto, joka pystyy siihen. Mikä tahansa malli voi käyttää vain rajoitettua joukkoa toimintoja, ja tämä joukko sanelee usein mallin parametrien lukumäärä, joka hermoverkkojen tapauksessa vastaa suunnilleen keinotekoisten neuronien välisten yhteyksien määrää.

esittely

Kun verkko harjoittelee, sillä on taipumus oppia monimutkaisempia toimintoja, ja odotetun ja todellisen tuloksen välinen ero alkaa laskea koulutusdataan. Vielä parempi, tämä ero, joka tunnetaan nimellä menetys, alkaa pienentyä myös testidatalle, joka on uutta dataa, jota ei käytetä koulutuksessa. Mutta jossain vaiheessa malli alkaa ylisovittua, ja samalla kun harjoitustietojen menetys pienenee, testidatan häviö alkaa nousta. Joten yleensä silloin tutkijat lopettavat verkoston kouluttamisen.

Tämä oli vallitseva viisaus, kun OpenAI:n tiimi alkoi tutkia, kuinka hermoverkko voisi tehdä matematiikkaa. He käyttivät pientä muuntaja — verkkoarkkitehtuuri, joka on äskettäin mullistanut suuret kielimallit — tehdäkseen erilaisia ​​modulaarisia aritmetiikkaa, joissa työskentelet rajoitetuilla luvuilla, jotka muodostavat silmukan takaisin itseensä. Esimerkiksi Modulo 12 voidaan tehdä kellotaululla: 11 + 2 = 1. Ryhmä näytti verkkoesimerkkejä kahden numeron lisäämisestä, a ja b, tuottaa tulosta, c, modulo 97:ssä (vastaa kellotaulua, jossa on 97 numeroa). Sitten he testasivat muuntajaa ennennäkemättömillä yhdistelmillä a ja b nähdäkseen, voiko se ennustaa oikein c.

Odotetusti, kun verkko astui ylisovitusjärjestelmään, harjoitustietojen häviö oli lähellä nollaa (se oli alkanut muistaa näkemäänsä), ja testitietojen menetys alkoi nousta. Se ei ollut yleistämistä. "Ja sitten eräänä päivänä meillä kävi tuuri", sanoi tiiminjohtaja Alethea Power. puhe syyskuussa 2022 konferenssissa San Franciscossa. "Ja onnella tarkoitan unohtavaa."

Verkostoa valmentanut tiimin jäsen lähti lomalle ja unohti lopettaa harjoittelun. Kun tämä verkon versio jatkoi harjoittelua, siitä tuli yhtäkkiä tarkka näkymättömien tietojen perusteella. Automaattinen testaus paljasti tämän odottamattoman tarkkuuden muulle tiimille, ja he huomasivat pian, että verkko oli löytänyt fiksuja tapoja järjestää numerot a ja b. Sisäisesti verkko edustaa lukuja jossain korkeadimensionaalisessa avaruudessa, mutta kun tutkijat projisoivat nämä luvut alas 2D-avaruuteen ja kartoittivat ne, luvut muodostivat ympyrän.

Tämä oli hämmästyttävää. Tiimi ei koskaan kertonut mallille tekevänsä modulo 97 -matematiikkaa tai edes mitä modulo tarkoitti – he näyttivät sille vain esimerkkejä aritmetiikasta. Malli näytti törmänneen johonkin syvempään, analyyttiseen ratkaisuun – yhtälöön, joka yleistyi kaikkiin a ja b, jopa harjoitustietojen lisäksi. Verkko oli räjähtänyt, ja testitietojen tarkkuus nousi 100 prosenttiin. "Tämä on outoa", Power sanoi yleisölleen.

Ryhmä vahvisti tulokset käyttämällä erilaisia ​​tehtäviä ja erilaisia ​​verkostoja. Löytö kesti.

Kelloista ja Pizzoista

Mutta mikä oli yhtälö, jonka verkko oli löytänyt? OpenAI-lehti ei sanonut, mutta tulos kiinnitti Nandan huomion. "Yksi hermoverkkojen ydinmysteereistä ja ärsyttävistä asioista on se, että ne ovat erittäin hyviä siinä, mitä he tekevät, mutta oletuksena meillä ei ole aavistustakaan, kuinka ne toimivat", sanoi Nanda, jonka työ keskittyy koulutetun henkilön käänteiseen suunnitteluun. verkkoa selvittääkseen, mitä algoritmeja se oppi.

Nanda kiehtoi OpenAI-löydöstä, ja hän päätti erottaa hermoverkon, joka oli tunkeutunut. Hän suunnitteli OpenAI-hermoverkosta vielä yksinkertaisemman version, jotta hän voisi tutkia tarkasti mallin parametreja sen oppiessa tekemään modulaarista aritmetiikkaa. Hän näki saman käyttäytymisen: ylisovituksen, joka antoi tilaa yleistykselle ja äkilliselle testin tarkkuuden parantumiselle. Hänen verkostonsa järjesti myös numeroita ympyrään. Se vaati hieman vaivaa, mutta Nanda lopulta ymmärsi miksi.

Vaikka se edusti numeroita ympyrässä, verkko ei vain laskenut numeroita kuin päiväkoti katsomassa kelloa: se teki hienostuneita matemaattisia manipulaatioita. Tutkimalla verkon parametrien arvoja, Nanda ja kollegat paljastivat että se lisäsi kellonumerot suorittamalla niille "diskreettejä Fourier-muunnoksia" - muuntamalla numerot trigonometristen funktioiden, kuten sinien ja kosinien, avulla ja sitten manipuloimalla näitä arvoja trigonometristen identiteettien avulla ratkaisun saavuttamiseksi. Ainakin hänen verkostonsa teki tätä.

Kun tiimi MIT:ssä seurattu Nandan työssä he osoittivat, että hermoverkot eivät aina löydä tätä "kello"-algoritmia. Joskus verkot sen sijaan löytävät sen, mitä tutkijat kutsuvat "pizza-algoritmiksi". Tämä lähestymistapa kuvittelee pizzan, joka on jaettu viipaleisiin ja numeroitu järjestyksessä. Voit lisätä kaksi numeroa kuvittelemalla, että piirrät nuolia pizzan keskeltä kyseisiin numeroihin ja laske sitten viiva, joka puolittaa kahden ensimmäisen nuolen muodostaman kulman. Tämä viiva kulkee jonkin pizzaviipaleen keskeltä: Viipaleen numero on kahden luvun summa. Nämä operaatiot voidaan myös kirjoittaa ylös sinien ja kosinien trigonometristen ja algebrallisten manipulaatioiden avulla. a ja b, ja ne ovat teoriassa yhtä tarkkoja kuin kello lähestyy.

esittely

"Sekä [kello- että pizza-algoritmeilla on tämä pyöreä esitys", sanoi Ziming Liu, MIT-tiimin jäsen. "Mutta… kuinka he hyödyntävät näitä sinejä ja kosinuksia, ovat erilaisia. Siksi kutsumme niitä erilaisiksi algoritmeiksi."

Eikä siinä vielä kaikki. Koulutettuaan lukuisia verkkoja modulo-matematiikan tekemiseen, Liu ja kollegat havaitsivat, että noin 40 % näiden verkkojen löytämistä algoritmeista oli pizza- tai kelloalgoritmeja. Tiimi ei ole pystynyt selvittämään, mitä verkot tekevät muun aikaan. Pizza- ja kelloalgoritmeille "se vain sattuu löytämään jotain, jonka me ihmiset voimme tulkita", Liu sanoi.

Ja riippumatta siitä, minkä algoritmin verkko oppii, kun se aiheuttaa ongelman, se on jopa tehokkaampi yleistyksessä kuin tutkijat epäilevät. Kun tiimi Marylandin yliopistossa syötetään yksinkertaista neuroverkkoa harjoitustiedot, joissa oli satunnaisia ​​virheitä, verkko toimi aluksi odotetulla tavalla: Sovita harjoitustiedot, virheet ja kaikki liikaa ja suorita huonosti vahingoittumattomilla testitiedoilla. Kuitenkin, kun verkko ryösti ja alkoi vastata testikysymyksiin oikein, se pystyi tuottamaan oikeat vastaukset jopa vääriin merkintöihin unohtaen ulkoa kirjoitetut väärät vastaukset ja yleistäen jopa harjoitustietoihinsa. "Gokking-tehtävä on itse asiassa melko vankka tämän tyyppisille korruptioille", sanoi Darshil Doshi, yksi lehden kirjoittajista.

Taistelu hallinnasta

Tämän seurauksena tutkijat alkavat nyt ymmärtää prosessia, joka johtaa verkkoon, joka kerää tietojaan. Nanda näkee grokkingin ilmeisen ulkoisen äkillisyyden seurauksena asteittaisesta sisäisestä siirtymisestä muistamisesta yleistämiseen, jotka käyttävät kahta erilaista algoritmia hermoverkon sisällä. Kun verkko alkaa oppia, hän sanoi, se ensin selvittää helpomman muistamisalgoritmin; vaikka algoritmi on yksinkertaisempi, se vaatii kuitenkin huomattavia resursseja, koska verkon on muistettava jokainen opetusdatan esiintymä. Mutta vaikka se muistaa, osa neuroverkosta alkaa muodostaa piirejä, jotka toteuttavat yleisen ratkaisun. Molemmat algoritmit kilpailevat resursseista harjoittelun aikana, mutta yleistäminen lopulta voittaa, jos verkkoa koulutetaan lisäaineella, jota kutsutaan regularisaatioksi.

"Regulalisointi ajaa ratkaisun hitaasti kohti yleistysratkaisua", sanoi Liu. Tämä on prosessi, joka vähentää mallin toiminnallista kapasiteettia – toiminnon monimutkaisuutta, jonka malli voi oppia. Kun regularisointi karsii mallin monimutkaisuutta, yleistysalgoritmi, joka on vähemmän monimutkainen, lopulta voittaa. "Yleistäminen on yksinkertaisempaa samalle suoritustasolle", Nanda sanoi. Lopuksi hermoverkko hylkää muistamisalgoritmin.

Joten vaikka viivästynyt yleistyskyky näyttää ilmaantuvan yhtäkkiä, verkon parametrit oppivat jatkuvasti yleistysalgoritmia. Vasta kun verkko on sekä oppinut yleistysalgoritmin että poistanut muistamisalgoritmin kokonaan, alat hyökätä. "On mahdollista, että äkilliseltä näyttävät asiat todella tapahtuvat vähitellen pinnan alla", Nanda sanoi - ongelma, joka on tullut esille myös muu koneoppimistutkimus.

Näistä läpimurroista huolimatta on tärkeää muistaa, että grokking-tutkimus on vielä lapsenkengissään. Toistaiseksi tutkijat ovat tutkineet vain erittäin pieniä verkkoja, eikä ole selvää, pätevätkö nämä havainnot suurempien, tehokkaampien verkkojen kanssa. Belkin varoittaa myös, että modulaarinen aritmetiikka on "pisara meressä" verrattuna kaikkiin tehtäviin, joita nykypäivän hermoverkot tekevät. Neuroverkon ratkaisun käänteinen suunnittelu tällaiseen matematiikkaan ei ehkä riitä ymmärtämään yleisiä periaatteita, jotka ohjaavat näitä verkkoja kohti yleistämistä. "On hienoa tutkia puita", Belkin sanoi. "Mutta meidän täytyy myös tutkia metsää."

Siitä huolimatta kyvyllä vertailla näitä verkkoja ja ymmärtää niitä analyyttisesti on valtava vaikutus. Useimmille meistä Fourier-muunnokset ja ympyrän puolikkaat ovat hyvin outo tapa tehdä modulo-lisäys – ihmisen neuronit eivät vain ajattele niin. "Mutta jos olet rakennettu lineaarisesta algebrasta, on todella järkevää tehdä se tällä tavalla", sanoi Nanda.

"Nämä omituiset [keinotekoiset] aivot toimivat eri tavalla kuin omamme", hän sanoi. "[Heillä] on omat säännöt ja rakenne. Meidän on opittava ajattelemaan, miten hermoverkko ajattelee."

Aikaleima:

Lisää aiheesta Kvantamagatsiini