Hogyan „Grok” adatokat a gépek? | Quanta Magazin

Hogyan „Grok” adatokat a gépek? | Quanta Magazin

How Do Machines ‘Grok’ Data? | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Bevezetés

Minden ragyogásuk ellenére a mesterséges neurális hálózatok ugyanolyan kifürkészhetetlenek maradnak, mint valaha. Ahogy ezek a hálózatok egyre nagyobbak lesznek, képességeik felrobbannak, de belső működésük megfejtése mindig is szinte lehetetlen volt. A kutatók folyamatosan keresik a betekintést ezekbe a modellekbe.

Néhány évvel ezelőtt felfedeztek egy újat.

2022 januárjában a ChatGPT mögött álló OpenAI kutatói jelentett hogy ezek a rendszerek, amikor véletlenül a szokásosnál sokkal hosszabb ideig hagyták rágcsálni az adatokat, egyedi megoldásokat fejlesztettek ki a problémák megoldására. Amikor a mérnökök gépi tanulási modelleket építenek fel neurális hálózatokból – amelyek mesterséges neuronoknak nevezett számítási egységekből állnak –, általában egy bizonyos ponton, az úgynevezett túlillesztési rendszeren leállítják a képzést. Ekkor a hálózat alapvetően elkezdi memorizálni a képzési adatait, és gyakran nem általánosít új, nem látott információkra. Ám amikor az OpenAI csapata véletlenül egy kis hálózatot kiképzett ezen a ponton túl, úgy tűnt, hogy a probléma megértése túlmutat az egyszerű memorizáláson – hirtelen bármilyen tesztadatot képes kezelni.

A kutatók a jelenséget „grokking”-nak nevezték el. Ezt a kifejezést Robert A. Heinlein tudományos-fantasztikus szerző alkotta meg, ami azt jelenti, hogy valamit „olyan alaposan megértenek, hogy a megfigyelő a megfigyelt folyamat részévé válik”. A túlképzett neurális hálózat, amelyet bizonyos matematikai műveletek elvégzésére terveztek, megtanulta a számok általános szerkezetét, és internalizálta az eredményt. Elakadt, és ez lett a megoldás.

„Ez nagyon izgalmas és elgondolkodtató volt” – mondta Mihail Belkin a San Diego-i Kaliforniai Egyetem munkatársa, aki a neurális hálózatok elméleti és empirikus tulajdonságait tanulmányozza. "Sok nyomon követési munkára sarkallt."

Valójában mások megismételték az eredményeket, és még vissza is fejtették azokat. A legfrissebb tanulmányok nem csak azt tisztázták, hogy mit csinálnak ezek a neurális hálózatok, amikor elterjednek, hanem egy új lencsét is biztosítottak a belsőségük vizsgálatához. „A grokking-beállítás olyan, mint egy jó modellorganizmus a mély tanulás sok különböző aspektusának megértéséhez” – mondta Eric Michaud a Massachusetts Institute of Technology munkatársa.

Ennek a szervezetnek a belsejébe való betekintés időnként egészen leleplező. „Nemcsak szép szerkezetet találhatunk, de ez a gyönyörű szerkezet fontos a belső folyamatok megértéséhez is” – mondta Neel Nanda, most a londoni Google DeepMindben.

Túl a határokon

Alapvetően a gépi tanulási modell feladata egyszerűnek tűnik: egy adott bemenetet alakítson át kívánt kimenetté. A tanulási algoritmus feladata, hogy megkeresse a lehető legjobb függvényt, amely képes erre. Egy adott modell csak korlátozott számú funkcióhoz férhet hozzá, és ezt a halmazt gyakran a modellben szereplő paraméterek száma határozza meg, ami neurális hálózatok esetében nagyjából megegyezik a mesterséges neuronok közötti kapcsolatok számával.

Bevezetés

A hálózat edzés közben hajlamos bonyolultabb funkciókat tanulni, és a várt és a tényleges kimenet közötti eltérés a betanítási adatokra kezd csökkenni. Még jobb, hogy ez az eltérés, amelyet veszteségnek neveznek, a tesztadatok esetében is csökkenni kezd, amelyek új adatok, amelyeket nem használnak a képzésben. Ám egy ponton a modell túlságosan illeszkedik, és miközben a képzési adatok vesztesége folyamatosan csökken, a tesztadatok vesztesége növekedni kezd. Tehát általában ekkor hagyják abba a kutatók a hálózat képzését.

Ez volt az uralkodó bölcsesség, amikor az OpenAI csapata elkezdte vizsgálni, hogyan tud egy neurális hálózat matematikailag. Kicsit használtak transzformátor – egy hálózati architektúra, amely a közelmúltban forradalmasította a nagy nyelvi modelleket – különféle moduláris aritmetika elvégzésére, amelyben korlátozott számokkal dolgozhat, amelyek visszahurkolják magukat. A Modulo 12 például elvégezhető egy óra számlapján: 11 + 2 = 1. A csapat bemutatta a hálózati példákat két szám összeadására, a és a bkimenet előállításához, c, modulo 97-ben (egyenértékű egy 97 számot tartalmazó óralappal). Ezután a transzformátort nem látott kombinációkon tesztelték a és a b hátha helyesen jósol c.

Ahogy az várható volt, amikor a hálózat túlillesztési rendszerbe lépett, a képzési adatok vesztesége a nullához közelített (elkezdte memorizálni a látottakat), és a tesztadatok elvesztése növekedni kezdett. Ez nem általánosítás volt. „És egy napon szerencsénk volt” – mondta Alethea Power csapatvezető. 2022 szeptemberében beszélt konferencián San Franciscóban. – És szerencsén a feledékenységet értem.

A hálózatot kiképző csapattag nyaralni ment, és elfelejtette abbahagyni a képzést. Ahogy a hálózat ezen verziója tovább edzett, hirtelen pontossá vált a nem látott adatok alapján. Az automatikus tesztelés felfedte ezt a váratlan pontosságot a csapat többi tagja számára, és hamarosan rájöttek, hogy a hálózat okos módszereket talált a számok elrendezésére. a és a b. Belsőleg a hálózat valamilyen nagy dimenziós térben jeleníti meg a számokat, de amikor a kutatók ezeket a számokat levetítették a 2D térre, és feltérképezték őket, a számok kört alkottak.

Ez elképesztő volt. A csapat soha nem mondta el a modellnek, hogy modulo 97 matematikát csinál, és még azt sem, hogy mit jelent a modulo – csak példákat mutattak be az aritmetikára. Úgy tűnt, hogy a modell valami mélyebb, elemző megoldásba botlott – egy egyenletbe, amely általánosított minden kombinációra. a és a b, még az edzési adatokon túl is. A hálózat tönkrement, és a tesztadatok pontossága 100%-ra nőtt. „Ez furcsa” – mondta Power hallgatóságának.

A csapat különböző feladatok és különböző hálózatok segítségével ellenőrizte az eredményeket. A felfedezés megmaradt.

Órákról és Pizzákról

De milyen egyenletet talált a hálózat? Az OpenAI lap nem közölte, de az eredmény felkeltette Nanda figyelmét. "A neurális hálózatokkal kapcsolatos egyik alapvető rejtély és bosszantó dolog az, hogy nagyon jók abban, amit csinálnak, de alapértelmezés szerint fogalmunk sincs, hogyan működnek" - mondta Nanda, akinek a munkája egy képzett személy visszafejtésére összpontosít. hálózatot, hogy megtudja, milyen algoritmusokat tanult meg.

Nandát lenyűgözte az OpenAI felfedezése, és elhatározta, hogy szétválaszt egy neurális hálózatot, amely elakadt. Megtervezte az OpenAI neurális hálózat egy még egyszerűbb változatát, hogy alaposan megvizsgálhassa a modell paramétereit, miközben megtanulta a moduláris aritmetikát. Ugyanezt a viselkedést tapasztalta: a túlillesztést, amely átadta a helyét az általánosításnak és a teszt pontosságának ugrásszerű javulásának. Hálózata a számokat is körbe rendezte. Kellett némi erőfeszítés, de Nanda végül rájött, miért.

Miközben a számokat egy körön ábrázolta, a hálózat nem egyszerűen számjegyeket számolt, mint egy óvodás, aki az órát figyelte: néhány kifinomult matematikai manipulációt végzett. A hálózat paramétereinek értékeinek tanulmányozásával, Nanda és munkatársai felfedték hogy az óraszámokat úgy adta össze, hogy „diszkrét Fourier-transzformációkat” hajt végre rajtuk – trigonometrikus függvényekkel, például szinuszokkal és koszinuszokkal transzformálta a számokat, majd ezeket az értékeket trigonometrikus azonosságok segítségével manipulálta a megoldáshoz. Legalábbis az ő hálózata ezt tette.

Amikor egy csapat az MIT-n nyomon követik Nanda munkája során megmutatták, hogy a neurális hálózatok nem mindig fedezik fel ezt az „óra” algoritmust. Néha a hálózatok ehelyett megtalálják azt, amit a kutatók „pizza” algoritmusnak neveznek. Ez a megközelítés egy pizzát képzel el szeletekre osztva és sorrendben számozva. Két szám összeadásához képzelje el, hogy nyilakat rajzol a pizza közepétől a kérdéses számokhoz, majd kiszámítja azt a vonalat, amely felezi az első két nyíl által alkotott szöget. Ez a vonal a pizza néhány szeletének közepén halad át: A szelet száma a két szám összege. Ezek a műveletek a szinuszok és koszinuszok trigonometrikus és algebrai manipulációival is leírhatók. a és a b, és elméletileg pont olyan pontosak, mint az óra.

Bevezetés

"Mind az óra, mind a pizza algoritmusok rendelkeznek ezzel a körkörös ábrázolással" - mondta Ziming Liu, az MIT csapatának tagja. „De… az, hogy hogyan használják fel ezeket a szinuszokat és a koszinuszokat, az különbözik. Ezért nevezzük őket különböző algoritmusoknak.”

És ez még nem volt minden. Miután számos hálózatot betanítottak a modulo matematikára, Liu és munkatársai felfedezték, hogy az e hálózatok által felfedezett algoritmusok körülbelül 40%-a pizza- vagy óraalgoritmusok változata. A csapat nem tudta megfejteni, mit csinálnak a hálózatok a hátralévő időben. A pizza- és óraalgoritmus esetében „egyszerűen előfordul, hogy talál valamit, amit mi, emberek is tudunk értelmezni” – mondta Liu.

Bármilyen algoritmust is tanul meg a hálózat, amikor problémát okoz, még erősebb az általánosításban, mint azt a kutatók feltételezték. Amikor egy csapat a Marylandi Egyetemen egy egyszerű neurális hálózatot táplál edzési adatok véletlenszerű hibákkal, a hálózat eleinte a várt módon viselkedett: Túlillesztette a képzési adatokat, hibákat és minden mást, és rosszul teljesít a sértetlen tesztadatokon. Azonban amint a hálózat kitört és elkezdett helyesen válaszolni a tesztkérdésekre, még a rossz bejegyzésekre is képes volt helyes válaszokat adni, elfelejtve a megjegyzett helytelen válaszokat, és még a betanítási adataira is általánosított. "A grokking feladat valójában meglehetősen robusztus az ilyen típusú korrupciókkal szemben" - mondta Darshil Doshi, a lap egyik szerzője.

Harc az irányításért

Ennek eredményeként a kutatók most kezdik megérteni azt a folyamatot, amely ahhoz vezet, hogy egy hálózat összegyűjti az adatokat. Nanda a grokking látszólagos kifelé irányuló hirtelenségét a memorizálásról az általánosításra való fokozatos belső átmenet eredményének tekinti, amely két különböző algoritmust használ a neurális hálózaton belül. Amikor egy hálózat elkezd tanulni, először kitalálja a könnyebb memorizálási algoritmust; azonban annak ellenére, hogy az algoritmus egyszerűbb, jelentős erőforrásokat igényel, mivel a hálózatnak meg kell jegyeznie a betanítási adatok minden egyes példányát. De még a memorizálás közben is, a neurális hálózat egyes részei elkezdenek áramköröket alkotni, amelyek megvalósítják az általános megoldást. A két algoritmus verseng az erőforrásokért a képzés során, de az általánosítás végül győz, ha a hálózatot egy további összetevővel, az úgynevezett regularizációval képezik.

„A rendszeresítés lassan az általánosítási megoldás felé tereli a megoldást” – mondta Liu. Ez egy olyan folyamat, amely csökkenti a modell funkcionális kapacitását – a modell által megtanulható függvény összetettségét. Amint a regularizáció csökkenti a modell komplexitását, végül a kevésbé bonyolult általánosító algoritmus győzedelmeskedik. „Az általánosítás egyszerűbb ugyanazon [szintű] teljesítményhez” – mondta Nanda. Végül a neurális hálózat elveti a memorizálási algoritmust.

Tehát, miközben úgy tűnik, hogy a késleltetett általánosítási képesség hirtelen megjelenik, belül a hálózat paraméterei folyamatosan tanulják az általánosító algoritmust. Csak ha a hálózat megtanulta az általánosító algoritmust, és teljesen eltávolította a memorizáló algoritmust, akkor akadozik el. „Lehetséges, hogy a hirtelennek tűnő dolgok valójában fokozatosan mennek végbe a felszín alatt” – mondta Nanda – ez a probléma is felmerült egyéb gépi tanulási kutatások.

Ezen áttörések ellenére fontos emlékeznünk arra, hogy a grokking-kutatás még gyerekcipőben jár. Eddig a kutatók csak rendkívül kicsi hálózatokat vizsgáltak, és nem világos, hogy ezek az eredmények érvényesek-e nagyobb, erősebb hálózatokra. Belkin arra is figyelmeztet, hogy a moduláris aritmetika „csepp a tengerben” a mai neurális hálózatok által végzett különféle feladatokhoz képest. A neurális hálózatok ilyen matematikai megoldásainak visszafejtése nem biztos, hogy elég ahhoz, hogy megértsük azokat az általános elveket, amelyek ezeket a hálózatokat az általánosítás felé hajtják. „Nagyszerű a fákat tanulmányozni” – mondta Belkin. – De az erdőt is tanulmányoznunk kell.

Mindazonáltal a hálózatokba való betekintés és azok analitikus megértése óriási következményekkel jár. A legtöbbünk számára a Fourier-transzformációk és a körívek felező ívei nagyon furcsa módja a modulo összeadásnak – az emberi neuronok egyszerűen nem így gondolkodnak. „De ha az ember lineáris algebrából épül fel, akkor valójában nagyon logikus ezt így csinálni” – mondta Nanda.

"Ezek a furcsa [mesterséges] agyak másképp működnek, mint a miénk" - mondta. „[Megvannak a maguk szabályai és felépítése. Meg kell tanulnunk gondolkodni, hogyan gondolkodik egy neurális hálózat.”

Időbélyeg:

Még több Quantamagazine