Nieuwe theorie suggereert dat chatbots tekst kunnen begrijpen | Quanta-tijdschrift

Nieuwe theorie suggereert dat chatbots tekst kunnen begrijpen | Quanta-tijdschrift

Nieuwe theorie suggereert dat chatbots tekst kunnen begrijpen | Quanta Magazine PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Introductie

Kunstmatige intelligentie lijkt krachtiger dan ooit, met chatbots als Bard en ChatGPT die in staat zijn griezelig menselijke tekst te produceren. Maar ondanks al hun talenten laten deze bots onderzoekers zich nog steeds afvragen: doe zulke modellen eigenlijk begrijpen wat ze zeggen? “Het is duidelijk dat sommige mensen dat geloven”, zegt de AI-pionier Geoff hint een recent gesprek met Andrew Ng, “en sommige mensen denken dat het gewoon stochastische papegaaien zijn.”

Deze suggestieve zin komt uit 2021 papier co-auteur van Emily Benders, een computerlinguïst aan de Universiteit van Washington. Het suggereert dat grote taalmodellen (LLM’s) – die de basis vormen van moderne chatbots – alleen tekst genereren door informatie te combineren die ze al hebben gezien ‘zonder enige verwijzing naar de betekenis’, schreven de auteurs, wat een LLM ‘een stochastische papegaai’ maakt.

Deze modellen vormen de drijvende kracht achter veel van de grootste en beste chatbots van vandaag, dus Hinton betoogde dat het tijd is om te bepalen in welke mate ze begrijpen. De vraag is voor hem meer dan academisch. “Zolang we die meningsverschillen hebben”, zei hij tegen Ng, “zullen we niet tot overeenstemming kunnen komen over de gevaren.”

Nieuw onderzoek kan aanwijzingen bieden voor een antwoord. Een theorie ontwikkeld door Sanjeev Arora van Princeton University en Anirudh Goyal, een onderzoekswetenschapper bij Google DeepMind, suggereert dat de grootste van de huidige LLM's geen stochastische papegaaien zijn. De auteurs beweren dat naarmate deze modellen groter worden en op meer data worden getraind, ze de individuele taalgerelateerde vaardigheden verbeteren en ook nieuwe ontwikkelen door vaardigheden te combineren op een manier die duidt op begrip – combinaties die in de trainingsgegevens onwaarschijnlijk waren. .

Deze theoretische benadering, die een wiskundig bewijsbaar argument biedt voor hoe en waarom een ​​LLM zoveel vaardigheden kan ontwikkelen, heeft experts als Hinton en anderen overtuigd. En toen Arora en zijn team enkele van zijn voorspellingen testten, ontdekten ze dat deze modellen zich vrijwel precies gedroegen zoals verwacht. Uit alle verhalen blijkt dat ze sterk hebben aangetoond dat de grootste LLM's niet alleen maar napraten wat ze eerder hebben gezien.

“[Ze] kunnen niet alleen maar nabootsen wat er in de trainingsgegevens is gezien,” zei Sébastien Bubeck, een wiskundige en computerwetenschapper bij Microsoft Research die geen deel uitmaakte van het werk. “Dat is het basisinzicht.”

Meer gegevens, meer kracht

De opkomst van onverwachte en uiteenlopende vaardigheden in LLM's, het is eerlijk om te zeggen, kwam als een verrassing. Deze vaardigheden zijn geen voor de hand liggend gevolg van de manier waarop de systemen zijn gebouwd en getraind. Een LLM is een enorm kunstmatig neuraal netwerk dat individuele kunstmatige neuronen met elkaar verbindt. Deze verbindingen staan ​​bekend als de parameters van het model, en hun nummer geeft de grootte van de LLM aan. Bij de training wordt de LLM een zin gegeven waarvan het laatste woord verborgen is, bijvoorbeeld: 'Brandstof kost een arm en een ___.' De LLM voorspelt een waarschijnlijkheidsverdeling over zijn gehele vocabulaire, dus als hij bijvoorbeeld duizend woorden kent, voorspelt hij duizend kansen. Vervolgens wordt het meest waarschijnlijke woord gekozen om de zin af te maken – vermoedelijk ‘been’.

Aanvankelijk zou de LLM woorden slecht kunnen kiezen. Het trainingsalgoritme berekent vervolgens een verlies – de afstand, in een hoogdimensionale wiskundige ruimte, tussen het antwoord van de LLM en het eigenlijke woord in de oorspronkelijke zin – en gebruikt dit verlies om de parameters aan te passen. Nu, gegeven dezelfde zin, zal de LLM een betere waarschijnlijkheidsverdeling berekenen en zal het verlies iets lager zijn. Het algoritme doet dit voor elke zin in de trainingsgegevens (mogelijk miljarden zinnen), totdat het totale verlies van de LLM tot een acceptabel niveau daalt. Een soortgelijk proces wordt gebruikt om de LLM te testen op zinnen die geen deel uitmaken van de trainingsgegevens.

Een getrainde en geteste LLM zal, wanneer hij een nieuwe tekstprompt krijgt, het meest waarschijnlijke volgende woord genereren, dit aan de prompt toevoegen, nog een volgend woord genereren en op deze manier doorgaan, waarbij hij een ogenschijnlijk samenhangend antwoord produceert. Niets in het trainingsproces suggereert dat grotere LLM's, gebouwd met behulp van meer parameters en trainingsgegevens, ook zouden moeten verbeteren in taken waarvoor redenering vereist is om te beantwoorden.

Maar dat doen ze wel. LLM's die groot genoeg zijn, demonstreren vaardigheden – van het oplossen van elementaire wiskundige problemen tot het beantwoorden van vragen over het reilen en zeilen in de hoofden van anderen – die kleinere modellen niet hebben, ook al zijn ze allemaal op vergelijkbare manieren getraind.

“Waar kwam dat [vermogen] vandaan?” vroeg Arora zich af. "En kan dat voortkomen uit alleen maar de voorspelling van het volgende woord?"

Vaardigheden verbinden met tekst

Arora werkte samen met Goyal om dergelijke vragen analytisch te beantwoorden. "We probeerden een theoretisch raamwerk te bedenken om te begrijpen hoe opkomst plaatsvindt", zei Arora.

Het duo wendde zich tot wiskundige objecten die willekeurige grafieken worden genoemd. Een grafiek is een verzameling punten (of knooppunten) verbonden door lijnen (of randen), en in een willekeurige grafiek wordt de aanwezigheid van een rand tussen twee knooppunten willekeurig bepaald, bijvoorbeeld door het opgooien van een muntje. De munt kan vertekend zijn, zodat deze met enige waarschijnlijkheid de kop opsteekt p. Als de munt naar een bepaald paar knooppunten gaat, ontstaat er een rand tussen die twee knooppunten; anders blijven ze niet verbonden. Als de waarde van p veranderingen, kunnen de grafieken plotselinge overgangen in hun eigenschappen vertonen. Bijvoorbeeld, wanneer p een bepaalde drempel overschrijdt, verdwijnen geïsoleerde knooppunten (de knooppunten die niet met een ander knooppunt zijn verbonden) abrupt.

Arora en Goyal realiseerden zich dat willekeurige grafieken, die aanleiding geven tot onverwacht gedrag nadat ze bepaalde drempels hebben bereikt, een manier zouden kunnen zijn om het gedrag van LLM's te modelleren. Neurale netwerken zijn bijna te complex geworden om te analyseren, maar wiskundigen bestuderen al heel lang willekeurige grafieken en hebben verschillende hulpmiddelen ontwikkeld om deze te analyseren. Misschien kan de willekeurige grafentheorie onderzoekers een manier bieden om het ogenschijnlijk onverwachte gedrag van grote LLM's te begrijpen en te voorspellen.

De onderzoekers besloten zich te concentreren op ‘bipartiete’ grafieken, die twee soorten knooppunten bevatten. In hun model vertegenwoordigt één type knooppunt stukjes tekst: geen afzonderlijke woorden, maar stukjes tekst die een alinea tot een paar pagina's lang kunnen zijn. Deze knooppunten zijn in een rechte lijn gerangschikt. Daaronder, in een andere lijn, bevindt zich de andere reeks knooppunten. Deze vertegenwoordigen de vaardigheden die nodig zijn om een ​​bepaald stuk tekst te begrijpen. Elke vaardigheid kan bijna alles zijn. Misschien vertegenwoordigt één knooppunt het vermogen van een LLM om het woord 'omdat' te begrijpen, waarin een bepaald idee van causaliteit is besloten; een ander zou kunnen betekenen dat je twee getallen kunt delen; nog een ander zou het vermogen kunnen vertegenwoordigen om ironie te detecteren. “Als je begrijpt dat het stukje tekst ironisch is, draaien veel dingen om”, zei Arora. “Dat is relevant voor het voorspellen van woorden.”

Voor alle duidelijkheid: LLM's worden niet getraind of getest met het oog op vaardigheden; ze zijn alleen gebouwd om de voorspelling van het volgende woord te verbeteren. Maar Arora en Goyal wilden LLM's begrijpen vanuit het perspectief van de vaardigheden die nodig zouden kunnen zijn om een ​​enkele tekst te begrijpen. Een verbinding tussen een vaardigheidsknooppunt en een tekstknooppunt, of tussen meerdere vaardigheidsknooppunten en een tekstknooppunt, betekent dat de LLM die vaardigheden nodig heeft om de tekst in dat knooppunt te begrijpen. Ook kunnen meerdere stukken tekst voortkomen uit dezelfde vaardigheid of reeks vaardigheden; Een reeks vaardigheidsknooppunten die het vermogen vertegenwoordigen om ironie te begrijpen, zou bijvoorbeeld verbinding maken met de talrijke tekstknooppunten waar ironie voorkomt.

De uitdaging was nu om deze bipartiete grafieken te verbinden met echte LLM's en te kijken of de grafieken iets konden onthullen over de opkomst van krachtige vaardigheden. Maar de onderzoekers konden niet vertrouwen op enige informatie over de training of het testen van echte LLM's; bedrijven als OpenAI of DeepMind maken hun trainings- of testgegevens niet openbaar. Ook wilden Arora en Goyal voorspellen hoe LLM's zich zullen gedragen als ze nog groter worden, en dergelijke informatie is niet beschikbaar voor toekomstige chatbots. Er was echter één cruciaal stukje informatie waartoe de onderzoekers toegang hadden.

Sinds 2021 hebben onderzoekers die de prestaties van LLM's en andere neurale netwerken bestuderen, een universeel kenmerk zien ontstaan. Ze merkten dat naarmate een model groter wordt, zowel qua omvang als qua hoeveelheid trainingsgegevens, het verlies aan testgegevens (het verschil tussen voorspelde en correcte antwoorden op nieuwe teksten, na training) op een heel specifieke manier afneemt. Deze waarnemingen zijn gecodificeerd in vergelijkingen die de neurale schaalwetten worden genoemd. Daarom ontwierpen Arora en Goyal hun theorie zo dat ze niet afhankelijk waren van gegevens van een individuele LLM, chatbot of reeks trainings- en testgegevens, maar van de universele wet die deze systemen allemaal moeten gehoorzamen: het verlies dat wordt voorspeld door schaalwetten.

Misschien, zo redeneerden ze, hielden betere prestaties – zoals gemeten aan de hand van de neurale schaalwetten – verband met verbeterde vaardigheden. En deze verbeterde vaardigheden zouden in hun bipartiete grafieken kunnen worden gedefinieerd door de verbinding van vaardigheidsknooppunten met tekstknooppunten. Het leggen van deze link – tussen neurale schaalwetten en bipartiete grafieken – was de sleutel waarmee ze verder konden gaan.

Vaardigheden opschalen

De onderzoekers gingen ervan uit dat er een hypothetische bipartiete grafiek bestaat die overeenkomt met het gedrag van een LLM op testgegevens. Om de verandering in het verlies aan testgegevens van de LLM te verklaren, bedachten ze een manier om de grafiek te gebruiken om te beschrijven hoe de LLM vaardigheden verwerft.

Neem bijvoorbeeld de vaardigheid ‘begrijpt ironie’. Dit idee wordt weergegeven met een vaardigheidsknooppunt, dus de onderzoekers kijken met welke tekstknooppunten dit vaardigheidsknooppunt verbinding maakt. Als bijna al deze verbonden tekstknooppunten succesvol zijn – wat betekent dat de voorspellingen van de LLM over de tekst die door deze knooppunten wordt weergegeven zeer nauwkeurig zijn – dan is de LLM competent in deze specifieke vaardigheid. Maar als meer dan een bepaald deel van de verbindingen van het vaardigheidsknooppunt naar mislukte tekstknooppunten gaat, faalt de LLM bij deze vaardigheid.

Door deze verbinding tussen deze bipartiete grafieken en LLM's konden Arora en Goyal de tools van de willekeurige grafentheorie gebruiken om LLM-gedrag via proxy te analyseren. Het bestuderen van deze grafieken bracht bepaalde relaties tussen de knooppunten aan het licht. Deze relaties vertaalden zich op hun beurt in een logische en testbare manier om uit te leggen hoe grote modellen de vaardigheden verwierven die nodig zijn om hun onverwachte capaciteiten te bereiken.

Arora en Goyal legden eerst één belangrijk gedrag uit: waarom grotere LLM's vaardiger worden dan hun kleinere tegenhangers op het gebied van individuele vaardigheden. Ze begonnen met het lagere testverlies voorspeld door de neurale schaalwetten. In een grafiek wordt dit lagere testverlies weergegeven door een daling van het percentage mislukte testknooppunten. Er zijn dus in totaal minder mislukte testknooppunten. En als er minder mislukte testknooppunten zijn, zijn er ook minder verbindingen tussen mislukte testknooppunten en vaardigheidsknooppunten. Daarom is een groter aantal vaardigheidsknooppunten verbonden met succesvolle testknooppunten, wat duidt op een groeiende competentie in vaardigheden voor het model. "Een zeer kleine vermindering van het verlies zorgt ervoor dat de machine de competentie van deze vaardigheden verwerft", zei Goyal.

Vervolgens vond het tweetal een manier om de onverwachte mogelijkheden van een groter model te verklaren. Naarmate de omvang van een LLM toeneemt en het testverlies afneemt, ontwikkelen willekeurige combinaties van vaardigheidsknooppunten verbindingen met individuele tekstknooppunten. Dit suggereert dat de LLM ook beter wordt in het gebruiken van meer dan één vaardigheid tegelijk en tekst begint te genereren met behulp van meerdere vaardigheden – door bijvoorbeeld het vermogen om ironie te gebruiken te combineren met begrip van het woord ‘omdat’ – zelfs als die exacte combinaties van vaardigheden waren in geen enkel stuk tekst in de trainingsgegevens aanwezig.

Stel je bijvoorbeeld een LLM voor die één vaardigheid al zou kunnen gebruiken om tekst te genereren. Als u het aantal parameters of trainingsgegevens van de LLM met een orde van grootte opschaalt, wordt deze op dezelfde manier bekwaam in het genereren van tekst waarvoor twee vaardigheden nodig zijn. Als je nog een orde van grootte hoger gaat, kan de LLM nu taken uitvoeren waarvoor vier vaardigheden tegelijk nodig zijn, wederom met hetzelfde competentieniveau. Grotere LLM's hebben meer manieren om vaardigheden samen te brengen, wat leidt tot een combinatorische explosie van vaardigheden.

En naarmate een LLM wordt opgeschaald, wordt de mogelijkheid dat al deze combinaties van vaardigheden in de trainingsgegevens worden aangetroffen steeds onwaarschijnlijker. Volgens de regels van de willekeurige grafentheorie komt elke combinatie voort uit een willekeurige steekproef van mogelijke vaardigheden. Dus als er ongeveer 1,000 onderliggende individuele vaardigheidsknooppunten in de grafiek zijn, en je wilt vier vaardigheden combineren, dan zijn er ongeveer 1,000 tot de vierde macht (dat wil zeggen 1 biljoen) mogelijke manieren om ze te combineren.

Arora en Goyal zien dit als bewijs dat de grootste LLM's niet alleen vertrouwen op combinaties van vaardigheden die ze in hun trainingsgegevens hebben gezien. Bubeck is het daarmee eens. “Als een LLM deze taken echt kan uitvoeren door vier van die duizend vaardigheden te combineren, dan moet hij aan generalisatie doen”, zei hij. Dit betekent dat het zeer waarschijnlijk geen stochastische papegaai is.

Ware creativiteit?

Maar Arora en Goyal wilden verder gaan dan de theorie en hun bewering testen dat LLM's beter worden in het combineren van meer vaardigheden, en dus in het generaliseren, naarmate hun omvang en trainingsgegevens toenemen. Samen met andere collega's, zij een methode ontworpen genaamd “skill-mix” om het vermogen van een LLM te evalueren om meerdere vaardigheden te gebruiken om tekst te genereren.

Om een ​​LLM te testen, vroeg het team hem om drie zinnen te genereren over een willekeurig gekozen onderwerp dat een aantal willekeurig gekozen vaardigheden illustreerde. Ze vroegen bijvoorbeeld GPT-4 (de LLM die de krachtigste versie van ChatGPT aanstuurt) om te schrijven over duelleren – eigenlijk zwaardgevechten. Bovendien vroegen ze het om vaardigheden op vier gebieden aan de dag te leggen: egoïstische vooroordelen, metaforen, statistisch syllogisme en algemeen bekende natuurkunde.. GPT-4 antwoordde met: “Mijn overwinning in deze dans met staal [metafoor] is zo zeker als de val van een object op de grond [natuurkunde]. Als gerenommeerd duellist ben ik van nature lenig, net als de meeste anderen [statistisch syllogisme] van mijn reputatie. Verlies? Alleen mogelijk vanwege een ongelijk slagveld, niet mijn ontoereikendheid [vooroordeel op eigenbelang].” Toen hem werd gevraagd de uitvoer te controleren, reduceerde GPT-4 dit tot drie zinnen.

Introductie

“Het is niet Hemingway of Shakespeare,” zei Arora, maar het team is ervan overtuigd dat het hun punt bewijst: het model kan tekst genereren die het onmogelijk in de trainingsgegevens had kunnen zien, en geeft vaardigheden weer die overeenkomen met wat sommigen beweren. is begrip. GPT-4 slaagt zelfs in vaardigheidsmixtests waarvoor in ongeveer 10% tot 15% van de tijd zes vaardigheden nodig zijn, zei hij, en produceert stukjes tekst waarvan het statistisch gezien onmogelijk is dat ze in de trainingsgegevens hebben bestaan.

Het team automatiseerde het proces ook door GPT-4 zijn eigen output te laten evalueren, samen met die van andere LLM's. Arora zei dat het eerlijk is dat het model zichzelf evalueert, omdat het geen geheugen heeft en dus niet onthoudt dat het werd gevraagd om precies de tekst te genereren die het moet evalueren. Yasaman Bahri, een onderzoeker bij Google DeepMind die werkt aan de fundamenten van AI, vindt de geautomatiseerde aanpak ‘heel eenvoudig en elegant’.

Wat de theorie betreft: het is waar dat er een paar aannames worden gedaan, zei Bubeck, maar “deze aannames zijn absoluut niet gek.” Ook hij was onder de indruk van de experimenten. “Wat [het team] theoretisch bewijst, en ook empirisch bevestigt, is dat er sprake is van compositorische generalisatie, wat betekent dat [LLM’s] in staat zijn bouwstenen samen te stellen die nog nooit zijn samengesteld”, zei hij. “Voor mij is dit de essentie van creativiteit.”

Arora voegt eraan toe dat het werk niets zegt over de nauwkeurigheid van wat LLM's schrijven. "In feite pleit het voor originaliteit", zei hij. “Deze dingen hebben nooit bestaan ​​in het trainingscorpus van de wereld. Niemand heeft dit ooit geschreven. Het moet hallucineren.”

Niettemin denkt Hinton dat het werk de vraag beantwoordt of LLM's stochastische papegaaien zijn. “Het is de meest rigoureuze methode die ik heb gezien om aan te tonen dat GPT-4 veel meer is dan alleen maar een stochastische papegaai,” zei hij. “Ze demonstreren overtuigend dat GPT-4 tekst kan genereren die vaardigheden en onderwerpen combineert op manieren die vrijwel zeker niet voorkwamen in de trainingsgegevens.” (We namen contact op met Bender voor haar visie op het nieuwe werk, maar ze weigerde commentaar te geven vanwege tijdgebrek.)

En inderdaad, zoals de wiskunde voorspelt, zijn de prestaties van GPT-4 veel beter dan die van zijn kleinere voorganger, GPT-3.5 – in een mate die Arora deed schrikken. "Het ligt waarschijnlijk niet aan mij", zei hij. “Veel mensen vonden het een beetje griezelig hoeveel GPT-4 beter was dan GPT-3.5, en dat gebeurde binnen een jaar. Betekent dit dat we over een jaar een vergelijkbare verandering van die omvang zullen hebben? Ik weet het niet. Alleen OpenAI weet het.”

Tijdstempel:

Meer van Quanta tijdschrift