Vad innebär det att anpassa AI med mänskliga värderingar?

Återutgiven av Platon

anhängare: 0

För många år sedan lärde jag mig att programmera på en gammal Symbolics Lisp Machine. Operativsystemet hade ett inbyggt kommando stavat "DWIM", en förkortning för "Do What I Mean". Om jag skrev ett kommando och fick ett fel, kunde jag skriva "DWIM", och maskinen skulle försöka ta reda på vad jag menade att göra. En överraskande bråkdel av tiden fungerade det faktiskt.

DWIM-kommandot var ett mikrokosmos av det mer moderna problemet med "AI-anpassning": Vi människor är benägna att ge maskiner tvetydiga eller felaktiga instruktioner, och vi vill att de ska göra vad vi menar, inte nödvändigtvis vad vi säger.

Datorer misstolkar ofta vad vi vill att de ska göra, med oväntade och ofta underhållande resultat. En maskininlärningsforskare, till exempel, undersökte ett bildklassificeringsprograms misstänkt goda resultat, upptäckt att den baserade klassificeringar inte på själva bilden, utan på hur lång tid det tog att komma åt bildfilen — bilderna från olika klasser lagrades i databaser med lite olika åtkomsttider. Annan driftig programmerare ville att hans Roomba-dammsugare skulle sluta stöta på möbler, så han kopplade Roomba till ett neuralt nätverk som belönade hastighet men straffade Roomba när den främre stötfångaren kolliderade med något. Maskinen klarade dessa mål genom att alltid köra bakåt.

Men gemenskapen av AI-anpassningsforskare ser en mörkare sida av dessa anekdoter. De tror faktiskt att maskinernas oförmåga att urskilja vad vi verkligen vill att de ska göra är en existentiell risk. För att lösa detta problem, tror de, måste vi hitta sätt att anpassa AI-system med mänskliga preferenser, mål och värderingar.

Denna uppfattning fick framträdande plats med 2014 års bästsäljande bok Superintelligens av filosofen Nick Bostrom, som delvis hävdade att datorernas ökande intelligens kunde utgöra ett direkt hot mot mänsklighetens framtid. Bostrom definierade aldrig intelligens exakt, men som de flesta andra inom AI-anpassningsgemenskapen antog han en definition senare ledade av AI-forskaren Stuart Russell som: "En enhet anses vara intelligent, grovt sett, om den väljer åtgärder som förväntas uppnå sina mål, givet vad den har uppfattat."

Bostrom grundade sin syn på AI:s risker på två teser. Den första är ortogonalitetsavhandlingen, som säger, med Bostroms ord, "Intelligens och slutmål är ortogonala axlar längs vilka möjliga agenter fritt kan variera. Med andra ord, mer eller mindre vilken nivå av intelligens som helst skulle i princip kunna kombineras med mer eller mindre vilket slutmål som helst.” Den andra är den instrumentella konvergenstesen, som innebär att en intelligent agent kommer att agera på sätt som främjar sin egen överlevnad, självförbättring och förvärv av resurser, så länge dessa gör att agenten mer sannolikt att uppnå sitt slutliga mål. Sedan gjorde han ett sista antagande: Forskare skulle snart skapa en AI-superintelligens - en som "avsevärt överstiger människors kognitiva prestanda inom praktiskt taget alla intresseområden."

För Bostrom och andra i AI-anpassningsgemenskapen innebär detta perspektiv undergång för mänskligheten om vi inte lyckas anpassa superintelligenta AI:er med våra önskningar och värderingar. Bostrom illustrerar denna fara med ett numera berömt tankeexperiment: Föreställ dig att ge en superintelligent AI målet att maximera produktionen av gem. Enligt Bostroms teser kommer AI-systemet i strävan att uppnå detta mål att använda sin övermänskliga briljans och kreativitet för att öka sin egen kraft och kontroll, och i slutändan skaffa sig alla världens resurser för att tillverka fler gem. Mänskligheten kommer att dö ut, men gemproduktionen kommer verkligen att maximeras.

Om du tror att intelligens definieras av förmågan att uppnå mål, att vilket mål som helst kan "sättas in" av människor i en superintelligent AI-agent, och att en sådan agent skulle använda sin superintelligens för att göra vad som helst för att uppnå det målet, då kommer du att komma fram till detsamma slutsats som Russell gjorde: "Allt som behövs för att säkerställa katastrof är en mycket kompetent maskin kombinerad med människor som har en ofullkomlig förmåga att specificera mänskliga preferenser fullständigt och korrekt."

Det är en välbekant trop inom science fiction - mänskligheten hotas av utomkontrollerade maskiner som har misstolkat mänskliga begär. Nu är ett inte obetydligt segment av AI-forskningssamhället djupt oroade över denna typ av scenario som utspelar sig i verkligheten. Dussintals institut har redan spenderat hundratals miljoner dollar på problemet, och forskningsinsatser om anpassning pågår vid universitet runt om i världen och på stora AI-företag som Google, Meta och OpenAI.

Hur är det med de mer omedelbara riskerna med icke-superintelligent AI, såsom förlust av jobb, partiskhet, integritetskränkningar och spridning av desinformation? Det visar sig att det finns liten överlappning mellan de samhällen som i första hand berörs av sådana kortsiktiga risker och de som oroar sig mer för långsiktiga anpassningsrisker. Faktum är att det finns något av ett AI-kulturkrig, där ena sidan är mer orolig för dessa nuvarande risker än vad de ser som orealistisk teknofuturism, och den andra sidan anser att nuvarande problem är mindre brådskande än de potentiella katastrofrisker som superintelligent AI utgör.

För många utanför dessa specifika samhällen ser AI-anpassning ungefär ut som en religion - en med vördade ledare, obestridda doktriner och hängivna lärjungar som kämpar mot en potentiellt allsmäktig fiende (ojämn superintelligent AI). Faktum är att datavetaren och bloggaren Scott Aaronson nyligen noterade att det nu finns "ortodoxa" och "reform"-grenar av AI-anpassningstron. Den förra, skriver han, oroar sig nästan helt för "feljusterad AI som lurar människor medan den arbetar för att förstöra dem." Däremot skriver han, "vi Reform AI-riskanter hyser den möjligheten, men vi oroar oss minst lika mycket för kraftfulla AI: er som beväpnas av dåliga människor, som vi förväntar oss att utgöra existentiella risker mycket tidigare."

Många forskare är aktivt engagerade i anpassningsbaserade projekt, allt från försök att förmedla principer moralfilosofi till maskiner, till utbildning av stora språkmodeller om etiska bedömningar av crowdsourcing. Ingen av dessa ansträngningar har varit särskilt användbara för att få maskiner att resonera om verkliga situationer. Många författare har noterat de många hindren som hindrar maskiner från att lära sig mänskliga preferenser och värderingar: Människor är ofta irrationella och beter sig på ett sätt som motsäger deras värderingar, och värderingar kan förändras över individuella liv och generationer. Det är trots allt inte klart vems värderingar vi ska låta maskiner försöka lära sig.

Många i anpassningsgemenskapen tror att den mest lovande vägen framåt är en maskininlärningsteknik som kallas invers förstärkningsinlärning (IRL). Med IRL har maskinen inte ett mål att maximera; sådana "infogade" mål, tror anpassningsförespråkare, kan oavsiktligt leda till scenarier för att maximera gem. Istället är maskinens uppgift att observera människors beteende och härleda deras preferenser, mål och värderingar. Under de senaste åren har forskare använt IRL för att träna maskiner för att spela tv-spel genom att observera människor och att lära ut robotar hur man gör backflips genom att ge dem inkrementell feedback från människor (människor tittade på korta klipp av en robots olika försök och valde den som såg bäst ut).

Det är oklart om liknande metoder kan lära maskiner de mer subtila och abstrakta idéerna om mänskliga värden. Författaren Brian Christian, författare till en populärvetenskaplig bok om AI-anpassning, är optimistisk: "Det är inte så svårt att föreställa sig att ersätta det oklara konceptet "backflip" med ett ännu mer oklart och outsägligt koncept, som "hjälpsamhet." Eller "vänlighet". Eller "bra" beteende."

Jag tror dock att detta underskattar utmaningen. Etiska föreställningar som vänlighet och gott beteende är mycket mer komplexa och kontextberoende än något IRL har bemästrat hittills. Tänk på begreppet "sanning" - ett värde som vi verkligen vill ha i våra AI-system. Ett stort problem med dagens stora språkmodeller är faktiskt deras oförmåga att skilja sanning från lögn. Samtidigt kan vi ibland vilja att våra AI-assistenter, precis som människor, ska dämpa sin sanningsenlighet: för att skydda privatlivet, för att undvika att förolämpa andra eller för att skydda någon, bland otaliga andra svårartikulerade situationer.

Andra etiska begrepp är lika komplexa. Det borde stå klart att ett viktigt första steg mot att lära ut maskiners etiska begrepp är att göra det möjligt för maskiner att förstå mänskliga begrepp i första hand, vilket jag har hävdat fortfarande är AI:s det viktigaste öppna problemet.

Dessutom ser jag ett ännu mer grundläggande problem med vetenskapen bakom föreställningarna om AI-anpassning. De flesta diskussioner föreställer sig en superintelligent AI som en maskin som, även om den överträffar människor i alla kognitiva uppgifter, fortfarande saknar mänskligt sunt förnuft och förblir märkligt mekanisk till sin natur. Och viktigare, i enlighet med Bostroms ortogonalitetsavhandling har maskinen uppnått superintelligens utan att ha några egna mål eller värderingar, istället väntat på att mål ska sättas in av människor.

Men kunde intelligens fungera på det här sättet? Ingenting i den nuvarande vetenskapen om psykologi eller neurovetenskap stödjer denna möjlighet. Åtminstone hos människor är intelligens djupt sammankopplad med våra mål och värderingar, såväl som vår självkänsla och vår speciella sociala och kulturella miljö. Intuitionen att en sorts ren intelligens skulle kunna skiljas från dessa andra faktorer har lett till många misslyckade förutsägelser i AI:s historia. Vad vi vet verkar det mycket mer troligt att ett allmänt intelligent AI-systems mål inte skulle kunna infogas lätt, utan skulle behöva utvecklas, som vårt, som ett resultat av sin egen sociala och kulturella uppväxt.

I sin bok Mänsklig kompatibel, argumenterar Russell för det brådskande med forskning om anpassningsproblemet: ”Rätt tidpunkt att oroa sig för ett potentiellt allvarligt problem för mänskligheten beror inte bara på när problemet kommer att uppstå utan också på hur lång tid det kommer att ta att förbereda och implementera en lösning. ” Men utan en bättre förståelse för vad intelligens är och hur skiljbar den är från andra aspekter av våra liv, kan vi inte ens definiera problemet, än mindre hitta en lösning. Att korrekt definiera och lösa anpassningsproblemet kommer inte att vara lätt; det kommer att kräva att vi utvecklar en bred, vetenskapligt baserad teori om intelligens.

Tidsstämpel: December 13, 2022December 13, 2022

Tidsstämpel: September 15, 2022

Vad innebär det att anpassa AI med mänskliga värderingar?

Återutgiven av Platon

Mer från Quantamagazin

Datavetenskapliga bevis avslöjar oväntad form av förveckling

Maskiner lär sig bättre om vi lär dem grunderna

Varför matematiker återbevisar vad de redan vet

Hur man bygger en Origami-dator | Quanta Magazine

En fråga om en roterande linje hjälper till att avslöja vad som gör verkliga siffror speciella

Hur kan oändligt många primtal vara oändligt långt ifrån varandra?

Hur den antika konsten att förutsäga förmörkelse blev en exakt vetenskap | Quanta Magazine

Datavetaren som ökar integriteten på Internet

Kaosforskare kan nu förutsäga farliga punkter utan återvändo

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto

Beskrivning