Hvad vil det sige at tilpasse AI med menneskelige værdier?

Genudgivet af Platon

Abonnenter: 0

For mange år siden lærte jeg at programmere på en gammel Symbolics Lisp Machine. Operativsystemet havde en indbygget kommando stavet "DWIM", en forkortelse for "Do What I Mean". Hvis jeg skrev en kommando og fik en fejl, kunne jeg skrive "DWIM", og maskinen ville prøve at finde ud af, hvad jeg ville gøre. En overraskende brøkdel af tiden virkede det faktisk.

DWIM-kommandoen var et mikrokosmos af det mere moderne problem med "AI-justering": Vi mennesker er tilbøjelige til at give maskiner tvetydige eller fejlagtige instruktioner, og vi vil have dem til at gøre, hvad vi mener, ikke nødvendigvis, hvad vi siger.

Computere misforstår ofte, hvad vi vil have dem til at gøre, med uventede og ofte morsomme resultater. En maskinlæringsforsker, for eksempel, mens han undersøgte et billedklassificeringsprograms mistænkeligt gode resultater, opdaget at den baserede klassifikationer ikke på selve billedet, men på hvor lang tid det tog at få adgang til billedfilen - billederne fra forskellige klasser blev gemt i databaser med lidt forskellige adgangstider. En anden initiativrig programmør ville have, at hans Roomba-støvsuger stoppede med at støde ind i møbler, så han sluttede Roomba'en til et neuralt netværk, der belønnede hastighed, men straffede Roomba'en, da den forreste kofanger kolliderede med noget. Maskinen imødekom disse mål ved altid at køre baglæns.

Men fællesskabet af AI-tilpasningsforskere ser en mørkere side af disse anekdoter. Faktisk mener de, at maskinernes manglende evne til at gennemskue, hvad vi virkelig vil have dem til at gøre, er en eksistentiel risiko. For at løse dette problem, mener de, skal vi finde måder at tilpasse AI-systemer til menneskelige præferencer, mål og værdier.

Dette synspunkt vandt frem med 2014-bestsellerbogen superintelligens af filosoffen Nick Bostrom, som til dels argumenterede for, at computernes stigende intelligens kunne udgøre en direkte trussel mod menneskehedens fremtid. Bostrom definerede aldrig intelligens præcist, men som de fleste andre i AI-tilpasningsfællesskabet, adopterede han en definition senere artikuleret af AI-forskeren Stuart Russell som: "En enhed anses groft sagt for at være intelligent, hvis den vælger handlinger, der forventes at nå sine mål, givet hvad den har opfattet."

Bostrom baserede sit syn på AI's risici på to teser. Den første er ortogonalitetstesen, som siger, med Bostroms ord, "Intelligens og endelige mål er ortogonale akser, langs hvilke mulige agenter frit kan variere. Med andre ord, mere eller mindre ethvert intelligensniveau kunne i princippet kombineres med mere eller mindre ethvert endeligt mål." Den anden er den instrumentelle konvergenstese, som indebærer, at en intelligent agent vil handle på måder, der fremmer sin egen overlevelse, selvforbedring og erhvervelse af ressourcer, så længe disse gør agenten mere tilbøjelig til at nå sit endelige mål. Så lavede han en sidste antagelse: Forskere ville snart skabe en AI-superintelligens - en, der "meget overstiger menneskers kognitive ydeevne i stort set alle interessedomæner."

For Bostrom og andre i AI-tilpasningsfællesskabet betyder dette perspektiv undergang for menneskeheden, medmindre det lykkes os at bringe superintelligente AI'er på linje med vores ønsker og værdier. Bostrom illustrerer denne fare med et nu berømt tankeeksperiment: Forestil dig at give en superintelligent AI målet om at maksimere produktionen af papirklip. Ifølge Bostroms teser vil AI-systemet i søgen efter at nå dette mål bruge sin overmenneskelige glans og kreativitet til at øge sin egen magt og kontrol, og i sidste ende erhverve alle verdens ressourcer til at fremstille flere papirclips. Menneskeheden vil dø ud, men papirklipproduktionen vil faktisk blive maksimeret.

Hvis du tror, at intelligens er defineret af evnen til at nå mål, at ethvert mål kunne "indsættes" af mennesker i en superintelligent AI-agent, og at en sådan agent ville bruge sin superintelligens til at gøre hvad som helst for at nå dette mål, så vil du ankomme til det samme konklusion som Russell gjorde: "Alt, der er nødvendigt for at sikre en katastrofe, er en yderst kompetent maskine kombineret med mennesker, der har en ufuldkommen evne til at specificere menneskelige præferencer fuldstændigt og korrekt."

Det er en velkendt trope inden for science fiction - menneskeheden bliver truet af ude af kontrol maskiner, der har fejlfortolket menneskelige ønsker. Nu er et ikke-uvæsentligt segment af AI-forskningssamfundet dybt bekymret over denne form for scenarie, der udspiller sig i det virkelige liv. Dusinvis af institutter har allerede brugt hundredvis af millioner af dollars på problemet, og forskningsindsatsen om tilpasning er i gang på universiteter rundt om i verden og hos store AI-virksomheder som Google, Meta og OpenAI.

Hvad med de mere umiddelbare risici, som ikke-superintelligent AI udgør, såsom tab af job, partiskhed, krænkelser af privatlivets fred og spredning af misinformation? Det viser sig, at der er lidt overlap mellem de samfund, der primært er beskæftiget med sådanne kortsigtede risici, og dem, der bekymrer sig mere om langsigtede tilpasningsrisici. Faktisk er der noget af en AI-kulturkrig, hvor den ene side er mere bekymret over disse nuværende risici, end hvad de ser som urealistisk tekno-futurisme, og den anden side betragter nuværende problemer som mindre presserende end de potentielle katastrofale risici, som superintelligent AI udgør.

For mange uden for disse specifikke samfund ligner AI-tilpasning noget som en religion - en med ærede ledere, ubestridte doktriner og hengivne disciple, der kæmper mod en potentielt almægtig fjende (ualignet superintelligent AI). Faktisk datalogen og bloggeren Scott Aaronson for nylig bemærkede at der nu er "ortodokse" og "reform"-grene af AI-tilpasningstroen. Førstnævnte, skriver han, bekymrer sig næsten udelukkende om "fejljusteret AI, der bedrager mennesker, mens den arbejder på at ødelægge dem." I modsætning hertil skriver han, "vi Reform AI-risikere underholder den mulighed, men vi bekymrer os mindst lige så meget om kraftfulde AI'er, der er våbenet af dårlige mennesker, som vi forventer vil udgøre eksistentielle risici meget tidligere."

Mange forskere er aktivt engageret i alignment-baserede projekter, lige fra forsøg på at formidle principper moralfilosofi til maskiner, til træning af store sprogmodeller om crowdsourcede etiske domme. Ingen af disse bestræbelser har været særlig nyttige til at få maskiner til at ræsonnere om situationer i den virkelige verden. Mange forfattere har bemærket de mange forhindringer, der forhindrer maskiner i at lære menneskelige præferencer og værdier: Mennesker er ofte irrationelle og opfører sig på måder, der modsiger deres værdier, og værdier kan ændre sig over individuelle liv og generationer. Det er trods alt ikke klart, hvis værdier vi skal have maskiner til at prøve at lære.

Mange i alignment-samfundet mener, at den mest lovende vej frem er en maskinlæringsteknik kendt som omvendt forstærkningslæring (IRL). Med IRL får maskinen ikke et mål om at maksimere; Sådanne "indsatte" mål, mener alignment-tilhængere, kan utilsigtet føre til papirklipsmaksimeringsscenarier. I stedet er maskinens opgave at observere menneskers adfærd og udlede deres præferencer, mål og værdier. I de senere år har forskere brugt IRL til træne maskiner til at spille videospil ved at observere mennesker og at undervise robotter hvordan man laver backflips ved at give dem trinvis feedback fra mennesker (folk så korte klip af en robots forskellige forsøg og valgte den, der så bedst ud).

Det er uklart, om lignende metoder kan lære maskiner de mere subtile og abstrakte ideer om menneskelige værdier. Forfatteren Brian Christian, forfatter til en populærvidenskabelig bog om AI-tilpasning, er optimistisk: "Det er ikke så svært at forestille sig at erstatte det tågede begreb 'backflip' med et endnu mere tåget og uudsigeligt begreb som 'hjælpsomhed'. Eller 'venlighed'. Eller 'god' opførsel."

Jeg synes dog, at dette undervurderer udfordringen. Etiske forestillinger som venlighed og god opførsel er meget mere komplekse og kontekstafhængige end noget IRL har mestret hidtil. Overvej begrebet "sandfærdighed" - en værdi, vi helt sikkert ønsker i vores AI-systemer. Faktisk er et stort problem med nutidens store sprogmodeller deres manglende evne til at skelne sandhed fra løgn. Samtidig ønsker vi måske nogle gange, at vores AI-assistenter, ligesom mennesker, skal temperere deres sandfærdighed: for at beskytte privatlivets fred, for at undgå at fornærme andre eller for at holde nogen sikker, blandt utallige andre svære at formulere situationer.

Andre etiske begreber er lige så komplekse. Det burde være klart, at et væsentligt første skridt i retning af at lære maskiner etiske begreber er at gøre det muligt for maskiner at forstå menneskelignende begreber i første omgang, som jeg har hævdet stadig er AI's det vigtigste åbne problem.

Desuden ser jeg et endnu mere grundlæggende problem med den videnskab, der ligger til grund for forestillinger om AI-tilpasning. De fleste diskussioner forestiller sig en superintelligent AI som en maskine, der, selv om den overgår mennesker i alle kognitive opgaver, stadig mangler menneskelig sund fornuft og forbliver underligt mekanisk af natur. Og vigtigst af alt, i overensstemmelse med Bostroms ortogonalitetstese, har maskinen opnået superintelligens uden at have nogen af sine egne mål eller værdier, i stedet for at vente på, at mål bliver indsat af mennesker.

Men kunne intelligens fungere på denne måde? Intet i den nuværende psykologi eller neurovidenskab understøtter denne mulighed. Hos mennesker er intelligens i det mindste dybt forbundet med vores mål og værdier, såvel som vores selvfølelse og vores særlige sociale og kulturelle miljø. Den intuition, som en slags ren intelligens kunne adskilles fra disse andre faktorer, har ført til mange fejlslagne forudsigelser i AI's historie. Ud fra hvad vi ved, virker det meget mere sandsynligt, at et generelt intelligent AI-systems mål ikke let kunne indsættes, men ville skulle udvikle sig, ligesom vores, som et resultat af dets egen sociale og kulturelle opdragelse.

I sin bog Menneskelig kompatibel, argumenterer Russell for, at det haster med forskning i tilpasningsproblemet: "Det rigtige tidspunkt at bekymre sig om et potentielt alvorligt problem for menneskeheden afhænger ikke kun af, hvornår problemet vil opstå, men også af, hvor lang tid det vil tage at forberede og implementere en løsning. ” Men uden en bedre forståelse af, hvad intelligens er, og hvor adskillelig den er fra andre aspekter af vores liv, kan vi ikke engang definere problemet, meget mindre finde en løsning. Det vil ikke være let at definere og løse tilpasningsproblemet korrekt; det vil kræve, at vi udvikler en bred, videnskabeligt baseret teori om intelligens.

Tidsstempel: 13. December, 202213. December, 2022

Tidsstempel: September 15, 2022

Hvad vil det sige at tilpasse AI med menneskelige værdier?

Genudgivet af Platon

Mere fra Quantamagazin

Computer Science Proof afslører uventet form for sammenfiltring

Maskiner lærer bedre, hvis vi lærer dem det grundlæggende

Hvorfor matematikere genbeviser, hvad de allerede ved

Hvordan man bygger en Origami-computer | Quanta Magasinet

Et spørgsmål om en roterende linje hjælper med at afsløre, hvad der gør rigtige tal specielle

Hvordan kan uendeligt mange primtal være uendeligt langt fra hinanden?

Hvordan den ældgamle kunst at forudsige formørkelse blev en nøjagtig videnskab | Quanta Magasinet

Datalogen, der øger privatlivets fred på internettet

Kaosforskere kan nu forudsige farlige point of no return

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto

Introduktion