Wat betekent het om AI op รฉรฉn lijn te brengen met menselijke waarden? PlatoBlockchain-gegevensintelligentie. Verticaal zoeken. Ai.

Wat betekent het om AI af te stemmen op menselijke waarden?

Introductie

Vele jaren geleden leerde ik programmeren op een oude Symbolics Lisp Machine. Het besturingssysteem had een ingebouwde opdracht gespeld als "DWIM", een afkorting van "Do What I Mean". Als ik een opdracht typte en een foutmelding kreeg, kon ik "DWIM" typen en de machine zou proberen te achterhalen wat ik van plan was te doen. Een verrassende fractie van de tijd, het werkte echt.

De DWIM-opdracht was een microkosmos van het modernere probleem van "AI-uitlijning": wij mensen zijn geneigd machines dubbelzinnige of verkeerde instructies te geven, en we willen dat ze doen wat we bedoelen, niet noodzakelijkerwijs wat we zeggen.

Computers interpreteren vaak verkeerd wat we willen dat ze doen, met onverwachte en vaak grappige resultaten. Een onderzoeker op het gebied van machine learning bijvoorbeeld, terwijl hij de verdacht goede resultaten van een programma voor beeldclassificatie onderzoekt, ontdekt dat het classificaties niet baseerde op de afbeelding zelf, maar op hoe lang het duurde om toegang te krijgen tot het afbeeldingsbestand - de afbeeldingen van verschillende klassen werden opgeslagen in databases met enigszins verschillende toegangstijden. Een andere ondernemende programmeur wilde dat zijn Roomba-stofzuiger niet meer tegen meubels botste, dus verbond hij de Roomba met een neuraal netwerk dat snelheid beloonde, maar de Roomba strafte wanneer de voorbumper ergens tegenaan botste. De machine kwam aan deze doelstellingen tegemoet door altijd achteruit te rijden.

Maar de gemeenschap van AI-afstemmingsonderzoekers ziet een donkere kant aan deze anekdotes. Ze geloven zelfs dat het onvermogen van de machines om te onderscheiden wat we echt willen dat ze doen een existentieel risico is. Om dit probleem op te lossen, moeten we volgens hen manieren vinden om AI-systemen af โ€‹โ€‹te stemmen op menselijke voorkeuren, doelen en waarden.

Deze visie kreeg bekendheid met het bestverkochte boek van 2014 superintelligentie door de filosoof Nick Bostrom, die onder meer betoogde dat de toenemende intelligentie van computers een directe bedreiging zou kunnen vormen voor de toekomst van de mensheid. Bostrom definieerde intelligentie nooit precies, maar, zoals de meeste anderen in de AI-uitlijningsgemeenschap, nam hij later een definitie over gelede door de AI-onderzoeker Stuart Russell als: "Een entiteit wordt ruwweg als intelligent beschouwd als ze acties kiest waarvan wordt verwacht dat ze haar doelstellingen bereiken, gegeven wat ze heeft waargenomen."

Bostrom baseerde zijn kijk op de risico's van AI op twee stellingen. De eerste is de orthogonaliteitsthese, die stelt, in de woorden van Bostrom: โ€œIntelligentie en einddoelen zijn orthogonale assen waarlangs mogelijke actoren vrijelijk kunnen variรซren. Met andere woorden, min of meer elk niveau van intelligentie zou in principe gecombineerd kunnen worden met min of meer elk einddoel.โ€ De tweede is de instrumentale convergentiethese, die inhoudt dat een intelligente agent zal handelen op manieren die zijn eigen overleving, zelfverbetering en verwerving van hulpbronnen bevorderen, zolang de kans groter is dat de agent zijn uiteindelijke doel bereikt. Vervolgens deed hij een laatste aanname: onderzoekers zouden binnenkort een AI-superintelligentie creรซren - een die "de cognitieve prestaties van mensen in vrijwel alle interessegebieden aanzienlijk overtreft".

Voor Bostrom en anderen in de AI-afstemmingsgemeenschap betekent dit vooruitzicht de ondergang voor de mensheid, tenzij we erin slagen om superintelligente AI's af te stemmen op onze verlangens en waarden. Bostrom illustreert dit gevaar met een inmiddels beroemd gedachte-experiment: stel je voor dat je een superintelligente AI het doel geeft om de productie van paperclips te maximaliseren. Volgens de stellingen van Bostrom zal het AI-systeem, in de zoektocht om dit doel te bereiken, zijn bovenmenselijke genialiteit en creativiteit gebruiken om zijn eigen kracht en controle te vergroten, en uiteindelijk alle middelen van de wereld verwerven om meer paperclips te maken. De mensheid zal uitsterven, maar de productie van paperclips zal inderdaad worden gemaximaliseerd.

Als je gelooft dat intelligentie wordt bepaald door het vermogen om doelen te bereiken, dat elk doel door mensen kan worden "ingevoegd" in een superintelligente AI-agent, en dat zo'n agent zijn superintelligentie zou gebruiken om alles te doen om dat doel te bereiken, dan zul je dat ook doen. komen op hetzelfde uit conclusie dat Russell deed: "Alles wat nodig is om een โ€‹โ€‹catastrofe te verzekeren, is een zeer competente machine gecombineerd met mensen die een onvolmaakt vermogen hebben om menselijke voorkeuren volledig en correct te specificeren."

Het is een bekende trope in sciencefiction: de mensheid wordt bedreigd door uit de hand gelopen machines die menselijke verlangens verkeerd hebben geรฏnterpreteerd. Nu maakt een niet onaanzienlijk deel van de AI-onderzoeksgemeenschap zich grote zorgen over dit soort scenario's dat zich in het echte leven afspeelt. Tientallen instituten hebben al honderden miljoenen dollars aan het probleem uitgegeven, en er wordt onderzoek gedaan naar afstemming op universiteiten over de hele wereld en bij grote AI-bedrijven zoals Google, Meta en OpenAI.

Hoe zit het met de meer directe risico's van niet-superintelligente AI, zoals baanverlies, vooroordelen, privacyschendingen en verspreiding van verkeerde informatie? Het blijkt dat er weinig overlap is tussen de gemeenschappen die zich voornamelijk bezighouden met dergelijke kortetermijnrisico's en degenen die zich meer zorgen maken over afstemmingsrisico's op de langere termijn. In feite is er iets van een AI-cultuuroorlog, waarbij de ene kant zich meer zorgen maakt over deze huidige risico's dan wat zij zien als onrealistisch technofuturisme, en de andere kant de huidige problemen minder urgent acht dan de potentiรซle catastrofale risico's van superintelligente AI.

Voor velen buiten deze specifieke gemeenschappen lijkt AI-afstemming zoiets als een religie - een met gerespecteerde leiders, onbetwiste doctrines en toegewijde discipelen die vechten tegen een potentieel almachtige vijand (niet-gebonden superintelligente AI). Inderdaad, de computerwetenschapper en blogger Scott Aaronson onlangs bekend dat er nu "Orthodoxe" en "Reform" takken zijn van het AI-uitlijningsgeloof. De eerste, schrijft hij, maakt zich bijna volledig zorgen over "niet goed afgestemde AI die mensen bedriegt terwijl het werkt om ze te vernietigen." Hij schrijft daarentegen: "wij die AI-risico's hervormen, houden rekening met die mogelijkheid, maar we maken ons minstens evenveel zorgen over krachtige AI's die worden bewapend door slechte mensen, waarvan we verwachten dat ze veel eerder existentiรซle risico's met zich meebrengen."

Veel onderzoekers zijn actief betrokken bij op afstemming gebaseerde projecten, variรซrend van pogingen om principes over te dragen van moraalfilosofie tot machines, tot het trainen van grote taalmodellen op gecrowdsourcete ethische oordelen. Geen van deze inspanningen is bijzonder nuttig geweest om machines te laten redeneren over situaties uit de echte wereld. Veel schrijvers hebben gewezen op de vele obstakels die machines ervan weerhouden om menselijke voorkeuren en waarden te leren: mensen zijn vaak irrationeel en gedragen zich op een manier die in strijd is met hun waarden, en waarden kunnen in de loop van individuele levens en generaties veranderen. Het is immers niet duidelijk wiens waarden we machines moeten laten leren.

Velen in de uitlijningsgemeenschap denken dat het meest veelbelovende pad voorwaarts een machine learning-techniek is die bekend staat als omgekeerd bekrachtigend leren (IRL). Met IRL krijgt de machine geen doel om te maximaliseren; dergelijke "ingevoegde" doelen, zo geloven voorstanders van afstemming, kunnen onbedoeld leiden tot scenario's voor het maximaliseren van de paperclip. In plaats daarvan is het de taak van de machine om het gedrag van mensen te observeren en hun voorkeuren, doelen en waarden af โ€‹โ€‹te leiden. In de afgelopen jaren hebben onderzoekers IRL gebruikt om train machines om videogames te spelen door mensen te observeren en robots les te geven hoe backflips te doen door ze incrementele feedback van mensen te geven (mensen bekeken korte clips van de verschillende pogingen van een robot en kozen degene die er het beste uitzag).

Het is onduidelijk of vergelijkbare methoden machines de meer subtiele en abstracte ideeรซn van menselijke waarden kunnen leren. De schrijver Brian Christian, auteur van een populair-wetenschappelijk boek over AI-alignment, is optimistisch: โ€œHet is niet zo moeilijk om je voor te stellen dat je het vage concept van 'backflip' vervangt door een nog vager en onuitsprekelijker concept, zoals 'behulpzaamheid'. Of 'vriendelijkheid'. Of 'goed' gedrag.โ€

Ik denk echter dat dit de uitdaging onderschat. Ethische noties zoals vriendelijkheid en goed gedrag zijn veel complexer en contextafhankelijker dan alles wat IRL tot nu toe onder de knie heeft. Overweeg het begrip "waarachtigheid" - een waarde die we zeker in onze AI-systemen willen hebben. Een groot probleem met de huidige grote taalmodellen is inderdaad hun onvermogen om waarheid van onwaarheid te onderscheiden. Tegelijkertijd kunnen we soms willen dat onze AI-assistenten, net als mensen, hun waarheidsgetrouwheid temperen: om privacy te beschermen, om te voorkomen dat anderen worden beledigd of om iemand veilig te houden, naast talloze andere moeilijk te verwoorden situaties.

Andere ethische concepten zijn net zo complex. Het zou duidelijk moeten zijn dat een essentiรซle eerste stap om machines ethische concepten aan te leren, is om machines in staat te stellen menselijke concepten te begrijpen, waarvan ik heb betoogd dat het nog steeds AI's is. belangrijkste open probleem.

Bovendien zie ik een nog fundamenteler probleem met de wetenschappelijke onderliggende noties van AI-afstemming. De meeste discussies stellen zich een superintelligente AI voor als een machine die, hoewel hij de mens overtreft in alle cognitieve taken, nog steeds geen menselijk gezond verstand heeft en vreemd mechanisch van aard blijft. En belangrijker nog, in overeenstemming met de orthogonaliteitsthese van Bostrom, heeft de machine superintelligentie bereikt zonder eigen doelen of waarden te hebben, in plaats daarvan wachtend op doelen die door mensen worden ingevoegd.

Maar zou intelligentie op deze manier kunnen werken? Niets in de huidige wetenschap van de psychologie of neurowetenschap ondersteunt deze mogelijkheid. In ieder geval bij mensen is intelligentie nauw verbonden met onze doelen en waarden, evenals met ons zelfgevoel en onze specifieke sociale en culturele omgeving. De intuรฏtie dat een soort pure intelligentie gescheiden zou kunnen worden van deze andere factoren heeft geleid tot veel mislukte voorspellingen in de geschiedenis van AI. Voor zover we weten, lijkt het veel waarschijnlijker dat de doelen van een over het algemeen intelligent AI-systeem niet gemakkelijk kunnen worden ingevoerd, maar zich, net als de onze, zouden moeten ontwikkelen als resultaat van zijn eigen sociale en culturele opvoeding.

In zijn boek Compatibel met de mens, pleit Russell voor de urgentie van onderzoek naar het uitlijningsprobleem: โ€œHet juiste moment om je zorgen te maken over een potentieel ernstig probleem voor de mensheid hangt niet alleen af โ€‹โ€‹van wanneer het probleem zal optreden, maar ook van hoe lang het zal duren om een โ€‹โ€‹oplossing voor te bereiden en te implementeren. โ€ Maar zonder een beter begrip van wat intelligentie is en hoe scheidbaar het is van andere aspecten van ons leven, kunnen we het probleem niet eens definiรซren, laat staan โ€‹โ€‹een oplossing vinden. Het goed definiรซren en oplossen van het uitlijningsprobleem zal niet eenvoudig zijn; het vereist dat we een brede, wetenschappelijk onderbouwde theorie van intelligentie ontwikkelen.

Tijdstempel:

Meer van Quanta tijdschrift