Hjælpsomme assistenter, romantiske partnere eller svindlere? Første del

Genudgivet af Platon

Abonnenter: 0

CCC støttede tre videnskabelige sessioner på dette års AAAS årlige konference, og hvis du ikke var i stand til at deltage personligt, vil vi opsummere hver session. I denne uge vil vi opsummere højdepunkterne fra paneldeltagernes præsentationer af sessionen, "Store sprogmodeller: Hjælpsomme assistenter, romantiske partnere eller svindlere?” Dette panel, modereret af Dr. Maria Gini, CCC Council Member og Computer Science & Engineering professor ved University of Minnesota, fremhævede Dr. Ece Kamar, administrerende direktør for AI Frontiers hos Microsoft Research, Dr. Hal Daumé III, professor i datalogi ved University of Maryland, og Dr. Jonathan May, professor i datalogi ved University of Southern California Information Sciences Institute.

Helpful Assistants, Romantic Partners, or Con Artists? Part One » CCC Blog PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Store sprogmodeller er på forkant med samtaler i samfundet i dag, og juryen er ude på, om de lever op til hypen omkring dem. Paneldeltagerne i denne AAAS-session behandlede mulighederne, udfordringerne og potentialet ved LLM'er.

Den første paneldeltager var Dr. Ece Kamar (Microsoft Research). Hun beskrev den nuværende status for AI som en "faseovergang." Hun gav et unikt perspektiv som en, der har set ændringerne i AI i industrien og den eksponentielle vækst i deep learning-modeller, som meget få mennesker forventede ville fortsætte ind i 2024.

Væksten var forårsaget af en stigning i mængden af data, som LLM'er trænes på, og den større arkitektur kaldet transformere. En interessant indsigt, Dr. Kamar delte på grafen, er, at modellerne skaleres så hurtigt, fordi de oprindeligt bare blev trænet til en bestemt opgave; en opgave de kunne udføre pålideligt. ChatGPT viste, at hvis du skalerer stort nok, inklusive antallet af parametre, en model tager højde for, kunne modeller begynde at udføre opgaver med en lignende ydeevne af en model, der var trænet til specifikt at udføre de samme opgaver.

Dette er definitionen af LLM-faseovergangen: modeller behøver ikke længere at være specifikt trænet til en specifik opgave, men kan generelt trænes og derefter udføre mange opgaver. Og der er ingen tegn på, at væksten af disse kapaciteter er ved at bremse.

Dr. Kamar havde tidlig adgang til GPT-4, og i løbet af hendes lange tid med at teste det, var hun imponeret over dets betydelige forbedringer, der fulgte med skala og data, og det faktum, at det synkront kunne udføre forskellige opgaver.

Hvad byder fremtiden på for disse LLM'er? Dr. Kamar forventer, at LLM'er vil gå ud over det menneskelige sprog og lære maskinsprog og være i stand til at oversætte mellem de to sprog. Dette ville forbedre modalitetskapaciteter i input og output, hvilket kunne føre til, at modeller ikke bare er i stand til at generere sprog, men handlinger og forudsigelser i adfærd.

Dernæst udvidede Dr. Kamar den betydelige faseovergang, der forekommer inden for computing. Systemer udvikles meget anderledes i dag, og denne udvikling vil kræve at skabe et nyt computerparadigme, som vi kun har ridset overfladen af på nuværende tidspunkt. Den måde, vi interagerer med computere på, kommer til at se meget anderledes ud i de kommende år, og det vil kræve gentænkning af Human-Computer Interaction (HCI).

En anden ændring er den måde, som mennesker vil arbejde fremadrettet på. Microsoft har udført undersøgelser af, at arbejdernes produktivitet kan fordobles i form af kodelinjer skrevet, når de bliver hjulpet af AI. Dette er en utrolig bedrift, men måden denne teknologi fungerer på, og hvor dens intelligens kommer fra, er stort set ukendt, så der er mange forskningsspørgsmål på dette område.

Der er også mange spørgsmål om potentielt misbrug af LLM'er som disse. Der er bekymringer omkring retfærdighed, forskellige demografiske risici og andre endnu mere drastiske konsekvenser. Selvom der er et stort potentiale for videnskabelig opdagelse, er der også et stort potentiale for skade; for eksempel at overbevise forældre om ikke at vaccinere deres børn, et barn til at gøre noget dårligt, eller at overbevise nogen om, at verden er flad. En masse sikkerhedsindsatser er gået i udvikling af LLM'er, og open sourcing kan også være meget nyttigt for at gøre fremskridt på dette område.

Dr. Kamar stillede derefter spørgsmål til det videnskabelige samfund:

Hvordan vil videnskaben ændre sig med AI-forstyrrelser?
Tager vi skridt til at ændre, hvordan vi uddanner og træner den næste generation?
Bygger du teknologisk infrastruktur for at drage fordel af denne faseovergang?
Forbereder vi fremtidige generationer på den nye verden?

Endelig understregede Dr. Kamar, at et af kerneaspekterne af faseovergangen, der er bemærkelsesværdigt, er den hastighed, hvormed LLM'er udvikler sig. Disse modeller forbedres markant på meget kort tid, og computerforskere har meget at indhente.

Den anden paneldeltager, Dr. Hal Daumé III (University of Maryland), startede sit foredrag med at forklare, at AI-modeller bør udvikles til at hjælpe folk med at gøre de ting, de gerne vil gøre; øge menneskeligt arbejde, ikke automatisere. Denne vision om automatisering har præget samfundet siden 60'erne. I stedet for at hjælpe folk med at spille skak bedre, designede videnskabsmænd et system, der spiller skak på egen hånd.

Denne filosofi går ingen vegne; AI i dag er stadig nyhedsværdigt, når det først er intelligent nok til at udføre en opgave på egen hånd. Dette er dybt i blodet af AI. Før vi bruger tid og penge på at automatisere et system, bør vi først holde pause og spørge, om det er i vores interesse?

Dr. Daumé pressede på konceptet augmentation: hvordan kan AI bruges som et værktøj? Systemer som Github copilot øger produktiviteten, men øget produktivitet er ikke nok. En bruger af systemet udbrød, at det lod dem fokusere på dele af kodningen, der var sjove, hvilket er meget mere i tråd med, hvordan AI skal bygges.

AI-forskere bør ikke ønske at fjerne de dele af en persons job, der er sjove; de bør prioritere at fjerne sliddet. Det bør forbedre menneskeliv i stedet for blot at forbedre bundlinjen for en virksomhed.

Dr. Daumé var medforfatter til et papir, der rejste disse punkter, og modargumentet fremkom, at fra et teknisk perspektiv er det ofte meget nemmere at automatisere systemer, der bruger maskinlæringsteknologi, end at udvide. Dette skyldes, at de data, der er nødvendige for at træne et system, der træner et system, er nemme at få fat i. Vi leverer disse oplysninger ved at udføre vores arbejde, og det er nemt at træne ML til at efterligne menneskelig adfærd. Det er meget sværere at lære et system at hjælpe nogen med at fuldføre en opgave. Denne information er spredt blandt litteraturanmeldelser fra NSF, skrivning på et stykke papir af en programmør osv. De data, der er nødvendige for at hjælpe et menneske med at udføre opgaver, er ikke registreret.

Et andet vigtigt aspekt ved at bygge nyttige systemer er at spørge brugeren, hvilke systemer der ville være nyttige for deres liv. For eksempel er blinde menneskers behov meget forskellige fra seendes behov (som også er forskellige fra seende menneskers behov tror blinde menneskers behov). Et eksempel Dr. Daumé delte var, at et visuelt system kunne afsløre, at en genstand er en dåse sodavand, men en blind person kan typisk fortælle det på egen hånd. Ingredienserne i sodavandet ville være meget mere nyttige for dem. Der er en enorm kløft mellem kvaliteten af et systems svar på blot at forstå spørgsmål til at løse tilgængelighedsspørgsmål, og denne kløft bliver større.

Et yderligere eksempel på vigtigheden af først at bestemme fællesskabets behov, før der skabes teknologi til at "hjælpe" dem, er indholdsmoderering. Mange frivillige indholdsmoderatorer engagerer sig i arbejdet, fordi de ønsker at gøre verden til et bedre sted og hjælpe med at opbygge et fællesskab, de synes er vigtigt. Når de bliver spurgt om, hvilken slags værktøj de vil hjælpe deres rolle, ønsker de ofte ikke, at deres job skal være fuldt automatiseret, de vil bare have kedelige dele som at slå chathistorik op for at være nemmere.

Dr. Daumé afslutter denne diskussion med et sidste eksempel på sin bilelskende mor, der elsker biler og nægter at køre i automatiske biler. Hun vælger manuel gearkasse, og det er rigtig vigtigt for hende at have det valg. Folk skal have styr på, om de vil have deres opgaver automatiseret eller ej.

Dr. Daumé fortsætter samtalen ved at tilbyde alternativer til nuværende tilgange til tilgængelighedsteknologi. For eksempel, når du bygger et værktøj omkring tegnsprogsgenkendelse, i stedet for at skrabe internettet efter videoer af personer, der skriver under (hvilket har en masse bekymringer om samtykke og privatliv, plus de fleste af disse videoer er af professionelle og uden baggrundsstøj/distraktioner, hvilket er t realistisk), nå ud til fællesskabet og igangsætte et projekt, der giver dem mulighed for at indsende videoer for at træne værktøjerne. Fællesskab-første strategier som disse er mere etiske og ansvarlige og giver brugerne mere kontrol.

LLM'er og andre værktøjer bør udvikles til at prioritere nytte, ikke intelligens, konkluderer Dr. Daumé. Jo mere nyttigt det er, jo mere kan det hjælpe folk med at gøre noget, de ikke kan eller ikke vil, i stedet for at automatisere noget, som folk allerede gør godt og nyder.

Dr. Jonathan May (University of Southern California Information Sciences Institute) var den næste taler, og han begyndte sit foredrag med at reflektere over konferencens tema: "Mod videnskab uden mure." Han hævder, at mens den seneste udvikling af LLM fjerner mure for nogle mennesker, bygger det mure for mange.

Han diskuterer først, hvordan internettet sænkede mange barrierer for at udføre forskning; da han var 17, undrede han sig over, hvorfor Star Wars og Ringenes Herre havde meget ens plots, og han måtte køre til biblioteket og finde en bog med svaret. Han lavede højere indsatser, men lige så besværlig forskning til sin ph.d.-afhandling, men ved slutningen af hans studietid var der oprettet en Wikipedia-side om emnet, og derefter internetsøgning, og nu er forskning uden biler normen.

Dr. May fortsatte med at sige, at han følte sig privilegeret over at være i den demografiske målgruppe for LLM'er. Han koder ikke ofte og har aldrig lært en masse kodefærdigheder, men når han har brug for det til sit arbejde, kan han spørge ChatGPT, og det gør et godt stykke arbejde.

Der er dog mange vægge til at gøre LLMs anvendelighed udbredt:

Sprogvægge: Modeller fungerer bedre, jo mere data de er trænet på. Mens nutidens kommercielle LLM'er er flersprogede, er de tungt vægtede mod engelsk. For eksempel er ChatGPT trænet på 92% engelsk sprog. Yderligere er instruktionsdataene, som er LLM'ernes "hemmelige sauce", langt størstedelen af engelske (96% af ChatGPT'er for eksempel). Der er i øjeblikket meget få bestræbelser på at forbedre den tværsprogede ydeevne af disse modeller på trods af systemiske ydeevnegab på eksisterende tests, hvilket giver mening på grund af en generel konsensus om, at maskinoversættelse (MT) er "løst", og indsatsen bør fokuseres på andre opgaver.
Identitetsvægge: Hvis du spørger ChatGPT, hvad du skal lave i julen, fokuserer det på forskellige aktiviteter og traditioner, du kan deltage i; det nævner ikke, at du kunne gå på arbejde. LLM'er har vist sig at opføre sig anderledes, når de beskriver forskellige demografiske grupper, udtrykker mere negativ følelse og endda direkte toksicitet i nogle tilfælde. Der er sandsynlighed for stereotype sætninger, der kan forårsage skade i samfund som LGBTQ+ eller jødiske; over hele linjen er der en masse skævhed, og det har konsekvenser i udstationeret beslutningstagning. Der er nogle indbyggede sikkerhedsforanstaltninger, og mere eksplicitte uddybende spørgsmål er mindre tilbøjelige til at modtage giftige svar, men modeller foretrækker sandsynligvis stereotype udsagn og resultater, og det er der, der er skader, især når du bruger modeller i downstream-funktioner, hvor du ikke kan se output (dvs. låneberettigelse). Han gav et eksempel på LLM'er, der viser bias, når de genererer ansigter på individer baseret på deres job; de lavere lønnede job er vist som kvinder og minoriteter, mens de højere lønnede job er hvide mænd.
Miljøvægge (software): LLM'er kræver en betydelig mængde energi at producere og køre. Selv de mest "beskedne" LM'er bruger 3 gange mere årlig energi end brugen af en enkelt person. Der er også et betydeligt hul i data for de største sprogmodeller som ChatGPT, men de virksomheder, der ejer dem, nægter eksplicit adgang til deres energiforbrug.
Miljøvægge (hardware): For at producere chips, som alle LLM'er kræver, har du brug for "konfliktmaterialer" som tantal (udvundet i Congo) og hafnium (udvundet i Senegal og Rusland). I USA er det meningen, at virksomheder skal rapportere mængden af konfliktmineraler, de bruger, men USA viser offentligt et fald i brugen af disse materialer, hvilket ikke kan være sandt. Ud over det er der en masse socio-politiske problemer som Kina, der begrænser germanium og gallium som gengældelse for amerikanske eksportrestriktioner.

Dr. May giver udtryk for, at disse kategorier afslører nogle af de mange downstream-problemer for skade forårsaget af LLM'er, og tilfælde, hvor folk ikke har gavn af det. Der er grund til bekymring, men der er også muligheder for forskning og/eller adfærdsændringer, der ville afbøde nogle af disse skader:

Sprog: Brug flere forskningsmidler til flersprogethed (ikke kun hegemonisk oversættelse til og fra engelsk).
Identitet: Bottom-up og samfundsinkluderende forskning. Modelændring og test før implementering
Miljø: Algoritmeudvikling, der bruger færre data og ændrer færre parametre (f.eks. LoRA, adaptere, ikke-RL PO). Vær bevidst om beregning og insister på åbenhed på regulatoriske niveauer

Dr. May afsluttede panelet ved at gentage Dr. Daumés pointe om, at folk skal have gavn på den måde, de ønsker at blive gavnet, når de interagerer med LLM'er, og dette skal være top of mind på udviklingsstadiet.

Tusind tak fordi du læste med, og lyt venligst ind i morgen for at læse opsummeringen af Q&A-delen af sessionen.