Datamaskinpioneren hjelper AI Se | Quanta Magazine

Datamaskinpioneren hjelper AI Se | Quanta Magazine

Datamaskinpioneren hjelper AI Se | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Introduksjon

Når Alexei Efros flyttet med familien fra Russland til California som tenåring på 1980-tallet, tok han med seg sin sovjetbygde personlige datamaskin, en Elektronika BK-0010. Maskinen hadde ingen ekstern lagring og ble overopphetet med noen timers mellomrom, så for å spille videospill måtte han skrive kode, feilsøke og spille raskt - før maskinen slo seg av. Den syklusen, som gjentas de fleste dager, akselererte læringen hans.

"Jeg var veldig heldig at denne sovjetiske datamaskinen ikke var veldig bra!" sa Efros, som ler lett og snakker med mild russisk aksent. Han spiller ikke så mange spill nå for tiden, men viljen til å utforske og få mest mulig ut av verktøyene hans består.

På forskerskolen ved University of California, Berkeley, begynte Efros å vandre og utforske Bay Areas naturlige skjønnhet. Det tok ikke lang tid før han begynte å kombinere sin lidenskap for datamaskiner med sin glede av disse severdighetene. Han utviklet en måte å sømløst lappe hull i fotografier - for eksempel ved å erstatte en feil søppelcontainer i et bilde av en redwoodskog med naturlig utseende trær. Adobe Photoshop tok senere i bruk en versjon av teknikken for sitt "innholdsbevisste fyll"-verktøy.

Nå er en informatiker ved Berkeley Artificial Intelligence Research Lab, Efros kombinerer massive online datasett med maskinlæringsalgoritmer for å forstå, modellere og gjenskape den visuelle verdenen. I 2016 tildelte Association for Computing Machinery ham sin Pris i databehandling for sitt arbeid med å lage realistiske syntetiske bilder, og kalte ham en "bildealkymist».

Introduksjon

Efros sier at til tross for forskernes beste innsats, ser maskiner fortsatt fundamentalt annerledes enn vi gjør. "Flekker av farger og lysstyrke krever at vi kobler det vi ser nå til vårt minne om hvor vi har sett disse tingene før," sa Efros. "Denne forbindelsen gir mening til det vi ser." Alt for ofte ser maskiner det som er der i øyeblikket uten å koble det til det de har sett før.

Men forskjell kan ha fordeler. I datasyn setter Efros pris på det umiddelbare ved å vite om en algoritme designet for å gjenkjenne objekter og scener fungerer på et bilde. Noen av hans datasynsspørsmål - for eksempel "Hva får Paris til å se ut som Paris?” — har en filosofisk tilbøyelighet. Andre, for eksempel hvordan du adresserer vedvarende skjevhet i datasett, er praktiske og presserende.

"Det er mange som driver med AI med språk akkurat nå," sa Efros. "Jeg vil se på de helt visuelle mønstrene som er igjen." Ved å forbedre datasynet håper han ikke bare på bedre praktiske applikasjoner, som selvkjørende biler; han ønsker også å utnytte denne innsikten for å bedre forstå det han kaller «menneskelig visuell intelligens» – hvordan folk forstår det de ser.

Quanta Magazine møtte Efros på kontoret hans i Berkeley for å snakke om vitenskapelige superkrefter, vanskeligheten med å beskrive visuelle elementer og hvor farlig kunstig intelligens egentlig er. Intervjuet er komprimert og redigert for klarhet.

Introduksjon

Hvordan har datasynet blitt bedre siden du var student?

Da jeg begynte på doktorgraden var det nesten ikke noe nyttig. Noen roboter skrudde noen skruer ved hjelp av datasyn, men det var begrenset til denne typen veldig kontrollerte industrielle omgivelser. Så, plutselig, oppdaget kameraet mitt ansikter og gjorde dem skarpere.

Nå er datasyn i et stort antall applikasjoner, for eksempel selvkjørende biler. Det tar lengre tid enn noen trodde i utgangspunktet, men likevel er det fremgang. For noen som ikke kjører bil, er dette ekstremt spennende.

Vent, du kjører ikke?

Nei, jeg ser ikke godt nok til å kjøre! [Ler.] For meg ville dette vært en slik game changer - å ha en bil som kunne kjøre meg til steder.

Jeg skjønte ikke at synet ditt hindret deg i å kjøre bil. Kan du se bildene du jobber med på en dataskjerm?

Hvis jeg gjør dem store nok. Du kan se at skriftene mine er ganske store. Jeg ble født med dårlig syn. Jeg tror at alle andre er rare for å ha et vanvittig godt syn.

Påvirket statusen din som ikke-særling din forskningsretning?

Hvem vet? Det var definitivt ingen følelse av "Å, jeg ser ikke godt, så jeg kommer til å lage datamaskiner som ser bedre." Nei, det har jeg aldri hatt som motivasjon.

For å være en god vitenskapsmann trenger du en hemmelig supermakt. Du må gjøre noe bedre enn alle andre. Det fine med vitenskap er at vi ikke alle har den samme superkraften. Kanskje superkraften min har vært at jeg, fordi jeg ikke ser så godt, kanskje har mer innsikt i synsproblemet.

Introduksjon

Jeg forsto tidlig viktigheten av tidligere data når jeg så på verden. Jeg kunne ikke se så godt selv, men hukommelsen fra tidligere erfaringer fylte hullene nok til at jeg kunne fungere i utgangspunktet like bra som en normal person. De fleste vet ikke at jeg ikke ser godt. Det ga meg – tror jeg – denne unike intuisjonen om at det kan handle mindre om pikslene og mer om minnet.

Datamaskiner ser bare det som er der nå, mens vi ser øyeblikket koblet til teppet av alt vi har sett før.

Er det i det hele tatt mulig å uttrykke med ord de subtile visuelle mønstrene som for eksempel får Paris til å se ut som Paris?

Når du er i en bestemt by, noen ganger vet du bare hvilken by du er i - det er dette du ne sais quoi, selv om du aldri har vært på akkurat det gatehjørnet. Det er ekstremt vanskelig å beskrive med ord, men det er rett der i pikslene.

[For Paris] kan du snakke om hvordan det vanligvis er seks-etasjers bygninger, og vanligvis er det balkonger på den fjerde etasjen. Du kan sette ord på noe av dette, men mye er ikke språklig. For meg er det spennende.

Det siste arbeidet ditt innebærer å lære datamaskiner å innta visuelle data på måter som etterligner menneskelig syn. Hvordan fungerer det?

Akkurat nå har datamaskiner et enormt datasett: milliarder av tilfeldige bilder skrapet av internett. De tar tilfeldige bilder, behandler ett bilde, tar så et annet tilfeldig bilde, behandler det osv. Du trener opp [datamaskinens visuelle] system ved å gå om og om igjen dette datasettet.

Måten vi – biologiske midler – inntar data på er veldig forskjellig. Når vi står overfor en ny situasjon, er det den eneste gangen disse dataene vil være der for oss. Vi har aldri vært i akkurat denne situasjonen, i dette rommet, med denne belysningen, kledd på denne måten. Først bruker vi disse dataene til å gjøre det vi trenger å gjøre, for å forstå verden. Deretter bruker vi disse dataene til å lære av dem, [for å forutsi] fremtiden.

Introduksjon

Dataene vi ser er heller ikke tilfeldige. Det du ser nå er veldig korrelert med det du så for noen sekunder siden. Du kan tenke på det som video. Alle videoens rammer er korrelert til hverandre, noe som er veldig forskjellig fra hvordan datamaskiner behandler dataene.

Jeg er interessert i å få læringstilnærmingen vår til å være en der datamaskiner ser dataene når de kommer inn, behandler dem og lærer av dem mens de går.

Jeg ser for meg at det ikke er så enkelt som å la datamaskiner se på videoer i stedet for stillbilder.

Nei, du trenger fortsatt [datamaskiner] for å tilpasse seg. Jeg er interessert i å lære tilnærminger som ser dataene når de kommer inn og deretter behandle og lære av dem mens de går. En tilnærming vi har er kjent som trening på prøvetid. Tanken er at når du ser på en sekvens av bilder som en video, kan ting endre seg. Så du vil ikke at modellen din skal fikses. Akkurat som et biologisk middel alltid tilpasser seg omgivelsene, ønsker vi at datamaskinen kontinuerlig skal tilpasse seg.

Standardparadigmet er at du først trener på et stort datasett, og deretter distribuerer du. Dall·E og ChatGPT ble trent på internett rundt 2021, og da frøs [kunnskapen deres]. Så spyr den ut det den allerede vet. En mer naturlig måte er [test-time trening], å prøve å få den til å absorbere data og lære på jobben, ikke ha separate opplærings- og distribusjonsfaser.

Det er definitivt et problem med datamaskiner, kalt domeneskift eller datasettbias - denne ideen om at hvis treningsdataene dine er veldig forskjellige fra dataene du bruker når du distribuerer systemet, vil ting ikke fungere veldig bra. Vi gjør noen fremskritt, men vi er ikke helt i mål ennå.

Introduksjon

Ligner problemet på hvordan banker advarer investorer om at tidligere resultater kanskje ikke forutsier fremtidig inntjening?

Det er akkurat det som er problemet. I den virkelige verden endrer ting seg. For eksempel, hvis en åkermus havner i et hus, går det bra. Du blir aldri kvitt den musen! [Ler.] Den ble født på en åker, har aldri vært i et hus før, og likevel vil den finne og spise alle forsyningene dine. Den tilpasser seg veldig raskt, lærer og tilpasser seg det nye miljøet.

Den evnen er ikke der i dagens [datasyn]-systemer. Med selvkjøring, hvis du trener en bil i California og så tester du den i Minnesota — boom! - det er snø. Den har aldri sett snø. Det blir forvirret.

Nå tar folk tak i dette ved å få så mye data at [systemet] stort sett har sett alt. Da trenger den ikke tilpasse seg. Men det går fortsatt glipp av sjeldne hendelser.

Det høres ut som AI-systemer er veien videre. Hvor etterlater det mennesker?

Arbeidet som kommer ut av OpenAI både på tekstfronten (ChatGPT) og på bildefronten (Dall·E) har vært utrolig spennende og overraskende. Det bekrefter denne ideen om at, når du har nok data, kan rimelig enkle metoder gi overraskende gode resultater.

Introduksjon

Men ChatGPT fikk meg til å innse at mennesker ikke er så kreative og eksepsjonelle som vi liker å se oss selv. Mesteparten av tiden kan mønstergjenkjennerne i oss ta over. Vi snakker i setninger laget av fraser eller setninger vi har hørt før. Selvfølgelig har vi lyst og kreativitet. Vi er i stand til å gjøre ting som datamaskiner ikke kan gjøre - i hvert fall foreløpig. Men mesteparten av tiden kunne vi bli erstattet av ChatGPT, og de fleste ville ikke legge merke til det.

Det er ydmykende. Men det er også en motivator for å bryte ut av disse mønstrene, for å prøve å ha flere lyster, for ikke å bli sittende fast i klisjeer og pastisjer.

Noen forskere har uttrykt bekymring for risikoen AI utgjør for menneskeheten. Er du bekymret?

Mange forskere som jeg har stor respekt for, har advart om kunstig intelligens. Jeg vil ikke forminske disse ordene. Mange av disse er gyldige poeng. Men man må sette ting i perspektiv.

Akkurat nå kommer den største faren for sivilisasjonen ikke fra datamaskiner, men fra mennesker. Kjernefysisk Armageddon og klimaendringer er mye mer presserende bekymringer. Den russiske føderasjonen har angrepet sin fullstendig uskyldige nabo. Jeg ble født i Russland, og det er spesielt grusomt at mine tidligere landsmenn kan gjøre dette. Jeg gjør alt jeg kan for å sikre at dette forblir tema nummer én.

Vi tror kanskje at AI-revolusjonen er den viktigste begivenheten i livet vårt. Men AI-revolusjonen blir ingenting hvis vi ikke redder den frie verden.

Så du bekymrer deg ikke i det hele tatt om AI?

Nei. Du vet, jeg elsker å bekymre meg. Jeg er en stor bekymrer! Men hvis Putin som ødelegger verden er her [løfter hånden til hodet] og klimaendringene er her [senker hånden til skuldrene], så er AI her nede [senker hånden til føttene]. Det er brøkdeler av en prosent av bekymringen min sammenlignet med Putin og klimaendringene.

Tidstempel:

Mer fra Quantamagazin