Datorpionjären hjälper AI Se | Quanta Magazine

Datorpionjären hjälper AI Se | Quanta Magazine

Datorpionjären hjälper AI Se | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Beskrivning

När Alexei Efros flyttade med sin familj från Ryssland till Kalifornien som tonåring på 1980-talet, tog han med sig sin sovjetbyggda persondator, en Elektronika BK-0010. Maskinen hade ingen extern lagring och överhettades med några timmars mellanrum, så för att kunna spela tv-spel var han tvungen att skriva kod, felsöka och spela snabbt - innan maskinen stängdes av. Den cykeln, som upprepades de flesta dagar, påskyndade hans inlärning.

"Jag hade väldigt tur att den här sovjetiska datorn inte var särskilt bra!" sa Efros, som skrattar lätt och talar med en mild rysk accent. Han spelar inte så många spel nuförtiden, men den viljan att utforska och få ut det mesta av sina verktyg finns kvar.

I forskarskolan vid University of California, Berkeley, började Efros vandra och utforska Bay Areas naturliga skönhet. Det dröjde inte länge innan han började kombinera sin passion för datorer med sin njutning av dessa sevärdheter. Han utvecklade ett sätt att sömlöst lappa hål i fotografier - till exempel genom att byta ut en slingrande soptunna i ett foto av en redwoodskog med naturliga träd. Adobe Photoshop antog senare en version av tekniken för sitt "innehållsmedvetna fyllningsverktyg".

Nu är en datavetare vid Berkeley Artificial Intelligence Research Lab, Efros kombinerar massiva onlinedataset med maskininlärningsalgoritmer för att förstå, modellera och återskapa den visuella världen. 2016 tilldelade Föreningen för Datormaskiner honom sitt Pris i datoranvändning för sitt arbete med att skapa realistiska syntetiska bilder, kallade honom en "bildalkemist. "

Beskrivning

Efros säger att, trots forskarnas bästa ansträngningar, ser maskiner fortfarande fundamentalt annorlunda än vi. "Fläckar av färg och ljusstyrka kräver att vi kopplar det vi ser nu till vårt minne av var vi har sett dessa saker tidigare," sa Efros. "Denna koppling ger mening åt det vi ser." Allt för ofta ser maskiner vad som finns i nuet utan att koppla det till vad de har sett tidigare.

Men skillnad kan ha fördelar. Inom datorseende uppskattar Efros omedelbarheten av att veta om en algoritm utformad för att känna igen objekt och scener fungerar på en bild. Några av hans frågor om datorseende - som "Vad får Paris att se ut som Paris?” — har en filosofisk böjelse. Andra, till exempel hur man hanterar ihållande partiskhet i datamängder, är praktiska och pressande.

"Det finns många människor som gör AI med språk just nu," sa Efros. "Jag vill titta på de helt visuella mönster som är kvar." Genom att förbättra datorseendet hoppas han inte bara på bättre praktiska tillämpningar, som självkörande bilar; han vill också ta del av dessa insikter för att bättre förstå vad han kallar "mänsklig visuell intelligens" - hur människor förstår vad de ser.

Quanta Magazine träffade Efros på hans kontor i Berkeley för att prata om vetenskapliga superkrafter, svårigheten att beskriva bilder och hur farlig artificiell intelligens egentligen är. Intervjun har förtätats och redigerats för tydlighetens skull.

Beskrivning

Hur har datorseendet förbättrats sedan du var student?

När jag började min doktorsexamen fanns det nästan inget användbart. Vissa robotar skruvade några skruvar med hjälp av datorseende, men det var begränsat till denna typ av mycket kontrollerad industriell miljö. Sedan, plötsligt, upptäckte min kamera ansikten och gjorde dem skarpare.

Nu finns datorseende i ett stort antal tillämpningar, till exempel självkörande bilar. Det tar längre tid än en del trodde från början, men ändå finns det framsteg. För någon som inte kör bil är detta oerhört spännande.

Vänta, kör du inte?

Nej, jag ser inte tillräckligt bra för att köra! [Skrattar.] För mig skulle detta vara en sådan game changer - att ha en bil som skulle köra mig till platser.

Jag insåg inte att din syn hindrade dig från att köra. Kan du se bilderna du arbetar med på en datorskärm?

Om jag gör dem tillräckligt stora. Du kan se att mina typsnitt är ganska stora. Jag föddes med dålig syn. Jag tror att alla andra är konstiga för att de har galet bra syn.

Påverkade din status som icke-weirdo din forskningsriktning?

Vem vet? Det fanns definitivt ingen känsla av "Åh, jag ser inte bra, så jag ska göra datorer som ser bättre." Nej, det har jag aldrig haft som motivation.

För att vara en bra vetenskapsman behöver du en hemlig superkraft. Du måste göra något bättre än alla andra. Det fina med vetenskap är att vi inte alla har samma superkraft. Kanske har min superkraft varit att jag, eftersom jag inte ser så bra, kanske har mer insikt i synproblemet.

Beskrivning

Jag förstod tidigt vikten av tidigare data när jag tittade på världen. Jag kunde inte se så bra själv, men mitt minne av tidigare erfarenheter fyllde i hålen tillräckligt för att jag skulle kunna fungera i princip lika bra som en normal person. De flesta vet inte att jag inte ser bra. Det gav mig – tror jag – denna unika intuition att det kanske handlar mindre om pixlarna och mer om minnet.

Datorer ser bara vad som finns där nu, medan vi ser ögonblicket kopplat till tapeten av allt vi har sett tidigare.

Är det ens möjligt att i ord uttrycka de subtila visuella mönster som till exempel får Paris att se ut som Paris?

När du är i en viss stad, ibland vet du bara vilken stad du befinner dig i - det finns det här je ne sais quoi, även om du aldrig har varit i just det gathörnet. Det är extremt svårt att beskriva med ord, men det är precis där i pixlarna.

[För Paris] kan du prata om hur det vanligtvis är sexvåningsbyggnader, och vanligtvis finns det balkonger på den fjärde våningen. Man skulle kunna sätta ord på en del av detta, men mycket är inte språkligt. För mig är det spännande.

Ditt senaste arbete innebär att lära datorer att få in visuella data på sätt som efterliknar mänsklig syn. Hur fungerar det?

Just nu har datorer en enorm datauppsättning: miljarder slumpmässiga bilder skrapas bort från internet. De tar slumpmässiga bilder, bearbetar en bild, tar sedan en annan slumpmässig bild, bearbetar den, etc. Du tränar din [dators visuella] system genom att gå om och om igen denna datamängd.

Sättet som vi – biologiska ämnen – tar in data är väldigt olika. När vi ställs inför en ny situation är det den enda gången dessa data kommer att finnas där för oss. Vi har aldrig varit i den här exakta situationen, i det här rummet, med den här belysningen, klädda på det här sättet. Först använder vi denna data för att göra det vi behöver göra, för att förstå världen. Sedan använder vi dessa data för att lära av dem, [för att förutsäga] framtiden.

Beskrivning

Dessutom är uppgifterna vi ser inte slumpmässiga. Det du ser nu är mycket korrelerat till det du såg för några sekunder sedan. Du kan se det som video. Alla videons ramar är korrelerade till varandra, vilket skiljer sig mycket från hur datorer behandlar data.

Jag är intresserad av att få vår inlärningsmetod att vara en där datorer ser data när den kommer in, bearbetar den och lär sig av den allt eftersom.

Jag föreställer mig att det inte är så enkelt som att datorer tittar på videor istället för stillbilder.

Nej, du behöver fortfarande [datorer] för att anpassa dig. Jag är intresserad av inlärningsmetoder som ser informationen när den kommer in och sedan bearbetar och lär av den allt eftersom. Ett tillvägagångssätt vi har är känt som provträning. Tanken är att när du tittar på en sekvens av bilder som en video, kan saker och ting förändras. Så du vill inte att din modell ska fixas. Precis som ett biologiskt medel alltid anpassar sig till sin omgivning, vill vi att datorn kontinuerligt anpassar sig.

Standardparadigmet är att du först tränar på en stor datamängd och sedan distribuerar du. Dall·E och ChatGPT tränades på internet cirka 2021, och sedan frös [deras kunskap]. Sedan spyr den ut vad den redan vet. Ett mer naturligt sätt är [träning under testtid], att försöka få den att absorbera data och lära sig på jobbet, inte ha separata utbildnings- och implementeringsfaser.

Det finns definitivt ett problem med datorer, kallat domänskift eller datauppsättningsbias - denna idé att om dina träningsdata skiljer sig mycket från de data du använder när du distribuerar systemet, kommer saker och ting inte att fungera mycket bra. Vi gör en del framsteg, men vi är inte riktigt där än.

Beskrivning

Liknar problemet hur banker varnar investerare för att tidigare resultat kanske inte förutsäger framtida vinster?

Det är just det som är problemet. I den verkliga världen förändras saker. Till exempel, om en fältmus hamnar i ett hus, går det bra. Du kommer aldrig att bli av med den där musen! [Skrattar.] Den föddes på en åker, har aldrig varit i ett hus förut, och ändå kommer den att hitta och äta upp alla dina förnödenheter. Den anpassar sig väldigt snabbt, lär sig och anpassar sig till den nya miljön.

Den förmågan finns inte i nuvarande [datorseende]-system. Med självkörning, om du tränar en bil i Kalifornien och sedan testar den i Minnesota — boom! - det finns snö. Den har aldrig sett snö. Det blir förvirrat.

Nu tar folk upp detta genom att få så mycket data att [systemet] i princip har sett allt. Då behöver den inte anpassa sig. Men det missar fortfarande sällsynta händelser.

Det låter som att AI-system är vägen framåt. Var lämnar det människorna?

Arbetet som kommer ut från OpenAI både på textfronten (ChatGPT) och på bildfronten (Dall·E) har varit otroligt spännande och överraskande. Det bekräftar denna idé att, när du väl har tillräckligt med data, kan någorlunda enkla metoder ge förvånansvärt bra resultat.

Beskrivning

Men ChatGPT fick mig att inse att människor inte är så kreativa och exceptionella som vi vill se oss själva. För det mesta kan mönsterigenkännarna i oss ta över. Vi talar i meningar gjorda av fraser eller meningar vi har hört tidigare. Naturligtvis har vi lust och kreativitet. Vi kan göra saker som datorer inte kan göra – åtminstone för närvarande. Men för det mesta kunde vi ersättas av ChatGPT, och de flesta skulle inte märka det.

Det är ödmjukande. Men det är också en motivator att bryta sig ur dessa mönster, att försöka ha fler fantasier, att inte fastna i klichéer och pastischer.

Vissa forskare har uttryckt oro över riskerna AI utgör för mänskligheten. Är du oroad?

Många forskare som jag har stor respekt för har varnat för artificiell intelligens. Jag vill inte förminska de orden. Många av dessa är giltiga poäng. Men man måste sätta saker i perspektiv.

Just nu kommer den största faran för civilisationen inte från datorer utan från människor. Nukleär Armageddon och klimatförändringar är mycket mer angelägna bekymmer. Ryska federationen har attackerat sin helt oskyldiga granne. Jag är född i Ryssland, och det är särskilt skrämmande att mina tidigare landsmän kan göra detta. Jag gör allt jag kan för att se till att detta förblir ämne nummer ett.

Vi kanske tror att AI-revolutionen är den viktigaste händelsen i vår livstid. Men AI-revolutionen blir ingenting om vi inte räddar den fria världen.

Så du oroar dig inte alls för AI?

Nej. Du vet, jag älskar att oroa dig. Jag är en stor orolig! Men om Putin som förstör världen är här [räcker handen mot huvudet] och klimatförändringen är här [sänker handen till sina axlar], så är AI här nere [sänker handen upp på fötterna]. Det är bråkdelar av en procent av min oro jämfört med Putin och klimatförändringarna.

Tidsstämpel:

Mer från Quantamagazin