The Rise of Domain Experts in Deep Learning PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Fremveksten av domeneeksperter innen dyp læring

Jeremy Howard er og kunstig intelligensforsker og medgründer av fast.ai, en plattform for ikke-eksperter for å lære kunstig intelligens og maskinlæring. Før han startet fast.ai, grunnla han flere selskaper - inkludert FastMail og Enlitic, en pioner innen bruk av dyp læring til det medisinske feltet - og var president og sjefforsker for maskinlæringskonkurranseplattformen Kaggle. 

I dette intervjuet diskuterer Howard hva det betyr for ulike bransjer og til og med globale regioner nå at folk uten doktorgrad fra spesialiserte forskningslaboratorier kan bygge og jobbe med dyplæringsmodeller. Blant andre emner under denne brede paraplyen deler han sine tanker om hvordan man best kan holde tritt med toppmoderne teknikker, rask konstruksjon som et nytt ferdighetssett, og fordeler og ulemper med kodegenereringssystemer som Codex.


FREMTID: Etter å ha kjørt fast.ai de siste årene, hva er effektene du ser av å ha så mange flere mennesker kjent med de grunnleggende konseptene for dyp læring – sammenlignet med flere år siden da folk med kunnskapen var enhjørninger?

JEREMY HOWARD: Da vi startet fast.ai, var det i utgangspunktet fem betydelige universitetsforskningslaboratorier som jobbet med dyp læring – og de eneste som visste hvordan de kunne gjøre nesten hva som helst med dyp læring var folk som var på, eller hadde vært på, disse fem laboratoriene . I det hele tatt ble ikke kode publisert, enn si data. Og selv avisene publiserte ikke detaljene om hvordan det skulle fungere i praksis, delvis fordi akademiske arenaer ikke brydde seg så mye om praktisk implementering. Det var veldig fokusert på teori. 

Så da vi startet, var det et veldig spekulativt spørsmål om: "Er det mulig å gjøre dyp læring i verdensklasse uten en doktorgrad?". Vi vet nå svaret er ja; det viste vi på vårt aller første kurs. Våre aller første alumner fortsatte med å opprette patenter ved hjelp av dyp læring, for å bygge selskaper ved hjelp av dyp læring, og å publisere på beste arenaer ved å bruke dyp læring. 

Jeg tror spørsmålet ditt er akkurat det rette, som handler om hva som skjer når domeneeksperter blir effektive dyplæringsutøvere? Det er der vi har sett de mest interessante tingene på gang. Generelt er de beste oppstartene de som er bygget av folk som personlig har en kløe å klø. De pleide å være rekrutterere, så de driver med en rekrutteringsoppstart, eller de pleide å være en advokatfullmektig, så de driver med en lovlig oppstart, eller hva som helst. Og de er som: "Å, jeg hater dette med jobben jeg hadde. Og nå som jeg vet om dyp læring, vet jeg at jeg nesten kunne automatisert hele greia.»

Mange av studentene våre gjør eller har tatt doktorgraden, men ikke i matematikk eller informatikk; i stedet gjør de dem innen kjemoinformatikk, proteomikk, datajournalistikk eller hva som helst. Og vi opplever veldig ofte at de er i stand til å ta forskningen sin til et helt annet nivå. For eksempel begynner vi for første gang å se noen store databaser og datakorpuser av folkebibliotekmateriale som begynner å dukke opp på internett. Og det er folk i det feltet – bibliotekvitenskap – nå som gjør ting der det aldri har falt noen inn at de kunne gjøre noe i den skalaen før. Men plutselig er det sånn: «Å, herregud, se på hva som skjer når du analyserer et bibliotek som en ting». 

Jeg holdt et foredrag på en dyreholdskonferanse der alle snakket om dyp læring. For meg er det en virkelig ikke-opplagt bruk, men for dem er det den desidert mest åpenbare bruken. Folk bruker det til å løse problemer i den virkelige verden ved å bruke data fra den virkelige verden innenfor begrensninger i den virkelige verden.

Det ser ut fra min erfaring, de siste årene, at dyp læring kan brukes til stort sett alle bransjer - ikke hver del av hver industri, men noen deler av stort sett hver industrien. 

Vi ble kjent med en fyr som hadde gjort mange interessante ting med malariadiagnostikk, som, som du kan forestille deg, ikke er det største problemet som folk i San Francisco prøvde å løse.

Det ser ut til at inversjon av kunnskapsbaser – dyp læring som nå er et supplement til domeneekspertise – kan endre balansen mellom teori og anvendelse.

Greit, og du kan se at det skjer. En av de store tingene tidlig i dyplæringstiden var arbeidet Google Brain gjorde, der de analyserte mange YouTube-videoer og oppdaget at katter var en latent faktor i mange videoer. Modellen deres lærte å gjenkjenne katter fordi den så så mange av dem. Og det er veldig interessant arbeid, men ingen gikk bort og bygde et selskap på det. 

Tingene som folk var bygning – igjen, nyttig, men innenfor visse områder – som Google og Apples bildesøk ble ganske raskt ganske bra fordi du faktisk kunne søke etter tingene som var på bildene. Det er veldig nyttig. Og det er den typen ting alle jobbet med - enten virkelig abstrakte ting eller virkelige førsteverdensproblemer. Det er ikke noe galt med det, men det er mange andre ting som må jobbes med også. 

Så jeg ble begeistret da jeg etter et par år så på demografien til menneskene som hadde gjennomført kurset vårt, og jeg oppdaget at en av de største byene utenfor USA var Lagos [hovedstaden i Nigeria]. Jeg syntes det var veldig bra fordi dette er et fellesskap som tidligere ikke drev med dyp læring. Jeg spurte bokstavelig talt folk i det første kurset: "Noen her fra Afrika?" Og jeg tror det var en fyr fra Elfenbenskysten som måtte brenne ting på CD-ROM i biblioteket sitt fordi de ikke har nok internettforbindelse. Så det vokste egentlig ganske raskt.

Og så var det hyggelig fordi vi begynte å få grupper av folk fra Uganda, Kenya og Nigeria til å fly til San Francisco for å gjennomføre kurset personlig og bli kjent med hverandre. Vi ble for eksempel kjent med en fyr som hadde gjort mange interessante ting med malariadiagnostikk, som, som du kan forestille deg, ikke er det største problemet som folk i San Francisco prøvde å løse.

Det føles for meg at å ha 16 forskjellige store språkmodeller trent på 5 % av internett er som å ha 16 vannrør inn i huset ditt og 16 sett med strømkabler inn i huset ditt. 

Hvordan ser den gjennomsnittlige karriereveien ut for noen som kommer ut av et dyplæringsprogram som ditt?

Det er så mangfoldig. Det har virkelig endret seg mye fra de tidlige dagene, da det bare var denne super tidlige-adopter-tankegangen - folkene som i stor grad enten var gründere eller PhD-er og tidlige postdoktorer, og som bare elsker banebrytende forskning og prøve nye ting. Det er ikke bare tidlige brukere lenger, det er også folk som prøver å ta igjen eller følge med på hvordan bransjen deres beveger seg.

Nå for tiden er mye av det folk som tenker: "Herregud, jeg føler at dyp læring begynner å ødelegge ekspertisen i bransjen min. Folk gjør ting med litt dyp læring som jeg ikke engang kan forestille meg, og jeg vil ikke gå glipp av det.» Noen mennesker ser litt lenger fremover, og de er mer som: "Vel, ingen bruker egentlig dyp læring i bransjen min, men jeg kan ikke forestille meg at det er en industri altså ikke kommer til å bli påvirket, så jeg vil være den første.» 

Noen mennesker har definitivt en idé for et selskap som de ønsker å bygge. 

Den andre tingen vi får mye av er selskaper som sender en haug av forsknings- eller ingeniørteamene deres for å gjennomføre kurset bare fordi de føler at dette er en bedriftsevne de burde ha. Og det er spesielt nyttig med online API-ene som er der ute nå som folk kan leke med – Codex or DALL-E eller hva som helst - og få en følelse av, "Å, dette er litt som noe jeg gjør i jobben min, men det er litt annerledes hvis jeg kunne finjustere det på disse måtene." 

Imidlertid har disse modellene også den uheldige bieffekten, kanskje, at de øker tendensen til at folk føler at AI-innovasjon bare er for store selskaper, og at det er utenfor deres evner. De kan velge å være passive forbrukere av teknologien fordi de ikke tror de har noen evne til å personlig bygge noe som ville være noe bedre enn det Google eller OpenAI kan bygge.

En modell som avgjør om du ser ut til å like en film eller ikke, og en modell som kan generere haikus, kommer til å være 98 % like . . . Det er veldig, veldig sjelden at vi faktisk trenger å trene en stor modell fra bunnen av på et stort område av internett.

Selv om det er tilfelle – hvis du ikke kan bygge ut OpenAI eller Google – er det sikkert en måte å dra nytte av det de har gjort, av API-tilgang til utrolig kraftige modeller, ikke sant?

Det første å si er det er ikke sant, ikke i noen generell forstand, i det minste. Det er en viss splittelse av AI-trening som pågår nå: Det er Google og OpenAI-siden, som handler om å lage modeller som er så generelle som mulig, og nesten alltid, disse forskerne har spesifikt målet i hodet om å komme til AGI. Jeg kommenterer ikke om det er bra eller dårlig; det resulterer definitivt i nyttige artefakter for oss vanlige folk, så det er greit. 

Imidlertid er det en helt annen vei, som er den som nesten alle våre studenter går, som er: "Hvordan kan jeg løse de virkelige problemene til folk i samfunnet mitt på en så pragmatisk måte som mulig?" Og det er mye mindre overlapping enn du kanskje tror mellom de to metodene, de to datasettene, de to teknikkene.

I min verden trener vi i grunnen aldri en modell fra bunnen av. Det finjusteres alltid. Så vi utnytter definitivt arbeidet til de store gutta, men det er alltid fritt tilgjengelige, nedlastbare modeller. Ting som åpen kildekode store språkmodeller gjennom BigScience er veldig nyttig for det. 

Imidlertid kommer de sannsynligvis til å ligge 6 til 12 måneder bak de store gutta til vi kanskje finner en mer demokratisk måte å gjøre dette på. Det føles for meg at å ha 16 forskjellige store språkmodeller trent på 5 % av internett er som å ha 16 vannrør inn i huset ditt og 16 sett med strømkabler inn i huset ditt. Det føles som om det burde være mer et offentlig verktøy. Det er flott å ha konkurranse, men det ville også vært fint om det var noe bedre samarbeid på gang, slik at vi ikke alle trengte å kaste bort tiden vår på det samme.

Så, ja, vi ender opp med å finjustere, for våre spesielle formål, modeller som andre mennesker har bygget. Og det er på en måte som hvordan det menneskelige genomet og apens genom er nesten helt det samme, bortsett fra noen få prosent her og der, som faktisk viser seg å utgjøre en stor forskjell. Det er det samme med nevrale nett: En modell som bestemmer om du ser ut til å like en film eller ikke, og en modell som kan generere haikus kommer til å være 98 % det samme fordi det meste handler om å forstå verden, og forstå språk og sånt . Det er veldig, veldig sjelden at vi faktisk trenger å trene en stor modell fra bunnen av på et stort område av internett.

Og det er derfor du absolutt kan konkurrere med Google og OpenAI - fordi de sannsynligvis ikke engang kommer til å være i ditt område. Hvis du prøver å lage noe for å automatisere arbeidet til advokatfullmektiger, eller hjelpe med planlegging av katastrofemotstandsdyktighet, eller generere en bedre forståelse av kjønnet språk de siste 100 årene eller hva som helst, konkurrerer du ikke med Google, du konkurrerer med den nisjen som er i domenet ditt.

Det er en betydelig kodeferdighet akkurat nå i å vite hvordan du kan gå raskere. . . ved å være veldig flink til å komme med de riktige Codex-kommentarene. . . For mange mennesker er det sannsynligvis en mer verdifull, umiddelbar ting å lære enn å bli veldig god til å kode.

Hvor viktig er det å holde tritt med alle fremskrittene i AI-området, spesielt hvis du jobber med det i mindre skala?

Ingen kan holde tritt med alle fremskritt. Du må følge med noen fremskritt, men de faktiske teknikkene vi jobber med endrer seg, i dag, veldig sakte. Forskjellen mellom fast.ai-kurset i 2017 og fast.ai-kurset i 2018 var enorm, og mellom kursene i 2018 og 2019 var det enormt.ex. I dag er det svært lite endringer over en periode på et par år.

Tingene vi tenker på som virkelig viktige, som fremveksten av transformatorarkitektur, for eksempel, er faktisk noen år gammel nå og er hovedsakelig bare en haug med klemte, vanlige feed-forward nevrale nettverkslag, og noen prikk-produkter. Det er flott, men for noen som ønsker å forstå det, som allerede forstår convnets, tilbakevendende nettog grunnleggende flerlags perseptroner, det er som noen timer med arbeid.

En av de store tingene som har skjedd de siste par årene er at flere begynner å forstå de praktiske sidene ved hvordan man trener en modell effektivt. For eksempel DeepMind nylig ga ut et papir som i hovedsak viste at alle språkmodeller der ute var dramatisk mindre effektive enn de burde være, bokstavelig talt fordi de ikke gjorde noen grunnleggende ting. Facebook – og spesifikt en Facebook-praktikant var hovedforfatteren på avisen – bygde en ting som heter ConvNeXt, som i utgangspunktet sier: "Her er hva som skjer hvis vi tar et normalt konvolusjonelt nevralt nettverk og bare legger inn de åpenbare justeringene som alle vet om." Og de er i utgangspunktet den toppmoderne bildemodellen nå. 

Så, ja, det er mye mindre vanskelig å holde seg oppdatert med det grunnleggende om hvordan man bygger gode dyplæringsmodeller enn det ser ut til. Og du trenger absolutt ikke å lese alle aviser i feltet. Spesielt på dette tidspunktet, nå som ting går så mye mindre raskt.

Men jeg tror det er nyttig å ha en bred forståelse, ikke bare av ditt eget spesielle område. La oss si at du er en person med datasyn, det hjelper mye å være god på NLP, samarbeidsfiltrering og tabellanalyse også – og omvendt fordi det ikke er på langt nær nok krysspollinering mellom disse gruppene. Og fra tid til annen tar noen en titt på et annet område, stjeler noen av ideene deres og kommer med et banebrytende resultat. 

Dette er akkurat det jeg gjorde med ULMFiT for fire eller fem år siden. Jeg sa: "La oss bruke alle de grunnleggende læringsteknikkene for datasynoverføring til NLP," og fikk et toppmoderne resultat med miles. Forskere ved OpenAI gjorde noe lignende, men byttet ut min RNN med en transformator og skalerte den opp, og det ble det GPT. Vi vet alle hvordan det gikk. 

Å holde seg oppdatert med det grunnleggende om hvordan man bygger gode dyplæringsmodeller er mye mindre vanskelig enn det ser ut til. Og du trenger absolutt ikke å lese alle aviser i feltet.

Du har nevnt at vi har sett et trinn-funksjonsskifte i AI de siste tre til seks månedene. Kan du utdype det?

Jeg vil faktisk kalle det en krok snarere enn a trinnfunksjon. Jeg tror vi er på en eksponentiell kurve, og fra tid til annen kan du legge merke til at ting virkelig har sett ut til å ha økt på en merkbar måte. Det vi har kommet til er at forhåndstrente modeller som er trent på veldig store korpus av tekst og bilder nå kan gjøre veldig imponerende one-shot eller få-shot-ting på ganske generelle måter, delvis fordi folk har blitt bedre de siste månedene ved å forstå rask prosjektering. I hovedsak, å vite hvordan du stiller det riktige spørsmålet - "forklar resonnementet ditt" trinnvise slags spørsmål. 

Og vi oppdager at disse modellene faktisk er i stand til å gjøre ting som mange akademikere har fortalt oss ikke er mulig når det gjelder en kompositorisk forståelse av verden og å kunne vise trinnvise resonnementer. Mange mennesker hadde sagt: «Å, du må bruke symbolske teknikker; nevrale nett og dyp læring vil aldri komme dit.» Vel, det viser seg at de gjør det. Jeg tror når vi alle kan se at den kan gjøre disse tingene som folk hevdet at den aldri kunne gjøre, det gjør oss litt dristigere når det gjelder å prøve å gjøre mer med dem.

Det minner meg om første gang jeg så en video på internett, som jeg husker at jeg viste til mamma fordi det var en fysioterapivideo, og hun er fysioterapeut. Det var en video av en felles mobilitetsøvelse i skulderen din, og jeg tror det var 128 x 128 piksler. Det var svart og hvitt, svært komprimert og kanskje omtrent 3 eller 4 sekunder langt. Jeg var veldig spent, og jeg sa til mamma: "Wow, se på dette: en video på internett!" Og selvfølgelig var hun ikke begeistret i det hele tatt. Hun sa: «Hva er nytten med det? Dette er det mest meningsløse jeg noen gang har sett."

Selvfølgelig tenkte jeg at en dag kommer dette til å bli tusen ganger tusen piksler, 60 bilder i sekundet, full farge, vakker video. Beviset er der, nå er det bare å vente på at resten tar igjen. 

Så jeg tror at når folk så de virkelig lavkvalitetsbildene fra dyp læring i de første dagene, var det ikke mye spenning fordi folk flest ikke innser at teknologi skalerer som dette. Nå som vi faktisk kan produsere fullfargebilder av høy kvalitet som ser mye bedre ut enn nesten noen av oss kan ta bilder eller fotografere, trenger folk ingen fantasi. De kan bare se at det som gjøres akkurat nå er veldig imponerende. Jeg tror det utgjør en stor forskjell.

Jeg føler at HCI er den største manglende brikken i nesten alle dyplæringsprosjekter jeg har sett. . . Hvis jeg var i HCI, ville jeg ønsket at hele feltet mitt skulle være fokusert på spørsmålet om hvordan vi samhandler med dyplæringsalgoritmer.

Ideen om rask ingeniørkunst - om ikke som en helt ny karriere, men i det minste som et nytt ferdighetssett - er virkelig interessant.

Det er det, og jeg er forferdelig til det. For eksempel vet ikke DALL-E egentlig hvordan man skriver tekst riktig, noe som ikke ville være noe problem bortsett fra at den elsker å sette tekst i alle sine blodige bilder. Så det er alltid disse tilfeldige symbolene, og jeg kan for mitt liv ikke finne ut hvordan jeg kan komme opp med en melding som ikke har tekst. Og noen ganger vil jeg bare tilfeldig endre et ord her eller der, og plutselig har ingen av dem tekst lenger. Det er et triks med dette, og jeg har ikke helt funnet ut av det ennå.

Også, for eksempel, er det en betydelig kodeferdighet akkurat nå i å vite hvordan du kan gå raskere - spesielt hvis du ikke er en spesielt god koder - ved å være veldig flink til å komme opp med de riktige Codex-kommentarene for å få det til å generere ting for deg . Og å vite hva slags feil den pleier å gjøre, hva slags ting den er god på og dårlig på, og vite hvordan den skal få den til å lage en test for tingen den nettopp har bygget for deg.

For mange mennesker er det sannsynligvis en mer verdifull, umiddelbar ting å lære enn å bli veldig god til å kode.

Spesielt om Codex, hva er dine tanker om ideen om maskingenerert kode?

I skrev et blogginnlegg på den da GitHub Copilot kom ut, faktisk. På den tiden tenkte jeg: "Wow, dette er veldig kult og imponerende, men jeg er ikke helt sikker på hvor nyttig det er." Og jeg er fortsatt ikke sikker.

En hovedgrunn er at jeg tror vi alle vet at dyplæringsmodeller ikke har noen forståelse av om de er riktige eller gale. Codex har forbedret seg mye siden jeg anmeldte den første versjonen, men den skriver fortsatt mye feil kode. Dessuten skriver den en detaljert kode fordi den genererer gjennomsnittlig kode. For meg er det mye tregere å ta gjennomsnittlig kode og lage den til kode som jeg liker og jeg vet er riktig enn å skrive den fra bunnen av – i hvert fall på språk jeg kan godt. 

Men jeg føler at det er et helt menneske-datamaskin-grensesnitt (HCI) spørsmål her, og Jeg føler at HCI er den største manglende brikken i nesten alle dyplæringsprosjekter jeg har sett: nesten aldri erstatter disse tingene mennesker fullt ut. Derfor jobber vi sammen med disse algoritmene. Hvis jeg var i HCI, ville jeg ønsket at hele feltet mitt skulle være fokusert på spørsmålet om hvordan vi samhandler med dyplæringsalgoritmer. Fordi vi har hatt flere tiår med å lære å samhandle med grafiske brukergrensesnitt, kommandolinjegrensesnitt og nettgrensesnitt, men dette er en helt annen ting. 

Og jeg vet ikke hvordan jeg som programmerer best samhandler med noe som Codex. Jeg vedder på at det er veldig kraftige måter å gjøre det på for alle områder - å lage grensesnitt og binde data, bygge algoritmer og så videre - men jeg har ingen anelse om hva disse tingene er.

Lagt ut 21. juli 2022

Teknologi, innovasjon og fremtiden, som fortalt av de som bygger den.

Takk for at du registrerte deg.

Sjekk innboksen din for et velkomstbrev.

Tidstempel:

Mer fra Andreessen Horowitz