Fremkomsten af ​​domæneeksperter i Deep Learning PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Fremkomsten af ​​domæneeksperter i dyb læring

Jeremy Howard er og kunstig intelligens-forsker og medstifter af fast.ai, en platform for ikke-eksperter til at lære kunstig intelligens og maskinlæring. Før han startede fast.ai, grundlagde han flere virksomheder - inklusive FastMail og Enlitic, en pioner inden for at anvende dyb læring til det medicinske område - og var præsident og chefforsker for maskinlæringskonkurrenceplatformen Kaggle. 

I dette interview diskuterer Howard, hvad det betyder for forskellige industrier og endda globale regioner, nu hvor folk uden ph.d.'er fra specialiserede forskningslaboratorier kan bygge og arbejde med deep learning-modeller. Blandt andre emner under denne brede paraply deler han sine tanker om, hvordan man bedst kan holde trit med state-of-the-art teknikker, hurtig ingeniørarbejde som et nyt færdighedssæt og fordele og ulemper ved kodegenereringssystemer som Codex.


FREMTID: Efter at have kørt fast.ai i de sidste mange år, hvad er virkningerne du ser af at have så mange flere mennesker bekendt med de grundlæggende begreber om dyb læring - i forhold til for flere år siden, da folk med viden var enhjørninger?

JEREMY HOWARD: Da vi startede fast.ai, var der dybest set fem betydelige universitetsforskningslaboratorier, der arbejdede med deep learning - og de eneste mennesker, der vidste, hvordan man laver næsten alt med deep learning, var folk, der var på eller havde været i disse fem laboratorier . I det hele taget blev kode ikke offentliggjort, endsige data. Og selv aviserne udgav ikke detaljerne om, hvordan man fik det til at fungere i praksis, delvist fordi akademiske steder ikke brød sig meget om praktisk implementering. Det var meget fokuseret på teori. 

Så da vi startede, var det et meget spekulativt spørgsmål om, "Er det muligt at lave dyb læring i verdensklasse uden en ph.d.?". Vi ved nu, at svaret er Ja; det viste vi på vores allerførste kursus. Vores allerførste alumner fortsatte med at oprette patenter ved hjælp af deep learning, for at bygge virksomheder ved hjælp af deep learning og til at publicere på topsteder ved hjælp af deep learning. 

Jeg tror, ​​dit spørgsmål er det helt rigtige, som handler om, hvad der sker, når domæneeksperter bliver effektive deep learning praktikere? Det er der, vi har set de mest interessante ting, der foregår. Generelt er de bedste startups dem, der er bygget af folk, der personligt har en kløe at klø. De plejede at være rekrutterere, så de laver en rekrutteringsopstart, eller de plejede at være en advokatfuldmægtig, så de laver en lovlig opstart, eller hvad som helst. Og de siger, "Åh, jeg hader det her ved det job, jeg havde. Og nu hvor jeg kender til dyb læring, ved jeg, at jeg næsten kunne automatisere det hele."

Mange af vores studerende er også i gang med eller har lavet deres ph.d.er, men ikke i matematik eller datalogi; i stedet gør de dem inden for kemoinformatik, proteomik, datajournalistik eller hvad som helst. Og vi oplever meget ofte, at de er i stand til at tage deres forskning til et helt andet niveau. For eksempel begynder vi for første gang at se, at nogle store databaser og datakorpuser af folkebiblioteksmaterialer begynder at dukke op på internettet. Og der er mennesker inden for det felt – biblioteksvidenskab – som nu laver ting, hvor det aldrig engang faldt nogen ind, at de kunne gøre noget i den skala før. Men pludselig er det sådan: "Åh, min gud, se hvad der sker, når du analyserer et bibliotek som et ting". 

Jeg holdt et foredrag på en dyreholdskonference, hvor alle talte om dyb læring. For mig er det en virkelig ikke-oplagt brug, men for dem er det langt den mest åbenlyse brug. Folk bruger det til at løse problemer i den virkelige verden ved hjælp af data fra den virkelige verden inden for den virkelige verdens begrænsninger.

Det ser ud til fra min erfaring, i løbet af de sidste par år, at deep learning kan anvendes til stort set alle brancher - ikke hver del af hver industri, men nogle dele af stort set hver industri. 

Vi lærte en fyr at kende, som havde lavet en masse interessante ting med malariadiagnostik, hvilket, som du kan forestille dig, ikke er det største problem, som folk i San Francisco forsøgte at løse.

Det ser ud til, at omvending af vidensbaser – dyb læring, der nu er et supplement til domæneekspertise – kunne flytte balancen mellem teori og anvendelse.

Okay, og du kan se det ske. En af de store ting tidligt i deep learning-æraen var det arbejde, som Google Brain udførte, hvor de analyserede masser af YouTube-videoer og opdagede, at katte var en latent faktor i mange videoer. Deres model lærte at genkende katte, fordi den så så mange af dem. Og det er meget interessant arbejde, men ingen gik væk og byggede et firma på det. 

De ting, som mennesker var bygning - igen nyttigt, men inden for visse områder - som Google og Apples billedsøgning blev ret hurtigt ret god, fordi du faktisk kunne søge efter de ting, der var på billederne. Det er virkelig nyttigt. Og det er den slags ting, alle arbejdede på - enten virkelig abstrakte ting eller rigtige førsteverdensproblem-ting. Det er der ikke noget galt med, men der er en masse andre ting, der også skal arbejdes på. 

Så jeg var begejstret, da jeg efter et par år så på demografien for de mennesker, der havde gennemført vores kursus, og jeg opdagede, at en af ​​de største byer uden for USA var Lagos [hovedstaden i Nigeria]. Jeg syntes, det var rigtig godt, fordi dette er et fællesskab, der ikke tidligere lavede dyb læring. Jeg spurgte bogstaveligt talt folk i det første kursus: "Noen her fra Afrika?" Og jeg tror, ​​der var en fyr fra Elfenbenskysten, der var nødt til at få ting brændt på cd-rom i sit bibliotek, fordi de ikke har nok internetforbindelse. Så det voksede virkelig ret hurtigt.

Og så var det rart, fordi vi begyndte at få grupper af mennesker fra Uganda, Kenya og Nigeria til at flyve til San Francisco for at tage kurset personligt og lære hinanden at kende. Vi lærte for eksempel en fyr at kende, som havde lavet en masse interessante ting med malariadiagnostik, hvilket, som du kan forestille dig, ikke er det største problem, som folk i San Francisco forsøgte at løse.

Det føles for mig, at at have 16 forskellige store sprogmodeller trænet på 5% af internettet er som at få 16 vandrør ind i dit hus og 16 sæt elkabler ind i dit hus. 

Hvordan ser den gennemsnitlige karrierevej ud for en person, der kommer ud af et deep learning-program som dit?

Det er så forskelligt. Det har virkelig ændret sig meget fra de tidlige dage, hvor det bare var denne super early-adopter-tankegang – de mennesker, der stort set enten var iværksættere eller ph.d.er og tidlige postdocs, og som bare elsker banebrydende forskning og at prøve nye ting. Det er ikke kun early adopters længere, det er også folk, der forsøger at indhente eller følge med i, hvordan deres branche bevæger sig.

I dag er meget af det mennesker, der siger: "Åh, min gud, jeg føler, at dyb læring begynder at ødelægge ekspertise i min branche. Folk laver ting med en smule dyb læring, som jeg ikke engang kan forestille mig, og jeg vil ikke gå glip af det.” Nogle mennesker kigger lidt længere frem, og de er mere som: "Nå, ingen bruger virkelig dyb læring i min branche, men jeg kan ikke forestille mig, at det er en industri altså ikke vil blive påvirket, så jeg vil være den første." 

Nogle mennesker har helt sikkert en idé til en virksomhed, som de vil bygge. 

Den anden ting, vi får en masse af, er virksomheder, der sender en flok af deres forsknings- eller ingeniørhold for at gennemføre kurset, bare fordi de føler, at dette er en virksomhedskapacitet, som de burde have. Og det er især nyttigt med de online API'er, der er derude nu, som folk kan lege med - Codex or DALL-E eller hvad som helst - og få en følelse af, "Åh, det er lidt ligesom noget, jeg gør i mit job, men det er lidt anderledes, hvis jeg kunne justere det på disse måder." 

Disse modeller har dog også den uheldige bivirkning, måske, at de øger folks tendens til at føle, at AI-innovation kun er for store virksomheder, og at det ligger uden for deres muligheder. De kan vælge at være passive forbrugere af teknologien, fordi de ikke tror på, at de har nogen evne til personligt at bygge noget, der ville være bedre end det, Google eller OpenAI kunne bygge.

En model, der afgør, om du synes at kunne lide en film eller ej, og en model, der kan generere haikus, vil være 98 % ens. . . Det er meget, meget sjældent, at vi faktisk har brug for at træne en kæmpe model fra bunden på et stort stykke af internettet.

Selvom det er tilfældet - hvis du ikke kan udbygge OpenAI eller Google - er der sikkert en måde at drage fordel af, hvad de har gjort, af API-adgang til utroligt kraftfulde modeller, ikke?

Den første ting at sige er det er ikke sandt, ikke i en eller anden generel forstand, i hvert fald. Der er en vis splittelse af AI-træning i gang nu: Der er Google og OpenAI-siden, som handler om at skabe modeller, der er så generelle som muligt, og næsten altid har disse forskere specifikt målet i deres hoved om at komme til AGI. Jeg kommenterer ikke, om det er godt eller dårligt; det resulterer helt sikkert i nyttige artefakter for os normale mennesker, så det er fint. 

Men der er en helt anden vej, som er den, som næsten alle vores studerende går, som er: "Hvordan kan jeg løse de virkelige problemer for mennesker i mit samfund på en så pragmatisk måde som muligt?" Og der er meget mindre overlap, end du måske tror, ​​mellem de to metoder, de to datasæt, de to teknikker.

I min verden træner vi som udgangspunkt aldrig en model fra bunden. Det finjusterer altid. Så vi udnytter helt sikkert de store fyres arbejde, men det er altid frit tilgængelige modeller, der kan downloades. Ting som open source store sprogmodeller igennem BigScience er meget hjælpsom til det. 

Men de kommer formentlig til at ligge 6 til 12 måneder efter de store fyre, indtil vi måske finder en mere demokratisk måde at gøre dette på. Det føles for mig, at at have 16 forskellige store sprogmodeller trænet på 5% af internettet er som at få 16 vandrør ind i dit hus og 16 sæt elkabler ind i dit hus. Det føles som om det burde være mere en offentlig forsyning. Det er dejligt med konkurrence, men det ville også være rart, hvis der var et bedre samarbejde i gang, så vi ikke alle behøvede at spilde vores tid på det samme.

Så ja, vi ender med at finjustere modeller, som andre mennesker har bygget, til vores særlige formål. Og det er lidt ligesom, hvordan det menneskelige genom og abegenomet er næsten fuldstændig det samme, bortset fra nogle få procent her og der, som faktisk viser sig at gøre en stor forskel. Det er det samme med neurale net: En model, der afgør, om du synes at kunne lide en film eller ej, og en model, der kan generere haikus, vil være 98 % ens, fordi det meste handler om at forstå verden og forstå sprog og sådan noget. . Det er meget, meget sjældent, at vi faktisk har brug for at træne en kæmpe model fra bunden på et stort stykke af internettet.

Og det er derfor du absolut kan konkurrere med Google og OpenAI - fordi de sandsynligvis ikke engang vil være i dit rum. Hvis du forsøger at skabe noget for at automatisere advokatfuldmægtiges arbejde, eller hjælpe med planlægning af katastrofemodstandsdygtighed eller skabe en bedre forståelse af kønsbestemte sprog i løbet af de sidste 100 år eller hvad som helst, så konkurrerer du ikke med Google, du konkurrerer med den niche, der er i dit domæne.

Der er en betydelig kodningsevne lige nu i at vide, hvordan man går hurtigere. . . ved at være rigtig god til at komme med de rigtige Codex-kommentarer. . . For mange mennesker er det nok en mere værdifuld, umiddelbar ting at lære end at blive rigtig god til at kode.

Hvor vigtigt er det at følge med i alle fremskridt inden for kunstig intelligens, især hvis du arbejder med det i mindre skala?

Ingen kan følge med alle fremskridtene. Du skal følge med nogle fremskridt, men de faktiske teknikker, vi arbejder med, ændrer sig i dag meget langsomt. Mængden af ​​forskel mellem 2017 fast.ai-banen og 2018 fast.ai-banen var enorm, og mellem 2018- og 2019-banerne var den enorm-ish. I dag er der meget lidt ændringer over en periode på et par år.

De ting, som vi tænker på som værende virkelig betydningsfulde, som opkomsten af transformer arkitektur, for eksempel, er faktisk nogle år gammel nu og er hovedsageligt kun en flok klemte, almindelige feed-forward neurale netværkslag, og nogle prik-produkter. Det er fantastisk, men for nogen, der ønsker at forstå det, som allerede forstår konvnets, tilbagevendende netog grundlæggende flerlagsperceptroner, det er ligesom et par timers arbejde.

En af de store ting, der er sket i de sidste par år, er, at flere mennesker begynder at forstå de praktiske aspekter af, hvordan man træner en model effektivt. For eksempel DeepMind for nylig frigav et papir som i det væsentlige viste, at alle sprogmodeller derude var dramatisk mindre effektive, end de burde være, bogstaveligt talt fordi de ikke lavede nogle grundlæggende ting. Facebook - og specifikt en Facebook-praktikant var hovedforfatteren på avisen - byggede en ting, der hedder ConvNeXt, som dybest set siger: "Her er, hvad der sker, hvis vi tager et normalt foldet neuralt netværk og bare indsætter de åbenlyse justeringer, som alle kender til." Og de er dybest set den avancerede billedmodel nu. 

Så ja, det er langt mindre svært, end det ser ud til at holde sig ajour med de grundlæggende grundlæggende principper om, hvordan man opbygger gode modeller for dyb læring. Og du behøver bestemt ikke læse alle papirer på området. Især på dette tidspunkt, nu hvor tingene går så meget mindre hurtigt.

Men jeg tror, ​​det er nyttigt at have en bred forståelse, ikke kun af dit eget særlige område. Lad os sige, at du er en computer-vision-person, det hjælper meget at være god til NLP, kollaborativ filtrering og tabelanalyse – og omvendt, fordi der ikke er nær nok krydsbestøvning mellem disse grupper. Og fra tid til anden tager nogen et kig på et andet område, stjæler nogle af dets ideer og kommer derfra med et banebrydende resultat. 

Det er præcis, hvad jeg gjorde med ULMFiT for fire-fem år siden. Jeg sagde, "Lad os anvende alle de grundlæggende computer-vision transfer læringsteknikker til NLP," og fik et state-of-the-art resultat af miles. Forskere ved OpenAI gjorde noget lignende, men erstattede mit RNN med en transformer og opskalerede det, og det blev GPT. Vi ved alle, hvordan det gik. 

Det er langt mindre svært, end det ser ud til at holde sig ajour med det grundlæggende grundlæggende i, hvordan man opbygger gode modeller for dyb læring. Og du behøver bestemt ikke læse alle papirer på området.

Du har nævnt, at vi har set et trin-funktionsskifte i AI i de sidste tre til seks måneder. Kan du uddybe det?

Jeg vil faktisk kalde det en krog snarere end a trinfunktion. Jeg tror, ​​vi er på en eksponentiel kurve, og fra tid til anden kan man bemærke, at tingene virkelig har set ud til at være accelereret på en mærkbar måde. Det, vi er nødt til, er, at fortrænede modeller trænet på meget store korpus af tekst og billeder nu kan gøre meget imponerende one-shot eller få-shot ting på ret generelle måder, delvist fordi folk i de sidste par måneder er blevet bedre ved forståelse hurtig ingeniørarbejde. I det væsentlige, at vide, hvordan man stiller det rigtige spørgsmål - "forklar din begrundelse" trin for trin slags prompter. 

Og vi opdager, at disse modeller faktisk er i stand til at gøre ting, som mange akademikere har fortalt os, ikke er mulige i form af en kompositorisk forståelse af verden og at kunne vise trin-for-trin-ræsonnement. Mange mennesker havde sagt, "Åh, du skal bruge symbolske teknikker; neurale net og dyb læring vil aldrig nå dertil." Nå, det viser sig, at de gør. Jeg tror, ​​når vi alle kan se, at den kan gøre disse ting, som folk hævdede, den aldrig kunne gøre, det gør os lidt mere dristige til at prøve at gøre mere med dem.

Det minder mig om første gang, jeg så en video på internettet, som jeg husker, at jeg viste til min mor, fordi det var en fysioterapivideo, og hun er fysioterapeut. Det var en video af en fælles mobilitetsøvelse i din skulder, og jeg tror det var 128 gange 128 pixels. Den var sort og hvid, meget komprimeret og måske omkring 3 eller 4 sekunder lang. Jeg var meget spændt, og jeg sagde til min mor: "Wow, se her: en video på internettet!" Og hun var selvfølgelig slet ikke begejstret. Hun tænkte: "Hvad nytter det? Det er det mest meningsløse, jeg nogensinde har set."

Selvfølgelig tænkte jeg på, at det en dag vil være tusind gange tusind pixels, 60 billeder i sekundet, fuld farve, smuk video. Beviset er der, nu venter det bare på, at resten indhenter. 

Så jeg tror, ​​at når folk så billederne i virkelig lav kvalitet fra deep learning i de tidlige dage, var der ikke megen spænding, fordi de fleste mennesker ikke er klar over, at teknologi skalerer som denne. Nu hvor vi faktisk kan producere fuldfarvebilleder i høj kvalitet, der ser meget bedre ud, end næsten nogen af ​​os kunne afbilde eller fotografere, behøver folk ingen fantasi. De kan bare se at det, der bliver gjort lige nu, er meget imponerende. Det tror jeg gør en stor forskel.

Jeg føler, at HCI er den største manglende brik i næsten alle deep learning-projekter, jeg har set. . . Hvis jeg var i HCI, ville jeg ønske, at hele mit felt var fokuseret på spørgsmålet om, hvordan vi interagerer med deep learning algoritmer.

Ideen om hurtig ingeniørarbejde - hvis ikke som en helt ny karriere, men i det mindste som et nyt færdighedssæt - er virkelig interessant.

Det er det, og jeg er forfærdelig til det. For eksempel ved DALL-E ikke rigtig, hvordan man skriver tekst korrekt, hvilket ikke ville være et problem, bortset fra at den elsker at sætte tekst i alle sine blodige billeder. Så der er altid disse tilfældige symboler, og jeg kan for mit liv ikke finde ud af, hvordan jeg kommer med en prompt, der ikke har tekst i. Og nogle gange vil jeg bare tilfældigt ændre et ord her eller der, og pludselig har ingen af ​​dem tekst længere. Der er et trick ved dette, og jeg har ikke helt fundet ud af det endnu.

For eksempel er der også en betydelig kodningsevne lige nu i at vide, hvordan man går hurtigere - især hvis du ikke er en særlig god koder - ved at være rigtig god til at komme med de rigtige Codex-kommentarer for at få det til at generere ting for dig . Og at vide, hvilke slags fejl den har en tendens til at lave, hvilke slags ting den er god til og dårlig til, og at vide, hvordan man får den til at lave en test for den ting, den lige har bygget til dig.

For mange mennesker er det nok en mere værdifuld, umiddelbar ting at lære end at blive rigtig god til at kode.

Specifikt om Codex, hvad er dine tanker om ideen om maskingenereret kode?

I skrev et blogindlæg på det, da GitHub Copilot udkom, faktisk. På det tidspunkt tænkte jeg: "Wow, det er virkelig fedt og imponerende, men jeg er ikke helt sikker på, hvor nyttigt det er." Og jeg er stadig ikke sikker.

En væsentlig årsag er, at jeg tror, ​​vi alle ved, at deep learning-modeller ikke har nogen forståelse af, om de er rigtige eller forkerte. Codex har forbedret sig meget, siden jeg anmeldte dens første version, men den skriver stadig en masse forkert kode. Den skriver også udførlig kode, fordi den genererer gennemsnit kode. For mig er det meget langsommere at tage gennemsnitlig kode og lave den til kode, som jeg kan lide, og som jeg ved er korrekt, end bare at skrive den fra bunden - i hvert fald på sprog, jeg kender godt. 

Men jeg føler, at der er et helt menneske-computer interface (HCI) spørgsmål her, og Jeg føler, at HCI er den største manglende brik i næsten alle deep learning-projekter, jeg har set: næsten aldrig erstatter disse ting mennesker fuldt ud. Derfor arbejder vi sammen med disse algoritmer. Hvis jeg var i HCI, ville jeg ønske, at hele mit felt var fokuseret på spørgsmålet om, hvordan vi interagerer med deep learning algoritmer. Fordi vi har haft årtier med at lære at interagere med grafiske brugergrænseflader, kommandolinjegrænseflader og webgrænseflader, men dette er en helt anden ting. 

Og jeg ved ikke, hvordan jeg som programmør bedst interagerer med noget som Codex. Jeg vil vædde på, at der er virkelig effektive måder at gøre det på for alle områder - at skabe grænseflader og binde data, bygge algoritmer og så videre - men jeg aner ikke, hvad de ting er.

Offentliggjort 21. juli 2022

Teknologi, innovation og fremtiden, som fortalt af dem, der bygger den.

Tak for din tilmelding.

Tjek din indbakke for en velkomstbesked.

Tidsstempel:

Mere fra Andreessen Horowitz