The Rise of Domain Experts in Deep Learning PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Framväxten av domänexperter inom djupinlärning

Jeremy Howard är en artificiell intelligensforskare och medgrundare av fast.ai, en plattform för icke-experter att lära sig artificiell intelligens och maskininlärning. Innan han startade fast.ai grundade han flera företag – inklusive FastMail och Enlitic, en pionjär inom att tillämpa djupinlärning på det medicinska området – och var president och chefsforskare för tävlingsplattformen för maskininlärning Kaggle. 

I den här intervjun diskuterar Howard vad det betyder för olika industrier och till och med globala regioner nu när personer utan doktorsexamen från specialiserade forskningslabb kan bygga och arbeta med modeller för djupinlärning. Bland andra ämnen under detta breda paraply delar han med sig av sina tankar om hur man bäst kan hänga med i toppmodern teknik, snabb ingenjörskonst som en ny färdighetsuppsättning och för- och nackdelarna med kodgenereringssystem som Codex.


FRAMTID: Efter att ha sprungit fast.ai under de senaste åren, vilka är effekterna du ser av att ha så många fler människor bekanta med de grundläggande koncepten för djupinlärning - jämfört med flera år sedan när människor med kunskapen var enhörningar?

JEREMY HOWARD: När vi startade fast.ai fanns det i princip fem betydande universitetsforskningslabb som arbetade med djupinlärning – och de enda människorna som visste hur man kunde göra nästan vad som helst med djupinlärning var personer som var på, eller hade varit på, dessa fem laboratorier . På det hela taget publicerades inte kod, än mindre data. Och inte ens tidningarna publicerade detaljerna om hur det skulle fungera i praktiken, delvis för att akademiska platser inte brydde sig så mycket om praktiskt genomförande. Det var väldigt fokuserat på teori. 

Så när vi började var det en väldigt spekulativ fråga om, "Är det möjligt att göra djupinlärning i världsklass utan en doktorsexamen?". Vi vet nu att svaret är ja; det visade vi på vår allra första kurs. Våra allra första alumner fortsatte med att skapa patent med hjälp av djupinlärning, för att bygga företag med hjälp av djupinlärning och att publicera på bästa ställen med hjälp av djupinlärning. 

Jag tror att din fråga är helt rätt, som handlar om vad som händer när domänexperter blir effektiva utövare av djupinlärning? Det är där vi har sett de mest intressanta sakerna pågå. Generellt sett är de bästa startupen de som är byggda av människor som personligen har en klåda att klia sig. De brukade vara rekryterare, så de gör en rekryteringsstart, eller de brukade vara en paralegal, så de gör en legal start, eller vad som helst. Och de säger, "Åh, jag hatar det här med jobbet jag hade. Och nu när jag vet om djupinlärning vet jag att jag nästan skulle kunna automatisera det hela."

Många av våra studenter gör eller har doktorerat, men inte i matematik eller datavetenskap; istället gör de dem inom kemoinformatik, proteomik, datajournalistik eller vad som helst. Och vi finner väldigt ofta att de kan ta sin forskning till en helt annan nivå. Till exempel börjar vi för första gången se att några stora databaser och datakroppar av folkbiblioteksmaterial börjar dyka upp på internet. Och det finns människor inom det fältet – biblioteksvetenskap – som nu gör saker där det aldrig ens föll någon in att de kunde göra något i den skalan tidigare. Men plötsligt är det som: "Åh, herregud, titta på vad som händer när du analyserar ett bibliotek som en sak. " 

Jag höll ett föredrag på en djurhållningskonferens där alla pratade om djupinlärning. För mig är det en väldigt icke-uppenbar användning, men för dem är det den överlägset mest uppenbara användningen. Människor använder det för att lösa verkliga problem med verkliga data inom verkliga begränsningar.

Det verkar från min erfarenhet, under de senaste åren, att djupinlärning kan tillämpas på i stort sett alla branscher – inte varje del av varje industri, men några delar av i stort sett varje industrin. 

Vi lärde känna en kille som hade gjort massor av intressanta saker med malariadiagnostik, vilket, som ni kan föreställa er, inte är det största problemet som människor i San Francisco försökte lösa.

Det verkar som att invertering av kunskapsbaser – djupinlärning som nu kompletterar domänexpertis – skulle kunna förändra balansen mellan teori och tillämpning.

Okej, och du kan se att det händer. En av de stora sakerna tidigt i eran för djupinlärning var arbetet som Google Brain gjorde, där de analyserade massor av YouTube-videor och upptäckte att katter var en latent faktor i många videor. Deras modell lärde sig att känna igen katter eftersom den såg så många av dem. Och det är väldigt intressant arbete, men ingen gick iväg och byggde ett företag på det. 

De saker som människor były byggnad — återigen användbar, men inom vissa områden — som Google och Apples bildfotosökning blev ganska snabbt ganska bra eftersom du faktiskt kunde söka efter de saker som fanns på bilderna. Det är verkligen användbart. Och det är den typen av grejer som alla arbetade med — antingen riktigt abstrakta grejer eller riktiga förstavärldsproblem. Det är inget fel med det, men det finns en hel del andra saker som måste jobbas på också. 

Så jag blev förtjust när jag efter ett par år tittade på demografin för de människor som hade gått vår kurs och jag upptäckte att en av de största städerna utanför USA var Lagos [Nigerias huvudstad]. Jag tyckte det var riktigt bra eftersom det här är en gemenskap som tidigare inte höll på med djupinlärning. Jag frågade bokstavligen folk i den första kursen: "Någon här från Afrika?" Och jag tror att det var en kille från Elfenbenskusten som var tvungen att bränna saker på CD-ROM i sitt bibliotek eftersom de inte har tillräckligt med internetuppkoppling. Så det växte verkligen ganska snabbt.

Och sedan var det trevligt eftersom vi började få grupper av människor från Uganda, Kenya och Nigeria att flyga till San Francisco för att göra kursen personligen och lära känna varandra. Vi lärde känna en kille, till exempel, som hade gjort massor av intressanta saker med malariadiagnostik, vilket, som ni kan föreställa er, inte är det största problemet som människor i San Francisco försökte lösa.

Det känns för mig att att ha 16 olika stora språkmodeller utbildade på 5 % av internet är som att ha 16 vattenledningar in i ditt hus och 16 uppsättningar elkablar in i ditt hus. 

Hur ser den genomsnittliga karriärvägen ut för någon som kommer ut från ett djupinlärningsprogram som ditt?

Det är så varierande. Det har verkligen förändrats mycket från de tidiga dagarna, när det bara var det här tänkesättet för supertidiga adoptanter – människorna som till stor del var antingen entreprenörer eller doktorer och tidiga postdoktorer, och som bara älskar spetsforskning och att prova nya saker. Det är inte bara tidiga användare längre, det är också människor som försöker komma ikapp eller hänga med i hur deras bransch rör sig.

Nuförtiden är mycket av det människor som säger: "Åh, herregud, jag känner att djupinlärning börjar förstöra expertis i min bransch. Folk gör saker med lite djup inlärning som jag inte ens kan föreställa mig, och jag vill inte missa det.” Vissa människor tittar lite längre fram, och de är mer som, "Tja, ingen använder verkligen djupinlärning i min bransch, men jag kan inte föreställa mig att det är ett industri alltså inte kommer att påverkas, så jag vill vara den första.” 

Vissa människor har definitivt en idé om ett företag som de vill bygga. 

Det andra vi får mycket av är att företag skickar ett gäng av sina forsknings- eller ingenjörsteam för att göra kursen bara för att de känner att detta är en företagskapacitet som de borde ha. Och det är särskilt användbart med online-API:erna som finns där ute nu som folk kan leka med – Codex or DALL-E eller vad som helst - och få en känsla av, "Åh, det här är lite som något jag gör i mitt jobb, men det är lite annorlunda om jag kunde justera det på de här sätten." 

Men dessa modeller har också den olyckliga bieffekten, kanske, att de ökar tendensen hos människor att känna att AI-innovation bara är för stora företag och att det ligger utanför deras förmåga. De kanske väljer att vara passiva konsumenter av tekniken eftersom de inte tror att de har någon förmåga att personligen bygga något som skulle vara bättre än vad Google eller OpenAI kan bygga.

En modell som avgör om du verkar gilla en film eller inte och en modell som kan generera haikus kommer att vara 98 % samma . . . Det är väldigt, väldigt sällsynt att vi faktiskt behöver träna en enorm modell från början på en stor del av internet.

Även om så är fallet – om du inte kan bygga ut OpenAI eller Google – så finns det säkert ett sätt att dra fördel av vad de har gjort, av API-åtkomst till otroligt kraftfulla modeller, eller hur?

Det första att säga är det är inte sant, inte i någon allmän mening, åtminstone. Det finns en viss splittring av AI-träning nu: Det finns Google och OpenAI-sidan, som handlar om att skapa modeller som är så generella som möjligt, och nästan alltid har dessa forskare specifikt målet i huvudet att komma till AGI. Jag kommenterar inte om det är bra eller dåligt; det resulterar definitivt i användbara artefakter för oss vanliga människor, så det är bra. 

Men det finns en helt annan väg, som är den som nästan alla våra elever tar, som är: "Hur kan jag lösa de verkliga problemen för människor i mitt samhälle på ett så pragmatiskt sätt som möjligt?" Och det finns mycket mindre överlappning än du kanske tror mellan de två metoderna, de två datamängderna, de två teknikerna.

I min värld tränar vi aldrig en modell från grunden, i princip. Det är alltid finjustering. Så vi utnyttjar definitivt de stora killarnas arbete, men det är alltid fritt tillgängliga, nedladdningsbara modeller. Saker som de stora språkmodellerna med öppen källkod BigScience är till stor hjälp för det. 

Men de kommer förmodligen att ligga 6 till 12 månader efter de stora killarna tills vi kanske hittar något mer demokratiskt sätt att göra detta. Det känns för mig att att ha 16 olika stora språkmodeller utbildade på 5 % av internet är som att ha 16 vattenledningar in i ditt hus och 16 uppsättningar elkablar in i ditt hus. Det känns som att det borde vara mer allmännytta. Det är fantastiskt med konkurrens, men det skulle också vara trevligt om det fanns ett bättre samarbete på gång, så att vi inte alla behövde slösa bort vår tid på att göra samma sak.

Så, ja, det slutar med att vi finjusterar, för våra speciella syften, modeller som andra människor har byggt. Och det är ungefär som hur det mänskliga genomet och apgenomet är nästan helt detsamma, förutom några procent här och där, som faktiskt visar sig göra stor skillnad. Det är samma sak med neurala nät: En modell som avgör huruvida du verkar gilla en film eller inte och en modell som kan generera haikus kommer att vara 98 % desamma eftersom det mesta handlar om att förstå världen och förstå språk och sånt . Det är väldigt, väldigt sällsynt att vi faktiskt behöver träna en enorm modell från början på en stor del av internet.

Och det är därför du absolut Kan konkurrera med Google och OpenAI – eftersom de förmodligen inte ens kommer att finnas i ditt utrymme. Om du försöker skapa något för att automatisera advokaternas arbete, eller hjälpa till med planering av katastrofresiliens, eller skapa en bättre förståelse för könsbaserat språk under de senaste 100 åren eller vad som helst, du konkurrerar inte med Google, du konkurrerar med den nisch som finns i din domän.

Det finns en betydande kodningsförmåga just nu i att veta hur man går snabbare. . . genom att vara riktigt bra på att komma med rätt Codex-kommentarer . . . För många människor är det förmodligen en mer värdefull, omedelbar sak att lära sig än att bli riktigt bra på att koda.

Hur viktigt är det att hänga med i alla framsteg inom AI-utrymmet, speciellt om du arbetar med det i mindre skala?

Ingen kan hänga med i alla framsteg. Du måste hänga med några framsteg, men de faktiska teknikerna vi arbetar med förändras, nuförtiden, mycket långsamt. Skillnaden mellan fast.ai-banan 2017 och fast.ai-banan 2018 var enorm, och mellan 2018- och 2019-banorna var den enorm-ish. Nuförtiden förändras väldigt lite under en period av ett par år.

De saker som vi tycker är riktigt viktiga, som uppkomsten av transformatorarkitektur, till exempel, är faktiskt några år gammal nu och är huvudsakligen bara ett gäng inklämda, enkla feed-forward neurala nätverkslager, och några prick-produkter. Det är bra, men för någon som vill förstå det, som redan förstår konvnets, återkommande nätoch grundläggande flerskiktsperceptroner, det är som några timmars arbete.

En av de stora sakerna som hänt de senaste åren är att fler människor börjar förstå de praktiska aspekterna av hur man tränar en modell effektivt. Till exempel DeepMind nyligen släppte ett papper som i princip visade att alla språkmodeller där ute var dramatiskt mindre effektiva än de borde vara, bokstavligen för att de inte gjorde några grundläggande saker. Facebook – och närmare bestämt en Facebook-praktikant var huvudförfattaren på tidningen – byggde en sak som heter ConvNeXt, vilket i grund och botten säger: "Här är vad som händer om vi tar ett normalt konvolutionellt neuralt nätverk och bara lägger in de uppenbara justeringarna som alla känner till." Och de är i princip den toppmoderna bildmodellen nu. 

Så, ja, att hålla sig uppdaterad med de grundläggande grunderna för hur man bygger bra modeller för djupinlärning är mycket mindre svårt än det verkar. Och du behöver verkligen inte läsa alla tidningar på området. Särskilt vid det här laget, nu när saker och ting går så mycket mindre snabbt.

Men jag tror att det är användbart att ha en bred förståelse, inte bara för ditt eget speciella område. Låt oss säga att du är en person med datorseende, det hjälper mycket att vara bra på NLP, kollaborativ filtrering och tabellanalys också - och vice versa eftersom det inte finns tillräckligt med korspollinering mellan dessa grupper. Och då och då tar någon en titt på ett annat område, stjäl några av dess idéer och kommer iväg med ett genombrottsresultat. 

Detta är precis vad jag gjorde med ULMFiT för fyra eller fem år sedan. Jag sa: "Låt oss tillämpa alla grundläggande tekniker för överföring av datorseende till NLP," och fick ett toppmodernt resultat av mil. Forskare vid OpenAI gjorde något liknande, men bytte ut min RNN mot en transformator och skalade upp den, och det blev GPT. Vi vet alla hur det gick. 

Att hålla sig uppdaterad med de grundläggande grunderna för hur man bygger bra modeller för djupinlärning är mycket mindre svårt än det verkar. Och du behöver verkligen inte läsa alla tidningar på området.

Du har nämnt att vi har sett ett steg-funktionsskifte i AI under de senaste tre till sex månaderna. Kan du utveckla det?

Jag skulle faktiskt kalla det a krok snarare än a stegfunktion. Jag tror att vi är på en exponentiell kurva, och då och då kan man märka att saker och ting verkligen har sett ut att ha ökat på ett märkbart sätt. Där vi har kommit till är att förutbildade modeller som tränats på mycket stora text- och bildkroppar nu kan göra mycket imponerande one-shot- eller få-shot-saker på ganska generella sätt, delvis för att människor har blivit bättre under de senaste månaderna vid förståelse snabb ingenjörskonst. I huvudsak, att veta hur man ställer rätt fråga - "förklara ditt resonemang" steg-för-steg-typer av uppmaningar. 

Och vi upptäcker att dessa modeller faktiskt kan göra saker som många akademiker har sagt till oss inte är möjliga när det gäller en sammansatt förståelse av världen och att kunna visa steg-för-steg-resonemang. Många människor hade sagt, "Åh, du måste använda symboliska tekniker; neurala nät och djupinlärning kommer aldrig att nå dit." Tja, det visar sig att de gör det. Jag tror att när vi alla kan se att den kan göra de här sakerna som folk påstod att den aldrig skulle kunna göra, det gör oss lite mer djärva när det gäller att försöka göra mer med dem.

Det påminner mig om första gången jag såg en video på internet, som jag minns att jag visade för min mamma eftersom det var en fysioterapivideo, och hon är sjukgymnast. Det var en video av en gemensam rörlighetsövning i din axel, och jag tror att den var 128 gånger 128 pixlar. Den var svartvit, mycket komprimerad och kanske cirka 3 eller 4 sekunder lång. Jag blev väldigt upprymd och sa till min mamma, "Wow, titta på det här: en video på internet!" Och självklart var hon inte alls upprymd. Hon tänkte: "Vad är det för nytta med det? Det här är det mest meningslösa jag någonsin sett."

Naturligtvis tänkte jag att en dag kommer detta att bli tusen gånger tusen pixlar, 60 bilder per sekund, fullfärg, vacker video. Beviset finns, nu är det bara att vänta på att resten ska komma ikapp. 

Så jag tror att när folk såg de riktigt lågkvalitativa bilderna från djupinlärning i början, fanns det inte mycket spänning eftersom de flesta inte inser att tekniken skalar så här. Nu när vi faktiskt kan producera högkvalitativa, fullfärgsbilder som ser mycket bättre ut än nästan alla av oss skulle kunna ta bilder eller fotografera, behöver människor ingen fantasi. De kan bara se att det som görs just nu är mycket imponerande. Jag tror att det gör stor skillnad.

Jag känner att HCI är den största saknade biten i nästan varje djupinlärningsprojekt jag har sett. . . Om jag var i HCI, skulle jag vilja att hela mitt område skulle fokuseras på frågan om hur vi interagerar med djupinlärningsalgoritmer.

Idén med snabb ingenjörskonst - om inte som en helt ny karriär, men åtminstone som en ny färdighet - är verkligen intressant.

Det är det, och jag är hemsk på det. DALL-E vet till exempel inte riktigt hur man skriver text ordentligt, vilket inte skulle vara ett problem förutom att den älskar att lägga in text i alla sina blodiga bilder. Så det finns alltid de här slumpmässiga symbolerna och jag kan för mitt liv inte komma på hur man kommer på en prompt som inte innehåller text. Och ibland ändrar jag bara slumpmässigt ett ord här eller där och plötsligt har ingen av dem text längre. Det finns ett knep med det här, och jag har inte riktigt kommit på det än.

Dessutom, till exempel, finns det en betydande kodningsförmåga just nu i att veta hur man går snabbare - särskilt om du inte är en särskilt bra kodare - genom att vara riktigt bra på att komma med rätt Codex-kommentarer för att få det att generera saker åt dig . Och att veta vilka typer av fel den tenderar att göra, vilken typ av saker den är bra på och dålig på, och att veta hur man får den att skapa ett test för den sak som den just byggt åt dig.

För många människor är det förmodligen en mer värdefull, omedelbar sak att lära sig än att bli riktigt bra på att koda.

Specifikt om Codex, vad är dina tankar om idén med maskingenererad kod?

I skrev ett blogginlägg på den när GitHub Copilot kom ut, faktiskt. Vid den tiden tänkte jag, "Wow, det här är riktigt coolt och imponerande, men jag är inte riktigt säker på hur användbart det är." Och jag är fortfarande inte säker.

En viktig anledning är att jag tror att vi alla vet att modeller för djupinlärning inte har någon förståelse för om de har rätt eller fel. Codex har förbättrats mycket sedan jag granskade dess första version, men den skriver fortfarande mycket fel kod. Dessutom skriver den utförlig kod eftersom den genererar genomsnitt koda. För mig är det mycket långsammare att ta genomsnittlig kod och göra den till kod som jag gillar och som jag vet är korrekt än att bara skriva det från början - åtminstone på språk jag kan väl. 

Men jag känner att det finns en hel människa-datorgränssnitt (HCI) fråga här, och Jag känner att HCI är den största saknade biten i nästan varje djupinlärningsprojekt jag har sett: nästan aldrig ersätter dessa saker människor helt. Därför jobbar vi tillsammans med dessa algoritmer. Om jag var i HCI, skulle jag vilja att hela mitt område skulle fokuseras på frågan om hur vi interagerar med djupinlärningsalgoritmer. Eftersom vi har haft årtionden av att lära oss hur man interagerar med grafiska användargränssnitt, kommandoradsgränssnitt och webbgränssnitt, men det här är en helt annan sak. 

Och jag vet inte hur jag som programmerare bäst interagerar med något som Codex. Jag slår vad om att det finns riktigt kraftfulla sätt att göra det på för alla områden – skapa gränssnitt och binda data, bygga algoritmer och så vidare – men jag har ingen aning om vad dessa saker är.

Upplagd 21 juli 2022

Teknik, innovation och framtiden, som berättas av dem som bygger den.

Tack för att du registrerade dig.

Kolla din inkorg för ett välkomstmeddelande.

Tidsstämpel:

Mer från Andreessen Horowitz