De opkomst van domeinexperts in Deep Learning PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De opkomst van domeinexperts in deep learning

Jeremy Howard is en onderzoeker op het gebied van kunstmatige intelligentie en mede-oprichter van snel.ai, een platform voor niet-experts om kunstmatige intelligentie en machine learning te leren. Voordat hij fast.ai startte, richtte hij meerdere bedrijven op, waaronder FastMail en Enlitic, een pionier in het toepassen van deep learning in de medische sector, en was hij president en hoofdwetenschapper van het machine learning-wedstrijdplatform Kaggle. 

In dit interview bespreekt Howard wat het betekent voor verschillende industrieën en zelfs wereldwijde regio's nu mensen zonder PhD's van gespecialiseerde onderzoekslaboratoria deep learning-modellen kunnen bouwen en ermee kunnen werken. Naast andere onderwerpen onder deze brede paraplu, deelt hij zijn gedachten over hoe je het beste gelijke tred kunt houden met state-of-the-art technieken, snelle engineering als een nieuwe vaardighedenset, en de voor- en nadelen van codegeneratiesystemen zoals Codex.


TOEKOMST: Wat zijn de effecten die je ziet nadat je de afgelopen jaren fast.ai hebt uitgevoerd als zoveel meer mensen bekend zijn met de basisconcepten van diep leren - in vergelijking met enkele jaren geleden, toen mensen met de kennis eenhoorns waren?

JEREMY HOWARD: Toen we fast.ai begonnen, waren er in feite vijf belangrijke universitaire onderzoekslaboratoria die aan deep learning werkten - en de enige mensen die wisten hoe ze bijna alles met deep learning moesten doen, waren mensen die in die vijf laboratoria waren of waren geweest . Over het algemeen werd er geen code gepubliceerd, laat staan ​​gegevens. En zelfs de kranten publiceerden niet de details om het in de praktijk te laten werken, deels omdat academische locaties niet veel om praktische implementatie gaven. Het was erg gericht op theorie. 

Dus toen we begonnen, was het een zeer speculatieve vraag: "Is het mogelijk om deep learning van wereldklasse te doen zonder een doctoraat?". We weten nu dat het antwoord is: ja; dat hebben we in onze allereerste cursus laten zien. Onze allereerste alumni gingen door met het creëren van patenten met behulp van deep learning, om bedrijven op te bouwen met behulp van deep learning en om te publiceren op toplocaties met behulp van deep learning. 

Ik denk dat uw vraag precies de juiste is, namelijk wat er gebeurt als domeinexperts effectieve deep learning-beoefenaars worden? Daar hebben we de meest interessante dingen gezien. Over het algemeen zijn de beste startups degene die zijn gebouwd door mensen die persoonlijk jeuk hebben om te krabben. Vroeger waren ze recruiters, dus ze doen een wervingsstart, of ze waren paralegal, dus doen ze een legale startup, of wat dan ook. En ze zeggen: "Oh, ik haat dit ding over de baan die ik had. En nu ik weet over deep learning, weet ik dat ik dat hele ding bijna zou kunnen automatiseren.”

Veel van onze studenten zijn ook bezig met of hebben hun PhD gedaan, maar niet in wiskunde of informatica; in plaats daarvan doen ze ze in chemoinformatica, proteomics, datajournalistiek of wat dan ook. En we merken heel vaak dat ze hun onderzoek naar een heel ander niveau kunnen tillen. We beginnen bijvoorbeeld voor het eerst een aantal grote databases en datacorpussen van openbare bibliotheekmaterialen op internet te zien verschijnen. En er zijn nu mensen op dat gebied - bibliotheekwetenschap - die dingen doen waar het nooit bij iemand opgekomen is dat ze ooit iets op die schaal konden doen. Maar plotseling is het zo van: "Oh, mijn god, kijk eens wat er gebeurt als je een bibliotheek analyseert als een... ding. ' 

Ik gaf een lezing op een veehouderijconferentie waar iedereen het had over diepgaand leren. Voor mij is dat een niet voor de hand liggend gebruik, maar voor hen is het verreweg het meest voor de hand liggende gebruik. Mensen gebruiken het om problemen uit de echte wereld op te lossen met behulp van real-world data binnen reële beperkingen.

Uit mijn ervaring van de afgelopen jaren blijkt dat deep learning op vrijwel elke branche kan worden toegepast - niet elk van elk industrie, maar sommige onderdelen van vrijwel elke industrie. 

We leerden een man kennen die veel interessante dingen had gedaan met malariadiagnostiek, wat, zoals je je kunt voorstellen, niet het grootste probleem is dat mensen in San Francisco probeerden op te lossen.

Het lijkt erop dat omkering van kennisbanken - deep learning wordt nu een aanvulling op domeinexpertise - de balans tussen theorie en toepassing zou kunnen verschuiven.

Klopt, en dat zie je gebeuren. Een van de grote dingen in het begin van het tijdperk van deep learning was het werk dat Google Brain deed, waarbij ze veel YouTube-video's analyseerden en ontdekten dat katten waren een latente factor in veel video's. Hun model leerde katten herkennen omdat het er zoveel zag. En dat is heel interessant werk, maar niemand ging weg en bouwde daar een bedrijf op. 

De dingen die mensen waren bouwen - nogmaals, nuttig, maar binnen bepaalde gebieden - zoals Google en Apple zoeken naar foto's van afbeeldingen vrij snel behoorlijk goed, omdat je daadwerkelijk kon zoeken naar de dingen die op de foto's stonden. Dat is echt handig. En dat is het soort dingen waar iedereen aan werkte - ofwel echt abstracte dingen of echte problemen uit de eerste wereld. Daar is niets mis mee, maar er zijn ook veel andere dingen waar aan gewerkt moet worden. 

Dus ik was opgewonden toen ik na een paar jaar naar de demografie keek van de mensen die onze cursus hadden gevolgd en ontdekte dat Lagos [de hoofdstad van Nigeria] een van de grootste steden buiten de VS was. Ik vond het echt geweldig omdat dit een gemeenschap is die voorheen niet aan deep learning deed. Ik vroeg mensen letterlijk in de eerste cursus: "Iemand hier uit Afrika?" En ik denk dat er een man uit Ivoorkust was die dingen op cd-rom in zijn bibliotheek moest laten branden omdat ze niet genoeg internetverbinding hadden. Dus het groeide echt heel snel.

En toen was het leuk, want we begonnen groepen mensen uit Oeganda, Kenia en Nigeria naar San Francisco te laten vliegen om de cursus persoonlijk te doen en elkaar te leren kennen. We leerden bijvoorbeeld een man kennen die veel interessante dingen had gedaan met malariadiagnostiek, wat, zoals je je kunt voorstellen, niet het grootste probleem is dat mensen in San Francisco probeerden op te lossen.

Het voelt voor mij dat het hebben van 16 verschillende grote taalmodellen die getraind zijn op 5% van het internet, is alsof je 16 waterleidingen in je huis hebt en 16 sets elektriciteitskabels in je huis. 

Hoe ziet het gemiddelde carrièrepad eruit voor iemand die uit een diepgaand leerprogramma zoals het jouwe komt?

Het is zo divers. Er is echt veel veranderd sinds de begindagen, toen het gewoon deze super-early-adopter-mentaliteit was - de mensen die grotendeels ofwel ondernemers of PhD's en vroege postdocs waren, en die gewoon dol zijn op baanbrekend onderzoek en nieuwe dingen proberen. Het zijn niet alleen early adopters meer, het zijn ook mensen die proberen de achterstand in te lopen of bij te houden met de manier waarop hun branche zich ontwikkelt.

Tegenwoordig zijn het veel mensen die zeggen: "Oh mijn god, ik heb het gevoel dat diep leren de expertise in mijn branche begint te vernietigen. Mensen doen dingen met een beetje diepgaand leren dat ik niet eens kan bedenken, en ik wil het niet missen." Sommige mensen kijken wat verder vooruit, en ze zijn meer van: "Nou, niemand maakt echt gebruik van deep learning in mijn branche, maar ik kan me niet voorstellen dat dit de een industrie dat is niet zal worden beïnvloed, dus ik wil de eerste zijn.” 

Sommige mensen hebben zeker een idee voor een bedrijf dat ze willen bouwen. 

Het andere dat we veel krijgen, is dat bedrijven een aantal van hun onderzoeks- of engineeringteams sturen om de cursus te doen, alleen omdat ze het gevoel hebben dat dit een zakelijke mogelijkheid is die ze zouden moeten hebben. En het is vooral handig met de online API's die er nu zijn waar mensen mee kunnen spelen - Codex or DALL-E of wat dan ook - en krijg een gevoel van: "Oh, dit lijkt een beetje op iets wat ik in mijn werk doe, maar het is een beetje anders als ik het op deze manieren zou kunnen aanpassen." 

Deze modellen hebben echter misschien ook het ongelukkige neveneffect dat mensen de neiging hebben om het gevoel te krijgen dat AI-innovatie alleen voor grote bedrijven is en dat het buiten hun mogelijkheden ligt. Ze zouden ervoor kunnen kiezen om passieve consumenten van de technologie te zijn omdat ze niet geloven dat ze persoonlijk iets kunnen bouwen dat beter zou zijn dan wat Google of OpenAI zouden kunnen bouwen.

Een model dat beslist of je een film wel of niet leuk vindt, en een model dat haiku's kan genereren, zullen voor 98% hetzelfde zijn. . . Het komt maar heel zelden voor dat we een enorm model helemaal opnieuw moeten trainen op een groot deel van het internet.

Zelfs als dat het geval is - als je OpenAI of Google niet kunt overtreffen - is er toch een manier om te profiteren van wat ze hebben gedaan, van API-toegang tot ongelooflijk krachtige modellen, toch?

Het eerste wat je moet zeggen is het is niet waar, althans niet in algemene zin. Er is nu een zekere splitsing van AI-training gaande: er is de Google- en OpenAI-kant, die draait om het maken van modellen die zo algemeen mogelijk zijn, en bijna altijd hebben die onderzoekers specifiek het doel in hun hoofd om bij AGI te komen. Ik becommentarieer niet of dat goed of slecht is; het resulteert zeker in nuttige artefacten voor ons normale mensen, dus dat is prima. 

Er is echter een totaal ander pad, namelijk het pad dat bijna al onze studenten volgen, namelijk: "Hoe kan ik de echte problemen van mensen in mijn gemeenschap op een zo pragmatisch mogelijke manier oplossen?" En er is veel minder overlap dan je zou denken tussen de twee methoden, de twee datasets, de twee technieken.

In mijn wereld trainen we eigenlijk nooit een model helemaal opnieuw. Het is altijd finetunen. We maken dus zeker gebruik van het werk van de grote jongens, maar het zijn altijd vrij beschikbare, downloadbare modellen. Dingen zoals de open-source grote taalmodellen via BigWetenschap is daar erg handig voor. 

Ze zullen echter waarschijnlijk 6 tot 12 maanden achterlopen op de grote jongens totdat we misschien een meer democratische manier vinden om dit te doen. Het voelt voor mij dat het hebben van 16 verschillende grote taalmodellen die getraind zijn op 5% van het internet, is alsof je 16 waterleidingen in je huis hebt en 16 sets elektriciteitskabels in je huis. Het voelt alsof het meer een openbaar nut zou moeten zijn. Het is geweldig om concurrentie te hebben, maar het zou ook leuk zijn als er wat betere samenwerking gaande was, zodat we niet allemaal onze tijd hoefden te verspillen aan hetzelfde.

Dus ja, uiteindelijk finetunen we, voor onze specifieke doeleinden, modellen die andere mensen hebben gebouwd. En het is een beetje zoals hoe het menselijk genoom en het aapgenoom bijna helemaal hetzelfde zijn, behalve hier en daar een paar procent, die eigenlijk een groot verschil blijken te maken. Het is hetzelfde met neurale netwerken: een model dat bepaalt of je een film al dan niet leuk vindt en een model dat haiku's kan genereren, zal voor 98% hetzelfde zijn, omdat het meeste gaat over het begrijpen van de wereld, en het begrijpen van taal en zo . Het komt maar heel zelden voor dat we een enorm model helemaal opnieuw moeten trainen op een groot deel van het internet.

En daarom ben je absoluut wel concurreren met Google en OpenAI - omdat ze waarschijnlijk niet eens in uw ruimte zullen zijn. Als u iets probeert te creëren om het werk van paralegals te automatiseren, of te helpen bij het plannen van rampenbestendigheid, of om een ​​beter begrip te krijgen van gendergerelateerde taal in de afgelopen 100 jaar of wat dan ook, dan concurreert u niet met Google, u concurreert met die niche die zich in uw domein bevindt.

Er is op dit moment een belangrijke codeervaardigheid om te weten hoe je sneller kunt gaan. . . door heel goed te zijn in het bedenken van de juiste Codex-commentaar. . . Voor veel mensen is dat waarschijnlijk waardevoller en directer om te leren dan echt goed te worden in coderen.

Hoe belangrijk is het om alle ontwikkelingen in de AI-ruimte bij te houden, vooral als je er op kleinere schaal mee werkt?

Niemand kan alle ontwikkelingen bijhouden. Je moet bijblijven sommige vooruitgang, maar de eigenlijke technieken waarmee we werken veranderen tegenwoordig, heel langzaam. Het verschil tussen de fast.ai-cursus van 2017 en de fast.ai-cursus van 2018 was enorm, en tussen de cursussen van 2018 en 2019 was het enorm.ish. Tegenwoordig verandert er in een periode van een paar jaar weinig.

De dingen die we als echt belangrijk beschouwen, zoals de opkomst van de transformator architectuur, bijvoorbeeld, is nu enkele jaren oud en bestaat voornamelijk uit een aantal ingeklemde, duidelijke feed-forward neurale netwerklagen, en sommige dot-producten. Het is geweldig, maar voor iemand die het wil begrijpen, die het al begrijpt convnetten, terugkerende nettenen eenvoudig meerlagige perceptrons, het is net een paar uur werk.

Een van de grote dingen die de afgelopen jaren zijn gebeurd, is dat steeds meer mensen de praktische aspecten van het effectief trainen van een model beginnen te begrijpen. Bijvoorbeeld, DeepMind onlangs heeft een krant uitgegeven dat toonde in wezen aan dat alle taalmodellen die er zijn dramatisch minder efficiënt waren dan ze zouden moeten zijn, letterlijk omdat ze niet een paar basisdingen deden. Facebook - en in het bijzonder een Facebook-stagiair was de hoofdauteur van de krant - bouwde iets dat ' ConvNext, wat in feite zegt: "Dit is wat er gebeurt als we een normaal convolutioneel neuraal netwerk nemen en gewoon de voor de hand liggende tweaks aanbrengen die iedereen kent." En ze zijn nu in feite het state-of-the-art beeldmodel. 

Dus ja, op de hoogte blijven van de basisprincipes van het bouwen van goede deep learning-modellen is veel minder moeilijk dan het lijkt. En je hoeft zeker niet elke krant in het veld te lezen. Zeker nu het zo veel minder snel gaat.

Maar ik denk wel dat het nuttig is om een ​​breed begrip te hebben, niet alleen van je eigen specifieke specialisme. Laten we zeggen dat je een computervisiemens bent, het helpt veel om goed te zijn in NLP, collaboratieve filtering en tabelanalyse, en vice versa omdat er lang niet genoeg kruisbestuiving is tussen deze groepen. En van tijd tot tijd neemt iemand een kijkje in een ander gebied, steelt een aantal van zijn ideeën en komt met een baanbrekend resultaat. 

Dit is precies wat ik ermee deed ULMFiT vier of vijf jaar geleden. Ik zei: "Laten we alle basistechnieken voor overdracht van computervisie toepassen op NLP", en kreeg mijlenver een state-of-the-art resultaat. Onderzoekers bij OpenAI deed iets soortgelijks, maar verving mijn RNN door een transformator en schaalde het op, en dat werd GPT. We weten allemaal hoe dat ging. 

Op de hoogte blijven van de basisprincipes van het bouwen van goede deep learning-modellen is veel minder moeilijk dan het lijkt. En je hoeft zeker niet elke krant in het veld te lezen.

Je hebt gezegd dat we de afgelopen drie tot zes maanden een stap-functieverschuiving in AI hebben gezien. Kunt u dat nader toelichten?

Ik zou het eigenlijk een noemen haak In plaats van a stap functie. Ik denk dat we ons op een exponentiële curve bevinden, en van tijd tot tijd merk je dat de dingen echt op een merkbare manier lijken te zijn versneld. Waar we naar toe moeten, is dat voorgetrainde modellen die zijn getraind op zeer grote corpussen tekst en afbeeldingen nu zeer indrukwekkende one-shot of few-shot dingen kunnen doen op vrij algemene manieren, deels omdat in de afgelopen maanden mensen beter zijn geworden bij begrip snelle techniek. In wezen weten hoe u de juiste vraag moet stellen - de stapsgewijze soorten prompts "leg uw redenering uit". 

En we ontdekken dat deze modellen in staat zijn om dingen te doen waarvan veel academici ons hebben verteld dat ze niet mogelijk zijn in termen van een compositorisch begrip van de wereld en in staat zijn om stap-voor-stap redeneringen te tonen. Veel mensen hadden gezegd: “O, je moet symbolische technieken gebruiken; neurale netwerken en deep learning zullen er nooit komen.” Nou, het blijkt dat ze dat doen. Ik denk dat als we allemaal kunnen zien dat het deze dingen kan doen waarvan mensen beweerden dat het nooit zou kunnen, het maakt ons een beetje meer gedurfd om te proberen meer met hen te doen.

Het doet me denken aan de eerste keer dat ik een video op internet zag, waarvan ik me herinner dat ik die aan mijn moeder liet zien omdat het een video over fysiotherapie was, en zij is een fysiotherapeut. Het was een video van een gezamenlijke mobiliteitsoefening in je schouder, en ik denk dat het 128 bij 128 pixels was. Het was zwart-wit, sterk gecomprimeerd en misschien ongeveer 3 of 4 seconden lang. Ik was erg opgewonden en zei tegen mijn moeder: "Wauw, kijk hier eens: een video op internet!" En natuurlijk was ze helemaal niet opgewonden. Ze had zoiets van: 'Wat heeft dat voor zin? Dit is het meest zinloze wat ik ooit heb gezien."

Natuurlijk dacht ik dat dit op een dag duizend bij duizend pixels zou zijn, 60 frames per seconde, full colour, prachtige video. Het bewijs is er, nu is het wachten tot de rest het inhaalt. 

Dus ik denk dat toen mensen in de begindagen de echt lage kwaliteit afbeeldingen van deep learning zagen, er niet veel opwinding was omdat de meeste mensen zich niet realiseren dat technologie zo schaalt. Nu we daadwerkelijk kleurenafbeeldingen van hoge kwaliteit kunnen produceren die er veel beter uitzien dan bijna ieder van ons zou kunnen fotograferen of fotograferen, hebben mensen geen verbeeldingskracht meer nodig. Ze kunnen gewoon zien dat wat er nu wordt gedaan erg indrukwekkend is. Ik denk dat dat een groot verschil maakt.

Ik heb het gevoel dat HCI het grootste ontbrekende onderdeel is in bijna elk deep learning-project dat ik heb gezien. . . Als ik in HCI zat, zou ik willen dat mijn hele vakgebied zich zou richten op de vraag hoe we omgaan met deep learning-algoritmen.

Het idee van snelle engineering - zo niet als een geheel nieuwe carrière, maar in ieder geval als een nieuwe vaardigheden - is eigenlijk heel interessant.

Dat is het, en ik ben er vreselijk in. DALL-E weet bijvoorbeeld niet echt hoe tekst correct moet worden geschreven, wat geen probleem zou zijn, behalve dat het graag tekst in al zijn bloederige afbeeldingen plaatst. Er zijn dus altijd van die willekeurige symbolen en ik kan er voor mijn leven niet achter komen hoe ik een prompt kan bedenken waar geen tekst in staat. En soms verander ik hier of daar willekeurig een woord en plotseling heeft geen van hen tekst meer. Er is een trucje voor, en ik ben er nog niet helemaal uit.

Er is nu bijvoorbeeld ook een aanzienlijke codeervaardigheid om te weten hoe je sneller kunt gaan - vooral als je geen bijzonder goede codeur bent - door echt goed te zijn in het bedenken van de juiste Codex-opmerkingen om het dingen voor je te laten genereren . En weten wat voor soort fouten het maakt, waar het goed en slecht in is, en weten hoe je het een test kunt laten maken voor het ding dat het net voor jou heeft gebouwd.

Voor veel mensen is dat waarschijnlijk waardevoller en directer om te leren dan echt goed te worden in coderen.

Specifiek over Codex, wat zijn uw gedachten over het idee van door machines gegenereerde code?

I schreef een blogpost erop toen GitHub Copilot uitkwam, eigenlijk. Destijds dacht ik: "Wauw, dit is echt cool en indrukwekkend, maar ik weet niet precies hoe nuttig het is." En ik weet het nog steeds niet zeker.

Een belangrijke reden is dat ik denk dat we allemaal weten dat deep learning-modellen niet weten of ze goed of fout zijn. Codex is veel verbeterd sinds ik de eerste versie heb beoordeeld, maar het schrijft nog steeds veel verkeerde code. Het schrijft ook uitgebreide code omdat het genereert gemiddelde code. Voor mij is het nemen van gemiddelde code en het maken van code die ik leuk vind en waarvan ik weet dat deze correct is veel langzamer dan het helemaal opnieuw te schrijven - tenminste in talen die ik goed ken. 

Maar ik heb het gevoel dat hier een hele mens-computerinterface (HCI) vraag is, en Ik heb het gevoel dat HCI het grootste ontbrekende onderdeel is in bijna elk deep learning-project dat ik heb gezien: bijna nooit vervangen deze dingen de mens volledig. Daarom werken we samen met deze algoritmen. Als ik in HCI zat, zou ik willen dat mijn hele vakgebied zich zou richten op de vraag hoe we omgaan met deep learning-algoritmen. Omdat we tientallen jaren hebben geleerd hoe we moeten omgaan met grafische gebruikersinterfaces, opdrachtregelinterfaces en webinterfaces, maar dit is iets heel anders. 

En ik weet niet hoe ik als programmeur het beste kan omgaan met zoiets als Codex. Ik wed dat er echt krachtige manieren zijn om het voor elk gebied te doen - interfaces maken en gegevens binden, algoritmen bouwen, enzovoort - maar ik heb geen idee wat die dingen zijn.

Geplaatst op 21 juli 2022

Technologie, innovatie en de toekomst, verteld door degenen die eraan bouwen.

Bedankt voor het aanmelden.

Kijk in je inbox voor een welkomstbericht.

Tijdstempel:

Meer van Andreessen Horowitz