L'ascesa degli esperti di dominio nel deep learning PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

L'ascesa degli esperti di dominio nel deep learning

Jeremy Howard è un ricercatore di intelligenza artificiale e co-fondatore di veloce.ai, una piattaforma per non esperti per apprendere l'intelligenza artificiale e l'apprendimento automatico. Prima di avviare fast.ai, ha fondato diverse società, tra cui FastMail ed Enlitic, pioniera nell'applicazione del deep learning al campo medico, ed è stato presidente e capo scienziato della piattaforma di concorrenza di machine learning Kaggle. 

In questa intervista, Howard spiega cosa significa per diversi settori e anche per le regioni globali ora che persone senza dottorato di ricerca provenienti da laboratori di ricerca specializzati possono costruire e lavorare con modelli di deep learning. Tra gli altri argomenti sotto questo ampio ombrello, condivide i suoi pensieri su come tenere il passo con le tecniche all'avanguardia, il prompt engineering come nuovo insieme di competenze e i pro e i contro dei sistemi di generazione di codice come Codex.


FUTURO: Dopo aver utilizzato fast.ai negli ultimi anni, quali sono gli effetti che stai vedendo nell'avere così tante più persone che hanno familiarità con i concetti di base del deep learning, rispetto a diversi anni fa, quando le persone con la conoscenza erano unicorni?

JEREMY Howard: Quando abbiamo avviato fast.ai, c'erano, fondamentalmente, cinque importanti laboratori di ricerca universitari che lavoravano sul deep learning e le uniche persone che sapevano come fare quasi qualsiasi cosa con il deep learning erano persone che erano, o erano state, in quei cinque laboratori . Nel complesso, il codice non veniva pubblicato, per non parlare dei dati. E perfino i giornali non pubblicavano i dettagli su come farlo funzionare nella pratica, in parte perché le sedi accademiche non si preoccupavano molto dell’implementazione pratica. Era molto concentrato sulla teoria. 

Quindi, quando abbiamo iniziato, la domanda era molto speculativa: “È possibile fare un deep learning di livello mondiale senza un dottorato di ricerca?”. Ora sappiamo che la risposta è ; lo abbiamo dimostrato nel nostro primo corso. I nostri primi ex studenti hanno continuato a creare brevetti utilizzando il deep learning, a creare aziende utilizzando il deep learning e a pubblicare nelle migliori sedi utilizzando il deep learning. 

Penso che la tua domanda sia esattamente quella giusta, ovvero cosa succede quando gli esperti del settore diventano professionisti efficaci del deep learning? È lì che abbiamo visto accadere le cose più interessanti. In generale, le migliori startup sono quelle create da persone che personalmente hanno voglia di grattarsi. Una volta erano reclutatori, quindi stanno facendo una startup di reclutamento, o erano paralegali, quindi stanno facendo una startup legale, o qualsiasi altra cosa. E loro dicono: “Oh, odio questa cosa del lavoro che avevo. E ora che conosco il deep learning, so che potrei quasi automatizzare il tutto”.

Molti dei nostri studenti stanno anche facendo o hanno fatto il loro dottorato di ricerca, ma non in matematica o informatica; invece, li stanno facendo nel campo della chemioinformatica, della proteomica, del giornalismo dei dati o altro. E molto spesso scopriamo che sono in grado di portare la loro ricerca a un livello completamente diverso. Ad esempio, stiamo iniziando a vedere per la prima volta alcuni grandi database e corpus di dati di materiali delle biblioteche pubbliche che iniziano ad apparire su Internet. E ci sono persone in quel campo – la biblioteconomia – ora che stanno facendo cose dove prima non sarebbe mai venuto in mente a nessuno che potessero fare qualcosa su quella scala. Ma all'improvviso è come: "Oh, mio ​​Dio, guarda cosa succede quando analizzi una biblioteca come un cosa. " 

Ho tenuto un discorso a una conferenza sull'allevamento degli animali in cui tutti parlavano di deep learning. Per me si tratta di un utilizzo non ovvio, ma per loro è di gran lunga l'utilizzo più ovvio. Le persone lo utilizzano per risolvere problemi del mondo reale utilizzando dati del mondo reale entro i limiti del mondo reale.

Dalla mia esperienza degli ultimi anni sembra che il deep learning possa essere applicato praticamente a tutti i settori, ma no ogni parte ogni industria, ma alcuni parti di praticamente ogni industria. 

Abbiamo conosciuto un ragazzo che aveva fatto un sacco di cose interessanti con la diagnostica della malaria, che, come puoi immaginare, non è il problema principale che le persone a San Francisco stavano cercando di risolvere.

Sembra che l’inversione delle basi di conoscenza – il deep learning ora complementare alle competenze di settore – potrebbe spostare l’equilibrio tra teoria e applicazione.

Esatto, e puoi vedere che ciò accade. Una delle cose più importanti all'inizio dell'era del deep learning è stato il lavoro svolto da Google Brain, in cui hanno analizzato molti video di YouTube e hanno scoperto che i gatti erano un fattore latente in molti video. Il loro modello ha imparato a riconoscere i gatti perché ne ha visti così tanti. E questo è un lavoro molto interessante, ma nessuno se ne è andato e ha costruito un'azienda su quello. 

Le cose che le persone sono stati la costruzione - ancora una volta, utile, ma in determinate aree - come la ricerca di foto di immagini di Google e Apple è diventata piuttosto buona abbastanza rapidamente perché potevi effettivamente cercare le cose che erano nelle foto. È davvero utile. E questo è il tipo di cose su cui tutti stavano lavorando: cose davvero astratte o cose reali relative ai problemi del primo mondo. Non c'è niente di sbagliato in questo, ma ci sono anche molte altre cose su cui bisogna lavorare. 

Quindi sono rimasto entusiasta quando, dopo un paio d'anni, ho esaminato i dati demografici delle persone che avevano frequentato il nostro corso e ho scoperto che una delle città più grandi al di fuori degli Stati Uniti era Lagos [la capitale della Nigeria]. Ho pensato che fosse davvero fantastico perché questa è una comunità che in precedenza non utilizzava il deep learning. Ho letteralmente chiesto alle persone nel primo corso: "C'è qualcuno qui dall'Africa?" E penso che ci fosse un ragazzo della Costa d'Avorio che doveva masterizzare dei file su CD-ROM nella sua biblioteca perché non avevano abbastanza connessione internet. Quindi è cresciuto davvero abbastanza rapidamente.

E poi è stato bello perché abbiamo iniziato a far volare gruppi di persone dall'Uganda, dal Kenya e dalla Nigeria a San Francisco per seguire il corso di persona e conoscerci a vicenda. Abbiamo conosciuto un ragazzo, ad esempio, che aveva fatto un sacco di cose interessanti con la diagnostica della malaria, che, come puoi immaginare, non è il problema principale che le persone a San Francisco stavano cercando di risolvere.

Mi sembra che avere 16 diversi modelli linguistici di grandi dimensioni addestrati sul 5% di Internet sia come avere 16 tubi dell'acqua che entrano in casa tua e 16 serie di cavi elettrici che entrano in casa tua. 

Come si presenta il percorso professionale medio per qualcuno che sta uscendo da un programma di deep learning come il tuo?

È così vario. È davvero cambiato molto rispetto ai primi giorni, quando c'era solo questa mentalità da super early adopter: le persone che erano in gran parte imprenditori o dottorandi e primi post-doc, e che semplicemente adorano la ricerca all'avanguardia e provare cose nuove. Non si tratta più solo di early adopter, ma anche di persone che stanno cercando di mettersi al passo o tenere il passo con il modo in cui si sta muovendo il loro settore.

Al giorno d’oggi, molte persone pensano: “Oh mio Dio, sento che il deep learning sta iniziando a distruggere le competenze nel mio settore. Le persone stanno facendo cose con un po’ di deep learning che non riesco nemmeno a concepire, e non voglio perdermele”. Alcune persone guardano un po' più avanti e dicono: "Beh, nessuno utilizza davvero il deep learning nel mio settore, ma non riesco a immaginare che sia la soluzione migliore". prima l'industria, questo è non sarà influenzato, quindi voglio essere il primo. 

Alcune persone hanno sicuramente un'idea per un'azienda che vogliono costruire. 

L'altra cosa che riceviamo spesso è che le aziende inviano un gruppo dei loro team di ricerca o di ingegneria a seguire il corso solo perché ritengono che questa sia una capacità aziendale che dovrebbero avere. Ed è particolarmente utile con le API online disponibili ora con cui le persone possono divertirsi: Codice or DALL-E o qualsiasi altra cosa - e fatti un'idea: "Oh, è un po' come qualcosa che faccio nel mio lavoro, ma sarebbe un po' diverso se potessi modificarlo in questi modi". 

Tuttavia, questi modelli hanno anche lo sfortunato effetto collaterale, forse, di aumentare la tendenza delle persone a ritenere che l’innovazione dell’intelligenza artificiale sia solo per le grandi aziende e che sia al di fuori delle loro capacità. Potrebbero scegliere di essere consumatori passivi della tecnologia perché non credono di avere alcuna capacità di costruire personalmente qualcosa che sarebbe migliore di quello che Google o OpenAI potrebbero costruire.

Un modello che decide se ti piace o meno un film e un modello che può generare haiku saranno uguali al 98%. . . È molto, molto raro che abbiamo effettivamente bisogno di addestrare un modello enorme da zero su una vasta area di Internet.

Anche se così fosse, se non puoi costruire più di OpenAI o Google, sicuramente c'è un modo per trarre vantaggio da ciò che hanno fatto, dall'accesso API a modelli incredibilmente potenti, giusto?

La prima cosa da dire è non è vero, non in senso generale, almeno. C'è una certa biforcazione nella formazione sull'intelligenza artificiale in corso ora: c'è il lato Google e OpenAI, che riguarda la creazione di modelli quanto più generali possibile e, quasi sempre, quei ricercatori hanno specificamente l'obiettivo in testa di arrivare all'AGI. Non sto commentando se sia un bene o un male; si traduce sicuramente in artefatti utili per noi persone normali, quindi va bene. 

Tuttavia, esiste un percorso completamente diverso, che è quello intrapreso da quasi tutti i nostri studenti, ovvero: "Come posso risolvere i problemi reali delle persone nella mia comunità nel modo più pragmatico possibile?" E c'è molta meno sovrapposizione di quanto si possa pensare tra i due metodi, i due set di dati, le due tecniche.

Nel mio mondo, in pratica, non formiamo mai un modello da zero. È sempre in fase di messa a punto. Quindi sfruttiamo sicuramente il lavoro dei grandi, ma si tratta sempre di modelli scaricabili e disponibili gratuitamente. Roba come i modelli linguistici di grandi dimensioni open source Grande scienza è molto utile per questo. 

Tuttavia, probabilmente rimarranno dai 6 ai 12 mesi indietro rispetto ai grandi finché, forse, non troveremo un modo più democratico per farlo. Mi sembra che avere 16 diversi modelli linguistici di grandi dimensioni addestrati sul 5% di Internet sia come avere 16 tubi dell'acqua che entrano in casa tua e 16 serie di cavi elettrici che entrano in casa tua. Sembra che dovrebbe essere più un servizio di pubblica utilità. È bello avere concorrenza, ma sarebbe anche bello se ci fosse una migliore cooperazione in corso, così non dovremmo perdere tutti il ​​nostro tempo facendo la stessa cosa.

Quindi sì, finiamo per mettere a punto, per i nostri scopi particolari, modelli che altre persone hanno costruito. Ed è un po' come il genoma umano e quello della scimmia sono quasi del tutto uguali, tranne per una piccola percentuale qua e là, che in realtà si rivela fare una grande differenza. È lo stesso con le reti neurali: un modello che decide se ti piace o meno un film e un modello che può generare haiku saranno uguali al 98% perché la maggior parte di ciò riguarda la comprensione del mondo, la comprensione del linguaggio e cose del genere. . È molto, molto raro che abbiamo effettivamente bisogno di addestrare un modello enorme da zero su una vasta area di Internet.

Ed è per questo che tu assolutamente può competere con Google e OpenAI, perché probabilmente non saranno nemmeno nel tuo spazio. Se stai cercando di creare qualcosa per automatizzare il lavoro degli assistenti legali, o aiutare nella pianificazione della resilienza ai disastri, o generare una migliore comprensione del linguaggio di genere negli ultimi 100 anni o altro, non sei in competizione con Google, sei in competizione con quella nicchia che è nel tuo dominio.

Al momento c'è una significativa abilità di codifica nel sapere come andare più veloci. . . essendo veramente bravo a formulare i giusti commenti sul Codex. . . Per molte persone, questa è probabilmente una cosa più preziosa e immediata da imparare che diventare davvero bravi nella programmazione.

Quanto è importante tenere il passo con tutti i progressi nello spazio dell'intelligenza artificiale, soprattutto se ci lavori su scala più piccola?

Nessuno può tenere il passo con tutti i progressi. Devi tenere il passo alcuni avanza, ma le tecniche attuali con cui lavoriamo cambiano, al giorno d'oggi, molto lentamente. La differenza tra il corso fast.ai del 2017 e il corso fast.ai del 2018 era enorme, e tra i corsi del 2018 e del 2019 era enorme-ish. Al giorno d'oggi, pochissimi cambiamenti nell'arco di un paio d'anni.

Le cose che riteniamo davvero significative, come l'ascesa del architettura del trasformatore, ad esempio, in realtà è vecchio di alcuni anni e consiste principalmente in un insieme di semplici strati di rete neurale feed-forward inseriti a sandwich e alcuni prodotti puntuali. È fantastico, ma per qualcuno che vuole capirlo, che già lo capisce convnets, reti ricorrentie di base percettron multistrato, sono come poche ore di lavoro.

Una delle cose più importanti accadute negli ultimi due anni è che sempre più persone stanno iniziando a comprendere gli aspetti pratici di come addestrare un modello in modo efficace. Ad esempio, DeepMind di recente ha pubblicato un documento ciò dimostrava essenzialmente che tutti i modelli linguistici disponibili erano drammaticamente meno efficienti di quanto avrebbero dovuto essere, letteralmente perché non stavano facendo alcune cose di base. Facebook - e, in particolare, uno stagista di Facebook era l'autore principale dell'articolo - ha creato una cosa chiamata ConvNeXt, che in pratica significa: "Ecco cosa succede se prendiamo una normale rete neurale convoluzionale e apportiamo solo le ovvie modifiche che tutti conoscono". E fondamentalmente sono ora il modello di immagine più all'avanguardia. 

Quindi sì, rimanere aggiornati con le basi fondamentali su come costruire buoni modelli di deep learning è molto meno difficile di quanto sembri. E certamente non devi leggere tutti i documenti sul campo. Soprattutto a questo punto, ora che le cose stanno andando molto meno velocemente.

Ma penso che sia utile avere una comprensione ampia, non solo della propria area specifica. Diciamo che sei una persona che utilizza la visione artificiale, aiuta molto essere bravo nella PNL, nel filtraggio collaborativo e anche nell'analisi tabulare - e viceversa perché non c'è abbastanza impollinazione incrociata tra questi gruppi. E di tanto in tanto, qualcuno dà un'occhiata ad un'altra area, ne ruba alcune idee e ne esce con un risultato rivoluzionario. 

Questo è esattamente quello che ho fatto ULMFit quattro o cinque anni fa. Ho detto: "Applichiamo tutte le tecniche di base dell'apprendimento del trasferimento della visione artificiale alla PNL" e ho ottenuto un risultato all'avanguardia per chilometri. Ricercatori di OpenAI fatto qualcosa di simile, ma ho sostituito il mio RNN con un trasformatore e l'ho ingrandito, e così è diventato GPT. Sappiamo tutti come è andata. 

Rimanere aggiornati con le nozioni di base su come costruire buoni modelli di deep learning è molto meno difficile di quanto sembri. E certamente non devi leggere tutti i documenti sul campo.

Hai menzionato che negli ultimi tre-sei mesi abbiamo assistito a un cambiamento graduale della funzione dell'intelligenza artificiale. Puoi approfondire questo argomento?

In realtà lo definirei un gancio piuttosto che un funzione passo. Penso che siamo su una curva esponenziale e, di tanto in tanto, puoi notare che le cose sembrano davvero aver accelerato in modo notevole. Il punto in cui dobbiamo arrivare è che i modelli pre-addestrati addestrati su corpus molto grandi di testo e immagini ora possono fare cose molto impressionanti con una sola o poche riprese in modi abbastanza generali, in parte perché negli ultimi mesi le persone sono migliorate alla comprensione ingegneria tempestiva. In sostanza, sapere come porre la domanda giusta: il tipo di suggerimenti passo passo "spiega il tuo ragionamento". 

E stiamo scoprendo che questi modelli sono effettivamente in grado di fare cose che molti accademici ci hanno detto che non sono possibili in termini di comprensione compositiva del mondo e di capacità di mostrare un ragionamento passo dopo passo. Molte persone dicevano: “Oh, devi usare tecniche simboliche; le reti neurali e il deep learning non arriveranno mai a questo risultato”. Ebbene, si scopre che lo fanno. Penso che quando tutti vedremo che può fare cose che la gente sosteneva che non avrebbe mai potuto fare, ci rende un po’ più audaci nel provare a fare di più con loro.

Mi ricorda la prima volta che ho visto un video su internet, che ricordo di aver mostrato a mia mamma perché era un video di fisioterapia, e lei è una fisioterapista. Era un video di un esercizio di mobilità articolare della spalla e penso che fosse 128 x 128 pixel. Era in bianco e nero, altamente compresso e forse lungo circa 3 o 4 secondi. Ero molto emozionato e ho detto a mia mamma: "Wow, guarda questo: un video su Internet!" E, naturalmente, non era affatto emozionata. Lei diceva: “A che serve? Questa è la cosa più inutile che abbia mai visto.

Naturalmente, stavo pensando che un giorno questo sarà un video mille per mille pixel, 60 fotogrammi al secondo, a colori, bellissimo. La prova c'è, ora si aspetta solo che il resto si riprenda. 

Quindi penso che all'inizio quando le persone vedevano le immagini di bassa qualità provenienti dal deep learning, non c'era molto entusiasmo perché la maggior parte delle persone non si rende conto che la tecnologia si espande in questo modo. Ora che possiamo effettivamente produrre immagini a colori di alta qualità che sembrano molto migliori di quanto chiunque di noi potrebbe immaginare o fotografare, le persone non hanno più bisogno di immaginazione. Possono semplicemente vedere che ciò che viene fatto in questo momento è davvero impressionante. Penso che questo faccia una grande differenza.

Sento che l'HCI è il pezzo mancante più grande in quasi tutti i progetti di deep learning che ho visto. . . Se fossi nel settore dell'HCI, vorrei che tutto il mio campo si concentrasse sulla questione di come interagiamo con gli algoritmi di deep learning.

L’idea del prompt engineering – se non come una carriera completamente nuova, ma almeno come un nuovo insieme di competenze – è davvero interessante, in realtà.

Lo è, e sono pessimo in questo. Ad esempio, DALL-E non sa davvero come scrivere il testo correttamente, il che non sarebbe un problema, tranne per il fatto che adora inserire il testo in tutte le sue maledette immagini. Quindi ci sono sempre questi simboli casuali e non riesco, per quanto mi riguarda, a capire come ottenere un messaggio che non contenga testo. E poi a volte cambio casualmente una parola qua o là e, all'improvviso, nessuna di esse ha più testo. C'è qualche trucco in questo e non l'ho ancora capito del tutto.

Inoltre, ad esempio, in questo momento c'è una significativa abilità di codifica nel sapere come andare più veloce - in particolare, se non sei un programmatore particolarmente bravo - essendo davvero bravo a trovare i giusti commenti del Codex per far sì che generi cose per te. . E sapere che tipo di errori tende a commettere, in quali cose è bravo e in quali no, e sapere come fare in modo che crei un test per ciò che ha appena costruito per te.

Per molte persone, questa è probabilmente una cosa più preziosa e immediata da imparare che diventare davvero bravi nella programmazione.

Nello specifico di Codex, cosa pensi dell'idea del codice generato dalla macchina?

I ha scritto un post sul blog su di esso quando è uscito GitHub Copilot, in realtà. All'epoca pensavo: "Wow, è davvero bello e impressionante, ma non sono del tutto sicuro di quanto sia utile". E non ne sono ancora sicuro.

Uno dei motivi principali è che penso che tutti sappiamo che i modelli di deep learning non capiscono se sono giusti o sbagliati. Codex è migliorato molto da quando ho recensito la sua prima versione, ma scrive ancora molto codice sbagliato. Inoltre, scrive codice dettagliato perché sta generando media codice. Per me, prendere un codice medio e trasformarlo in un codice che mi piace e che so essere corretto è molto più lento che scriverlo semplicemente da zero, almeno nelle lingue che conosco bene. 

Ma sento che qui c'è tutta una questione di interfaccia uomo-computer (HCI), e Sento che l'HCI è il pezzo mancante più grande in quasi tutti i progetti di deep learning che ho visto: quasi mai queste cose sostituiscono completamente gli esseri umani. Pertanto, stiamo lavorando insieme con questi algoritmi. Se fossi nel settore dell'HCI, vorrei che tutto il mio campo si concentrasse sulla questione di come interagiamo con gli algoritmi di deep learning. Perché abbiamo imparato per decenni come interagire con le interfacce utente grafiche, le interfacce a riga di comando e le interfacce web, ma questa è una cosa completamente diversa. 

E non so come, come programmatore, interagisco al meglio con qualcosa come Codex. Scommetto che ci sono modi davvero potenti per farlo per ogni area - creazione di interfacce e dati vincolanti, creazione di algoritmi e così via - ma non ho idea di cosa siano queste cose.

Pubblicato il 21 luglio 2022

Tecnologia, innovazione e futuro, raccontato da chi lo costruisce.

Grazie per esserti iscritto.

Controlla la tua casella di posta per una nota di benvenuto.

Timestamp:

Di più da Andreessen Horowitz