Disimballare la "scatola nera" per costruire modelli di intelligenza artificiale migliori

Disimballare la "scatola nera" per costruire modelli di intelligenza artificiale migliori

Unpacking the “black box” to build better AI models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Quando i modelli di deep learning vengono implementati nel mondo reale, forse per rilevare frodi finanziarie da attività con carte di credito o identificare il cancro nelle immagini mediche, sono spesso in grado di superare gli umani.

Ma cosa stanno imparando esattamente questi modelli di deep learning? Un modello addestrato per individuare il cancro della pelle nelle immagini cliniche, ad esempio, apprende effettivamente i colori e le trame del tessuto canceroso o segnala altre caratteristiche o schemi?

Questi potenti modelli di machine learning sono in genere basati su reti neurali artificiali che può avere milioni di nodi che elaborano i dati per fare previsioni. A causa della loro complessità, i ricercatori spesso chiamano questi modelli "scatole nere" perché anche gli scienziati che li costruiscono non capiscono tutto quello che succede sotto il cofano.

Stefanie Jegelka non è soddisfatta di quella spiegazione della “scatola nera”. Jegelka, neoprofessore associato di ruolo presso il Dipartimento di ingegneria elettrica e informatica del MIT, sta scavando a fondo nel deep learning per capire cosa possono imparare questi modelli e come si comportano, e come incorporare determinate informazioni precedenti in questi modelli.

“Alla fine della giornata, ciò che apprenderà un modello di deep learning dipende da tanti fattori. Ma costruire una comprensione che sia rilevante nella pratica ci aiuterà a progettare modelli migliori e ci aiuterà anche a capire cosa sta succedendo al loro interno in modo da sapere quando possiamo implementare un modello e quando no. Questo è di fondamentale importanza", afferma Jegelka, che è anche membro del Computer Science and Artificial Intelligence Laboratory (CSAIL) e dell'Institute for Data, Systems, and Society (IDSS).

Jegelka è particolarmente interessata all'ottimizzazione dei modelli di apprendimento automatico quando i dati di input sono sotto forma di grafici. I dati del grafico pongono sfide specifiche: ad esempio, le informazioni nei dati consistono sia di informazioni sui singoli nodi e bordi, sia sulla struttura, ovvero cosa è connesso a cosa. Inoltre, i grafici hanno simmetrie matematiche che devono essere rispettate dal modello di apprendimento automatico in modo che, ad esempio, lo stesso grafico porti sempre alla stessa previsione. Costruire tali simmetrie in un modello di apprendimento automatico di solito non è facile.

Prendi le molecole, per esempio. Le molecole possono essere rappresentate come grafici, con vertici che corrispondono ad atomi e spigoli che corrispondono a legami chimici tra loro. Le aziende farmaceutiche potrebbero voler utilizzare il deep learning per prevedere rapidamente le proprietà di molte molecole, restringendo il numero che devono testare fisicamente in laboratorio.

Jegelka studia metodi per costruire modelli matematici di apprendimento automatico che possono effettivamente prendere i dati del grafico come input e produrre qualcos'altro, in questo caso una previsione delle proprietà chimiche di una molecola. Ciò è particolarmente impegnativo poiché le proprietà di una molecola sono determinate non solo dagli atomi al suo interno, ma anche dalle connessioni tra di essi.  

Altri esempi di apprendimento automatico sui grafici includono il routing del traffico, la progettazione di chip e i sistemi di raccomandazione.

La progettazione di questi modelli è resa ancora più difficile dal fatto che i dati utilizzati per addestrarli sono spesso diversi dai dati che i modelli vedono nella pratica. Forse il modello è stato addestrato utilizzando piccoli grafici molecolari o reti di traffico, ma i grafici che vede una volta implementati sono più grandi o più complessi.

In questo caso, cosa possono aspettarsi che i ricercatori apprendano questo modello e funzionerà ancora nella pratica se i dati del mondo reale sono diversi?

"Il tuo modello non sarà in grado di apprendere tutto a causa di alcuni problemi di durezza nell'informatica, ma ciò che puoi imparare e ciò che non puoi imparare dipende da come imposti il ​​modello", afferma Jegelka.

Affronta questa domanda combinando la sua passione per gli algoritmi e la matematica discreta con la sua passione per l'apprendimento automatico.

Dalle farfalle alla bioinformatica

Jegelka è cresciuta in una piccola città in Germania e si è interessata alla scienza quando era una studentessa delle superiori; un insegnante di supporto l'ha incoraggiata a partecipare a un concorso scientifico internazionale. Lei e i suoi compagni di squadra degli Stati Uniti e di Singapore hanno vinto un premio per un sito web che hanno creato sulle farfalle, in tre lingue.

“Per il nostro progetto, abbiamo scattato immagini di ali con un microscopio elettronico a scansione presso un'università locale di scienze applicate. Ho anche avuto l'opportunità di utilizzare una telecamera ad alta velocità alla Mercedes Benz - questa telecamera di solito filmava i motori a combustione - che ho usato per catturare un video al rallentatore del movimento delle ali di una farfalla. Quella è stata la prima volta che sono entrata veramente in contatto con la scienza e l'esplorazione", ricorda.

Incuriosito sia dalla biologia che dalla matematica, Jegelka decise di studiare bioinformatica all'Università di Tubinga e all'Università del Texas ad Austin. Ha avuto alcune opportunità di condurre ricerche come studente universitario, incluso uno stage in neuroscienze computazionali presso la Georgetown University, ma non era sicura di quale carriera seguire.

Quando è tornata per il suo ultimo anno di college, Jegelka si è trasferita con due coinquiline che lavoravano come assistenti di ricerca presso il Max Planck Institute di Tubinga.

“Stavano lavorando sull'apprendimento automatico e mi è sembrato davvero fantastico. Dovevo scrivere la mia tesi di laurea, quindi ho chiesto all'istituto se avevano un progetto per me. Ho iniziato a lavorare sull'apprendimento automatico al Max Planck Institute e l'ho adorato. Ho imparato così tanto lì, ed è stato un ottimo posto per la ricerca", dice.

È rimasta al Max Planck Institute per completare una tesi di master, quindi ha intrapreso un dottorato di ricerca in machine learning presso il Max Planck Institute e l'Istituto federale svizzero di tecnologia.

Durante il suo dottorato, ha esplorato come i concetti della matematica discreta possono aiutare a migliorare le tecniche di apprendimento automatico.

Modelli di insegnamento per imparare

Più Jegelka imparava sull'apprendimento automatico, più diventava incuriosita dalle sfide di capire come si comportano i modelli e come guidare questo comportamento.

“Puoi fare così tanto con l'apprendimento automatico, ma solo se hai il modello e i dati giusti. Non è solo una cosa da scatola nera in cui lo lanci contro i dati e funziona. In realtà devi pensarci, le sue proprietà e cosa vuoi che il modello impari e faccia ", dice.

Dopo aver completato un postdoc presso l'Università della California a Berkeley, Jegelka si è appassionata alla ricerca e ha deciso di intraprendere una carriera nel mondo accademico. È entrata a far parte della facoltà del MIT nel 2015 come assistente professore.

“Quello che mi è veramente piaciuto del MIT, fin dall'inizio, è stato che le persone si preoccupano profondamente della ricerca e della creatività. Questo è ciò che apprezzo di più del MIT. Le persone qui apprezzano davvero l'originalità e la profondità della ricerca", afferma.

L'attenzione alla creatività ha permesso a Jegelka di esplorare un'ampia gamma di argomenti.

In collaborazione con altri docenti del MIT, studia applicazioni di apprendimento automatico in biologia, imaging, visione artificiale e scienza dei materiali.

Ma ciò che spinge davvero Jegelka è sondare i fondamenti dell'apprendimento automatico e, più recentemente, la questione della robustezza. Spesso un modello funziona bene sui dati di addestramento, ma le sue prestazioni peggiorano quando viene distribuito su dati leggermente diversi. Costruire conoscenze pregresse in un modello può renderlo più affidabile, ma capire di quali informazioni ha bisogno il modello per avere successo e come inserirle non è così semplice, afferma.

Sta anche esplorando metodi per migliorare le prestazioni dei modelli di apprendimento automatico per la classificazione delle immagini.

I modelli di classificazione delle immagini sono ovunque, dai sistemi di riconoscimento facciale sui telefoni cellulari agli strumenti che identificano account falsi sui social media. Questi modelli necessitano di enormi quantità di dati per l'addestramento, ma poiché è costoso per gli esseri umani etichettare manualmente milioni di immagini, i ricercatori spesso utilizzano set di dati senza etichetta per preaddestrare i modelli.

Questi modelli riutilizzano quindi le rappresentazioni che hanno appreso quando vengono successivamente perfezionati per un'attività specifica.

Idealmente, i ricercatori vogliono che il modello apprenda il più possibile durante il pre-addestramento, in modo che possa applicare tale conoscenza al suo compito a valle. Ma in pratica, questi modelli spesso apprendono solo poche semplici correlazioni, ad esempio che un'immagine ha il sole e l'altra l'ombra, e usano queste "scorciatoie" per classificare le immagini.

“Abbiamo dimostrato che questo è un problema nell''apprendimento contrastivo', che è una tecnica standard per la pre-formazione, sia teoricamente che empiricamente. Ma mostriamo anche che puoi influenzare i tipi di informazioni che il modello imparerà a rappresentare modificando i tipi di dati che mostri al modello. Questo è un passo verso la comprensione di ciò che i modelli faranno effettivamente nella pratica ", afferma.

I ricercatori continuano a non comprendere tutto ciò che accade all'interno di un modello di deep learning o i dettagli su come possono influenzare ciò che un modello apprende e come si comporta, ma Jegelka non vede l'ora di continuare a esplorare questi argomenti.

“Spesso nel machine learning, vediamo accadere qualcosa nella pratica e cerchiamo di capirlo teoricamente. Questa è una grande sfida. Vuoi costruire una comprensione che corrisponda a ciò che vedi nella pratica, in modo da poter fare meglio. Siamo ancora solo all'inizio della comprensione di questo", afferma.

Fuori dal laboratorio, Jegelka è una fan della musica, dell'arte, dei viaggi e del ciclismo. Ma in questi giorni le piace passare la maggior parte del suo tempo libero con sua figlia in età prescolare.

<!–
->

Timestamp:

Di più da Consulenti Blockchain