Pakker ut den "svarte boksen" for å bygge bedre AI-modeller

Pakker ut den "svarte boksen" for å bygge bedre AI-modeller

Pakker ut den "svarte boksen" for å bygge bedre AI-modeller PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når dyplæringsmodeller brukes i den virkelige verden, kanskje for å oppdage økonomisk svindel fra kredittkortaktivitet eller identifisere kreft i medisinske bilder, er de ofte i stand til å utkonkurrere mennesker.

Men hva er det egentlig disse dyplæringsmodellene lærer? Lærer en modell som er trent til å oppdage hudkreft i kliniske bilder, for eksempel, faktisk fargene og teksturene til kreftvev, eller flagger den noen andre funksjoner eller mønstre?

Disse kraftige maskinlæringsmodellene er vanligvis basert på kunstige nevrale nettverk som kan ha millioner av noder som behandler data for å lage spådommer. På grunn av deres kompleksitet kaller forskere ofte disse modellene "svarte bokser" fordi selv forskerne som bygger dem ikke forstår alt som foregår under panseret.

Stefanie Jegelka er ikke fornøyd med den "black box"-forklaringen. Jegelka, en nylig ansatt førsteamanuensis ved MIT-avdelingen for elektroteknikk og informatikk, graver dypt inn i dyp læring for å forstå hva disse modellene kan lære og hvordan de oppfører seg, og hvordan man bygger inn viss tidligere informasjon i disse modellene.

"På slutten av dagen, hva en dyplæringsmodell vil lære avhenger av så mange faktorer. Men å bygge en forståelse som er relevant i praksis vil hjelpe oss med å designe bedre modeller, og også hjelpe oss å forstå hva som foregår inne i dem, slik at vi vet når vi kan distribuere en modell og når vi ikke kan. Det er kritisk viktig, sier Jegelka, som også er medlem av Computer Science and Artificial Intelligence Laboratory (CSAIL) og Institutt for data, systemer og samfunn (IDSS).

Jegelka er spesielt interessert i å optimalisere maskinlæringsmodeller når inputdata er i form av grafer. Grafdata byr på spesifikke utfordringer: Informasjon i dataene består for eksempel av både informasjon om individuelle noder og kanter, samt strukturen – hva som er knyttet til hva. I tillegg har grafer matematiske symmetrier som må respekteres av maskinlæringsmodellen, slik at for eksempel den samme grafen alltid fører til samme prediksjon. Å bygge slike symmetrier inn i en maskinlæringsmodell er vanligvis ikke lett.

Ta molekyler, for eksempel. Molekyler kan representeres som grafer, med toppunkter som tilsvarer atomer og kanter som tilsvarer kjemiske bindinger mellom dem. Legemiddelfirmaer vil kanskje bruke dyp læring for raskt å forutsi egenskapene til mange molekyler, og begrense antallet de fysisk må teste i laboratoriet.

Jegelka studerer metoder for å bygge matematiske maskinlæringsmodeller som effektivt kan ta grafdata som input og output noe annet, i dette tilfellet en prediksjon av et molekyls kjemiske egenskaper. Dette er spesielt utfordrende siden et molekyls egenskaper ikke bare bestemmes av atomene i det, men også av forbindelsene mellom dem.  

Andre eksempler på maskinlæring på grafer inkluderer trafikkruting, chipdesign og anbefalingssystemer.

Utformingen av disse modellene blir enda vanskeligere av at data som brukes til å trene dem ofte er forskjellig fra data modellene ser i praksis. Kanskje modellen ble trent ved å bruke små molekylære grafer eller trafikknettverk, men grafene den ser når de er distribuert er større eller mer komplekse.

I dette tilfellet, hva kan forskere forvente at denne modellen lærer, og vil den fortsatt fungere i praksis hvis dataene fra den virkelige verden er annerledes?

"Modellen din kommer ikke til å være i stand til å lære alt på grunn av noen hardhetsproblemer i informatikk, men hva du kan lære og hva du ikke kan lære avhenger av hvordan du setter opp modellen," sier Jegelka.

Hun nærmer seg dette spørsmålet ved å kombinere sin lidenskap for algoritmer og diskret matematikk med sin begeistring for maskinlæring.

Fra sommerfugler til bioinformatikk

Jegelka vokste opp i en liten by i Tyskland og ble interessert i realfag da hun var ungdomsskoleelev; en støttende lærer oppmuntret henne til å delta i en internasjonal vitenskapskonkurranse. Hun og lagkameratene hennes fra USA og Singapore vant en pris for et nettsted de laget om sommerfugler, på tre språk.

«For prosjektet vårt tok vi bilder av vinger med et skanningselektronmikroskop ved et lokalt universitet for anvendt vitenskap. Jeg fikk også muligheten til å bruke et høyhastighetskamera hos Mercedes Benz — dette kameraet filmet vanligvis forbrenningsmotorer — som jeg brukte til å ta en saktefilm av bevegelsen til en sommerfugls vinger. Det var første gang jeg virkelig kom i kontakt med vitenskap og utforskning, minnes hun.

Jegelka var fascinert av både biologi og matematikk og bestemte seg for å studere bioinformatikk ved University of Tübingen og University of Texas i Austin. Hun hadde noen få muligheter til å forske som undergraduate, inkludert et internship i beregningsnevrovitenskap ved Georgetown University, men var ikke sikker på hvilken karriere hun skulle følge.

Da hun kom tilbake for det siste året på college, flyttet Jegelka inn med to romkamerater som jobbet som forskningsassistenter ved Max Planck Institute i Tübingen.

"De jobbet med maskinlæring, og det hørtes veldig kult ut for meg. Jeg skulle skrive bacheloroppgaven min, så jeg spurte på instituttet om de hadde et prosjekt til meg. Jeg begynte å jobbe med maskinlæring ved Max Planck Institute og jeg elsket det. Jeg lærte så mye der, og det var et flott sted for forskning, sier hun.

Hun ble ved Max Planck Institute for å fullføre en masteroppgave, og tok deretter fatt på en doktorgrad i maskinlæring ved Max Planck Institute og Swiss Federal Institute of Technology.

I løpet av doktorgraden utforsket hun hvordan konsepter fra diskret matematikk kan bidra til å forbedre maskinlæringsteknikker.

Lære modeller for å lære

Jo mer Jegelka lærte om maskinlæring, jo mer fascinert ble hun av utfordringene med å forstå hvordan modeller oppfører seg, og hvordan man styrer denne oppførselen.

«Du kan gjøre så mye med maskinlæring, men bare hvis du har riktig modell og data. Det er ikke bare en black-box-ting der du kaster det på dataene og det fungerer. Du må faktisk tenke på den, dens egenskaper og hva du vil at modellen skal lære og gjøre, sier hun.

Etter å ha fullført en postdoc ved University of California i Berkeley, ble Jegelka hekta på forskning og bestemte seg for å satse på en karriere i akademia. Hun begynte på fakultetet ved MIT i 2015 som adjunkt.

"Det jeg virkelig elsket med MIT, helt fra begynnelsen, var at folk virkelig bryr seg dypt om forskning og kreativitet. Det er det jeg setter mest pris på med MIT. Folk her verdsetter virkelig originalitet og dybde i forskning, sier hun.

Dette fokuset på kreativitet har gjort det mulig for Jegelka å utforske et bredt spekter av emner.

I samarbeid med andre fakulteter ved MIT studerer hun maskinlæringsapplikasjoner innen biologi, bildebehandling, datasyn og materialvitenskap.

Men det som virkelig driver Jegelka er å undersøke det grunnleggende innen maskinlæring, og sist, spørsmålet om robusthet. Ofte presterer en modell bra på treningsdata, men ytelsen blir dårligere når den brukes på litt andre data. Å bygge forkunnskaper inn i en modell kan gjøre den mer pålitelig, men å forstå hvilken informasjon modellen trenger for å lykkes og hvordan man bygger den inn er ikke så enkelt, sier hun.

Hun utforsker også metoder for å forbedre ytelsen til maskinlæringsmodeller for bildeklassifisering.

Bildeklassifiseringsmodeller er overalt, fra ansiktsgjenkjenningssystemene på mobiltelefoner til verktøy som identifiserer falske kontoer på sosiale medier. Disse modellene trenger enorme mengder data for trening, men siden det er dyrt for mennesker å håndmerke millioner av bilder, bruker forskere ofte umerkede datasett for å forhåndstrene modeller i stedet.

Disse modellene gjenbruker deretter representasjonene de har lært når de senere finjusteres for en spesifikk oppgave.

Ideelt sett vil forskerne at modellen skal lære så mye den kan under foropplæringen, slik at den kan bruke den kunnskapen til nedstrømsoppgaven. Men i praksis lærer disse modellene ofte bare noen få enkle sammenhenger - som at ett bilde har solskinn og ett har skygge - og bruker disse "snarveiene" for å klassifisere bilder.

«Vi viste at dette er et problem i 'kontrastiv læring', som er en standardteknikk for førtrening, både teoretisk og empirisk. Men vi viser også at du kan påvirke hva slags informasjon modellen vil lære å representere ved å modifisere typene data du viser modellen. Dette er ett skritt mot å forstå hva modeller faktisk kommer til å gjøre i praksis, sier hun.

Forskere forstår fortsatt ikke alt som foregår i en dyplæringsmodell, eller detaljer om hvordan de kan påvirke hva en modell lærer og hvordan den oppfører seg, men Jegelka ser frem til å fortsette å utforske disse temaene.

«Ofte i maskinlæring ser vi noe skje i praksis, og vi prøver å forstå det teoretisk. Dette er en kjempeutfordring. Du ønsker å bygge en forståelse som samsvarer med det du ser i praksis, slik at du kan gjøre det bedre. Vi er fortsatt bare i begynnelsen av å forstå dette, sier hun.

Utenfor laboratoriet er Jegelka en fan av musikk, kunst, reiser og sykling. Men i disse dager liker hun å tilbringe mesteparten av fritiden sin med datteren i førskolealder.

<!–
->

Tidstempel:

Mer fra Blockchain-konsulenter