Pura "mustan laatikon" pakkauksesta parempia tekoälymalleja

Pura "mustan laatikon" pakkauksesta parempia tekoälymalleja

"Mustan laatikon" purkaminen ja rakentaa parempia AI-malleja PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kun syväoppimismalleja käytetään todellisessa maailmassa, ehkä luottokorttitoiminnasta aiheutuvien taloudellisten petosten havaitsemiseksi tai syövän tunnistamiseksi lääketieteellisistä kuvista, ne pystyvät usein päihittämään ihmisiä.

Mutta mitä nämä syvän oppimismallit tarkalleen ottaen ovat oppimista? Oppiiko malli, joka on koulutettu havaitsemaan ihosyövän esimerkiksi kliinisistä kuvista, todella syöpäkudoksen värit ja tekstuurit, vai merkitseekö se jotain muita ominaisuuksia tai kuvioita?

Nämä tehokkaat koneoppimismallit perustuvat tyypillisesti keinotekoiset hermoverkot jossa voi olla miljoonia solmuja, jotka käsittelevät dataa ennustaakseen. Monimutkaisuuden vuoksi tutkijat kutsuvat näitä malleja usein "mustiksi laatikoiksi", koska edes niitä rakentavat tiedemiehet eivät ymmärrä kaikkea, mitä konepellin alla tapahtuu.

Stefanie Jegelka ei ole tyytyväinen "mustan laatikon" selittämiseen. Äskettäin MIT:n sähkötekniikan ja tietojenkäsittelytieteen laitoksen apulaisprofessori Jegelka kaivaa syvään syvään oppimiseen ymmärtääkseen, mitä nämä mallit voivat oppia ja miten ne käyttäytyvät, ja kuinka rakentaa tiettyjä aiempaa tietoa näihin malleihin.

”Loppujen lopuksi se, mitä syväoppimismalli oppii, riippuu niin monista tekijöistä. Mutta käytännössä merkityksellisen ymmärryksen rakentaminen auttaa meitä suunnittelemaan parempia malleja ja myös ymmärtämään, mitä niiden sisällä tapahtuu, jotta tiedämme, milloin voimme ottaa mallin käyttöön ja milloin emme. Se on erittäin tärkeää”, Jegelka, joka on myös Computer Science and Artificial Intelligence Laboratoryn (CSAIL) ja Institute for Data, Systems and Society (IDSS) jäsen.

Jegelka on erityisen kiinnostunut koneoppimismallien optimoinnista, kun syöttödata on graafisen muodossa. Graafidata asettaa erityisiä haasteita: Esimerkiksi tiedoissa oleva tieto koostuu sekä tiedoista yksittäisistä solmuista ja reunoista että rakenteesta – mitä mihinkin liittyy. Lisäksi kaavioissa on matemaattisia symmetrioita, joita koneoppimismallin tulee ottaa huomioon, jotta esimerkiksi sama graafi johtaa aina samaan ennusteeseen. Tällaisten symmetrioiden rakentaminen koneoppimismalliksi ei yleensä ole helppoa.

Otetaan esimerkiksi molekyylit. Molekyylit voidaan esittää graafeina, joiden kärjet vastaavat atomeja ja reunat, jotka vastaavat niiden välisiä kemiallisia sidoksia. Lääkeyritykset saattavat haluta käyttää syväoppimista ennustaakseen nopeasti monien molekyylien ominaisuuksia ja kaventaakseen niiden määrää, joita niiden on fyysisesti testattava laboratoriossa.

Jegelka tutkii menetelmiä rakentaa matemaattisia koneoppimismalleja, jotka voivat tehokkaasti ottaa graafidataa syötteenä ja tulostaa jotain muuta, tässä tapauksessa ennustetta molekyylin kemiallisista ominaisuuksista. Tämä on erityisen haastavaa, koska molekyylin ominaisuudet eivät määräydy ainoastaan ​​siinä olevien atomien, vaan myös niiden välisten yhteyksien perusteella.  

Muita esimerkkejä kaavioiden koneoppimisesta ovat liikenteen reititys, sirusuunnittelu ja suosittelujärjestelmät.

Näiden mallien suunnittelua vaikeuttaa entisestään se, että niiden harjoittamiseen käytetty data eroaa usein mallien käytännössä näkemästä tiedosta. Ehkä mallia opetettiin käyttämällä pieniä molekyylikaavioita tai liikenneverkkoja, mutta käyttöönoton jälkeen sen näkemät kaaviot ovat suurempia tai monimutkaisempia.

Mitä tutkijat voivat tässä tapauksessa odottaa tämän mallin oppivan, ja toimiiko se edelleen käytännössä, jos reaalimaailman tiedot ovat erilaisia?

”Mallistasi ei voi oppia kaikkea tietojenkäsittelytieteen kovuusongelmien vuoksi, mutta se, mitä voit oppia ja mitä et voi oppia, riippuu siitä, miten malli asetetaan”, Jegelka sanoo.

Hän lähestyy tätä kysymystä yhdistämällä intohimonsa algoritmeihin ja diskreettiin matematiikkaan koneoppimisen innostukseensa.

Perhosista bioinformatiikkaan

Jegelka varttui pienessä kaupungissa Saksassa ja kiinnostui tieteestä lukiolaisena; kannustava opettaja rohkaisi häntä osallistumaan kansainväliseen tiedekilpailuun. Hän ja hänen joukkuetoverinsa Yhdysvalloista ja Singaporesta voittivat palkinnon verkkosivustosta, jonka he loivat perhosista kolmella kielellä.

”Projektiamme varten otimme kuvia siiveistä pyyhkäisyelektronimikroskoopilla paikallisessa ammattikorkeakoulussa. Sain myös mahdollisuuden käyttää Mercedes Benzissä nopeaa kameraa – tämä kamera kuvasi yleensä polttomoottoreita – jolla kuvasin hidastettua videota perhosen siipien liikkeistä. Se oli ensimmäinen kerta, kun sain todella yhteyden tieteeseen ja etsintään”, hän muistelee.

Biologiasta ja matematiikasta kiinnostuneena Jegelka päätti opiskella bioinformatiikkaa Tübingenin yliopistossa ja Texasin yliopistossa Austinissa. Hänellä oli muutama tilaisuus tehdä tutkimusta perustutkinto-opiskelijana, mukaan lukien työharjoittelu laskennallisessa neurotieteessä Georgetownin yliopistossa, mutta hän ei ollut varma, mitä uraa hänen pitäisi jatkaa.

Kun Jegelka palasi viimeiselle opiskeluvuodelleen, hän muutti kahden kämppäkaverinsa luo, jotka työskentelivät tutkimusavustajina Max Planck -instituutissa Tübingenissä.

"He työskentelivät koneoppimisen parissa, ja se kuulosti minusta todella siistiltä. Minun piti kirjoittaa opinnäytetyöni, joten kysyin instituutista, oliko heillä projekti minulle. Aloin työskennellä koneoppimisen parissa Max Planck Institutessa ja pidin siitä. Opin siellä niin paljon, ja se oli loistava paikka tutkia", hän sanoo.

Hän jäi Max Planck -instituuttiin suorittamaan pro gradu -tutkielman, minkä jälkeen hän aloitti tohtorintutkinnon koneoppimisesta Max Planck Institutessa ja Swiss Federal Institute of Technologyssa..

Tohtorintutkinnon aikana hän tutki, kuinka diskreetin matematiikan käsitteet voivat auttaa parantamaan koneoppimistekniikoita.

Opettaa malleja oppimaan

Mitä enemmän Jegelka oppi koneoppimisesta, sitä enemmän häntä kiinnostivat haasteet, jotka liittyvät mallien käyttäytymisen ymmärtämiseen ja sen ohjaamiseen.

"Voit tehdä niin paljon koneoppimisella, mutta vain jos sinulla on oikea malli ja data. Se ei ole vain musta laatikko, jossa heität sen dataan ja se toimii. Sinun on itse asiassa mietittävä sitä, sen ominaisuuksia ja mitä haluat mallin oppivan ja tekevän”, hän sanoo.

Suoritettuaan jatkotutkinnon Kalifornian yliopistossa Berkeleyssä, Jegelka oli koukussa tutkimukseen ja päätti jatkaa uraa akateemisessa maailmassa. Hän liittyi MIT:n tiedekuntaan vuonna 2015 apulaisprofessorina.

”Pidin MIT:ssä alusta asti siitä, että ihmiset todella välittävät syvästi tutkimuksesta ja luovuudesta. Sitä arvostan eniten MIT:ssä. Täällä ihmiset todella arvostavat tutkimuksen omaperäisyyttä ja syvyyttä”, hän sanoo.

Luovuuteen keskittyminen on mahdollistanut Jegelkan tutkimisen monenlaisiin aiheisiin.

Yhteistyössä muiden MIT:n tiedekuntien kanssa hän opiskelee koneoppimissovelluksia biologiassa, kuvantamisessa, tietokonenäössä ja materiaalitieteessä.

Mutta se, mikä todella ajaa Jegelkaa, on koneoppimisen perusteiden tutkiminen ja viimeksi kysymys jäykkyydestä. Usein malli toimii hyvin harjoitusdatalla, mutta sen suorituskyky heikkenee, kun sitä käytetään hieman eri tietoihin. Aiemman tiedon rakentaminen malliin voi tehdä siitä luotettavamman, mutta sen ymmärtäminen, mitä tietoa malli tarvitsee menestyäkseen ja miten se rakennetaan, ei ole niin yksinkertaista, hän sanoo.

Hän tutkii myös tapoja parantaa koneoppimismallien suorituskykyä kuvien luokittelussa.

Kuvien luokittelumalleja on kaikkialla, matkapuhelimien kasvojentunnistusjärjestelmistä työkaluihin, jotka tunnistavat väärennetyt tilit sosiaalisessa mediassa. Nämä mallit tarvitsevat valtavia määriä dataa koulutukseen, mutta koska miljoonien kuvien merkitseminen käsin on kallista ihmisille, tutkijat käyttävät usein merkitsemättömiä tietojoukkoja mallien esiopettamiseen.

Nämä mallit käyttävät sitten uudelleen oppimiaan esityksiä, kun niitä hienosäädetään myöhemmin tiettyä tehtävää varten.

Ihannetapauksessa tutkijat haluavat mallin oppivan niin paljon kuin se voi esikoulutuksen aikana, jotta se voi soveltaa tätä tietoa loppupään tehtäväänsä. Mutta käytännössä nämä mallit oppivat usein vain muutaman yksinkertaisen korrelaation - kuten sen, että yhdessä kuvassa on auringonpaistetta ja toisessa varjoa - ja käyttävät näitä "pikanäppäimiä" kuvien luokittelemiseen.

"Osoitimme, että tämä on ongelma "kontrastiivisessa oppimisessa", joka on vakiotekniikka esikoulutuksessa sekä teoreettisesti että empiirisesti. Mutta näytämme myös, että voit vaikuttaa siihen, minkä tyyppistä tietoa malli oppii edustamaan muokkaamalla mallissa näytettävää datatyyppiä. Tämä on yksi askel kohti sen ymmärtämistä, mitä mallit todella tekevät käytännössä”, hän sanoo.

Tutkijat eivät vieläkään ymmärrä kaikkea, mitä syväoppimismallissa tapahtuu, tai yksityiskohtia siitä, miten he voivat vaikuttaa siihen, mitä malli oppii ja miten se käyttäytyy, mutta Jegelka odottaa innolla näiden aiheiden tutkimista.

”Usein koneoppimisessa näemme jotain tapahtuvan käytännössä ja yritämme ymmärtää sitä teoreettisesti. Tämä on valtava haaste. Haluat rakentaa ymmärryksen, joka vastaa sitä, mitä näet käytännössä, jotta voit tehdä paremmin. Olemme vielä vasta alussa ymmärtämään tätä, hän sanoo.

Laboratorion ulkopuolella Jegelka on musiikin, taiteen, matkustamisen ja pyöräilyn ystävä. Mutta nykyään hän viettää suurimman osan vapaa-ajastaan ​​esikouluikäisen tyttärensä kanssa.

<!-
->

Aikaleima:

Lisää aiheesta Blockchain-konsultit