De "zwarte doos" uitpakken om betere AI-modellen te bouwen

De "zwarte doos" uitpakken om betere AI-modellen te bouwen

De ‘black box’ uitpakken om betere AI-modellen te bouwen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Wanneer deep learning-modellen in de echte wereld worden ingezet, bijvoorbeeld om financiële fraude door creditcardactiviteiten op te sporen of om kanker op medische beelden te identificeren, zijn ze vaak in staat beter te presteren dan mensen.

Maar wat leren deze deep learning-modellen precies? Leert een model dat bijvoorbeeld getraind is om huidkanker in klinische beelden te herkennen, daadwerkelijk de kleuren en texturen van kankerweefsel, of markeert het andere kenmerken of patronen?

Deze krachtige machine learning-modellen zijn meestal gebaseerd op kunstmatige neurale netwerken die miljoenen knooppunten kan hebben die gegevens verwerken om voorspellingen te doen. Vanwege hun complexiteit noemen onderzoekers deze modellen vaak 'zwarte dozen' omdat zelfs de wetenschappers die ze bouwen niet alles begrijpen wat er onder de motorkap gebeurt.

Stefanie Jegelka is niet tevreden met die 'black box'-verklaring. Jegelka, een nieuwe vaste aanstelling als universitair hoofddocent bij de MIT-afdeling Elektrotechniek en Computerwetenschappen, graaft diep in diep leren om te begrijpen wat deze modellen kunnen leren en hoe ze zich gedragen, en hoe bepaalde eerdere informatie in deze modellen kan worden ingebouwd.

“Uiteindelijk hangt wat een deep-learning model leert af van zoveel factoren. Maar door een begrip op te bouwen dat relevant is in de praktijk, kunnen we betere modellen ontwerpen en begrijpen we ook wat er binnenin gebeurt, zodat we weten wanneer we een model kunnen inzetten en wanneer niet. Dat is van cruciaal belang”, zegt Jegelka, die ook lid is van het Computer Science and Artificial Intelligence Laboratory (CSAIL) en het Institute for Data, Systems and Society (IDSS).

Jegelka is met name geïnteresseerd in het optimaliseren van machine learning-modellen wanneer invoergegevens in de vorm van grafieken zijn. Grafiekgegevens vormen specifieke uitdagingen: informatie in de gegevens bestaat bijvoorbeeld zowel uit informatie over individuele knopen en randen, als uit de structuur - wat is met wat verbonden. Bovendien hebben grafieken wiskundige symmetrieën die gerespecteerd moeten worden door het machine-learning model, zodat bijvoorbeeld dezelfde grafiek altijd tot dezelfde voorspelling leidt. Het inbouwen van dergelijke symmetrieën in een machine learning-model is meestal niet eenvoudig.

Neem bijvoorbeeld moleculen. Moleculen kunnen worden weergegeven als grafieken, met hoekpunten die overeenkomen met atomen en randen die overeenkomen met chemische bindingen daartussen. Farmaceutische bedrijven willen misschien deep learning gebruiken om snel de eigenschappen van veel moleculen te voorspellen, waardoor het aantal dat ze fysiek in het laboratorium moeten testen, wordt beperkt.

Jegelka bestudeert methoden om wiskundige modellen voor machinaal leren te bouwen die grafiekgegevens effectief als input kunnen gebruiken en iets anders kunnen uitvoeren, in dit geval een voorspelling van de chemische eigenschappen van een molecuul. Dit is bijzonder uitdagend omdat de eigenschappen van een molecuul niet alleen worden bepaald door de atomen erin, maar ook door de onderlinge verbindingen.  

Andere voorbeelden van machine learning op grafieken zijn verkeersroutering, chipontwerp en aanbevelingssystemen.

Het ontwerpen van deze modellen wordt nog moeilijker gemaakt door het feit dat de gegevens die worden gebruikt om ze te trainen vaak verschillen van de gegevens die de modellen in de praktijk zien. Misschien is het model getraind met behulp van kleine moleculaire grafieken of verkeersnetwerken, maar de grafieken die het eenmaal ziet, zijn groter of complexer.

Wat kunnen onderzoekers in dit geval verwachten dat dit model leert, en zal het in de praktijk nog steeds werken als de gegevens uit de echte wereld anders zijn?

"Je model zal niet alles kunnen leren vanwege hardheidsproblemen in de informatica, maar wat je kunt leren en wat je niet kunt leren, hangt af van hoe je het model opzet", zegt Jegelka.

Ze benadert deze vraag door haar passie voor algoritmen en discrete wiskunde te combineren met haar enthousiasme voor machine learning.

Van vlinders tot bioinformatica

Jegelka groeide op in een klein stadje in Duitsland en raakte geïnteresseerd in wetenschap toen ze op de middelbare school zat; een ondersteunende leraar moedigde haar aan om deel te nemen aan een internationale wetenschapswedstrijd. Zij en haar teamgenoten uit de VS en Singapore wonnen een prijs voor een website die ze in drie talen over vlinders hadden gemaakt.

“Voor ons project hebben we vleugels gemaakt met een rasterelektronenmicroscoop op een plaatselijke hogeschool. Ik kreeg ook de kans om een ​​high-speed camera te gebruiken bij Mercedes Benz - deze camera filmde meestal verbrandingsmotoren - die ik gebruikte om een ​​slow-motion video vast te leggen van de beweging van de vleugels van een vlinder. Dat was de eerste keer dat ik echt in aanraking kwam met wetenschap en onderzoek”, herinnert ze zich.

Geïntrigeerd door zowel biologie als wiskunde, besloot Jegelka bio-informatica te gaan studeren aan de Universiteit van Tübingen en de Universiteit van Texas in Austin. Ze had een paar kansen om onderzoek te doen als student, waaronder een stage in computationele neurowetenschappen aan Georgetown University, maar wist niet zeker welke carrière ze moest volgen.

Toen ze terugkeerde voor haar laatste jaar op de universiteit, trok Jegelka in bij twee kamergenoten die als onderzoeksassistenten werkten aan het Max Planck Instituut in Tübingen.

“Ze waren bezig met machine learning, en dat leek me heel gaaf. Ik moest mijn bachelorscriptie schrijven, dus ik vroeg bij het instituut of ze een project voor me hadden. Ik begon te werken aan machine learning bij het Max Planck Instituut en ik vond het geweldig. Ik heb daar zoveel geleerd en het was een geweldige plek voor onderzoek', zegt ze.

Ze bleef aan het Max Planck Instituut om een ​​masterscriptie af te ronden en begon vervolgens aan een doctoraat in machine learning aan het Max Planck Instituut en het Zwitserse Federale Instituut voor Technologie..

Tijdens haar doctoraat onderzocht ze hoe concepten uit de discrete wiskunde technieken voor machinaal leren kunnen helpen verbeteren.

Onderwijsmodellen om te leren

Hoe meer Jegelka leerde over machine learning, hoe meer ze geïntrigeerd raakte door de uitdagingen om te begrijpen hoe modellen zich gedragen en hoe ze dit gedrag kunnen sturen.

“Je kunt zoveel met machine learning, maar alleen als je het juiste model en de juiste data hebt. Het is niet alleen een black-box-ding waar je het naar de gegevens gooit en het werkt. Je moet er echt over nadenken, over de eigenschappen ervan en over wat je wilt dat het model leert en doet”, zegt ze.

Na het voltooien van een postdoc aan de University of California in Berkeley, raakte Jegelka verslaafd aan onderzoek en besloot ze een carrière in de academische wereld na te streven. Ze trad in 2015 toe tot de faculteit van MIT als assistent-professor.

“Wat ik vanaf het allereerste begin echt geweldig vond aan MIT, was dat de mensen echt veel geven om onderzoek en creativiteit. Dat is wat ik het meest waardeer aan MIT. De mensen hier hechten veel waarde aan originaliteit en diepgang in het onderzoek”, zegt ze.

Die focus op creativiteit heeft Jegelka in staat gesteld een breed scala aan onderwerpen te verkennen.

In samenwerking met andere faculteiten van MIT bestudeert ze toepassingen voor machine learning in biologie, beeldvorming, computervisie en materiaalkunde.

Maar wat Jegelka echt drijft, is het onderzoeken van de fundamenten van machine learning, en meer recentelijk de kwestie van robuustheid. Vaak presteert een model goed op trainingsgegevens, maar verslechtert de prestatie wanneer het wordt ingezet op iets andere gegevens. Het inbouwen van voorkennis in een model kan het betrouwbaarder maken, maar begrijpen welke informatie het model nodig heeft om succesvol te zijn en hoe het moet worden ingebouwd, is niet zo eenvoudig, zegt ze.

Ze onderzoekt ook methoden om de prestaties van machine-learningmodellen voor beeldclassificatie te verbeteren.

Modellen voor beeldclassificatie zijn overal, van gezichtsherkenningssystemen op mobiele telefoons tot tools die valse accounts op sociale media identificeren. Deze modellen hebben enorme hoeveelheden gegevens nodig voor training, maar aangezien het duur is voor mensen om miljoenen afbeeldingen met de hand te labelen, gebruiken onderzoekers in plaats daarvan vaak niet-gelabelde datasets om modellen vooraf te trainen.

Deze modellen hergebruiken vervolgens de representaties die ze hebben geleerd wanneer ze later worden verfijnd voor een specifieke taak.

Idealiter willen onderzoekers dat het model zoveel mogelijk leert tijdens de pre-training, zodat het die kennis kan toepassen op zijn volgende taak. Maar in de praktijk leren deze modellen vaak maar een paar eenvoudige correlaties - zoals dat ene beeld zonneschijn heeft en het andere schaduw - en gebruiken ze deze "snelkoppelingen" om beelden te classificeren.

“We hebben laten zien dat dit een probleem is bij 'contrastief leren', een standaardtechniek voor pre-training, zowel theoretisch als empirisch. Maar we laten ook zien dat u invloed kunt uitoefenen op de soorten informatie die het model zal leren weergeven door de soorten gegevens aan te passen die u aan het model laat zien. Dit is een stap in de richting van inzicht in wat modellen in de praktijk gaan doen”, zegt ze.

Onderzoekers begrijpen nog steeds niet alles wat er in een deep-learning model gebeurt, of details over hoe ze kunnen beïnvloeden wat een model leert en hoe het zich gedraagt, maar Jegelka kijkt ernaar uit om deze onderwerpen verder te onderzoeken.

“Vaak zien we bij machine learning iets in de praktijk gebeuren en proberen we dat theoretisch te begrijpen. Dit is een enorme uitdaging. Je wilt inzicht opbouwen dat aansluit bij wat je in de praktijk ziet, zodat je het beter kunt. We staan ​​nog maar aan het begin om dit te begrijpen', zegt ze.

Buiten het lab is Jegelka een fan van muziek, kunst, reizen en fietsen. Maar tegenwoordig brengt ze het grootste deel van haar vrije tijd graag door met haar dochtertje van voorschoolse leeftijd.

<!–
->

Tijdstempel:

Meer van Blockchain-adviseurs