Rozpakowanie „czarnej skrzynki” w celu zbudowania lepszych modeli AI

Rozpakowanie „czarnej skrzynki” w celu zbudowania lepszych modeli AI

Rozpakowywanie „czarnej skrzynki” w celu budowania lepszych modeli AI PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Kiedy modele głębokiego uczenia się są wdrażane w prawdziwym świecie, na przykład w celu wykrywania oszustw finansowych związanych z kartami kredytowymi lub wykrywania raka na obrazach medycznych, często są w stanie przewyższyć ludzi.

Ale czego dokładnie uczą się te modele głębokiego uczenia? Czy model przeszkolony w wykrywaniu raka skóry na przykład na obrazach klinicznych faktycznie uczy się kolorów i faktur tkanki rakowej, czy też zaznacza jakieś inne cechy lub wzory?

Te potężne modele uczenia maszynowego są zazwyczaj oparte na sztuczne sieci neuronowe które mogą mieć miliony węzłów przetwarzających dane w celu przewidywania. Ze względu na swoją złożoność naukowcy często nazywają te modele „czarnymi skrzynkami”, ponieważ nawet naukowcy, którzy je budują, nie rozumieją wszystkiego, co dzieje się pod maską.

Stefanie Jegelka nie jest usatysfakcjonowana tym wyjaśnieniem „czarnej skrzynki”. Nowo zatrudniony profesor nadzwyczajny na Wydziale Elektrotechniki i Informatyki MIT, Jegelka zagłębia się w głębokie uczenie się, aby zrozumieć, czego te modele mogą się nauczyć i jak się zachowują, oraz jak wbudować pewne wcześniejsze informacje w te modele.

„Ostatecznie to, czego nauczy się model głębokiego uczenia się, zależy od tak wielu czynników. Ale budowanie zrozumienia, które jest istotne w praktyce, pomoże nam zaprojektować lepsze modele, a także pomoże nam zrozumieć, co się w nich dzieje, dzięki czemu wiemy, kiedy możemy wdrożyć model, a kiedy nie. To niezwykle ważne”, mówi Jegelka, który jest także członkiem Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL) oraz Instytutu Danych, Systemów i Społeczeństwa (IDSS).

Jegelka jest szczególnie zainteresowana optymalizacją modeli uczenia maszynowego, gdy dane wejściowe mają postać wykresów. Dane grafu stawiają szczególne wyzwania: na przykład informacje zawarte w danych obejmują zarówno informacje o poszczególnych węzłach i krawędziach, jak i strukturę — ​​co jest z czym połączone. Ponadto wykresy mają matematyczne symetrie, które muszą być respektowane przez model uczenia maszynowego, tak aby na przykład ten sam wykres zawsze prowadził do tej samej prognozy. Wbudowanie takich symetrii w model uczenia maszynowego zwykle nie jest łatwe.

Weźmy na przykład cząsteczki. Cząsteczki można przedstawić jako grafy, których wierzchołki odpowiadają atomom, a krawędzie odpowiadają wiązaniom chemicznym między nimi. Firmy farmaceutyczne mogą chcieć wykorzystać głębokie uczenie się do szybkiego przewidywania właściwości wielu cząsteczek, zawężając liczbę, którą muszą fizycznie przetestować w laboratorium.

Jegelka bada metody budowania matematycznych modeli uczenia maszynowego, które mogą skutecznie przyjmować dane z wykresu jako dane wejściowe i wyprowadzać coś innego, w tym przypadku przewidywanie właściwości chemicznych cząsteczki. Jest to szczególnie trudne, ponieważ właściwości cząsteczki są określane nie tylko przez zawarte w niej atomy, ale także przez połączenia między nimi.  

Inne przykłady uczenia maszynowego na wykresach obejmują kierowanie ruchem, projektowanie chipów i systemy rekomendujące.

Projektowanie tych modeli jest jeszcze trudniejsze ze względu na fakt, że dane używane do ich uczenia często różnią się od danych, które modele widzą w praktyce. Być może model został przeszkolony przy użyciu małych grafów molekularnych lub sieci ruchu, ale grafy, które widzi po wdrożeniu, są większe lub bardziej złożone.

W takim przypadku, czego badacze mogą się spodziewać po tym modelu i czy będzie on nadal działał w praktyce, jeśli rzeczywiste dane będą inne?

„Twój model nie będzie w stanie nauczyć się wszystkiego z powodu pewnych problemów z twardością w informatyce, ale to, czego możesz się nauczyć, a czego nie, zależy od tego, jak skonfigurujesz model” — mówi Jegelka.

Podchodzi do tego pytania, łącząc swoją pasję do algorytmów i matematyki dyskretnej z fascynacją uczeniem maszynowym.

Od motyli do bioinformatyki

Jegelka dorastała w małym miasteczku w Niemczech i zainteresowała się naukami ścisłymi już w szkole średniej; wspierający nauczyciel zachęcił ją do udziału w międzynarodowym konkursie naukowym. Ona i jej koledzy z zespołu z USA i Singapuru zdobyli nagrodę za stworzoną przez siebie stronę internetową o motylach w trzech językach.

„Na potrzeby naszego projektu zrobiliśmy zdjęcia skrzydeł za pomocą skaningowego mikroskopu elektronowego na lokalnym uniwersytecie nauk stosowanych. Miałem też okazję skorzystać z szybkiej kamery w firmie Mercedes Benz — ta kamera zazwyczaj filmowała silniki spalinowe — której użyłem do zarejestrowania ruchu skrzydeł motyla w zwolnionym tempie. Wtedy po raz pierwszy naprawdę zetknęłam się z nauką i eksploracją” – wspomina.

Zaintrygowany zarówno biologią, jak i matematyką, Jegelka zdecydował się studiować bioinformatykę na Uniwersytecie w Tybindze i Uniwersytecie Teksasu w Austin. Miała kilka możliwości prowadzenia badań jako studentka, w tym staż w neuronauce obliczeniowej na Uniwersytecie Georgetown, ale nie była pewna, jaką karierę wybrać.

Po powrocie na ostatni rok studiów Jegelka zamieszkała z dwoma współlokatorami, którzy pracowali jako asystenci naukowi w Instytucie Maxa Plancka w Tybindze.

„Pracowali nad uczeniem maszynowym, co dla mnie brzmiało naprawdę fajnie. Musiałem napisać pracę licencjacką, więc zapytałem w instytucie, czy mają dla mnie projekt. Zacząłem pracować nad uczeniem maszynowym w Instytucie Maxa Plancka i pokochałem to. Wiele się tam nauczyłam i było to świetne miejsce do badań” – mówi.

Została w Instytucie Maxa Plancka, aby ukończyć pracę magisterską, a następnie rozpoczęła doktorat z uczenia maszynowego w Instytucie Maxa Plancka i Szwajcarskim Federalnym Instytucie Technologii.

Podczas swojego doktoratu badała, w jaki sposób koncepcje z matematyki dyskretnej mogą pomóc w ulepszeniu technik uczenia maszynowego.

Nauczanie modeli uczenia się

Im więcej Jegelka dowiadywała się o uczeniu maszynowym, tym bardziej intrygowały ją wyzwania związane ze zrozumieniem, jak zachowują się modele i jak sterować tym zachowaniem.

„Dzięki uczeniu maszynowemu możesz zrobić tak wiele, ale tylko wtedy, gdy masz odpowiedni model i dane. To nie jest tylko czarna skrzynka, w której rzucasz ją na dane i działa. Właściwie musisz o tym pomyśleć, o jego właściwościach io tym, czego model ma się uczyć i robić” – mówi.

Po ukończeniu stażu podoktorskiego na Uniwersytecie Kalifornijskim w Berkeley Jegelka zainteresował się badaniami i zdecydował się na karierę naukową. Dołączyła do wydziału MIT w 2015 roku jako adiunkt.

„To, co naprawdę podobało mi się w MIT, od samego początku, to to, że ludziom naprawdę zależy na badaniach i kreatywności. To właśnie najbardziej cenię w MIT. Ludzie tutaj naprawdę cenią sobie oryginalność i głębię badań” – mówi.

Skupienie się na kreatywności umożliwiło Jegelce zbadanie szerokiego zakresu tematów.

We współpracy z innymi wydziałami MIT bada zastosowania uczenia maszynowego w biologii, obrazowaniu, wizji komputerowej i materiałoznawstwie.

Ale tym, co naprawdę napędza Jegelkę, jest badanie podstaw uczenia maszynowego, a ostatnio kwestia solidności. Często model działa dobrze na danych szkoleniowych, ale jego wydajność spada, gdy jest wdrażany na nieco innych danych. Wbudowanie wcześniejszej wiedzy w model może uczynić go bardziej niezawodnym, ale zrozumienie, jakich informacji potrzebuje model, aby odnieść sukces i jak go zbudować, nie jest takie proste, mówi.

Bada również metody poprawy wydajności modeli uczenia maszynowego do klasyfikacji obrazów.

Modele klasyfikacji obrazów są wszędzie, od systemów rozpoznawania twarzy w telefonach komórkowych po narzędzia identyfikujące fałszywe konta w mediach społecznościowych. Modele te wymagają ogromnych ilości danych do szkolenia, ale ponieważ ręczne oznaczanie milionów obrazów jest kosztowne dla ludzi, badacze często używają nieoznakowanych zestawów danych do wstępnego uczenia modeli.

Następnie modele te ponownie wykorzystują reprezentacje, których się nauczyły, gdy są później dostrajane do określonego zadania.

Idealnie byłoby, gdyby badacze chcieli, aby model nauczył się jak najwięcej podczas szkolenia wstępnego, aby mógł zastosować tę wiedzę do swoich dalszych zadań. Ale w praktyce modele te często uczą się tylko kilku prostych korelacji — na przykład jeden obraz ma światło słoneczne, a drugi cień — i wykorzystują te „skróty” do klasyfikowania obrazów.

„Wykazaliśmy, że jest to problem w „uczeniu się kontrastywnym”, które jest standardową techniką szkolenia wstępnego, zarówno teoretycznie, jak i empirycznie. Ale pokazujemy również, że możesz wpływać na rodzaje informacji, których model nauczy się reprezentować, modyfikując typy danych, które pokazujesz modelowi. Jest to jeden krok w kierunku zrozumienia, co modele faktycznie będą robić w praktyce” – mówi.

Naukowcy wciąż nie rozumieją wszystkiego, co dzieje się w modelu głębokiego uczenia się, ani szczegółów dotyczących tego, w jaki sposób mogą wpływać na to, czego model się uczy i jak się zachowuje, ale Jegelka nie może się doczekać dalszego badania tych tematów.

„Często w uczeniu maszynowym widzimy, jak coś dzieje się w praktyce i staramy się to zrozumieć teoretycznie. To ogromne wyzwanie. Chcesz zbudować zrozumienie, które pasuje do tego, co widzisz w praktyce, abyś mógł działać lepiej. Wciąż jesteśmy na początku zrozumienia tego” – mówi.

Poza laboratorium Jegelka jest miłośniczką muzyki, sztuki, podróży i jazdy na rowerze. Ale obecnie lubi spędzać większość wolnego czasu ze swoją córką w wieku przedszkolnym.

<!–
->

Znak czasu:

Więcej z Konsultanci Blockchain