Розпакування «чорної скриньки» для створення кращих моделей ШІ

Розпакування «чорної скриньки» для створення кращих моделей ШІ

Розпакування «чорної скриньки» для створення кращих моделей ШІ PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Коли моделі глибокого навчання розгортаються в реальному світі, можливо, для виявлення фінансового шахрайства з використанням кредитних карток або виявлення раку на медичних зображеннях, вони часто можуть перевершити людей.

Але чого саме навчаються ці моделі глибокого навчання? Чи модель, навчена виявляти рак шкіри на клінічних зображеннях, наприклад, насправді вивчає кольори та текстуру ракової тканини, чи вона позначає деякі інші особливості чи візерунки?

Ці потужні моделі машинного навчання зазвичай базуються на штучні нейронні мережі який може мати мільйони вузлів, які обробляють дані для прогнозування. Через їх складність дослідники часто називають ці моделі «чорними скриньками», оскільки навіть вчені, які їх створюють, не розуміють усього, що відбувається під капотом.

Штефані Єгелка не задоволена цим поясненням «чорної скриньки». Нещодавно призначений доцент кафедри електротехніки та комп’ютерних наук Массачусетського технологічного інституту, Єгелка глибоко занурюється в глибоке навчання, щоб зрозуміти, чому ці моделі можуть навчитися і як вони поводяться, а також як вбудувати певну попередню інформацію в ці моделі.

«Зрештою, те, що навчиться модель глибокого навчання, залежить від багатьох факторів. Але формування розуміння, яке буде відповідним на практиці, допоможе нам розробити кращі моделі, а також допоможе нам зрозуміти, що відбувається всередині них, щоб ми знали, коли ми можемо розгорнути модель, а коли ми не можемо. Це критично важливо», — говорить Єгелка, який також є членом Лабораторії комп’ютерних наук і штучного інтелекту (CSAIL) та Інституту даних, систем і суспільства (IDSS).

Jegelka особливо зацікавлений в оптимізації моделей машинного навчання, коли вхідні дані мають форму графіків. Дані графа створюють певні проблеми: наприклад, інформація в даних складається як з інформації про окремі вузли та ребра, так і про структуру — що з чим пов’язано. Крім того, графіки мають математичну симетрію, яку має дотримуватися модель машинного навчання, щоб, наприклад, той самий графік завжди приводив до однакового прогнозу. Вбудувати такі симетрії в модель машинного навчання зазвичай нелегко.

Візьмемо, наприклад, молекули. Молекули можна представити у вигляді графів з вершинами, які відповідають атомам, і ребрами, які відповідають хімічним зв’язкам між ними. Фармацевтичні компанії можуть захотіти використовувати глибоке навчання для швидкого прогнозування властивостей багатьох молекул, звужуючи кількість, яку вони повинні фізично перевірити в лабораторії.

Єгелка вивчає методи побудови математичних моделей машинного навчання, які можуть ефективно приймати дані графіків як вхідні дані та виводити щось інше, у цьому випадку передбачення хімічних властивостей молекули. Це особливо складно, оскільки властивості молекули визначаються не лише атомами всередині неї, а й зв’язками між ними.  

Інші приклади машинного навчання на графах включають маршрутизацію трафіку, дизайн мікросхем і системи рекомендацій.

Розробка цих моделей ускладнюється ще й тим фактом, що дані, які використовуються для їх навчання, часто відрізняються від даних, які моделі бачать на практиці. Можливо, модель була навчена за допомогою малих молекулярних графів або мереж трафіку, але графіки, які вона бачить після розгортання, більші або складніші.

У цьому випадку, чого дослідники можуть очікувати, щоб ця модель навчилася, і чи буде вона працювати на практиці, якщо реальні дані відрізняються?

«Ваша модель не зможе навчитися всього через певні проблеми жорсткості в інформатиці, але те, що ви можете навчитися, а що ні, залежить від того, як ви налаштували модель», — каже Єгелка.

Вона підходить до цього питання, поєднуючи свою пристрасть до алгоритмів і дискретної математики з захопленням машинним навчанням.

Від метеликів до біоінформатики

Єгелька виросла в маленькому містечку в Німеччині та зацікавилася наукою, коли була ученицею старших класів; підтримуючий вчитель заохотив її взяти участь у міжнародному науковому конкурсі. Вона та її товариші по команді зі США та Сінгапуру отримали нагороду за веб-сайт, який вони створили про метеликів трьома мовами.

«Для нашого проекту ми зробили зображення крил за допомогою скануючого електронного мікроскопа в місцевому університеті прикладних наук. Я також отримав можливість використовувати високошвидкісну камеру Mercedes Benz — ця камера зазвичай знімала двигуни внутрішнього згоряння — яку я використовував для зйомки уповільненого відео руху крил метелика. Тоді я вперше по-справжньому доторкнулася до науки та досліджень», — згадує вона.

Захопившись як біологією, так і математикою, Єгелка вирішив вивчати біоінформатику в Тюбінгенському університеті та Техаському університеті в Остіні. У неї було декілька можливостей проводити дослідження під час навчання, зокрема стажування з обчислювальної нейронауки в Джорджтаунському університеті, але вона не була впевнена, яку кар’єру вибрати.

Коли вона повернулася на останній курс коледжу, Єгелька переїхала до двох сусідів по кімнаті, які працювали асистентами в Інституті Макса Планка в Тюбінгені.

«Вони працювали над машинним навчанням, і це звучало дуже круто для мене. Треба було писати бакалаврську роботу, тож запитала в інституті, чи є для мене проект. Я почав працювати над машинним навчанням в Інституті Макса Планка, і мені це сподобалося. Я так багато там навчилася, і це було чудове місце для досліджень», — каже вона.

Вона залишилася в Інституті Макса Планка, щоб захистити магістерську дисертацію, а потім розпочала захист докторської дисертації з машинного навчання в Інституті Макса Планка та Швейцарському федеральному технологічному інституті..

Під час свого докторського захисту вона дослідила, як концепції дискретної математики можуть допомогти вдосконалити методи машинного навчання.

Навчання моделей вчитися

Чим більше Єгелька дізнавалася про машинне навчання, тим більше її цікавили труднощі розуміння того, як поводяться моделі та як керувати цією поведінкою.

«Ви можете багато зробити з машинним навчанням, але тільки якщо у вас є правильна модель і дані. Це не просто чорна скринька, де ви кидаєте її на дані, і вона працює. Насправді вам потрібно подумати про це, про його властивості та про те, що ви хочете, щоб модель навчилася та зробила», — каже вона.

Після закінчення докторантури в Каліфорнійському університеті в Берклі Єгелка захопився дослідженнями та вирішив продовжити кар’єру в академічній сфері. Вона приєдналася до викладачів Массачусетського технологічного інституту в 2015 році як доцент.

«З самого початку мені дуже сподобалося в Массачусетському технологічному інституті те, що люди справді глибоко піклуються про дослідження та творчість. Це те, що я найбільше ціную в MIT. Тут дуже цінують оригінальність і глибину досліджень», — каже вона.

Така зосередженість на творчості дозволила Єгельці досліджувати широкий спектр тем.

У співпраці з іншими викладачами Массачусетського технологічного інституту вона вивчає застосування машинного навчання в біології, зображенні, комп’ютерному зорі та матеріалознавстві.

Але те, що насправді рухає Jegelka, — це дослідження основ машинного навчання, а останнім часом — питання надійності. Часто модель добре працює на навчальних даних, але її продуктивність погіршується, коли вона розгортається на дещо інших даних. Вбудовування попередніх знань у модель може зробити її більш надійною, але зрозуміти, яка інформація потрібна моделі, щоб бути успішною, і як її вбудувати, каже вона, не так просто.

Вона також вивчає методи покращення продуктивності моделей машинного навчання для класифікації зображень.

Моделі класифікації зображень є скрізь, від систем розпізнавання облич на мобільних телефонах до інструментів, які ідентифікують підроблені облікові записи в соціальних мережах. Ці моделі потребують величезних обсягів даних для навчання, але оскільки для людей дорого позначати мільйони зображень вручну, дослідники часто використовують немічені набори даних для попереднього навчання моделей.

Ці моделі потім повторно використовують уявлення, які вони вивчали, коли пізніше їх точно налаштовують для конкретного завдання.

В ідеалі дослідники хочуть, щоб модель навчилася якомога більше під час попереднього навчання, щоб вона могла застосувати ці знання для подальшого завдання. Але на практиці ці моделі часто вивчають лише кілька простих кореляцій — наприклад, одне зображення має сонячне світло, а інше — тінь — і використовують ці «ярлики» для класифікації зображень.

«Ми показали, що це проблема «контрастного навчання», яке є стандартною технікою попереднього навчання, як теоретично, так і емпірично. Але ми також показуємо, що ви можете впливати на типи інформації, яку навчиться представляти модель, змінюючи типи даних, які ви показуєте моделі. Це один крок до розуміння того, що моделі насправді збираються робити на практиці», — каже вона.

Дослідники досі не розуміють усього, що відбувається всередині моделі глибокого навчання, або деталей про те, як вони можуть впливати на те, що модель вивчає та як вона поводиться, але Jegelka з нетерпінням чекає продовження вивчення цих тем.

«Часто в машинному навчанні ми бачимо, як щось відбувається на практиці, і намагаємося зрозуміти це теоретично. Це величезний виклик. Ви хочете побудувати розуміння, яке відповідає тому, що ви бачите на практиці, щоб ви могли працювати краще. Ми ще лише на початку розуміння цього», – каже вона.

За межами лабораторії Єгелька є шанувальником музики, мистецтва, подорожей і їзди на велосипеді. Але зараз більшість вільного часу вона любить проводити з дочкою-дошкільницею.

<!–
->

Часова мітка:

Більше від Консультанти з блокчейнів