Підсумок про обіцянки та підводні камені – частина перша » Блог CCC

Підсумок про обіцянки та підводні камені – частина перша » Блог CCC

CCC підтримав три наукові сесії на щорічній конференції AAAS цього року, і якщо ви не змогли бути присутніми особисто, ми підведемо підсумки кожної сесії. Цього тижня ми підведемо підсумки сесії,Генеративний ШІ в науці: обіцянки та підводні камені.” У першій частині ми підсумуємо вступ і презентацію д-ра Ребекки Уіллетт.

У п’ятницю, 2024 лютого, у другий день конференції, відбулася перша група AAAS щорічної зустрічі 16 року. Панель, модерована власним CCC Доктор Матвій Турок, президент Технологічного інституту Тойота в Чикаго, складався з експертів, які застосовують штучний інтелект у різноманітних галузях науки. Доктор Ребекка Віллетт, професор статистики та інформатики в Чиказькому університеті, зосередила свою презентацію на тому, як генеративні моделі можна використовувати в науці та чому стандартних моделей недостатньо для застосування в наукових дослідженнях. Доктор Маркус Бюлер, професор інженерії Массачусетського технологічного інституту, розповів про генеративні моделі у застосуванні до матеріалознавства та Доктор Дункан Вотсон-Перріс, доцент Інституту океанографії Скріппса та Інституту науки про дані Халіджіоглу в Каліфорнійському університеті в Сан-Дієго, обговорили, як генеративні моделі можна використовувати у вивченні кліматичних наук.

Доктор Турк, експерт з комп’ютерного зору та взаємодії людини з комп’ютером, розпочав панель, виділивши Generative AI від усіх AI. «В основі генеративних додатків штучного інтелекту лежать генеративні моделі, що складаються з глибоких нейронних мереж, які вивчають структуру своїх об’ємних навчальних даних, а потім генерують нові дані на основі того, що вони навчилися».

Доктор Турк також окреслив загальне занепокоєння щодо генеративних систем як через збої самих систем, наприклад тих, які цитують неіснуючі юридичні матеріали, так і через їх використання зловмисниками для створення підробленого вмісту, наприклад підробленого аудіо або відео політиків або знаменитостей.

«Зокрема, — сказав д-р Турк, — ця сесія буде зосереджена на використанні генеративного штучного інтелекту в науці, як трансформаційної сили в розвитку науки, а також як потенційного ризику зриву».

Доктор Ребекка Віллетт розпочала свою презентацію з опису того, як генеративний ШІ можна використовувати для підтримки процесу наукових відкриттів. Спочатку вона зосередилася на тому, як працюють генеративні моделі. Наведене нижче зображення зі слайдів доктора Віллетта показує, як мовна модель, наприклад ChatGPT, оцінює ймовірність появи слова, враховуючи попередній набір слів, і як модель створення зображення, наприклад DALL-E 2, створює зображення із заданої підказки, використовуючи розподіли ймовірностей, отримані з мільярдів зображень під час навчання.

Підсумок про обіцянки та підводні камені – частина перша » Блог CCC PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

«Використовуючи цей принцип розподілу ймовірностей, який лежить в основі всіх генеративних моделей, ці моделі можна застосувати до місячних ідей у ​​науці, таких як генерація можливих кліматичних сценаріїв, враховуючи поточний клімат і потенційну політику, або генерація нових мікробіомів із цільовою функціональністю, як-от який особливо ефективний у розщепленні пластику», – каже доктор Віллетт.

Однак для наукових досліджень недостатньо використовувати готові генеративні інструменти, такі як ChatGPT або DALL-E 2. Ці інструменти були створені в умовах, які дуже відрізняються від контексту, в якому працюють вчені. Однією з очевидних відмінностей між готовою генеративною моделлю та науковою моделлю є дані. У науці часто існує дуже мало даних, на яких можна будувати гіпотези. Наукові дані зазвичай отримують із моделювання та експериментів, обидва з яких часто є дорогими та трудомісткими. Через ці обмеження вченим доводиться ретельно вибирати, які експерименти проводити та як максимізувати ефективність і корисність цих систем. Стандартні моделі, навпаки, надають набагато менше значення тому, звідки надходять дані, а віддають перевагу максимізації обсягу даних, з якими вони можуть працювати. У науці точність наборів даних і їх походження є надзвичайно важливими, оскільки науковцям необхідно обґрунтовувати свої дослідження надійними емпіричними доказами.

«Крім того, у науці наші цілі відрізняються від простого створення правдоподібних речей», — каже доктор Уіллетт. «Ми повинні зрозуміти, як все працює поза межами того, що ми спостерігали досі». Цей підхід суперечить генеративним моделям штучного інтелекту, які сприймають дані як репрезентативні для повного діапазону ймовірних спостережень. Включення фізичних моделей і обмежень у генеративний ШІ допомагає гарантувати, що він краще представлятиме фізичні явища.

Наукові моделі також повинні бути здатні фіксувати рідкісні події. «Ми можемо сміливо ігнорувати багато рідкісних подій, коли навчаємо ChatGPT, але, навпаки, рідкісні події — це те, що нас найбільше хвилює в контексті науки, наприклад, у моделі клімату, яка передбачає рідкісні погодні явища. Якщо ми використовуємо генеративну модель, яка уникає рідкісних подій і, наприклад, ніколи не передбачає ураган, то ця модель не буде дуже корисною на практиці».

Пов’язаною проблемою є розробка генеративних моделей ШІ для хаотичних процесів, чутливих до початкових умов. Доктор Віллетт показав відео нижче, на якому показано дві частинки, що рухаються в просторі відповідно до рівнянь Лоренца 63. Ці рівняння є детермінованими, а не випадковими, але враховуючи два дещо різні початкові місця, ви можете бачити, що в будь-який момент часу дві частинки можуть бути в дуже різних місцях. Розробити генеративні моделі штучного інтелекту, які передбачають точний хід таких процесів, які виникають у науці про клімат, турбулентності та мережевій динаміці, принципово важко, але нові підходи до генеративного моделювання можуть гарантувати, що генеровані процеси мають спільні ключові статистичні характеристики з реальними науковими даними.

[Вбудоване вміст]

Нарешті, д-р Віллет звернувся до того факту, що наукові дані часто охоплюють величезний діапазон просторових і часових масштабів. Наприклад, у матеріалознавстві дослідники вивчають матеріали в нанометровому масштабі для монімерів аж до великомасштабної системи, такої як цілий літак. «Цей діапазон масштабів дуже відрізняється від даних, які використовуються в готових моделях, і нам потрібно розглянути, як ми будуємо ці генеративні моделі таким чином, щоб точно впливати на ці взаємодії між масштабами».

«Генеративні моделі — це майбутнє науки», — каже д-р Віллетт, — «але щоб гарантувати їх ефективне використання, нам потрібно зробити фундаментальний прогрес у ШІ та вийти за рамки підключення даних до ChatGPT».

Щиро дякую за прочитання. Будь ласка, завітайте завтра, щоб прочитати підсумок презентації доктора Маркуса Бюлера про генеративний ШІ в механобіології.

Часова мітка:

Більше від CCC Блог