Резюме обещаний и подводных камней – Часть первая » Блог CCC

Резюме обещаний и подводных камней – Часть первая » Блог CCC

Компания CCC поддержала три научных сессии на ежегодной конференции AAAS в этом году, и если вы не смогли присутствовать лично, мы будем подводить итоги каждой сессии. На этой неделе мы подведем итоги сессии»,Генеративный ИИ в науке: обещания и подводные камни». В первой части мы подведем итоги введения и презентации доктора Ребекки Уиллетт.

Первое заседание группы AAAS CCC на ежегодном собрании 2024 года состоялось в пятницу, 16 февраля, во второй день конференции. Панель, модерируемая собственными сотрудниками CCC Доктор Мэтью Терк, президент Технологического института Toyota в Чикаго, состоял из экспертов, применяющих искусственный интеллект в различных научных областях. Доктор Ребекка Уиллетт, профессор статистики и информатики Чикагского университета, посвятила свою презентацию тому, как генеративные модели могут использоваться в науке и почему готовых моделей недостаточно для применения в научных исследованиях. Доктор Маркус Бюлер, профессор инженерных наук Массачусетского технологического института, рассказал о генеративных моделях применительно к материаловедению, и Доктор Дункан Уотсон-Пэррис, доцент Океанографического института Скриппса и Института обработки данных Халыджиоглу в Калифорнийском университете в Сан-Диего, обсудили, как можно использовать генеративные модели в изучении наук о климате.

Доктор Тёрк, эксперт в области компьютерного зрения и взаимодействия человека с компьютером, начал дискуссию с того, что выделил генеративный ИИ из всех видов ИИ. «В основе приложений генеративного ИИ лежат генеративные модели, состоящие из глубоких нейронных сетей, которые изучают структуру своих объемных обучающих данных, а затем генерируют новые данные на основе того, что они узнали».

Доктор Терк также обозначил распространенную обеспокоенность по поводу генеративных систем, как из-за сбоев самих систем, например тех, которые цитируют несуществующие юридические справки, так и из-за их использования злоумышленниками для создания фейкового контента, такого как фейковый аудио или видео политиков или знаменитостей.

«В частности, — сказал д-р Тёрк, — эта сессия будет сосредоточена на использовании генеративного искусственного интеллекта в науке, как в качестве преобразующей силы в поисках науки, так и в качестве потенциального риска разрушения».

Доктор Ребекка Уиллетт начала свою презентацию с описания того, как можно использовать генеративный искусственный интеллект для поддержки процесса научных открытий. Сначала она сосредоточилась на том, как работают генеративные модели. На изображении ниже из слайдов доктора Уиллетта показано, как языковая модель, такая как ChatGPT, оценивает вероятность появления слова с учетом предыдущего набора слов и как модель генерации изображений, такая как DALL-E 2, генерирует изображение. из заданной подсказки с использованием вероятностных распределений, полученных из миллиардов изображений во время обучения.

Резюме обещаний и подводных камней – Часть первая » Блог CCC PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

«Используя этот принцип распределения вероятностей, который лежит в основе всех генеративных моделей, эти модели можно применять к амбициозным научным идеям, таким как создание возможных климатических сценариев с учетом текущего климата и потенциальной политики или создание новых микробиомов с целевой функциональностью, таких как тот, который особенно эффективен при разрушении пластика», — говорит доктор Уиллетт.

Однако для научных исследований недостаточно использовать готовые генерирующие инструменты, такие как ChatGPT или DALL-E 2. Эти инструменты были созданы в условиях, сильно отличающихся от контекста, в котором работают ученые. Одно очевидное различие между стандартной генеративной моделью и научной моделью — это данные. В науке зачастую очень мало данных, на которых можно строить гипотезы. Научные данные обычно получаются в результате моделирования и экспериментов, которые часто являются дорогостоящими и отнимают много времени. Из-за этих ограничений ученым приходится тщательно выбирать, какие эксперименты проводить и как максимизировать эффективность и полезность этих систем. Готовые модели, напротив, придают гораздо меньшее значение источнику данных, предпочитая максимизировать объем данных, с которыми они могут работать. В науке точность наборов данных и их происхождение невероятно важны, поскольку ученым необходимо подтверждать свои исследования надежными эмпирическими данными.

«Кроме того, в науке наши цели отличаются от простого создания правдоподобных вещей», — говорит доктор Уиллетт. «Мы должны понять, как все работает за пределами того, что мы наблюдали до сих пор». Этот подход противоречит генеративным моделям ИИ, которые рассматривают данные как репрезентативные для всего диапазона вероятных наблюдений. Включение физических моделей и ограничений в генеративный ИИ помогает обеспечить лучшее представление физических явлений.

Научные модели также должны быть способны фиксировать редкие события. «Мы можем спокойно игнорировать множество редких событий, когда обучаем ChatGPT, но, напротив, редкие события часто являются тем, что нас больше всего волнует в контексте науки, например, в климатической модели, которая предсказывает редкие погодные явления. Если мы используем генеративную модель, которая избегает редких событий и, например, никогда не предсказывает ураган, то на практике эта модель будет не очень полезна».

Связанной с этим задачей является разработка генеративных моделей ИИ для хаотических процессов, чувствительных к начальным условиям. Доктор Уиллетт продемонстрировал видео ниже, на котором показаны две частицы, движущиеся в пространстве согласно уравнениям Лоренца 63. Эти уравнения являются детерминированными, а не случайными, но, учитывая два немного разных начальных местоположения, вы можете видеть, что в любой момент времени две частицы могут находиться в совершенно разных местах. Разработка генеративных моделей ИИ, которые предсказывают точный ход таких процессов, которые возникают в науке о климате, турбулентности и сетевой динамике, принципиально сложна, но новые подходы к генеративному моделированию могут гарантировать, что генерируемые процессы имеют общие ключевые статистические характеристики с реальными научными данными.

[Встраиваемое содержимое]

Наконец, доктор Уиллетт обратил внимание на тот факт, что научные данные часто охватывают огромный диапазон пространственных и временных масштабов. Например, в области материаловедения исследователи изучают материалы в нанометровом масштабе на предмет монет вплоть до крупномасштабной системы, такой как целый самолет. «Этот диапазон масштабов сильно отличается от данных, используемых в готовых моделях, и нам необходимо подумать о том, как мы создаем эти генеративные модели таким образом, чтобы они точно влияли на взаимодействие между масштабами».

«Генераторные модели — это будущее науки», — говорит доктор Уиллетт, — «но для того, чтобы гарантировать их эффективное использование, нам необходимо добиться фундаментальных успехов в области искусственного интеллекта и выйти за рамки простого подключения данных к ChatGPT».

Большое спасибо за чтение. Пожалуйста, подключайтесь завтра, чтобы прочитать краткий обзор презентации доктора Маркуса Бюлера «Генераторный искусственный интеллект в механобиологии».

Отметка времени:

Больше от Блог ССС