Как построить GPT-3 для науки

Переиздано Платоном

Читают: 0

Хотите создать образ велоцирапторы, работающие на небоскребе, в стиле «Обед на вершине небоскреба» 1932 года.? Используйте ДАЛЛ-И. Хотите создать воображаемое Стендап-шоу Питера Тиля, Илона Маска и Ларри Пейджа? Используйте GPT-3. Хотите глубоко понять исследования COVID-19 и ответить на ваши вопросы на основе фактических данных? Научитесь выполнять логический поиск, читайте научные статьи и, возможно, получите докторскую степень, потому что не существует генеративных моделей ИИ, обученных на огромном количестве научных публикаций. Если бы это было так, то получение подкрепленных фактами простых ответов на научные вопросы было бы одним из самых простых преимуществ. Генеративный ИИ для науки может помочь обратить вспять замедление инноваций в науке by делая это легче и более дешевый найти новые идеи. Такие модели могли бы также предоставлять подкрепленные данными предупреждения о терапевтических гипотезах, которые наверняка потерпят неудачу, уравновешивая человеческие предубеждения и избегая затрат на миллиарды долларов. многолетние тупики. Наконец, такие модели могли бороться кризис воспроизводимости путем сопоставления, взвешивания и контекстуализации результатов исследований, обеспечивая оценку надежности.

Так почему же у нас нет DALL-E или GPT-3 для науки? Причина в том, что, хотя научные исследования самый ценный контент в мире, это также наименее доступный и понятный контент в мире. Я объясню, что потребуется, чтобы разблокировать научные данные в масштабе, чтобы сделать возможным генеративный ИИ для науки, и как это изменит то, как мы занимаемся исследованиями.

Что делает данные научных исследований сложными

Исследовательские публикации являются одними из самых важных в мире хранилищ контента и информации, когда-либо созданных. Они связывают воедино идеи и открытия во времени и в разных дисциплинах и навсегда сохраняются сетью библиотек. Они поддерживаются доказательствами, анализом, экспертным мнением и статистическими взаимосвязями. Они чрезвычайно ценны, но в значительной степени скрыты от Интернета и используются очень неэффективно. Интернет изобилует милыми видео с котиками, но практически не содержит передовых исследований в области рака. Например, Веб-науки является одним из наиболее полных указателей научных знаний. Он существует уже несколько десятилетий, но, вероятно, большинство читателей никогда даже не слышали о нем, не говоря уже о том, чтобы с ним сталкивались. У большинства из нас нет доступа к исследовательским работам, и даже если они у нас есть, они объемны, трудны для понимания и упакованы в формат PDF — формат, предназначенный для печати, а не для Интернета.

Поскольку научные статьи труднодоступны, мы не можем легко использовать данные для обучения генеративных моделей, таких как GPT-3 или DALL-E. Можете ли вы представьте, если бы исследователь мог предложить эксперимент, а модель ИИ могла бы мгновенно сказать ему, проводилось ли это раньше (и, что еще лучше, дать им результат)? Затем, когда у них появятся данные из нового эксперимента, ИИ может предложить последующий эксперимент на основе результата. Наконец, представьте, сколько времени можно было бы сэкономить, если бы исследователь мог загрузить свои результаты, а модель ИИ могла бы написать получившуюся рукопись для их. Ближе всего к научному DALL-E мы когда-либо подходили в Google Scholar, но это не устойчивое и не масштабируемое решение. IBM Watson также стремилась добиться многого из того, что я здесь описываю, но большая часть работы была выполнена раньше последних достижений в больших языковых моделях и не использовала подходящие или достаточные данные, чтобы соответствовать маркетинговой шумихе.

Для раскрытия ценности, которую я описываю, нам нужны долгосрочные инвестиции, приверженность и видение. Как предложено недавно in Будущее, мы должны относиться к научным публикациям как к субстратам, которые нужно комбинировать и анализировать в масштабе. Как только мы устраним барьеры, мы сможем использовать науку для подпитки генеративных моделей искусственного интеллекта, нуждающихся в данных. Эти модели обладают огромным потенциалом для ускорения развития науки и повышения научной грамотности, например, путем обучения их генерированию новых научных идей, помощи ученым в управлении обширной научной литературой и навигации по ней, помощи в выявлении ошибочных или даже фальсифицированных исследований, а также в обобщении и переводе сложных результатов исследований в обычная человеческая речь.

Как нам получить DALL-E или GPT-3 для науки?

Если вы разбираетесь в технологиях, покажите другу результаты генеративных моделей ИИ, например DALL-E or GPT-3 это как показать им магию. Эти инструменты представляют следующее поколение Интернета. Они возникают в результате синтеза огромных объемов информации, помимо простой связи, для создания инструментов с генеративной способностью. Так как же нам создать такой же волшебный опыт в науке, где любой может задать вопрос в научной литературе простым языком и получить понятный ответ, подкрепленный фактами? Как мы можем помочь исследователям создавать, развивать, уточнять и проверять их гипотезы? Как мы потенциально можем не тратить миллиарды долларов на ошибочные гипотезы в исследованиях болезни Альцгеймера и ошибочные связи между генетикой и депрессией?

Ответы на эти вопросы могут звучать как научная фантастика, но есть доказательства того, что мы можем делать удивительные и немыслимые вещи, когда научная работа используется не только как сумма ее частей. Действительно, используя почти 200,000 XNUMX белковых структур в Банк Белковых Данных дал AlphaFold способность для точного предсказания белковых структур, что только что было сделано для каждый белок, когда-либо задокументированный (более 200 миллионов!). Следующим естественным шагом было бы использование исследовательских работ в манере, аналогичной белковым структурам.

Разложите бумаги на их минимальные компоненты

Исследовательские работы полны ценной информации, включая рисунки, диаграммы, статистические взаимосвязи и ссылки на другие статьи. Разбивка их на различные компоненты и масштабное использование может помочь нам обучать машины различным типам связанных с наукой задач, подсказок или запросов. На простые вопросы можно ответить с помощью обучения одному типу компонентов, но более сложные вопросы или подсказки потребуют включения нескольких типов компонентов и понимания их взаимосвязи друг с другом.

Некоторые примеры сложных потенциальных подсказок:

«Скажи мне, почему эта гипотеза неверна»
«Скажите мне, почему моя идея лечения не сработает»
«Создать новую идею лечения»
«Какие существуют доказательства в поддержку социальной политики X?»
«Кто опубликовал самые достоверные исследования в этой области?»
«Напишите мне научную работу на основе моих данных»

Некоторые группы добиваются успехов в реализации этого видения. Например, Выявить применяет GPT-3 к миллионам названий статей и рефератов, чтобы помочь ответить на вопросы исследователей — вроде Alexa, но для науки. Система извлекает статистические отношения между сущностями, показывающие, как связаны разные понятия и сущности. Праймер не фокусируется на научных работах как таковых, но работает с arXiv и предоставляет информационную панель, используемую корпорациями и правительствами для синтеза и понимания больших объемов данных из многих источников.

Доступ ко всем компонентам

К сожалению, эти группы в первую очередь полагаются только на заголовки и рефераты, а не на полные тексты, поскольку примерно пять из шести статей не являются бесплатными или легкодоступными. Для таких групп, как Web of Science и Google, у которых есть данные или документы, их лицензии и объем использования ограниченный или неопределенный. В случае с Google неясно, почему не было публично объявлено об обучении моделей ИИ на основе полнотекстовых научных исследований в Google Scholar. Удивительно, но это не изменилось даже в разгар пандемии COVID-19, которая поставила мир в тупик. Команда Google AI активизировалась, создав прототип способа, с помощью которого общественность могла бы спросить о COVID-19. Но — и вот в чем фишка — они сделали это, используя только документы в открытом доступе из PubMed, а не из Google Scholar.

Проблема получения доступа к статьям и их использования не только для чтения по одной — это то, за что группы выступали десятилетиями. Я лично работал над этим почти десять лет, запустив платформу публикации с открытым доступом под названием Веялка в течение последнего года моей докторской диссертации, а затем работал над созданием статья будущего в другом стартапе под названием Authorea. Хотя ни одна из этих инициатив не оправдалась полностью так, как я хотел, они привели меня к моей текущей работе в сцит, который хотя бы частично решил проблему доступа, работая напрямую с издателями.

Соедините компоненты и определите отношения

Наша цель в сцит заключается в том, чтобы представить новое поколение цитат — так называемые «умные цитирования», — которые показывают, как и почему любая статья, исследователь, журнал или тема цитируются и в более общем плане обсуждаются в литературе. Работая с издателями, мы извлекаем предложения непосредственно из полнотекстовых статей, где они используют свои ссылки в тексте. Эти предложения дают качественное представление о том, как статьи цитировались в новых работах. Это немного похоже на Rotten Tomatoes для исследований.

Для этого требуется доступ к полнотекстовым статьям и сотрудничество с издателями, чтобы мы могли использовать машинное обучение для извлечения и анализа заявлений о цитировании в масштабе. Поскольку для начала было достаточно статей в открытом доступе, мы смогли создать доказательство концепции и одну за другой продемонстрировали издателям повышенную возможность обнаружения статей, проиндексированных в нашей системе, и предоставили им систему для показать лучшие показатели для более ответственной оценки исследований. То, что мы видели как утверждения экспертов, они воспринимали как превью своих статей. Издатели подписались на нас в массовом порядке, и мы проиндексировали более 1.1 миллиарда Smart Citation из более чем половины всех опубликованных статей.

Используйте реляционные данные для обучения моделей ИИ

Компоненты и отношения, извлеченные из статей, можно использовать для обучения новых больших языковых моделей для исследований. GPT-3, хотя и очень мощный, не был создан для работы в науке и плохо отвечает на вопросы, которые вы можете увидеть на SAT. Когда GPT-2 (более ранняя версия GPT-3) была адаптировали, обучив его на миллионах исследовательских работ, он работал лучше, чем только GPT-2, на конкретных задачах знаний. Это подчеркивает, что данные, используемые для обучения моделей, чрезвычайно важны.

Некоторые группы недавно использовал GPT-3 для написания академических статей, и хотя это впечатляет, факты или аргументы, которые они могут претендовать на демонстрацию, могут быть очень ошибочными. Если модель не может правильно ответить на простые вопросы в стиле SAT, можем ли мы доверить ей написание полной статьи? SciGen, которая почти на 3 лет предшествует GPT-20, показала, что генерировать бумаги, выглядящие реальными, относительно легко. Их система, хотя и была намного проще, генерировала документы, которые были принимается на различные конференции. Нам нужна модель, которая не просто выглядит научной, но и является научной, и для нее требуется система проверки утверждений для машин и людей. Meta недавно представила система проверки цитат в Википедии, то, что некоторые издатели произносят вслух жаль, что они не имели для научных публикаций.

Текущий прогресс

Опять же, одним из ключевых факторов, препятствующих реализации этой системы, является отсутствие доступа к документам и ресурсам для ее создания. Там, где документы или информация становятся доступными для масштабного использования, мы видим инструменты и новые модели процветают. Патентная команда Google использовала 100 миллионов патентов для обучения системы помощи в патентном анализе, фактически GooglePatentBERT. Другие представили такие модели, как БиоБЕРТ и СциБЕРТ, и несмотря на то, что они были обучены только примерно 1% научных текстов только в определенных предметных областях, они впечатляют в научных задачах, включая нашу систему классификации цитирования в scite.

Совсем недавно, УченыйBERT была выпущена модель, которая эффективно использует всю научную литературу для обучения BERT. Они преодолевают проблему доступа, но, в частности, умалчивают о том, как это сделать, просто подчеркивая, что их использование не является чахоточным. Этот вариант использования может открыть двери для другие используют статьи без явного разрешения издателей и могут стать важным шагом в создании DALL-E науки. Удивительно, однако, что ScholarBERT хуже справлялся с различными специализированными задачами, чем более мелкие модели научного языка, такие как SciBERT.

Важно отметить, что модели в стиле BERT имеют гораздо меньший масштаб, чем крупноязыковые модели, такие как GPT-3, и они не допускают таких же общих подсказок и контекстного обучения, которые вызвали большую часть ажиотажа вокруг GPT-3. Остается вопрос: что, если мы применим те же данные из ScholarBERT для обучения увеличенной генеративной модели, такой как GPT-3? Что, если бы мы могли каким-то образом показать, откуда были получены ответы от машины, возможно, напрямую связав их с литературой (например, Smart Citations)?

Почему именно сейчас?

К счастью, бумаги становятся более открытыми, а машины — более мощными. Теперь мы можем начать использовать данные, содержащиеся в документах и подключенных репозиториях, для обучения машин отвечать на вопросы и синтезировать новые идеи на основе исследований. Это может изменить здравоохранение, политику, технологии и все, что нас окружает. Представьте, если бы мы искали не только названия документов, но и конкретно ответы, как это повлияло бы на исследования и рабочие процессы во всех дисциплинах.

Освобождение мировых научных знаний от двойных барьеров доступности и понятности поможет перейти от сети, ориентированной на клики, просмотры, лайки и внимание, к сети, ориентированной на доказательства, данные и достоверность. Фармацевтика явно заинтересована в том, чтобы воплотить это в жизнь, отсюда и растущее число стартапов, определяющих потенциальные мишени для наркотиков с помощью ИИ, но я считаю, что общественность, правительства и любой, кто использует Google, могут захотеть отказаться от бесплатного поиска в стремлении к доверию и времени. сохранение. Мир отчаянно нуждается в такой системе, и срочно.

Опубликовано: 18 августа, 2022

Технологии, инновации и будущее глазами тех, кто его создает.

Спасибо за регистрацию.

Проверьте свой почтовый ящик на наличие приветственной записки.

Отметка времени: 18 августа 202218 августа 2022

Отметка времени: Август 25, 2022

Будущее обновлений Ethereum после слияния [Часть 2]

Исходный кластер:

Andreessen Horowitz

Исходный узел: 1596837

Отметка времени: Июль 27, 2022

Эдди Лаззарин

Исходный кластер:

Andreessen Horowitz

Исходный узел: 1800609

Отметка времени: 8 февраля, 2023

Большие идеи в сфере технологий на 2023 год: анализ данных a16z Omnibus PlatoBlockchain. Вертикальный поиск. Ай.

Большие идеи в области технологий на 2023 год: омнибус a16z

Исходный кластер:

Andreessen Horowitz

Исходный узел: 1774101

Отметка времени: Декабрь 15, 2022

Джо Моррисси

Исходный кластер:

Andreessen Horowitz

Исходный узел: 1576709

Отметка времени: Июнь 21, 2022

Как построить GPT-3 для науки

Переиздано Платоном

Что делает данные научных исследований сложными

Как нам получить DALL-E или GPT-3 для науки?

Разложите бумаги на их минимальные компоненты

Доступ ко всем компонентам

Соедините компоненты и определите отношения

Используйте реляционные данные для обучения моделей ИИ

Текущий прогресс

Почему именно сейчас?

Спасибо за регистрацию.

Больше от Andreessen Horowitz

Некоторые книги, которые мы читаем (и игры, в которые мы играем) этой зимой

Инвестиции в МВМНТ

Первый шаг к перепланировке в условиях экономического спада

Генеральный директор PlanetScale о Cloud-Prem и восхождении по лестнице инженерных разработок

Руководство для инсайдеров по комнатам данных: что нужно знать, прежде чем повышать ставку

Будущее обновлений Ethereum после слияния [Часть 2]

Джо Моррисси

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись