Cómo construir un GPT-3 para la ciencia PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Cómo construir un GPT-3 para ciencia

Quiere crear una imagen de velocirraptores trabajando en un rascacielos, al estilo de “Lunch Atop A Skyscraper” de 1932? Utilice DALL-E. Quiere crear un imaginario espectáculo de comedia stand-up de Peter Thiel, Elon Musk y Larry Page? Utilice GPT-3. ¿Quiere comprender en profundidad la investigación sobre la COVID-19 y responder a sus preguntas basándose en pruebas? Aprenda a realizar una búsqueda booleana, leer artículos científicos y tal vez obtener un doctorado, porque no hay modelos generativos de IA capacitados en la gran cantidad de publicaciones de investigación científica. Si las hubiera, obtener respuestas en lenguaje sencillo y respaldadas por evidencia a las preguntas científicas sería uno de los beneficios más simples. La IA generativa para la ciencia podría ayudar a revertir el desaceleración de la innovación en la ciencia by haciendolo más fácil y más barato para encontrar nuevas ideas. Dichos modelos también podrían proporcionar advertencias respaldadas por datos de hipótesis terapéuticas que seguramente fallarán, contrarrestando el sesgo humano y evitando miles de millones de dólares, callejones sin salida de décadas. Finalmente, tales modelos podrían combatir la crisis de la reproducibilidad mapeando, sopesando y contextualizando los resultados de la investigación, proporcionando una puntuación de confiabilidad.

Entonces, ¿por qué no tenemos un DALL-E o GPT-3 para la ciencia? La razón es que aunque la investigación científica es la contenido más valioso del mundo, también es el contenido menos accesible y comprensible del mundo. Explicaré lo que se necesitaría para desbloquear datos científicos a escala para hacer posible la IA generativa para la ciencia, y cómo transformaría la forma en que nos involucramos con la investigación. 

¿Qué hace que los datos de investigación científica sean desafiantes?

Las publicaciones de investigación son algunos de los repositorios de contenido e información más importantes del mundo jamás creados. Unen ideas y hallazgos a lo largo del tiempo y las disciplinas, y una red de bibliotecas los conserva para siempre. Están respaldados por evidencia, análisis, perspicacia experta y relaciones estadísticas. Son extremadamente valiosos, pero en gran parte están ocultos de la web y se usan de manera muy ineficiente. La web está llena de videos de gatos lindos y tiernos, pero carece en gran medida de investigaciones de vanguardia sobre el cáncer. Como ejemplo, el Web of Science es uno de los índices más completos del conocimiento científico. Ha existido durante décadas, pero probablemente sea algo de lo que la mayoría de los lectores nunca hayan oído hablar, y mucho menos con lo que hayan interactuado. La mayoría de nosotros no tenemos acceso a trabajos de investigación, e incluso cuando lo tenemos, son densos, difíciles de entender y están empaquetados como PDF, un formato diseñado para imprimir, no para la web.

Debido a que los artículos científicos no son fácilmente accesibles, no podemos usar fácilmente los datos para entrenar modelos generativos como GPT-3 o DALL-E. ¿Puede usted ¿Imagínese si un investigador pudiera proponer un experimento y un modelo de IA pudiera decirles instantáneamente si se ha hecho antes (y mejor aún, darles el resultado)? Luego, una vez que tengan datos de un experimento novedoso, la IA podría sugerir un experimento de seguimiento basado en el resultado. Finalmente, imagine el tiempo que se podría ahorrar si el investigador pudiera cargar sus resultados y el modelo de IA pudiera escribir el manuscrito resultante para a ellos. Lo más cerca que hemos estado nunca de un DALL-E de la ciencia es Google Scholar, pero no es una solución sostenible o escalable. IBM Watson también se propuso lograr gran parte de lo que describo aquí, pero la mayor parte del trabajo se adelantó a los avances recientes en modelos de lenguaje extenso y no utilizó datos apropiados o suficientes para igualar la exageración del marketing.

Para el tipo de desbloqueo de valor que estoy describiendo, necesitamos inversión, compromiso y visión a largo plazo. Como se propuso recientemente in Futuro, necesitamos tratar las publicaciones científicas como sustratos para ser combinados y analizados a escala. Una vez que eliminemos las barreras, podremos usar la ciencia para alimentar modelos de IA generativos hambrientos de datos. Estos modelos tienen un potencial inmenso para acelerar la ciencia y aumentar la alfabetización científica, por ejemplo, capacitándolos para generar nuevas ideas científicas, ayudando a los científicos a administrar y navegar la vasta literatura científica, ayudar a identificar investigaciones defectuosas o incluso falsificadas, y sintetizar y traducir hallazgos de investigaciones complejas en habla humana corriente.

¿Cómo obtenemos un DALL-E o GPT-3 para ciencias?

Si te dedicas a la tecnología, puedes mostrarle a un amigo resultados de modelos generativos de IA como DALL-E or GPT-3 es como mostrarles magia. Estas herramientas representan la próxima generación de la web. Derivan de la síntesis de cantidades masivas de información, más allá de una simple vinculación, para crear herramientas con capacidad generativa. Entonces, ¿cómo podemos crear una experiencia mágica similar en la ciencia, donde cualquiera pueda hacer una pregunta sobre la literatura científica en un lenguaje sencillo y obtener una respuesta comprensible respaldada por evidencia? ¿Cómo podemos ayudar a los investigadores a crear, desarrollar, refinar y probar sus hipótesis? ¿Cómo podemos evitar desperdiciar miles de millones de dólares en Hipótesis fallidas en la investigación del Alzheimer. y Conexiones erróneas entre la genética y la depresión.

Las soluciones a estas preguntas pueden parecer ciencia ficción, pero hay pruebas de que podemos hacer cosas asombrosas e impensables cuando el trabajo científico se usa para algo más que la suma de sus partes. De hecho, utilizando casi 200,000 estructuras de proteínas existentes Banco de datos de proteínas ha dado AlphaFold la habilidad para predecir con precisión las estructuras de las proteínas, algo que se acaba de hacer para cada proteína jamás documentada (¡más de 200 millones!). Aprovechar los trabajos de investigación de una manera similar a las estructuras de proteínas sería un próximo paso natural. 

Descomponer papeles en sus componentes mínimos

Los trabajos de investigación están llenos de información valiosa, incluidas figuras, gráficos, relaciones estadísticas y referencias a otros trabajos. Dividirlos en varios componentes y usarlos a escala podría ayudarnos a entrenar máquinas para diferentes tipos de trabajos, indicaciones o consultas relacionadas con la ciencia. Las preguntas simples pueden responderse con capacitación en un tipo de componente, pero las preguntas o indicaciones más complejas requerirían la incorporación de múltiples tipos de componentes y una comprensión de su relación entre sí.  

Algunos ejemplos de indicadores potenciales complejos son:

“Dime por qué esta hipótesis es incorrecta”
“Dime por qué mi idea de tratamiento no funcionará”
“Generar una nueva idea de tratamiento”
“¿Qué evidencia hay para apoyar la política social X?”
“¿Quién ha publicado la investigación más confiable en este campo?”
“Escríbeme un artículo científico basado en mis datos”

Algunos grupos están avanzando en esta visión. Por ejemplo, Obtener aplica GPT-3 a millones de títulos y resúmenes de artículos para ayudar a responder las preguntas de los investigadores, algo así como Alexa, pero para la ciencia. System extrae relaciones estadísticas entre entidades que muestran cómo se vinculan diferentes conceptos y entidades. Primero no se enfoca en trabajos de investigación per se, pero funciona con arXiv y proporciona un panel de información utilizado por corporaciones y gobiernos para sintetizar y comprender grandes cantidades de datos de muchas fuentes. 

Accede a todos los componentes

Desafortunadamente, estos grupos se basan principalmente en títulos y resúmenes únicamente, no en los textos completos, ya que aproximadamente cinco de cada seis artículos no son de acceso libre o fácil. Para los grupos como Web of Science y Google que tienen los datos o los documentos, sus licencias y ámbito de uso son limitado o indefinido. En el caso de Google, no está claro por qué no ha habido esfuerzos anunciados públicamente para entrenar modelos de IA en la investigación científica de texto completo en Google Scholar. Sorprendentemente, esto ni siquiera cambió en medio de la pandemia de COVID-19, que paralizó el mundo. El equipo de IA de Google dio un paso al frente, creando un prototipo de una forma para que el público pregunte acerca de COVID-19. Pero, y aquí está el truco, lo hicieron utilizando solo documentos de acceso abierto de PubMed, no de Google Scholar. 

El tema de obtener acceso a los documentos y usarlos para algo más que leerlos uno por uno es algo que los grupos han defendido durante décadas. Personalmente he trabajado en él durante casi una década, lanzando una plataforma de publicación de acceso abierto llamada el aventador durante el último año de mi doctorado, y luego trabajando para construir el artículo del futuro en otra startup llamada Authorea. Si bien ninguna de esas iniciativas resultó completamente como yo quería, me llevaron a mi trabajo actual en citar, que ha resuelto, al menos parcialmente, el problema del acceso trabajando directamente con los editores. 

Conectar los componentes y definir las relaciones.

Nuestro objetivo en citar es presentar el próxima generación de citas - llamadas Smart Citations - que muestran cómo y por qué cualquier artículo, investigador, revista o tema ha sido citado y discutido de manera más general en la literatura. Al trabajar con los editores, extraemos las oraciones directamente de los artículos de texto completo donde usan sus referencias en el texto. Estas oraciones ofrecen una visión cualitativa de cómo los artículos fueron citados por trabajos más nuevos. Es un poco como Rotten Tomatoes para la investigación.

Esto requiere acceso a artículos de texto completo y cooperación con los editores, de modo que podamos utilizar el aprendizaje automático para extraer y analizar declaraciones de citas a escala. Debido a que había suficientes artículos de acceso abierto para comenzar, pudimos desarrollar la prueba de concepto y, uno por uno, demostramos a los editores la mayor capacidad de descubrimiento de los artículos indexados en nuestro sistema y les proporcionamos un sistema para mostrar mejores métricas para una evaluación de la investigación más responsable. Lo que vimos como declaraciones de expertos, ellos lo vieron como anticipos de sus artículos. Los editores ahora se han registrado en masa y hemos indexado más de 1.1 millones de citas inteligentes de más de la mitad de todos los artículos publicados.

Utilice datos relacionales para entrenar modelos de IA

Los componentes y las relaciones extraídas de los artículos podrían usarse para entrenar nuevos modelos de lenguaje grande para la investigación. GPT-3, aunque es muy poderoso, no fue construido para trabajar en ciencia y responde mal a las preguntas que puede ver en el SAT. Cuando GPT-2 (una versión anterior de GPT-3) fue adaptado entrenándolo en millones de trabajos de investigación, funcionó mejor que GPT-2 solo en tareas de conocimiento específicas. Esto destaca que los datos utilizados para entrenar los modelos son extremadamente importantes. 

 Algunos grupos recientemente usó GPT-3 para escribir trabajos académicos, y si bien esto es impresionante, los hechos o argumentos que podrían pretender mostrar podrían estar muy equivocados. Si el modelo no puede responder correctamente las preguntas simples del estilo SAT, ¿podemos confiar en él para escribir un artículo completo? SCIgen, que es anterior a GPT-3 en casi 20 años, demostró que generar documentos que parecen reales es relativamente fácil. Su sistema, aunque mucho más simple, generaba documentos que eran aceptado en varias conferencias. Necesitamos un modelo que no solo parezca científico sino que sea científico, y que requiera un sistema para verificar afirmaciones para máquinas y humanos. Meta introdujo recientemente un sistema para verificar citas de Wikipedia, algo que algunos editores tienen vocalmente desearían tener publicaciones académicas.

Progreso actual

Una vez más, un obstáculo clave para llevar a cabo este sistema es la falta de acceso a los documentos y recursos para crearlo. Cuando los documentos o la información están disponibles para su uso a gran escala, vemos florecen herramientas y nuevos modelos. El equipo de patentes de Google utilizó 100 millones de patentes para entrenar un sistema de ayuda con el análisis de patentes, efectivamente un GooglePatentBERT. Otros han introducido modelos como BioBERT y cienciaberto, y a pesar del hecho de que solo han sido capacitados en aproximadamente ~ 1% de los textos científicos en dominios temáticos específicos, son impresionantes en las tareas académicas, incluido nuestro sistema de clasificación de citas en scite. 

Más recientemente, un AcadémicoBERT Se ha lanzado el modelo, que efectivamente utiliza toda la literatura científica para entrenar BERT. Superan el problema del acceso, pero son notablemente discretos sobre cómo, simplemente enfatizan su uso para ser "no consuntivo". Este caso de uso podría abrir las puertas a otros usan artículos sin el permiso expreso de los editores y podría ser un paso importante en la creación de un DALL-E de la ciencia. Sorprendentemente, sin embargo, a ScholarBERT le fue peor en varias tareas de conocimiento especializado que a modelos de lenguaje científico más pequeños como SciBERT. 

Es importante destacar que los modelos de estilo BERT tienen una escala mucho más pequeña que los modelos de lenguaje grande como GPT-3, y no permiten el mismo tipo de indicaciones genéricas y aprendizaje en contexto que ha impulsado gran parte del bombo GPT-3. La pregunta sigue siendo: ¿qué pasaría si aplicáramos los mismos datos de ScholarBERT para entrenar un modelo generativo ampliado como GPT-3? ¿Qué pasaría si de alguna manera pudiéramos mostrar de dónde se obtuvieron las respuestas de la máquina, tal vez vinculándolas directamente a la literatura (como Smart Citations)?

¿Por qué ahora?

Afortunadamente, los periódicos son cada vez más abiertos y las máquinas cada vez más potentes. Ahora podemos comenzar a usar los datos contenidos en los documentos y repositorios conectados para entrenar máquinas para responder preguntas y sintetizar nuevas ideas basadas en la investigación. Esto podría ser transformador para la atención médica, las políticas, la tecnología y todo lo que nos rodea. Imagínese, si no buscáramos solo títulos de documentos sino específicamente respuestas, cómo afectaría eso a la investigación y los flujos de trabajo en todas las disciplinas. 

 Liberar el conocimiento científico mundial de las barreras gemelas de la accesibilidad y la comprensibilidad ayudará a impulsar la transición de una web centrada en los clics, las vistas, los me gusta y la atención a una web centrada en la evidencia, los datos y la veracidad. Pharma está claramente incentivada para llevar esto a cabo, de ahí el creciente número de nuevas empresas que identifican posibles objetivos farmacológicos utilizando IA, pero creo que el público, los gobiernos y cualquier persona que use Google podría estar dispuesto a renunciar a las búsquedas gratuitas en un esfuerzo por la confianza y el tiempo. ahorro. El mundo necesita desesperadamente un sistema así, y lo necesita rápido. 


 

 

Publicado el 18 de agosto de 2022

Tecnología, innovación y el futuro, contado por quienes lo construyen.

Gracias por registrarte.

Revise su bandeja de entrada para obtener una nota de bienvenida.

Sello de tiempo:

Mas de Andreessen Horowitz