Resumen de libros con comentarios humanos

Reeditado por Platón

seguidores: 0

Resumen de libros con comentarios humanos

Tcon seguridad implementar inteligencia artificial potente y de propósito general en el futuro, debemos asegurarnos de que los modelos de aprendizaje automático actúen de acuerdo con las intenciones humanas. Este desafío se conoce como el problema de alineación.

Una solución escalable para el problema de alineación debe funcionar en tareas en las que los resultados del modelo son difíciles de evaluar o requieren mucho tiempo para que los humanos los evalúen. Para probar las técnicas de alineación escalables, entrenamos un modelo para resumir libros completos, como se muestra en los siguientes ejemplos.^{[ 1 ]} Nuestro modelo funciona resumiendo primero pequeñas secciones de un libro, luego resumiendo esos resúmenes en un resumen de nivel superior, y así sucesivamente.

Explore más muestras

Nuestro mejor modelo está ajustado a partir de GPT-3 y genera resúmenes sensatos de libros completos, a veces incluso igualando la calidad promedio de los resúmenes escritos por humanos: logra una calificación de 6/7 (similar al resumen promedio escrito por humanos) de humanos que han leído el libro el 5% de las veces y una calificación de 5/7 el 15% de las veces. Nuestro modelo también logra resultados de última generación en el Conjunto de datos BookSum para el resumen de la longitud del libro. Un modelo de preguntas y respuestas de tiro cero puede usar los resúmenes de nuestro modelo para obtener resultados competitivos en el Conjunto de datos NarrativeQA para responder preguntas del tamaño de un libro.^{[ 2 ]}

Nuestro enfoque: combinar el aprendizaje por refuerzo a partir de la retroalimentación humana y la descomposición recursiva de tareas

Considere la tarea de resumir un fragmento de texto. Largo los modelos preentrenados no son muy buenos para resumir. En el pasado, descubrimos que entrenar un modelo con aprendizaje por refuerzo a partir de la retroalimentación humana ayudó a alinear los resúmenes del modelo con las preferencias humanas en publicaciones y artículos breves. Pero juzgar los resúmenes de libros completos requiere mucho esfuerzo para hacerlo directamente, ya que un ser humano necesitaría leer el libro completo, lo que lleva muchas horas.

Para abordar este problema, también hacemos uso de descomposición de tareas recursivas: dividimos procedimentalmente una tarea difícil en otras más fáciles. En este caso, dividimos el resumen de un texto extenso en resúmenes de varios fragmentos más cortos. En comparación con un procedimiento de entrenamiento de extremo a extremo, la descomposición de tareas recursivas tiene las siguientes ventajas:

La descomposición permite que los humanos evalúen resúmenes de modelos más rápidamente al usar resúmenes de partes más pequeñas del libro en lugar de leer el texto de origen.
Es más fácil rastrear el proceso de redacción del resumen. Por ejemplo, puede rastrear para encontrar en qué parte del texto original ocurren ciertos eventos del resumen. Compruébelo usted mismo en nuestro explorador de resumen!
Nuestro método se puede utilizar para resumir libros de longitud ilimitada, sin restricciones por la longitud del contexto de los modelos de transformadores que utilizamos.

Por qué estamos trabajando en esto

Tsu el trabajo es parte de nuestro en marcha la investigación en alinear sistemas avanzados de IA, que es clave para nuestra misión. A medida que entrenamos a nuestros modelos para realizar tareas cada vez más complejas, será cada vez más difícil para los humanos realizar evaluaciones informadas de los resultados de los modelos. Esto hace que sea más difícil detectar problemas sutiles en los resultados del modelo que podrían tener consecuencias negativas cuando se implementan estos modelos. Por lo tanto, queremos que nuestra capacidad para evaluar nuestros modelos aumente a medida que aumentan sus capacidades.

Nuestro enfoque actual para este problema es empoderar a los humanos para evaluar los resultados del modelo de aprendizaje automático utilizando la asistencia de otros modelos. En este caso, para evaluar resúmenes de libros, empoderamos a los humanos con resúmenes de capítulos individuales escritos por nuestro modelo, lo que les ahorra tiempo al evaluar estos resúmenes en relación con la lectura del texto de origen. Nuestro progreso en el resumen de libros es el primer trabajo empírico a gran escala sobre técnicas de alineación de escala.

En el futuro, estamos investigando mejores formas de ayudar a los humanos a evaluar el comportamiento del modelo, con el objetivo de encontrar técnicas que se adapten a la inteligencia artificial general.

Siempre estamos buscando a más personas talentosas para que se unan a nosotros; así que si este trabajo te interesa, por favor aplica para unirte a nuestro equipo!

Sello de tiempo: 23 de septiembre de 2021

Sello de tiempo: 31 de enero de 2023

Resumen de libros con comentarios humanos

Reeditado por Platón

Nuestro enfoque: combinar el aprendizaje por refuerzo a partir de la retroalimentación humana y la descomposición recursiva de tareas

Por qué estamos trabajando en esto

Mas de OpenAI

Alinear modelos de lenguaje para seguir instrucciones

Nuevos modelos y productos para desarrolladores anunciados en DevDay

Aportes democráticos al programa de subvenciones de IA: lecciones aprendidas y planes de implementación

Previsión de posibles usos indebidos de los modelos de lenguaje para campañas de desinformación y cómo reducir el riesgo

DALL·E: Presentación de Outpainting

Aprendiendo a jugar Minecraft con Video PreTraining

Sora: primeras impresiones

Entradas democráticas a la IA

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta