Resumen de libros con comentarios humanos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Resumen de libros con comentarios humanos

Leer papelExaminar muestras

Resumen de libros con comentarios humanos

Tcon seguridad implementar inteligencia artificial potente y de propósito general en el futuro, debemos asegurarnos de que los modelos de aprendizaje automático actúen de acuerdo con las intenciones humanas. Este desafío se conoce como el problema de alineación.

Una solución escalable para el problema de alineación debe funcionar en tareas en las que los resultados del modelo son difíciles de evaluar o requieren mucho tiempo para que los humanos los evalúen. Para probar las técnicas de alineación escalables, entrenamos un modelo para resumir libros completos, como se muestra en los siguientes ejemplos.[ 1 ] Nuestro modelo funciona resumiendo primero pequeñas secciones de un libro, luego resumiendo esos resúmenes en un resumen de nivel superior, y así sucesivamente.

Explore más muestras

Nuestro mejor modelo está ajustado a partir de GPT-3 y genera resúmenes sensatos de libros completos, a veces incluso igualando la calidad promedio de los resúmenes escritos por humanos: logra una calificación de 6/7 (similar al resumen promedio escrito por humanos) de humanos que han leído el libro el 5% de las veces y una calificación de 5/7 el 15% de las veces. Nuestro modelo también logra resultados de última generación en el Conjunto de datos BookSum para el resumen de la longitud del libro. Un modelo de preguntas y respuestas de tiro cero puede usar los resúmenes de nuestro modelo para obtener resultados competitivos en el Conjunto de datos NarrativeQA para responder preguntas del tamaño de un libro.[ 2 ]

Nuestro enfoque: combinar el aprendizaje por refuerzo a partir de la retroalimentación humana y la descomposición recursiva de tareas

Considere la tarea de resumir un fragmento de texto. Largo los modelos preentrenados no son muy buenos para resumir. En el pasado, descubrimos que entrenar un modelo con aprendizaje por refuerzo a partir de la retroalimentación humana ayudó a alinear los resúmenes del modelo con las preferencias humanas en publicaciones y artículos breves. Pero juzgar los resúmenes de libros completos requiere mucho esfuerzo para hacerlo directamente, ya que un ser humano necesitaría leer el libro completo, lo que lleva muchas horas.

Para abordar este problema, también hacemos uso de descomposición de tareas recursivas: dividimos procedimentalmente una tarea difícil en otras más fáciles. En este caso, dividimos el resumen de un texto extenso en resúmenes de varios fragmentos más cortos. En comparación con un procedimiento de entrenamiento de extremo a extremo, la descomposición de tareas recursivas tiene las siguientes ventajas:

  1. La descomposición permite que los humanos evalúen resúmenes de modelos más rápidamente al usar resúmenes de partes más pequeñas del libro en lugar de leer el texto de origen.
  2. Es más fácil rastrear el proceso de redacción del resumen. Por ejemplo, puede rastrear para encontrar en qué parte del texto original ocurren ciertos eventos del resumen. Compruébelo usted mismo en nuestro explorador de resumen!
  3. Nuestro método se puede utilizar para resumir libros de longitud ilimitada, sin restricciones por la longitud del contexto de los modelos de transformadores que utilizamos.

Por qué estamos trabajando en esto

Tsu el trabajo es parte de nuestro en marcha la investigación en alinear sistemas avanzados de IA, que es clave para nuestra misión. A medida que entrenamos a nuestros modelos para realizar tareas cada vez más complejas, será cada vez más difícil para los humanos realizar evaluaciones informadas de los resultados de los modelos. Esto hace que sea más difícil detectar problemas sutiles en los resultados del modelo que podrían tener consecuencias negativas cuando se implementan estos modelos. Por lo tanto, queremos que nuestra capacidad para evaluar nuestros modelos aumente a medida que aumentan sus capacidades.

Nuestro enfoque actual para este problema es empoderar a los humanos para evaluar los resultados del modelo de aprendizaje automático utilizando la asistencia de otros modelos. En este caso, para evaluar resúmenes de libros, empoderamos a los humanos con resúmenes de capítulos individuales escritos por nuestro modelo, lo que les ahorra tiempo al evaluar estos resúmenes en relación con la lectura del texto de origen. Nuestro progreso en el resumen de libros es el primer trabajo empírico a gran escala sobre técnicas de alineación de escala.

En el futuro, estamos investigando mejores formas de ayudar a los humanos a evaluar el comportamiento del modelo, con el objetivo de encontrar técnicas que se adapten a la inteligencia artificial general.

Siempre estamos buscando a más personas talentosas para que se unan a nosotros; así que si este trabajo te interesa, por favor aplica para unirte a nuestro equipo!


AGRADECIMIENTOS

Nos gustaría agradecer a nuestros coautores del artículo: Long Ouyang, Daniel Ziegler, Nisan Stiennon y Paul Christiano.

Gracias a los siguientes por sus comentarios sobre este lanzamiento: Steve Dowling, Hannah Wong, Miles Brundage, Gretchen Krueger, Ilya Sutskever y Sam Altman.


Diseño
justin jay wang


Ilustraciones de la portada del libro


Notas a pie de página

  1. Estas muestras fueron seleccionadas de trabajos en el dominio publicoy forman parte de los datos de preentrenamiento de GPT-3. Para controlar a tal efecto, y con fines puramente investigativos, nuestros evalúa resúmenes de libros que el modelo nunca ha visto antes. ↩︎

  2. Hemos modificado nuestra afirmación original sobre los resultados en NarrativeQA después de conocer trabajos anteriores con mejores resultados que los nuestros. ↩︎

Sello de tiempo:

Mas de OpenAI