Tcon seguridad implementar inteligencia artificial potente y de propósito general en el futuro, debemos asegurarnos de que los modelos de aprendizaje automático actúen de acuerdo con las intenciones humanas. Este desafío se conoce como el problema de alineación.
Una solución escalable para el problema de alineación debe funcionar en tareas en las que los resultados del modelo son difíciles de evaluar o requieren mucho tiempo para que los humanos los evalúen. Para probar las técnicas de alineación escalables, entrenamos un modelo para resumir libros completos, como se muestra en los siguientes ejemplos.[ 1 ] Nuestro modelo funciona resumiendo primero pequeñas secciones de un libro, luego resumiendo esos resúmenes en un resumen de nivel superior, y así sucesivamente.
Nuestro mejor modelo está ajustado a partir de GPT-3 y genera resúmenes sensatos de libros completos, a veces incluso igualando la calidad promedio de los resúmenes escritos por humanos: logra una calificación de 6/7 (similar al resumen promedio escrito por humanos) de humanos que han leído el libro el 5% de las veces y una calificación de 5/7 el 15% de las veces. Nuestro modelo también logra resultados de última generación en el Conjunto de datos BookSum para el resumen de la longitud del libro. Un modelo de preguntas y respuestas de tiro cero puede usar los resúmenes de nuestro modelo para obtener resultados competitivos en el Conjunto de datos NarrativeQA para responder preguntas del tamaño de un libro.[ 2 ]
Nuestro enfoque: combinar el aprendizaje por refuerzo a partir de la retroalimentación humana y la descomposición recursiva de tareas
Considere la tarea de resumir un fragmento de texto. Largo los modelos preentrenados no son muy buenos para resumir. En el pasado, descubrimos que entrenar un modelo con aprendizaje por refuerzo a partir de la retroalimentación humana ayudó a alinear los resúmenes del modelo con las preferencias humanas en publicaciones y artículos breves. Pero juzgar los resúmenes de libros completos requiere mucho esfuerzo para hacerlo directamente, ya que un ser humano necesitaría leer el libro completo, lo que lleva muchas horas.
Para abordar este problema, también hacemos uso de descomposición de tareas recursivas: dividimos procedimentalmente una tarea difícil en otras más fáciles. En este caso, dividimos el resumen de un texto extenso en resúmenes de varios fragmentos más cortos. En comparación con un procedimiento de entrenamiento de extremo a extremo, la descomposición de tareas recursivas tiene las siguientes ventajas:
- La descomposición permite que los humanos evalúen resúmenes de modelos más rápidamente al usar resúmenes de partes más pequeñas del libro en lugar de leer el texto de origen.
- Es más fácil rastrear el proceso de redacción del resumen. Por ejemplo, puede rastrear para encontrar en qué parte del texto original ocurren ciertos eventos del resumen. Compruébelo usted mismo en nuestro explorador de resumen!
- Nuestro método se puede utilizar para resumir libros de longitud ilimitada, sin restricciones por la longitud del contexto de los modelos de transformadores que utilizamos.
Por qué estamos trabajando en esto
Tsu el trabajo es parte de nuestro en marcha la investigación en alinear sistemas avanzados de IA, que es clave para nuestra misión. A medida que entrenamos a nuestros modelos para realizar tareas cada vez más complejas, será cada vez más difícil para los humanos realizar evaluaciones informadas de los resultados de los modelos. Esto hace que sea más difícil detectar problemas sutiles en los resultados del modelo que podrían tener consecuencias negativas cuando se implementan estos modelos. Por lo tanto, queremos que nuestra capacidad para evaluar nuestros modelos aumente a medida que aumentan sus capacidades.
Nuestro enfoque actual para este problema es empoderar a los humanos para evaluar los resultados del modelo de aprendizaje automático utilizando la asistencia de otros modelos. En este caso, para evaluar resúmenes de libros, empoderamos a los humanos con resúmenes de capítulos individuales escritos por nuestro modelo, lo que les ahorra tiempo al evaluar estos resúmenes en relación con la lectura del texto de origen. Nuestro progreso en el resumen de libros es el primer trabajo empírico a gran escala sobre técnicas de alineación de escala.
En el futuro, estamos investigando mejores formas de ayudar a los humanos a evaluar el comportamiento del modelo, con el objetivo de encontrar técnicas que se adapten a la inteligencia artificial general.
Siempre estamos buscando a más personas talentosas para que se unan a nosotros; así que si este trabajo te interesa, por favor aplica para unirte a nuestro equipo!
- 10
- 11
- 28
- 67
- 7
- 77
- 84
- 9
- Acerca
- Actúe
- dirección
- avanzado
- ventajas
- AI
- enfoque
- artificial
- inteligencia artificial
- promedio
- a las que has recomendado
- "Ser"
- MEJOR
- Libros
- capacidades
- Reto
- Capítulo
- en comparación con
- integraciones
- control
- Core
- podría
- Current
- datos
- desplegar
- efecto
- empoderar a
- Eventos
- ejemplo
- realimentación
- Nombre
- siguiendo
- adelante
- encontrado
- futuras
- General
- objetivo
- candidato
- HTTPS
- humana
- Humanos
- aumente
- INSTRUMENTO individual
- Intelligence
- intereses
- IT
- únete
- Clave
- conocido
- large
- Lead
- aprendizaje
- Largo
- mirando
- máquina
- máquina de aprendizaje
- HACE
- Realizar
- pareo
- mediano
- Misión
- modelo
- modelos
- más,
- Otro
- Papel
- Personas
- pieza
- Artículos
- poderoso
- Problema
- problemas
- fines
- calidad
- pregunta
- con rapidez
- .
- RE
- Reading
- ,
- la investigación
- Resultados
- escalable
- Escala
- la ampliación
- seleccionado
- En Corto
- similares
- chica
- So
- a medida
- el estado de la técnica
- Todas las funciones a su disposición
- talentosos
- tareas
- técnicas
- test
- La Fuente
- equipo
- prolongado
- Formación
- us
- utilizan el
- W3
- QUIENES
- ventanas
- Actividades:
- trabajando
- funciona