¿Qué significa alinear la IA con los valores humanos? PlatoBlockchain Inteligencia de Datos. Búsqueda vertical. Ai.

¿Qué significa alinear la IA con los valores humanos?

Introducción

Hace muchos años, aprendí a programar en una vieja máquina Symbolics Lisp. El sistema operativo tenía un comando incorporado escrito "DWIM", abreviatura de "Haz lo que quiero decir". Si escribía un comando y obtenía un error, podía escribir "DWIM" y la máquina intentaba averiguar qué quería hacer. Una sorprendente fracción de las veces, realmente funcionó.

El comando DWIM era un microcosmos del problema más moderno de la "alineación de la IA": los humanos somos propensos a dar a las máquinas instrucciones ambiguas o erróneas, y queremos que hagan lo que queremos decir, no necesariamente lo que decimos.

Las computadoras con frecuencia malinterpretan lo que queremos que hagan, con resultados inesperados y, a menudo, divertidos. Un investigador de aprendizaje automático, por ejemplo, mientras investigaba los resultados sospechosamente buenos de un programa de clasificación de imágenes, descubierto CRISPR que basaba las clasificaciones no en la imagen en sí, sino en cuánto tiempo se tardaba en acceder al archivo de imagen: las imágenes de diferentes clases se almacenaban en bases de datos con tiempos de acceso ligeramente diferentes. Otro programador emprendedor quería que su aspiradora Roomba dejara de chocar con los muebles, por lo que conectó Roomba a una red neuronal que recompensaba la velocidad pero castigaba a Roomba cuando el parachoques delantero chocaba con algo. La máquina se acomodó a estos objetivos conduciendo siempre hacia atrás.

Pero la comunidad de investigadores de alineación de IA ve un lado más oscuro en estas anécdotas. De hecho, creen que la incapacidad de las máquinas para discernir lo que realmente queremos que hagan es un riesgo existencial. Para resolver este problema, creen, debemos encontrar formas de alinear los sistemas de IA con las preferencias, objetivos y valores humanos.

Esta visión ganó prominencia con el libro más vendido de 2014 Superinteligencia por el filósofo Nick Bostrom, que argumentó en parte que la creciente inteligencia de las computadoras podría representar una amenaza directa para el futuro de la humanidad. Bostrom nunca definió con precisión la inteligencia, pero, como la mayoría de los demás en la comunidad de alineación de IA, adoptó una definición más tarde. articulado por el investigador de IA Stuart Russell como: “Se considera que una entidad es inteligente, en términos generales, si elige acciones que se espera que logren sus objetivos, dado lo que ha percibido”.

Bostrom basó su visión de los riesgos de la IA en dos tesis. La primera es la tesis de la ortogonalidad, que afirma, en palabras de Bostrom, “La inteligencia y las metas finales son ejes ortogonales a lo largo de los cuales los posibles agentes pueden variar libremente. En otras palabras, más o menos cualquier nivel de inteligencia podría en principio combinarse con más o menos cualquier objetivo final”. La segunda es la tesis de la convergencia instrumental, que implica que un agente inteligente actuará de formas que promuevan su propia supervivencia, automejora y adquisición de recursos, siempre que esto haga que el agente tenga más probabilidades de lograr su objetivo final. Luego hizo una suposición final: los investigadores pronto crearían una superinteligencia de IA, una que "supere con creces el rendimiento cognitivo de los humanos en prácticamente todos los dominios de interés".

Para Bostrom y otros en la comunidad de alineamiento de la IA, esta perspectiva significa la perdición de la humanidad a menos que logremos alinear las IA superinteligentes con nuestros deseos y valores. Bostrom ilustra este peligro con un experimento mental ahora famoso: imagine darle a una IA superinteligente el objetivo de maximizar la producción de sujetapapeles. Según las tesis de Bostrom, en la búsqueda para lograr este objetivo, el sistema de IA utilizará su brillantez y creatividad sobrehumanas para aumentar su propio poder y control, y finalmente adquirirá todos los recursos del mundo para fabricar más clips. La humanidad se extinguirá, pero la producción de clips de papel se maximizará.

Si cree que la inteligencia se define por la capacidad de lograr metas, que los humanos pueden "insertar" cualquier meta en un agente de IA superinteligente, y que tal agente usaría su superinteligencia para hacer cualquier cosa para lograr esa meta, entonces lo hará. llegar al mismo conclusión que Russell hizo: "Todo lo que se necesita para asegurar una catástrofe es una máquina altamente competente combinada con humanos que tienen una capacidad imperfecta para especificar las preferencias humanas de manera completa y correcta".

Es un tropo familiar en la ciencia ficción: la humanidad se ve amenazada por máquinas fuera de control que han malinterpretado los deseos humanos. Ahora, un segmento no insignificante de la comunidad de investigación de IA está profundamente preocupado por este tipo de escenario que se desarrolla en la vida real. Docenas de institutos ya han gastado cientos de millones de dólares en el problema, y ​​se están realizando esfuerzos de investigación sobre la alineación en universidades de todo el mundo y en grandes empresas de inteligencia artificial como Google, Meta y OpenAI.

¿Qué pasa con los riesgos más inmediatos que plantea la IA no superinteligente, como la pérdida de empleo, el sesgo, las violaciones de la privacidad y la difusión de información errónea? Resulta que hay poca superposición entre las comunidades preocupadas principalmente por tales riesgos a corto plazo y aquellas que se preocupan más por los riesgos de alineación a más largo plazo. De hecho, hay algo así como una guerra cultural de IA, con un lado más preocupado por estos riesgos actuales que por lo que ven como tecnofuturismo poco realista, y el otro lado considerando los problemas actuales menos urgentes que los riesgos catastróficos potenciales planteados por la IA superinteligente.

Para muchos fuera de estas comunidades específicas, la alineación de la IA se parece a una religión, una con líderes venerados, doctrina incuestionable y discípulos devotos que luchan contra un enemigo potencialmente todopoderoso (IA superinteligente no alineada). De hecho, el informático y bloguero Scott Aaronson recientemente señaló que ahora hay ramas "ortodoxas" y "reformistas" de la fe de alineación de la IA. El primero, escribe, se preocupa casi por completo por la "IA desalineada que engaña a los humanos mientras trabaja para destruirlos". En contraste, escribe, "los que arriesgan la IA reformada contemplamos esa posibilidad, pero nos preocupamos al menos tanto por las IA poderosas que son armadas por humanos malos, que esperamos que presenten riesgos existenciales mucho antes".

Muchos investigadores participan activamente en proyectos basados ​​en la alineación, que van desde intentos de impartir principios de la filosofía moral a las máquinas, a entrenamiento de grandes modelos de lenguaje sobre juicios éticos colaborativos. Ninguno de estos esfuerzos ha sido particularmente útil para hacer que las máquinas razonen sobre situaciones del mundo real. Muchos escritores han notado los muchos obstáculos que impiden que las máquinas aprendan las preferencias y los valores humanos: las personas a menudo son irracionales y se comportan de manera que contradicen sus valores, y los valores pueden cambiar a lo largo de la vida y las generaciones individuales. Después de todo, no está claro qué valores debemos hacer que las máquinas intenten aprender.

Muchos en la comunidad de alineación piensan que el camino más prometedor es una técnica de aprendizaje automático conocida como aprendizaje por refuerzo inverso (IRL). Con IRL, a la máquina no se le da un objetivo para maximizar; tales objetivos "insertados", según creen los defensores de la alineación, pueden conducir inadvertidamente a escenarios de maximización de clips de papel. En cambio, la tarea de la máquina es observar el comportamiento de los humanos e inferir sus preferencias, metas y valores. En los últimos años, los investigadores han utilizado IRL para entrenar maquinas para jugar videojuegos observando a los humanos y enseñando a los robots como hacer volteretas hacia atrás brindándoles comentarios incrementales de humanos (las personas vieron videos cortos de varios intentos de un robot y eligieron el que se veía mejor).

No está claro si métodos similares pueden enseñar a las máquinas las ideas más sutiles y abstractas de los valores humanos. El escritor Brian Christian, autor de un libro de divulgación científica sobre la alineación de la IA, es optimista: “No es tan exagerado imaginar reemplazar el concepto nebuloso de 'backflip' con un concepto aún más nebuloso e inefable, como 'utilidad'. O 'amabilidad'. O 'buen' comportamiento”.

Sin embargo, creo que esto subestima el desafío. Las nociones éticas como la amabilidad y el buen comportamiento son mucho más complejas y dependen del contexto que todo lo que IRL ha dominado hasta ahora. Considere la noción de "veracidad", un valor que seguramente queremos en nuestros sistemas de IA. De hecho, un problema importante con los grandes modelos de lenguaje actuales es su incapacidad para distinguir la verdad de la falsedad. Al mismo tiempo, a veces podemos querer que nuestros asistentes de IA, al igual que los humanos, moderen su veracidad: para proteger la privacidad, evitar insultar a otros o mantener a alguien a salvo, entre otras innumerables situaciones difíciles de articular.

Otros conceptos éticos son igual de complejos. Debe quedar claro que un primer paso esencial para enseñar conceptos éticos a las máquinas es, en primer lugar, permitir que las máquinas capten conceptos similares a los humanos, lo que, según he argumentado, sigue siendo la IA. problema abierto más importante.

Además, veo un problema aún más fundamental con la ciencia que subyace a las nociones de alineación de la IA. La mayoría de las discusiones imaginan una IA superinteligente como una máquina que, aunque supera a los humanos en todas las tareas cognitivas, todavía carece de sentido común similar al humano y sigue siendo de naturaleza extrañamente mecánica. Y lo que es más importante, de acuerdo con la tesis de la ortogonalidad de Bostrom, la máquina ha logrado la superinteligencia sin tener sus propios objetivos o valores, sino que espera que los humanos inserten objetivos.

Sin embargo, ¿podría la inteligencia funcionar de esta manera? Nada en la ciencia actual de la psicología o la neurociencia apoya esta posibilidad. En los humanos, al menos, la inteligencia está profundamente interconectada con nuestras metas y valores, así como con nuestro sentido del yo y nuestro entorno social y cultural particular. La intuición de que una especie de inteligencia pura podría separarse de estos otros factores ha llevado a muchas predicciones fallidas en la historia de la IA. Por lo que sabemos, parece mucho más probable que los objetivos de un sistema de IA generalmente inteligente no puedan insertarse fácilmente, sino que tendrían que desarrollarse, como el nuestro, como resultado de su propia formación social y cultural.

En su libro Compatible con humanosRussell argumenta a favor de la urgencia de la investigación sobre el problema de la alineación: “El momento adecuado para preocuparse por un problema potencialmente grave para la humanidad depende no solo de cuándo ocurrirá el problema, sino también de cuánto tiempo llevará preparar e implementar una solución. ” Pero sin una mejor comprensión de qué es la inteligencia y cuán separable es de otros aspectos de nuestras vidas, ni siquiera podemos definir el problema, y ​​mucho menos encontrar una solución. Definir y resolver correctamente el problema de alineación no será fácil; requerirá que desarrollemos una teoría de la inteligencia amplia y con base científica.

Sello de tiempo:

Mas de Revista Quanta