O que significa alinhar a IA com os valores humanos? Inteligência de dados PlatoBlockchain. Pesquisa vertical. Ai.

O que significa alinhar IA com valores humanos?

Introdução

Muitos anos atrás, aprendi a programar em uma velha Symbolics Lisp Machine. O sistema operacional tinha um comando embutido escrito “DWIM”, abreviação de “Do What I Mean”. Se eu digitasse um comando e obtivesse um erro, poderia digitar “DWIM” e a máquina tentaria descobrir o que eu pretendia fazer. Uma fração surpreendente do tempo, realmente funcionou.

O comando DWIM era um microcosmo do problema mais moderno de “alinhamento de IA”: nós, humanos, somos propensos a dar instruções ambíguas ou equivocadas às máquinas e queremos que elas façam o que queremos dizer, não necessariamente o que dizemos.

Os computadores freqüentemente interpretam mal o que queremos que eles façam, com resultados inesperados e muitas vezes divertidos. Um pesquisador de aprendizado de máquina, por exemplo, enquanto investigava os resultados suspeitosamente bons de um programa de classificação de imagens, descoberto que baseava as classificações não na imagem em si, mas no tempo de acesso ao arquivo de imagem — as imagens de diferentes classes eram armazenadas em bancos de dados com tempos de acesso ligeiramente diferentes. Outro programador empreendedor queria que seu aspirador Roomba parasse de bater nos móveis, então ele conectou o Roomba a uma rede neural que recompensava a velocidade, mas punia o Roomba quando o pára-choque dianteiro colidia com alguma coisa. A máquina acomodou esses objetivos sempre dirigindo para trás.

Mas a comunidade de pesquisadores de alinhamento de IA vê um lado mais sombrio dessas anedotas. Na verdade, eles acreditam que a incapacidade das máquinas de discernir o que realmente queremos que façam é um risco existencial. Para resolver esse problema, eles acreditam, devemos encontrar maneiras de alinhar os sistemas de IA com as preferências, objetivos e valores humanos.

Essa visão ganhou destaque com o livro best-seller de 2014 Superinteligência pelo filósofo Nick Bostrom, que argumentou em parte que a crescente inteligência dos computadores poderia representar uma ameaça direta ao futuro da humanidade. Bostrom nunca definiu inteligência com precisão, mas, como a maioria dos outros na comunidade de alinhamento de IA, ele adotou uma definição mais tarde. articulado pelo pesquisador de IA Stuart Russell como: “Uma entidade é considerada inteligente, grosso modo, se ela escolhe ações que são esperadas para alcançar seus objetivos, dado o que ela percebeu”.

Bostrom baseou sua visão dos riscos da IA ​​em duas teses. A primeira é a tese da ortogonalidade, que afirma, nas palavras de Bostrom, “A inteligência e os objetivos finais são eixos ortogonais ao longo dos quais os possíveis agentes podem variar livremente. Em outras palavras, mais ou menos qualquer nível de inteligência poderia, em princípio, ser combinado com mais ou menos qualquer objetivo final.” A segunda é a tese da convergência instrumental, que implica que um agente inteligente agirá de forma a promover sua própria sobrevivência, autoaperfeiçoamento e aquisição de recursos, desde que isso torne o agente mais propenso a atingir seu objetivo final. Então ele fez uma suposição final: os pesquisadores logo criariam uma superinteligência de IA – uma que “excede em muito o desempenho cognitivo dos humanos em praticamente todos os domínios de interesse”.

Para Bostrom e outros na comunidade de alinhamento de IA, essa perspectiva significa a ruína da humanidade, a menos que consigamos alinhar IAs superinteligentes com nossos desejos e valores. Bostrom ilustra esse perigo com um experimento de pensamento agora famoso: imagine dar a uma IA superinteligente o objetivo de maximizar a produção de clipes de papel. De acordo com as teses de Bostrom, na busca por atingir esse objetivo, o sistema de IA usará seu brilho e criatividade sobre-humanos para aumentar seu próprio poder e controle, adquirindo todos os recursos do mundo para fabricar mais clipes de papel. A humanidade morrerá, mas a produção de clipes de papel será de fato maximizada.

Se você acredita que a inteligência é definida pela capacidade de atingir objetivos, que qualquer objetivo pode ser “inserido” por humanos em um agente de IA superinteligente e que tal agente usaria sua superinteligência para fazer qualquer coisa para atingir esse objetivo, então você chegar ao mesmo conclusão que Russell fez: “Tudo o que é necessário para garantir a catástrofe é uma máquina altamente competente combinada com humanos que têm uma capacidade imperfeita de especificar as preferências humanas completa e corretamente”.

É um tropo familiar na ficção científica – a humanidade sendo ameaçada por máquinas fora de controle que interpretaram mal os desejos humanos. Agora, um segmento não insubstancial da comunidade de pesquisa em IA está profundamente preocupado com esse tipo de cenário que ocorre na vida real. Dezenas de institutos já gastaram centenas de milhões de dólares no problema, e esforços de pesquisa sobre alinhamento estão em andamento em universidades de todo o mundo e em grandes empresas de IA, como Google, Meta e OpenAI.

E quanto aos riscos mais imediatos apresentados pela IA não superinteligente, como perda de emprego, preconceito, violações de privacidade e disseminação de desinformação? Acontece que há pouca sobreposição entre as comunidades preocupadas principalmente com esses riscos de curto prazo e aquelas que se preocupam mais com os riscos de alinhamento de longo prazo. Na verdade, há uma espécie de guerra cultural de IA, com um lado mais preocupado com esses riscos atuais do que com o que eles veem como tecno-futurismo irrealista, e o outro lado considerando os problemas atuais menos urgentes do que os possíveis riscos catastróficos impostos pela IA superinteligente.

Para muitos fora dessas comunidades específicas, o alinhamento da IA ​​parece algo como uma religião – uma com líderes reverenciados, doutrina inquestionável e discípulos dedicados lutando contra um inimigo potencialmente todo-poderoso (IA superinteligente não alinhada). De fato, o cientista da computação e blogueiro Scott Aaronson recentemente notado que agora existem ramos “ortodoxos” e “reformados” da fé do alinhamento da IA. O primeiro, ele escreve, se preocupa quase inteiramente com “IA desalinhada que engana os humanos enquanto trabalha para destruí-los”. Em contraste, ele escreve, “nós, os que arriscam a reforma da IA, consideramos essa possibilidade, mas nos preocupamos pelo menos tanto com IAs poderosas que são transformadas em armas por humanos maus, que esperamos representar riscos existenciais muito antes”.

Muitos pesquisadores estão ativamente engajados em projetos baseados em alinhamento, desde tentativas de transmitir princípios da filosofia moral às máquinas, às treinando modelos de linguagem grandes em julgamentos éticos de crowdsourcing. Nenhum desses esforços foi particularmente útil para levar as máquinas a raciocinar sobre situações do mundo real. Muitos escritores notaram os muitos obstáculos que impedem as máquinas de aprender as preferências e os valores humanos: as pessoas geralmente são irracionais e se comportam de maneiras que contradizem seus valores, e os valores podem mudar ao longo da vida e das gerações individuais. Afinal, não está claro quais valores devemos fazer com que as máquinas tentem aprender.

Muitos na comunidade de alinhamento acham que o caminho mais promissor é uma técnica de aprendizado de máquina conhecida como aprendizagem por reforço inverso (IRL). Com IRL, a máquina não recebe um objetivo para maximizar; tais metas “inseridas”, acreditam os proponentes do alinhamento, podem inadvertidamente levar a cenários maximizadores de clipes de papel. Em vez disso, a tarefa da máquina é observar o comportamento dos humanos e inferir suas preferências, objetivos e valores. Nos últimos anos, os pesquisadores têm usado a IRL para treinar máquinas para jogar videogames observando humanos e ensinando robôs como fazer backflips dando-lhes feedback incremental de humanos (as pessoas viram clipes curtos das várias tentativas de um robô e escolheram a que parecia melhor).

Não está claro se métodos semelhantes podem ensinar às máquinas as ideias mais sutis e abstratas dos valores humanos. O escritor Brian Christian, autor de um livro de ciência popular sobre alinhamento de IA, é otimista: “Não é tão difícil imaginar substituir o conceito nebuloso de 'backflip' por um conceito ainda mais nebuloso e inefável, como 'utilidade'. Ou 'bondade'. Ou 'bom' comportamento.”

No entanto, acho que isso subestima o desafio. Noções éticas como gentileza e bom comportamento são muito mais complexas e dependentes do contexto do que qualquer coisa que a IRL dominou até agora. Considere a noção de “veracidade” – um valor que certamente queremos em nossos sistemas de IA. De fato, um grande problema com os grandes modelos de linguagem de hoje é sua incapacidade de distinguir a verdade da falsidade. Ao mesmo tempo, às vezes podemos querer que nossos assistentes de IA, assim como os humanos, moderem sua veracidade: para proteger a privacidade, para evitar insultar outras pessoas ou para manter alguém seguro, entre inúmeras outras situações difíceis de articular.

Outros conceitos éticos são igualmente complexos. Deve ficar claro que um primeiro passo essencial para ensinar conceitos éticos às máquinas é permitir que as máquinas compreendam conceitos humanos em primeiro lugar, o que eu argumentei ainda é da IA. problema em aberto mais importante.

Além disso, vejo um problema ainda mais fundamental com as noções científicas subjacentes ao alinhamento da IA. A maioria das discussões imagina uma IA superinteligente como uma máquina que, embora ultrapasse os humanos em todas as tarefas cognitivas, ainda carece de bom senso humano e permanece de natureza estranhamente mecânica. E o mais importante, de acordo com a tese da ortogonalidade de Bostrom, a máquina alcançou a superinteligência sem ter nenhum de seus próprios objetivos ou valores, em vez disso, espera que os objetivos sejam inseridos pelos humanos.

No entanto, a inteligência poderia funcionar dessa maneira? Nada na ciência atual da psicologia ou neurociência apóia essa possibilidade. Nos humanos, pelo menos, a inteligência está profundamente interconectada com nossos objetivos e valores, bem como com nosso senso de identidade e nosso ambiente social e cultural específico. A intuição de que uma espécie de inteligência pura poderia ser separada desses outros fatores levou a muitas previsões falhadas na história da IA. Pelo que sabemos, parece muito mais provável que os objetivos de um sistema de IA geralmente inteligente não possam ser facilmente inseridos, mas teriam que se desenvolver, como o nosso, como resultado de sua própria educação social e cultural.

Em seu livro Compatível com humanos, Russell defende a urgência da pesquisa sobre o problema de alinhamento: “O momento certo para se preocupar com um problema potencialmente sério para a humanidade depende não apenas de quando o problema ocorrerá, mas também de quanto tempo levará para preparar e implementar uma solução. ” Mas sem uma melhor compreensão do que é inteligência e como ela é separável de outros aspectos de nossas vidas, não podemos nem mesmo definir o problema, muito menos encontrar uma solução. Definir e resolver adequadamente o problema de alinhamento não será fácil; exigirá que desenvolvamos uma ampla teoria da inteligência com base científica.

Carimbo de hora:

Mais de Quantagazine