AI를 인간의 가치에 맞추는 것은 무엇을 의미합니까? PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

AI를 인간의 가치와 일치시킨다는 것은 무엇을 의미합니까?

개요

수년 전에 나는 오래된 Symbolics Lisp Machine에서 프로그래밍하는 법을 배웠습니다. 운영 체제에는 "Do What I Mean"의 줄임말인 "DWIM"이라는 철자가 내장된 명령이 있었습니다. 명령을 입력했는데 오류가 발생하면 "DWIM"을 입력하면 컴퓨터가 내가 하려는 작업을 파악하려고 합니다. 놀라운 시간 동안 실제로 작동했습니다.

DWIM 명령은 "AI 정렬"이라는 보다 현대적인 문제의 소우주였습니다. 우리 인간은 기계에 모호하거나 잘못된 명령을 내리는 경향이 있으며, 기계가 반드시 우리가 말하는 것이 아니라 우리가 의미하는 바를 수행하기를 원합니다.

컴퓨터는 종종 우리가 원하는 것을 잘못 해석하여 예상치 못한 재미있는 결과를 낳습니다. 예를 들어, 한 기계 학습 연구원은 이미지 분류 프로그램의 의심스러운 좋은 결과를 조사하는 동안 발견 이미지 자체가 아니라 이미지 파일에 액세스하는 데 걸리는 시간을 기준으로 분류하고 있었습니다. 다른 클래스의 이미지는 액세스 시간이 약간 다른 데이터베이스에 저장되었습니다. 또 다른 진취적인 프로그래머 그의 Roomba 진공 청소기가 가구에 부딪히는 것을 멈추기를 원했기 때문에 그는 Roomba를 신경망에 연결하여 속도를 보상했지만 앞 범퍼가 무언가와 충돌했을 때 Roomba를 처벌했습니다. 기계는 항상 후진하여 이러한 목표를 달성했습니다.

그러나 AI 정렬 연구원 커뮤니티는 이러한 일화의 어두운 면을 보고 있습니다. 사실, 그들은 우리가 실제로 원하는 것을 기계가 식별하지 못하는 것이 실존적 위험이라고 믿습니다. 그들은 이 문제를 해결하기 위해 AI 시스템을 인간의 선호도, 목표 및 가치와 일치시키는 방법을 찾아야 한다고 믿습니다.

이 견해는 2014년 베스트셀러 책으로 유명해졌습니다. 초 지능 철학자 닉 보스트롬(Nick Bostrom)은 컴퓨터의 지능 향상이 인류의 미래에 직접적인 위협이 될 수 있다고 부분적으로 주장했습니다. Bostrom은 지능을 정확하게 정의한 적이 없지만 AI 정렬 커뮤니티의 다른 대부분과 마찬가지로 나중에 정의를 채택했습니다. 관절 모양의 AI 연구원에 의해 스튜어트 러셀 "개체가 인식한 바에 따라 목표를 달성할 것으로 예상되는 행동을 선택하는 경우 개체는 대략적으로 지능적인 것으로 간주됩니다."

Bostrom은 AI의 위험에 대한 그의 견해를 두 가지 논문에 근거했습니다. 첫 번째는 직교성 테제인데, Bostrom의 말에 따르면 “지능과 최종 목표는 가능한 에이전트가 자유롭게 변할 수 있는 직교 축입니다. 다시 말해, 원칙적으로 어떤 수준의 지능도 어느 정도 최종 목표와 결합될 수 있습니다.” 두 번째는 도구적 수렴 테제(instrumental convergence thesis)로, 이는 에이전트가 최종 목표를 달성할 가능성이 더 높아지는 한 지능형 에이전트가 자신의 생존, 자기 개선 및 자원 획득을 촉진하는 방식으로 행동할 것임을 암시합니다. 그런 다음 그는 마지막으로 한 가지 가정을 했습니다. 연구자들은 곧 "거의 모든 관심 영역에서 인간의 인지 성능을 훨씬 능가하는" AI 초지능을 만들 것입니다.

Bostrom과 AI 정렬 커뮤니티의 다른 사람들에게 이 전망은 초지능 AI를 우리의 바람과 가치에 맞추는 데 성공하지 않는 한 인류에게 파멸을 의미합니다. Bostrom은 현재 유명한 사고 실험을 통해 이러한 위험을 설명합니다. Bostrom의 논문에 따르면 이 목표를 달성하기 위해 AI 시스템은 초인적인 탁월함과 창의성을 사용하여 자신의 힘과 통제력을 높이고 궁극적으로 더 많은 종이 클립을 제조하기 위해 전 세계 자원을 획득할 것입니다. 인류는 멸종하겠지만 종이 클립 생산은 실제로 최대화될 것입니다.

지능이 목표를 달성할 수 있는 능력으로 정의되고, 어떤 목표든 인간이 초지능 AI 에이전트에 "삽입"할 수 있으며, 그러한 에이전트가 그 목표를 달성하기 위해 초지능을 사용하여 무엇이든 할 것이라고 믿는다면, 당신은 같은 곳에 도착하다 결론 러셀은 이렇게 말했습니다.

인간의 욕망을 잘못 해석한 통제 불능 기계에 의해 인류가 위협받는 공상과학 소설의 친숙한 비유입니다. 이제 AI 연구 커뮤니티의 중요하지 않은 부분은 이러한 종류의 시나리오가 실생활에서 펼쳐지는 것에 대해 깊이 우려하고 있습니다. 수십 개의 기관이 이미 이 문제에 수억 달러를 지출했으며 전 세계 대학과 Google, Meta 및 OpenAI와 같은 대형 AI 회사에서 정렬에 대한 연구 노력이 진행 중입니다.

실직, 편견, 사생활 침해, 잘못된 정보 확산과 같은 초지능적이지 않은 AI가 제기하는 보다 즉각적인 위험은 어떻습니까? 이러한 단기적 위험에 주로 관심이 있는 커뮤니티와 장기적인 조정 위험에 대해 더 걱정하는 커뮤니티 사이에는 겹치는 부분이 거의 없는 것으로 나타났습니다. 사실 AI 문화 전쟁과 같은 것이 있습니다. 한쪽은 비현실적인 기술 미래주의로 보는 것보다 이러한 현재의 위험에 대해 더 걱정하고 다른 한쪽은 초지능 AI가 제기하는 잠재적인 재앙적 위험보다 덜 시급한 현재 문제를 고려합니다.

이러한 특정 커뮤니티 외부의 많은 사람들에게 AI 정렬은 존경받는 지도자, 의심의 여지가 없는 교리 및 잠재적으로 전능한 적(비동맹 초지능 AI)과 싸우는 헌신적인 제자가 있는 종교처럼 보입니다. 실제로 컴퓨터 과학자이자 블로거인 Scott Aaronson은 최근 유명한 이제 AI 정렬 신앙의 "정통" 및 "개혁" 분기가 있습니다. 전자는 "인간을 파괴하려고 노력하면서 인간을 속이는 잘못 정렬된 AI"에 대해 거의 전적으로 걱정한다고 그는 썼습니다. 대조적으로 그는 "우리는 AI 개혁 위험을 감수하는 사람들이 그런 가능성을 품고 있지만 나쁜 인간이 무기화한 강력한 AI에 대해 훨씬 더 일찍 실존적 위험을 초래할 것으로 예상하는 것에 대해 걱정합니다."라고 썼습니다.

많은 연구자들이 정렬 기반 프로젝트에 적극적으로 참여하고 있습니다. 원칙을 전달하려는 시도 기계에 대한 도덕 철학의 대규모 언어 모델 학습 크라우드소싱된 윤리적 판단에 대해. 이러한 노력 중 어느 것도 기계가 실제 상황에 대해 추론하도록 하는 데 특히 유용하지 않았습니다. 많은 저술가들은 기계가 인간의 선호도와 가치를 학습하는 데 방해가 되는 많은 장애물에 주목했습니다. 결국 기계가 누구의 가치를 배우도록 해야 하는지 명확하지 않습니다.

얼라인먼트 커뮤니티의 많은 사람들은 앞으로 나아갈 가장 유망한 경로가 다음과 같은 기계 학습 기술이라고 생각합니다. 역 강화 학습 (IRL). IRL을 사용하면 기계에 최대화할 목표가 주어지지 않습니다. 이러한 "삽입된" 목표는 얼라인먼트 지지자들이 생각하기에 종이 클립 최대화 시나리오로 부주의하게 이어질 수 있습니다. 대신 기계의 임무는 인간의 행동을 관찰하고 그들의 선호도, 목표 및 가치를 추론하는 것입니다. 최근 몇 년 동안 연구자들은 IRL을 사용하여 비디오 게임을 하기 위해 기계를 훈련시키다 인간을 관찰하고 로봇을 가르치면서 백플립을 하는 방법 인간의 점진적인 피드백을 제공함으로써(사람들은 로봇의 다양한 시도에 대한 짧은 클립을 보고 가장 잘 보이는 것을 선택했습니다).

유사한 방법이 기계에게 인간 가치에 대한 보다 미묘하고 추상적인 아이디어를 가르칠 수 있는지 여부는 불확실합니다. 작가인 브라이언 크리스천은 AI 정렬에 관한 대중 과학 서적,은 낙관적입니다. 또는 '친절'. 또는 '좋은' 행동.”

그러나 이것은 도전을 과소 평가한다고 생각합니다. 친절과 좋은 행동과 같은 윤리적 개념은 지금까지 IRL이 마스터한 것보다 훨씬 더 복잡하고 상황에 따라 다릅니다. AI 시스템에서 우리가 확실히 원하는 가치인 "진실성"의 개념을 고려하십시오. 실제로 오늘날의 대규모 언어 모델의 주요 문제는 진실과 거짓을 구별할 수 없다는 것입니다. 동시에 우리는 때때로 우리의 AI 비서가 인간과 마찬가지로 그들의 진실성을 완화하기를 원할 수 있습니다. 즉, 사생활을 보호하고, 다른 사람을 모욕하는 것을 피하고, 다른 수많은 표현하기 어려운 상황 중에서 누군가를 안전하게 보호하기 위해서입니다.

다른 윤리적 개념도 마찬가지로 복잡합니다. 기계에게 윤리적 개념을 가르치기 위한 필수적인 첫 번째 단계는 처음에 기계가 인간과 같은 개념을 파악할 수 있도록 하는 것임이 분명해야 합니다. 가장 중요한 열린 문제.

더욱이 나는 AI 정렬이라는 개념의 기초가 되는 과학에서 훨씬 더 근본적인 문제를 봅니다. 대부분의 논의는 초지능 AI를 모든 인지 작업에서 인간을 능가하지만 여전히 인간과 같은 상식이 부족하고 본질적으로 이상하게 기계적인 상태로 남아 있는 기계로 상상합니다. 그리고 중요한 것은 Bostrom의 직교성 테제에 따라 기계는 자체 목표나 값을 갖지 않고 인간이 목표를 삽입하기를 기다리는 대신 초지능을 달성했습니다.

그러나 지능이 이런 식으로 작동할 수 있습니까? 현재 심리학이나 신경과학의 어떤 것도 이러한 가능성을 뒷받침하지 않습니다. 적어도 인간의 경우 지능은 우리의 목표 및 가치뿐만 아니라 우리의 자아감, 특정 사회 및 문화적 환경과도 깊이 연결되어 있습니다. 일종의 순수 지능이 이러한 다른 요인들과 분리될 수 있다는 직관은 많은 예측 실패 AI의 역사에서. 우리가 알고 있는 바에 따르면 일반적으로 지능적인 AI 시스템의 목표는 쉽게 삽입될 수 없지만 자체적인 사회적 및 문화적 양육의 결과로 우리처럼 발전해야 할 가능성이 훨씬 더 높아 보입니다.

그의 책 서문에서 휴먼 호환, Russell은 정렬 문제에 대한 연구의 시급성을 주장합니다. ” 그러나 지능이 무엇인지, 지능이 우리 삶의 다른 측면과 얼마나 분리될 수 있는지에 대한 더 나은 이해 없이는 문제를 정의할 수도 없으며 해결책을 찾을 수도 없습니다. 정렬 문제를 올바르게 정의하고 해결하는 것은 쉽지 않습니다. 그것은 우리가 광범위하고 과학적 기반의 지능 이론을 개발하도록 요구할 것입니다.

타임 스탬프 :

더보기 콴타마진