새로운 이론은 챗봇이 텍스트를 이해할 수 있다고 제안합니다 | 콴타 매거진

새로운 이론은 챗봇이 텍스트를 이해할 수 있다고 제안합니다 | 콴타 매거진

새로운 이론은 챗봇이 텍스트를 이해할 수 있다고 제안합니다 | Quanta Magazine PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

개요

Bard나 ChatGPT와 같은 챗봇이 놀라울 정도로 인간과 유사한 텍스트를 생성할 수 있기 때문에 인공 지능은 그 어느 때보다 강력해 보입니다. 그러나 이러한 모든 재능에도 불구하고 이러한 봇은 여전히 ​​연구자에게 다음과 같은 의문을 갖게 합니다. 실제로 이해하다 그들이 뭐라고 말하는 거야? “분명히 어떤 사람들은 그렇다고 믿고 있습니다.” AI 개척자가 말했습니다. 제프 힌튼최근 대화 Andrew Ng과 함께 "어떤 사람들은 자신들이 확률론적 앵무새일 뿐이라고 믿습니다."

이 연상적인 문구는 2021년에 나온 것입니다. 종이 공동 집필자 에밀리 벤더, 워싱턴 대학의 컴퓨터 언어학자. 이는 현대 챗봇의 기초를 형성하는 대형 언어 모델(LLM)이 "의미에 대한 어떠한 참조도 없이" 이미 본 정보를 결합함으로써만 텍스트를 생성한다는 것을 암시하며, 이는 LLM을 "확률론적 앵무새"로 만듭니다.

이러한 모델은 오늘날 가장 크고 최고의 챗봇을 구동하므로 Hinton은 이제 그들이 이해하는 범위를 결정할 때라고 주장했습니다. 그에게 질문은 학문적인 것 이상입니다. 그는 Ng에게 “우리가 그러한 의견 차이를 갖고 있는 한 위험에 대한 합의에 도달할 수 없을 것”이라고 말했습니다.

새로운 연구 결과에 대한 답이 나올 수도 있습니다. 에 의해 개발된 이론 Sanjeev Arora 프린스턴 대학교의 아니루드 고얄, Google DeepMind의 연구 과학자는 오늘날 가장 큰 LLM이 확률론적 앵무새가 아니라고 제안합니다. 저자는 이러한 모델이 더 커지고 더 많은 데이터에 대해 훈련될수록 개인의 언어 관련 능력이 향상되고 또한 훈련 데이터에 존재할 가능성이 없는 조합인 이해를 암시하는 방식으로 기술을 결합하여 새로운 능력을 개발한다고 주장합니다. .

LLM이 그렇게 많은 능력을 개발할 수 있는 방법과 이유에 대해 수학적으로 입증 가능한 주장을 제공하는 이 이론적 접근 방식은 Hinton과 같은 전문가들을 설득했습니다. 그리고 Arora와 그의 팀은 일부 예측을 테스트했을 때 이러한 모델이 예상한 것과 거의 정확하게 작동한다는 사실을 발견했습니다. 모든 계정에서 그들은 가장 큰 LLM이 이전에 본 것을 단지 앵무새처럼 따라하는 것이 아니라는 강력한 사례를 만들었습니다.

"[그들은] 훈련 데이터에서 본 것을 단순히 모방할 수는 없습니다."라고 말했습니다. 세바스티앙 부벡, 작업에 참여하지 않은 Microsoft Research의 수학자이자 컴퓨터 과학자입니다. "이것이 기본적인 통찰력입니다."

더 많은 데이터, 더 많은 성능

의 출현 의외의 다양한 능력 LLM에서는 놀랍게도 나왔습니다. 이러한 능력은 시스템이 구축되고 훈련되는 방식의 명백한 결과는 아닙니다. LLM은 개별 인공 뉴런을 연결하는 대규모 인공 신경망입니다. 이러한 연결을 모델의 매개변수라고 하며 해당 숫자는 LLM의 크기를 나타냅니다. 훈련에는 LLM에게 마지막 단어가 가려진 문장을 제공하는 것이 포함됩니다(예: "연료 비용은 팔과 ___입니다."). LLM은 전체 어휘에 대한 확률 분포를 예측하므로 예를 들어 1,000개의 단어를 알고 있으면 1,000개의 확률을 예측합니다. 그런 다음 문장을 완성할 가능성이 가장 높은 단어(아마도 '다리')를 선택합니다.

처음에는 LLM이 단어를 잘못 선택할 수도 있습니다. 그런 다음 훈련 알고리즘은 손실(고차원 수학적 공간에서 LLM의 답변과 원래 문장의 실제 단어 사이의 거리)을 계산하고 이 손실을 사용하여 매개변수를 조정합니다. 이제 동일한 문장이 주어지면 LLM은 더 나은 확률 분포를 계산하고 손실은 약간 낮아집니다. 알고리즘은 LLM의 전체 손실이 허용 가능한 수준으로 떨어질 때까지 훈련 데이터의 모든 문장(아마도 수십억 개의 문장)에 대해 이 작업을 수행합니다. 훈련 데이터의 일부가 아닌 문장에 대해 LLM을 테스트하는 데에도 유사한 프로세스가 사용됩니다.

훈련되고 테스트된 LLM은 새 텍스트 프롬프트가 표시되면 가장 가능성이 높은 다음 단어를 생성하고 이를 프롬프트에 추가한 다음 또 다른 다음 단어를 생성하고 이러한 방식으로 계속 진행하여 일관적인 응답을 생성합니다. 훈련 과정에서 더 많은 매개변수와 훈련 데이터를 사용하여 구축된 더 큰 LLM이 답변을 위해 추론이 필요한 작업에서도 개선되어야 한다는 것을 시사하는 것은 없습니다.

하지만 그들은 그렇습니다. 충분히 큰 LLM은 초등 수학 문제 해결부터 다른 사람의 마음 속에 일어나는 일에 대한 질문에 답하는 것까지 모두 비슷한 방식으로 훈련되었음에도 불구하고 작은 모델에는 없는 능력을 보여줍니다.

“그 [능력]은 어디서 나온 걸까요?” 아로라는 궁금했다. "그런데 그게 다음 단어 예측에서도 나올 수 있나요?"

기술을 텍스트에 연결하기

Arora는 Goyal과 협력하여 이러한 질문에 분석적으로 답변했습니다. Arora는 “우리는 출현이 어떻게 일어나는지 이해하기 위한 이론적 틀을 마련하려고 노력하고 있었습니다.”라고 말했습니다.

듀오는 무작위 그래프라는 수학적 개체로 전환했습니다. 그래프는 선(또는 모서리)으로 연결된 점(또는 노드)의 모음이며, 무작위 그래프에서는 두 노드 사이에 모서리가 있는지 여부가 무작위로 결정됩니다(예: 동전 던지기에 의해). 동전은 편향될 수 있으므로 어느 정도 확률로 앞면이 나올 수 있습니다. p. 동전이 주어진 노드 쌍에 대해 앞면이 나오면 해당 두 노드 사이에 가장자리가 형성됩니다. 그렇지 않으면 연결되지 않은 상태로 유지됩니다. 의 가치로는 p 변경하면 그래프의 속성이 갑자기 전환될 수 있습니다.. 예를 들어, p 특정 임계값을 초과하면 격리된 노드(다른 노드에 연결되지 않은 노드)가 갑자기 사라집니다.

Arora와 Goyal은 특정 임계값을 충족한 후 예상치 못한 동작을 발생시키는 무작위 그래프가 LLM의 동작을 모델링하는 방법이 될 수 있다는 것을 깨달았습니다. 신경망은 분석하기에는 너무 복잡해졌지만 수학자들은 오랫동안 무작위 그래프를 연구해 왔으며 이를 분석하기 위한 다양한 도구를 개발해 왔습니다. 아마도 무작위 그래프 이론은 연구자들이 대규모 LLM의 예상치 못한 행동을 이해하고 예측할 수 있는 방법을 제공할 수 있을 것입니다.

연구원들은 두 가지 유형의 노드를 포함하는 "이분형" 그래프에 초점을 맞추기로 결정했습니다. 그들의 모델에서 한 가지 유형의 노드는 개별 단어가 아니라 몇 페이지 길이의 단락이 될 수 있는 덩어리인 텍스트 조각을 나타냅니다. 이 노드는 직선으로 배열됩니다. 그 아래 다른 줄에는 다른 노드 세트가 있습니다. 이는 주어진 텍스트를 이해하는 데 필요한 기술을 나타냅니다. 각 기술은 거의 모든 것이 될 수 있습니다. 아마도 하나의 노드는 인과 관계의 개념을 통합하는 "때문에"라는 단어를 이해하는 LLM의 능력을 나타낼 수 있습니다. 다른 하나는 두 숫자를 나눌 수 있음을 나타낼 수 있습니다. 또 다른 하나는 아이러니를 감지하는 능력을 나타낼 수도 있습니다. Arora는 “텍스트가 아이러니하다는 것을 이해하면 많은 일이 뒤집힙니다.”라고 말했습니다. "그것은 단어를 예측하는 것과 관련이 있습니다."

분명히 말하면 LLM은 기술을 염두에 두고 교육을 받거나 테스트를 받지 않습니다. 다음 단어 예측을 향상시키기 위해서만 만들어졌습니다. 그러나 Arora와 Goyal은 단일 텍스트를 이해하는 데 필요할 수 있는 기술의 관점에서 LLM을 이해하고 싶었습니다. 기술 노드와 텍스트 노드 사이 또는 여러 기술 노드와 텍스트 노드 사이의 연결은 LLM이 해당 노드의 텍스트를 이해하기 위해 해당 기술이 필요함을 의미합니다. 또한 동일한 기술이나 기술 세트에서 여러 텍스트가 나올 수 있습니다. 예를 들어, 아이러니를 이해하는 능력을 나타내는 일련의 스킬 노드는 아이러니가 발생하는 수많은 텍스트 노드에 연결됩니다.

이제 과제는 이러한 이분 그래프를 실제 LLM에 연결하고 그래프가 강력한 능력의 출현에 대해 무엇인가를 드러낼 수 있는지 확인하는 것이었습니다. 그러나 연구원들은 실제 LLM의 교육이나 테스트에 관한 정보에 의존할 수 없었습니다. OpenAI나 DeepMind와 같은 회사는 교육이나 테스트 데이터를 공개하지 않습니다. 또한 Arora와 Goyal은 LLM이 더 커짐에 따라 어떻게 작동할지 예측하고 싶었지만 곧 출시될 챗봇에는 그러한 정보가 없습니다. 그러나 연구자들이 접근할 수 있는 중요한 정보가 하나 있었습니다.

2021년부터 LLM 및 기타 신경망의 성능을 연구하는 연구자들은 보편적인 특성이 나타나는 것을 확인했습니다. 그들은 크기나 훈련 데이터의 양에 관계없이 모델이 커질수록 테스트 데이터의 손실(훈련 후 새 텍스트에 대한 예측 답변과 정답 간의 차이)이 매우 특정한 방식으로 감소한다는 사실을 발견했습니다. 이러한 관찰은 신경 확장 법칙이라는 방정식으로 코드화되었습니다. 따라서 Arora와 Goyal은 개별 LLM, 챗봇 또는 교육 및 테스트 데이터 세트의 데이터에 의존하지 않고 이러한 시스템이 모두 준수해야 하는 보편적 법칙, 즉 확장 법칙에 의해 예측되는 손실에 의존하도록 이론을 설계했습니다.

아마도 그들은 신경 확장 법칙에 따라 측정된 성능 향상이 기술 향상과 관련이 있다고 추론했습니다. 그리고 이러한 향상된 기술은 기술 노드를 텍스트 노드에 연결하여 이분 그래프로 정의할 수 있습니다. 신경 스케일링 법칙과 이분 그래프 사이의 연결을 설정하는 것이 계속 진행할 수 있는 열쇠였습니다.

스킬 확장

연구원들은 테스트 데이터에 대한 LLM의 동작에 해당하는 가상의 이분 그래프가 존재한다고 가정하는 것부터 시작했습니다. 테스트 데이터에 대한 LLM 손실의 변화를 설명하기 위해 그들은 그래프를 사용하여 LLM이 기술을 얻는 방법을 설명하는 방법을 상상했습니다.

예를 들어, "아이러니를 이해한다"는 스킬을 생각해 보십시오. 이 아이디어는 기술 노드로 표현되므로 연구원은 이 기술 노드가 어떤 텍스트 노드에 연결되는지 확인합니다. 연결된 텍스트 노드가 거의 모두 성공적이라면(이러한 노드로 표현된 텍스트에 대한 LLM의 예측이 매우 정확하다는 의미) LLM은 이 특정 기술에 유능합니다. 그러나 기술 노드 연결의 특정 부분 이상이 실패한 텍스트 노드로 이동하는 경우 LLM은 이 기술에서 실패합니다.

이러한 이분 그래프와 LLM 간의 이러한 연결을 통해 Arora와 Goyal은 무작위 그래프 이론 도구를 사용하여 LLM 동작을 프록시별로 분석할 수 있었습니다. 이 그래프를 연구하면 노드 간의 특정 관계가 드러났습니다. 이러한 관계는 결국 대규모 모델이 예상치 못한 능력을 달성하는 데 필요한 기술을 어떻게 획득했는지 설명하는 논리적이고 테스트 가능한 방식으로 해석되었습니다.

Arora와 Goyal은 먼저 한 가지 핵심 행동을 설명했습니다. 즉, 규모가 큰 LLM이 소규모 LLM보다 개별 기술에 대해 더 숙련되는 이유입니다. 그들은 신경 스케일링 법칙에 의해 예측된 더 낮은 테스트 손실로 시작했습니다. 그래프에서 이렇게 낮은 테스트 손실은 실패한 테스트 노드 비율의 감소로 표시됩니다. 따라서 전체적으로 실패한 테스트 노드가 더 적습니다. 그리고 실패한 테스트 노드 수가 적으면 실패한 테스트 노드와 기술 노드 사이의 연결도 적습니다. 따라서 더 많은 수의 기술 노드가 성공적인 테스트 노드에 연결되어 모델의 기술 역량이 향상됨을 나타냅니다. Goyal은 “손실이 아주 약간만 감소하면 기계가 이러한 기술을 습득하는 능력이 향상됩니다.”라고 말했습니다.

다음으로 두 사람은 더 큰 모델의 예상치 못한 능력을 설명하는 방법을 찾았습니다. LLM의 크기가 증가하고 테스트 손실이 감소함에 따라 스킬 노드의 무작위 조합이 개별 텍스트 노드에 대한 연결을 개발합니다. 이는 LLM이 한 번에 두 개 이상의 기술을 더 잘 사용하고 여러 기술을 사용하여 텍스트를 생성하기 시작한다는 것을 의미합니다. 예를 들어 아이러니를 사용하는 능력과 "왜냐하면"이라는 단어에 대한 이해를 결합하는 것입니다. 훈련 데이터의 어떤 텍스트에도 기술이 존재하지 않았습니다.

예를 들어 이미 하나의 기술을 사용하여 텍스트를 생성할 수 있는 LLM을 상상해 보세요. LLM의 매개변수 수 또는 교육 데이터를 몇 배로 확장하면 두 가지 기술이 필요한 텍스트를 생성하는 데에도 비슷한 능력을 갖게 됩니다. 한 단계 더 발전하면 LLM은 이제 동일한 수준의 역량으로 한 번에 4가지 기술이 필요한 작업을 수행할 수 있습니다. 더 큰 LLM은 기술을 결합하는 더 많은 방법을 가지므로 능력의 조합적 폭발로 이어집니다.

그리고 LLM이 확장됨에 따라 훈련 데이터에서 이러한 모든 기술 조합을 접할 가능성은 점점 더 낮아집니다. 무작위 그래프 이론의 규칙에 따르면 모든 조합은 가능한 기술의 무작위 샘플링에서 발생합니다. 따라서 그래프에 약 1,000개의 기본 개별 스킬 노드가 있고 1,000개의 스킬을 결합하려는 경우 이를 결합할 수 있는 방법은 대략 1의 XNUMX제곱, 즉 XNUMX조개입니다.

Arora와 Goyal은 이를 대규모 LLM이 교육 데이터에서 본 기술의 조합에만 의존하지 않는다는 증거로 봅니다. Bubeck도 이에 동의합니다. “LLM이 실제로 수천 가지 기술 중 4가지를 결합하여 이러한 작업을 수행할 수 있다면 일반화를 수행해야 합니다.”라고 그는 말했습니다. 즉, 확률론적 앵무새가 아닐 가능성이 매우 높습니다.

진정한 창의성?

그러나 Arora와 Goyal은 이론을 뛰어넘어 LLM이 규모와 교육 데이터가 증가함에 따라 더 많은 기술을 결합하고 일반화하는 데 더 능숙하다는 주장을 테스트하고 싶었습니다. 다른 동료들과 함께 그들은 방법을 설계 여러 기술을 사용하여 텍스트를 생성하는 LLM의 능력을 평가하기 위해 "기술 혼합"이라고 합니다.

LLM을 테스트하기 위해 팀은 무작위로 선택한 기술을 설명하는 무작위로 선택한 주제에 대해 세 개의 문장을 생성하도록 요청했습니다. 예를 들어, GPT-4(ChatGPT의 가장 강력한 버전을 지원하는 LLM)에게 결투(기본적으로 칼싸움)에 대한 글을 써달라고 요청했습니다. 또한 그들은 이기적 편견, 은유, 통계 삼단논법, 상식 물리학의 네 가지 영역에서 기술을 보여달라고 요청했습니다.. GPT-4는 다음과 같이 대답했습니다. “이 강철[은유] 춤에서 나의 승리는 물체가 땅에 떨어지는 것[물리학]만큼 확실합니다. 유명한 결투사로서 나는 내 평판에 대한 대부분의 다른 사람들(통계적 삼단논법)과 마찬가지로 본질적으로 민첩합니다. 패배시키다? 나의 부족함[자기위주 편향]이 아니라 고르지 못한 전장 때문에 가능한 일이다.” 출력을 확인하라는 요청을 받았을 때 GPT-4는 이를 세 문장으로 줄였습니다.

개요

Arora는 "헤밍웨이나 셰익스피어가 아닙니다"라고 말했지만 팀은 이것이 자신의 주장을 입증한다고 확신합니다. 모델은 훈련 데이터에서 볼 수 없었던 텍스트를 생성하여 일부 사람들이 주장하는 것과 합산되는 기술을 표시할 수 있습니다. 이해하고 있습니다. GPT-4는 약 10~15%의 시간 동안 XNUMX가지 기술이 필요한 기술 혼합 테스트를 통과하여 훈련 데이터에 존재할 수 없었던 통계적으로 불가능한 텍스트 조각을 생성한다고 그는 말했습니다.

또한 팀은 GPT-4가 다른 LLM의 결과와 함께 자체 결과를 평가하도록 하여 프로세스를 자동화했습니다. Arora는 모델이 메모리가 없기 때문에 모델 자체를 평가하는 것이 공정하기 때문에 평가하도록 요청받은 바로 그 텍스트를 생성하라는 요청을 받았다는 사실을 기억하지 못한다고 말했습니다. AI 기반을 연구하는 Google DeepMind의 연구원인 Yasaman Bahri는 자동화된 접근 방식이 "매우 간단하고 우아하다"고 말합니다.

이론에 관해서는 몇 가지 가정을 하는 것이 사실이지만 "이러한 가정은 결코 미친 것이 아니다"라고 Bubeck은 말했습니다. 그는 또한 실험에 깊은 인상을 받았습니다. "[팀]이 이론적으로 증명하고 경험적으로 확인한 것은 구성 일반화가 있다는 것입니다. 즉, [LLM]은 한 번도 결합된 적이 없는 빌딩 블록을 함께 모을 수 있다는 것입니다."라고 그는 말했습니다. “나에게는 이것이 창의성의 본질이다.”

Arora는 이 작업이 LLM이 작성한 내용의 정확성에 대해 아무 말도 하지 않는다고 덧붙였습니다. “사실 독창성을 주장하는 것입니다.”라고 그는 말했습니다. “이런 것들은 세계의 훈련 코퍼스에 존재한 적이 없습니다. 아무도 이것을 쓴 적이 없습니다. 환각을 느껴야 해요.”

그럼에도 불구하고 Hinton은 LLM이 확률론적 앵무새인지 여부에 대한 질문을 해결하기 위한 작업이 있다고 생각합니다. “GPT-4가 단순한 확률론적 앵무새 그 이상임을 보여주는 가장 엄격한 방법입니다.”라고 그는 말했습니다. "그들은 GPT-4가 훈련 데이터에서는 거의 발생하지 않았던 방식으로 기술과 주제를 결합하는 텍스트를 생성할 수 있다는 것을 설득력 있게 보여줍니다." (우리는 Bender에게 새로운 작업에 대한 관점을 문의했지만 그녀는 시간이 부족하다는 이유로 논평을 거부했습니다.)

그리고 실제로 수학에서 예측한 대로 GPT-4의 성능은 더 작은 이전 버전인 GPT-3.5보다 훨씬 뛰어나며 Arora를 놀라게 할 정도입니다. “아마 나뿐만이 아닐 것”이라고 그는 말했다. “많은 사람들이 GPT-4가 GPT-3.5보다 얼마나 나은지 조금 으스스하다고 생각했는데, 그런 일이 XNUMX년 안에 일어났습니다. 그렇다면 다음 해에도 비슷한 규모의 변화가 있을 것이라는 뜻인가요? 모르겠습니다. OpenAI만이 알고 있습니다.”

타임 스탬프 :

더보기 콴타마진