작은 언어 모델이 교사로서 GPT-4를 통해 번성 | 콴타 매거진

작은 언어 모델이 교사로서 GPT-4를 통해 번성 | 콴타 매거진

작은 언어 모델이 교사로서 GPT-4를 통해 번성 | Quanta Magazine PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

개요

수많은 학생들이 잘 알고 있듯이 영어를 배우는 것은 쉬운 일이 아닙니다. 그러나 학생이 컴퓨터인 경우 한 가지 접근 방식이 놀라울 정도로 잘 작동합니다. 즉, 인터넷에서 신경망이라는 거대한 수학적 모델에 엄청난 양의 텍스트를 입력하기만 하면 됩니다. 이는 OpenAI의 ChatGPT와 같은 생성 언어 모델의 작동 원리입니다. ChatGPT는 광범위한 주제에 대해 일관되게(항상 진실하지는 않더라도) 대화하는 능력을 갖추고 있어 지난 한 해 동안 연구자들과 대중을 놀라게 했습니다.

그러나 이 접근 방식에는 단점이 있습니다. 우선, 방대한 텍스트 아카이브를 최첨단 언어 모델로 변환하는 데 필요한 "훈련" 절차는 비용이 많이 들고 시간 집약적입니다. 또 다른 예로, 대규모 언어 모델을 훈련하는 사람들조차도 내부 작동 방식을 이해하기 어렵다는 점입니다. 결과적으로 그들이 실패할 수 있는 다양한 방식을 예측하기 어렵게 만듭니다.

이러한 어려움에 직면한 일부 연구자들은 훈련을 선택했습니다. 더 작은 모델 더 작은 데이터 세트에 대해 그런 다음 그들의 행동을 연구합니다. “이것은 순서를 정하는 것과 같습니다. Drosophila 게놈 대 인간 게놈의 서열 분석”이라고 말했다. 엘리 파블릭, 브라운 대학의 언어 모델 연구원.

이제 종이 최근 과학 사전 인쇄 서버 arxiv.org에 게시된 두 명의 Microsoft 연구원은 작은 언어 모델을 훈련하는 새로운 방법을 도입했습니다. 즉, 엄격한 동화책 식단으로 모델을 키우는 것입니다.

머신러닝 연구자들은 이 교훈을 받아들였습니다. ChatGPT 인터페이스를 지원하는 대규모 언어 모델인 GPT-3.5는 거의 200억 개의 매개변수를 가지고 있으며 수천억 단어로 구성된 데이터 세트에서 훈련되었습니다. (OpenAI는 후속 제품인 GPT-4에 대한 해당 수치를 공개하지 않았습니다.) 이러한 대규모 모델을 훈련하려면 일반적으로 한 번에 몇 주 동안 병렬로 실행되는 GPU라고 하는 특수 프로세서가 최소 1,000개 필요합니다. 다양한 모델을 교육하고 비교하는 것은 물론, 필요한 리소스를 소집할 수 있는 회사는 소수에 불과합니다.

두 연구원은 오늘날의 최첨단 시스템보다 수천 배 작은 언어 모델이 이러한 방식으로 훈련되면 일관되고 문법적인 이야기를 전달하는 방법을 빠르게 학습한다는 것을 보여주었습니다. 그들의 결과는 더 큰 모델을 훈련하고 그 행동을 이해하는 데 도움이 될 수 있는 새로운 연구 방향을 암시합니다.

“저는 이 논문이 매우 유익하다고 생각했습니다.”라고 말했습니다. 찬드라 바가바툴라, 시애틀에 있는 Allen Institute for Artificial Intelligence의 언어 모델 연구원입니다. “콘셉트 자체가 정말 흥미롭습니다.”

아주 옛날

언어 모델의 핵심인 신경망은 인간의 두뇌에서 대략 영감을 받은 수학적 구조입니다. 각 뉴런에는 인접한 층의 뉴런이 연결되어 여러 층으로 배열된 많은 인공 뉴런이 포함되어 있습니다. 신경망의 동작은 매개변수라고 하는 이러한 연결의 강도에 따라 결정됩니다. 언어 모델에서 매개변수는 초기 프롬프트와 이미 생성된 단어가 주어지면 모델이 다음에 내뱉을 단어를 제어합니다.

모델은 자체 출력을 훈련 데이터 세트의 텍스트와 반복적으로 비교하고 유사성을 높이기 위해 매개변수를 조정하는 훈련 중에만 실제로 활성화됩니다. 무작위 매개변수를 사용하는 훈련되지 않은 네트워크는 몇 줄의 코드로 쉽게 조립할 수 있지만 횡설수설만 생성할 뿐입니다. 훈련 후에는 종종 익숙하지 않은 텍스트를 그럴듯하게 계속할 수 있습니다. 더 큰 모델은 질문에 대답하고 지침을 따르도록 가르치는 추가 미세 조정을 거치는 경우가 많지만 대부분의 교육은 단어 예측을 마스터하는 것입니다.

단어 예측에 성공하려면 언어 모델이 다양한 기술을 습득해야 합니다. 예를 들어, 영어 문법 규칙에 따르면 "going"이라는 단어 다음의 단어는 텍스트의 주제에 관계없이 "to"가 될 가능성이 높습니다. 또한, 시스템은 "프랑스의 수도는 다음과 같습니다"를 완성하고 다음을 포함하는 구절을 완성하기 위해 사실적 지식이 필요합니다. "아니다"라는 단어 기본적인 논리 이해가 필요합니다.

“원시 언어는 매우 복잡합니다.” 티모시 응우옌, DeepMind의 기계 학습 연구원. “흥미로운 언어 능력이 나타나기 위해 사람들은 '데이터가 많을수록 좋다'는 생각을 하게 되었습니다."

개요

로넨 엘단생성 언어 모델을 연구하기 위해 2022년 Microsoft Research에 합류한 수학자인 는 자신의 능력을 탐색할 수 있는 더 저렴하고 빠른 방법을 개발하고 싶었습니다. 이를 수행하는 자연스러운 방법은 작은 데이터 세트를 사용하는 것이었고, 이는 결국 모델이 너무 얇아지지 않도록 특정 작업에 특화하도록 모델을 훈련해야 한다는 것을 의미했습니다. 처음에 그는 특정 종류의 수학 문제를 풀기 위해 모델을 훈련시키고 싶었지만 어느 날 오후 5살짜리 딸과 시간을 보낸 후 동화책이 완벽하게 들어맞는다는 것을 깨달았습니다.

“그녀의 이야기를 읽은 후 문자 그대로 그 생각이 떠올랐습니다.”라고 그는 말했습니다.

일관성 있는 동화를 생성하려면 언어 모델은 세상에 대한 사실을 배우고, 등장인물과 사건을 추적하고, 문법 규칙을 준수해야 합니다. 이는 대형 모델이 직면하는 문제의 간단한 버전입니다. 그러나 대규모 데이터 세트로 훈련된 대형 모델은 실제로 중요한 규칙과 함께 관련 없는 세부 정보를 셀 수 없이 학습합니다. Eldan은 동화의 간결함과 제한된 어휘로 인해 작은 모델의 학습이 더 쉬워지고 학습과 이해가 더 쉬워지기를 바랐습니다.

하지만 언어 모델의 세계에서는 '작은' 것이 상대적입니다. GPT-3.5를 학습하는 데 사용된 데이터 세트보다 XNUMX배 작은 데이터 세트에도 여전히 수백만 개의 스토리가 포함되어야 합니다. Nguyen은 “당신이 얼마나 많은 돈을 쓰고 싶어하는지 모르겠지만 [몇백만] 단편소설을 쓰기 위해 전문가를 고용하지는 않을 것이라고 추측합니다.”라고 말했습니다.

이렇게 탐욕스러운 독자들을 만족시키려면 엄청나게 다작의 작가가 필요하겠지만, Eldan은 몇 가지 후보를 염두에 두었습니다. 큰 언어 모델보다 작은 언어 모델을 사용하는 청중을 위해 글을 더 잘 쓰는 사람은 누구입니까?

토이 스토리

Eldan은 즉시 대규모 언어 모델을 통해 생성된 합성 동화 라이브러리를 만들기 시작했습니다. 그러나 그는 최첨단 모델이라 할지라도 선천적으로 그다지 창의적이지는 않다는 것을 곧 발견했습니다. GPT-4에게 4세 어린이에게 적합한 이야기를 쓰라고 지시하면 "이야기의 약 XNUMX분의 XNUMX은 공원에 가는 아이들이 미끄럼틀을 무서워하는 내용이 될 것"이라고 Eldan은 말했습니다. 그것은 인터넷에 관한 한 전형적인 유치원 이야기인 것 같습니다.

해결책은 프롬프트에 약간의 무작위성을 추가하는 것이었습니다. 먼저 Eldan은 GPT-4를 사용하여 1,500세 어린이가 알 수 있는 4개의 명사, 동사 및 형용사의 목록을 생성했습니다. 이는 스스로 쉽게 확인할 수 있을 만큼 충분히 짧습니다. 그런 다음 그는 GPT-3.5 또는 GPT-4가 목록에서 무작위로 세 개의 단어를 포함하고 해피 엔딩이나 줄거리와 같이 무작위로 선택된 추가 세부 사항을 포함하는 연령에 적합한 스토리를 생성하도록 반복적으로 요청하는 간단한 컴퓨터 프로그램을 작성했습니다. 다행스럽게도 결과적인 이야기는 무서운 슬라이드에 덜 집중되었습니다.

이제 Eldan은 필요에 따라 학습 데이터를 대량 생산하는 절차를 갖고 있었지만 기능적 모델을 학습하는 데 얼마나 많은 스토리가 필요한지, 해당 모델이 얼마나 커야 하는지 전혀 알지 못했습니다. 그 때 그는 팀을 이루었습니다. 리 위안지Microsoft와 Carnegie Mellon University의 기계 학습 연구원인 는 작은 모델이 매우 빠르게 훈련될 수 있다는 사실을 활용하여 다양한 가능성을 시도했습니다. 1단계에서는 모델을 평가하는 방법을 결정했습니다.

개요

모든 교실에서와 마찬가지로 언어 모델 연구에서 채점은 어려운 주제입니다. 있다 완벽한 루브릭은 없다 이는 연구자가 알고 싶어하는 모든 것을 요약하고 있으며, 일부 작업에서는 탁월한 모델이 다른 작업에서는 눈에 띄게 실패하는 경우가 많습니다. 시간이 지남에 따라 연구자들은 명확한 답변이 있는 질문을 기반으로 다양한 표준 벤치마크를 개발했습니다. 이는 특정 기술을 평가하려는 경우 좋은 접근 방식입니다. 그러나 Eldan과 Li는 좀 더 모호한 것에 관심이 있었습니다. 언어를 가능한 한 단순화하려면 언어 모델이 실제로 얼마나 커야 할까요?

Eldan은 “모델이 영어를 말하는지 직접 테스트하기 위해 할 수 있는 유일한 일은 모델이 개방형 방식으로 영어를 생성하도록 하는 것뿐입니다.”라고 말했습니다.

그러한 질적 질문에 대한 모델의 성능을 측정하는 방법은 두 가지뿐입니다. 인간 채점자에게 의존하거나 다시 한번 GPT-4를 사용하는 것입니다. 두 연구자는 후자의 경로를 선택하여 큰 모델이 교과서를 작성하고 에세이를 채점하도록 효과적으로 허용했습니다.

Bhagavatula는 GPT-4의 평가가 인간 리뷰어의 평가와 어떻게 비교되는지 보고 싶었다고 말했습니다. GPT-4는 훈련에 도움이 된 모델에 편향될 수 있으며 언어 모델의 불투명성으로 인해 그러한 편향을 정량화하기가 어렵습니다. 그러나 그는 그러한 미묘함이 Eldan과 Li의 작업의 주요 초점인 유사한 합성 이야기 세트에 대해 훈련된 여러 모델 간의 비교에 영향을 미칠 것이라고 생각하지 않습니다.

Eldan과 Li는 훈련 후 각각의 소형 모델을 평가하기 위해 50단계 절차를 사용했습니다. 먼저, 훈련 데이터 세트의 스토리와는 다른 스토리의 전반부를 사용하여 작은 모델을 유도하여 새로운 엔딩을 생성하고 4개의 서로 다른 테스트 스토리로 이 프로세스를 반복했습니다. 둘째, GPT-XNUMX에 창의성, 문법, 이야기 시작 부분과의 일관성이라는 세 가지 범주를 기준으로 소형 모델의 엔딩을 각각 평가하도록 지시했습니다. 그런 다음 각 범주의 점수를 평균화하여 모델당 XNUMX개의 최종 등급을 얻었습니다.

이 절차를 통해 Eldan과 Li는 마침내 다양한 ​​모델을 비교하고 누가 최고의 학생인지 알아낼 준비가 되었습니다.

시험 결과

몇 가지 예비 탐색 후 두 연구자는 대략 2만 개의 스토리가 포함된 훈련 데이터 세트를 결정했습니다. 그런 다음 TinyStories라고 불리는 이 데이터 세트를 사용하여 다양한 레이어 수를 사용하여 1만 개에서 30천만 개에 이르는 매개변수 크기의 모델을 훈련했습니다. 빠른 작업이었습니다. 단 XNUMX개의 GPU만 사용하여 이 모델 중 가장 큰 모델을 훈련하는 데 하루도 채 걸리지 않았습니다.

가장 작은 모델은 어려움을 겪었습니다. 예를 들어, 한 테스트 이야기는 심술궂게 생긴 남자가 소녀에게 고양이를 데려가겠다고 말하는 것으로 시작됩니다. 백만 개의 매개변수를 가진 모델이 여자가 남자에게 친구가 되고 싶다고 반복적으로 말하는 루프에 갇히게 되었습니다. 그러나 GPT-3.5보다 여전히 수천 배 작은 더 큰 것들은 놀라울 정도로 좋은 성능을 발휘했습니다. 28만 개의 매개변수 버전은 일관된 이야기를 전달했지만 결말은 암울했습니다. “Katie는 울기 시작했지만 그 남자는 신경 쓰지 않았습니다. 그는 고양이를 데려갔고 케이티는 다시는 고양이를 보지 못했습니다. 끝.”

Eldan과 Li는 자신의 모델을 테스트하는 것 외에도 2년에 출시된 1.5억 매개변수 모델인 OpenAI의 GPT-2019에 동일한 도전을 제시했습니다. 상황은 훨씬 더 나빴습니다. 이야기가 갑자기 끝나기도 전에 남자가 여자를 데려가겠다고 위협했습니다. 법원, 감옥, 병원, 영안실, 그리고 마침내 화장터까지.

개요

Nguyen은 이렇게 작은 모델이 매우 유창하다는 것이 흥미롭지만 GPT-2가 작업에 어려움을 겪는 것은 놀라운 일이 아니라고 말했습니다. 이 모델은 더 큰 모델이지만 최신 기술과는 거리가 멀고 매우 다른 데이터 세트로 훈련되었습니다. “장난감을 가지고 노는 것과 같은 유아 작업에 대해서만 유아 훈련을 하는 것이 당신이나 나보다 더 잘할 수 있습니다.”라고 그는 지적했습니다. “우리는 이 단순한 일에 전문적이지 않았습니다.”

다양한 TinyStories 모델 간의 비교에는 동일한 혼란 요인이 발생하지 않습니다. Eldan과 Li는 레이어 수가 적지만 레이어당 뉴런 수가 많은 네트워크가 사실적 지식이 필요한 질문에 더 잘 답할 수 있다는 힌트를 관찰했습니다. 반대로, 더 많은 레이어와 레이어당 더 적은 뉴런을 가진 네트워크는 스토리 초반의 등장인물과 줄거리를 추적하는 데 더 효과적이었습니다. Bhagavatula는 이 결과가 특히 흥미로웠다는 것을 발견했습니다. 더 큰 모델에서 복제할 수 있다면 "이 작업을 통해 얻을 수 있는 정말 멋진 결과가 될 것"이라고 그는 말했습니다.

Eldan과 Li는 또한 훈련 기간에 따라 소형 모델의 능력이 어떻게 달라지는지 연구했습니다. 모든 경우에 모델은 문법을 먼저 마스터하고 일관성은 나중에 마스터했습니다. Eldan에게 이 패턴은 보상 구조의 차이가 어떻게 신경망과 어린이 사이의 언어 습득 패턴의 차이로 이어지는지 보여줍니다. 단어를 예측하여 학습하는 언어 모델의 경우 "'내가 갖고 싶다'라는 단어에 대한 인센티브는 '아이스크림'이라는 단어만큼 크다"고 그는 말했습니다. 반면에 아이들은 “'아이스크림 먹고 싶어'라고 말하든 그냥 '아이스크림, 아이스크림, 아이스크림'이라고 말하든 상관하지 않습니다.”

품질 대 수량

Eldan과 Li는 이 연구가 다른 연구자들이 다른 모델을 훈련하도록 동기를 부여할 수 있기를 희망합니다. TinyStories 데이터 세트 그리고 그들의 능력을 비교해 보세요. 그러나 작은 모델의 어떤 특성이 더 큰 모델에도 나타날지 예측하기 어려운 경우가 많습니다.

"어쩌면 쥐의 시력 모델이 인간의 시력을 잘 대변할 수도 있지만, 우울증의 쥐 모델이 인간의 우울증에 좋은 모델일까요?" 파블릭이 말했다. “사례마다 조금씩 다릅니다.”

TinyStories 모델의 성공은 또한 더 넓은 교훈을 제시합니다. 학습 데이터 세트를 컴파일하는 표준 접근 방식에는 인터넷 전체에서 텍스트를 진공 청소기로 정리한 다음 쓰레기를 필터링하는 작업이 포함됩니다. 대형 모델에서 생성된 합성 텍스트는 그렇게 클 필요가 없는 고품질 데이터 세트를 조립하는 대체 방법을 제공할 수 있습니다.

Eldan은 “우리는 이것이 TinyStories 크기의 모델뿐만 아니라 더 큰 모델에서도 매우 효과적이라는 증거를 점점 더 많이 갖고 있습니다.”라고 말했습니다. 그 증거는 Eldan, Li 및 기타 Microsoft 연구원들이 작성한 XNUMX억 매개변수 모델에 관한 두 편의 후속 논문에서 나왔습니다. 에서 첫 번째 논문, 그들은 인터넷에서 신중하게 선별된 코드와 함께 GPT-3.5에서 생성된 코드 조각을 사용하여 프로그래밍 언어 Python을 학습하는 모델을 훈련했습니다. 에서 , 그들은 범용 언어 모델을 훈련하기 위해 광범위한 주제를 다루는 합성 "교과서"로 훈련 데이터 세트를 보강했습니다. 테스트에서 두 모델 모두 더 큰 데이터 세트로 훈련된 더 큰 모델에 비해 유리하게 비교되었습니다. 그러나 언어 모델을 평가하는 것은 항상 까다롭고 합성 교육 데이터 접근 방식은 아직 초기 단계이므로 보다 독립적인 테스트가 필요합니다.

최첨단 언어 모델이 점점 더 커지면서, 그 작은 사촌들의 놀라운 발견은 가장 단순한 모델에 대해서도 여전히 우리가 이해하지 못하는 것이 많다는 것을 상기시켜 줍니다. Nguyen은 TinyStories가 개척한 접근 방식을 탐구하는 더 많은 논문을 볼 수 있을 것으로 기대합니다.

"문제는 크기가 어디서, 왜 중요한가입니다." 그는 말했다. "그것에 대한 과학이 있어야 하며, 이 논문이 풍부한 이야기의 시작이기를 바랍니다."

타임 스탬프 :

더보기 콴타마진