GPT-4 を教師として使用すると、小さな言語モデルが成功します | クアンタマガジン

GPT-4 を教師として使用すると、小さな言語モデルが成功します | クアンタマガジン

GPT-4 を教師として使用すると、小さな言語モデルが成功します | Quanta Magazine PlatoBlockchain Data Intelligence。垂直検索。あい。

概要

無数の学生がよく知っているように、英語を学ぶのは簡単な作業ではありません。 しかし、生徒がコンピュータの場合、あるアプローチが驚くほどうまく機能します。それは、インターネットから山ほどのテキストをニューラル ネットワークと呼ばれる巨大な数学モデルに入力するだけです。 これが、OpenAI の ChatGPT のような生成言語モデルの背後にある動作原理であり、幅広いトピックについて (必ずしも真実ではないにしても) 一貫して会話できるその能力は、過去 XNUMX 年間研究者や一般の人々を驚かせてきました。

しかし、このアプローチには欠点もあります。 まず、膨大なテキスト アーカイブを最先端の言語モデルに変換するために必要な「トレーニング」手順には、コストと時間がかかります。 もう XNUMX つは、大規模な言語モデルをトレーニングする人でさえ、その内部の仕組みを理解するのが難しいということです。 そのため、さまざまな失敗の可能性を予測することが困難になります。

こうした困難に直面して、一部の研究者は訓練を受けることを選択しました。 小型モデル より小さなデータセットを対象にして、その動作を研究します。 「それは順番を決めるようなものです ショウジョウバエ ゲノムとヒトゲノムの配列決定の違いだ」と述べた。 エリー・パブリック、ブラウン大学の言語モデル研究者。

さて、 最近、科学プレプリント サーバー arxiv.org に投稿されたマイクロソフトの研究者 XNUMX 人は、小さな言語モデルをトレーニングするための新しい方法を導入しました。それは、童話の厳しい食事で言語モデルを育てるというものです。

機械学習の研究者はこの教訓を受け入れています。 ChatGPT インターフェイスを強化する大規模な言語モデルである GPT-3.5 には、約 200 億のパラメーターがあり、数千億の単語で構成されるデータ セットでトレーニングされました。 (OpenAI は、後継の GPT-4 に対応する数値を発表していません。) このような大規模なモデルをトレーニングするには、通常、GPU と呼ばれる少なくとも 1,000 個の専用プロセッサーを一度に数週間並列して実行する必要があります。 さまざまなモデルをトレーニングして比較することはおろか、必要なリソースを集めることができる企業はわずかです。

XNUMX人の研究者は、この方法でトレーニングすると、今日の最先端のシステムよりも数千倍小さい言語モデルが、一貫した文法的なストーリーを伝えることを急速に学習することを示した。 彼らの結果は、より大規模なモデルをトレーニングし、その動作を理解するのに役立つ可能性のある新しい研究の方向性を示唆しています。

「この論文は非常に有益だと思いました」と言いました チャンドラ・バガヴァトゥラ、シアトルのアレン人工知能研究所の言語モデル研究者。 「コンセプト自体はとても興味深いです。」

昔々

言語モデルの中心となるニューラル ネットワークは、人間の脳から大まかにインスピレーションを得た数学的構造です。 それぞれの層には、層状に配置された多くの人工ニューロンが含まれており、隣接する層のニューロン間は接続されています。 ニューラル ネットワークの動作は、パラメーターと呼ばれるこれらの接続の強さによって制御されます。 言語モデルでは、最初のプロンプトとすでに生成されている単語を考慮して、モデルが次にどの単語を吐き出すかをパラメーターによって制御します。

モデルが実際に機能するのは、トレーニング中にのみ、その出力とトレーニング データ セット内のテキストを繰り返し比較し、類似性を高めるためにパラメーターを調整するときです。 ランダムなパラメーターを備えたトレーニングされていないネットワークは、数行のコードから簡単に組み立てることができますが、意味不明な内容が生成されるだけです。 トレーニング後は、なじみのないテキストをもっともらしく続けることがよくあります。 大規模なモデルでは、質問に答えて指示に従うように学習するためのさらなる微調整が行われることがよくありますが、トレーニングの大部分は単語の予測を習得することです。

単語予測を成功させるには、言語モデルがさまざまなスキルを習得する必要があります。 たとえば、英語の文法規則によれば、テキストの主題に関係なく、「going」という単語の次の単語は「to」である可能性が高くなります。 さらに、システムは「フランスの首都は」を完成させ、次の内容を含む文章を完成させるには事実の知識を必要とします。 「ない」という言葉 論理の初歩的な理解が必要です。

「生の言語は非常に複雑です」と彼は言いました ティモシー・グエン、DeepMind の機械学習研究者。 「興味深い言語能力を生み出すために、人々は『データは多ければ多いほど良い』という手段に頼ってきました。」

概要

ロネン・エルダン生成言語モデルを研究するために 2022 年に Microsoft Research に入社した数学者は、自分の能力を探求するためのより安価で迅速な方法を開発したいと考えていました。 これを行うための自然な方法は、小さなデータセットを使用することであり、その結果、モデルがあまりにも薄く分散しないように、特定のタスクに特化するようにモデルをトレーニングする必要があることを意味しました。 当初、彼は特定のクラスの数学の問題を解決するためにモデルをトレーニングしたいと考えていましたが、ある午後、5 歳の娘と時間を過ごした後、童話が最適であることに気づきました。

「彼女の物語を読んだ後、文字通りそれが頭に浮かびました」と彼は言いました。

一貫した子供向けの物語を生成するには、言語モデルが世界に関する事実を学習し、登場人物や出来事を追跡し、文法規則を遵守する必要があります。これは、大規模なモデルが直面する課題の単純化されたバージョンです。 しかし、大規模なデータセットでトレーニングされた大規模なモデルは、本当に重要なルールとともに無数の無関係な詳細を学習します。 エルダン氏は、童話の簡潔さと語彙の制限により、小規模モデルの学習がより管理しやすくなり、トレーニングと理解の両方が容易になるのではないかと期待しました。

ただし、言語モデルの世界では、「小さい」というのは相対的なものです。GPT-3.5 のトレーニングに使用されるデータ セットよりも XNUMX 分の XNUMX 小さいデータ セットでも、数百万のストーリーを含める必要があります。 「あなたがどれくらいのお金を使いたいのかは分かりませんが、(数百万の)短編小説を書くために専門家を雇うつもりはないと思います」とグエン氏は語った。

これほど貪欲な読者を満足させるには並外れた多作の作家が必要だが、エルダンは何人かの候補者を念頭に置いていた。 大規模な言語モデルよりも小規模な言語モデルの聴衆に向けて書くのが適している人がいるでしょうか?

トイ・ストーリー

エルダンはすぐに、大規模な言語モデルによって生成された合成童話のライブラリの作成に着手しました。 しかし、彼はすぐに、最先端のモデルであっても、本来はあまり創造的ではないことに気づきました。 GPT-4 に 4 歳児に適した物語を書くように指示すると、「物語の約 XNUMX 分の XNUMX は、公園に行く子供たちが滑り台を怖がる話になるでしょう」とエルダン氏は言います。 インターネットに関する限り、これはどうやら典型的な幼稚園の話のようだ。

解決策は、プロンプトに少しランダム性を追加することでした。 まず、エルダンは GPT-4 を使用して、1,500 歳児が知っている可能性のある 4 個の名詞、動詞、形容詞のリストを生成しました。これは、自分で簡単に確認できるほど短いものです。 次に、GPT-3.5 または GPT-4 に、リストからランダムに選ばれた XNUMX つの単語と、ハッピーエンドやどんでん返しなどの追加のランダムに選択された詳細を含む、年齢に応じたストーリーを生成するよう繰り返し促す単純なコンピューター プログラムを作成しました。 結果として得られたストーリーは、幸いなことに、怖いスライドには重点が置かれていませんでした。

エルダン氏は、オンデマンドでトレーニング データを量産する手順を手に入れましたが、機能モデルをトレーニングするのに必要なストーリーの数や、そのモデルの大きさがどれくらい必要になるかはわかりませんでした。 そのとき彼はチームを組んだ 李源志マイクロソフトとカーネギーメロン大学の機械学習研究者は、小さなモデルを非常に迅速にトレーニングできるという事実を利用して、さまざまな可能性を試みました。 ステップ 1 は、モデルを評価する方法を決定することでした。

概要

言語モデルの研究においては、どの教室でも同様ですが、採点は厄介なテーマです。 あるよ 完璧なルーブリックはない これには研究者が知りたいすべてが凝縮されており、あるタスクでは優れたモデルでも、他のタスクでは見事に失敗することがよくあります。 時間をかけて、研究者は明確な答えを持つ質問に基づいてさまざまな標準ベンチマークを開発してきました。これは、特定のスキルを評価しようとする場合に適したアプローチです。 しかし、エルダンとリーは、もっと漠然としたことに興味を持っていました。それは、言語を可能な限り単純化する場合、言語モデルは実際にどれくらいの大きさにする必要があるのか​​ということです。

「モデルが英語を話すかどうかを直接テストするには、モデルにオープンエンドな方法で英語を生成させるしかないと思います」とエルダン氏は言う。

このような定性的な質問に対するモデルのパフォーマンスを測定するには、人間の採点者に頼る方法と、もう一度 GPT-4 に頼る方法の XNUMX つしかありません。 XNUMX人の研究者は後者のルートを選択し、実質的に大手モデルに教科書の執筆とエッセイの採点の両方を任せた。

バガヴァトゥラ氏は、GPT-4の評価が人間の査読者の評価と比べてどうなるのか知りたかったと述べた。GPT-4は訓練に役立ったモデルに偏っている可能性があり、言語モデルは不透明であるため、そのような偏りを定量化するのは難しい。 しかし、エルダン氏とリー氏の研究の主な焦点である、同様の合成ストーリーのセットで訓練された異なるモデル間の比較に、そのような微妙な点が影響を与えるとは考えていない。

Eldan と Li は、トレーニング後にそれぞれの小さなモデルを評価するために 50 段階の手順を使用しました。 まず、トレーニング データ セットとは異なるストーリーの前半を備えた小さなモデルに新しいエンディングを生成するよう促し、このプロセスを 4 の異なるテスト ストーリーで繰り返しました。 次に、GPT-XNUMX に対し、創造性、文法、物語の始まりとの一貫性という XNUMX つのカテゴリーに基づいて、小規模モデルの各結末を評価するよう指示しました。 次に、各カテゴリのスコアを平均し、最終的にモデルごとに XNUMX つの最終グレードを決定しました。

この手順を経て、エルダンとリーは最終的にさまざまなモデルを比較し、誰が優秀な生徒であるかを判断する準備が整いました。

試験結果

いくつかの予備調査の後、2 人の研究者は約 1 万のストーリーを含むトレーニング データ セットに落ち着きました。 次に、TinyStories と呼ばれるこのデータセットを使用して、さまざまな数のレイヤーを使用して、30 万から XNUMX 万のパラメーターのサイズのモデルをトレーニングしました。 作業は迅速でした。GPU を XNUMX つだけ使用したため、これらのモデルのうち最大のもののトレーニングには XNUMX 日もかかりませんでした。

最小モデルは苦戦しました。 たとえば、あるテストストーリーは、意地悪そうな男が女の子に猫を連れて行くと告げるところから始まります。 3.5 万パラメータのモデルは、女の子が男性に友達になりたいと繰り返し伝えるというループにはまりました。 しかし、より大きなもの(それでも GPT-28 よりも数千倍小さいもの)は、驚くほど優れたパフォーマンスを発揮しました。 XNUMX 万パラメータのバージョンでは、一貫したストーリーが語られていましたが、結末は悲惨でした。「ケイティは泣き始めましたが、男は気にしませんでした。 彼は猫を連れ去り、ケイティは二度と猫に会うことはありませんでした。 終わり。"

エルダンとリーは、自分たちのモデルをテストすることに加えて、2 年にリリースされた 1.5 億パラメータのモデルである OpenAI の GPT-2019 にも同じ課題を提示しました。それははるかにひどい結果でした。物語が突然終わる前に、男は少女を連れて行くと脅迫しました。裁判所、刑務所、病院、遺体安置所、そして最後は火葬場へ。

概要

グエン氏は、このような小さなモデルが非常に流暢であることは興味深いが、GPT-2 がこのタスクに苦労したことは驚くべきことではない、と述べました。GPT-XNUMX はより大きなモデルですが、最先端とは程遠く、まったく異なるデータセットでトレーニングされました。 「おもちゃで遊ぶなど、幼児向けの課題だけを訓練した幼児は、あなたや私よりも良い成績を収めることができるかもしれません」と彼は指摘した。 「私たちはこの単純なことに特化したわけではありません。」

異なる TinyStories モデル間の比較では、同じ交絡要因に悩まされることはありません。 エルダンとリーは、ネットワークの層数が少なく、層あたりのニューロン数が多い方が、事実の知識を必要とする質問に答えるのが得意であることを示唆していることを観察しました。 逆に、層が多く、層あたりのニューロンが少ないネットワークは、物語の初期の登場人物やプロット ポイントを追跡するのに優れていました。 バガヴァトゥラは、この結果が特に興味深いと感じました。 それをより大きなモデルで再現できれば、「それはこの研究から生まれる本当に素晴らしい結果になるでしょう。」と彼は言いました。

エルダンとリーは、小型モデルの能力がトレーニング期間にどのように依存するかも研究しました。 いずれの場合も、モデルは文法を最初に習得し、その後一貫性を習得しました。 エルダン氏にとって、このパターンは、報酬構造の違いがニューラル ネットワークと子どもの間の言語習得パターンの違いにどのようにつながるかを示しています。 単語を予測することで学習する言語モデルの場合、「『食べたい』という単語に対するインセンティブは、『アイスクリーム』という単語に対するインセンティブと同じくらい大きい」と同氏は述べた。 一方、子どもたちは「『アイスクリームが食べたい』と言うのか、ただ単に『アイスクリーム、アイスクリーム、アイスクリーム』と言うのかは気にしません」。

品質対数量

エルダンとリーは、この研究が他の研究者にさまざまなモデルを訓練する動機を与えることを望んでいます。 TinyStories データセット そしてその能力を比較します。 しかし、小さなモデルのどの特性が大きなモデルにも現れるかを予測するのは難しいことがよくあります。

「もしかしたらマウスの視覚モデルは人間の視覚をよく再現しているのかもしれないが、マウスのうつ病モデルは人間のうつ病の良いモデルなのだろうか?」 パブリック氏は語った。 「それぞれの場合において、それは少しずつ異なります。」

TinyStories モデルの成功は、より広範な教訓も示唆しています。 トレーニング データ セットをコンパイルする標準的なアプローチには、インターネット全体からテキストをバキュームし、ゴミをフィルタリングして取り除くことが含まれます。 大規模なモデルによって生成された合成テキストは、それほど大きくする必要のない高品質のデータセットを組み立てる別の方法を提供する可能性があります。

「これがTinyStoriesサイズのモデルだけでなく、より大きなモデルでも非常に効果的であるという証拠がますます増えています」とエルダン氏は述べた。 その証拠は、Eldan、Li、その他の Microsoft 研究者による XNUMX 億パラメータ モデルに関する XNUMX つのフォローアップ論文から得られます。 の中に 最初の論文、GPT-3.5 によって生成されたコードのスニペットと、インターネットから慎重に厳選されたコードを使用して、プログラミング言語 Python を学習するモデルをトレーニングしました。 の中に 2番目の、彼らは、汎用言語モデルをトレーニングするために、幅広いトピックをカバーする合成「教科書」でトレーニング データセットを強化しました。 彼らのテストでは、どちらのモデルも、大規模なデータセットでトレーニングされた大規模なモデルと比べて有利でした。 しかし、言語モデルの評価は常に困難であり、合成トレーニング データのアプローチはまだ初期段階にあり、より独立したテストが必要です。

最先端の言語モデルがますます大きくなるにつれて、それらの小さな親戚からの驚くべき発見は、最も単純なモデルについてさえ私たちがまだ理解していないことがたくさんあることを思い出させます。 グエン氏は、TinyStories が開拓したアプローチを研究する論文がさらに多く出ることを期待しています。

「問題は、サイズがどこで、そしてなぜ重要なのかということです。」 彼は言った。 「それについては科学が存在するはずであり、この論文が豊かな物語の始まりとなることを願っています。」

タイムスタンプ:

より多くの クアンタマガジン