独学の AI は、脳の仕組みと類似性を示しています PlatoBlockchain Data Intelligence. 垂直検索。 あい。

独学の AI は、脳の仕組みと類似性を示しています

ここ XNUMX 年間、最も印象的な人工知能システムの多くは、膨大な数のラベル付きデータを使用して教えられてきました。 たとえば、トラとトラを正しく区別するように人工ニューラル ネットワークを「トレーニング」するために、画像に「トラ猫」または「トラ猫」というラベルを付けることができます。 この戦略は目覚ましい成功を収めましたが、残念ながら不十分でした。

このような「監視された」トレーニングには、人間が手間をかけてラベル付けしたデータが必要であり、ニューラル ネットワークは、ラベルを最小限の、時には表面的な情報と関連付けることを学習して、近道をすることがよくあります。 たとえば、牛は通常野原で撮影されるため、ニューラル ネットワークは草の存在を使用して牛の写真を認識する場合があります。

「私たちは、学期中ずっと授業に来なかった学部生のような世代のアルゴリズムを育てています。そして、決勝の前夜、彼らは詰め込みます」と彼は言いました。 アレクセイエフロス、カリフォルニア大学バークレー校のコンピューター科学者。 「彼らは実際には教材を学んでいませんが、テストでは良い成績を収めています。」

さらに、動物の知能と機械の知能の融合に関心のある研究者にとって、この「教師あり学習」は、生物の脳について明らかにできることが限られている可能性があります。 人間を含む動物は、ラベル付けされたデータセットを学習に使用しません。 ほとんどの場合、彼らは自分で環境を探索し、そうすることで、世界についての豊かでしっかりとした理解を得ることができます.

現在、一部の計算神経科学者は、人間がラベル付けしたデータをほとんどまたはまったく使用せずにトレーニングされたニューラル ネットワークの調査を開始しています。 これらの「自己教師あり学習」アルゴリズムは、 人間の言語のモデル化 最近は画像認識も。 最近の研究では、自己教師あり学習モデルを使用して構築された哺乳類の視覚および聴覚システムの計算モデルは、教師あり学習モデルよりも脳機能に密接に対応していることを示しています。 一部の神経科学者にとっては、人工ネットワークによって、私たちの脳が学習に使用する実際の方法の一部が明らかになり始めているように見えます。

欠陥のある監督

人工ニューラル ネットワークに触発された脳モデルは、約 10 年前に成熟しました。 アレックスネット 未知の画像を分類するタスクに革命をもたらしました。 そのネットワークは、すべてのニューラル ネットワークと同様に、強度または「重み」が異なる相互接続を形成する計算単位である人工ニューロンの層で構成されていました。 ニューラル ネットワークが画像を正しく分類できなかった場合、学習アルゴリズムはニューロン間の接続の重みを更新して、次のトレーニング ラウンドで誤分類の可能性を低くします。 アルゴリズムは、ネットワークのエラー率が許容できるほど低くなるまで、すべてのトレーニング イメージでこのプロセスを何度も繰り返し、重みを微調整します。

同じ頃、神経科学者は、神経科学の最初の計算モデルを開発しました。 霊長類の視覚系、AlexNet とその後継者のようなニューラル ネットワークを使用します。 たとえば、サルと人工ニューラル ネットワークに同じ画像を表示すると、実際のニューロンと人工ニューロンの活動が興味​​深い対応を示しました。 続いて、聴覚と臭気検出の人工モデルが続きました。

しかし、この分野が進歩するにつれて、研究者は教師付きトレーニングの限界に気づきました。 たとえば、2017 年、当時ドイツのテュービンゲン大学のコンピューター科学者だった Leon Gatys と彼の同僚は、フォード モデル T の画像を撮影し、写真全体にヒョウの皮のパターンを重ねて、奇妙ではあるが簡単に認識できる画像を生成しました。 . 主要な人工ニューラル ネットワークは、元の画像をモデル T として正しく分類しましたが、変更された画像はヒョウと見なしました。 テクスチャに固執していて、車の形 (さらに言えばヒョウの形) も理解していませんでした。

自己教師あり学習戦略は、このような問題を回避するように設計されています。 このアプローチでは、人間はデータにラベルを付けません。 むしろ、「ラベルはデータ自体に由来する」と述べた フリーデマン・ツェンケ、スイスのバーゼルにあるフリードリッヒ・ミーシャー生物医学研究所の計算神経科学者。 自己管理型アルゴリズムは、基本的にデータにギャップを作成し、ニューラル ネットワークに空白を埋めるように要求します。 たとえば、いわゆる大規模言語モデルでは、トレーニング アルゴリズムがニューラル ネットワークに文の最初の数単語を表示し、次の単語を予測するように求めます。 インターネットから収集した大量のテキスト コーパスでトレーニングすると、モデルは 学ぶように見える 言語の構文構造は、印象的な言語能力を示しています — すべて外部のラベルや監督なしで。

同様の取り組みがコンピュータ ビジョンでも進行中です。 2021年後半、 何開明 と同僚は彼らの「マスクされた自動エンコーダー」に基づいて構築されています 技術 2016 年に Efros のチームによって開発されました。自己教師あり学習アルゴリズムは画像をランダムにマスクし、各画像のほぼ XNUMX 分の XNUMX を隠します。 マスクされた自動エンコーダーは、マスクされていない部分を潜在表現 (オブジェクトに関する重要な情報を含む圧縮された数学的記述) に変換します。 (画像の場合、潜在的な表現は、特に画像内のオブジェクトの形状をキャプチャする数学的記述である可能性があります。) デコーダは、これらの表現を完全な画像に変換します。

自己教師あり学習アルゴリズムは、エンコーダーとデコーダーの組み合わせをトレーニングして、マスクされた画像を完全なバージョンに変換します。 実際の画像と再構築された画像の違いは、システムにフィードバックされて学習を支援します。 このプロセスは、システムのエラー率が適切に低くなるまで、一連のトレーニング イメージに対して繰り返されます。 ある例では、訓練されたマスクされた自動エンコーダーが、バスのほぼ 80% が隠されている以前は見えなかった画像を表示されたとき、システムはバスの構造を正常に再構築しました。

「これは非常に印象的な結果です」と Efros 氏は述べています。

このようなシステムで作成された潜在的な表現には、以前の戦略に含まれていたよりもはるかに深い情報が含まれているようです。 システムは、パターンだけでなく、車やヒョウなどの形状を学習する可能性があります。 「そして、これが自己教師あり学習の基本的な考え方です。つまり、知識をボトムアップで積み上げるのです」と Efros 氏は言います。 テストに合格するための土壇場での詰め込みはありません。

自己管理型の頭脳

このようなシステムでは、一部の神経科学者は、私たちの学習方法の反響を観察しています。 「脳が行うことの 90% が自己教師あり学習であることは間違いないと思います。 ブレイク・リチャーズ、マギル大学の計算神経科学者、およびケベック人工知能研究所のミラ。 生物の脳は、物体が移動するときの将来の位置や、文の次の単語などを継続的に予測していると考えられています。これは、自己教師あり学習アルゴリズムが画像やテキストの一部のギャップを予測しようとするのと同じです。 また、脳は自らの過ちからも学習します。脳のフィードバックのうち、基本的に「間違った答え」という外部ソースから得られるのはほんの一部です。

たとえば、人間や他の霊長類の視覚系を考えてみましょう。 これらはすべての動物の感覚系の中で最もよく研​​究されていますが、神経科学者は、物体や顔の認識に関与する腹側視覚路と、動きを処理する背側視覚路の XNUMX つの別々の経路が含まれている理由を説明するのに苦労しています。それぞれ「何」と「どこ」の経路)。

リチャーズと彼のチームは、答えを示唆する自己教師ありモデルを作成しました。 彼ら 訓練された 10 つの異なるニューラル ネットワークを組み合わせた AI。11 つ目は ResNet アーキテクチャと呼ばれ、画像処理用に設計されました。 10 つ目は再帰型ネットワークとして知られ、以前の一連の入力を追跡して、次に予想される入力について予測を行うことができます。 結合された AI をトレーニングするために、チームは、たとえばビデオからの XNUMX フレームのシーケンスから開始し、ResNet にそれらを XNUMX つずつ処理させました。 次に、再帰型ネットワークは、最初の XNUMX フレームと単純に一致するのではなく、XNUMX 番目のフレームの潜在的な表現を予測しました。 自己教師あり学習アルゴリズムは、予測を実際の値と比較し、ニューラル ネットワークに重みを更新して予測を改善するように指示しました。

リチャーズのチームは、単一の ResNet でトレーニングされた AI が物体認識には優れているが、動きの分類には優れていないことを発見しました。 しかし、単一の ResNet を XNUMX つに分割して (ニューロンの総数を変更せずに) XNUMX つの経路を作成すると、AI は一方のオブジェクトの表現と他方の動きの表現を開発し、これらのプロパティの下流の分類を可能にしました。行う。

AI をさらにテストするために、チームはシアトルのアレン脳科学研究所の研究者が以前にマウスに見せた一連のビデオを AI に見せました。 霊長類と同様に、マウスにも静止画像と動きに特化した脳領域があります。 アレンの研究者は、動物がビデオを見ているときに、マウスの視覚野の神経活動を記録しました。

ここでも、リチャーズのチームは、AI と生きている脳がビデオに反応する方法に類似点があることを発見しました。 トレーニング中、人工ニューラル ネットワークの経路の XNUMX つは、マウスの脳の腹側の物体検出領域により類似するようになり、もう XNUMX つの経路は、動きに焦点を合わせた背側領域に類似するようになりました。

この結果は、私たちの視覚系が視覚的な未来を予測するのに役立つ XNUMX つの特殊な経路を持っていることを示唆しています。 単一の経路では十分ではありません。

人間の聴覚系のモデルも同様の話をしています。 XNUMX月、率いるチームは ジャン=レミ・キング、Meta AI の研究科学者、 Wav2Vec 2.0 と呼ばれる AI をトレーニングしました、ニューラル ネットワークを使用して音声を潜在的な表現に変換します。 研究者は、これらの表現の一部をマスクし、トランスフォーマーと呼ばれる別のコンポーネント ニューラル ネットワークにフィードします。 トレーニング中、トランスフォーマーはマスクされた情報を予測します。 その過程で、AI 全体が音を潜在的な表現に変えることを学習します — 繰り返しますが、ラベルは必要ありません。 チームは約 600 時間の音声データを使用してネットワークをトレーニングしました。「これは、子供が最初の XNUMX 年間の経験で得られるものとほぼ同じです」と King 氏は述べています。

システムがトレーニングされると、研究者はオーディオブックの一部を英語、フランス語、北京語で再生しました。 次に、研究者は AI のパフォーマンスを 412 人のデータと比較しました。これは、fMRI スキャナーで脳を画像化しながら、同じ音声を聞いた XNUMX つの言語のネイティブ スピーカーの混合です。 King 氏は、彼のニューラル ネットワークと人間の脳は、ノイズが多く低解像度の fMRI 画像にもかかわらず、「互いに相関するだけでなく、体系的に相関している」と述べています。AI の初期層の活動は活動と一致しています。一方、AI の最も深い層の活動は、脳のより高い層、この場合は前頭前皮質の活動と一致します。 「これは本当に美しいデータです」と Richards 氏は言います。 「これは決定的なものではありませんが、私たちが言語を学ぶ方法の大部分は、次に言われることを予測しようとすることによるものであることを示唆するもう XNUMX つの説得力のある証拠です。」

未治癒の病状

誰もが確信しているわけではありません。 ジョシュ・マクダーモットは、マサチューセッツ工科大学の計算神経科学者であり、教師あり学習と自己教師あり学習の両方を使用して、視覚と聴覚のモデルに取り組んできました。 彼の研究室は、彼が「メタマー」と呼んでいるもの、合成された音声と視覚信号を設計しました。 不可解なノイズ. しかし、人工ニューラル ネットワークにとって、メタマーは実際の信号と区別がつかないように見えます。 これは、ニューラル ネットワークのより深い層で形成される表現が、たとえ自己教師あり学習であっても、私たちの脳の表現と一致しないことを示唆しています。 これらの自己教師あり学習アプローチは、「これらすべてのラベルを必要とせずに、多くの認識動作をサポートできる表現を学習できるという意味で進歩です」と McDermott 氏は述べています。 「しかし、彼らはまだ教師ありモデルの多くの病状を持っています。」

アルゴリズム自体にもさらに作業が必要です。 たとえば、Meta AI の Wav2Vec 2.0 では、AI は数十ミリ秒相当の音の潜在的な表現を予測するだけで、単語は言うまでもなく、知覚的に明確なノイズを発声するよりも短い時間です。 「脳と同じようなことをするために、やらなければならないことはたくさんあります」とキングは言いました。

脳機能を真に理解するには、自己管理型学習以上のものが必要になります。 一つには、脳はフィードバック接続でいっぱいですが、現在のモデルではそのような接続があったとしてもほとんどありません。 明らかな次のステップは、自己教師あり学習を使用して非常に反復的なネットワークをトレーニングすることです (これは困難なプロセスです)。そして、そのようなネットワークでの活動が実際の脳活動とどのように比較されるかを確認します。 もう XNUMX つの重要なステップは、自己教師あり学習モデルの人工ニューロンの活動を、個々の生物学的ニューロンの活動と一致させることです。 「将来的には、[私たちの] 結果が単一細胞の記録でも確認されることを願っています」と King 氏は述べています。

脳と自己教師あり学習モデルの間に観察された類似点が他の感覚タスクにも当てはまる場合、脳が可能な魔法が何であれ、何らかの形で自己教師あり学習が必要であることをさらに強く示すことになります. 「大きく異なるシステム間で体系的な類似点が見つかった場合、それはおそらく、インテリジェントな方法で情報を処理する方法がそれほど多くないことを示唆しています」とキングは言いました。 「少なくとも、それは私たちが取り組みたい美しい仮説のようなものです。」

タイムスタンプ:

より多くの クアンタマガジン