科学のためにGPT-3を構築する方法

プラトン再発行

フォロワー： 0

のイメージを作りたい 1932年の「超高層ビルの頂上での昼食」のスタイルで超高層ビルで作業するヴェロキラプトル? DALL-E を使用します。空想を作りたいピーターティール、イーロンマスク、ラリーペイジによるスタンダップコメディショー? GPT-3 を使用します。 COVID-19 の研究を深く理解し、証拠に基づいて質問に答えたいですか? 膨大な量の科学研究出版物で訓練された生成 AI モデルは存在しないため、ブール検索の方法を学び、科学論文を読み、おそらく博士号を取得する方法を学びましょう。あるとすれば、科学的疑問に対する証拠に裏打ちされた平易な言葉による回答を得ることは、最も単純なメリットの XNUMX つです。科学のためのジェネレーティブ AI は、科学におけるイノベーションの減速 by それを作る容易および安い新しいアイデアを見つけるために。そのようなモデルはまた、失敗することが確実な治療仮説のデータに裏打ちされた警告を提供し、人間の偏見を相殺し、数十億ドルを回避することもできます。何十年も続く袋小路. 最後に、そのようなモデルは戦うことができます再現性の危機調査結果をマッピング、重み付け、および文脈化することにより、信頼性に関するスコアを提供します。

では、科学用に DALL-E や GPT-3 を用意しないのはなぜでしょうか? その理由は、科学的研究は世界で最も価値のあるコンテンツであると同時に、世界で最もアクセスしにくく、理解しにくいコンテンツでもあります。科学データを大規模に解き放ち、科学のためのジェネレーティブ AI を可能にするために必要なことと、それによって私たちの研究への関わり方がどのように変わるかを説明します。

科学研究データを困難にするもの

研究出版物は、これまでに作成されたコンテンツと情報の世界で最も重要なリポジトリの一部です。それらは、時間と分野を超えてアイデアと発見を結びつけ、ライブラリのネットワークによって永久に保存されます。それらは、証拠、分析、専門家の洞察、および統計的関係によってサポートされています。それらは非常に価値がありますが、ほとんどが Web から隠され、非常に非効率的に使用されています。 Web にはかわいくて抱きしめたくなる猫の動画があふれていますが、最先端のがん研究はほとんどありません。例として、 Web of Scienceの科学知識の最も包括的な指標の XNUMX つです。それは何十年も前から出回っていますが、おそらくほとんどの読者は聞いたことも、ましてや交流したこともないものです。私たちのほとんどは研究論文にアクセスできません。アクセスできたとしても、それらは分厚く、理解しにくく、PDF としてパッケージ化されています。PDF は Web 用ではなく、印刷用に設計された形式です。

科学論文に簡単にアクセスできないため、データを使用して GPT-3 や DALL-E などの生成モデルを簡単にトレーニングすることはできません。あなたはできる研究者が実験を提案し、AI モデルがそれが以前に行われたかどうかを即座に伝えることができるとしたらどうでしょうか? 次に、新しい実験からのデータが得られると、AI は結果に基づいて追加の実験を提案できます。最後に、研究者が結果をアップロードし、AI モデルが結果の原稿を書くことができれば、節約できる時間を想像してみてください。彼ら。科学の DALL-E に最も近いのは Google Scholar ですが、これは持続可能またはスケーラブルなソリューションではありません。 IBM Watson も、ここで説明することの多くを達成するために着手しましたが、ほとんどの作業は大規模な言語モデルの最近の進歩に先んじており、マーケティングの誇大宣伝に匹敵する適切または十分なデータを利用していませんでした。

私が説明しているような価値の解放には、長期的な投資、コミットメント、ビジョンが必要です。提案通り最近 in 未来、科学出版物を、大規模に組み合わせて分析するための基質として扱う必要があります。障壁を取り除くと、科学を使用して、データを大量に消費する生成 AI モデルを提供できるようになります。これらのモデルは、新しい科学的アイデアを生成するためのトレーニング、科学者が膨大な科学文献を管理およびナビゲートするのを支援すること、欠陥のある研究や改ざんされた研究を特定すること、複雑な研究結果を統合して人間の普通の言葉。

科学用の DALL-E または GPT-3 を入手するにはどうすればよいですか?

あなたが技術に携わっているなら、友人に次のような生成的 AI モデルからの出力を見せてください。 DALL-E or GPT-3 彼らに魔法を見せるようなものです。これらのツールは、次世代の Web を表しています。それらは、生成能力を備えたツールを作成するために、単純なリンクを超えて大量の情報を統合することから派生します。では、誰もが平易な言葉で科学文献について質問し、証拠に裏打ちされた理解可能な答えを得ることができる、科学において同様の不思議な体験をどのように作成できるのでしょうか? 研究者が仮説を立て、発展させ、改良し、テストするのをどのように支援できるでしょうか? 数十億ドルの無駄遣いを回避するにはどうすればよいでしょうかアルツハイマー研究における仮説の失敗および遺伝学とうつ病の間の誤った関係?

これらの疑問に対する解決策は SF のように聞こえるかもしれませんが、科学的研究が単なる部分の合計以上の目的で使用される場合、驚くべき想像を絶することができるという証拠があります。実際、約 200,000 のタンパク質構造を利用しています。セクションにタンパク質データバンク与えているアルファフォールド能力タンパク質の構造を正確に予測するためにこれまでに記録されたすべてのタンパク質（200億以上！）。タンパク質構造と同様の方法で研究論文を活用することは、自然な次のステップです。

紙を最小限の構成要素に分解する

研究論文には、図、表、統計的関係、他の論文への参照など、貴重な情報がたくさんあります。それらをさまざまなコンポーネントに分割して大規模に使用することで、さまざまな種類の科学関連のジョブ、プロンプト、またはクエリ用にマシンをトレーニングするのに役立つ可能性があります。簡単な質問には XNUMX つのコンポーネントタイプのトレーニングで答えることができますが、より複雑な質問やプロンプトには、複数のコンポーネントタイプを組み込み、それらの相互関係を理解する必要があります。

潜在的な複雑なプロンプトの例を次に示します。

「なぜこの仮説が間違っているのか教えてください」
「私の治療法がうまくいかない理由を教えてください」
「新しい治療アイデアを生み出す」
「社会政策 X を支持する証拠は何か?」
「この分野で最も信頼できる研究を発表したのは誰ですか?」
「私のデータに基づいて科学論文を書いてください」

いくつかのグループは、このビジョンに向けて前進しています。例えば、引き出すは、GPT-3 を何百万もの論文のタイトルと抄録に適用して、研究者の質問に答えるのに役立てています。Alexa に似ていますが、科学用です。エントルピーさまざまな概念とエンティティがどのようにリンクされているかを示す、エンティティ間の統計的関係を抽出します。プライマー研究論文自体には焦点を当てていませんが、arXiv と連携しており、企業や政府が多くのソースからの大量のデータを合成して理解するために使用する情報のダッシュボードを提供します。

すべてのコンポーネントにアクセス

残念ながら、これらのグループは主にタイトルとアブストラクトのみに依存しており、全文ではありません。これは、記事の XNUMX 分の XNUMX が自由に、または簡単にアクセスできないためです。データや論文を持っている Web of Science や Google などのグループのライセンスと使用範囲は次のとおりです。限定的または未定義. Google の場合、Google Scholar の全文科学研究に基づいて AI モデルをトレーニングする取り組みが公に発表されていない理由は不明です。驚くべきことに、これは、世界を行き詰まらせた COVID-19 パンデミックの最中でも変わりませんでした。 Google AI チームがステップアップし、一般の人が質問できる方法のプロトタイプを作成しました COVID-19について. しかし、ここが肝心なのですが、Google Scholar ではなく、PubMed のオープンアクセス論文のみを使用してそうしたのです。

論文へのアクセスを得て、それらを一度に XNUMX つずつ読む以上の目的で使用するという問題は、グループが何十年にもわたって提唱してきたことです。私自身、XNUMX年近く個人的にそれに取り組み、オープンアクセス出版プラットフォームを立ち上げました。選別者博士号取得の最後の年に未来の記事と呼ばれる別のスタートアップで Authorea. これらのイニシアチブはどちらも、私が望んでいた方法で完全にうまくいくことはありませんでしたが、それらは私を現在の仕事に導きました引用する、出版社と直接協力することで、アクセスの問題を少なくとも部分的に解決しました.

コンポーネントを接続して関係を定義する

私たちの目標引用するを紹介することです次世代の引用これは、記事、研究者、ジャーナル、またはトピックが引用され、より一般的に文献で議論された方法と理由を示します。出版社と協力して、本文中の参照を使用している全文記事から直接文を抽出します。これらの文は、論文が新しい研究によってどのように引用されたかについて定性的な洞察を提供します。研究用の Rotten Tomatoes に少し似ています。

これには、機械学習を使用して引用文を大規模に抽出および分析できるように、記事の全文へのアクセスと出版社との協力が必要です。オープンアクセスの記事が十分にあったため、概念実証を構築することができました。XNUMX つずつ、システムでインデックス化された記事の発見可能性の向上を出版社に示し、システムを提供しました。より良いメトリクスを表示より責任ある研究評価のために。私たちが専門家の声明として見たものは、彼らの記事のプレビューとして見ました. 現在、出版社は一斉に署名しており、公開されたすべての記事の半分以上から 1.1 億を超える Smart Citations をインデックスに登録しています。

リレーショナルデータを使用して AI モデルをトレーニングする

論文から抽出されたコンポーネントと関係は、研究用の新しい大規模な言語モデルをトレーニングするために使用できます。 GPT-3 は非常に強力ですが、科学研究用に構築されたものではありません。あなたがSATで見るかもしれない質問に答えるのが苦手です. GPT-2 (GPT-3 の以前のバージョン) が何百万もの研究論文でトレーニングすることで適応、特定の知識タスクでGPT-2単独よりもうまく機能しました。これは、モデルのトレーニングに使用されるデータが非常に重要であることを強調しています。

一部のグループは最近 GPT-3 を使用して学術論文を執筆、これは印象的ですが、彼らが示すと主張する事実や議論は非常に間違っている可能性があります. モデルが単純な SAT スタイルの質問を正しく理解できない場合、完全な論文を書くことを信頼できますか? SCIgenは、GPT-3 よりも 20 年近く前から存在し、本物に見える論文を比較的簡単に作成できることを示しました。彼らのシステムは、はるかに単純でありながら、さまざまな会議に受け入れられました. 科学的に見えるだけでなく科学的であり、機械と人間の主張を検証するシステムを必要とするモデルが必要です。メタが最近導入したウィキペディアの引用を検証するシステム、一部のパブリッシャーが声に出して持っているもの学術出版物があればいいのに.

現在の進行度合

繰り返しになりますが、このシステムを実現するための主要な障害の XNUMX つは、それを作成するための論文やリソースへのアクセスが不足していることです。論文や情報が大規模に利用できるようになると、ツールと新しいモデルが繁栄します。 Google 特許チームが使用した特許分析を支援するシステムをトレーニングするための 100 億件の特許、実質的には GooglePatentBERT です。他の人は次のようなモデルを導入しましたバイオバートおよびサイバート、また、特定の主題分野のみの科学テキストの約 1% についてしかトレーニングされていないという事実にもかかわらず、scite での引用分類システムを含む学術タスクで印象的です。

最近では、学者BERT モデルがリリースされました。これは、すべての科学文献を効果的に使用して BERT をトレーニングします。彼らはアクセスの問題を克服していますが、その方法については特に口を閉ざしており、その使用が「非消費的」であることを単に強調しています。このユースケースは、次への扉を開く可能性があります出版社からの明示的な許可なしに記事を使用している他の人は、科学のDALL-Eを作成する上で重要なステップになる可能性があります. しかし驚くべきことに、ScholarBERT は、SciBERT のような小規模な科学言語モデルよりも、さまざまな専門知識タスクで劣っていました。

重要なことに、BERT スタイルのモデルは、GPT-3 のような大規模な言語モデルよりもはるかに小規模であり、GPT-3 の誇大宣伝の多くを支えてきたのと同じ種類の一般的なプロンプトとコンテキスト内学習を許可していません。問題は残ります。ScholarBERT からの同じデータを適用して、GPT-3 のようなスケールアップされた生成モデルをトレーニングするとどうなるでしょうか? マシンからの回答がどこから得られたのかを何らかの方法で示すことができたらどうでしょうか? おそらくそれらを直接文献に結び付けます (Smart Citations のように)?

なぜ今なのか？

幸いなことに、論文はよりオープンになり、機械はより強力になっています。論文や接続されたリポジトリに含まれるデータを使用して、質問に答え、研究に基づいて新しいアイデアを合成するようにマシンをトレーニングできるようになりました。これは、医療、政策、テクノロジー、そして私たちの周りのすべてに変革をもたらす可能性があります。ドキュメントのタイトルだけでなく、特に回答を検索した場合、それがすべての分野の研究とワークフローにどのような影響を与えるか想像してみてください.

アクセシビリティと理解可能性という XNUMX つの障壁から世界の科学的知識を解放することは、クリック、ビュー、いいね、注目に焦点を当てた Web から、証拠、データ、真実性に焦点を当てた Web への移行を促進するのに役立ちます。製薬会社はこれを実現するために明らかに動機付けられているため、AI を使用して潜在的な創薬ターゲットを特定するスタートアップの数が増えています — しかし、一般の人々、政府、および Google を使用する誰もが、信頼と時間のために無料の検索を進んで放棄する可能性があると私は信じています —節約。世界はそのようなシステムを切実に必要としており、それを早急に必要としています。

18年2022月XNUMX日に投稿

テクノロジー、イノベーション、そして未来。

ご登録いただきありがとうございます。

受信トレイでウェルカムノートを確認してください。

タイムスタンプ： 2022 年 8 月 18 日2022 年 8 月 18 日

タイムスタンプ： 2022 年 8 月 25 日

イーサリアムアップグレードの未来、マージ後[パート2]

ソースクラスター：

アンドレッセン・ホロウィッツ

ソースノード： 1596837

タイムスタンプ： 2022 年 7 月 27 日

エディ・ラザリン

ソースクラスター：

アンドレッセン・ホロウィッツ

ソースノード： 1800609

タイムスタンプ： 2023 年 2 月 8 日

2023 年のテクノロジーにおけるビッグアイデア: a16z オムニバス PlatoBlockchain データインテリジェンス。垂直検索。あい。

2023 年のテクノロジーのビッグアイデア: a16z オムニバス

ソースクラスター：

アンドレッセン・ホロウィッツ

ソースノード： 1774101

タイムスタンプ： 2022 年 12 月 15 日

Joe Morrissey PlatoBlockchain データインテリジェンス。垂直検索。あい。

ジョー・モリッシー

ソースクラスター：

アンドレッセン・ホロウィッツ

ソースノード： 1576709

タイムスタンプ： 2022 年 6 月 21 日

科学のための GPT-3 の作り方

プラトン再発行

科学研究データを困難にするもの