独自のビットコイン言語モデルを構築する方法

独自のビットコイン言語モデルを構築する方法

これは、『非共産主義宣言』の著者であり、ビットコインに焦点を当てた言語モデルであるスピリット・オブ・サトシの創設者であるアレクサンダー・スヴェツキーによる意見論説です。

言語モデルは大流行しており、多くの人は基礎モデル (ほとんどの場合、ChatGPT または類似のもの) を取得し、それをベクトル データベースに接続して、人々が自分の「モデル」に質問すると、コンテキスト付きの回答が返されるようにしています。このベクトルデータベースから。

何が ベクトルデータベース? I’ll explain that in more detail in a future essay, but a simple way to understand it is as a collection of information stored as chunks of data, that a language model can query and use to produce better responses. Imagine “The Bitcoin Standard,” split into paragraphs, and stored in this vector database. You ask this new “model” a question about the history of money. The underlying model will actually query the database, select the most relevant piece of context (some paragraph from “The Bitcoin Standard”) and then feed it into the prompt of the underlying model (in many cases, ChatGPT). The model should then respond with a more 関連した 答え。 これは優れており、場合によっては正常に機能しますが、基礎となるモデルがトレーニング中に影響を受ける主流のノイズとバイアスという根本的な問題は解決されません。

これが私たちがスピリット オブ サトシでやろうとしていることです。 約 XNUMX か月前に上記のようなモデルを構築しましたので、試してみてください。 こちら. You’ll notice it’s not bad with some answers but it cannot hold a conversation, and it performs really poorly when it comes to shitcoinery and things that a real Bitcoiner would know.

これが、私たちがアプローチを変更し、完全な言語モデルをゼロから構築している理由です。 このエッセイでは、それが何を意味するのかを理解していただくために、それについて少しお話します。

より「ベースの」ビットコイン言語モデル

より「ベースの」言語モデルを構築するという使命は継続します。 それは私が思っていたよりも複雑な関係にあることが証明されました。 「技術的に複雑」 という観点からですが、より多くの観点から 「くそー、これは面倒だ」 立場。

すべてはデータに関するものです。 データの量ではなく、データの品質と形式です。 おそらくオタクがこれについて話しているのを聞いたことがあるでしょうが、実際にモデルに内容を入力し始めて結果が得られるまでは、その良さを実感することはできません…それは必ずしもあなたが望んでいたものではありませんでした。

データ パイプラインはすべての作業が行われる場所です。 必ず 収集する および キュレート データがある場合は、次のことを行う必要があります エキス それ。 次に、プログラム的に行う必要があります (初回実行のクリーンを手動で実行することは不可能です)。

次に、このプログラムでクリーンアップされた生データを取得し、次のことを行う必要があります。 変換 それを複数のデータに分割する フォーマット (質問と回答のペア、または意味的に一貫したチャンクや段落を考えてください)。 大量のデータを扱う場合、これはプログラムで行う必要があります。これは言語モデルの場合です。 面白いことに、このタスクには他の言語モデルも実際には適しています。 言語モデルを使用して、新しい言語モデルを構築します。

より「ベースの」言語モデルを構築するという使命について。

その後そこには大量のジャンクが残っている可能性が高く、データをプログラムで変換するために使用した言語モデルによって生成された無関係なガーベジが存在する可能性があるため、より強力な処理を実行する必要があります。 .

この ここは人間の助けが必要な場所です。なぜなら、この段階では、区別し決定するのに必要な機能を備えた地球上の生物はまだ人間だけのようだからです。 品質。 アルゴリズムはこれをある程度行うことができますが、特により微妙な比較の文脈では、言語ではまだそれほどうまくいきません。これがビットコインの真の位置です。

いずれにせよ、これを大規模に行うのは、支援してくれる大勢の人々がいない限り、信じられないほど困難です。 その人々の軍隊は、OpenAI のような誰かによって報酬を支払われた傭兵になることができます。 神よりもお金を持っている, or they can be missionaries, which is what the Bitcoin community generally is (we’re very lucky and grateful for this at Spirit of Satoshi). Individuals go through data items and one by one select whether to keep, discard or modify the data.

データがこのプロセスを通過すると、相手側ではクリーンなデータが得られます。 もちろん、ここにはさらに複雑な問題が絡んでいます。 たとえば、クリーンアップ プロセスを失敗させようとする悪意のある者が排除されるか、彼らの入力が破棄されるようにする必要があります。 これは一連の方法で行うことができますが、やり方は人それぞれ少しずつ異なります。 途中で人々をスクリーニングしたり、ある種の内部クリーンアップ合意モデルを構築して、データ項目を保持または破棄するためにしきい値を満たす必要があるようにしたりすることもできます。Spirit of SATOSHI では、ブレンドを行っています。両方とも効果があり、今後数か月以内にそれがどれだけ効果があるかが分かると思います。

さて…この美しくクリーンなデータを取得したら、この作業は終わります。パイプライン、」 次に、次のことを行う必要があります 形式でアーカイブしたプロジェクトを保存します. 「」に備えてもう一度。トレーニング" モデル。

この最終段階では、グラフィカル プロセッシング ユニット (GPU) が登場します。言語モデルの構築について聞いたときに、ほとんどの人が実際に思い浮かべるのはこの段階です。 私が取り上げた他の内容はすべて通常無視されます。

このホームストレッチ段階には、一連のモデルのトレーニングと、パラメーター、データ ブレンド、データの量子、モデル タイプなどの操作が含まれます。これはすぐにコストが高くなる可能性があるため、いくつかの非常に優れたデータを用意するのが最善です。より小さなモデルから始めて、徐々に構築していく方が良いでしょう。

それはすべて実験的なもので、その反対側から得られるものは… 結果…

私たち人間が思い描くものは信じられないほど素晴らしいものです。 ともかく…

スピリット オブ サトシでは、結果はまだ作成中であり、いくつかの方法で取り組んでいます。

  1. 私たちはボランティアの皆様に、モデルに最も関連性の高いデータの収集と整理にご協力をお願いしています。 私たちはそれをやっています ナカモトリポジトリ。 This is a repository of every book, essay, article, blog, YouTube video and podcast about and related to Bitcoin, and peripherals like the works of Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung, the Bible, etc.

    そこであらゆるものを検索し、URL、テキスト ファイル、または PDF にアクセスできます。 ボランティアが何かを見つけられない場合、またはそれを含める必要があると感じた場合は、レコードを「追加」できます。 ただし、ジャンク品を追加した場合は受け付けられません。 理想的には、ボランティアはデータをリンクとともに .txt ファイルとして送信します。

  2. コミュニティメンバーは次のこともできます 実際にデータのクリーンアップに協力し、Sat を獲得してください。 私が述べた宣教段階を覚えていますか? さて、これです。 この一環としてツールボックス全体を展開しており、参加者は「FUD バスター」や「ランクリプライ」などあらゆる種類のゲームをプレイできるようになります。 現時点では、パイプライン内の内容をクリーンアップするための、データ インターフェイス上での Tinder 風の保持/破棄/コメント エクスペリエンスのようなものです。

    これは、ビットコインについて学び、理解するために何年も費やしてきた人々が、その「仕事」をSatsに変える方法です。 いいえ、彼らは金持ちになるつもりはありませんが、価値があると思われるプロジェクトに貢献することができ、その過程で何かを得ることができます。

AIではなく確率プログラム

これまでのいくつかのエッセイで、私は「人工知能」という言葉には欠陥があると主張してきました。 is 人工的な、それは 知的であり、さらに、汎用人工知能 (AGI) をめぐる恐怖ポルノにはまったく根拠がありません。なぜなら、このものが自然に知覚を持ち、私たち全員を殺す危険性が文字通りまったくないからです。 数か月が経ち、私はこのことをさらに確信しています。

ジョン・カーターの素晴らしい記事を思い出します 「生成AIにはもう飽きた」 そして彼はとても的確でした。

この AI に関するものには、魔法のようなものやインテリジェントなものはまったくありません。 遊べば遊ぶほど、実際に自分のものを構築するのに費やす時間が長くなり、ここには感覚が存在しないことがわかります。 実際の思考や推論は行われません。 代理店はありません。 これらは単なる「確率プログラム」です。

「AI」か「機械」かにかかわらず、ラベルの付け方や飛び交う用語 学習」または「エージェント」は、実際、恐怖、不確実性、疑いのほとんどが存在する場所です。

これらのラベルは、人間が行うこととはまったく異なる、一連のプロセスを説明する試みにすぎません。 言語の問題は、私たちがそれを理解するためにすぐに擬人化し始めることです。 そしてその過程で、フランケンシュタインの怪物に命を吹き込むのは観客、あるいは聴き手なのです。

AIは いいえ あなたが自分の想像力で与えたもの以外の人生。 これは、他の想像上の終末論的脅威とほぼ同じです。

(気候変動、宇宙人、その他 Twitter/X で起こっていることに関する例を挿入します。)

もちろん、これは、そのようなツール/プログラム/マシンを自分の目的で使用したいグロボホモ官僚にとって非常に便利です。 彼らは歩けるようになる前から物語や物語を紡いでいますが、これはまさに最新のものです。 そして、ほとんどの人はレミングであり、自分よりもIQが数ポイント賢く見える人の言うことを何でも信じてしまうため、それを自分の利益のために利用します。

今後規制が進むことについて話したことを覚えています。 先週か先々週、官僚支配者の厚意により、生成 AI に関する「公式ガイドライン」かそのようなものが存在することに気づきました。 これが何を意味するかは、誰も知りません。 それは、他のすべての規制と同じ無意味な言葉で隠されています。 最終的な結果は、再び、「私たちがルールを書き、私たちが望むようにツールを使用できるようになります。あなたは私たちが指示した方法で使用しなければなりません。そうでなければ」ということになります。

最もばかばかしいのは、大勢の人々がこれを見て、かつて存在しなかった想像上の怪物から何とか安全になったと考えて歓喜したことだ。 実際、それが実現しなかったため、彼らはおそらくこれらの機関が「AGI から私たちを救ってくれた」と信じているでしょう。

それは私に次のことを思い出させます:

より「ベースの」言語モデルを構築するという使命について。

私が上記の写真を Twitter に投稿したとき、これらの大惨事を回避できたのは官僚的介入の増加の結果であると心から信じて反応した愚か者の数が、そのプラットフォームにおける集合知のレベルについて私が知る必要があるすべてを教えてくれました。

それでも、ここにいます。 もう一度。 同じストーリー、新しいキャラクター。

残念ながら、これに関して私たちにできることは、自分たちのことに集中する以外にほとんどありません。 私たちは決めたことをこれからも続けていきます。

私は「GenAI」全般についてそれほど興奮しなくなっており、人々の関心が再び宇宙人や政治に移るにつれ、多くの誇大広告が薄れてきているように感じます。 また、私はここに何か実質的に変革を起こす何かがあるのか​​どうか、少なくとも半年前に考えていたほどには確信が持てません。 おそらく私が間違っていることが証明されるでしょう。 これらのツールには、まだ開発されていない潜在的な可能性があるとは思いますが、それは単に潜在的なだけです。

私たちはそれらが何であるかについてもっと現実的になる必要があると思います (人工知能というより、「確率プログラム」と呼んだほうがよいでしょう) それは実際、私たちが夢物語に費やす時間とエネルギーを減らし、有用なアプリケーションの構築により集中できることを意味するかもしれません。 その意味で、私は依然として好奇心を持ち、何かが実現することに慎重ながらも楽観的であり、ビットコイン、確率プログラム、Nostrなどのプロトコルとの結びつきのどこかで、非常に有用なものが現れるだろうと信じています。

私たちも参加できればと思っておりますので、ご興味がございましたらぜひご参加いただければと思います。 そのためには、皆さんの今日の話は後回しにし、言語モデルの構築に何が必要かについての有益な 10 分間の洞察になれば幸いです。

これは、Aleksander Svetski によるゲスト投稿です。 表明された意見は完全に彼ら自身のものであり、必ずしも BTC Inc または Bitcoin Magazine の意見を反映しているわけではありません。

タイムスタンプ:

より多くの Bitcoin Magazine