これは、『非共産主義宣言』の著者であり、ビットコインに焦点を当てた言語モデルであるスピリット・オブ・サトシの創設者であるアレクサンダー・スヴェツキーによる意見論説です。
言語モデルは大流行しており、多くの人は基礎モデル (ほとんどの場合、ChatGPT または類似のもの) を取得し、それをベクトル データベースに接続して、人々が自分の「モデル」に質問すると、コンテキスト付きの回答が返されるようにしています。このベクトルデータベースから。
何が ベクトルデータベース? I’ll explain that in more detail in a future essay, but a simple way to understand it is as a collection of information stored as chunks of data, that a language model can query and use to produce better responses. Imagine “The Bitcoin Standard,” split into paragraphs, and stored in this vector database. You ask this new “model” a question about the history of money. The underlying model will actually query the database, select the most relevant piece of context (some paragraph from “The Bitcoin Standard”) and then feed it into the prompt of the underlying model (in many cases, ChatGPT). The model should then respond with a more 関連した 答え。 これは優れており、場合によっては正常に機能しますが、基礎となるモデルがトレーニング中に影響を受ける主流のノイズとバイアスという根本的な問題は解決されません。
これが私たちがスピリット オブ サトシでやろうとしていることです。 約 XNUMX か月前に上記のようなモデルを構築しましたので、試してみてください。 こちら. You’ll notice it’s not bad with some answers but it cannot hold a conversation, and it performs really poorly when it comes to shitcoinery and things that a real Bitcoiner would know.
これが、私たちがアプローチを変更し、完全な言語モデルをゼロから構築している理由です。 このエッセイでは、それが何を意味するのかを理解していただくために、それについて少しお話します。
より「ベースの」ビットコイン言語モデル
より「ベースの」言語モデルを構築するという使命は継続します。 それは私が思っていたよりも複雑な関係にあることが証明されました。 「技術的に複雑」 という観点からですが、より多くの観点から 「くそー、これは面倒だ」 立場。
すべてはデータに関するものです。 データの量ではなく、データの品質と形式です。 おそらくオタクがこれについて話しているのを聞いたことがあるでしょうが、実際にモデルに内容を入力し始めて結果が得られるまでは、その良さを実感することはできません…それは必ずしもあなたが望んでいたものではありませんでした。
データ パイプラインはすべての作業が行われる場所です。 必ず 収集する および キュレート データがある場合は、次のことを行う必要があります エキス それ。 次に、プログラム的に行う必要があります (初回実行のクリーンを手動で実行することは不可能です)。
次に、このプログラムでクリーンアップされた生データを取得し、次のことを行う必要があります。 変換 それを複数のデータに分割する フォーマット (質問と回答のペア、または意味的に一貫したチャンクや段落を考えてください)。 大量のデータを扱う場合、これはプログラムで行う必要があります。これは言語モデルの場合です。 面白いことに、このタスクには他の言語モデルも実際には適しています。 言語モデルを使用して、新しい言語モデルを構築します。
その後そこには大量のジャンクが残っている可能性が高く、データをプログラムで変換するために使用した言語モデルによって生成された無関係なガーベジが存在する可能性があるため、より強力な処理を実行する必要があります。 .
この ここは人間の助けが必要な場所です。なぜなら、この段階では、区別し決定するのに必要な機能を備えた地球上の生物はまだ人間だけのようだからです。 品質。 アルゴリズムはこれをある程度行うことができますが、特により微妙な比較の文脈では、言語ではまだそれほどうまくいきません。これがビットコインの真の位置です。
いずれにせよ、これを大規模に行うのは、支援してくれる大勢の人々がいない限り、信じられないほど困難です。 その人々の軍隊は、OpenAI のような誰かによって報酬を支払われた傭兵になることができます。 神よりもお金を持っている, or they can be missionaries, which is what the Bitcoin community generally is (we’re very lucky and grateful for this at Spirit of Satoshi). Individuals go through data items and one by one select whether to keep, discard or modify the data.
データがこのプロセスを通過すると、相手側ではクリーンなデータが得られます。 もちろん、ここにはさらに複雑な問題が絡んでいます。 たとえば、クリーンアップ プロセスを失敗させようとする悪意のある者が排除されるか、彼らの入力が破棄されるようにする必要があります。 これは一連の方法で行うことができますが、やり方は人それぞれ少しずつ異なります。 途中で人々をスクリーニングしたり、ある種の内部クリーンアップ合意モデルを構築して、データ項目を保持または破棄するためにしきい値を満たす必要があるようにしたりすることもできます。Spirit of SATOSHI では、ブレンドを行っています。両方とも効果があり、今後数か月以内にそれがどれだけ効果があるかが分かると思います。
さて…この美しくクリーンなデータを取得したら、この作業は終わります。パイプライン、」 次に、次のことを行う必要があります 形式でアーカイブしたプロジェクトを保存します. 「」に備えてもう一度。トレーニング" モデル。
この最終段階では、グラフィカル プロセッシング ユニット (GPU) が登場します。言語モデルの構築について聞いたときに、ほとんどの人が実際に思い浮かべるのはこの段階です。 私が取り上げた他の内容はすべて通常無視されます。
このホームストレッチ段階には、一連のモデルのトレーニングと、パラメーター、データ ブレンド、データの量子、モデル タイプなどの操作が含まれます。これはすぐにコストが高くなる可能性があるため、いくつかの非常に優れたデータを用意するのが最善です。より小さなモデルから始めて、徐々に構築していく方が良いでしょう。
それはすべて実験的なもので、その反対側から得られるものは… 結果…
私たち人間が思い描くものは信じられないほど素晴らしいものです。 ともかく…
スピリット オブ サトシでは、結果はまだ作成中であり、いくつかの方法で取り組んでいます。
- 私たちはボランティアの皆様に、モデルに最も関連性の高いデータの収集と整理にご協力をお願いしています。 私たちはそれをやっています ナカモトリポジトリ。 This is a repository of every book, essay, article, blog, YouTube video and podcast about and related to Bitcoin, and peripherals like the works of Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung, the Bible, etc.
そこであらゆるものを検索し、URL、テキスト ファイル、または PDF にアクセスできます。 ボランティアが何かを見つけられない場合、またはそれを含める必要があると感じた場合は、レコードを「追加」できます。 ただし、ジャンク品を追加した場合は受け付けられません。 理想的には、ボランティアはデータをリンクとともに .txt ファイルとして送信します。
- コミュニティメンバーは次のこともできます 実際にデータのクリーンアップに協力し、Sat を獲得してください。 私が述べた宣教段階を覚えていますか? さて、これです。 この一環としてツールボックス全体を展開しており、参加者は「FUD バスター」や「ランクリプライ」などあらゆる種類のゲームをプレイできるようになります。 現時点では、パイプライン内の内容をクリーンアップするための、データ インターフェイス上での Tinder 風の保持/破棄/コメント エクスペリエンスのようなものです。
これは、ビットコインについて学び、理解するために何年も費やしてきた人々が、その「仕事」をSatsに変える方法です。 いいえ、彼らは金持ちになるつもりはありませんが、価値があると思われるプロジェクトに貢献することができ、その過程で何かを得ることができます。
AIではなく確率プログラム
これまでのいくつかのエッセイで、私は「人工知能」という言葉には欠陥があると主張してきました。 is 人工的な、それは 知的であり、さらに、汎用人工知能 (AGI) をめぐる恐怖ポルノにはまったく根拠がありません。なぜなら、このものが自然に知覚を持ち、私たち全員を殺す危険性が文字通りまったくないからです。 数か月が経ち、私はこのことをさらに確信しています。
ジョン・カーターの素晴らしい記事を思い出します 「生成AIにはもう飽きた」 そして彼はとても的確でした。
この AI に関するものには、魔法のようなものやインテリジェントなものはまったくありません。 遊べば遊ぶほど、実際に自分のものを構築するのに費やす時間が長くなり、ここには感覚が存在しないことがわかります。 実際の思考や推論は行われません。 代理店はありません。 これらは単なる「確率プログラム」です。
「AI」か「機械」かにかかわらず、ラベルの付け方や飛び交う用語 学習」または「エージェント」は、実際、恐怖、不確実性、疑いのほとんどが存在する場所です。
これらのラベルは、人間が行うこととはまったく異なる、一連のプロセスを説明する試みにすぎません。 言語の問題は、私たちがそれを理解するためにすぐに擬人化し始めることです。 そしてその過程で、フランケンシュタインの怪物に命を吹き込むのは観客、あるいは聴き手なのです。
AIは いいえ あなたが自分の想像力で与えたもの以外の人生。 これは、他の想像上の終末論的脅威とほぼ同じです。
(気候変動、宇宙人、その他 Twitter/X で起こっていることに関する例を挿入します。)
もちろん、これは、そのようなツール/プログラム/マシンを自分の目的で使用したいグロボホモ官僚にとって非常に便利です。 彼らは歩けるようになる前から物語や物語を紡いでいますが、これはまさに最新のものです。 そして、ほとんどの人はレミングであり、自分よりもIQが数ポイント賢く見える人の言うことを何でも信じてしまうため、それを自分の利益のために利用します。
今後規制が進むことについて話したことを覚えています。 先週か先々週、官僚支配者の厚意により、生成 AI に関する「公式ガイドライン」かそのようなものが存在することに気づきました。 これが何を意味するかは、誰も知りません。 それは、他のすべての規制と同じ無意味な言葉で隠されています。 最終的な結果は、再び、「私たちがルールを書き、私たちが望むようにツールを使用できるようになります。あなたは私たちが指示した方法で使用しなければなりません。そうでなければ」ということになります。
最もばかばかしいのは、大勢の人々がこれを見て、かつて存在しなかった想像上の怪物から何とか安全になったと考えて歓喜したことだ。 実際、それが実現しなかったため、彼らはおそらくこれらの機関が「AGI から私たちを救ってくれた」と信じているでしょう。
それは私に次のことを思い出させます:
私が上記の写真を Twitter に投稿したとき、これらの大惨事を回避できたのは官僚的介入の増加の結果であると心から信じて反応した愚か者の数が、そのプラットフォームにおける集合知のレベルについて私が知る必要があるすべてを教えてくれました。
それでも、ここにいます。 もう一度。 同じストーリー、新しいキャラクター。
残念ながら、これに関して私たちにできることは、自分たちのことに集中する以外にほとんどありません。 私たちは決めたことをこれからも続けていきます。
私は「GenAI」全般についてそれほど興奮しなくなっており、人々の関心が再び宇宙人や政治に移るにつれ、多くの誇大広告が薄れてきているように感じます。 また、私はここに何か実質的に変革を起こす何かがあるのかどうか、少なくとも半年前に考えていたほどには確信が持てません。 おそらく私が間違っていることが証明されるでしょう。 これらのツールには、まだ開発されていない潜在的な可能性があるとは思いますが、それは単に潜在的なだけです。
私たちはそれらが何であるかについてもっと現実的になる必要があると思います (人工知能というより、「確率プログラム」と呼んだほうがよいでしょう) それは実際、私たちが夢物語に費やす時間とエネルギーを減らし、有用なアプリケーションの構築により集中できることを意味するかもしれません。 その意味で、私は依然として好奇心を持ち、何かが実現することに慎重ながらも楽観的であり、ビットコイン、確率プログラム、Nostrなどのプロトコルとの結びつきのどこかで、非常に有用なものが現れるだろうと信じています。
私たちも参加できればと思っておりますので、ご興味がございましたらぜひご参加いただければと思います。 そのためには、皆さんの今日の話は後回しにし、言語モデルの構築に何が必要かについての有益な 10 分間の洞察になれば幸いです。
これは、Aleksander Svetski によるゲスト投稿です。 表明された意見は完全に彼ら自身のものであり、必ずしも BTC Inc または Bitcoin Magazine の意見を反映しているわけではありません。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- チャートプライム。 ChartPrime でトレーディング ゲームをレベルアップしましょう。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://bitcoinmagazine.com/culture/how-to-build-your-own-bitcoin-language-model
- :持っている
- :は
- :not
- :どこ
- $UP
- 7
- a
- できる
- 私たちについて
- 上記の.
- 一般に認められた
- アクセス
- 俳優
- 実際の
- 実際に
- 加えます
- 利点
- 再び
- 機関
- 代理店
- AGI
- 前
- AI
- アルゴリズム
- エイリアン
- すべて
- 沿って
- 既に
- また
- am
- 量
- an
- および
- 回答
- 回答
- どれか
- 何でも
- アプリ
- 認める
- アプローチ
- です
- 主張した
- 軍
- 周りに
- 記事
- 人工の
- 人工総合知能
- 人工知能
- AS
- At
- 注意
- 聴衆
- 著者
- バック
- 悪い
- BE
- 美しい
- なぜなら
- になる
- になる
- き
- 始まる
- さ
- 信念
- 信じる
- BEST
- より良いです
- バイアス
- ビット
- Bitcoin
- Bitcoinコミュニティ
- Bitcoin Magazine
- ビットコイン標準
- ブレンド
- ブログ
- 本
- 退屈する
- 両言語で
- BTC
- BTC Inc
- ビルド
- 建物
- 内蔵
- 束
- 官僚的
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- 缶
- カール
- 場合
- 例
- 惨事
- 慎重に
- 変化する
- 変更
- 文字
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- 気候
- 気候変動
- 収集する
- コレクション
- 集団
- 来ます
- comes
- 到来
- コミュニティ
- 完全に
- 接続する
- コンセンサス
- コンテキスト
- 文脈
- 続ける
- 続ける
- 貢献する
- 会話
- 確信
- クール
- 可能性
- カップル
- コース
- カバー
- クレジット
- CrunchBaseに
- 興味深い
- データ
- データベース
- 中
- 取引
- 考える
- 度
- 説明する
- 記載された
- 詳細
- 決定する
- 区別する
- do
- ありません
- そうではありません
- すること
- ドント
- 疑い
- ダウン
- 夢
- 間に
- 稼ぐ
- 社説
- 効果的な
- ほかに
- 出てくる
- end
- エネルギー
- 十分な
- 確保
- 完全に
- 特に
- エッセイ
- 等
- さらに
- イベント
- あらゆる
- 誰も
- 例
- 例
- 優れた
- 興奮した
- 高価な
- 体験
- 実験的
- 説明する
- 表現
- 実際
- 恐怖
- 摂食
- 感じます
- 少数の
- File
- ファイナル
- もう完成させ、ワークスペースに掲示しましたか?
- 欠陥
- フォーカス
- 形式でアーカイブしたプロジェクトを保存します.
- Foundation
- AIとMoku
- から
- フル
- おかしいです
- さらに
- 未来
- 一般情報
- 一般に
- 生成された
- 生々しい
- 生成AI
- 本物の
- 取得する
- 与える
- Go
- ゴエス
- 行く
- 良い
- GPU
- 感謝する
- ゲスト
- ゲストのポスト
- 持っていました
- ハンス・ヘルマン・ホッペ
- 出来事
- ハード
- 持ってる
- he
- 聞く
- 聞いた
- 助けます
- こちら
- history
- 希望
- 希望に満ちた
- 認定条件
- How To
- HTTP
- HTTPS
- 人間
- 人間
- 誇大広告
- i
- 私は
- アイデア
- 理想的には
- if
- 虚数
- 想像力
- 絵
- 直ちに
- 不可能
- in
- 含まれました
- 増加した
- 信じられない
- 信じられないほど
- 個人
- 情報
- 入力
- 洞察力
- を取得する必要がある者
- インテリジェンス
- インテリジェント-
- 興味がある
- インタフェース
- 内部
- 介入
- に
- 複雑さ
- 関係する
- 問題
- IT
- リーディングシート
- John Redfern
- ヨルダン
- ヨルダン・ピーターソン
- JPG
- ただ
- キープ
- 保管
- 種類
- 知っている
- ラベル
- 言語
- 姓
- 最新の
- 学習
- 最低
- コメントを残す
- 左
- less
- レベル
- ある
- 生活
- ような
- 可能性が高い
- LINK
- リスナー
- 少し
- 負荷
- たくさん
- 愛
- マガジン
- 主流
- make
- 作成
- 手動で
- 多くの
- 多くの人々
- 実現する
- 問題
- me
- 意味する
- 手段
- メンバー
- 言及した
- 会った
- Microsoft
- かもしれない
- ミッション
- モデル
- 修正する
- お金
- ヶ月
- 他には?
- 最も
- 移動
- ずっと
- の試合に
- マリー
- しなければなりません
- 中本
- 物語
- 必ずしも
- 必要
- 必要
- 必要とされる
- ニーズ
- net
- 決して
- 新作
- ネクサス
- いいえ
- ノイズ
- 私たちの
- 何も
- 知らせ..
- 今
- of
- オフ
- 頻繁に
- on
- かつて
- ONE
- の
- 〜に
- OpenAI
- 意見
- 意見
- 楽観的
- or
- 注文
- その他
- 私たちの
- でる
- 自分の
- 支払われた
- 足
- パラメータ
- 部
- 参加者
- のワークプ
- 人々の
- 実行する
- おそらく
- 周辺機器
- ピーターソン
- 画像
- ピース
- パイプ
- パイプライン
- 惑星
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 再生
- ポッドキャスト
- ポイント
- 政治
- ポスト
- 掲示
- 潜在的な
- 準備
- 前
- 多分
- 問題
- プロセス
- ラボレーション
- 処理
- 作り出す
- プログラム
- プロジェクト
- プロトコル
- 実績のある
- 目的
- 品質
- 量
- 量子
- 質問
- すぐに
- Rage
- Raw
- リアル
- 現実的な
- 実現する
- 本当に
- 記録
- 反映する
- 規制
- 規制
- 関連する
- 関連した
- 残る
- 覚えています
- 倉庫
- 反応します
- 回答
- 結果
- return
- 富裕層
- リスク
- 圧延
- ルール
- より安全な
- 同じ
- 聡
- サット
- 言う
- 規模
- スクラッチ
- 画面
- を検索
- と思われる
- センス
- シリーズ
- セッションに
- すべき
- 同様の
- 簡単な拡張で
- から
- 座っ
- SIX
- 半年
- より小さい
- 賢い
- So
- 解決する
- 一部
- 誰か
- 何か
- どこか
- 過ごす
- 費やした
- スピン
- 精神
- split
- Spot
- ステージ
- 標準
- 立場
- 起動
- まだ
- 保存され
- ストーリー
- ストーリー
- テーマ
- 提出する
- 実質上
- そのような
- 周囲の
- 取る
- 取り
- 取得
- Talk
- 会話
- 言う
- 期間
- 条件
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- そこ。
- ボーマン
- 彼ら
- もの
- 物事
- 考える
- 考え
- この
- それらの
- しかし?
- 考え
- 脅威
- 介して
- 時間
- 〜へ
- ツールボックス
- 豊富なツール群
- に向かって
- トレーニング
- 最適化の適用
- 変形させる
- 試します
- さえずり
- 不確実性
- 根本的な
- わかる
- 理解する
- ユニット
- 異なり、
- 未開発
- まで
- URL
- us
- つかいます
- 中古
- 非常に
- ビデオ
- name
- ボランティア
- 欲しいです
- wanted
- ました
- 仕方..
- 方法
- we
- webp
- 週間
- WELL
- この試験は
- どのような
- いつ
- かどうか
- which
- while
- 誰
- 全体
- なぜ
- 意志
- 仕事
- ワーキング
- 作品
- でしょう
- 書きます
- 間違った
- 年
- まだ
- You
- あなたの
- ユーチューブ
- ゼファーネット