Amazon Mechanical Turk のようなクラウドソース サービスを通じて雇用された労働者は、タスクを完了するために大規模な言語モデルを使用していますが、これは将来 AI モデルに悪影響を与える可能性があります。
データは AI にとって重要です。 開発者は、正確で信頼性の高い機械学習システムを構築するために、クリーンで高品質のデータセットを必要としています。 ただし、価値のある最高のデータを編集するのは面倒な場合があります。 企業は多くの場合、Amazon Mechanical Turk などのサードパーティ プラットフォームを利用して、オブジェクトのラベル付け、状況の説明、文章の転写、テキストの注釈付けなどの反復的なタスクを低賃金の労働者に指示します。
出力をクリーンアップしてモデルに入力し、その作業をより大規模で自動化されたスケールで再現するようにモデルをトレーニングすることができます。
したがって、AI モデルは人間の労働力に基づいて構築されています。つまり、人々は苦労して、企業が数十億ドルを稼ぐために使用できる AI システムのトレーニング例を山ほど提供しています。
しかし、スイスのローザンヌ高等工科大学(EPFL)の研究者らが行った実験では、クラウドソーシングで働く労働者が、OpenAIのチャットボットChatGPTなどのAIシステムを利用してオンラインで雑務を行っていると結論づけた。
モデルを独自の出力でトレーニングすることはお勧めできません。 AI モデルが、人間によって生成されたデータではなく、他の AI モデルによって、おそらくは同じモデルによって生成されたデータに基づいてトレーニングされていることがわかります。 これにより、悲惨な出力品質、さらなるバイアス、その他の望ましくない影響が生じる可能性があります。
実験
研究者らは、44 件の医学研究論文の要約を要約するために 16 人の Mechanical Turk 農奴を採用し、労働者が提出したテキストの一節の 33 ~ 46 パーセントが大規模な言語モデルを使用して生成されたと推定しました。 クラウド ワーカーは低賃金で支払われていることが多く、AI を使用して応答を自動的に生成することで、より迅速に作業し、より多くの仕事を請け負って給与を増やすことができます。
スイスのチームは、トルコ人からの提出物が人間によって生成されたのか、それとも AI によって生成されたのかを予測する分類器をトレーニングしました。 学者らはまた、農奴がテキストをコピーしてプラットフォームに貼り付けたのか、それとも自分で入力したのかを検出するために、労働者のキーストロークを記録した。 誰かがチャットボットを使用して出力を手動で入力する可能性は常にありますが、その可能性は低いと考えられます。
「私たちは、シナリオ内で合成テキストを検出するのに非常にうまく機能する、非常に具体的な方法論を開発しました」と、共著者であるマノエル・リベイロ氏は述べています。 研究 EPFLの博士課程の学生はこう語った。 登録 今週。
「従来の方法は『あらゆるコンテキストで』合成テキストを検出しようとしますが、私たちのアプローチは特定のシナリオで合成テキストを検出することに重点を置いています。」
この分類器は、誰かが AI システムを使用したのか、それとも独自の作品を作成したのかを識別するのに完璧ではありません。 学者らは、誰かがボットからコピー&ペーストしたときや独自の資料を作成したときの確実性を高めるために、分類器の出力とキーストローク データを組み合わせました。
私たちが関心を持っているのは人間であるため、人間のデータはゴールドスタンダードです
「MTurk から収集したキーストローク データを使用して結果を検証することができました」と Ribeiro 氏は語ります。 「たとえば、コピー&ペーストされていないテキストはすべて、当社によって「本物」として分類されていることがわかりました。これは、誤検知がほとんどないことを示唆しています。」
テストの実行に使用されるコードとデータ ここで見つけることができます、GitHub 上で。
この実験が、クラウドソーシングのタスクを自動化するために実際に AI を使用している労働者の数を完全に公平に表現したものではない可能性が高いもう XNUMX つの理由があります。 著者らは、テキスト要約タスクは他の種類のジョブに比べて大規模な言語モデルに適していると指摘しています。これは、ChatGPT などのツールを使用しているワーカーの数が多いほど結果が偏る可能性があることを意味しています。
46 人の従業員からの 44 件の回答というデータセットも小規模です。 従業員には要約テキストごとに 1 ドルが支払われましたが、これも AI の使用を促進するだけかもしれません。
大規模な言語モデルは、クラウドソース プラットフォームから収集された AI によって生成された偽のコンテンツでトレーニングされることが増えれば、さらに悪化するだろうと研究者らは主張しています。 OpenAI のような企業は、最新モデルをどのようにトレーニングしているかを正確に極秘にしており、Mechanical Turk などにはあまり依存しない可能性があります。 そうは言っても、他の多くのモデルは人間の作業者に依存している可能性があり、その結果、トレーニング データの生成にボットが使用される可能性があり、これが問題です。
たとえば、Mechanical Turk は、「機械学習モデルを強化するデータ ラベリング ソリューション」のプロバイダーとして販売されています。
「人間のデータはゴールドスタンダードです。私たちが関心を持っているのは人間であり、大規模な言語モデルではないからです」とリベリオ氏は語った。 「私なら、ショウジョウバエの生物学的モデルでのみ試験された薬は飲みたくない」と彼は一例として述べた。
今日の AI モデルによって生成される応答は、通常、非常に当たり障りのない、または些細なものであり、人間の創造性の複雑さと多様性を捉えていないと研究者らは主張しました。
「時々、私たちがクラウドソーシングされたデータを使って研究したいのは、まさに人間がどのように不完全であるかということです」と論文の共著者であり、EPFL のコンピューターおよびコミュニケーション科学部の助教授であるロバート・ウェスト氏は語った。
AI が進化し続けるにつれて、クラウドソーシングの仕事も変化する可能性があります。 リベリオ氏は、大規模な言語モデルが特定のタスクの一部の労働者を置き換えることができると推測しました。 「しかし、逆説的ですが、人間のデータはこれまで以上に貴重になる可能性があるため、これらのプラットフォームは大規模な言語モデルの使用を防ぎ、それが人間のデータのソースであり続けることを保証する方法を実装できる可能性があります。」
誰にも分からないが、おそらく人間は応答を生成するために大規模な言語モデルと協力することになるかもしれない、と彼は付け加えた。 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- EVMファイナンス。 分散型金融のための統一インターフェイス。 こちらからアクセスしてください。
- クォンタムメディアグループ。 IR/PR増幅。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :持っている
- :は
- :not
- $UP
- 16
- 7
- a
- できる
- 私たちについて
- 抄録
- 学者
- 正確な
- 追加されました
- 再び
- AI
- すべて
- ことができます
- また
- 常に
- Amazon
- an
- および
- 別の
- どれか
- アプローチ
- です
- 主張した
- 人工の
- 人工知能
- AS
- アシスタント
- At
- 著者
- 自動化する
- 自動化
- 自動的に
- 離れて
- BE
- なぜなら
- さ
- バイアス
- 億
- 当たり障りのない
- ロボット
- ボット
- ビルド
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- キャプチャー
- これ
- 一定
- チャンス
- 変化する
- チャットボット
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- 安い
- 分類された
- 閉じる
- CO
- 共著者
- コード
- 協業
- 組み合わせた
- コミュニケーション
- 企業
- 比べ
- コンプリート
- 完全に
- 複雑さ
- コンピュータ
- 終了する
- 実施
- コンテンツ
- コンテキスト
- 続ける
- 法人
- 可能性
- 創造性
- 重大な
- 群衆
- データ
- データセット
- 発展した
- 開発者
- 悲惨な
- 多様性
- do
- ドル
- 各
- 効果
- 奨励する
- end
- 確保
- 推定
- さらに
- EVER
- 正確に
- 例
- 例
- 実験
- フェア
- 偽
- false
- 速いです
- FRBは
- 少数の
- 焦点を当て
- 発見
- から
- 未来
- 生成する
- 生成された
- 取得する
- GitHubの
- ゴールド
- ゴールド·スタンダード
- 持ってる
- he
- 重く
- 高品質
- より高い
- 認定条件
- しかしながら
- HTTPS
- 人間
- 人間
- i
- 識別
- if
- 実装する
- 改善します
- in
- 増える
- ますます
- インテリジェンス
- に
- ISN
- IT
- ITS
- Jobs > Create New Job
- JPG
- キープ
- ラベリング
- 労働
- 言語
- 大
- より大きい
- 最新の
- つながる
- 学習
- ような
- 可能性が高い
- ログインして
- ロー
- 機械
- 機械学習
- make
- マネージド
- 手動で
- 多くの
- 材料
- 五月..
- 意味
- 機械的な
- 医療の
- 医学研究
- 薬
- 方法論
- メソッド
- かもしれない
- モデル
- 他には?
- ずっと
- 必要
- 負
- 数
- オブジェクト
- of
- 頻繁に
- on
- ONE
- オンライン
- の
- OpenAI
- or
- その他
- 私たちの
- 出力
- 自分の
- 支払われた
- 紙素材
- 論文
- パーティー
- 支払う
- のワークプ
- パーセント
- 完璧
- 実行する
- おそらく
- プラットフォーム
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレンティ
- プール
- 電力
- 貴重な
- 正確に
- 予測する
- 防ぐ
- 問題
- 生産された
- 東京大学大学院海洋学研究室教授
- プロバイダー
- 提供
- 品質
- リアル
- 本当に
- 理由
- 推奨される
- 信頼性のある
- 頼る
- 残っている
- 反復的な
- replace
- 表現
- 研究
- 研究者
- 回答
- 結果
- ROBERT
- ラン
- s
- 前記
- 同じ
- 規模
- シナリオ
- 学校
- 科学
- 秘密
- サービス
- 状況
- 小さい
- ソリューション
- 一部
- 誰か
- ソース
- 特定の
- 標準
- 学生
- 勉強
- 提出
- 提出された
- そのような
- 提案する
- まとめる
- 概要
- スイス
- スイス
- 合成
- システム
- 取る
- 仕事
- タスク
- チーム
- test
- テスト
- より
- それ
- 未来
- アプリ環境に合わせて
- それら
- 自分自身
- その後
- そこ。
- ボーマン
- 彼ら
- 物事
- 三番
- この
- 今週
- 〜へ
- 今日
- あまりに
- 豊富なツール群
- に向かって
- 伝統的な
- トレーニング
- 訓練された
- トレーニング
- 試します
- 順番
- ありそうもない
- 不要な
- us
- 使用法
- つかいます
- 中古
- 使用されます
- 通常
- 検証
- 貴重な
- 非常に
- 、
- 賃金
- 欲しいです
- ました
- 方法
- we
- 週間
- WELL
- した
- ウェスト
- この試験は
- いつ
- かどうか
- which
- while
- 意志
- 仕事
- 働いていました
- 労働者
- もっと悪い
- ゼファーネット