今日のAIは人工人工知能です

プラトン再発行

フォロワー： 0

今日のAIは人工人工知能PlatoBlockchain Data Intelligenceです。垂直検索。あい。

Amazon Mechanical Turk のようなクラウドソースサービスを通じて雇用された労働者は、タスクを完了するために大規模な言語モデルを使用していますが、これは将来 AI モデルに悪影響を与える可能性があります。

データは AI にとって重要です。開発者は、正確で信頼性の高い機械学習システムを構築するために、クリーンで高品質のデータセットを必要としています。ただし、価値のある最高のデータを編集するのは面倒な場合があります。企業は多くの場合、Amazon Mechanical Turk などのサードパーティプラットフォームを利用して、オブジェクトのラベル付け、状況の説明、文章の転写、テキストの注釈付けなどの反復的なタスクを低賃金の労働者に指示します。

出力をクリーンアップしてモデルに入力し、その作業をより大規模で自動化されたスケールで再現するようにモデルをトレーニングすることができます。

したがって、AI モデルは人間の労働力に基づいて構築されています。つまり、人々は苦労して、企業が数十億ドルを稼ぐために使用できる AI システムのトレーニング例を山ほど提供しています。

しかし、スイスのローザンヌ高等工科大学（EPFL）の研究者らが行った実験では、クラウドソーシングで働く労働者が、OpenAIのチャットボットChatGPTなどのAIシステムを利用してオンラインで雑務を行っていると結論づけた。

モデルを独自の出力でトレーニングすることはお勧めできません。 AI モデルが、人間によって生成されたデータではなく、他の AI モデルによって、おそらくは同じモデルによって生成されたデータに基づいてトレーニングされていることがわかります。これにより、悲惨な出力品質、さらなるバイアス、その他の望ましくない影響が生じる可能性があります。

実験

研究者らは、44 件の医学研究論文の要約を要約するために 16 人の Mechanical Turk 農奴を採用し、労働者が提出したテキストの一節の 33 ～ 46 パーセントが大規模な言語モデルを使用して生成されたと推定しました。クラウドワーカーは低賃金で支払われていることが多く、AI を使用して応答を自動的に生成することで、より迅速に作業し、より多くの仕事を請け負って給与を増やすことができます。

スイスのチームは、トルコ人からの提出物が人間によって生成されたのか、それとも AI によって生成されたのかを予測する分類器をトレーニングしました。学者らはまた、農奴がテキストをコピーしてプラットフォームに貼り付けたのか、それとも自分で入力したのかを検出するために、労働者のキーストロークを記録した。誰かがチャットボットを使用して出力を手動で入力する可能性は常にありますが、その可能性は低いと考えられます。

「私たちは、シナリオ内で合成テキストを検出するのに非常にうまく機能する、非常に具体的な方法論を開発しました」と、共著者であるマノエル・リベイロ氏は述べています。研究 EPFLの博士課程の学生はこう語った。登録今週。

「従来の方法は『あらゆるコンテキストで』合成テキストを検出しようとしますが、私たちのアプローチは特定のシナリオで合成テキストを検出することに重点を置いています。」

この分類器は、誰かが AI システムを使用したのか、それとも独自の作品を作成したのかを識別するのに完璧ではありません。学者らは、誰かがボットからコピー＆ペーストしたときや独自の資料を作成したときの確実性を高めるために、分類器の出力とキーストロークデータを組み合わせました。

私たちが関心を持っているのは人間であるため、人間のデータはゴールドスタンダードです

「MTurk から収集したキーストロークデータを使用して結果を検証することができました」と Ribeiro 氏は語ります。「たとえば、コピー＆ペーストされていないテキストはすべて、当社によって「本物」として分類されていることがわかりました。これは、誤検知がほとんどないことを示唆しています。」

テストの実行に使用されるコードとデータここで見つけることができます、GitHub 上で。

この実験が、クラウドソーシングのタスクを自動化するために実際に AI を使用している労働者の数を完全に公平に表現したものではない可能性が高いもう XNUMX つの理由があります。著者らは、テキスト要約タスクは他の種類のジョブに比べて大規模な言語モデルに適していると指摘しています。これは、ChatGPT などのツールを使用しているワーカーの数が多いほど結果が偏る可能性があることを意味しています。

46 人の従業員からの 44 件の回答というデータセットも小規模です。従業員には要約テキストごとに 1 ドルが支払われましたが、これも AI の使用を促進するだけかもしれません。

大規模な言語モデルは、クラウドソースプラットフォームから収集された AI によって生成された偽のコンテンツでトレーニングされることが増えれば、さらに悪化するだろうと研究者らは主張しています。 OpenAI のような企業は、最新モデルをどのようにトレーニングしているかを正確に極秘にしており、Mechanical Turk などにはあまり依存しない可能性があります。そうは言っても、他の多くのモデルは人間の作業者に依存している可能性があり、その結果、トレーニングデータの生成にボットが使用される可能性があり、これが問題です。

たとえば、Mechanical Turk は、「機械学習モデルを強化するデータラベリングソリューション」のプロバイダーとして販売されています。

「人間のデータはゴールドスタンダードです。私たちが関心を持っているのは人間であり、大規模な言語モデルではないからです」とリベリオ氏は語った。「私なら、ショウジョウバエの生物学的モデルでのみ試験された薬は飲みたくない」と彼は一例として述べた。

今日の AI モデルによって生成される応答は、通常、非常に当たり障りのない、または些細なものであり、人間の創造性の複雑さと多様性を捉えていないと研究者らは主張しました。

「時々、私たちがクラウドソーシングされたデータを使って研究したいのは、まさに人間がどのように不完全であるかということです」と論文の共著者であり、EPFL のコンピューターおよびコミュニケーション科学部の助教授であるロバート・ウェスト氏は語った。

AI が進化し続けるにつれて、クラウドソーシングの仕事も変化する可能性があります。リベリオ氏は、大規模な言語モデルが特定のタスクの一部の労働者を置き換えることができると推測しました。「しかし、逆説的ですが、人間のデータはこれまで以上に貴重になる可能性があるため、これらのプラットフォームは大規模な言語モデルの使用を防ぎ、それが人間のデータのソースであり続けることを保証する方法を実装できる可能性があります。」

誰にも分からないが、おそらく人間は応答を生成するために大規模な言語モデルと協力することになるかもしれない、と彼は付け加えた。 ®

SEO を活用したコンテンツと PR 配信。今日増幅されます。
EVMファイナンス。分散型金融のための統一インターフェイス。こちらからアクセスしてください。
クォンタムメディアグループ。 IR/PR増幅。こちらからアクセスしてください。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
情報源： https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/

タイムスタンプ： 2023 年 6 月 16 日

タイムスタンプ： 2023 年 5 月 18 日

今のAIは人工知能です

プラトン再発行

実験

より多くの登録

変化の性質

GoogleとAppleはGeminiをiDeviceに導入する契約に取り組んでいる

シンガポール、喫煙者の検知に使用する AI を改良

国連、米国主導の拘束力のないAI決議案を採択

SpotifyがAIを利用してポッドキャスターの音声をスペイン語に複製

「主要な」ニュース: Microsoft が Bing チャットボットのショートカットを Windows 11 に組み込む

AI があなたの仕事にやってくるでしょうか? まあ、多分だけどそれは状況による

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

実験

より多くの 登録

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの登録