Amazon SageMaker Ground Truth Plus で高品質のトレーニングデータセットを作成するためのコード不要のビジュアルツールでデータラベルを検査する

プラトン再発行

フォロワー： 0

AWS re:Invent 2021 で発表された、 Amazon SageMaker グラウンドトゥルースプラスは、データラベル付けアプリケーションの構築とラベル付け作業員の管理に関連する、差別化につながらない重労働を取り除くことで、高品質のトレーニングデータセットを作成するのに役立ちます。ラベル付け要件とともにデータを共有するだけで、Ground Truth Plus はこれらの要件に基づいてデータのラベル付けワークフローを設定および管理します。そこから、さまざまな機械学習 (ML) タスクのトレーニングを受けた専門家がデータのラベル付けを行います。 Ground Truth Plus を使用するのに、ML に関する深い専門知識やワークフロー設計および品質管理の知識は必要ありません。

ML アルゴリズム用の高品質のトレーニングデータセットの構築は、反復プロセスです。正確にラベル付けされたデータは ML モデルの品質にとって重要であるため、ML 実践者はデータラベルを検査するカスタムシステムを構築することがよくあります。高品質のトレーニングデータを確実に取得するために、Ground Truth Plus には組み込みのユーザーインターフェイス (レビュー UI) が用意されており、データラベルの品質を検査し、ラベルがグラウンドトゥルース、または現実世界で直接観察できるもの。

この投稿では、プロジェクトチームを作成し、レビュー UI ツールのいくつかの新しい組み込み機能を使用して、ラベル付けされたデータセットの検査を効率的に完了する手順について説明します。このチュートリアルでは、アクティブな Ground Truth Plus ラベル付けプロジェクトがあることを前提としています。詳細については、次を参照してください。 Amazon SageMaker Ground Truth Plus – コードや社内リソースなしでトレーニングデータセットを作成.

プロジェクトチームを立ち上げる

プロジェクトチームは、レビュー UI ツールを使用してデータラベルを検査するために、組織のメンバーにアクセスを提供します。プロジェクトチームを設定するには、次の手順を実行します。

オンザグラウンドトゥルースプラスコンソール、選択する プロジェクトチームの作成.
選択 新しい Amazon Cognito ユーザーグループを作成する . すでに既存のアマゾンコグニートユーザーグループで、 メンバーのインポート オプションを選択します。
Amazon Cognito ユーザーグループ名、名前を入力します。この名前は変更できません。
メールアドレスに、最大 50 人のチームメンバーの電子メールアドレスをカンマで区切って入力します。
選択する プロジェクトチームの作成.

チームメンバーは、Ground Truth Plus プロジェクトチームに参加するよう招待する電子メールを受け取ります。そこから、Ground Truth Plus プロジェクトポータルにログインして、データラベルを確認できます。

ラベル付けされたデータセットの品質を検査する

それでは、ビデオオブジェクトトラッキングの例を見てみましょう。 CBCLストリートシーンデータセット。

バッチ内のデータにラベルが付けられると、バッチは次のようにマークされます。 レビューの準備ができました.

バッチを選択して選択します レビューバッチ. レビュー UI にリダイレクトされます。レビューするバッチごとに異なるサンプリングレートを柔軟に選択できます。たとえば、この例のバッチでは、合計 XNUMX つのビデオがあります。これら XNUMX つのビデオのサブセットのみを確認するか、すべてを確認するかを指定できます。

次に、ラベル付けされたデータセットの品質をより速いペースで検査し、品質に関するフィードバックを提供するのに役立つ、レビュー UI 内のさまざまな機能を見てみましょう。

ラベルカテゴリに基づいてラベルをフィルタリングする – レビュー UI 内の右側のペインで、ラベルカテゴリに基づいてラベルをフィルタリングできます。この機能は、複数のラベルカテゴリがある場合に便利です (たとえば、 Vehicles, Pedestrians, Poles) 密なデータセットオブジェクトで、一度に XNUMX つのラベルカテゴリのラベルを表示する場合。たとえば、 Car ラベルのカテゴリ。入力します Car タイプのみのすべての注釈をフィルタリングするための右ペインのラベルカテゴリ Car. 次のスクリーンショットは、フィルターを適用する前後のレビュー UI ビューを示しています。
関連する注釈付き属性値のオーバーレイ – 各ラベルには、注釈を付ける属性を割り当てることができます。たとえば、ラベルカテゴリの場合 Car 、ワーカーに注釈も付けてもらいたいとします Color & Occlusion 各ラベルインスタンスの属性。レビュー UI をロードすると、右側のペインの各ラベルインスタンスの下に対応する属性が表示されます。しかし、代わりにこれらの属性注釈を画像上に直接表示したい場合はどうすればよいでしょうか? ラベルを選択します Car:1 、および属性注釈をオーバーレイする Car:1 、を押します Ctrl + A。
これで、注釈が表示されます Dark Blue Color 属性と注釈 None Occlusion の隣の画像に直接表示される属性 Car:1 境界ボックス。これで簡単に確認できます Car:1 としてマークされました Dark Blue、場所を特定するのではなく、画像を見るだけでオクルージョンなし Car:1 をクリックして、属性の注釈を表示します。
ラベルレベルでフィードバックを残す – 各ラベルについて、そのラベルのラベルレベルでフィードバックを残すことができます。 ラベルのフィードバック 自由文字列属性。たとえば、この画像では、 Car:1 紺というより黒に見えます。この不一致をフィードバックとして伝えることができます Car:1 ラベルのフィードバック そのフレームのそのラベルへのコメントを追跡するフィールド。当社の内部品質管理チームは、このフィードバックを確認し、アノテーションプロセスとラベルポリシーに変更を加え、必要に応じてアノテーターをトレーニングします。
フレームレベルでフィードバックを残す – 同様に、フレームごとに、そのフレームの下のフレームレベルでフィードバックを残すことができます。 フレームフィードバック 自由文字列属性。この場合、注釈は Car & Pedestrian クラスは正しく、このフレームで適切に実装されているように見えます。を使用して、この肯定的なフィードバックを伝えることができます。 フィードバックを提供します あなたのコメントはこのフレームにリンクされています。
注釈フィードバックを他のフレームにコピーする – 属性を右クリックすると、ラベルレベルとフレームレベルの両方のフィードバックを他のフレームにコピーできます。この機能は、そのラベルのフレーム間で同じフィードバックを複製する場合、または同じフレームレベルのフィードバックを複数のフレームに適用する場合に便利です。この機能により、データラベルの検査をすばやく完了することができます。
各データセットオブジェクトを承認または却下する – 確認するデータセットオブジェクトごとに、いずれかを選択するオプションがあります承認注釈に満足するか、 非承認 満足できず、それらの注釈を作り直したい場合。選択するとき送信、確認したばかりのビデオを承認または拒否するオプションが表示されます。どちらの場合でも、追加のコメントを提供できます。
- あなたが選択した場合承認、コメントはオプションです。
- あなたが選択した場合 非承認、コメントが必要です。詳細なフィードバックを提供することをお勧めします。あなたのフィードバックは、専用の Ground Truth Plus 品質管理チームによってレビューされ、後続のビデオで同様の間違いを避けるために是正措置が取られます。

フィードバックとともにビデオを送信すると、プロジェクトポータルのプロジェクト詳細ページにリダイレクトされます。ここでは、拒否されたオブジェクトの数を 拒否されたオブジェクト 列とエラー率。 合格率 プロジェクトの各バッチの列。たとえば、次のスクリーンショットのバッチ 1 では、80 つのレビュー済みオブジェクトのうち XNUMX つのオブジェクトが受け入れられたため、受け入れ率は XNUMX% です。

まとめ

ML イニシアチブを達成するには、高品質のトレーニングデータセットが不可欠です。 Ground Truth Plus では、ラベル付けされたデータセットの品質をレビューするためのカスタムツールの構築に関連する、差別化につながらない手間のかかる作業を取り除く、強化された組み込みのレビュー UI ツールが用意されています。この投稿では、プロジェクトチームをセットアップし、レビュー UI ツールの新しい組み込み機能を使用する方法について説明しました。訪問 Ground Truth Plus コンソール始めるために。

いつものように、AWSはフィードバックを歓迎します。コメントや質問を送信してください。

著者について

マニッシュ・ゴエル Amazon SageMaker Ground Truth Plus のプロダクトマネージャーです。彼は、顧客が機械学習をより簡単に採用できるようにする製品の構築に注力しています。余暇には、ロードトリップや読書を楽しんでいます。

レベッカ・コストエワ Amazon AWS のソフトウェア開発エンジニアであり、Sagemaker Ground Truth サービスの幅とスケーラビリティを拡大するために、顧客対応および内部ソリューションに取り組んでいます。研究者として、彼女は業界のツールを改善してイノベーションを推進することに駆り立てられています。

タイムスタンプ： 2022 年 6 月 27 日

より多くの AWS機械学習

Amazon EC2 Trn1 UltraClusters を使用した大規模言語モデル (LLM) トレーニングのスケーリング

AWS機械学習

ソースノード： 1899997

タイムスタンプ： 2023 年 10 月 9 日

ウェアラブルデバイスの PlatoBlockchain Data Intelligence からのデータを使用して、ほぼリアルタイムの心臓異常を検出するための AWS クラウドテクノロジー。垂直検索。あい。

ウェアラブルデバイスからのデータを使用してほぼリアルタイムで心臓の異常を検出するための AWS クラウドテクノロジー

ソースクラスター：

AWS機械学習

ソースノード： 1760803

タイムスタンプ： 2022 年 11 月 23 日

プラトン再発行

Amazon SageMaker Studio Lab は、より多くのスケールと機能で ML を民主化し続けています

Amazon SageMaker Canvas を使用すると、コードを XNUMX 行も記述せずに機械学習を使用できます。アマゾンウェブサービス

Talkdesk CX Cloud コンタクトセンターで Amazon Lex を使用して強力なセルフサービスエクスペリエンスを作成する

Mistral AI の Mistral 7B 基礎モデルが Amazon SageMaker JumpStart | で利用できるようになりました。アマゾンウェブサービス

ウェアラブルデバイスからのデータを使用してほぼリアルタイムで心臓の異常を検出するための AWS クラウドテクノロジー

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー