12月の2020では、 AWSが一般提供を発表しました of Amazon SageMaker ジャンプスタート、の機能 アマゾンセージメーカー これにより、機械学習(ML)をすばやく簡単に開始できます。 JumpStartは、一般的なMLタスク全体で、事前にトレーニングされたさまざまなモデルのワンクリックの微調整と展開、および一般的なビジネス上の問題を解決するエンドツーエンドのソリューションの選択を提供します。 これらの機能により、MLプロセスの各ステップの負担が軽減され、高品質のモデルの開発が容易になり、デプロイまでの時間が短縮されます。
以前は、すべてのJumpStartコンテンツは Amazon SageMakerスタジオこれは ユーザーフレンドリーなグラフィカルインターフェイス 機能を操作します。 本日、使いやすい発売を発表できることを嬉しく思います。 JumpStart API SageMakerPythonSDKの拡張として。 これらのAPIを使用すると、JumpStartでサポートされている事前トレーニング済みモデルの膨大な選択肢を独自のデータセットにプログラムでデプロイして微調整できます。 この起動により、コードワークフロー、MLOpsパイプライン、およびSDKを介してSageMakerとやり取りしているその他の場所でのJumpStart機能の使用が可能になります。
この投稿では、JumpStartの機能の現在の状態に関する最新情報を提供し、使用例を使用してJumpStartAPIの使用フローをガイドします。
JumpStartの概要
JumpStartは、SageMakerでMLをすばやく開始するのに役立つさまざまな機能を含む多面的な製品です。 これを書いている時点では、JumpStartを使用すると次のことができます。
- 一般的なMLタスク用に事前トレーニング済みモデルを展開する – JumpStartを使用すると、公開されている大規模なデータセットで事前トレーニングされたモデルを簡単にデプロイできるため、開発作業なしで一般的なMLタスクを解決できます。 MLの研究コミュニティは、最近開発されたモデルの大部分を一般に公開することに多大な努力を払ってきました。 JumpStartは、オブジェクト検出、テキスト分類、テキスト生成などの300の最も人気のあるMLタスクにまたがる、15を超えるモデルのコレクションをホストし、初心者が簡単に使用できるようにします。 これらのモデルは、TensorFlow、PyTorch、Hugging Face、MXNetHubなどの一般的なモデルハブから抽出されています。
- 事前にトレーニングされたモデルを微調整する – JumpStartを使用すると、独自のトレーニングアルゴリズムを作成しなくても、事前にトレーニングされたモデルを微調整できます。 MLでは、あるドメインで学習した知識を別のドメインに転送する機能は、 転移学習。 転移学習を使用すると、元のモデルを最初からトレーニングする場合よりもはるかに低いトレーニングコストで、より小さなデータセットで正確なモデルを作成できます。 JumpStartには、LightGBM、CatBoost、XGBoost、およびScikitに基づく一般的なトレーニングアルゴリズムも含まれています。表形式のデータ回帰と分類のためにゼロからトレーニングできることを学びます。
- 構築済みのソリューションを使用する –JumpStartは一連の 17の構築済みソリューション 数回クリックするだけで展開できる、需要予測や産業および金融アプリケーションなどの一般的なMLユースケースの場合。 ソリューションは、特定のビジネスユースケースを解決するためにさまざまなAWSサービスをつなぎ合わせるエンドツーエンドのMLアプリケーションです。 彼らは使用します AWS CloudFormation 迅速な展開のためのテンプレートとリファレンスアーキテクチャ。つまり、完全にカスタマイズ可能です。
- SageMakerアルゴリズムのノートブックの例を使用する –SageMakerは一連の 組み込みアルゴリズム データサイエンティストとML実践者が、MLモデルのトレーニングと導入を迅速に開始できるように支援します。 JumpStartは、これらのアルゴリズムをすばやく使用するために使用できるサンプルノートブックを提供します。
- トレーニングビデオやブログを活用する – JumpStartは、SageMaker内でさまざまな機能を使用する方法を教える多数のブログ投稿とビデオも提供します。
JumpStartは、カスタムVPC設定とKMS暗号化キーを受け入れるため、エンタープライズ環境内で利用可能なモデルとソリューションを安全に使用できます。 セキュリティ設定は、SageMakerStudio内またはSageMakerPythonSDKを介してJumpStartに渡すことができます。
JumpStartでサポートされているMLタスクとAPIサンプルノートブック
JumpStartは現在、最も人気のある15のMLタスクをサポートしています。 そのうち13はビジョンとNLPベースのタスクであり、そのうち8つはノーコードの微調整をサポートしています。 また、表形式のデータモデリングのためのXNUMXつの一般的なアルゴリズムもサポートしています。 タスクとサンプルノートブックへのリンクを次の表に要約します。
仕事 | 事前にトレーニングされたモデルによる推論 | カスタムデータセットのトレーニング | サポートされているフレームワーク | ノートブックの例 |
画像分類 | はい | はい | PyTorch、TensorFlow | JumpStartの概要–画像分類 |
オブジェクト検出 | はい | はい | PyTorch、TensorFlow、MXNet | JumpStartの概要–オブジェクト検出 |
セマンティックセグメンテーション | はい | はい | MXNet | JumpStartの概要–セマンティックセグメンテーション |
インスタンスのセグメンテーション | はい | いいえ | MXNet | JumpStartの概要–インスタンスのセグメンテーション |
画像の埋め込み | はい | いいえ | TensorFlow、MXNet | JumpStartの概要–画像の埋め込み |
テキスト分類 | はい | はい | TensorFlow | JumpStartの概要–テキスト分類 |
文のペアの分類 | はい | はい | TensorFlow、Hugging Face | JumpStartの概要–文のペアの分類 |
質問応答 | はい | はい | パイトーチ | JumpStartの概要–質問応答 |
名前付きエンティティの認識 | はい | いいえ | ハグ顔 | JumpStartの概要–名前付きエンティティの認識 |
テキストの要約 | はい | いいえ | ハグ顔 | JumpStartの概要–テキストの要約 |
テキスト生成 | はい | いいえ | ハグ顔 | JumpStartの概要–テキスト生成 |
機械翻訳 | はい | いいえ | ハグ顔 | JumpStartの概要–機械翻訳 |
テキストの埋め込み | はい | いいえ | TensorFlow、MXNet | JumpStartの概要–テキストの埋め込み |
表形式の分類 | はい | はい | LightGBM、CatBoost、XGBoost、Linear Learner | JumpStartの概要–表形式の分類– LightGBM、CatBoost JumpStartの概要–表形式の分類– XGBoost、線形学習者 |
表形式の回帰 | はい | はい | LightGBM、CatBoost、XGBoost、Linear Learner | JumpStartの概要–表形式の回帰– LightGBM、CatBoost JumpStartの概要–表形式の回帰– XGBoost、線形学習者 |
タスクに応じて、前の表にリンクされているサンプルノートブックは、次のプロセスのすべてまたはサブセットをガイドできます。
- 特定のタスクに対して、JumpStartでサポートされている事前トレーニング済みモデルを選択します。
- 事前にトレーニングされたモデルをホストし、それからリアルタイムで予測を取得し、結果を適切に表示します。
- 独自に選択したハイパーパラメータを使用して事前トレーニング済みのモデルを微調整し、推論のために展開します。
JumpStartAPIを使用してオブジェクト検出モデルを微調整してデプロイします
次のセクションでは、オブジェクト検出の代表的なタスクで新しいJumpStartAPIを使用する方法のステップバイステップのウォークスルーを提供します。 事前にトレーニングされたオブジェクト検出モデルを使用して、境界ボックスのある画像内の事前定義されたクラスのセットからオブジェクトを識別する方法を示します。 最後に、独自のデータセットで事前にトレーニングされたモデルを微調整して、独自のデータを取得するだけで、ビジネスニーズに固有の画像内のオブジェクトを検出する方法を示します。 私たちは提供します このウォークスルーに付属するノートブック.
次の高レベルの手順を実行します。
- 事前にトレーニングされたモデルで推論を実行します。
- JumpStartアーティファクトを取得し、エンドポイントをデプロイします。
- エンドポイントをクエリし、応答を解析して、モデルの予測を表示します。
- 事前にトレーニングされたモデルを独自のデータセットで微調整します。
- トレーニングアーティファクトを取得します。
- トレーニングを実行します。
事前にトレーニングされたモデルで推論を実行する
このセクションでは、JumpStartで事前にトレーニングされた適切なモデルを選択し、このモデルをSageMakerエンドポイントにデプロイし、デプロイされたエンドポイントで推論を実行する方法を示します。 すべての手順は、 付属するJupyterノートブック.
JumpStartアーティファクトを取得し、エンドポイントをデプロイします
SageMakerは、Dockerコンテナに基づくプラットフォームです。 JumpStartは、利用可能なフレームワーク固有を使用します SageMakerディープラーニングコンテナ (DLC)。 選択したタスクのトレーニングと推論を処理するためのスクリプトだけでなく、追加のパッケージもフェッチします。 最後に、事前にトレーニングされたモデルアーティファクトは、 model_uris
、プラットフォームに柔軟性を提供します。 XNUMXつのトレーニングまたは推論スクリプトで、同じタスクに対して事前にトレーニングされたモデルをいくつでも使用できます。 次のコードを参照してください。
次に、リソースをにフィードします SageMakerモデル インスタンス化してエンドポイントをデプロイします。
エンドポイントの展開は、完了するまでに数分かかる場合があります。
エンドポイントをクエリし、応答を解析して、予測を表示します
デプロイされたモデルから推論を取得するには、入力イメージを受け入れタイプとともにバイナリ形式で提供する必要があります。 JumpStartでは、返されるバウンディングボックスの数を定義できます。 次のコードスニペットでは、画像ごとにXNUMX個のバウンディングボックスを追加して予測します。 ;n_predictions=10
〜へ Accept
。 xxボックスを予測するには、次のように変更できます。 ;n_predictions=xx
、または省略してすべての予測ボックスを取得します ;n_predictions=xx
完全に。
次のコードスニペットは、オブジェクト検出がどのように見えるかを垣間見ることができます。 各オブジェクトクラスについて予測された確率が、その境界ボックスとともに視覚化されます。 を使用します parse_response
および display_predictions
付随するで定義されているヘルパー関数 ノート.
次のスクリーンショットは、予測ラベルと境界ボックスを含む画像の出力を示しています。
独自のデータセットで事前にトレーニングされたモデルを微調整します
JumpStartの既存のオブジェクト検出モデルは、COCOまたはVOCデータセットのいずれかで事前にトレーニングされています。 ただし、元の事前トレーニングデータセットに存在しないオブジェクトクラスを特定する必要がある場合は、これらの新しいオブジェクトタイプを含む新しいデータセットでモデルを微調整する必要があります。 たとえば、調理器具を特定し、展開済みの事前トレーニング済みSSDモデルで推論を実行する必要がある場合、モデルは新しい画像タイプの特性を認識しないため、出力は正しくありません。
このセクションでは、JumpStart APIを使用して、事前にトレーニングされたモデルを微調整し、新しいオブジェクトクラスを検出することがいかに簡単であるかを示します。 詳細を含む完全なコード例は、 付属のノート.
トレーニングアーティファクトを取得する
トレーニングアーティファクトは、前のセクションで説明した推論アーティファクトに似ています。 トレーニングには、ベースDockerコンテナー、つまり次のサンプルコードのMXNetコンテナーが必要です。 トレーニングに必要な追加のパッケージは、次のトレーニングスクリプトに含まれています。 train_sourcer_uri
。 事前にトレーニングされたモデルとそのパラメーターは、個別にパッケージ化されています。
トレーニングを実行する
トレーニングを実行するには、必要なアーティファクトといくつかの追加パラメータをにフィードするだけです。 SageMaker エスティメーター そして呼び出す .fit
関数:
アルゴリズムのトレーニング中は、コード自体を実行しているSageMakerノートブックまたはでその進行状況を監視できます。 アマゾンクラウドウォッチ。 トレーニングが完了すると、微調整されたモデルアーティファクトがにアップロードされます。 Amazon シンプル ストレージ サービス (Amazon S3)トレーニング構成で指定された出力場所。 これで、事前にトレーニングされたモデルと同じ方法でモデルをデプロイできます。 残りのプロセスは、 付属のノート.
まとめ
この投稿では、新しくリリースされたJumpStartAPIの価値とその使用方法について説明しました。 JumpStartでサポートされているさまざまなMLタスクの17のサンプルノートブックへのリンクを提供し、オブジェクト検出ノートブックについて説明しました。
JumpStartを試してみて、皆様からのご連絡をお待ちしております。
著者について
ヴィヴェック・マダン博士 は、AmazonSageMakerJumpStartチームの応用科学者です。 彼はイリノイ大学アーバナシャンペーン校で博士号を取得し、ジョージア工科大学で博士号を取得しました。 彼は機械学習とアルゴリズム設計の活発な研究者であり、EMNLP、ICLR、COLT、FOCS、およびSODA会議で論文を発表しています。
ジョアンモウラ アマゾンウェブサービスのAI/MLスペシャリストソリューションアーキテクトです。 彼は主にNLPのユースケースに焦点を当てており、顧客がディープラーニングモデルのトレーニングと展開を最適化するのを支援しています。
アシッシュ・ケタン博士 の上級応用科学者です Amazon SageMaker ジャンプスタート および AmazonSageMakerの組み込みアルゴリズム 機械学習アルゴリズムの開発に役立ちます。 彼は機械学習と統計的推論の活発な研究者であり、NeurIPS、ICML、ICLR、JMLR、およびACL会議で多くの論文を発表しています。
- "
- 100
- 2020
- 正確な
- 越えて
- アクティブ
- NEW
- 利点
- アルゴリズム
- アルゴリズム
- すべて
- Amazon
- Amazon Webサービス
- 量
- アナウンス
- 発表の
- 別の
- どこにでも
- API
- API
- 利用できます
- AWS
- さ
- ブログ
- ブログの投稿
- ボックス
- 内蔵
- ビジネス
- コール
- 機能
- 例
- 変化する
- 分類
- コード
- コレクション
- コマンドと
- コミュニティ
- 会議
- コンテナ
- コンテナ
- 含まれています
- コンテンツ
- コスト
- 電流プローブ
- 現在の状態
- Customers
- データ
- データ処理
- 需要
- 展開します
- 展開する
- 展開
- 設計
- 検出
- 開発する
- 発展した
- 開発
- 異なります
- ディスプレイ
- デッカー
- そうではありません
- ドメイン
- 簡単に
- 暗号化
- エンドポイント
- Enterprise
- 環境
- 例
- 実験
- 顔
- 特徴
- 特徴
- 最後に
- ファイナンシャル
- 柔軟性
- フロー
- 焦点を当て
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- フォワード
- フル
- function
- 世代
- ガイド
- ハンドリング
- 助けます
- ことができます
- 認定条件
- How To
- HTTPS
- 識別する
- イリノイ州
- 画像
- 含まれました
- 含めて
- インダストリアル
- 関係する
- IT
- 自体
- ジョブ
- キー
- 知識
- ラベル
- 大
- 起動する
- 学んだ
- 学習
- リンク
- 場所
- 機械
- 機械学習
- 大多数
- 作成
- ML
- モデル
- 最も
- 一番人気
- すなわち
- ノート
- 数
- 多数の
- プラットフォーム
- 人気
- 投稿
- 予測
- 予測
- 現在
- 問題
- プロセス
- ラボレーション
- 作り出す
- プロダクト
- 提供します
- は、大阪で
- 質問
- すぐに
- への
- 認識する
- 縮小
- の提出が必要です
- 研究
- リソース
- 応答
- REST
- 結果
- ラン
- ランニング
- 科学者
- 科学者たち
- SDDK
- しっかりと
- セキュリティ
- 選択
- サービス
- セッションに
- 同様の
- 簡単な拡張で
- So
- ソリューション
- 解決する
- 開始
- 都道府県
- 統計的
- ストレージ利用料
- 研究
- サポート
- サポート
- サポート
- タスク
- チーム
- テク
- 介して
- 時間
- 今日
- 一緒に
- トレーニング
- 列車
- 大学
- ロック解除
- アップデイト
- つかいます
- ユースケース
- 値
- 動画
- ビジョン
- ウェブ
- Webサービス
- この試験は
- 以内
- 書き込み