構築、共有、デプロイ：ビジネスアナリストとデータサイエンティストがノーコードMLとAmazonSageMakerCanvasを使用して市場投入までの時間を短縮する方法

プラトン再発行

フォロワー： 0

機械学習（ML）は、需要予測、クレジットスコアリング、価格設定、顧客離れの予測、次善のオファーの特定、出荷遅延の予測など、複数の業種にわたるコアビジネス機能を最適化することにより、組織が収益を増やし、ビジネスの成長を促進し、コストを削減するのに役立ちます。製造品質の向上。従来のML開発サイクルには数か月かかり、データサイエンスとMLエンジニアリングのスキルがほとんど必要ありません。 MLモデルに関するアナリストのアイデアは、データサイエンスチームの帯域幅を待つ長いバックログに置かれることがよくありますが、データサイエンティストは、完全なスキルセットを必要とするより複雑なMLプロジェクトに焦点を合わせています。

この膠着状態を打破するのを助けるために、私たちは AmazonSageMakerCanvasを導入、企業がMLソリューションの提供を数時間または数日まで短縮するのに役立つノーコードMLソリューション。 SageMaker Canvasを使用すると、アナリストはデータレイク、データウェアハウス、運用データストアで利用可能なデータを簡単に使用できます。 MLモデルを構築します。そして、それらを使用して、インタラクティブに予測を行い、バルクデータセットのバッチスコアリングを行います。すべて、コードをXNUMX行も記述しません。

この投稿では、SageMaker Canvasがデータサイエンティストとビジネスアナリスト間のコラボレーションを可能にし、市場投入までの時間を短縮し、MLソリューションの開発を加速する方法を示します。アナリストは、MLの専門家になることなく、SageMakerCanvasで独自のノーコードMLワークスペースを取得できます。アナリストは、数回クリックするだけでCanvasからモデルを共有できます。これにより、データサイエンティストはこのモデルを操作できるようになります。 Amazon SageMakerスタジオ、エンドツーエンドのML統合開発環境（IDE）。協力することで、ビジネスアナリストはドメイン知識と実験結果をもたらすことができ、データサイエンティストは効果的にパイプラインを作成してプロセスを合理化できます。

ワークフローがどのようになるかを深く掘り下げてみましょう。

ビジネスアナリストはモデルを構築し、それを共有します

SageMaker Canvasがビジネスアナリストとデータサイエンティスト（またはMLエンジニア）間のコラボレーションをどのように簡素化するかを理解するために、まずビジネスアナリストとしてプロセスにアプローチします。始める前に、を参照してください Amazon SageMaker Canvasの発表–ビジネスアナリスト向けの視覚的でノーコードの機械学習機能 SageMakerCanvasを使用してモデルを構築およびテストする手順については。

この投稿では、の修正バージョンを使用しますクレジットカード詐欺検出データセットバイナリ分類問題のよく知られたデータセットであるKaggleから。データセットは元々非常に不均衡であり、ネガティブクラス（異常なトランザクション）として分類されるエントリはほとんどありません。 SageMaker Canvasはモデルを自動的にトレーニングおよび調整するときにこの不均衡を処理するため、ターゲットの機能分布に関係なく、このデータセットを引き続き使用できます。このデータセットは約9万個のセルで構成されています。ダウンロードすることもできますこのデータセットの縮小版。データセットのサイズははるかに小さく、約500,000セルです。これは、このプロセス中に失われる情報をできるだけ少なくするために、ランダムにアンダーサンプリングされてからSMOTE手法でオーバーサンプリングされているためです。この削減されたデータセットを使用して実験全体を実行すると、SageMaker CanvasFreeTierで$0の費用がかかります。

モデルが構築された後、アナリストはそれを使用して、個々のリクエストまたは入力データセット全体の一括予測をCanvasで直接行うことができます。

Canvas Standard Buildでビルドされたモデルは、ボタンをクリックするだけで、SageMakerStudioを使用するデータサイエンティストやMLエンジニアと簡単に共有できます。これにより、データサイエンティストは、作成したモデルのパフォーマンスを検証し、フィードバックを提供できます。 MLエンジニアは、モデルを取得して、会社や顧客が利用できる既存のワークフローや製品と統合できます。執筆時点では、CanvasQuickBuildで構築されたモデルまたは時系列予測モデルを共有することはできないことに注意してください。

CanvasUIを介したモデルの共有は簡単です。

作成したモデルが表示されているページで、モデルを選択します。
選択する シェアする.
共有するモデルのXNUMXつ以上のバージョンを選択します。
必要に応じて、モデルまたは探しているヘルプに関する詳細なコンテキストを示すメモを含めます。
選択する SageMakerStudioリンクを作成する.
生成されたリンクをコピーします。

以上です！これで、Slack、電子メール、またはその他の好みの方法で、同僚とリンクを共有できます。モデルにアクセスするには、データサイエンティストが同じSageMaker Studioドメインにいる必要があるため、組織の管理者がこれに該当することを確認してください。

データサイエンティストはSageMakerStudioからモデル情報にアクセスします

それでは、データサイエンティストまたはMLエンジニアの役割を果たし、SageMakerStudioを使用して彼らの視点から物事を見てみましょう。

アナリストが共有するリンクから、エンドツーエンドのMLワークフロー向けの最初のクラウドベースのIDEであるSageMakerStudioにアクセスできます。

タブが自動的に開き、SageMakerCanvasでアナリストが作成したモデルの概要が表示されます。モデルの名前、ML問題タイプ、モデルバージョン、およびモデルを作成したユーザー（[CanvasユーザーID]フィールドの下）をすばやく確認できます。また、入力データセットとSageMakerが作成できた最高のモデルに関する詳細にもアクセスできます。これについては、後の投稿で詳しく説明します。

ソフトウェア設定ページで、下図のように 入力データセット タブでは、ソースから入力データセットへのデータフローも表示されます。この場合、XNUMXつのデータソースのみが使用され、結合操作は適用されていないため、単一のソースが表示されます。を選択すると、データセットに関する統計と詳細を分析できます データ探索ノートブックを開く。このノートブックでは、モデルをトレーニングする前に利用可能だったデータを調べることができ、ターゲット変数の分析、入力データのサンプル、列と行の統計と説明、およびデータサイエンティストがデータセットについて詳しく知る。このレポートの詳細については、を参照してください。データ探索レポート.

入力データセットを分析した後、モデル概要のXNUMX番目のタブに移動しましょう。 AutoMLジョブ。このタブには、SageMakerCanvasで[標準ビルド]オプションを選択したときのAutoMLジョブの説明が含まれています。

SageMaker Canvasの下にあるAutoMLテクノロジーは、MLモデルを構築する手間を省きます。自動化されたアプローチを使用して、データに基づいて最適なMLモデルを自動的に構築、トレーニング、調整すると同時に、完全な制御と可視性を維持できます。生成された候補モデルのこの可視性と、AutoMLプロセス中に使用されるハイパーパラメータは、候補世代ノート、このタブで利用できます。

　 AutoMLジョブ タブには、AutoMLプロセスの一部として構築されたすべてのモデルのリストも含まれており、F1目標メトリックでソートされています。開始されたトレーニングジョブから最適なモデルを強調するために、緑色の円が付いたタグが 最高のモデル 桁。また、精度スコアや曲線下面積（AUC）など、トレーニングおよび評価フェーズで使用される他のメトリックを簡単に視覚化することもできます。 AutoMLジョブ中にトレーニングできるモデルと、トレーニングされたモデルのパフォーマンスを評価するために使用されるメトリックの詳細については、を参照してください。モデルのサポート、メトリック、および検証.

モデルの詳細については、最適なモデルを右クリックして選択できます。 モデルの詳細で開く。あるいは、次のオプションを選択することもできます。 最高のモデル 上部のリンク モデルの概要 最初に訪れたセクション。

モデルの詳細ページには、この入力データで最高のパフォーマンスを示したモデルに関する有用な情報が多数含まれています。まず、ページ上部の要約に注目しましょう。前のスクリーンショットの例は、数百回のモデルトレーニングの実行のうち、XGBoostモデルが入力データセットで最高のパフォーマンスを示したことを示しています。この記事の執筆時点で、SageMaker Canvasは、線形学習器、XGBoost、多層パーセプトロン（MLP）のXNUMX種類のMLアルゴリズムをトレーニングでき、それぞれにさまざまな前処理パイプラインとハイパーパラメーターがあります。各アルゴリズムの詳細については、を参照してください。サポートされているアルゴリズムのページ.

SageMakerには、スケーラブルで効率的な実装のおかげで説明機能も含まれていますカーネルSHAP、特定の予測の重要度の値を各機能に割り当てる協力ゲーム理論の分野からのシャープレイ値の概念に基づいています。これにより、モデルがどのように予測に到達したかについての透明性が確保され、特徴の重要性を定義するのに非常に役立ちます。機能の重要性を含む完全な説明可能性レポートは、PDF、ノートブック、または生データ形式でダウンロードできます。そのレポートには、AutoMLジョブ中に使用されるハイパーパラメータの完全なリストだけでなく、より幅広いメトリックのセットが表示されます。 SageMakerがAutoMLソリューションと標準MLアルゴリズムに統合された説明可能性ツールを提供する方法の詳細については、を参照してください。統合された説明可能性ツールを使用し、Amazon SageMakerAutopilotを使用してモデルの品質を向上させます.

最後に、このビューの他のタブには、パフォーマンスの詳細（混同行列、適合率再現率曲線、ROC曲線）、入力に使用され、AutoMLジョブ中に生成されたアーティファクト、およびネットワークの詳細に関する情報が表示されます。

この時点で、データサイエンティストには、モデルを直接デプロイするか、手動または自動でスケジュールまたはトリガーできるトレーニングパイプラインを作成するかのXNUMXつの選択肢があります。次のセクションでは、両方のオプションについていくつかの洞察を提供します。

モデルを直接デプロイする

データサイエンティストがAutoMLジョブによって得られた結果に満足している場合、データサイエンティストはからモデルを直接デプロイできます。 モデルの詳細 ページ。選択するのと同じくらい簡単です モデルのデプロイ モデル名の横。

SageMakerは、デプロイのためのXNUMXつのオプションを示します。 AmazonSageMakerエンドポイント、およびバッチ推論、 Amazon SageMakerバッチ変換.

SageMakerは、他の推論モードも提供します。詳細については、を参照してください。推論のためのモデルのデプロイ.

リアルタイム予測モードを有効にするには、エンドポイントに名前、インスタンスタイプ、およびインスタンス数を指定するだけです。このモデルは大量のコンピューティングリソースを必要としないため、初期カウントが1のCPUベースのインスタンスを使用できます。使用可能なさまざまな種類のインスタンスとその仕様については、 AmazonSageMakerの価格ページ（の中に オンデマンド価格 セクションで、 リアルタイム推論 タブ）。デプロイにどのインスタンスを選択すべきかわからない場合は、SageMakerに、KPIに従って最適なインスタンスを見つけるように依頼することもできます。 SageMaker推論レコメンダー。エンドポイントとの間で要求および応答データをキャプチャするかどうかに関して、追加のオプションパラメータを提供することもできます。これは、次のことを計画している場合に役立ちます。モデルの監視。また、応答の一部として提供するコンテンツを選択することもできます。これは、予測または予測確率、すべてのクラスの確率、およびターゲットラベルのいずれであるかを選択できます。

入力のセット全体の予測を一度に取得するバッチスコアリングジョブを実行するには、からバッチ変換ジョブを起動できます。 AWSマネジメントコンソールまたはSageMakerPythonSDKを介して。バッチ変換の詳細については、を参照してください。バッチ変換を使用するとサンプルノートブック。

トレーニングパイプラインを定義する

MLモデルは、トレーニングされたベースラインからドリフトするため、静的で不変と見なされることはほとんどありません。実世界のデータは時間の経過とともに進化し、そこからより多くのパターンと洞察が生まれます。これは、履歴データでトレーニングされた元のモデルによってキャプチャされる場合とされない場合があります。この問題を解決するために、利用可能な最新のデータを使用してモデルを自動的に再トレーニングするトレーニングパイプラインを設定できます。

このパイプラインを定義する際のデータサイエンティストのオプションのXNUMXつは、トレーニングパイプラインにAutoMLをもう一度使用することです。からcreate_auto_ml_job（）APIを呼び出すことにより、プログラムでAutoMLジョブを起動できます。 AWS Boto3 SDK。この操作は、 AWSラムダ内で機能する AWSステップ関数ワークフロー、またはLambdaStepから AmazonSageMakerパイプライン.

または、データサイエンティストは、AutoMLジョブから取得した知識、成果物、ハイパーパラメータを使用して、完全なトレーニングパイプラインを定義できます。次のリソースが必要です。

ユースケースに最適なアルゴリズム –この情報は、Canvasで生成されたモデルの要約からすでに取得しています。このユースケースでは、XGBoostの組み込みアルゴリズムです。 SageMaker Python SDKを使用してSageMakerでXGBoostアルゴリズムをトレーニングする方法については、以下を参照してください。 SageMakerPythonSDKでXGBoostを使用する.

AutoMLジョブによって導出されたハイパーパラメータ –これらはで利用可能です 説明可能 セクション。 SageMaker Python SDKを使用してトレーニングジョブを定義するときに、これらを入力として使用できます。

アーティファクトセクションで提供される特徴エンジニアリングコード –このコードは、トレーニング前（たとえば、Amazon SageMaker処理を介して）または推論前（たとえば、SageMaker推論パイプラインの一部として）のデータの前処理に使用できます。

これらのリソースをSageMakerパイプラインの一部として組み合わせることができます。この投稿では実装の詳細を省略しています。このトピックに関するその他のコンテンツにご期待ください。

まとめ

SageMaker Canvasを使用すると、MLを使用して、コードを記述せずに予測を生成できます。ビジネスアナリストは、ローカルデータセット、およびすでに保存されているデータで自律的に使用を開始できます Amazon シンプルストレージサービス（Amazon S3）、 Amazonレッドシフト、またはスノーフレーク。数回クリックするだけで、データセットを準備して結合し、推定精度を分析し、影響力のある列を確認し、最高のパフォーマンスを発揮するモデルをトレーニングし、新しい個人またはバッチの予測を生成できます。これらはすべて、専門のデータサイエンティストを引き込む必要はありません。次に、必要に応じて、モデルをSageMaker StudioにインポートするデータサイエンティストまたはMLOpsエンジニアのチームとモデルを共有し、アナリストと協力して本番ソリューションを提供できます。

ビジネスアナリストは、MLの学位を取得していなくても、またXNUMX行のコードを記述していなくても、データから独自に洞察を得ることができます。データサイエンティストは、AIとMLに関する幅広い知識をより有効に活用できる、より挑戦的なプロジェクトに取り組むための追加の時間を持てるようになりました。

この新しいコラボレーションにより、ビジネス向けのより強力なMLソリューションを構築するための扉が開かれると確信しています。これで、データサイエンティストとMLエンジニアが必要に応じて改良、調整、拡張できるようにしながら、貴重なビジネス洞察を生み出すアナリストができました。

その他のリソース

SageMakerがビジネスアナリストをさらに支援する方法の詳細については、以下を参照してください。ビジネスアナリスト向けAmazonSageMaker.
SageMakerを使用してデータサイエンティストがMLモデルを開発、トレーニング、デプロイする方法について詳しくは、こちらをご覧ください。データサイエンティスト向けAmazonSageMaker.
SageMakerがMLOpsエンジニアがMLOpsを使用してMLライフサイクルを合理化するのをどのように支援できるかについての詳細は、以下を参照してください。 MLOpsエンジニア向けのAmazonSageMaker.

著者について

ダビデガリテッリ は、EMEA地域のAI/MLのスペシャリストソリューションアーキテクトです。彼はブリュッセルを拠点とし、ベネルクス全体の顧客と緊密に協力しています。彼は幼い頃から開発者であり、7歳でコーディングを始めました。大学でAI / MLを学び始め、それ以来、AI/MLに夢中になっています。

マークロイ はAWSの主要な機械学習アーキテクトであり、お客様がAI / MLソリューションを設計および構築するのを支援しています。 Markの仕事は、コンピュータービジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。彼は、保険、金融サービス、メディアとエンターテインメント、ヘルスケア、公益事業、製造業など、多くの業界の企業を支援してきました。 Markは、ML専門認定を含む25つのAWS認定を保持しています。 AWSに参加する前は、金融サービスでの19年間を含め、XNUMX年以上にわたってアーキテクト、開発者、テクノロジーのリーダーを務めていました。

タイムスタンプ： 2022 年 3 月 10 日

タイムスタンプ： 2022 年 7 月 20 日

プラトン再発行

ホワイトペーパー：ヘルスケアとライフサイエンスにおける機械学習のベストプラクティス

Amazon SageMaker Pipelines ローカルモードでコストと開発時間を削減

Amazon SageMaker、HashiCorp Terraform、GitLab CI/CD を使用したモデルのモニタリングと再トレーニングによるバッチ推論のための MLOps | アマゾンウェブサービス

データエクスペリエンスの再発明: 生成 AI と最新のデータアーキテクチャを使用して洞察を引き出す | アマゾンウェブサービス

AmazonRekognitionとAmazonTextractを使用して、ドキュメントをモデレート、分類、処理します

AWSMediaIntelligenceとHuggingFaceBERTを使用して、分類法に基づくコンテンツターゲットを構築します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー