AutoGluonを使用してコールドスタート時系列予測エンジンを構築する

プラトン再発行

フォロワー： 0

Webトラフィックにリソースをより効率的に割り当てる場合でも、スタッフのニーズに対する患者の需要を予測する場合でも、企業の製品の売上を予測する場合でも、予測は多くのビジネスにとって不可欠なツールです。として知られているXNUMXつの特定のユースケース コールドスタート予測は、小売業界で市場に参入したばかりの新製品など、既存の履歴データがほとんどまたはまったくない時系列の予測を作成します。自己回帰和分移動平均（ARIMA）や指数平滑法（ES）などの従来の時系列予測方法は、個々の製品の過去の時系列に大きく依存しているため、コールドスタート予測には効果的ではありません。

この投稿では、を使用してコールドスタート予測エンジンを構築する方法を示します時系列予測のためのAutoGluonAutoML、画像、テキスト、表形式、時系列データの機械学習（ML）を自動化するオープンソースのPythonパッケージ。 AutoGluonは、初心者から経験豊富なML開発者まで、エンドツーエンドの自動機械学習（AutoML）パイプラインを提供し、最も正確で使いやすい完全自動化ソリューションになります。無料で利用しています AmazonSageMakerStudioラボこのデモンストレーションのためのサービス。

AutoGluon時系列の概要

オートグルオンは、テキスト、画像、表形式のデータ用のAutoMLの主要なオープンソースライブラリであり、XNUMX行のコードで生データから高精度のモデルを作成できます。最近、チームはこれらの機能を時系列データに拡張するために取り組んでおり、で公開されている自動予測モジュールを開発しました。 GitHubのを選択します。 autogluon.forecasting モジュールは、生の時系列データを適切な形式に自動的に処理し、さまざまな最先端の深層学習モデルをトレーニングおよび調整して、正確な予測を生成します。この投稿では、使用方法を示します autogluon.forecasting コールドスタート予測タスクに適用します。

ソリューションの概要

AutoGluonはオープンソースのPythonパッケージであるため、このソリューションを実装できます局部的にラップトップまたはAmazonSageMakerStudioLabで。次の手順を実行します。

Amazon SageMakerStudioLab用にAutoGluonをセットアップします。
データセットを準備します。
AutoGluonを使用してトレーニングパラメータを定義します。
時系列予測用のコールドスタート予測エンジンをトレーニングします。
コールドスタート予測の予測を視覚化します。

コールドスタート予測の重要な前提は、次の図に示すように、同様の特性を持つアイテムが同様の時系列軌道を持つ必要があることです。これにより、コールドスタート予測で履歴データのないアイテムを予測できます。

ウォークスルーでは、電力消費量に基づく合成データセットを使用します。これは、370アイテムの時間ごとの時系列で構成され、それぞれに item_id 0〜369。この合成データセット内で、それぞれ item_id 静的機能（時間の経過とともに変化しない機能）にも関連付けられています。私たちは訓練します DeepAR AutoGluonを使用してモデル化し、類似したアイテムの典型的な動作を学習し、そのような動作を転送して新しいアイテムの予測を行います（item_id 370–373）過去の時系列データがありません。静的機能をXNUMXつだけ使用するコールドスタート予測アプローチを示していますが、実際には、有益で高品質の静的機能を持つことが、優れたコールドスタート予測の鍵となります。

次の図は、ソリューションの概要を示しています。オープンソースコードは、 GitHubレポ.

前提条件

このチュートリアルでは、次の前提条件を満たしている必要があります。

An Amazon SageMakerStudioLabアカウント
GitHubのアカウントへのアクセス

Amazon SageMaker Studio Labアカウントにログインし、ターミナルを使用して環境をセットアップします。

cd sagemaker-studiolab-notebooks/ git clone https://github.com/whosivan/amazon-sagemaker-studio-lab-cold-start-forecasting-using-autogluon
conda env create -f autogluon.yml
conda activate autogluon
git clone https://github.com/yx1215/autogluon.git
cd autogluon/
git checkout --track origin/add_forecasting_predictor

これらの手順は、Amazon SageMaker Studio Labにアクセスできない場合でも、ラップトップから機能するはずです（最初にラップトップにAnacondaをインストールすることをお勧めします）。

仮想環境が完全にセットアップされたら、ノートブックを起動します AutoGluon-cold-start-demo.ipynb カスタム環境を選択します .conda-autogluon:Python カーネル。

ターゲットの時系列とアイテムのメタデータセットを準備します

次のデータセットが含まれていない場合は、ノートブックインスタンスにダウンロードし、ディレクトリに保存します data/。これらのデータセットは、 GitHubレポ:

テスト.csv.gz
コールドスタートターゲットデータ.csv
アイテムメタデータ.csv

次のスニペットを実行して、ターゲットの時系列データセットをカーネルにロードします。

zipLocalFilePath = "data/test.csv.gz"
localFilePath = "data/test.csv"
util.extract_gz(zipLocalFilePath, localFilePath) tdf = pd.read_csv(zipLocalFilePath, dtype = object)
tdf['target_value'] = tdf['target_value'].astype('float')
tdf.head()

AutoGluon時系列では、静的フィーチャを数値形式で表す必要があります。これは、適用することで達成できます LabelEncoder() 静的機能について type、ここで、A = 0、B = 1、C = 2、D = 3をエンコードします（次のコードを参照）。デフォルトでは、AutoGluonは静的機能が通常またはカテゴリのいずれかであると推測します。静的フィーチャ列をカテゴリフィーチャの場合はオブジェクト/文字列データ型に、順序フィーチャの場合は整数/フロートデータ型に変換することで、これを上書きすることもできます。

localItemMetaDataFilePath = "data/itemMetaData.csv"
imdf = pd.read_csv(localItemMetaDataFilePath, dtype = object) labelencoder = LabelEncoder()
imdf['type'] = labelencoder.fit_transform(imdf['type']) imdf_without_coldstart_item['type'] = imdf_without_coldstart_item['type'].astype(str) imdf_without_coldstart_item = imdf[imdf.item_id.isin(tdf.item_id.tolist())]
imdf_without_coldstart_item.to_csv('data/itemMetaDatawithoutColdstart.csv', index=False) imdf_with_coldstart_item = imdf[~imdf.item_id.isin(tdf.item_id.tolist())]
imdf_with_coldstart_item.to_csv('data/itemMetaDataOnlyColdstart.csv', index=False)

AutoGluonモデルトレーニングを設定して開始します

指定する必要があります save_path = ‘autogluon-coldstart-demo’ モデルアーティファクトフォルダー名として（次のコードを参照）。また、 eval_metric as 平均絶対パーセント率または ‘MAPE’ 略して、私たちが定義した場所 prediction_length 24時間として。指定されていない場合、AutoGluonはデフォルトで確率的予測を生成し、加重分位損失。私たちは見ているだけです DeepARモデルデモでは、DeepARアルゴリズムが設計によるコールドスタート予測を可能にすることがわかっているためです。 DeepARハイパーパラメータのXNUMXつを任意に設定し、そのハイパーパラメータを ForecastingPredictor().fit() 電話。これにより、AutoGluonは指定されたモデルのみを調べることができます。調整可能なハイパーパラメータの完全なリストについては、を参照してください。 gluonts.model.deeparパッケージ.

save_path = 'autogluon-coldstart-demo'
eval_metric = 'MAPE'
deepar_params = { "scaling":True
} ag_predictor = ForecastingPredictor(path=save_path, eval_metric=eval_metric).fit(tdf, static_features = imdf_without_coldstart_item,
prediction_length=24, #how far out in the future we wish to forecast index_column="item_id", target_column="target_value", time_column="timestamp",
quantiles=[0.1, 0.5, 0.9], hyperparameters={"DeepAR": deepar_params})

トレーニングには30〜45分かかります。次の関数を呼び出すと、モデルの概要を取得できます。

ag_predictor.fit_summary()

コールドスタート項目の予測

これで、コールドスタートアイテムの予測を生成する準備が整いました。それぞれに少なくともXNUMX行を設定することをお勧めします item_id。したがって、 item_id 観測値がXNUMXつ未満の場合は、NaNを入力します。私たちのデモでは、両方 item_id 370と372の観測値はゼロであり、純粋なコールドスタートの問題ですが、他のXNUMXつにはXNUMXつのターゲット値があります。

次のコードを使用して、コールドスタートターゲット時系列データセットをロードします。

localColdStartDataFilePath = "data/coldStartTargetData.csv"
cstdf = pd.read_csv(localColdStartDataFilePath, dtype = object)
cstdf.head(20)

コールドスタートのターゲット時系列を、コールドスタートのアイテムメタデータセットとともにAutoGluonモデルにフィードします item_id:

cold_start_prediction = ag_predictor.predict(cstdf, static_features=imdf_with_coldstart_item)

予測を視覚化する

次のグラフに示すように、プロット関数を作成して、コールドスタート予測の視覚化を生成できます。

クリーンアップ

リソースの使用を最適化するには、ノートブックを完全に調べた後、Amazon SageMakerStudioLabでランタイムを停止することを検討してください。

まとめ

この投稿では、Amazon SageMakerStudioLabの時系列データにAutoGluonAutoMLを使用してコールドスタート予測エンジンを構築する方法を示しました。違いを知りたい方へアマゾン予測 AutoGluon（時系列）であるAmazon Forecastは、機械学習（ML）を使用して、事前のMLの経験を必要とせずに、非常に正確な予測を生成する、完全に管理およびサポートされるサービスです。 AutoGluonは、最新の研究貢献でコミュニティがサポートするオープンソースプロジェクトです。エンドツーエンドの例をウォークスルーして、時系列のAutoGluonが何を実行できるかを示し、データセットとユースケースを提供しました。

時系列データ用のAutoGluonはオープンソースのPythonパッケージであり、この投稿がコード例とともに、困難なコールドスタート予測の問題に取り組むための簡単なソリューションを提供することを願っています。あなたは私たちの例全体にアクセスすることができます GitHubレポ。試してみて、あなたの考えを教えてください！

著者について

イヴァン・クイ はAWSProfessional Servicesのデータサイエンティストであり、お客様がAWSで機械学習を使用してソリューションを構築およびデプロイするのを支援しています。彼は、ソフトウェア、金融、製薬、ヘルスケアなど、さまざまな業界の顧客と協力してきました。自由な時間には、読書を楽しんだり、家族と過ごしたり、株式ポートフォリオを最大限に活用したりしています。

ジョナス・ミューラー AWSのAIResearchand Educationグループのシニアアプライドサイエンティストであり、ディープラーニングを改善し、自動機械学習を開発するための新しいアルゴリズムを開発しています。 AWSに参加してMLを民主化する前に、彼はMITコンピューター科学人工知能研究所で博士号を取得しました。余暇には、山やアウトドアを楽しむことができます。

ウェンミンイェ AWSAIのリサーチプロダクトマネージャーです。彼は、オープンソースで最先端の機械学習テクノロジーを通じて、研究者や企業顧客がイノベーションを迅速に拡大できるよう支援することに情熱を注いでいます。 Wenmingは、Microsoft Research、SQLエンジニアリングチーム、および成功したスタートアップからの多様なR＆D経験を持っています。

タイムスタンプ： 2022 年 3 月 4 日

タイムスタンプ： 2023 年 11 月 30 日

Amazon Polly字幕ジェネレーターを使用して、同期されたクローズドキャプションとオーディオを生成します

ソースクラスター：

AWS機械学習

ソースノード： 1581387

タイムスタンプ： 2022 年 7 月 18 日

プラトン再発行

Amazon Kendra Slackコネクタを使用したインテリジェントな検索で、Slackワークスペースの知識を解明します

人間によるレビューと BI の視覚化により、インテリジェントなドキュメント処理のためのビジネスルールをカスタマイズする

IMDb ナレッジグラフを使用した電力の推奨事項と検索 – パート 3

Amazon SageMaker モデルレジストリを使用してクロスアカウント MLOps ワークフローを構築する

NLP および CV PyTorch モデル用の Amazon EC2 G5 インスタンスを使用して、推論あたりのコストを XNUMX 分の XNUMX に抑えて XNUMX 倍の ML 推論スループットを実現

AWS と Hugging Face が協力して、ジェネレーティブ AI をよりアクセスしやすく、費用対効果の高いものにします

大規模な言語モデルの品質と責任を評価する | アマゾンウェブサービス

Amazon Polly字幕ジェネレーターを使用して、同期されたクローズドキャプションとオーディオを生成します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー