AWS ローコード - ノーコードサービスで投資プロセスを加速

プラトン再発行

フォロワー： 0

過去数年間で、機関投資家の資産運用会社が複数のデータソースを調達し、投資プロセスに統合する方法に大きなパラダイムシフトが見られました。リスク相関の頻繁な変化、予期せぬボラティリティの発生源、およびパッシブ戦略との競争の激化により、資産運用会社は、競争力を獲得し、リスク調整後リターンを改善するために、より広範な一連のサードパーティデータソースを採用しています。ただし、複数のデータソースからメリットを引き出すプロセスは、非常に困難な場合があります。アセットマネージャーのデータエンジニアリングチームは、データの取得と前処理で過負荷になっていますが、データサイエンスチームは、投資に関する洞察を得るためにデータをマイニングしています。

サードパーティまたは代替データとは、投資プロセスで使用される、従来の市場データプロバイダー以外から入手したデータを指します。機関投資家は、投資プロセスで優位に立つために、従来のデータソースをサードパーティまたは代替データで強化することがよくあります。一般的に引用される例には、衛星画像、クレジットカードデータ、ソーシャルメディアの感情などがありますが、これらに限定されません。ファンドマネージャーは外部データセットに年間 3 億ドル近くを投資しており、年間支出は 20 ～ 30% 増加しています。

利用可能なサードパーティおよび代替データセットが指数関数的に増加する中、新しいデータセットが新しい投資洞察を追加するかどうかを迅速に分析する機能は、投資管理業界における競争上の差別化要因です。 AWS のノーコードローコード (LCNC) データおよび AI サービスにより、非技術チームが初期データスクリーニングを実行し、データオンボーディングに優先順位を付け、洞察を得るまでの時間を短縮し、貴重な技術リソースを解放して、永続的な競争上の優位性を生み出すことができます。

このブログ投稿では、機関投資家の資産管理者として、AWS LCNC データと AI サービスを活用して、技術チームを超えて初期データ分析と優先順位付けプロセスを拡張し、意思決定を加速する方法について説明します。 AWS LCNC サービスを使用すると、さまざまなサードパーティのデータセットにすばやくサブスクライブして評価し、データを前処理し、機械学習 (ML) モデルを使用して予測力を確認できます。コードを XNUMX つも書く必要はありません。

ソリューションの概要

私たちのユースケースは、外部データセットの株価予測能力を分析し、その特徴の重要性を特定することです。どのフィールドが株価のパフォーマンスに最も影響を与えるかを特定します。これは、投資プロセスに適合するように、従来の定量的方法論を使用して、データセット内の複数のフィールドのどれをより厳密に評価する必要があるかを特定するための最初のパステストとして機能します。このタイプの初回通過テストは、アナリストが迅速に実行できるため、時間を節約でき、データセットのオンボーディングの優先順位をより迅速に設定できます。また、ターゲットの例として株価を使用していますが、収益性、評価比率、または取引量などの他の指標も使用できます。このユースケースで使用されるすべてのデータセットは、 AWSデータ交換.

次の図は、決定を推進するために使用されるエンドツーエンドのアーキテクチャと AWS LCNC サービスを説明しています。

私たちのソリューションは、次の手順とソリューションで構成されています。

データの取り込み: 公開された代替データセットをサブスクライブし、それらをダウンロードするための AWS Data Exchange Amazon シンプルストレージサービス（Amazon S3）バケット。
データエンジニアリング: AWS グルー DataBrew Amazon S3 に保存されているデータのデータエンジニアリングと変換用。
機械学習： Amazon SageMaker キャンバス予測のための時系列予測モデルを構築し、予測に対するデータの影響を特定します。
ビジネス・インテリジェンス：アマゾンクイックサイトまたは Amazon SageMaker Canvas を使用して、意思決定の予測に対する機能の重要性を確認します。

データの取り込み

AWSデータ交換クラウド内のサードパーティデータの検索、サブスクライブ、および使用が容易になります。 AWS Data Exchange カタログを参照して、ビジネスに関連するデータ製品を見つけることができます。申し込むさらに処理することなく、ETL プロセスを必要とせずにプロバイダーからのデータに変換します。多くのプロバイダーが無料の初期サブスクリプションを提供していることに注意してください。これにより、最初に前払い費用を負担することなくデータを分析できます.

このユースケースでは、AWS Data Exchange で以下のデータセットを検索してサブスクライブします。

時価総額上位 20 社の米国企業の 10 年間の終値株価データによって発行されましたアルファヴァンテージ. この無料のデータセットには、20 年 10 月 5 日時点の時価総額による米国の上位 2020 銘柄の過去 10 年間のデータが含まれています。 AMZN: Amazon.com, Inc.; BRK-A: Berkshire Hathaway Inc. (クラス A); FB: Facebook, Inc.; GOOG：アルファベット株式会社。 JNJ: ジョンソン・エンド・ジョンソン; MA: マスターカード社。 MSFT: Microsoft Corporation V: Visa Inc.; および WMT: ウォルマート Inc.
主なデータフィールドは次のとおりです。
- 始値: その日の取引された始値
- 高値: その日の取引高値
- 安値: その日の取引時の安値
- 終値: 当日の取引終値
- ボリューム: XNUMX 日の取引量
- 調整済み終値: その日の分割および配当調整後の終値
- 分割比率：効力発生日における新旧株式数の比率
- 配当：配当金の支払額
S3 空売りと証券金融データによって発行されました S3 パートナー. このデータセットには、次のフィールドが含まれています。

フィールド	Description
営業日	レートの発効日
セキュリティ ID	セキュリティ識別子には、セドル、ISIN、FIGI、ティッカー、ブルームバーグ ID が含まれます
名前	セキュリティ名
オファーレート	既存のショートポジションに対して支払われる市場複合融資手数料
入札単価	長期保有者による貸出中の既存の株式に対して獲得した市場複合貸出手数料
最終レート	その日にローンされた増分株式に対して獲得した市場複合貸付手数料 (スポットレート)
混雑	モメンタム指標は、市場のフロートに関連する毎日のショートとカバーのイベントを測定します
短期金利	株式数で表されるリアルタイム空売り
短期の関心理論的	ShortInterest * 価格 (USD)
短利率	株式浮動株のパーセンテージとして表されるリアルタイムの短期金利
S3フロート	空売りによるシンセティック・ロングを含む売買可能株数
S3SIPctFloat	S3 フロートで割ったリアルタイムのショートインタレストプロジェクション
指標となる利用可能性	S3 予測利用可能貸出数量
利用	リアルタイムの短期金利を総貸出可能額で割った値
カバー10日までの日数	流動性の尺度です = ショート金利 / 10 日平均 ADTV
カバー30日までの日数	流動性の尺度です = ショート金利 / 30 日平均 ADTV
カバー90日までの日数	流動性の尺度です = ショート金利 / 90 日平均 ADTV
元のSI	ポイント・イン・タイム短期金利

データを取得するには、まず AWS Data Exchange でデータセットを検索し、データセットをサブスクライブします。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

データセットの発行者がサブスクリプションリクエストを承認すると、データセットを S3 バケットにダウンロードできるようになります。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

選択 自動エクスポートジョブの宛先を追加する、S3 バケットの詳細を提供し、データセットをダウンロードします。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

手順を繰り返して、Alpha Vantage データセットを取得します。完了すると、S3 バケットに両方のデータセットが作成されます。

データ工学

データセットが S3 バケットに入ったら、次を使用できます AWS グルー DataBrew データを変換します。 AWS Glue DataBrew は、データ準備タスク (異常のフィルタリング、フォーマットの標準化、無効な値の修正など) を自動化するために、350 を超える事前構築済みの変換を提供します。これらのタスクは、手動でコード化された変換を記述するのに数日または数週間かかる場合があります。

AWS DataBrew で予測用に統合された精選されたデータセットを作成するには、以下の手順を実行します。詳細はこちらをご参照くださいブログ.

DataBrew データセットを作成します。
DataBrew データセットを DataBrew プロジェクトに読み込みます。
DataBrew レシピをビルドします。
DataBrew ジョブを実行します。

DataBrew データセットを作成する: AWS Glue DataBrew では、 データセット S3 バケットからアップロードされたデータを表します。 3 日の終わりの株価と S3 ショートインタレストの両方について、XNUMX つの DataBrew データセットを作成します。データセットを作成するときに、SXNUMX 接続の詳細を XNUMX 回だけ入力します。その時点から、DataBrew は基になるデータにアクセスできます。

DataBrew データセットを DataBrew プロジェクトにロードする: AWS Glue DataBrew では、 プロジェクト は、データ分析と変換の取り組みの中心です。 DataBrew プロジェクトは、DataBrew データセットをまとめて、データ変換 (DataBrew レシピ) を開発できるようにします。ここでも、3 日の終わりの株価と SXNUMX ショートインタレスト用に XNUMX つの DataBrew プロジェクトを作成します。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

DataBrew レシピをビルドする: DataBrewでは、 レシピ データ変換ステップのセットです。これらの手順をデータセットに適用できます。このユースケースでは、3 つの変換を構築します。最初のものは、データセットを SXNUMX ショートインタレストに結合できるように、XNUMX 日の終わりの株価タイムスタンプ列の形式を変更します。

XNUMX 番目の変換はデータをキュレートし、その最後のステップでデータセットを XNUMX つのキュレートされたデータセットに確実に結合します。データ変換レシピの構築の詳細については、こちらを参照してくださいブログ.

DataBrew ジョブ: DataBrew レシピの作成後、最初に 3 日の終わりの株価の DataBrew ジョブを実行し、次に SXNUMX ショートインタレストレシピを実行できます。これを参照してくださいブログ単一の統合データセットを作成します。最終的にキュレートされたデータセットを S3 バケットに保存します。

エンドツーエンドのデータエンジニアリングワークフローは次のようになります。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

機械学習

データエンジニアリング後に作成された精選されたデータセットを使用すると、 Amazon SageMaker キャンバス予測モデルを構築し、予測に対する機能の影響を分析します。 Amazon SageMaker キャンバスは、視覚的なポイントアンドクリックインターフェイスをビジネスユーザーに提供します。これにより、ビジネスユーザーはモデルを構築し、正確な ML 予測を自分で生成できます。ML の経験がなくても、コードを XNUMX 行も記述したりする必要はありません。

Amazon SageMaker Canvas で時系列予測モデルを構築するには、以下の手順に従います。詳細はこちらブログ:

SageMaker Canvas でキュレートされたデータセットを選択します。
時系列予測モデルを構築します。
結果と機能の重要性を分析します。

時系列予測モデルを構築する: データセットを選択したら、予測するターゲット列を選択します。私たちの場合、これは株式ティッカーの終値になります。 SageMaker Canvas は、これが時系列予測の問題ステートメントであることを自動的に検出します。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

時系列予測を行うには、次のようにモデルを構成する必要があります。アイテム ID には、株式ティッカー名を選択します。私たちのデータセットには、上位 10 銘柄の株価表示価格があることを思い出してください。タイムスタンプのタイムスタンプ列を選択し、最後に将来予測する日数を入力する [Forecast Horizo n]。

これで、モデルを構築する準備が整いました。 SageMaker Canvas には、モデルを構築するための XNUMX つのオプションが用意されています。Quick Build と Standard Build です。私たちの場合、「標準ビルド」を使用します。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

標準ビルドでは、モデルをビルドして使用するのに約 XNUMX 時間かかります。アマゾン予測は、基礎となる予測エンジンとして ML に基づく時系列予測サービスです。 Forecast は、ML の経験を必要とせずに、従来のモデルとディープラーニングモデルのモデルアンサンブルを通じて、非常に正確な予測を作成します。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

モデルが構築されたら、モデルのパフォーマンス (予測精度) と機能の重要性を確認できます。下の図からわかるように、モデルは Crowding と DaysToCover10Day を、予測値を左右する XNUMX つの上位機能として識別します。これは私たちの市場の直感と一致しています。なぜなら、混雑は日々の空売りを測定し、イベントをカバーするモメンタムインジケーターであり、短期的な空売りは流動性の尺度であり、投資家が株式に対してどのように位置付けられているかを示すからです。モメンタムと流動性の両方が価格のボラティリティを引き起こす可能性があります。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

この結果は、これら XNUMX つの機能 (またはフィールド) が株価の動きと密接な関係にあり、オンボーディングとさらなる分析のために優先順位を高くできることを示しています。

ビジネス・インテリジェンス

時系列予測のコンテキストでは、 バックテスト 既存の履歴データを使用して予測方法の精度を評価するプロセスを指します。このプロセスは通常、反復的であり、履歴データに存在する複数の日付にわたって繰り返されます。

すでに説明したように、SageMaker Canvas は Amazon Forecast を時系列予測のエンジンとして使用します。 Forecast は、モデル構築プロセスの一部としてバックテストを作成します。 Amazon Forecast にサインインして、予測子の詳細を表示できるようになりました。モデルの説明可能性に関する理解を深めるには、こちらを参照してください。ブログ.

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

Amazon Forecast は、加重絶対パーセント誤差 (WAPE)、二乗平均平方根誤差 (RMSE)、平均絶対パーセント誤差 (MAPE)、および平均絶対スケーリング誤差 (MASE) などの予測指標に関する追加の詳細を提供します。 Amazon Forecast から予測品質スコアをエクスポートできます。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

Amazon Forecast は、提供された時系列データセットに対して XNUMX つのバックテストを実行します。バックテストの結果は、 バックテスト結果のエクスポート ボタン。エクスポートされたバックテストの結果は、S3 バケットにダウンロードされます。

バックテストの結果を Amazon QuickSight にプロットします。バックテストの結果を Amazon QuickSight で視覚化するには、QuickSight から Amazon S3 のデータセットに接続し、視覚化を作成します。

AWS Low Code-No Code サービスの PlatoBlockchain Data Intelligence を使用して投資プロセスを加速します。垂直検索。あい。

クリーンアップ

このソリューションで活用される AWS のサービスは、本質的にマネージド型でサーバーレスです。 SageMaker Canvas は、長時間実行される ML トレーニングを実行するように設計されており、常にオンになっています。 SageMaker Canvas から明示的にログオフしていることを確認してください。を参照してください。ドキュメントのガイドをご参照ください。

まとめ

このブログ投稿では、機関資産管理者として、AWS ローコードノーコード (LCNC) データと AI サービスを活用して、最初のデータセットスクリーニングを非技術者にオフロードすることで、外部データセットの評価を加速する方法について説明しました。この最初のパス分析は迅速に実行できるため、オンボーディングとさらなる分析のためにどのデータセットを優先するかを決定するのに役立ちます。

データアナリストが AWS Data Exchange を通じて新しいサードパーティデータを取得し、AWS Glue DataBrew のコードなし ETL サービスを使用してデータを前処理し、データセット内のどの機能がモデルの予測に最も影響を与えるかを評価する方法を段階的に示しました.

データが分析可能になると、アナリストは SageMaker Canvas を使用して予測モデルを構築し、その適合性を評価して、重要な特徴を特定します。この例では、モデルの MAPE (.05) と WAPE (.045) が適切に適合していることを示し、データセット内のシグナルとして「Crowding」と「DaysToCover10Day」を示し、予測に対して最大の影響を与えました。この分析により、どのデータがモデルに最も影響を与えたかが定量化されたため、さらなる調査と潜在的なアルファシグナルまたはリスク管理プロセスへの組み込みのために優先順位を付けることができました。同様に重要なことは、説明可能性スコアは、どのデータが予測を決定する上でほとんど役割を果たしていないかを示しているため、さらなる調査の優先度が低くなる可能性があることです。

サードパーティの財務データが投資プロセスをサポートする能力をより迅速に評価するには、 AWS Data Exchange で利用可能な金融サービスのデータソース、そして与えるデータブリューおよびキャンバス今日試してみてください。

著者について

ボリス・リトビン プリンシパルソリューションアーキテクトであり、金融サービス業界のイノベーションを担当しています。彼は元クオンツおよびフィンテックの創設者であり、体系的な投資に情熱を注いでいます。

ミーナクシスンダラム・タンダヴァラヤン AWS のシニア AI/ML スペシャリストです。彼は、AI と ML のジャーニーでハイテクの戦略的アカウントを支援しています。彼はデータ駆動型 AI に非常に情熱を注いでいます。

カミーロ・アナニア 英国を拠点とする AWS のシニアスタートアップソリューションアーキテクトです。彼は、あらゆる規模のスタートアップの構築と成長を支援する情熱的な技術者です。

ダン・シンライヒ AWS のシニアプロダクトマネージャーであり、企業が ML を使用してより適切な意思決定を行えるようにすることに重点を置いています。以前は、大規模な機関投資家向けのポートフォリオ分析プラットフォームとマルチアセットクラスのリスクモデルを構築していました。

タイムスタンプ： 2022 年 12 月 20 日2022 年 12 月 23 日

タイムスタンプ： 2024 年 1 月 17 日

AWS Low Code-No Code サービスで投資プロセスを加速

プラトン再発行

ソリューションの概要

データの取り込み

データ工学

機械学習

ビジネス・インテリジェンス

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Amazon SageMaker Data Wrangler を使用して、大規模なデータセットでトレーニング済みパラメータを再調整する

Amazon SageMaker Data Wrangler でテキストデータのパターンを検出する

ホワイトペーパー：ヘルスケアとライフサイエンスにおける機械学習のベストプラクティス

Amazon SageMaker の NVIDIA Triton Inference Server でデシジョンツリーベースの ML モデルの低レイテンシーホスティングを実現する

Amp on Amazon がデータを使用して顧客エンゲージメントを向上させた方法、パート 1: データ分析プラットフォームの構築

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー