Accélérez le processus d'investissement avec les services AWS Low Code-No Code

Republié par Platon

Suiveurs: 0

Ces dernières années ont vu un énorme changement de paradigme dans la façon dont les gestionnaires d'actifs institutionnels se procurent et intègrent de multiples sources de données dans leur processus d'investissement. Avec des changements fréquents dans les corrélations de risque, des sources inattendues de volatilité et une concurrence croissante des stratégies passives, les gestionnaires d'actifs utilisent un ensemble plus large de sources de données tierces pour acquérir un avantage concurrentiel et améliorer les rendements ajustés au risque. Cependant, le processus d'extraction des avantages de plusieurs sources de données peut être extrêmement difficile. Les équipes d'ingénierie des données des gestionnaires d'actifs sont surchargées d'acquisition et de prétraitement des données, tandis que les équipes de science des données exploitent les données pour obtenir des informations sur les investissements.

Les données tierces ou alternatives font référence aux données utilisées dans le processus d'investissement, provenant de l'extérieur des fournisseurs de données de marché traditionnels. Les investisseurs institutionnels augmentent fréquemment leurs sources de données traditionnelles avec des données tierces ou alternatives pour obtenir un avantage dans leur processus d'investissement. Les exemples généralement cités incluent, mais sans s'y limiter, l'imagerie par satellite, les données de carte de crédit et le sentiment des médias sociaux. Les gestionnaires de fonds investissent près de 3 milliards de dollars par an dans des ensembles de données externes, les dépenses annuelles augmentant de 20 à 30 %.

Avec la croissance exponentielle des ensembles de données tiers et alternatifs disponibles, la capacité d'analyser rapidement si un nouvel ensemble de données ajoute de nouvelles informations sur les investissements est un différenciateur concurrentiel dans le secteur de la gestion des investissements. Les données AWS no-code low-code (LCNC) et les services d'intelligence artificielle permettent aux équipes non techniques d'effectuer le filtrage initial des données, de hiérarchiser l'intégration des données, d'accélérer le délai d'obtention d'informations et de libérer de précieuses ressources techniques, créant ainsi un avantage concurrentiel durable.

Dans cet article de blog, nous expliquons comment, en tant que gestionnaire d'actifs institutionnels, vous pouvez tirer parti des données AWS LCNC et des services d'intelligence artificielle pour faire évoluer le processus initial d'analyse et de hiérarchisation des données au-delà des équipes techniques et accélérer votre prise de décision. Avec les services AWS LCNC, vous pouvez vous abonner et évaluer rapidement divers ensembles de données tiers, prétraiter les données et vérifier leur puissance prédictive à l'aide de modèles d'apprentissage automatique (ML) sans écrire un seul morceau de code.

Vue d'ensemble de la solution

Notre cas d'utilisation consiste à analyser le pouvoir prédictif du cours de l'action d'un ensemble de données externes et à identifier l'importance de ses caractéristiques, c'est-à-dire les champs qui ont le plus d'impact sur la performance du cours de l'action. Cela sert de test de premier passage pour identifier lequel des multiples champs d'un ensemble de données doit être évalué plus étroitement à l'aide de méthodologies quantitatives traditionnelles pour s'adapter à votre processus d'investissement. Ce type de test de premier passage peut être effectué rapidement par les analystes, ce qui vous fait gagner du temps et vous permet de prioriser plus rapidement l'intégration des ensembles de données. De plus, bien que nous utilisions le cours de l'action comme exemple cible, d'autres mesures telles que la rentabilité, les ratios d'évaluation ou les volumes de négociation pourraient également être utilisées. Tous les ensembles de données utilisés pour ce cas d'utilisation sont publiés dans Échange de données AWS.

Le schéma suivant explique l'architecture de bout en bout et les services AWS LCNC utilisés pour prendre les décisions :

Notre solution comprend les étapes et solutions suivantes :

Ingestion de données : AWS Data Exchange pour s'abonner aux ensembles de données alternatifs publiés et les télécharger sur Service de stockage simple Amazon (Amazon S3) seau.
Ingénierie des données : Brassage de données AWS Glue pour l'ingénierie des données et la transformation des données stockées dans Amazon S3.
Apprentissage automatique: Toile Amazon SageMaker pour construire un modèle de prévision de série chronologique pour la prédiction et l'identification de l'impact des données sur la prévision.
L'intelligence d'entreprise: Amazon QuickSight ou Amazon SageMaker Canvas pour examiner l'importance des fonctionnalités dans les prévisions pour la prise de décision.

Ingestion de données

Échange de données AWS facilite la recherche, l'abonnement et l'utilisation de données tierces dans le cloud. Vous pouvez parcourir le catalogue AWS Data Exchange et trouver des produits de données pertinents pour votre entreprise et inscrire aux données des fournisseurs sans autre traitement et sans avoir besoin d'un processus ETL. Notez que de nombreux fournisseurs proposent des abonnements initiaux gratuits, qui vous permettent d'analyser leurs données sans avoir à engager de frais initiaux.

Pour ce cas d'utilisation, recherchez et abonnez-vous aux ensembles de données ci-dessous dans AWS Data Exchange :

20 ans de données boursières en fin de journée pour les 10 principales entreprises américaines par capitalisation boursière publié par Alpha Vantage. Cet ensemble de données gratuit contient 20 ans de données historiques pour les 10 principales actions américaines par capitalisation boursière au 5 septembre 2020. L'ensemble de données contient les 10 symboles suivants : AAPL : Apple Inc. ; AMZN : Amazon.com, Inc. ; BRK-A : Berkshire Hathaway Inc. (Classe A) ; FB : Facebook, Inc. ; GOOG : Alphabet Inc. ; JNJ : Johnson & Johnson ; MA : Mastercard Incorporated ; MSFT : Microsoft Corporation V : Visa Inc. ; et WMT : Walmart Inc.
Les champs de données clés incluent
- Ouvert : prix d'ouverture tel que négocié pour la journée
- Haut : prix élevé tel que négocié pour la journée
- Bas : prix bas tel que négocié pour la journée
- Clôture : cours de clôture tel que négocié pour la journée
- Volume : volume de trading pour la journée
- Clôture ajustée : cours de clôture du jour ajusté en fonction du fractionnement et des dividendes
- Ratio de partage : rapport entre le nombre d'actions nouvelles et l'ancien nombre d'actions à la date d'effet
- Dividende : montant du dividende en espèces
Données sur les intérêts à court terme et le financement de titres S3 publié par Partenaires S3. Cet ensemble de données contient les champs suivants :

Champ	Description
Date de l'entreprise	Date d'entrée en vigueur du tarif
ID de sécurité	Les identifiants de sécurité contiennent Sedol, ISIN, FIGI, Ticker, Bloomberg ID
Nom	Nom de sécurité
Tarif de l'offre	Frais de financement composites du marché payés pour les positions courtes existantes
Taux d'enchère	Commission de prêt composite du marché gagnée pour les actions existantes prêtées par les détenteurs de longue date
Dernier tarif	Commission de prêt composite du marché gagnée pour les actions supplémentaires prêtées à cette date (taux au comptant)
Surpeuplement	L'indicateur de momentum mesure les événements quotidiens de vente à découvert et de couverture par rapport au flottement du marché
Intérêt court	Intérêt court en temps réel exprimé en nombre d'actions
ShortInterestNotionnel	Intérêt court * Prix (USD)
Pct d'intérêt court	Intérêt court en temps réel exprimé en pourcentage du flottant des actions
S3Flottant	Le nombre d'actions négociables, y compris les positions longues synthétiques créées par la vente à découvert
S3SIPctFlotteur	Projection des intérêts courts en temps réel divisée par le flottant S3
DisponibilitéIndicative	S3 quantité prêtable disponible projetée
Utilisation	Intérêt court en temps réel divisé par l'offre totale prêtable
Jours pour couvrir 10 jours	C'est une mesure de liquidité = intérêt court / ADTV moyen sur 10 jours
Jours pour couvrir 30 jours	C'est une mesure de liquidité = intérêt court / ADTV moyen sur 30 jours
Jours pour couvrir 90 jours	C'est une mesure de liquidité = intérêt court / ADTV moyen sur 90 jours
SI d'origine	Intérêt court à un moment donné

Pour obtenir les données, vous allez d'abord rechercher l'ensemble de données dans AWS Data Exchange et vous abonner à l'ensemble de données :

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois que l'éditeur des ensembles de données aura approuvé vos demandes d'abonnement, vous disposerez des ensembles de données à télécharger dans votre compartiment S3 :

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Sélectionnez Ajouter une destination de travail d'exportation automatique, fournissez les détails du bucket S3 et téléchargez l'ensemble de données :

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Répétez les étapes pour obtenir le jeu de données Alpha Vantage. Une fois terminé, vous aurez les deux ensembles de données dans votre compartiment S3.

Ingénierie des données

Une fois que l'ensemble de données est dans vos compartiments S3, vous pouvez utiliser Brassage de données AWS Glue pour transformer les données. AWS Glue DataBrew propose plus de 350 transformations prédéfinies pour automatiser les tâches de préparation des données (telles que le filtrage des anomalies, la normalisation des formats et la correction des valeurs non valides) qui nécessiteraient autrement des jours ou des semaines d'écriture de transformations codées à la main.

Pour créer un ensemble de données conservées et consolidées pour les prévisions dans AWS DataBrew, effectuez les étapes ci-dessous. Pour des informations détaillées, veuillez consulter ce blogue.

Créez les ensembles de données DataBrew.
Charger des ensembles de données DataBrew dans des projets DataBrew.
Créez les recettes DataBrew.
Exécutez les tâches DataBrew.

Créer des ensembles de données DataBrew: Dans AWS Glue DataBrew, un jeu de données représente les données chargées depuis le compartiment S3. Nous allons créer deux ensembles de données DataBrew, à la fois pour le cours de l'action en fin de journée et l'intérêt court S3. Lorsque vous créez votre ensemble de données, vous n'entrez qu'une seule fois les détails de la connexion S3. À partir de ce moment, DataBrew peut accéder aux données sous-jacentes pour vous.

Charger les ensembles de données DataBrew dans les projets DataBrew: Dans AWS Glue DataBrew, un Projet est la pièce maîtresse de vos efforts d'analyse et de transformation des données. Un projet DataBrew rassemble les jeux de données DataBrew et permet de développer une transformation de données (recette DataBrew). Là encore, nous allons créer deux projets DataBrew, pour le cours de l'action en fin de journée et l'intérêt court S3.

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Construire les recettes DataBrew: Dans DataBrew, un recette est un ensemble d'étapes de transformation de données. Vous pouvez appliquer ces étapes à votre jeu de données. Pour le cas d'utilisation, nous allons construire deux transformations. Le premier modifiera le format de la colonne d'horodatage du cours de l'action en fin de journée afin que l'ensemble de données puisse être joint à l'intérêt court S3 :

La deuxième transformation organise les données et sa dernière étape garantit que nous joignons les ensembles de données en un seul ensemble de données organisé. Pour plus de détails sur la création de recettes de transformation de données, reportez-vous à cette blogue.

Emplois DataBrew : Après la création des recettes DataBrew, vous pouvez d'abord exécuter le travail DataBrew sur le cours de l'action en fin de journée, suivi de la recette d'intérêt court S3. Référez-vous à ceci blogue pour créer un seul ensemble de données consolidées. Enregistrez l'ensemble de données organisé final dans un compartiment S3.

Le flux de travail d'ingénierie de données de bout en bout ressemblera à ceci :

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Apprentissage automatique

Avec l'ensemble de données organisé créé après l'ingénierie des données, vous pouvez utiliser Toile Amazon SageMaker pour construire votre modèle de prévision et analyser l'impact des fonctionnalités sur la prévision. Toile Amazon SageMaker fournit aux utilisateurs professionnels une interface visuelle pointer-cliquer qui leur permet de créer des modèles et de générer eux-mêmes des prédictions ML précises, sans nécessiter aucune expérience ML ni avoir à écrire une seule ligne de code.

Pour créer un modèle de prévision de série chronologique dans Amazon SageMaker Canvas, suivez les étapes ci-dessous. Pour des informations détaillées, reportez-vous à ce blogue:

Sélectionnez le jeu de données organisé dans SageMaker Canvas.
Construire le modèle de prévision de série chronologique.
Analysez les résultats et l'importance des caractéristiques.

Construire le modèle de prévision de séries chronologiques: Une fois que vous avez sélectionné le jeu de données, sélectionnez la colonne cible à prédire. Dans notre cas, ce sera le cours de clôture du symbole boursier. SageMaker Canvas détecte automatiquement qu'il s'agit d'un énoncé de problème de prévision de séries chronologiques.

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vous devrez configurer le modèle comme suit pour les prévisions de séries chronologiques. Pour ID d'article, sélectionnez le nom du symbole boursier. N'oubliez pas que notre ensemble de données contient des cours boursiers pour les 10 principales actions. Sélectionnez la colonne d'horodatage pour l'horodatage, et enfin, entrez le nombre de jours que vous souhaitez prévoir dans le futur [Horizon de prévision].

Vous êtes maintenant prêt à construire le modèle. SageMaker Canvas propose deux options pour construire le modèle : Construction rapide et Construction standard. Dans notre cas, nous utiliserons "Standard Build".

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

La construction standard prend environ trois heures pour construire le modèle et utilise Prévisions Amazon, un service de prévision de séries chronologiques basé sur le ML comme moteur de prévision sous-jacent. Forecast crée des prévisions très précises grâce à l'assemblage de modèles de modèles d'apprentissage traditionnels et profonds sans nécessiter d'expérience en ML.

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois le modèle créé, vous pouvez maintenant examiner les performances du modèle (précision de la prédiction) et l'importance des fonctionnalités. Comme le montre la figure ci-dessous, le modèle identifie Crowding et DaysToCover10Day comme les deux principales caractéristiques déterminant les valeurs de prévision. Cela est conforme à notre intuition du marché, car le crowding est un indicateur de momentum mesurant les événements quotidiens de vente à découvert et de couverture, et l'intérêt à court terme à court terme est une mesure de liquidité, indiquant comment les investisseurs se positionnent sur une action. Le momentum et la liquidité peuvent entraîner la volatilité des prix.

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Ce résultat indique que ces deux fonctionnalités (ou champs) ont une relation étroite avec les mouvements du cours des actions et peuvent être prioritaires pour l'intégration et une analyse plus approfondie.

Business Intelligence

Dans le contexte de la prévision de séries chronologiques, la notion de backtesting fait référence au processus d'évaluation de l'exactitude d'une méthode de prévision à l'aide de données historiques existantes. Le processus est généralement itératif et répété sur plusieurs dates présentes dans les données historiques.

Comme nous l'avons déjà mentionné, SageMaker Canvas utilise Amazon Forecast comme moteur pour les prévisions de séries chronologiques. Forecast crée un backtest dans le cadre du processus de construction du modèle. Vous pouvez désormais afficher les détails du prédicteur en vous connectant à Amazon Forecast. Pour une compréhension approfondie de l'explicabilité du modèle, reportez-vous à ce blogue.

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Amazon Forecast fournit des détails supplémentaires sur les métriques de prédicteur telles que l'erreur en pourcentage absolu pondéré (WAPE), l'erreur quadratique moyenne (RMSE), l'erreur en pourcentage absolu moyen (MAPE) et l'erreur moyenne absolue à l'échelle (MASE). Vous pouvez exporter les scores de qualité des prédicteurs depuis Amazon Forecast.

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Amazon Forecast exécute un backtest pour l'ensemble de données de série chronologique fourni. Les résultats du backtest sont disponibles en téléchargement via le Exporter les résultats du backtest bouton. Les résultats de backtest exportés sont téléchargés dans un compartiment S3.

Nous allons maintenant tracer les résultats du backtest dans Amazon QuickSight. Pour visualiser les résultats du backtest dans Amazon QuickSight, connectez-vous à l'ensemble de données dans Amazon S3 à partir de QuickSight et créez une visualisation.

Accélérez le processus d'investissement avec les services AWS Low Code-No Code PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nettoyer

Les services AWS exploités dans cette solution sont gérés et sans serveur par nature. SageMaker Canvas est conçu pour exécuter une longue formation ML et sera toujours activé. Assurez-vous de vous déconnecter explicitement de SageMaker Canvas. Prière de se référer à les docs pour plus de détails.

Conclusion

Dans cet article de blog, nous avons expliqué comment, en tant que gestionnaire d'actifs institutionnels, vous pouvez tirer parti des données AWS low-code no-code (LCNC) et des services d'intelligence artificielle pour accélérer l'évaluation des ensembles de données externes en déchargeant le filtrage initial des ensembles de données sur du personnel non technique. Cette analyse de premier passage peut être effectuée rapidement pour vous aider à décider quels ensembles de données doivent être prioritaires pour l'intégration et une analyse plus approfondie.

Nous avons démontré étape par étape comment un analyste de données peut acquérir de nouvelles données tierces via AWS Data Exchange, utiliser les services ETL sans code AWS Glue DataBrew pour prétraiter les données et évaluer quelles fonctionnalités d'un ensemble de données ont le plus d'impact sur les prévisions du modèle. .

Une fois que les données sont prêtes pour l'analyse, un analyste utilise SageMaker Canvas pour créer un modèle prédictif, évaluer son ajustement et identifier les caractéristiques importantes. Dans notre exemple, les MAPE (05) et WAPE (045) du modèle indiquaient un bon ajustement et indiquaient que "Crowding" et "DaysToCover10Day" étaient les signaux de l'ensemble de données ayant le plus grand impact sur la prévision. Cette analyse a quantifié quelles données ont le plus influencé le modèle et pourraient donc être priorisées pour une enquête plus approfondie et une éventuelle inclusion dans vos signaux alpha ou votre processus de gestion des risques. Et tout aussi important, les scores d'explicabilité indiquent quelles données jouent relativement peu de rôle dans la détermination de la prévision et peuvent donc être moins prioritaires pour une enquête plus approfondie.

Pour évaluer plus rapidement la capacité des données financières tierces à soutenir votre processus d'investissement, consultez le Sources de données des services financiers disponibles sur AWS Data Exchange, Et donner Brassage de données et les Toile un essai aujourd'hui.

À propos des auteurs

Boris Litvine est architecte principal de solutions, responsable de l'innovation dans le secteur des services financiers. Il est un ancien fondateur de Quant et FinTech, passionné par l'investissement systématique.

Meenakshisundaram Thandavarayan est un spécialiste principal de l'IA/ML chez AWS. Il accompagne les comptes stratégiques high-tech dans leur parcours IA et ML. Il est très passionné par l'IA axée sur les données.

Camille Anania est un architecte senior de solutions de démarrage avec AWS basé au Royaume-Uni. C'est un technologue passionné qui aide les startups de toute taille à se développer et à se développer.

Dan Sinnreich est un chef de produit senior chez AWS, axé sur l'autonomisation des entreprises pour prendre de meilleures décisions avec ML. Il a précédemment construit des plateformes d'analyse de portefeuille et des modèles de risque multi-classes d'actifs pour de grands investisseurs institutionnels.

Horodatage: 20 décembre 202223 décembre 2022

Horodatage: Le 17 janvier 2024

Accélérez le processus d'investissement avec les services AWS Low Code-No Code

Republié par Platon

Vue d'ensemble de la solution

Ingestion de données

Ingénierie des données

Apprentissage automatique

Business Intelligence

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Réajuster les paramètres formés sur de grands ensembles de données à l'aide d'Amazon SageMaker Data Wrangler

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler

Livre blanc : Meilleures pratiques d'apprentissage automatique dans les soins de santé et les sciences de la vie

Obtenez un hébergement à faible latence pour les modèles ML basés sur un arbre de décision sur le serveur d'inférence NVIDIA Triton sur Amazon SageMaker

Comment Amp sur Amazon a utilisé les données pour accroître l'engagement des clients, Partie 1 : Créer une plateforme d'analyse de données

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte