Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL

Republié par Platon

Suiveurs: 0

L'apprentissage par renforcement (RL) englobe une classe de techniques d'apprentissage automatique (ML) qui peuvent être utilisées pour résoudre des problèmes de prise de décision séquentielle. Les techniques RL ont trouvé de nombreuses applications dans de nombreux domaines, notamment les services financiers, la navigation autonome, le contrôle industriel et le commerce électronique. L'objectif d'un problème RL est de former un agent qui, étant donné une observation de son environnement, choisira l'action optimale qui maximise la récompense cumulée. Résoudre un problème métier avec RL implique de spécifier l'environnement de l'agent, l'espace des actions, la structure des observations et la bonne fonction de récompense pour le résultat métier cible. Dans les méthodes RL basées sur des politiques, le résultat de la formation du modèle est souvent une politique, qui définit une distribution de probabilité sur les actions en fonction d'une observation. La politique optimale maximisera les rendements cumulés obtenus par l'agent.

Dans les problèmes de prise de décision sous contraintes, l'agent est chargé de choisir les actions optimales sous contraintes. Une classe distincte de tels problèmes existe dans laquelle, selon l'état, l'agent peut être autorisé à choisir uniquement parmi un sous-ensemble de toutes les actions. Les autres recours sont irrecevables.

Par exemple, considérons une voiture autonome qui a 10 niveaux de vitesse possibles. Cette voiture ne peut être autorisée à choisir que parmi un sous-ensemble de ses niveaux de vitesse lorsqu'elle traverse un quartier résidentiel. Ici, la contrainte sur les niveaux de vitesse est déterminée par l'emplacement de la voiture. De telles contraintes paramétrées sur les actions sont courantes dans de nombreux problèmes du monde réel. Résoudre de tels problèmes avec RL nécessite d'intégrer les contraintes dans le processus de formation. Masquage d'action est une approche pour résoudre les problèmes de RL qui impliquent des contraintes d'inadmissibilité d'une manière efficace. Comme son nom l'indique, il s'agit de masquer les actions inadmissibles en fixant leur probabilité d'échantillonnage à zéro. La figure suivante illustre le cycle RL avec masquage d'action. Il se compose d'un agent, des contraintes qui déterminent les masques d'action, les masques, les transitions d'état et les récompenses observées.

Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans cet article, nous décrivons comment implémenter le masquage d'action avec Amazon SageMaker RL utilisation d'espaces d'action paramétriques dans Ray RLlib. Nous décrivons un exemple de problème qui implique des espaces d'action multidimensionnels discrets et de multiples contraintes. Pour accéder au cahier complet de cet article, consultez le Exemple de bloc-notes SageMaker sur GitHub.

Présentation des cas d'utilisation

Nous considérons un exemple de problème d'optimisation de portefeuille dans lequel un investisseur négocie plusieurs types d'actifs pour maximiser la valeur totale de son portefeuille. Le portefeuille se compose de trois types d'actifs différents et d'un solde de trésorerie qui fait simplement référence à l'argent que vous avez sur votre compte bancaire. Au cours de chaque période d'investissement, l'agent doit choisir la quantité de chaque type d'actif qu'il achète ou vend. L'agent utilise le solde de trésorerie disponible pour financer tout achat d'actifs. Il existe également des coûts de transaction associés à chaque action d'achat/vente d'actifs. Le prix de marché de chaque actif est supposé varier dans le temps. Les prix sont échantillonnés de manière aléatoire mais modélisés pour montrer un comportement distinct avec différents niveaux de volatilité. Les fourchettes de prix pour les trois classes d'actifs sont présentées dans la figure suivante.

Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'ensemble des actions admissibles pour l'agent est déterminé par des paramètres tels que la valeur totale actuelle du portefeuille, le solde de trésorerie actuel, le nombre de chaque type d'actifs détenus et leur valeur marchande actuelle. Pour ce problème, nous appliquons les contraintes suivantes sur les actions possibles :

C1 – L'agent ne peut pas vendre plus d'unités de n'importe quel type d'actif que ce qu'il possède actuellement. Par exemple, si l'agent a 100 unités de l'actif 3 au moment k dans son portefeuille, il ne peut pas vendre 120 unités de cet actif à ce moment-là.
C2 – L'actif 3 est considéré comme très volatil par les investisseurs. L'agent n'est pas autorisé à acheter l'actif 3 si la valeur totale de ses avoirs dans l'actif 3 est supérieure à un tiers de la valeur totale de son portefeuille.
C3 – Les consommateurs du modèle RL ont une préférence pour le risque modéré et considèrent l'actif 2 comme un achat prudent. Par conséquent, l'agent n'est pas autorisé à acheter l'actif 2 lorsque la valeur totale des avoirs de l'actif 2 dépasse les deux tiers de la valeur totale du portefeuille.
C4 – L'agent ne peut acheter aucun actif si son solde de trésorerie actuel est inférieur à 1 USD.

Mettre en place l'environnement

Pour commencer, provisionnez une instance de bloc-notes SageMaker via Amazon SageMakerStudio. Pour plus d'informations, voir Utiliser les instances Amazon SageMaker Notebook.

Ensuite, nous implémentons le problème de trading de portefeuille dans un environnement personnalisé Salle de sport IA ouverte environnement et former un agent RL à l'aide de SageMaker RL. Un environnement Gym fournit une interface permettant à l'agent RL d'interagir avec son environnement et de générer des récompenses et des observations. L'environnement du négoce de portefeuille se situe dans le trading.py module. Nous utilisons le __init__ méthode pour définir et initialiser certains paramètres d'environnement. Cela inclut les coûts de transaction associés aux actions d'achat/vente d'actifs, la valeur moyenne des prix des actifs, les écarts de prix, etc. Nous définissons également les espaces d'observation et d'action dans le __init__ méthode. Voir le code suivant:

def __init__(self,*args, **kwargs): self.buy_price=np.array([0.03, 0.045, 0.035]) # transaction cost per unit bought for three asset classes self.sell_price=np.array([0.025, 0.035, 0.03]) # transaction cost per unit sold for three asset classes self.mu=np.array([40,35,48]) # Mean initial asset price self.var=np.array([4,2,7]) # Variance of asset prices self.tvec=np.arange(20) # Length of each episode=20 self.sig=np.zeros((3,len(self.tvec))) self.sig[0,:]=self.mu[0]+0.4*self.tvec+4*np.cos(2*math.pi*self.tvec/16) #Functions used to model mean asset prices over time self.sig[1,:]=self.mu[1]+0.1*self.tvec self.sig[2,:]=self.mu[2]+0.3*self.tvec-6*np.sin(2*math.pi*self.tvec/7) state_bounds=state_bounds_gen() low,high= map(np.array,zip(*state_bounds.values())) # Minimum and maximum values for the state variables self.action_space = Tuple([Discrete(11),Discrete(11),Discrete(11)]) #Action space consisting of three discrete actions self.observation_space=Dict({"action_mask":Tuple([Box(0,1,shape=(11,)),Box(0,1,shape=(11,)),Box(0,1,shape=(11,))]), "trading_state":Box(low,high,dtype=np.float32)}) # Dictionary space consisting of trading state # and action mask

Étant donné que l'agent négocie trois actifs à un moment donné, les actions entreprises par l'agent sont représentées à l'aide d'un vecteur d'action tridimensionnel. Les trois actions discrètes qui composent le vecteur d'action représentent les transactions dans chaque classe d'actifs et peuvent chacune prendre 11 valeurs possibles. Les 11 valeurs discrètes codent différentes actions de vente, d'achat et de conservation, comme illustré dans la figure suivante. Par exemple, choisir un₁=3 signifie que l'agent vend 20 unités du type d'actif 1. Les actifs sont achetés et vendus par multiples de 10.

Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'espace d'observation a une structure de dictionnaire à deux éléments. Celles-ci représentent l'état actuel de la négociation et les valeurs actuelles du masque d'action. L'état commercial est un vecteur 7 × 1 composé des quantités de chaque actif actuellement détenu par l'agent, du solde de trésorerie actuel et de la valeur marchande actuelle de chacun des trois actifs. Le masque d'action est une matrice 3×11 avec des valeurs de masque correspondant à chaque action possible. L'environnement calcule les valeurs de masque à chaque fois à l'aide d'un update_mask() méthode. Les actions qui violent l'une des contraintes C1:C4 se voient attribuer un masque zéro. La valeur de mask est fixée à 1 pour les actions admissibles. Voir le code suivant :

def update_mask(self): self.action_mask=[np.array([1.0]*x.n) for x in self.action_space.spaces] # Set all masks to 1 if self.balance<1: # If balance < 1, set buy masks to zero (C4) for jj in range(len(self.action_mask)): self.action_mask[jj][6:]=[0.0]*5 self.action_mask[2][6:]=[0.0]*5 if (self.prices[2]*self.assets[2]/self.total_assets)>1.0/3.0 else [1.0]*5 #(C3) self.action_mask[1][6:]=[0.0]*5 if (self.prices[1]*self.assets[1]/self.total_assets)>2.0/3.0 else [1.0]*5 #(C2) for k in range(3): cap=int(min(5,self.assets[k]/10)) self.action_mask[k][:5]=[0.0]*(5-cap)+[1.0]*cap # (C1)

Au début de chaque épisode, un reset() La méthode est appelée pour réinitialiser l'état commercial, les observations et d'autres paramètres. L'agent commence chaque épisode de formation avec 1,000 20 USD en solde de trésorerie et aucun avoir en actifs. Chaque épisode se compose de XNUMX périodes d'investissement.

 def reset(self): self.assets=np.zeros(3,dtype=np.float32) # Assets owned at the beginning self.balance=1000 # Initial cash balance self.t_step=0 self.prices=[np.random.normal(mu,var) for mu,var in zip(self.mu,self.var)] # Sampling market prices for the assets self.state=np.hstack([self.assets, self.balance, self.prices]) # Initial state self.total_assets=self.balance # Total portfolio value self.update_mask() # Updating action mask values reset_state={ "action_mask":list(np.float32(self.action_mask)), # Initial state "trading_state":np.float32(self.state) } return reset_state

Au début de chaque période d'investissement, l'agent échantillonne une action sur la base des dernières observations qu'il a enregistrées et met à jour son portefeuille. Celle-ci est modélisée à l'aide d'un step() méthode. Une fois le portefeuille mis à jour, nous recalculons l'état. Le masque d'action est également mis à jour en appelant le update_mask() méthode.

def step(self, action): self.t_step+=1 for index, a in enumerate (action): print("action is ",a) print("price is ",self.prices[index]) quant=abs(a-5) # Number of assets traded/10 if a<5: # Condition: Asset sale ? if 10*quant*self.sell_price[index]>self.balance: # Condition: sale cost > Balance ? quant=np.floor(self.balance/(10*self.sell_price[index])) self.assets[index]-=10*quant # Asset update self.balance=self.balance+10*quant*(self.prices[index]-self.sell_price[index]) # Balance update if a>5: if 10*quant*(self.buy_price[index]+self.prices[index])>self.balance: # Condition: Buy cost > Balance ? quant=np.floor(self.balance/(10*(self.buy_price[index]+self.prices[index]))) self.assets[index]+=10*quant # Asset update self.balance=self.balance-10*quant*(self.prices[index]+self.sell_price[index]) # Balance update else: continue self.prices=np.array([np.random.normal(mu,var) for mu,var in zip(self.sig[:,self.t_step],self.var)]) # New asset prices self.state=np.hstack([self.assets,self.balance, self.prices]) # New state self.total_assets=self.balance+np.dot(self.assets,self.prices) # Total portfolio value self.update_mask() # Mask update obs={ "action_mask": list(np.float32(self.action_mask)), "trading_state":np.float32(self.state) } if self.t_step==len(self.tvec)-1: reward=self.total_assets # reward = Total portfolio value at the end of the episode else: reward=0 done=True if self.t_step==len(self.tvec)-1 else False return obs, reward, done, {}

La fonction de récompense est définie comme la valeur totale finale du portefeuille et calculée à la fin de chaque épisode, ce qui se produit après 20 périodes d'investissement.

Modèle de masquage

À chaque pas de temps, l'environnement renvoie l'état du dictionnaire et le modèle ML représentant la politique échantillonne une action basée sur cet état. Un modèle d'action paramétrique facilite l'échantillonnage uniquement des actions non masquées (masque ≠ 0). Nous décrivons ici le modèle d'actions paramétriques qui permet le masquage d'action :

class ParametricActionsModel(TFModelV2): def __init__(self, obs_space, action_space, num_outputs, model_config, name, *args, **kwargs): super(ParametricActionsModel, self).__init__(obs_space, action_space, num_outputs, model_config, name, *args, **kwargs) self.true_obs_shape = (7,) self.action_embed_model = FullyConnectedNetwork(Box(np.finfo(np.float32).min,np.finfo(np.float32).max,shape=self.true_obs_shape), action_space, num_outputs, model_config, name, ) # action embedding model self.register_variables(self.action_embed_model.variables()) def forward(self, input_dict, state, seq_lens): action_mask= tf.cast(tf.concat(input_dict["obs"]["action_mask"], axis=1), tf.float32) # action mask values action_embedding,_ = self.action_embed_model({"obs":input_dict["obs"]["trading_state"]}) # action embeddings logit_mod = tf.maximum(tf.math.log(action_mask),tf.float32.min) # moidfiers to action logits return (action_embedding+logit_mod), state def value_function(self): return self.action_embed_model.value_function()

Les actions sont échantillonnées par le modèle via une fonction Softmax en utilisant les logits donnés par un modèle d'incorporation d'action. Ce modèle est défini dans le __init__ méthode. Le comportement de masquage lui-même est implémenté dans le forward() méthode. Ici, nous séparons les masques d'actions et l'état commercial de l'état du dictionnaire extrait de l'environnement. Les incorporations d'action sont ensuite obtenues en transmettant l'état commercial au réseau d'incorporation d'action. Ensuite, nous modifions la valeur des plongements de chaque action en ajoutant logit_mod aux logis. Remarquerez que logit_mod est une fonction du logarithme du masque d'action. Pour les actions avec masque = 1, le logarithme de masque sera nul, ce qui laisse leurs plongements imperturbables. Par contre, lorsque mask=0, le logarithme de mask → −∞. Car Softmax(x) →0 comme x→ −∞, cela garantit que les actions masquées ne sont pas échantillonnées par l'agent.

Testons si le masque fonctionne comme prévu. Nous initions un objet d'entraînement de rayons et masquons certaines des actions et voyons si l'entraîneur n'échantillonne que les actions non masquées :

import ray
import ray.rllib.agents.ppo as ppo
from ray.tune.registry import register_env
from trading import mytradingenv
from mask_model import register_actor_mask_model
import numpy as np register_actor_mask_model()
ray.shutdown()
ray.init(ignore_reinit_error=True) env_config={}
register_env("customtradingmodel", lambda env_config:mytradingenv(env_config)) TestEnvConfig = { "log_level":"WARN", "model": { "custom_model": "trading_mask" # Define the custom masking model in the config } } agent1 = ppo.PPOTrainer(config=TestEnvConfig,env="customtradingmodel")
env = agent1.env_creator('customtradingmodel')
state=env.reset()
print(state["action_mask"])

La sortie dans la capture d'écran suivante montre le tableau de masque d'action initial.

Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Maintenant, nous modifions les vecteurs de masque de sorte que pour un₁, tous les choix sauf l'action 8 (acheter 30 unités de l'Actif 1) ; pour un₂ tout sauf l'action 5 (maintenez l'actif 2 aux numéros actuels); et pour un₃, tout sauf les actions 1 et 2 (vendre 40 ou 30 unités de l'Actif 3) sont masqués :

state["action_mask"]=[np.zeros([11],dtype=np.float32) for _ in range(3)]
state['action_mask'][0][8]=1
state['action_mask'][1][5]=1
state['action_mask'][2][1:3]=[1,1]

Maintenant que nous avons modifié le tableau de masque d'action, nous essayons d'échantillonner une nouvelle action.

Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'agent n'échantillonne que les actions non masquées. Ceci vérifie que le masquage d'action fonctionne comme prévu.

Résultats

Maintenant que l'environnement et le modèle d'actions paramétriques sont définis, nous formons un agent pour résoudre le problème d'optimisation de portefeuille à l'aide de SageMaker RL. Nous formons un agent RL pour apprendre la politique optimale pour maximiser la récompense sous les contraintes C1:C4. Nous utilisons l'algorithme d'optimisation de politique proximale (PPO) dans SageMaker RL pour former l'agent RL pour 500,000 XNUMX épisodes. La configuration de formation suivante montre comment nous spécifions l'agent pour utiliser le trading_mask en tant que custom_model à utiliser:

 def get_experiment_config(self): return { "training": { "env": "mytradingmodel", "run": "PPO", # Use PPO algorithm "stop":{"episodes_total":500000}, # 500k training episodes "config": { "use_pytorch": False, "gamma": 0.99, "kl_coeff": 1.0, "num_sgd_iter": 20, "lr": 0.0001, "sgd_minibatch_size": 1000, "train_batch_size": 25000, "monitor": True, "model": { "custom_model": "trading_mask" # Use custom action masking model }, "num_workers": (self.num_cpus-1), "num_gpus": self.num_gpus, "batch_mode": "truncate_episodes", "explore":True, "exploration_config":{ "type":"StochasticSampling", }, }, "checkpoint_freq": 1, } }

L'agent commence avec 1,000 20 USD en solde de trésorerie initial. La récompense moyenne par épisode est tracée en fonction du temps d'entraînement, comme indiqué dans le tableau suivant. Rappelez-vous que nous utilisons la valeur totale finale du portefeuille comme récompense. Au bout de 3,000 périodes d'investissement, nous observons que la valeur moyenne du portefeuille de l'agent est supérieure à XNUMX XNUMX USD.

Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nettoyer

Nous n'avons provisionné aucune infrastructure au-delà de l'utilisation d'une instance de bloc-notes SageMaker. Si vous utilisez une instance de bloc-notes SageMaker via Studio, vous pouvez l'arrêter en suivant les instructions de Arrêter un ordinateur portable ouvert.

Conclusion

Dans cet article, nous avons expliqué comment implémenter le masquage d'action pour appliquer des contraintes dans la formation du modèle RL. En masquant les actions inadmissibles, nous permettons à l'agent de n'échantillonner que les actions valides et d'apprendre la politique optimale de manière efficace. Nous avons introduit un problème d'optimisation de portefeuille dans lequel l'agent est chargé de maximiser la valeur de son portefeuille en négociant trois types d'actifs sous plusieurs contraintes. Nous avons montré comment implémenter un masquage d'action multidimensionnel pour ce problème à l'aide de Ray RLlib. Nous avons formé un agent RL pour résoudre le problème d'optimisation de portefeuille contraint à l'aide de SageMaker RL.

Maintenant que vous savez comment effectuer un masquage d'action à l'aide de SageMaker RL et Ray RLlib sur l'optimisation de portefeuille, vous pouvez l'essayer sur d'autres problèmes RL qui impliquent des actions inadmissibles. Vous pouvez également adapter le code de masquage d'action développé dans cet article pour des problèmes plus simples impliquant un espace d'action unidimensionnel. Nous vous encourageons à appliquer l'approche développée ici à vos cas d'utilisation RL et à nous faire savoir si vous avez des questions ou des commentaires.

Références supplémentaires

Pour plus d'informations et du contenu connexe, consultez les ressources suivantes :

À propos des auteurs

Dilshad Raihan Akkam Veettil est Data Scientist chez AWS Professional Services, où il s'engage auprès de clients de tous les secteurs pour résoudre leurs défis commerciaux grâce à l'utilisation de l'apprentissage automatique et du cloud computing. Il est titulaire d'un doctorat en génie aérospatial de la Texas A&M University, College Station. Pendant son temps libre, il aime regarder le football et lire.

Optimisation du portefeuille grâce à l'optimisation des actions multidimensionnelles à l'aide d'Amazon SageMaker RL PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Paul Budnarain est un scientifique appliqué du groupe IFS (Inventory Forecasting Systems) d'Amazon, et est basé à Los Angeles, en Californie.