Otimização de portfólio por meio da otimização de ações multidimensionais usando Amazon SageMaker RL

Republicado por Platão

seguidores: 0

O aprendizado por reforço (RL) abrange uma classe de técnicas de aprendizado de máquina (ML) que podem ser usadas para resolver problemas de tomada de decisão sequencial. As técnicas de RL encontraram aplicações generalizadas em vários domínios, incluindo serviços financeiros, navegação autônoma, controle industrial e comércio eletrônico. O objetivo de um problema de RL é treinar um agente que, dada uma observação de seu ambiente, escolherá a ação ótima que maximiza a recompensa cumulativa. Resolver um problema de negócios com RL envolve especificar o ambiente do agente, o espaço de ações, a estrutura de observações e a função de recompensa certa para o resultado de negócios alvo. Em métodos de RL baseados em políticas, o resultado do treinamento do modelo geralmente é uma política, que define uma distribuição de probabilidade sobre as ações dadas uma observação. A política ótima maximizará os retornos acumulados obtidos pelo agente.

Em problemas de tomada de decisão com restrições, o agente é encarregado de escolher as ações ótimas sob restrições. Existe uma classe distinta de tais problemas em que, dependendo do estado, o agente só pode escolher entre um subconjunto de todas as ações. As demais ações são inadmissíveis.

Por exemplo, considere um carro autônomo com 10 níveis de velocidade possíveis. Este carro só pode escolher entre um subconjunto de seus níveis de velocidade ao atravessar um bairro residencial. Aqui, a restrição nos níveis de velocidade é determinada pela localização do carro. Essas restrições parametrizadas nas ações são comuns em muitos problemas do mundo real. Resolver tais problemas com RL requer incorporar as restrições no processo de treinamento. Mascaramento de ação é uma abordagem para resolver problemas de RL que envolvem restrições de inadmissibilidade de maneira amostral eficiente. Como o nome sugere, envolve mascarar quaisquer ações inadmissíveis definindo sua probabilidade de amostragem como zero. A figura a seguir representa o ciclo RL com máscara de ação. Consiste em um agente, as restrições que determinam as máscaras de ação, as máscaras, as transições de estado e as recompensas observadas.

Otimização de portfólio por meio de otimização de ações multidimensionais usando Amazon SageMaker RL PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Neste post, descrevemos como implementar mascaramento de ação com RL do Amazon SageMaker usando espaços de ação paramétricos em Ray RLlib. Descrevemos um exemplo de problema que envolve espaços de ação multidimensionais discretos e múltiplas restrições. Para acessar o caderno completo deste post, veja o Exemplo de bloco de anotações do SageMaker no GitHub.

Visão geral do caso de uso

Consideramos um exemplo de problema de otimização de portfólio no qual um investidor negocia vários tipos de ativos para maximizar o valor total de seu portfólio. A carteira consiste em três tipos de ativos diferentes e um saldo de caixa que se refere simplesmente ao dinheiro que você tem em sua conta bancária. Durante cada período de investimento, o agente deve escolher a quantidade de cada tipo de ativo que deseja comprar ou vender. O agente usa o saldo de caixa disponível para financiar qualquer compra de ativos. Há também custos de transação associados a cada ação de compra/venda de ativos. Supõe-se que o preço de mercado de cada ativo varie ao longo do tempo. Os preços são amostrados aleatoriamente, mas modelados para mostrar um comportamento distinto com diferentes níveis de volatilidade. As faixas de preço para as três classes de ativos são mostradas na figura a seguir.

Otimização de portfólio por meio de otimização de ações multidimensionais usando Amazon SageMaker RL PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O conjunto de ações admissíveis para o agente é determinado por parâmetros como o valor atual total da carteira, o saldo atual de caixa, o número de cada tipo de ativo mantido e seu valor atual de mercado. Para este problema, aplicamos as seguintes restrições nas ações possíveis:

C1 – O agente não pode vender mais unidades de qualquer tipo de ativo do que possui atualmente. Por exemplo, se o agente tiver 100 unidades do Ativo 3 no momento k em seu portfólio, ele não poderá vender 120 unidades desse ativo naquele momento.
C2 – O ativo 3 é considerado altamente volátil pelos investidores. O agente não pode comprar o Ativo 3 se o valor total de suas participações no Ativo 3 for superior a um terço do valor total de sua carteira.
C3 – Os consumidores do modelo RL têm uma preferência de risco moderada e consideram o Ativo 2 uma compra conservadora. Como resultado, o agente não pode comprar o Ativo 2 quando o valor total das participações do Ativo 2 ultrapassar dois terços do valor total da carteira.
C4 – O agente não pode comprar nenhum ativo se seu saldo de caixa atual for inferior a $ 1 USD.

Configure o ambiente

Para começar, provisione uma instância de notebook SageMaker por meio de Estúdio Amazon SageMaker. Para mais informações, veja Usar instâncias de bloco de anotações do Amazon SageMaker.

Em seguida, implementamos o problema de negociação de portfólio em um Academia de IA aberta ambiente e treinar um agente RL usando o SageMaker RL. Um ambiente Gym fornece uma interface para o agente RL interagir com seu ambiente e gerar recompensas e observações. O ambiente para a negociação da carteira está localizado no trading.py módulo. Nós usamos o __init__ para definir e inicializar alguns parâmetros do ambiente. Isso inclui custos de transação associados a ações de compra/venda de ativos, valor médio dos preços dos ativos, variações de preços e muito mais. Também definimos os espaços de observação e ação no __init__ método. Veja o seguinte código:

def __init__(self,*args, **kwargs): self.buy_price=np.array([0.03, 0.045, 0.035]) # transaction cost per unit bought for three asset classes self.sell_price=np.array([0.025, 0.035, 0.03]) # transaction cost per unit sold for three asset classes self.mu=np.array([40,35,48]) # Mean initial asset price self.var=np.array([4,2,7]) # Variance of asset prices self.tvec=np.arange(20) # Length of each episode=20 self.sig=np.zeros((3,len(self.tvec))) self.sig[0,:]=self.mu[0]+0.4*self.tvec+4*np.cos(2*math.pi*self.tvec/16) #Functions used to model mean asset prices over time self.sig[1,:]=self.mu[1]+0.1*self.tvec self.sig[2,:]=self.mu[2]+0.3*self.tvec-6*np.sin(2*math.pi*self.tvec/7) state_bounds=state_bounds_gen() low,high= map(np.array,zip(*state_bounds.values())) # Minimum and maximum values for the state variables self.action_space = Tuple([Discrete(11),Discrete(11),Discrete(11)]) #Action space consisting of three discrete actions self.observation_space=Dict({"action_mask":Tuple([Box(0,1,shape=(11,)),Box(0,1,shape=(11,)),Box(0,1,shape=(11,))]), "trading_state":Box(low,high,dtype=np.float32)}) # Dictionary space consisting of trading state # and action mask

Como o agente negocia três ativos a qualquer momento, as ações tomadas pelo agente são representadas usando um vetor de ação tridimensional. As três ações discretas que compõem o vetor de ação representam as negociações em cada classe de ativos e cada uma pode ter 11 valores possíveis. Os 11 valores discretos codificam diferentes ações de venda, compra e retenção, conforme mostrado na figura a seguir. Por exemplo, escolher um₁=3 se traduz no agente vendendo 20 unidades do tipo de ativo 1. Os ativos são comprados e vendidos em múltiplos de 10.

Otimização de portfólio por meio de otimização de ações multidimensionais usando Amazon SageMaker RL PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O espaço de observação tem uma estrutura de dicionário com dois elementos. Eles representam o estado de negociação atual e os valores de máscara de ação atuais. O estado de negociação é um vetor 7 × 1 que consiste nas quantidades de cada ativo atualmente detido pelo agente, saldo de caixa atual e o valor de mercado atual de cada um dos três ativos. A máscara de ação é uma matriz 3×11 com valores de máscara correspondentes a cada ação possível. O ambiente calcula os valores da máscara a cada momento usando um update_mask() método. As ações que violam qualquer uma das restrições C1:C4 recebem uma máscara zero. O valor de mask é definido como 1 para ações admissíveis. Veja o seguinte código:

def update_mask(self): self.action_mask=[np.array([1.0]*x.n) for x in self.action_space.spaces] # Set all masks to 1 if self.balance<1: # If balance < 1, set buy masks to zero (C4) for jj in range(len(self.action_mask)): self.action_mask[jj][6:]=[0.0]*5 self.action_mask[2][6:]=[0.0]*5 if (self.prices[2]*self.assets[2]/self.total_assets)>1.0/3.0 else [1.0]*5 #(C3) self.action_mask[1][6:]=[0.0]*5 if (self.prices[1]*self.assets[1]/self.total_assets)>2.0/3.0 else [1.0]*5 #(C2) for k in range(3): cap=int(min(5,self.assets[k]/10)) self.action_mask[k][:5]=[0.0]*(5-cap)+[1.0]*cap # (C1)

No início de cada episódio, um reset() O método é chamado para reinicializar o estado de negociação, observações e outros parâmetros. O agente inicia cada episódio de treinamento com US$ 1,000 em saldo de caixa e zero participações em ativos. Cada episódio consiste em 20 períodos de investimento.

 def reset(self): self.assets=np.zeros(3,dtype=np.float32) # Assets owned at the beginning self.balance=1000 # Initial cash balance self.t_step=0 self.prices=[np.random.normal(mu,var) for mu,var in zip(self.mu,self.var)] # Sampling market prices for the assets self.state=np.hstack([self.assets, self.balance, self.prices]) # Initial state self.total_assets=self.balance # Total portfolio value self.update_mask() # Updating action mask values reset_state={ "action_mask":list(np.float32(self.action_mask)), # Initial state "trading_state":np.float32(self.state) } return reset_state

No início de cada período de investimento, o agente amostra uma ação com base nas últimas observações que registrou e atualiza seu portfólio. Isso é modelado usando um step() método. Depois que o portfólio é atualizado, recalculamos o estado. A máscara de ação também é atualizada chamando o update_mask() método.

def step(self, action): self.t_step+=1 for index, a in enumerate (action): print("action is ",a) print("price is ",self.prices[index]) quant=abs(a-5) # Number of assets traded/10 if a<5: # Condition: Asset sale ? if 10*quant*self.sell_price[index]>self.balance: # Condition: sale cost > Balance ? quant=np.floor(self.balance/(10*self.sell_price[index])) self.assets[index]-=10*quant # Asset update self.balance=self.balance+10*quant*(self.prices[index]-self.sell_price[index]) # Balance update if a>5: if 10*quant*(self.buy_price[index]+self.prices[index])>self.balance: # Condition: Buy cost > Balance ? quant=np.floor(self.balance/(10*(self.buy_price[index]+self.prices[index]))) self.assets[index]+=10*quant # Asset update self.balance=self.balance-10*quant*(self.prices[index]+self.sell_price[index]) # Balance update else: continue self.prices=np.array([np.random.normal(mu,var) for mu,var in zip(self.sig[:,self.t_step],self.var)]) # New asset prices self.state=np.hstack([self.assets,self.balance, self.prices]) # New state self.total_assets=self.balance+np.dot(self.assets,self.prices) # Total portfolio value self.update_mask() # Mask update obs={ "action_mask": list(np.float32(self.action_mask)), "trading_state":np.float32(self.state) } if self.t_step==len(self.tvec)-1: reward=self.total_assets # reward = Total portfolio value at the end of the episode else: reward=0 done=True if self.t_step==len(self.tvec)-1 else False return obs, reward, done, {}

A função de recompensa é definida como o valor total final da carteira e calculada ao final de cada episódio, que ocorre após 20 períodos de investimento.

modelo de máscara

A cada intervalo de tempo, o ambiente retorna o estado do dicionário e o modelo de ML que representa a política mostra uma ação com base nesse estado. Um modelo de ação paramétrica facilita a amostragem apenas das ações não mascaradas (máscara ≠ 0). Aqui descrevemos o modelo de ações paramétricas que permite o mascaramento de ações:

class ParametricActionsModel(TFModelV2): def __init__(self, obs_space, action_space, num_outputs, model_config, name, *args, **kwargs): super(ParametricActionsModel, self).__init__(obs_space, action_space, num_outputs, model_config, name, *args, **kwargs) self.true_obs_shape = (7,) self.action_embed_model = FullyConnectedNetwork(Box(np.finfo(np.float32).min,np.finfo(np.float32).max,shape=self.true_obs_shape), action_space, num_outputs, model_config, name, ) # action embedding model self.register_variables(self.action_embed_model.variables()) def forward(self, input_dict, state, seq_lens): action_mask= tf.cast(tf.concat(input_dict["obs"]["action_mask"], axis=1), tf.float32) # action mask values action_embedding,_ = self.action_embed_model({"obs":input_dict["obs"]["trading_state"]}) # action embeddings logit_mod = tf.maximum(tf.math.log(action_mask),tf.float32.min) # moidfiers to action logits return (action_embedding+logit_mod), state def value_function(self): return self.action_embed_model.value_function()

As ações são amostradas pelo modelo por meio de uma função Softmax usando os logits fornecidos por um modelo de incorporação de ações. Este modelo é definido no __init__ método. O próprio comportamento de mascaramento é implementado no forward() método. Aqui, separamos as máscaras de ações e o estado de negociação do estado do dicionário recuperado do ambiente. As incorporações de ação são então obtidas passando o estado de negociação para a rede de incorporação de ação. Em seguida, modificamos o valor dos embeddings de cada ação adicionando logit_mod aos logitos. Notar que logit_mod é uma função do logaritmo da máscara de ação. Para ações com máscara =1, o logaritmo da máscara será zero, o que deixa seus embeddings inalterados. Por outro lado, quando mask=0, o logaritmo de mask → −∞. Porque Softmax(x) →0 como x→ −∞, isso garante que as ações mascaradas não sejam amostradas pelo agente.

Vamos testar se a máscara está funcionando conforme o esperado. Iniciamos um objeto ray trainer e mascaramos algumas das ações e vemos se o treinador está amostrando apenas as ações não mascaradas:

import ray
import ray.rllib.agents.ppo as ppo
from ray.tune.registry import register_env
from trading import mytradingenv
from mask_model import register_actor_mask_model
import numpy as np register_actor_mask_model()
ray.shutdown()
ray.init(ignore_reinit_error=True) env_config={}
register_env("customtradingmodel", lambda env_config:mytradingenv(env_config)) TestEnvConfig = { "log_level":"WARN", "model": { "custom_model": "trading_mask" # Define the custom masking model in the config } } agent1 = ppo.PPOTrainer(config=TestEnvConfig,env="customtradingmodel")
env = agent1.env_creator('customtradingmodel')
state=env.reset()
print(state["action_mask"])

A saída na captura de tela a seguir mostra a matriz de máscara de ação inicial.

Otimização de portfólio por meio de otimização de ações multidimensionais usando Amazon SageMaker RL PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Agora modificamos os vetores de máscara para que, para um₁, todas as opções exceto a ação 8 (comprar 30 unidades do Ativo 1); para₂ tudo, exceto a ação 5 (mantenha o Ativo 2 nos números atuais); e por um₃, tudo exceto as ações 1 e 2 (vender 40 ou 30 unidades do Ativo 3) são mascarados:

state["action_mask"]=[np.zeros([11],dtype=np.float32) for _ in range(3)]
state['action_mask'][0][8]=1
state['action_mask'][1][5]=1
state['action_mask'][2][1:3]=[1,1]

Agora que modificamos a matriz de máscara de ação, tentamos experimentar uma nova ação.

Otimização de portfólio por meio de otimização de ações multidimensionais usando Amazon SageMaker RL PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O agente amostra apenas aquelas ações que são desmascaradas. Isso verifica se o mascaramento de ação está funcionando conforme o esperado.

Resultados

Agora que o ambiente e o modelo de ações paramétricas estão definidos, treinamos um agente para resolver o problema de otimização de portfólio usando o SageMaker RL. Treinamos um agente RL para aprender a política ótima para maximizar a recompensa sob as restrições C1:C4. Usamos o algoritmo de otimização de política proximal (PPO) no SageMaker RL para treinar o agente RL para 500,000 episódios. A configuração de treinamento a seguir mostra como especificamos o agente para usar o trading_mask como um custom_model ser usado:

 def get_experiment_config(self): return { "training": { "env": "mytradingmodel", "run": "PPO", # Use PPO algorithm "stop":{"episodes_total":500000}, # 500k training episodes "config": { "use_pytorch": False, "gamma": 0.99, "kl_coeff": 1.0, "num_sgd_iter": 20, "lr": 0.0001, "sgd_minibatch_size": 1000, "train_batch_size": 25000, "monitor": True, "model": { "custom_model": "trading_mask" # Use custom action masking model }, "num_workers": (self.num_cpus-1), "num_gpus": self.num_gpus, "batch_mode": "truncate_episodes", "explore":True, "exploration_config":{ "type":"StochasticSampling", }, }, "checkpoint_freq": 1, } }

O agente começa com $ 1,000 USD no saldo inicial de caixa. A recompensa média por episódio é plotada em função do tempo de treinamento, conforme mostrado no gráfico a seguir. Lembre-se de que usamos o valor total final do portfólio como recompensa. Ao final de 20 períodos de investimento, observamos que o valor médio da carteira do agente é superior a $ 3,000 USD.

Otimização de portfólio por meio de otimização de ações multidimensionais usando Amazon SageMaker RL PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

limpar

Não provisionamos nenhuma infraestrutura além do uso de uma instância de notebook SageMaker. Se você estiver usando uma instância de bloco de anotações do SageMaker por meio do Studio, poderá desligá-la seguindo as instruções em Desligar um Notebook Aberto.

Conclusão

Nesta postagem, discutimos como você pode implementar o mascaramento de ação para impor restrições no treinamento do modelo RL. Ao mascarar ações inadmissíveis, permitimos que o agente experimente apenas ações válidas e aprenda a política ótima de maneira eficiente. Introduzimos um problema de otimização de portfólio em que o agente é encarregado de maximizar o valor de seu portfólio negociando três tipos de ativos sob várias restrições. Demonstramos como implementar mascaramento de ação multidimensional para esse problema usando Ray RLlib. Treinamos um agente RL para resolver o problema de otimização de portfólio restrito usando o SageMaker RL.

Agora que você sabe como executar o mascaramento de ação usando SageMaker RL e Ray RLlib na otimização de portfólio, pode experimentá-lo em outros problemas de RL que envolvam ações inadmissíveis. Você também pode adaptar o código de mascaramento de ação desenvolvido neste post para problemas mais simples envolvendo espaço de ação unidimensional. Incentivamos você a aplicar a abordagem desenvolvida aqui aos seus casos de uso de RL e nos informar se tiver dúvidas ou comentários.

Referências adicionais

Para obter informações adicionais e conteúdo relacionado, consulte os seguintes recursos:

Sobre os autores

Dilshad Raihan Akkam Veettil é cientista de dados da AWS Professional Services, onde interage com clientes de todos os setores para resolver seus desafios de negócios por meio do uso de aprendizado de máquina e computação em nuvem. Ele é PhD em Engenharia Aeroespacial pela Texas A&M University, College Station. Nos momentos de lazer, gosta de assistir futebol e ler.

Otimização de portfólio por meio de otimização de ações multidimensionais usando Amazon SageMaker RL PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Paul Budnarain é um Cientista Aplicado no grupo de Sistemas de Previsão de Inventário (IFS) da Amazon e mora em Los Angeles, Califórnia.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/portfolio-optimization-through-multidimensional-action-optimization-using-amazon-sagemaker-rl/

Carimbo de hora: 8 de março de 2023

Carimbo de hora: 18 Novembro, 2022

Republicado por Platão

Agilize o ciclo de vida de desenvolvimento do chatbot do Amazon Lex com o Test Workbench | Amazon Web Services

Como a United Airlines construiu um pipeline de aprendizado ativo de reconhecimento óptico de caracteres econômico | Amazon Web Services

Habilitar CI/CD de endpoints multirregionais do Amazon SageMaker

Identifique a causa raiz potencial em anomalias críticas para os negócios usando o Amazon Lookout for Metrics

Identifique idiomas automaticamente em áudio multilíngue usando o Amazon Transcribe

ML automatizado, escalável e econômico na AWS: detectando samambaias arbóreas australianas invasoras em florestas havaianas

Crie pipelines de criação de modelos do Amazon SageMaker e implante modelos R usando o RStudio no Amazon SageMaker

Otimize hiperparâmetros com o Amazon SageMaker Automatic Model Tuning

Implante BLOOM-176B e OPT-30B no Amazon SageMaker com grande inferência de modelo Deep Learning Containers e DeepSpeed

Previsão fácil e precisa com AutoGluon-TimeSeries

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta