使用 Amazon SageMaker RL 通过多维操作优化进行投资组合优化

由柏拉图重新发布

关注： 0

强化学习 (RL) 包含一类机器学习 (ML) 技术，可用于解决顺序决策问题。 RL 技术已在众多领域得到广泛应用，包括金融服务、自主导航、工业控制和电子商务。 RL 问题的目标是训练一个代理，根据其环境的观察，该代理将选择最大化累积奖励的最佳动作。使用 RL 解决业务问题涉及指定代理的环境、操作空间、观察结构以及目标业务结果的正确奖励函数。在基于策略的 RL 方法中，模型训练的结果通常是一个策略，它定义了给定观察的动作的概率分布。最优策略将使智能体获得的累积回报最大化。

在约束决策问题中，代理的任务是在约束条件下选择最佳行动。存在一类不同的此类问题，其中根据状态，可能仅允许代理从所有操作的子集中进行选择。其余的行为是不可接受的。

例如，考虑一辆具有 10 种可能速度级别的自动驾驶汽车。在穿过居民区时，可能只允许这辆车从其速度级别的子集中进行选择。在这里，对速度级别的限制由汽车的位置决定。这种对动作的参数化约束在许多现实世界的问题中很常见。使用 RL 解决此类问题需要在训练过程中加入约束条件。 动作掩蔽 是一种解决 RL 问题的方法，该问题以样本有效的方式涉及不可接受的约束。顾名思义，它涉及通过将抽样概率设置为零来掩盖任何不允许的操作。下图描述了带有动作掩码的 RL 循环。它由代理、确定动作掩码的约束、掩码、状态转换和观察到的奖励组成。

使用 Amazon SageMaker RL PlatoBlockchain 数据智能通过多维操作优化来优化投资组合。垂直搜索。人工智能。

在这篇文章中，我们描述了如何使用亚马逊SageMaker RL 在中使用参数化动作空间射线库. 我们描述了一个涉及离散多维动作空间和多个约束的示例问题。要访问这篇文章的完整笔记本，请参阅 SageMaker笔记本示例在GitHub上。

用例概述

我们考虑一个示例投资组合优化问题，其中投资者交易多种资产类型以最大化其总投资组合价值。该投资组合由三种不同的资产类型和现金余额组成，现金余额仅指您银行账户中的资金。在每个投资期间，代理人必须选择他们购买或出售的每种资产类型的数量。代理使用可用现金余额为任何资产购买提供资金。还有与每个资产买卖行为相关的交易成本。假定每项资产的市场价格随时间变化。价格是随机抽样的，但经过建模以显示具有不同波动水平的不同行为。下图显示了三种资产类别的价格范围。

使用 Amazon SageMaker RL PlatoBlockchain 数据智能通过多维操作优化来优化投资组合。垂直搜索。人工智能。

代理人可采取的一系列行动由当前投资组合总价值、当前现金余额、持有的每种资产的数量及其当前市场价值等参数决定。对于这个问题，我们对可能的操作实施以下约束：

C1 – 代理人不能出售比他们目前拥有的更多的任何资产类型的单位。例如，如果代理人在时间 k 的投资组合中有 100 个单位的资产 3，那么此时它不能出售 120 个单位的该资产。
C2 – 资产 3 被投资者认为具有高度波动性。如果代理人持有资产 3 的总价值超过其投资组合总价值的三分之一，则不允许代理人购买资产 3。
C3 – RL 模型的消费者具有适度的风险偏好，并认为资产 2 是保守的购买。因此，当资产 2 持有的总价值超过投资组合总价值的三分之二时，代理人不得购买资产 2。
C4 – 如果代理人当前现金余额低于 1 美元，则不能购买任何资产。

搭建环境

首先，通过亚马逊SageMaker Studio。有关更多信息，请参阅使用 Amazon SageMaker Notebook 实例.

接下来，我们在自定义中实现投资组合交易问题打开人工智能健身房环境并使用 SageMaker RL 训练 RL 代理。 Gym 环境为 RL 代理提供了一个与其环境交互并生成奖励和观察的接口。投资组合交易的环境位于 trading.py 模块。我们使用 __init__ 方法来定义和初始化一些环境参数。这包括与资产买卖行为相关的交易成本、资产价格的平均值、价格差异等。我们还定义了观察和行动空间 __init__ 方法。请参阅以下代码：

def __init__(self,*args, **kwargs): self.buy_price=np.array([0.03, 0.045, 0.035]) # transaction cost per unit bought for three asset classes self.sell_price=np.array([0.025, 0.035, 0.03]) # transaction cost per unit sold for three asset classes self.mu=np.array([40,35,48]) # Mean initial asset price self.var=np.array([4,2,7]) # Variance of asset prices self.tvec=np.arange(20) # Length of each episode=20 self.sig=np.zeros((3,len(self.tvec))) self.sig[0,:]=self.mu[0]+0.4*self.tvec+4*np.cos(2*math.pi*self.tvec/16) #Functions used to model mean asset prices over time self.sig[1,:]=self.mu[1]+0.1*self.tvec self.sig[2,:]=self.mu[2]+0.3*self.tvec-6*np.sin(2*math.pi*self.tvec/7) state_bounds=state_bounds_gen() low,high= map(np.array,zip(*state_bounds.values())) # Minimum and maximum values for the state variables self.action_space = Tuple([Discrete(11),Discrete(11),Discrete(11)]) #Action space consisting of three discrete actions self.observation_space=Dict({"action_mask":Tuple([Box(0,1,shape=(11,)),Box(0,1,shape=(11,)),Box(0,1,shape=(11,))]), "trading_state":Box(low,high,dtype=np.float32)}) # Dictionary space consisting of trading state # and action mask

因为代理人在任何给定时间交易三种资产，所以代理人采取的行动使用三维动作向量表示。构成动作向量的三个离散动作代表每个资产类别中的交易，每个动作可以取 11 个可能的值。 11 个离散值编码不同的卖出、买入和持有操作，如下图所示。例如，选择一个₁=3 表示代理出售 20 个单位的资产类型 1。资产以 10 的倍数买卖。

使用 Amazon SageMaker RL PlatoBlockchain 数据智能通过多维操作优化来优化投资组合。垂直搜索。人工智能。

观察空间具有包含两个元素的字典结构。这些代表当前交易状态和当前操作掩码值。交易状态是一个 7×1 向量，由代理人当前持有的每种资产的数量、当前现金余额以及三种资产中每种资产的当前市场价值组成。动作掩码是一个 3×11 矩阵，其中掩码值对应于每个可能的动作。环境每次使用 update_mask() 方法。违反任何约束 C1:C4 的操作将分配一个零掩码。对于允许的操作，mask 的值设置为 1。请参见以下代码：

def update_mask(self): self.action_mask=[np.array([1.0]*x.n) for x in self.action_space.spaces] # Set all masks to 1 if self.balance<1: # If balance < 1, set buy masks to zero (C4) for jj in range(len(self.action_mask)): self.action_mask[jj][6:]=[0.0]*5 self.action_mask[2][6:]=[0.0]*5 if (self.prices[2]*self.assets[2]/self.total_assets)>1.0/3.0 else [1.0]*5 #(C3) self.action_mask[1][6:]=[0.0]*5 if (self.prices[1]*self.assets[1]/self.total_assets)>2.0/3.0 else [1.0]*5 #(C2) for k in range(3): cap=int(min(5,self.assets[k]/10)) self.action_mask[k][:5]=[0.0]*(5-cap)+[1.0]*cap # (C1)

在每一集的开始，一个 reset() 方法被调用以重新初始化交易状态、观察和其他参数。代理人以 1,000 美元的现金余额和零持有的资产开始每个训练阶段。每集由 20 个投资期组成。

 def reset(self): self.assets=np.zeros(3,dtype=np.float32) # Assets owned at the beginning self.balance=1000 # Initial cash balance self.t_step=0 self.prices=[np.random.normal(mu,var) for mu,var in zip(self.mu,self.var)] # Sampling market prices for the assets self.state=np.hstack([self.assets, self.balance, self.prices]) # Initial state self.total_assets=self.balance # Total portfolio value self.update_mask() # Updating action mask values reset_state={ "action_mask":list(np.float32(self.action_mask)), # Initial state "trading_state":np.float32(self.state) } return reset_state

在每个投资期开始时，智能体都会根据其记录的最新观察结果对操作进行采样，并更新其投资组合。这是建模使用 step() 方法。投资组合更新后，我们重新计算状态。动作掩码也通过调用更新 update_mask() 方法。

def step(self, action): self.t_step+=1 for index, a in enumerate (action): print("action is ",a) print("price is ",self.prices[index]) quant=abs(a-5) # Number of assets traded/10 if a<5: # Condition: Asset sale ? if 10*quant*self.sell_price[index]>self.balance: # Condition: sale cost > Balance ? quant=np.floor(self.balance/(10*self.sell_price[index])) self.assets[index]-=10*quant # Asset update self.balance=self.balance+10*quant*(self.prices[index]-self.sell_price[index]) # Balance update if a>5: if 10*quant*(self.buy_price[index]+self.prices[index])>self.balance: # Condition: Buy cost > Balance ? quant=np.floor(self.balance/(10*(self.buy_price[index]+self.prices[index]))) self.assets[index]+=10*quant # Asset update self.balance=self.balance-10*quant*(self.prices[index]+self.sell_price[index]) # Balance update else: continue self.prices=np.array([np.random.normal(mu,var) for mu,var in zip(self.sig[:,self.t_step],self.var)]) # New asset prices self.state=np.hstack([self.assets,self.balance, self.prices]) # New state self.total_assets=self.balance+np.dot(self.assets,self.prices) # Total portfolio value self.update_mask() # Mask update obs={ "action_mask": list(np.float32(self.action_mask)), "trading_state":np.float32(self.state) } if self.t_step==len(self.tvec)-1: reward=self.total_assets # reward = Total portfolio value at the end of the episode else: reward=0 done=True if self.t_step==len(self.tvec)-1 else False return obs, reward, done, {}

奖励函数被定义为最终的总投资组合价值，并在每集结束时计算，这发生在 20 个投资期之后。

遮蔽模型

在每个时间步，环境返回字典状态，表示策略的 ML 模型基于该状态对操作进行采样。参数化动作模型有助于仅对未屏蔽（屏蔽≠0）的动作进行采样。在这里，我们描述了启用动作屏蔽的参数化动作模型：

class ParametricActionsModel(TFModelV2): def __init__(self, obs_space, action_space, num_outputs, model_config, name, *args, **kwargs): super(ParametricActionsModel, self).__init__(obs_space, action_space, num_outputs, model_config, name, *args, **kwargs) self.true_obs_shape = (7,) self.action_embed_model = FullyConnectedNetwork(Box(np.finfo(np.float32).min,np.finfo(np.float32).max,shape=self.true_obs_shape), action_space, num_outputs, model_config, name, ) # action embedding model self.register_variables(self.action_embed_model.variables()) def forward(self, input_dict, state, seq_lens): action_mask= tf.cast(tf.concat(input_dict["obs"]["action_mask"], axis=1), tf.float32) # action mask values action_embedding,_ = self.action_embed_model({"obs":input_dict["obs"]["trading_state"]}) # action embeddings logit_mod = tf.maximum(tf.math.log(action_mask),tf.float32.min) # moidfiers to action logits return (action_embedding+logit_mod), state def value_function(self): return self.action_embed_model.value_function()

模型使用动作嵌入模型给出的 logits 通过 Softmax 函数对动作进行采样。该模型定义在 __init__ 方法。屏蔽行为本身是在 forward() 方法。在这里，我们将动作掩码和交易状态与从环境中检索到的字典状态分开。然后通过将交易状态传递给动作嵌入网络来获得动作嵌入。接下来，我们通过添加来修改每个动作的嵌入值 logit_mod 到逻辑。请注意 logit_mod 是动作掩码的对数函数。对于 mask = 1 的动作，mask 的对数将为零，这使得它们的嵌入不受干扰。另一方面，当mask=0时，mask的对数→ −∞。因为 Softmax(x) →0 作为 x→ −∞，这可以确保代理不会对屏蔽的操作进行采样。

让我们测试掩码是否按预期工作。我们启动一个射线训练器对象并屏蔽一些动作，看看训练器是否只对未屏蔽的动作进行采样：

import ray
import ray.rllib.agents.ppo as ppo
from ray.tune.registry import register_env
from trading import mytradingenv
from mask_model import register_actor_mask_model
import numpy as np register_actor_mask_model()
ray.shutdown()
ray.init(ignore_reinit_error=True) env_config={}
register_env("customtradingmodel", lambda env_config:mytradingenv(env_config)) TestEnvConfig = { "log_level":"WARN", "model": { "custom_model": "trading_mask" # Define the custom masking model in the config } } agent1 = ppo.PPOTrainer(config=TestEnvConfig,env="customtradingmodel")
env = agent1.env_creator('customtradingmodel')
state=env.reset()
print(state["action_mask"])

以下屏幕截图中的输出显示了初始动作掩码数组。

使用 Amazon SageMaker RL PlatoBlockchain 数据智能通过多维操作优化来优化投资组合。垂直搜索。人工智能。

现在我们修改掩码向量，以便₁, 除行动 8 外的所有选择（购买 30 单位资产 1）；为一个₂ 除行动 5 之外的所有内容（将资产 2 保持在当前数量）；和一个₃，除了动作 1 和 2（出售 40 或 30 单位的资产 3）之外的所有内容都被屏蔽：

state["action_mask"]=[np.zeros([11],dtype=np.float32) for _ in range(3)]
state['action_mask'][0][8]=1
state['action_mask'][1][5]=1
state['action_mask'][2][1:3]=[1,1]

现在我们已经修改了动作掩码数组，我们尝试对新动作进行采样。

使用 Amazon SageMaker RL PlatoBlockchain 数据智能通过多维操作优化来优化投资组合。垂直搜索。人工智能。

代理仅对那些未屏蔽的操作进行采样。这验证了动作屏蔽是否按预期工作。

成果

现在已经定义了环境和参数操作模型，我们训练代理使用 SageMaker RL 解决投资组合优化问题。我们训练 RL 代理学习最优策略以在约束 C1:C4 下最大化奖励。我们使用 SageMaker RL 中的近端策略优化 (PPO) 算法来训练 RL 代理 500,000 集。下面的训练配置展示了我们如何指定代理使用 trading_mask 作为一个 custom_model 要使用的：

 def get_experiment_config(self): return { "training": { "env": "mytradingmodel", "run": "PPO", # Use PPO algorithm "stop":{"episodes_total":500000}, # 500k training episodes "config": { "use_pytorch": False, "gamma": 0.99, "kl_coeff": 1.0, "num_sgd_iter": 20, "lr": 0.0001, "sgd_minibatch_size": 1000, "train_batch_size": 25000, "monitor": True, "model": { "custom_model": "trading_mask" # Use custom action masking model }, "num_workers": (self.num_cpus-1), "num_gpus": self.num_gpus, "batch_mode": "truncate_episodes", "explore":True, "exploration_config":{ "type":"StochasticSampling", }, }, "checkpoint_freq": 1, } }

代理人的初始现金余额为 1,000 美元。每集的平均奖励被绘制为训练时间的函数，如下图所示。回想一下，我们使用最终的总投资组合价值作为奖励。在 20 个投资期结束时，我们观察到代理人投资组合的平均值超过 3,000 美元。

使用 Amazon SageMaker RL PlatoBlockchain 数据智能通过多维操作优化来优化投资组合。垂直搜索。人工智能。

清理

除了使用 SageMaker 笔记本实例之外，我们没有提供任何基础设施。如果您通过 Studio 使用 SageMaker 笔记本实例，则可以按照中的说明将其关闭关闭打开的笔记本.

结论

在本文中，我们讨论了如何实施动作屏蔽以在 RL 模型训练中强制执行约束。通过屏蔽不允许的动作，我们使代理能够仅对有效动作进行采样，并以采样有效的方式学习最优策略。我们引入了一个投资组合优化问题，其中代理人的任务是通过在多重约束下交易三种资产类型来最大化其投资组合价值。我们演示了如何使用 Ray RLlib 为这个问题实现多维动作掩蔽。我们使用 SageMaker RL 训练了一个 RL 代理来解决受约束的投资组合优化问题。

既然您知道如何使用 SageMaker RL 和 Ray RLlib 对投资组合优化执行动作掩蔽，您可以在涉及不允许动作的其他 RL 问题上尝试它。您还可以调整本文中开发的动作屏蔽代码，以解决涉及一维动作空间的更简单问题。我们鼓励您将此处开发的方法应用于您的 RL 用例，如果您有任何问题或反馈，请告诉我们。

其他参考

有关其他信息和相关内容，请参阅以下资源：

作者简介

迪尔沙德·莱汉·阿卡姆·维蒂尔 是 AWS 专业服务的数据科学家，他与各行各业的客户合作，通过使用机器学习和云计算来解决他们的业务挑战。他拥有德克萨斯 A&M 大学学院站的航空航天工程博士学位。在闲暇时间，他喜欢看足球和阅读。

使用 Amazon SageMaker RL PlatoBlockchain 数据智能通过多维操作优化来优化投资组合。垂直搜索。人工智能。 保罗布纳兰 是亚马逊库存预测系统 (IFS) 小组的应用科学家，常驻加利福尼亚州洛杉矶。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/portfolio-optimization-through-multidimensional-action-optimization-using-amazon-sagemaker-rl/

时间戳记： 2023 年 3 月 8 日

时间戳记： 2022 年 11 月 18 日

由柏拉图重新发布

使用 Test Workbench 加快 Amazon Lex 聊天机器人开发生命周期 | 亚马逊网络服务

美国联合航空公司如何构建经济高效的光学字符识别主动学习管道 | 亚马逊网络服务

启用多区域 Amazon SageMaker 终端节点的 CI/CD

使用 Amazon Lookout for Metrics 识别关键业务异常的潜在根本原因

使用 Amazon Transcribe 自动识别多语言音频中的语言

AWS 上的自动化、可扩展且经济高效的 ML：检测夏威夷森林中的入侵澳大利亚树蕨

在 Amazon SageMaker 上使用 RStudio 创建 Amazon SageMaker 模型构建管道并部署 R 模型

使用 Amazon SageMaker Automatic Model Tuning 优化超参数

使用大型模型推理深度学习容器和 DeepSpeed 在 Amazon SageMaker 上部署 BLOOM-176B 和 OPT-30B

使用 AutoGluon-TimeSeries 轻松准确地进行预测

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

用例概述

搭建环境

遮蔽模型

成果

清理

结论

其他参考

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理