Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL

Återutgiven av Platon

anhängare: 0

Reinforcement learning (RL) omfattar en klass av maskininlärningstekniker (ML) som kan användas för att lösa sekventiella beslutsfattande problem. RL-tekniker har hittat utbredda tillämpningar inom många domäner, inklusive finansiella tjänster, autonom navigering, industriell kontroll och e-handel. Målet med ett RL-problem är att träna en agent som, givet en observation från sin omgivning, kommer att välja den optimala åtgärden som maximerar kumulativ belöning. Att lösa ett affärsproblem med RL innebär att specificera agentens miljö, handlingsutrymmet, strukturen för observationer och rätt belöningsfunktion för målet för affärsresultatet. I policybaserade RL-metoder är resultatet av modellträning ofta en policy, som definierar en sannolikhetsfördelning över de åtgärder som ges en observation. Den optimala policyn kommer att maximera den kumulativa avkastningen som agenten erhåller.

I begränsade beslutsfattande problem har agenten i uppdrag att välja de optimala åtgärderna under restriktioner. En distinkt klass av sådana problem existerar där agenten, beroende på tillståndet, endast tillåts välja från en delmängd av alla åtgärder. De återstående talan kan inte tas upp till sakprövning.

Tänk till exempel på en autonom bil som har 10 möjliga hastighetsnivåer. Den här bilen får endast tillåtas att välja från en delmängd av dess hastighetsnivåer när den korsar ett bostadsområde. Här bestäms begränsningen av hastighetsnivåerna av bilens placering. Sådana parametriserade begränsningar för åtgärderna är vanliga i många verkliga problem. Att lösa sådana problem med RL kräver att man införlivar begränsningarna i utbildningsprocessen. Actionmaskering är ett tillvägagångssätt för att lösa RL-problem som involverar otillåtlighetsbegränsningar på ett stickprovseffektivt sätt. Som namnet antyder handlar det om att maskera alla otillåtna handlingar genom att sätta deras provtagningssannolikhet till noll. Följande figur visar RL-cykeln med åtgärdsmaskering. Den består av en agent, de begränsningar som bestämmer åtgärdsmaskerna, maskerna, tillståndsövergångar och de observerade belöningarna.

Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

I det här inlägget beskriver vi hur man implementerar actionmaskering med Amazon SageMaker RL använda parametriska åtgärdsmellanslag i Ray RLlib. Vi beskriver ett exempelproblem som involverar diskreta flerdimensionella handlingsutrymmen och flera begränsningar. För att komma åt hela anteckningsboken för detta inlägg, se SageMaker anteckningsboksexempel på GitHub.

Använda fallöversikt

Vi betraktar ett exempel på portföljoptimeringsproblem där en investerare handlar med flera tillgångstyper för att maximera deras totala portföljvärde. Portföljen består av tre olika tillgångstyper, och ett kassasaldo som helt enkelt refererar till pengar du har på ditt bankkonto. Under varje investeringsperiod måste agenten välja mängden av varje tillgångstyp som de köper eller säljer. Agenten använder det tillgängliga kassasaldot för att finansiera eventuella köp av tillgångar. Det finns också transaktionskostnader förknippade med varje köp-/säljåtgärd av tillgångar. Marknadspriset för varje tillgång antas variera över tiden. Priserna tas slumpmässigt men modelleras för att visa distinkt beteende med olika nivåer av volatilitet. Prisintervallen för de tre tillgångsslagen visas i följande figur.

Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Uppsättningen av tillåtna åtgärder för agenten bestäms av parametrar som det aktuella totala portföljvärdet, aktuellt kassasaldo, antalet av varje typ av tillgångar som innehas och deras aktuella marknadsvärde. För detta problem tillämpar vi följande begränsningar för möjliga åtgärder:

C1 – Agenten kan inte sälja fler enheter av någon tillgångstyp än vad de för närvarande äger. Till exempel, om agenten har 100 enheter av tillgång 3 vid tidpunkten k i sin portfölj, kan den inte sälja 120 enheter av den tillgången vid den tidpunkten.
C2 – Tillgång 3 anses vara mycket volatil av investerare. Agenten får inte köpa tillgång 3 om det totala värdet av deras innehav i tillgång 3 är över en tredjedel av deras totala portföljvärde.
C3 – Konsumenter av RL-modellen har en måttlig riskpreferens och betraktar tillgång 2 som ett konservativt köp. Som ett resultat får agenten inte köpa tillgång 2 när det totala värdet av tillgång 2-innehav överstiger två tredjedelar av det totala portföljvärdet.
C4 – Agenten kan inte köpa några tillgångar om dess nuvarande kassasaldo är mindre än $1 USD.

Ställ in miljön

För att börja, tillhandahålla en SageMaker anteckningsbok-instans via Amazon SageMaker Studio. För mer information, se Använd Amazon SageMaker Notebook-instanser.

Därefter implementerar vi portföljhandelsproblemet i en anpassad Öppna AI Gym miljö och utbilda en RL-agent med SageMaker RL. En gymmiljö tillhandahåller ett gränssnitt för RL-agenten att interagera med sin miljö och generera belöningar och observationer. Miljön för portföljhandeln ligger i trading.py modul. Vi använder __init__ metod för att definiera och initiera vissa miljöparametrar. Detta inkluderar transaktionskostnader förknippade med köp-/säljåtgärder för tillgångar, medelvärdet av tillgångspriserna, prisavvikelser och mer. Vi definierar också observations- och handlingsutrymmen i __init__ metod. Se följande kod:

def __init__(self,*args, **kwargs): self.buy_price=np.array([0.03, 0.045, 0.035]) # transaction cost per unit bought for three asset classes self.sell_price=np.array([0.025, 0.035, 0.03]) # transaction cost per unit sold for three asset classes self.mu=np.array([40,35,48]) # Mean initial asset price self.var=np.array([4,2,7]) # Variance of asset prices self.tvec=np.arange(20) # Length of each episode=20 self.sig=np.zeros((3,len(self.tvec))) self.sig[0,:]=self.mu[0]+0.4*self.tvec+4*np.cos(2*math.pi*self.tvec/16) #Functions used to model mean asset prices over time self.sig[1,:]=self.mu[1]+0.1*self.tvec self.sig[2,:]=self.mu[2]+0.3*self.tvec-6*np.sin(2*math.pi*self.tvec/7) state_bounds=state_bounds_gen() low,high= map(np.array,zip(*state_bounds.values())) # Minimum and maximum values for the state variables self.action_space = Tuple([Discrete(11),Discrete(11),Discrete(11)]) #Action space consisting of three discrete actions self.observation_space=Dict({"action_mask":Tuple([Box(0,1,shape=(11,)),Box(0,1,shape=(11,)),Box(0,1,shape=(11,))]), "trading_state":Box(low,high,dtype=np.float32)}) # Dictionary space consisting of trading state # and action mask

Eftersom agenten handlar med tre tillgångar vid varje given tidpunkt, representeras de åtgärder som vidtas av agenten med hjälp av en tredimensionell handlingsvektor. De tre diskreta åtgärderna som utgör actionvektorn representerar affärerna i varje tillgångsklass och kan var och en ta 11 möjliga värden. De 11 diskreta värdena kodar för olika sälj-, köp- och hållåtgärder, som visas i följande figur. Till exempel att välja en₁=3 översätts till att agenten säljer 20 enheter av tillgångstyp 1. Tillgångar köps och säljs i multiplar av 10.

Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Observationsutrymmet har en ordboksstruktur med två element. Dessa representerar det aktuella handelsläget och de aktuella åtgärdsmaskvärdena. Handelstillståndet är en 7×1-vektor som består av kvantiteterna av varje tillgång som för närvarande innehas av agenten, aktuellt kassasaldo och det aktuella marknadsvärdet för var och en av de tre tillgångarna. Åtgärdsmasken är en 3×11-matris med maskvärden som motsvarar varje möjlig åtgärd. Miljön beräknar maskvärdena varje gång med hjälp av en update_mask() metod. Åtgärder som bryter mot någon av begränsningarna C1:C4 tilldelas en nollmask. Värdet på masken är satt till 1 för tillåtna åtgärder. Se följande kod:

def update_mask(self): self.action_mask=[np.array([1.0]*x.n) for x in self.action_space.spaces] # Set all masks to 1 if self.balance<1: # If balance < 1, set buy masks to zero (C4) for jj in range(len(self.action_mask)): self.action_mask[jj][6:]=[0.0]*5 self.action_mask[2][6:]=[0.0]*5 if (self.prices[2]*self.assets[2]/self.total_assets)>1.0/3.0 else [1.0]*5 #(C3) self.action_mask[1][6:]=[0.0]*5 if (self.prices[1]*self.assets[1]/self.total_assets)>2.0/3.0 else [1.0]*5 #(C2) for k in range(3): cap=int(min(5,self.assets[k]/10)) self.action_mask[k][:5]=[0.0]*(5-cap)+[1.0]*cap # (C1)

I början av varje avsnitt, a reset() Metoden anropas för att återinitiera handelsstatus, observationer och andra parametrar. Agenten startar varje träningsavsnitt med $1,000 20 USD i kassasaldo och noll innehav i tillgångar. Varje avsnitt består av XNUMX investeringsperioder.

 def reset(self): self.assets=np.zeros(3,dtype=np.float32) # Assets owned at the beginning self.balance=1000 # Initial cash balance self.t_step=0 self.prices=[np.random.normal(mu,var) for mu,var in zip(self.mu,self.var)] # Sampling market prices for the assets self.state=np.hstack([self.assets, self.balance, self.prices]) # Initial state self.total_assets=self.balance # Total portfolio value self.update_mask() # Updating action mask values reset_state={ "action_mask":list(np.float32(self.action_mask)), # Initial state "trading_state":np.float32(self.state) } return reset_state

I början av varje investeringsperiod provar agenten en åtgärd baserat på de senaste observationerna som den registrerat och uppdaterar sin portfölj. Detta modelleras med hjälp av en step() metod. Efter att portföljen är uppdaterad räknar vi om tillståndet. Åtgärdsmasken uppdateras också genom att anropa update_mask() metod.

def step(self, action): self.t_step+=1 for index, a in enumerate (action): print("action is ",a) print("price is ",self.prices[index]) quant=abs(a-5) # Number of assets traded/10 if a<5: # Condition: Asset sale ? if 10*quant*self.sell_price[index]>self.balance: # Condition: sale cost > Balance ? quant=np.floor(self.balance/(10*self.sell_price[index])) self.assets[index]-=10*quant # Asset update self.balance=self.balance+10*quant*(self.prices[index]-self.sell_price[index]) # Balance update if a>5: if 10*quant*(self.buy_price[index]+self.prices[index])>self.balance: # Condition: Buy cost > Balance ? quant=np.floor(self.balance/(10*(self.buy_price[index]+self.prices[index]))) self.assets[index]+=10*quant # Asset update self.balance=self.balance-10*quant*(self.prices[index]+self.sell_price[index]) # Balance update else: continue self.prices=np.array([np.random.normal(mu,var) for mu,var in zip(self.sig[:,self.t_step],self.var)]) # New asset prices self.state=np.hstack([self.assets,self.balance, self.prices]) # New state self.total_assets=self.balance+np.dot(self.assets,self.prices) # Total portfolio value self.update_mask() # Mask update obs={ "action_mask": list(np.float32(self.action_mask)), "trading_state":np.float32(self.state) } if self.t_step==len(self.tvec)-1: reward=self.total_assets # reward = Total portfolio value at the end of the episode else: reward=0 done=True if self.t_step==len(self.tvec)-1 else False return obs, reward, done, {}

Belöningsfunktionen definieras som det slutliga totala portföljvärdet och beräknas i slutet av varje avsnitt, vilket sker efter 20 investeringsperioder.

Maskerande modell

Vid varje tidssteg returnerar miljön ordbokstillståndet och ML-modellen som representerar policyproven en åtgärd baserad på detta tillstånd. En parametrisk handlingsmodell underlättar sampling av endast de omaskerade (mask ≠ 0) åtgärderna. Här beskriver vi den parametriska åtgärdsmodellen som möjliggör åtgärdsmaskering:

class ParametricActionsModel(TFModelV2): def __init__(self, obs_space, action_space, num_outputs, model_config, name, *args, **kwargs): super(ParametricActionsModel, self).__init__(obs_space, action_space, num_outputs, model_config, name, *args, **kwargs) self.true_obs_shape = (7,) self.action_embed_model = FullyConnectedNetwork(Box(np.finfo(np.float32).min,np.finfo(np.float32).max,shape=self.true_obs_shape), action_space, num_outputs, model_config, name, ) # action embedding model self.register_variables(self.action_embed_model.variables()) def forward(self, input_dict, state, seq_lens): action_mask= tf.cast(tf.concat(input_dict["obs"]["action_mask"], axis=1), tf.float32) # action mask values action_embedding,_ = self.action_embed_model({"obs":input_dict["obs"]["trading_state"]}) # action embeddings logit_mod = tf.maximum(tf.math.log(action_mask),tf.float32.min) # moidfiers to action logits return (action_embedding+logit_mod), state def value_function(self): return self.action_embed_model.value_function()

Åtgärder samplas av modellen genom en Softmax-funktion med hjälp av logits som ges av en åtgärdsinbäddningsmodell. Denna modell definieras i __init__ metod. Själva maskeringsbeteendet implementeras i forward() metod. Här separerar vi åtgärdsmaskerna och handelstillståndet från ordbokstillståndet som hämtas från miljön. Åtgärdsinbäddningarna erhålls sedan genom att överföra handelstillståndet till åtgärdsinbäddningsnätverket. Därefter ändrar vi värdet på inbäddningar av varje åtgärd genom att lägga till logit_mod till logiterna. Lägg märke till att logit_mod är en funktion av logaritmen för åtgärdsmasken. För åtgärder med mask =1 kommer maskens logaritm att vara noll, vilket lämnar deras inbäddningar oberörd. Å andra sidan, när mask=0, logaritmen för mask → −∞. Därför att Softmax(x) →0 som x→ −∞, detta säkerställer att maskerade åtgärder inte samplas av agenten.

Låt oss testa om masken fungerar som förväntat. Vi initierar ett stråltränarobjekt och maskerar några av åtgärderna och ser om tränaren endast samplar de omaskerade åtgärderna:

import ray
import ray.rllib.agents.ppo as ppo
from ray.tune.registry import register_env
from trading import mytradingenv
from mask_model import register_actor_mask_model
import numpy as np register_actor_mask_model()
ray.shutdown()
ray.init(ignore_reinit_error=True) env_config={}
register_env("customtradingmodel", lambda env_config:mytradingenv(env_config)) TestEnvConfig = { "log_level":"WARN", "model": { "custom_model": "trading_mask" # Define the custom masking model in the config } } agent1 = ppo.PPOTrainer(config=TestEnvConfig,env="customtradingmodel")
env = agent1.env_creator('customtradingmodel')
state=env.reset()
print(state["action_mask"])

Utdata i följande skärmdump visar den initiala actionmaskarrayen.

Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Nu modifierar vi maskvektorerna så att för a₁, alla val utom åtgärd 8 (köp 30 enheter av tillgång 1); för en₂ allt utom åtgärd 5 (håll tillgång 2 vid nuvarande nummer); och för en₃, allt utom åtgärder 1 och 2 (sälj 40 eller 30 enheter av tillgång 3) är maskerade:

state["action_mask"]=[np.zeros([11],dtype=np.float32) for _ in range(3)]
state['action_mask'][0][8]=1
state['action_mask'][1][5]=1
state['action_mask'][2][1:3]=[1,1]

Nu när vi har modifierat åtgärdsmaskarrayen försöker vi prova en ny åtgärd.

Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Agenten samplar endast de åtgärder som är demaskerade. Detta verifierar att åtgärdsmaskeringen fungerar som förväntat.

Resultat

Nu när miljö- och parametriska åtgärdsmodellen har definierats utbildar vi en agent för att lösa portföljoptimeringsproblemet med SageMaker RL. Vi utbildar en RL-agent för att lära sig den optimala policyn för att maximera belöningen under begränsningarna C1:C4. Vi använder algoritmen för proximal policyoptimering (PPO) i SageMaker RL för att träna RL-agenten för 500,000 XNUMX episoder. Följande träningskonfiguration visar hur vi anger vilken agent som ska använda trading_mask som en custom_model att användas:

 def get_experiment_config(self): return { "training": { "env": "mytradingmodel", "run": "PPO", # Use PPO algorithm "stop":{"episodes_total":500000}, # 500k training episodes "config": { "use_pytorch": False, "gamma": 0.99, "kl_coeff": 1.0, "num_sgd_iter": 20, "lr": 0.0001, "sgd_minibatch_size": 1000, "train_batch_size": 25000, "monitor": True, "model": { "custom_model": "trading_mask" # Use custom action masking model }, "num_workers": (self.num_cpus-1), "num_gpus": self.num_gpus, "batch_mode": "truncate_episodes", "explore":True, "exploration_config":{ "type":"StochasticSampling", }, }, "checkpoint_freq": 1, } }

Agenten börjar med $1,000 20 USD i initialt kassasaldo. Den genomsnittliga belöningen per avsnitt plottas som en funktion av träningstiden, som visas i följande diagram. Kom ihåg att vi använder det slutliga totala portföljvärdet som belöning. Vid slutet av 3,000 investeringsperioder observerar vi att medelvärdet av agentens portfölj är över XNUMX XNUMX USD.

Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Städa upp

Vi tillhandahåller ingen infrastruktur utöver användningen av en SageMaker-anteckningsbok-instans. Om du använder en SageMaker notebook-instans via Studio kan du stänga av den genom att följa instruktionerna i Stäng av en öppen anteckningsbok.

Slutsats

I det här inlägget diskuterade vi hur du kan implementera åtgärdsmaskering för att upprätthålla begränsningar i RL-modellutbildning. Genom att maskera otillåtna åtgärder gör vi det möjligt för agenten att endast ta prov på giltiga åtgärder och lära sig den optimala policyn på ett exempeleffektivt sätt. Vi introducerade ett portföljoptimeringsproblem där agenten har till uppgift att maximera sitt portföljvärde genom att handla tre tillgångstyper under flera begränsningar. Vi visade hur man implementerar flerdimensionell åtgärdsmaskering för detta problem med Ray RLlib. Vi utbildade en RL-agent för att lösa problemet med begränsad portföljoptimering med SageMaker RL.

Nu när du vet hur du utför åtgärdsmaskering med SageMaker RL och Ray RLlib för portföljoptimering, kan du prova det på andra RL-problem som involverar otillåtna åtgärder. Du kan också anpassa åtgärdsmaskeringskoden som utvecklats i det här inlägget för enklare problem som involverar endimensionell handlingsrymd. Vi uppmuntrar dig att tillämpa det tillvägagångssätt som utvecklats här på dina RL-användningsfall och låt oss veta om du har några frågor eller feedback.

Ytterligare referenser

För ytterligare information och relaterat innehåll, se följande resurser:

Om författarna

Dilshad Raihan Akkam Veettil är en datavetare med AWS Professional Services, där han engagerar sig med kunder i olika branscher för att lösa deras affärsutmaningar genom användning av maskininlärning och molnberäkning. Han har en doktorsexamen i flygteknik från Texas A&M University, College Station. På fritiden tycker han om att titta på fotboll och läsa.

Portföljoptimering genom multidimensionell handlingsoptimering med Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Paul Budnarain är en tillämpad forskare i Amazons grupp för Inventory Forecasting Systems (IFS) och är baserad i Los Angeles, Kalifornien.