Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL

Genudgivet af Platon

Abonnenter: 0

Reinforcement learning (RL) omfatter en klasse af maskinlæringsteknikker (ML), der kan bruges til at løse sekventielle beslutningstagningsproblemer. RL-teknikker har fundet udbredte applikationer i adskillige domæner, herunder finansielle tjenester, autonom navigation, industriel kontrol og e-handel. Formålet med et RL-problem er at træne en agent, der, givet en observation fra sit miljø, vil vælge den optimale handling, der maksimerer kumulativ belønning. Løsning af et forretningsproblem med RL involverer specificering af agentens miljø, handlingsrummet, strukturen af observationer og den rigtige belønningsfunktion for målet for virksomhedens resultat. I policy-baserede RL-metoder er resultatet af modeltræning ofte en politik, som definerer en sandsynlighedsfordeling over de handlinger, der gives en observation. Den optimale politik vil maksimere de kumulative afkast opnået af agenten.

I begrænsede beslutningsproblemer har agenten til opgave at vælge de optimale handlinger under begrænsninger. Der eksisterer en særskilt klasse af sådanne problemer, hvor agenten, afhængigt af tilstanden, muligvis kun får lov til at vælge fra en delmængde af alle handlinger. De resterende søgsmål afvises.

Overvej for eksempel en autonom bil, der har 10 mulige hastighedsniveauer. Denne bil kan kun få lov til at vælge fra en delmængde af dens hastighedsniveauer, når den krydser et boligkvarter. Her er begrænsningen på hastighedsniveauerne bestemt af bilens placering. Sådanne parametriserede begrænsninger på handlingerne er almindelige i mange problemer i den virkelige verden. At løse sådanne problemer med RL kræver inkorporering af begrænsningerne i træningsprocessen. Action maskering er en tilgang til at løse RL-problemer, der involverer uantagelighedsbegrænsninger, på en stikprøveeffektiv måde. Som navnet antyder, involverer det maskering af eventuelle utilladelige handlinger ved at sætte deres stikprøvesandsynlighed til nul. Følgende figur viser RL-cyklussen med handlingsmaskering. Den består af en agent, de begrænsninger, der bestemmer handlingsmaskerne, maskerne, tilstandsovergange og de observerede belønninger.

Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

I dette indlæg beskriver vi, hvordan man implementerer handlingsmaskering med Amazon SageMaker RL ved hjælp af parametriske handlingsrum i Ray RLlib. Vi beskriver et eksempelproblem, der involverer diskrete multidimensionelle handlingsrum og flere begrænsninger. For at få adgang til den komplette notesbog for dette indlæg, se SageMaker notesbog eksempel på GitHub.

Brug case oversigt

Vi betragter et eksempel på et porteføljeoptimeringsproblem, hvor en investor handler med flere aktivtyper for at maksimere deres samlede porteføljeværdi. Porteføljen består af tre forskellige aktivtyper, og en kassebeholdning, der blot refererer til penge, du har på din bankkonto. I hver investeringsperiode skal agenten vælge mængden af hver aktivtype, som de køber eller sælger. Agenten bruger den tilgængelige kassebeholdning til at finansiere eventuelle køb af aktiver. Der er også transaktionsomkostninger forbundet med hver aktiv køb/salg handling. Markedsprisen for hvert aktiv antages at variere over tid. Priserne er stikprøven tilfældigt, men modelleret til at vise særskilt adfærd med forskellige niveauer af volatilitet. Prisintervallerne for de tre aktivklasser er vist i følgende figur.

Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Sættet af tilladte handlinger for agenten bestemmes af parametre som den aktuelle samlede porteføljeværdi, nuværende kassebeholdning, antallet af hver type aktiver, der besiddes, og deres aktuelle markedsværdi. For dette problem håndhæver vi følgende begrænsninger for mulige handlinger:

C1 – Agenten kan ikke sælge flere enheder af enhver aktivtype, end hvad de ejer i øjeblikket. For eksempel, hvis agenten har 100 enheder af aktiv 3 på tidspunktet k i deres portefølje, så kan den ikke sælge 120 enheder af det pågældende aktiv på det tidspunkt.
C2 – Aktiv 3 anses for meget volatil af investorer. Agenten har ikke tilladelse til at købe aktiv 3, hvis den samlede værdi af deres beholdninger i aktiv 3 er over en tredjedel af deres samlede porteføljeværdi.
C3 – Forbrugere af RL-modellen har en moderat risikopræference og betragter aktiv 2 som et konservativt køb. Som følge heraf har agenten ikke tilladelse til at købe aktiv 2, når den samlede værdi af aktiv 2-beholdninger krydser to tredjedele af den samlede porteføljeværdi.
C4 – Agenten kan ikke købe nogen aktiver, hvis dens nuværende kassebeholdning er mindre end $1 USD.

Indstil miljøet

For at starte skal du klargøre en SageMaker notebook-instans via Amazon SageMaker Studio. For mere information, se Brug Amazon SageMaker Notebook-forekomster.

Dernæst implementerer vi porteføljehandelsproblemet i en brugerdefineret Åbn AI Gym miljø og træne en RL-agent ved hjælp af SageMaker RL. Et Gym-miljø giver en grænseflade for RL-agenten til at interagere med sit miljø og til at generere belønninger og observationer. Miljøet for porteføljehandel er placeret i trading.py modul. Vi bruger __init__ metode til at definere og initialisere nogle miljøparametre. Dette inkluderer transaktionsomkostninger forbundet med aktivets køb/salgshandlinger, middelværdien af aktivpriserne, prisafvigelser og mere. Vi definerer også observations- og handlingsrummene i __init__ metode. Se følgende kode:

def __init__(self,*args, **kwargs): self.buy_price=np.array([0.03, 0.045, 0.035]) # transaction cost per unit bought for three asset classes self.sell_price=np.array([0.025, 0.035, 0.03]) # transaction cost per unit sold for three asset classes self.mu=np.array([40,35,48]) # Mean initial asset price self.var=np.array([4,2,7]) # Variance of asset prices self.tvec=np.arange(20) # Length of each episode=20 self.sig=np.zeros((3,len(self.tvec))) self.sig[0,:]=self.mu[0]+0.4*self.tvec+4*np.cos(2*math.pi*self.tvec/16) #Functions used to model mean asset prices over time self.sig[1,:]=self.mu[1]+0.1*self.tvec self.sig[2,:]=self.mu[2]+0.3*self.tvec-6*np.sin(2*math.pi*self.tvec/7) state_bounds=state_bounds_gen() low,high= map(np.array,zip(*state_bounds.values())) # Minimum and maximum values for the state variables self.action_space = Tuple([Discrete(11),Discrete(11),Discrete(11)]) #Action space consisting of three discrete actions self.observation_space=Dict({"action_mask":Tuple([Box(0,1,shape=(11,)),Box(0,1,shape=(11,)),Box(0,1,shape=(11,))]), "trading_state":Box(low,high,dtype=np.float32)}) # Dictionary space consisting of trading state # and action mask

Fordi agenten handler med tre aktiver på et givet tidspunkt, repræsenteres de handlinger, som agenten foretager, ved hjælp af en tredimensionel handlingsvektor. De tre diskrete handlinger, der udgør handlingsvektoren, repræsenterer handlerne i hver aktivklasse og kan hver have 11 mulige værdier. De 11 diskrete værdier koder for forskellige salgs-, købs- og holdhandlinger, som vist i den følgende figur. For eksempel at vælge en₁=3 oversættes til, at agenten sælger 20 enheder af aktivtype 1. Aktiver købes og sælges i multipla af 10.

Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Observationsrummet har en ordbogsstruktur med to elementer. Disse repræsenterer den aktuelle handelstilstand og de aktuelle handlingsmaskeværdier. Handelstilstanden er en 7×1-vektor, der består af mængderne af hvert aktiver, der i øjeblikket besiddes af agenten, den aktuelle kassebeholdning og den aktuelle markedsværdi af hvert af de tre aktiver. Handlingsmasken er en 3×11 matrix med maskeværdier svarende til hver mulig handling. Miljøet beregner maskeværdierne hver gang ved hjælp af en update_mask() metode. Handlinger, der overtræder nogen af begrænsningerne C1:C4, tildeles en nulmaske. Værdien af masken er sat til 1 for tilladelige handlinger. Se følgende kode:

def update_mask(self): self.action_mask=[np.array([1.0]*x.n) for x in self.action_space.spaces] # Set all masks to 1 if self.balance<1: # If balance < 1, set buy masks to zero (C4) for jj in range(len(self.action_mask)): self.action_mask[jj][6:]=[0.0]*5 self.action_mask[2][6:]=[0.0]*5 if (self.prices[2]*self.assets[2]/self.total_assets)>1.0/3.0 else [1.0]*5 #(C3) self.action_mask[1][6:]=[0.0]*5 if (self.prices[1]*self.assets[1]/self.total_assets)>2.0/3.0 else [1.0]*5 #(C2) for k in range(3): cap=int(min(5,self.assets[k]/10)) self.action_mask[k][:5]=[0.0]*(5-cap)+[1.0]*cap # (C1)

I begyndelsen af hver episode, en reset() metode kaldes for at geninitialisere handelstilstanden, observationer og andre parametre. Agenten starter hver træningsepisode med $1,000 USD i kontantbeholdning og nul beholdninger i aktiver. Hver episode består af 20 investeringsperioder.

 def reset(self): self.assets=np.zeros(3,dtype=np.float32) # Assets owned at the beginning self.balance=1000 # Initial cash balance self.t_step=0 self.prices=[np.random.normal(mu,var) for mu,var in zip(self.mu,self.var)] # Sampling market prices for the assets self.state=np.hstack([self.assets, self.balance, self.prices]) # Initial state self.total_assets=self.balance # Total portfolio value self.update_mask() # Updating action mask values reset_state={ "action_mask":list(np.float32(self.action_mask)), # Initial state "trading_state":np.float32(self.state) } return reset_state

I begyndelsen af hver investeringsperiode prøver agenten en handling baseret på de seneste observationer, den har registreret, og opdaterer sin portefølje. Dette er modelleret ved hjælp af en step() metode. Efter porteføljen er opdateret, genberegner vi tilstanden. Handlingsmasken opdateres også ved at kalde update_mask() fremgangsmåde.

def step(self, action): self.t_step+=1 for index, a in enumerate (action): print("action is ",a) print("price is ",self.prices[index]) quant=abs(a-5) # Number of assets traded/10 if a<5: # Condition: Asset sale ? if 10*quant*self.sell_price[index]>self.balance: # Condition: sale cost > Balance ? quant=np.floor(self.balance/(10*self.sell_price[index])) self.assets[index]-=10*quant # Asset update self.balance=self.balance+10*quant*(self.prices[index]-self.sell_price[index]) # Balance update if a>5: if 10*quant*(self.buy_price[index]+self.prices[index])>self.balance: # Condition: Buy cost > Balance ? quant=np.floor(self.balance/(10*(self.buy_price[index]+self.prices[index]))) self.assets[index]+=10*quant # Asset update self.balance=self.balance-10*quant*(self.prices[index]+self.sell_price[index]) # Balance update else: continue self.prices=np.array([np.random.normal(mu,var) for mu,var in zip(self.sig[:,self.t_step],self.var)]) # New asset prices self.state=np.hstack([self.assets,self.balance, self.prices]) # New state self.total_assets=self.balance+np.dot(self.assets,self.prices) # Total portfolio value self.update_mask() # Mask update obs={ "action_mask": list(np.float32(self.action_mask)), "trading_state":np.float32(self.state) } if self.t_step==len(self.tvec)-1: reward=self.total_assets # reward = Total portfolio value at the end of the episode else: reward=0 done=True if self.t_step==len(self.tvec)-1 else False return obs, reward, done, {}

Belønningsfunktionen defineres som den endelige samlede porteføljeværdi og beregnes i slutningen af hver episode, hvilket sker efter 20 investeringsperioder.

Maskeringsmodel

Ved hvert tidstrin returnerer miljøet ordbogstilstanden og ML-modellen, der repræsenterer politikeksemplerne, en handling baseret på denne tilstand. En parametrisk handlingsmodel letter sampling kun af de umaskerede (maske ≠ 0) handlinger. Her beskriver vi den parametriske handlingsmodel, der muliggør handlingsmaskering:

class ParametricActionsModel(TFModelV2): def __init__(self, obs_space, action_space, num_outputs, model_config, name, *args, **kwargs): super(ParametricActionsModel, self).__init__(obs_space, action_space, num_outputs, model_config, name, *args, **kwargs) self.true_obs_shape = (7,) self.action_embed_model = FullyConnectedNetwork(Box(np.finfo(np.float32).min,np.finfo(np.float32).max,shape=self.true_obs_shape), action_space, num_outputs, model_config, name, ) # action embedding model self.register_variables(self.action_embed_model.variables()) def forward(self, input_dict, state, seq_lens): action_mask= tf.cast(tf.concat(input_dict["obs"]["action_mask"], axis=1), tf.float32) # action mask values action_embedding,_ = self.action_embed_model({"obs":input_dict["obs"]["trading_state"]}) # action embeddings logit_mod = tf.maximum(tf.math.log(action_mask),tf.float32.min) # moidfiers to action logits return (action_embedding+logit_mod), state def value_function(self): return self.action_embed_model.value_function()

Handlinger samples af modellen gennem en Softmax-funktion ved hjælp af logits givet af en handlingsindlejringsmodel. Denne model er defineret i __init__ metode. Selve maskeringsadfærden er implementeret i forward() metode. Her adskiller vi handlingsmaskerne og handelstilstanden fra ordbogstilstanden hentet fra miljøet. Handlingsindlejringerne opnås derefter ved at overføre handelstilstanden til handlingsindlejringsnetværket. Dernæst ændrer vi værdien af indlejringer af hver handling ved at tilføje logit_mod til logitterne. Læg mærke til det logit_mod er en funktion af handlingsmaskens logaritme. For handlinger med maske =1 vil maskens logaritme være nul, hvilket efterlader deres indlejringer uforstyrret. På den anden side, når maske=0, logaritmen af maske → −∞. Fordi Softmax(x) →0 som x→ −∞Dette sikrer, at maskerede handlinger ikke udtages af agenten.

Lad os teste, om masken virker som forventet. Vi starter et stråletrænerobjekt og maskerer nogle af handlingerne og ser, om træneren kun prøver de umaskerede handlinger:

import ray
import ray.rllib.agents.ppo as ppo
from ray.tune.registry import register_env
from trading import mytradingenv
from mask_model import register_actor_mask_model
import numpy as np register_actor_mask_model()
ray.shutdown()
ray.init(ignore_reinit_error=True) env_config={}
register_env("customtradingmodel", lambda env_config:mytradingenv(env_config)) TestEnvConfig = { "log_level":"WARN", "model": { "custom_model": "trading_mask" # Define the custom masking model in the config } } agent1 = ppo.PPOTrainer(config=TestEnvConfig,env="customtradingmodel")
env = agent1.env_creator('customtradingmodel')
state=env.reset()
print(state["action_mask"])

Outputtet i det følgende skærmbillede viser den indledende handlingsmaske.

Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Nu modificerer vi maskevektorerne, så for a₁, alle valg undtagen handling 8 (køb 30 enheder af aktiv 1); for en₂ alt undtagen handling 5 (hold aktiv 2 på nuværende tal); og for en₃, alt undtagen handling 1 og 2 (sælg 40 eller 30 enheder af aktiv 3) er maskeret:

state["action_mask"]=[np.zeros([11],dtype=np.float32) for _ in range(3)]
state['action_mask'][0][8]=1
state['action_mask'][1][5]=1
state['action_mask'][2][1:3]=[1,1]

Nu hvor vi har ændret handlingsmaske-arrayet, prøver vi at prøve en ny handling.

Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Agenten prøver kun de handlinger, der er afsløret. Dette bekræfter, at handlingsmaskering fungerer som forventet.

Resultater

Nu hvor miljø- og parametriske handlingsmodellen er defineret, træner vi en agent til at løse porteføljeoptimeringsproblemet ved hjælp af SageMaker RL. Vi træner en RL-agent til at lære den optimale politik for at maksimere belønningen under begrænsningerne C1:C4. Vi bruger den proksimale politikoptimeringsalgoritme (PPO) i SageMaker RL til at træne RL-agenten til 500,000 episoder. Den følgende træningskonfiguration viser, hvordan vi angiver den agent, der skal bruge trading_mask som en custom_model at blive brugt:

 def get_experiment_config(self): return { "training": { "env": "mytradingmodel", "run": "PPO", # Use PPO algorithm "stop":{"episodes_total":500000}, # 500k training episodes "config": { "use_pytorch": False, "gamma": 0.99, "kl_coeff": 1.0, "num_sgd_iter": 20, "lr": 0.0001, "sgd_minibatch_size": 1000, "train_batch_size": 25000, "monitor": True, "model": { "custom_model": "trading_mask" # Use custom action masking model }, "num_workers": (self.num_cpus-1), "num_gpus": self.num_gpus, "batch_mode": "truncate_episodes", "explore":True, "exploration_config":{ "type":"StochasticSampling", }, }, "checkpoint_freq": 1, } }

Agenten starter med $1,000 USD i indledende kontantsaldo. Den gennemsnitlige belønning pr. episode er plottet som en funktion af træningstiden, som vist i det følgende diagram. Husk, at vi bruger den endelige samlede porteføljeværdi som belønning. Ved udgangen af 20 investeringsperioder observerer vi, at middelværdien af agentens portefølje er over $3,000 USD.

Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Ryd op

Vi leverede ikke nogen infrastruktur ud over brugen af en SageMaker notebook-instans. Hvis du bruger en SageMaker notebook-instans via Studio, kan du lukke den ned ved at følge instruktionerne i Luk en åben notesbog ned.

Konklusion

I dette indlæg diskuterede vi, hvordan du kan implementere handlingsmaskering for at håndhæve begrænsninger i RL-modeltræning. Ved at maskere utilladelige handlinger gør vi det muligt for agenten kun at prøve gyldige handlinger og lære den optimale politik på en prøveeffektiv måde. Vi introducerede et porteføljeoptimeringsproblem, hvor agenten har til opgave at maksimere deres porteføljeværdi ved at handle tre aktivtyper under flere begrænsninger. Vi demonstrerede, hvordan man implementerer multidimensionel handlingsmaskering til dette problem ved hjælp af Ray RLlib. Vi trænede en RL-agent til at løse problemet med begrænset porteføljeoptimering ved hjælp af SageMaker RL.

Nu hvor du ved, hvordan du udfører handlingsmaskering ved hjælp af SageMaker RL og Ray RLlib på porteføljeoptimering, kan du prøve det på andre RL-problemer, der involverer utilladelige handlinger. Du kan også tilpasse handlingsmaskeringskoden udviklet i dette indlæg til enklere problemer, der involverer et-dimensionelt handlingsrum. Vi opfordrer dig til at anvende den tilgang, der er udviklet her, på dine RL-brugssager og give os besked, hvis du har spørgsmål eller feedback.

Yderligere referencer

For yderligere oplysninger og relateret indhold, se følgende ressourcer:

Om forfatterne

Dilshad Raihan Akkam Veettil er en Data Scientist med AWS Professional Services, hvor han engagerer sig med kunder på tværs af brancher for at løse deres forretningsmæssige udfordringer gennem brug af machine learning og cloud computing. Han har en ph.d.-grad i rumfartsteknik fra Texas A&M University, College Station. I sin fritid nyder han at se fodbold og læse.

Porteføljeoptimering gennem multidimensionel handlingsoptimering ved hjælp af Amazon SageMaker RL PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Paul Budnarain er en Applied Scientist i Amazons Inventory Forecasting Systems (IFS) gruppe og er baseret i Los Angeles, Californien.