Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL

Publisert av Platon

Følgere: 0

Forsterkende læring (RL) omfatter en klasse med maskinlæringsteknikker (ML) som kan brukes til å løse sekvensielle beslutningsproblemer. RL-teknikker har funnet utbredte applikasjoner i en rekke domener, inkludert finansielle tjenester, autonom navigasjon, industriell kontroll og e-handel. Målet med et RL-problem er å trene en agent som, gitt en observasjon fra omgivelsene, vil velge den optimale handlingen som maksimerer kumulativ belønning. Å løse et forretningsproblem med RL innebærer å spesifisere agentens miljø, handlingsrommet, strukturen til observasjoner og den riktige belønningsfunksjonen for målet for forretningsresultatet. I policy-baserte RL-metoder er resultatet av modelltrening ofte en policy, som definerer en sannsynlighetsfordeling over handlingene gitt en observasjon. Den optimale policyen vil maksimere den kumulative avkastningen oppnådd av agenten.

I begrensede beslutningsproblemer har agenten i oppgave å velge de optimale handlingene under begrensninger. En distinkt klasse av slike problemer eksisterer der, avhengig av staten, kan agenten bare ha lov til å velge fra en undergruppe av alle handlinger. De resterende søksmålene er avvist.

Vurder for eksempel en autonom bil som har 10 mulige hastighetsnivåer. Denne bilen kan bare få lov til å velge fra et undersett av hastighetsnivåene når den krysser et boligområde. Her er begrensningen på hastighetsnivåene bestemt av plasseringen til bilen. Slike parameteriserte begrensninger på handlingene er vanlige i mange problemer i den virkelige verden. Å løse slike problemer med RL krever å inkludere begrensningene i opplæringsprosessen. Action maskering er en tilnærming for å løse RL-problemer som involverer avvisningsbegrensninger på en prøveeffektiv måte. Som navnet antyder, innebærer det å maskere eventuelle uakseptable handlinger ved å sette samplingssannsynligheten til null. Følgende figur viser RL-syklusen med handlingsmaskering. Den består av en agent, begrensningene som bestemmer handlingsmaskene, maskene, tilstandsovergangene og de observerte belønningene.

Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I dette innlegget beskriver vi hvordan du implementerer handlingsmaskering med Amazon SageMaker RL bruke parametriske handlingsrom i Ray RLlib. Vi beskriver et eksempelproblem som involverer diskrete flerdimensjonale handlingsrom og flere begrensninger. For å få tilgang til hele notatboken for dette innlegget, se Eksempel på SageMaker-notatbok på GitHub.

Bruk saksoversikt

Vi tar for oss et eksempel på porteføljeoptimeringsproblem der en investor handler med flere aktivatyper for å maksimere deres totale porteføljeverdi. Porteføljen består av tre ulike aktivatyper, og en kontantbeholdning som rett og slett refererer til penger du har på bankkontoen din. I løpet av hver investeringsperiode må agenten velge mengden av hver aktivatype som de kjøper eller selger. Agenten bruker den tilgjengelige kontantsaldoen til å finansiere eventuelle kjøp av eiendeler. Det er også transaksjonskostnader knyttet til hver aktiva kjøp/salg handling. Markedsprisen på hver eiendel antas å variere over tid. Prisene er utvalgt tilfeldig, men modellert for å vise distinkt oppførsel med ulike nivåer av volatilitet. Prisklassene for de tre aktivaklassene er vist i følgende figur.

Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Settet med tillatte handlinger for agenten bestemmes av parametere som gjeldende totale porteføljeverdi, gjeldende kontantsaldo, antallet av hver type eiendeler som holdes og deres nåværende markedsverdi. For dette problemet håndhever vi følgende begrensninger for mulige handlinger:

C1 – Agenten kan ikke selge flere enheter av en hvilken som helst type aktiva enn det de eier i dag. For eksempel, hvis agenten har 100 enheter av aktiva 3 på tidspunktet k i sin portefølje, kan den ikke selge 120 enheter av den eiendelen på det tidspunktet.
C2 – Eiendel 3 anses som svært volatil av investorer. Agenten har ikke lov til å kjøpe aktiva 3 hvis den totale verdien av deres beholdning i aktiva 3 er over en tredjedel av deres totale porteføljeverdi.
C3 – Forbrukere av RL-modellen har en moderat risikopreferanse og anser aktiva 2 som et konservativt kjøp. Som et resultat har ikke agenten lov til å kjøpe aktiva 2 når den totale verdien av aktiva 2-beholdningen krysser to tredjedeler av den totale porteføljeverdien.
C4 – Agenten kan ikke kjøpe noen eiendeler hvis den nåværende kontantsaldoen er mindre enn $1 USD.

Sett opp miljøet

For å starte, klargjør en SageMaker notatbokforekomst via Amazon SageMaker Studio. For mer informasjon, se Bruk Amazon SageMaker Notebook-forekomster.

Deretter implementerer vi porteføljehandelsproblemet i en tilpasset Åpne AI Gym miljø og trene en RL-agent ved å bruke SageMaker RL. Et treningsmiljø gir et grensesnitt for RL-agenten for å samhandle med omgivelsene og generere belønninger og observasjoner. Miljøet for porteføljehandel er lokalisert i trading.py modul. Vi bruker __init__ metode for å definere og initialisere noen miljøparametere. Dette inkluderer transaksjonskostnader knyttet til kjøp/salg av eiendeler, gjennomsnittlig verdi av eiendelsprisene, prisavvik og mer. Vi definerer også observasjons- og handlingsrommene i __init__ metode. Se følgende kode:

def __init__(self,*args, **kwargs): self.buy_price=np.array([0.03, 0.045, 0.035]) # transaction cost per unit bought for three asset classes self.sell_price=np.array([0.025, 0.035, 0.03]) # transaction cost per unit sold for three asset classes self.mu=np.array([40,35,48]) # Mean initial asset price self.var=np.array([4,2,7]) # Variance of asset prices self.tvec=np.arange(20) # Length of each episode=20 self.sig=np.zeros((3,len(self.tvec))) self.sig[0,:]=self.mu[0]+0.4*self.tvec+4*np.cos(2*math.pi*self.tvec/16) #Functions used to model mean asset prices over time self.sig[1,:]=self.mu[1]+0.1*self.tvec self.sig[2,:]=self.mu[2]+0.3*self.tvec-6*np.sin(2*math.pi*self.tvec/7) state_bounds=state_bounds_gen() low,high= map(np.array,zip(*state_bounds.values())) # Minimum and maximum values for the state variables self.action_space = Tuple([Discrete(11),Discrete(11),Discrete(11)]) #Action space consisting of three discrete actions self.observation_space=Dict({"action_mask":Tuple([Box(0,1,shape=(11,)),Box(0,1,shape=(11,)),Box(0,1,shape=(11,))]), "trading_state":Box(low,high,dtype=np.float32)}) # Dictionary space consisting of trading state # and action mask

Fordi agenten handler med tre eiendeler til enhver tid, blir handlingene utført av agenten representert ved hjelp av en tredimensjonal handlingsvektor. De tre diskrete handlingene som utgjør handlingsvektoren representerer handlene i hver aktivaklasse og kan hver ha 11 mulige verdier. De 11 diskrete verdiene koder for forskjellige salgs-, kjøps- og hold-handlinger, som vist i følgende figur. For eksempel å velge en₁=3 betyr at agenten selger 20 enheter av aktivatype 1. Eiendeler kjøpes og selges i multipler av 10.

Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Observasjonsrommet har en ordbokstruktur med to elementer. Disse representerer gjeldende handelstilstand og gjeldende handlingsmaskeverdier. Handelstilstanden er en 7×1-vektor som består av mengdene av hver eiendel som for tiden innehas av agenten, gjeldende kontantsaldo og gjeldende markedsverdi av hver av de tre eiendelene. Handlingsmasken er en 3×11 matrise med maskeverdier som tilsvarer hver mulig handling. Miljøet beregner maskeverdiene hver gang ved hjelp av en update_mask() metode. Handlinger som bryter med noen av begrensningene C1:C4 blir tildelt en nullmaske. Verdien av masken er satt til 1 for tillatte handlinger. Se følgende kode:

def update_mask(self): self.action_mask=[np.array([1.0]*x.n) for x in self.action_space.spaces] # Set all masks to 1 if self.balance<1: # If balance < 1, set buy masks to zero (C4) for jj in range(len(self.action_mask)): self.action_mask[jj][6:]=[0.0]*5 self.action_mask[2][6:]=[0.0]*5 if (self.prices[2]*self.assets[2]/self.total_assets)>1.0/3.0 else [1.0]*5 #(C3) self.action_mask[1][6:]=[0.0]*5 if (self.prices[1]*self.assets[1]/self.total_assets)>2.0/3.0 else [1.0]*5 #(C2) for k in range(3): cap=int(min(5,self.assets[k]/10)) self.action_mask[k][:5]=[0.0]*(5-cap)+[1.0]*cap # (C1)

I begynnelsen av hver episode, a reset() metoden kalles for å reinitialisere handelstilstanden, observasjoner og andre parametere. Agenten starter hver treningsepisode med $1,000 USD i kontantsaldo og null beholdning i eiendeler. Hver episode består av 20 investeringsperioder.

 def reset(self): self.assets=np.zeros(3,dtype=np.float32) # Assets owned at the beginning self.balance=1000 # Initial cash balance self.t_step=0 self.prices=[np.random.normal(mu,var) for mu,var in zip(self.mu,self.var)] # Sampling market prices for the assets self.state=np.hstack([self.assets, self.balance, self.prices]) # Initial state self.total_assets=self.balance # Total portfolio value self.update_mask() # Updating action mask values reset_state={ "action_mask":list(np.float32(self.action_mask)), # Initial state "trading_state":np.float32(self.state) } return reset_state

Ved begynnelsen av hver investeringsperiode prøver agenten en handling basert på de siste observasjonene den registrerte og oppdaterer porteføljen. Dette er modellert ved hjelp av en step() metode. Etter at porteføljen er oppdatert, regner vi om tilstanden. Handlingsmasken oppdateres også ved å ringe til update_mask() metoden.

def step(self, action): self.t_step+=1 for index, a in enumerate (action): print("action is ",a) print("price is ",self.prices[index]) quant=abs(a-5) # Number of assets traded/10 if a<5: # Condition: Asset sale ? if 10*quant*self.sell_price[index]>self.balance: # Condition: sale cost > Balance ? quant=np.floor(self.balance/(10*self.sell_price[index])) self.assets[index]-=10*quant # Asset update self.balance=self.balance+10*quant*(self.prices[index]-self.sell_price[index]) # Balance update if a>5: if 10*quant*(self.buy_price[index]+self.prices[index])>self.balance: # Condition: Buy cost > Balance ? quant=np.floor(self.balance/(10*(self.buy_price[index]+self.prices[index]))) self.assets[index]+=10*quant # Asset update self.balance=self.balance-10*quant*(self.prices[index]+self.sell_price[index]) # Balance update else: continue self.prices=np.array([np.random.normal(mu,var) for mu,var in zip(self.sig[:,self.t_step],self.var)]) # New asset prices self.state=np.hstack([self.assets,self.balance, self.prices]) # New state self.total_assets=self.balance+np.dot(self.assets,self.prices) # Total portfolio value self.update_mask() # Mask update obs={ "action_mask": list(np.float32(self.action_mask)), "trading_state":np.float32(self.state) } if self.t_step==len(self.tvec)-1: reward=self.total_assets # reward = Total portfolio value at the end of the episode else: reward=0 done=True if self.t_step==len(self.tvec)-1 else False return obs, reward, done, {}

Belønningsfunksjonen er definert som den endelige totale porteføljeverdien og beregnes ved slutten av hver episode, som skjer etter 20 investeringsperioder.

Maskeringsmodell

Ved hvert tidstrinn returnerer miljøet ordboktilstanden og ML-modellen som representerer policyeksemplene en handling basert på denne tilstanden. En parametrisk handlingsmodell forenkler prøvetaking av kun de demaskerte (maske ≠ 0) handlingene. Her beskriver vi den parametriske handlingsmodellen som muliggjør handlingsmaskering:

class ParametricActionsModel(TFModelV2): def __init__(self, obs_space, action_space, num_outputs, model_config, name, *args, **kwargs): super(ParametricActionsModel, self).__init__(obs_space, action_space, num_outputs, model_config, name, *args, **kwargs) self.true_obs_shape = (7,) self.action_embed_model = FullyConnectedNetwork(Box(np.finfo(np.float32).min,np.finfo(np.float32).max,shape=self.true_obs_shape), action_space, num_outputs, model_config, name, ) # action embedding model self.register_variables(self.action_embed_model.variables()) def forward(self, input_dict, state, seq_lens): action_mask= tf.cast(tf.concat(input_dict["obs"]["action_mask"], axis=1), tf.float32) # action mask values action_embedding,_ = self.action_embed_model({"obs":input_dict["obs"]["trading_state"]}) # action embeddings logit_mod = tf.maximum(tf.math.log(action_mask),tf.float32.min) # moidfiers to action logits return (action_embedding+logit_mod), state def value_function(self): return self.action_embed_model.value_function()

Handlinger samples av modellen gjennom en Softmax-funksjon ved å bruke logittene gitt av en handlingsmodell. Denne modellen er definert i __init__ metode. Selve maskeringsatferden er implementert i forward() metode. Her skiller vi handlingsmaskene og handelstilstanden fra ordboktilstanden hentet fra miljøet. Handlingsinnbyggingene oppnås deretter ved å overføre handelstilstanden til handlingsinnbyggingsnettverket. Deretter endrer vi verdien av innebygginger av hver handling ved å legge til logit_mod til logittene. Legg merke til det logit_mod er en funksjon av logaritmen til handlingsmasken. For handlinger med maske =1, vil logaritmen til maske være null, noe som etterlater innbyggingen deres uforstyrret. På den annen side, når maske=0, logaritmen til maske → −∞. Fordi Softmax(x) →0 som x→ −∞, sørger dette for at maskerte handlinger ikke blir samplet av agenten.

La oss teste om masken fungerer som forventet. Vi setter i gang et stråletrenerobjekt og maskerer noen av handlingene og ser om treneren prøver bare de demaskerte handlingene:

import ray
import ray.rllib.agents.ppo as ppo
from ray.tune.registry import register_env
from trading import mytradingenv
from mask_model import register_actor_mask_model
import numpy as np register_actor_mask_model()
ray.shutdown()
ray.init(ignore_reinit_error=True) env_config={}
register_env("customtradingmodel", lambda env_config:mytradingenv(env_config)) TestEnvConfig = { "log_level":"WARN", "model": { "custom_model": "trading_mask" # Define the custom masking model in the config } } agent1 = ppo.PPOTrainer(config=TestEnvConfig,env="customtradingmodel")
env = agent1.env_creator('customtradingmodel')
state=env.reset()
print(state["action_mask"])

Utdataene i det følgende skjermbildet viser den første handlingsmaske-arrayen.

Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Nå modifiserer vi maskevektorene slik at for a₁, alle valg unntatt handling 8 (kjøp 30 enheter av aktiva 1); for en₂ alt unntatt handling 5 (hold aktiva 2 på gjeldende tall); og for en₃, alt unntatt handling 1 og 2 (selg 40 eller 30 enheter av aktiva 3) er maskert:

state["action_mask"]=[np.zeros([11],dtype=np.float32) for _ in range(3)]
state['action_mask'][0][8]=1
state['action_mask'][1][5]=1
state['action_mask'][2][1:3]=[1,1]

Nå som vi har modifisert handlingsmaske-arrayen, prøver vi å prøve en ny handling.

Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Agenten prøver bare de handlingene som er demaskert. Dette bekrefter at handlingsmaskering fungerer som forventet.

Resultater

Nå som miljø- og parametriske handlingsmodellen er definert, trener vi en agent til å løse porteføljeoptimaliseringsproblemet ved å bruke SageMaker RL. Vi trener en RL-agent for å lære den optimale policyen for å maksimere belønningen under begrensningene C1:C4. Vi bruker algoritmen for proksimal policyoptimalisering (PPO) i SageMaker RL for å trene RL-agenten for 500,000 XNUMX episoder. Følgende treningskonfigurasjon viser hvordan vi spesifiserer agenten som skal bruke trading_mask som en custom_model å bli brukt:

 def get_experiment_config(self): return { "training": { "env": "mytradingmodel", "run": "PPO", # Use PPO algorithm "stop":{"episodes_total":500000}, # 500k training episodes "config": { "use_pytorch": False, "gamma": 0.99, "kl_coeff": 1.0, "num_sgd_iter": 20, "lr": 0.0001, "sgd_minibatch_size": 1000, "train_batch_size": 25000, "monitor": True, "model": { "custom_model": "trading_mask" # Use custom action masking model }, "num_workers": (self.num_cpus-1), "num_gpus": self.num_gpus, "batch_mode": "truncate_episodes", "explore":True, "exploration_config":{ "type":"StochasticSampling", }, }, "checkpoint_freq": 1, } }

Agenten starter med $1,000 USD i innledende kontantsaldo. Gjennomsnittlig belønning per episode er plottet som en funksjon av treningstid, som vist i følgende diagram. Husk at vi bruker den endelige totale porteføljeverdien som belønning. Ved slutten av 20 investeringsperioder observerer vi at gjennomsnittsverdien av agentens portefølje er over $3,000 XNUMX USD.

Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Rydd opp

Vi sørget ikke for noen infrastruktur utover bruken av en SageMaker-notebook-forekomst. Hvis du bruker en SageMaker notatbokforekomst via Studio, kan du slå den av ved å følge instruksjonene i Slå av en åpen notatbok.

konklusjonen

I dette innlegget diskuterte vi hvordan du kan implementere handlingsmaskering for å håndheve begrensninger i RL-modellopplæring. Ved å maskere utillatelige handlinger gjør vi det mulig for agenten å prøve kun gyldige handlinger og lære den optimale policyen på en prøveeffektiv måte. Vi introduserte et porteføljeoptimeringsproblem der agenten har i oppgave å maksimere porteføljeverdien ved å handle tre aktivatyper under flere begrensninger. Vi demonstrerte hvordan man implementerer flerdimensjonal handlingsmaskering for dette problemet ved å bruke Ray RLlib. Vi trente en RL-agent for å løse problemet med begrenset porteføljeoptimalisering ved å bruke SageMaker RL.

Nå som du vet hvordan du utfører handlingsmaskering ved å bruke SageMaker RL og Ray RLlib på porteføljeoptimalisering, kan du prøve det på andre RL-problemer som involverer uakseptable handlinger. Du kan også tilpasse handlingsmaskeringskoden utviklet i dette innlegget for enklere problemer som involverer endimensjonalt handlingsrom. Vi oppfordrer deg til å bruke tilnærmingen som er utviklet her på dine RL-brukssaker og gi oss beskjed hvis du har spørsmål eller tilbakemeldinger.

Ytterligere referanser

For ytterligere informasjon og relatert innhold, se følgende ressurser:

Om forfatterne

Dilshad Raihan Akkam Veettil er en dataforsker med AWS Professional Services, hvor han engasjerer seg med kunder på tvers av bransjer for å løse deres forretningsutfordringer gjennom bruk av maskinlæring og cloud computing. Han har en doktorgrad i luftfartsteknikk fra Texas A&M University, College Station. På fritiden liker han å se fotball og lese.

Porteføljeoptimalisering gjennom flerdimensjonal handlingsoptimalisering ved bruk av Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Paul Budnarain er en Applied Scientist i Amazons Inventory Forecasting Systems (IFS) gruppe, og er basert i Los Angeles, California.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/portfolio-optimization-through-multidimensional-action-optimization-using-amazon-sagemaker-rl/

Tidstempel: Mars 8, 2023

Tidstempel: November 18, 2022

Publisert av Platon

Fremskynd utviklingslivssyklusen for Amazon Lex chatbot med Test Workbench | Amazon Web Services

Hvordan United Airlines bygget en kostnadseffektiv optisk tegngjenkjenningspipeline for aktiv læring | Amazon Web Services

Aktiver CI/CD for Amazon SageMaker-endepunkter med flere regioner

Identifiser potensiell rotårsak til forretningskritiske anomalier ved å bruke Amazon Lookout for Metrics

Identifiser automatisk språk i flerspråklig lyd ved hjelp av Amazon Transcribe

Automatisert, skalerbar og kostnadseffektiv ML på AWS: Oppdager invasive australske trebregner i hawaiiske skoger

Lag Amazon SageMaker-modellbyggingspipelines og distribuer R-modeller ved hjelp av RStudio på Amazon SageMaker

Optimaliser hyperparametre med Amazon SageMaker Automatic Model Tuning

Distribuer BLOOM-176B og OPT-30B på Amazon SageMaker med store modellslutninger Deep Learning Containers og DeepSpeed

Enkel og nøyaktig prognoser med AutoGluon-TimeSeries

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn