Portfólióoptimalizálás többdimenziós akcióoptimalizálással az Amazon SageMaker RL használatával

Újra kiadta Platón

Követő: 0

A megerősítő tanulás (RL) a gépi tanulási (ML) technikák egy osztályát foglalja magában, amelyek szekvenciális döntéshozatali problémák megoldására használhatók. Az RL technikák számos területen széles körben elterjedtek, beleértve a pénzügyi szolgáltatásokat, az autonóm navigációt, az ipari vezérlést és az e-kereskedelmet. Az RL-probléma célja egy olyan ügynök képzése, aki a környezetéből származó megfigyelések alapján kiválasztja az optimális cselekvést, amely maximalizálja a halmozott jutalmat. Az RL-vel kapcsolatos üzleti probléma megoldása magában foglalja az ügynök környezetének, a cselekvések terének, a megfigyelések szerkezetének és a megfelelő jutalmazási funkciónak a meghatározását a cél üzleti eredményhez. A politika alapú RL módszerekben a modellképzés eredménye gyakran egy olyan politika, amely valószínűségi eloszlást határoz meg a megfigyelt cselekvések között. Az optimális házirend maximalizálja az ügynök által elért halmozott hozamokat.

A korlátozott döntéshozatali problémáknál az ügynök feladata, hogy megszorítások mellett válassza ki az optimális cselekvéseket. Az ilyen problémáknak egy külön osztálya létezik, ahol az állapottól függően az ügynök csak az összes művelet egy részhalmazából választhat. A többi kereset elfogadhatatlan.

Vegyünk például egy autonóm autót, amely 10 lehetséges sebességfokozattal rendelkezik. Előfordulhat, hogy ez az autó csak a sebességszintek egy részéből választhat, amikor egy lakónegyeden halad át. Itt a sebességszintek korlátozását az autó elhelyezkedése határozza meg. A műveletekre vonatkozó ilyen paraméterezett megszorítások gyakoriak sok valós probléma esetén. Az ilyen problémák megoldása az RL-rel megköveteli a megszorítások beépítését a képzési folyamatba. Akciómaszkolás egy megközelítés az elfogadhatatlansági korlátokat magában foglaló RL problémák minta hatékony megoldására. Ahogy a neve is sugallja, ez magában foglalja az elfogadhatatlan cselekvések elfedését a mintavételi valószínűség nullára állításával. A következő ábra az RL ciklust ábrázolja akciómaszkolással. Ez egy ágensből, a cselekvési maszkokat meghatározó kényszerekből, a maszkokból, az állapotátmenetekből és a megfigyelt jutalmakból áll.

Portfolio optimization through multidimensional action optimization using Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ebben a bejegyzésben leírjuk, hogyan lehet végrehajtani a műveletmaszkolást Amazon SageMaker RL paraméteres cselekvési terek használatával Ray RLlib. Leírunk egy példaproblémát, amely diszkrét többdimenziós cselekvési tereket és több kényszert foglal magában. A bejegyzés teljes jegyzetfüzetének eléréséhez lásd a SageMaker notebook példa a GitHub-on.

Használati eset áttekintése

Egy példakénti portfólióoptimalizálási problémára tekintünk, amelyben egy befektető több eszköztípussal kereskedik, hogy maximalizálja teljes portfólióértékét. A portfólió három különböző eszköztípusból és egy készpénzegyenlegből áll, amely egyszerűen a bankszámláján lévő pénzre utal. Az ügynöknek minden befektetési időszak alatt ki kell választania az általa vásárolt vagy eladott eszköztípusok mennyiségét. Az ügynök a rendelkezésre álló készpénzegyenleget bármely eszközvásárlás finanszírozására használja fel. Az egyes eszközök vételi/eladási műveleteihez tranzakciós költségek is kapcsolódnak. Feltételezzük, hogy az egyes eszközök piaci ára időben változik. Az árakat véletlenszerűen választják ki, de úgy modellezik, hogy eltérő viselkedést mutassanak különböző volatilitási szintekkel. A három eszközosztály ártartományait a következő ábra mutatja.

Portfolio optimization through multidimensional action optimization using Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az ügynök számára elfogadható cselekmények halmazát olyan paraméterek határozzák meg, mint az aktuális teljes portfólióérték, az aktuális készpénzegyenleg, az egyes típusú eszközök száma és azok aktuális piaci értéke. Ennél a problémánál a következő megszorításokat érvényesítjük a lehetséges műveletekre vonatkozóan:

C1 – Az ügynök semmilyen eszköztípusból nem adhat el több egységet, mint amennyi jelenleg a tulajdonában van. Például, ha az ügynök portfóliójában k időpontban 100 egység 3. eszköz van, akkor nem tud 120 egységet eladni ebből az eszközből.
C2 – A 3. eszközt nagyon ingadozónak tartják a befektetők. Az ügynök nem vásárolhatja meg a 3. eszközt, ha a 3. eszközben lévő részesedésének összértéke meghaladja teljes portfólióértékének egyharmadát.
C3 – Az RL-modell fogyasztói mérsékelt kockázati preferenciával rendelkeznek, és a 2. eszközt konzervatív vételnek tartják. Ennek eredményeként az ügynök nem vásárolhatja meg a 2. eszközt, ha a 2. eszköz részesedéseinek összértéke meghaladja a teljes portfólió értékének kétharmadát.
C4 – Az ügynök nem vásárolhat eszközöket, ha jelenlegi készpénzegyenlege kevesebb, mint 1 USD.

Állítsa be a környezetet

Kezdésként hozzon létre egy SageMaker notebook példányt a következőn keresztül Amazon SageMaker Studio. További információ: Használjon Amazon SageMaker Notebook példányokat.

Ezt követően a portfólió kereskedési problémát egyedi formában valósítjuk meg Nyissa meg az AI edzőtermet környezetben, és betanítson egy RL ügynököt a SageMaker RL segítségével. A Gym-környezet interfészt biztosít az RL-ügynök számára a környezettel való interakcióhoz, valamint jutalmak és megfigyelések generálásához. A portfóliókereskedés környezete a trading.py modult. Használjuk a __init__ módszer egyes környezeti paraméterek meghatározására és inicializálására. Ez magában foglalja az eszközvásárlási/eladási műveletekhez kapcsolódó tranzakciós költségeket, az eszközárak átlagos értékét, az árkülönbségeket stb. Meghatározzuk a megfigyelési és cselekvési tereket is a __init__ módszer. Lásd a következő kódot:

def __init__(self,*args, **kwargs): self.buy_price=np.array([0.03, 0.045, 0.035]) # transaction cost per unit bought for three asset classes self.sell_price=np.array([0.025, 0.035, 0.03]) # transaction cost per unit sold for three asset classes self.mu=np.array([40,35,48]) # Mean initial asset price self.var=np.array([4,2,7]) # Variance of asset prices self.tvec=np.arange(20) # Length of each episode=20 self.sig=np.zeros((3,len(self.tvec))) self.sig[0,:]=self.mu[0]+0.4*self.tvec+4*np.cos(2*math.pi*self.tvec/16) #Functions used to model mean asset prices over time self.sig[1,:]=self.mu[1]+0.1*self.tvec self.sig[2,:]=self.mu[2]+0.3*self.tvec-6*np.sin(2*math.pi*self.tvec/7) state_bounds=state_bounds_gen() low,high= map(np.array,zip(*state_bounds.values())) # Minimum and maximum values for the state variables self.action_space = Tuple([Discrete(11),Discrete(11),Discrete(11)]) #Action space consisting of three discrete actions self.observation_space=Dict({"action_mask":Tuple([Box(0,1,shape=(11,)),Box(0,1,shape=(11,)),Box(0,1,shape=(11,))]), "trading_state":Box(low,high,dtype=np.float32)}) # Dictionary space consisting of trading state # and action mask

Mivel az ügynök egy adott időpontban három eszközzel kereskedik, az ügynök által végrehajtott műveletek egy háromdimenziós akcióvektor segítségével jelennek meg. Az akcióvektort alkotó három diszkrét művelet az egyes eszközosztályok kereskedéseit képviseli, és mindegyik 11 lehetséges értéket vehet fel. A 11 diszkrét érték különböző eladási, vételi és tartási műveleteket kódol, amint az a következő ábrán látható. Például kiválasztva a₁A =3 azt jelenti, hogy az ügynök 20 egységet ad el az 1-es eszköztípusból. Az eszközök vétele és eladása 10 többszörösében történik.

Portfolio optimization through multidimensional action optimization using Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A megfigyelő tér két elemből álló szótári felépítésű. Ezek az aktuális kereskedési állapotot és az aktuális akciómaszk értékeit jelentik. A kereskedési állapot egy 7×1-es vektor, amely az ügynök által jelenleg birtokolt egyes eszközök mennyiségéből, az aktuális készpénzegyenlegből és a három eszköz mindegyikének aktuális piaci értékéből áll. Az akciómaszk egy 3×11-es mátrix, amely minden lehetséges műveletnek megfelelő maszkértékekkel rendelkezik. A környezet minden alkalommal kiszámítja a maszkértékeket az an update_mask() módszer. A C1:C4 korlátozások bármelyikét megsértő műveletek nulla maszkot kapnak. A maszk értéke 1-re van állítva az elfogadható tevékenységekhez. Lásd a következő kódot:

def update_mask(self): self.action_mask=[np.array([1.0]*x.n) for x in self.action_space.spaces] # Set all masks to 1 if self.balance<1: # If balance < 1, set buy masks to zero (C4) for jj in range(len(self.action_mask)): self.action_mask[jj][6:]=[0.0]*5 self.action_mask[2][6:]=[0.0]*5 if (self.prices[2]*self.assets[2]/self.total_assets)>1.0/3.0 else [1.0]*5 #(C3) self.action_mask[1][6:]=[0.0]*5 if (self.prices[1]*self.assets[1]/self.total_assets)>2.0/3.0 else [1.0]*5 #(C2) for k in range(3): cap=int(min(5,self.assets[k]/10)) self.action_mask[k][:5]=[0.0]*(5-cap)+[1.0]*cap # (C1)

Minden epizód elején a reset() metódus hívja meg a kereskedési állapot, a megfigyelések és egyéb paraméterek újrainicializálását. Az ügynök minden képzési epizódot 1,000 USD készpénzegyenleggel és nulla vagyonnal kezd. Minden epizód 20 befektetési időszakból áll.

 def reset(self): self.assets=np.zeros(3,dtype=np.float32) # Assets owned at the beginning self.balance=1000 # Initial cash balance self.t_step=0 self.prices=[np.random.normal(mu,var) for mu,var in zip(self.mu,self.var)] # Sampling market prices for the assets self.state=np.hstack([self.assets, self.balance, self.prices]) # Initial state self.total_assets=self.balance # Total portfolio value self.update_mask() # Updating action mask values reset_state={ "action_mask":list(np.float32(self.action_mask)), # Initial state "trading_state":np.float32(self.state) } return reset_state

Az ügynök minden befektetési időszak elején mintát vesz egy akcióból a legutóbbi megfigyelések alapján, és frissíti portfólióját. Ennek modellezése a step() módszer. A portfólió frissítése után újraszámoljuk az állapotot. A műveleti maszk frissítése a update_mask() módszer.

def step(self, action): self.t_step+=1 for index, a in enumerate (action): print("action is ",a) print("price is ",self.prices[index]) quant=abs(a-5) # Number of assets traded/10 if a<5: # Condition: Asset sale ? if 10*quant*self.sell_price[index]>self.balance: # Condition: sale cost > Balance ? quant=np.floor(self.balance/(10*self.sell_price[index])) self.assets[index]-=10*quant # Asset update self.balance=self.balance+10*quant*(self.prices[index]-self.sell_price[index]) # Balance update if a>5: if 10*quant*(self.buy_price[index]+self.prices[index])>self.balance: # Condition: Buy cost > Balance ? quant=np.floor(self.balance/(10*(self.buy_price[index]+self.prices[index]))) self.assets[index]+=10*quant # Asset update self.balance=self.balance-10*quant*(self.prices[index]+self.sell_price[index]) # Balance update else: continue self.prices=np.array([np.random.normal(mu,var) for mu,var in zip(self.sig[:,self.t_step],self.var)]) # New asset prices self.state=np.hstack([self.assets,self.balance, self.prices]) # New state self.total_assets=self.balance+np.dot(self.assets,self.prices) # Total portfolio value self.update_mask() # Mask update obs={ "action_mask": list(np.float32(self.action_mask)), "trading_state":np.float32(self.state) } if self.t_step==len(self.tvec)-1: reward=self.total_assets # reward = Total portfolio value at the end of the episode else: reward=0 done=True if self.t_step==len(self.tvec)-1 else False return obs, reward, done, {}

A jutalom függvény a portfólió végső összértéke, és az egyes epizódok végén kerül kiszámításra, ami 20 befektetési időszak után történik.

Maszkoló modell

A környezet minden időlépésben visszaadja a szótár állapotát, és a házirendet képviselő ML-modell ezen az állapoton alapuló műveletet mintát vesz. A parametrikus cselekvési modell csak a nem maszkolt (maszk ≠ 0) műveletek mintavételét teszi lehetővé. Itt leírjuk a paraméteres műveleti modellt, amely lehetővé teszi a műveletmaszkolást:

class ParametricActionsModel(TFModelV2): def __init__(self, obs_space, action_space, num_outputs, model_config, name, *args, **kwargs): super(ParametricActionsModel, self).__init__(obs_space, action_space, num_outputs, model_config, name, *args, **kwargs) self.true_obs_shape = (7,) self.action_embed_model = FullyConnectedNetwork(Box(np.finfo(np.float32).min,np.finfo(np.float32).max,shape=self.true_obs_shape), action_space, num_outputs, model_config, name, ) # action embedding model self.register_variables(self.action_embed_model.variables()) def forward(self, input_dict, state, seq_lens): action_mask= tf.cast(tf.concat(input_dict["obs"]["action_mask"], axis=1), tf.float32) # action mask values action_embedding,_ = self.action_embed_model({"obs":input_dict["obs"]["trading_state"]}) # action embeddings logit_mod = tf.maximum(tf.math.log(action_mask),tf.float32.min) # moidfiers to action logits return (action_embedding+logit_mod), state def value_function(self): return self.action_embed_model.value_function()

A modell mintavételezi a műveleteket egy Softmax függvényen keresztül, a műveletbeágyazási modell által megadott logikákat használva. Ezt a modellt a __init__ módszer. Maga a maszkolási viselkedés a forward() módszer. Itt elválasztjuk a műveleti maszkokat és a kereskedelmi állapotot a környezetből leolvasott szótári állapottól. A műveleti beágyazásokat ezután úgy kapja meg, hogy a kereskedési állapotot átadja a műveletbeágyazási hálózatnak. Ezután hozzáadással módosítjuk az egyes műveletek beágyazásának értékét logit_mod a logitokhoz. Vedd észre logit_mod a cselekvési maszk logaritmusának függvénye. Azoknál a műveleteknél, amelyeknél a maszk =1, a maszk logaritmusa nulla lesz, így a beágyazások zavartalanok maradnak. Másrészt, ha maszk=0, akkor a maszk → logaritmusa −∞. Mert Softmax(x) →0 mint x→ −∞, ez biztosítja, hogy az ügynök ne vegyen mintát a maszkolt műveletekről.

Teszteljük, hogy a maszk a várt módon működik-e. Indítunk egy sugártréner objektumot, és maszkolunk néhány műveletet, és megnézzük, hogy a tréner csak a nem maszkolt műveleteket veszi-e minta:

import ray
import ray.rllib.agents.ppo as ppo
from ray.tune.registry import register_env
from trading import mytradingenv
from mask_model import register_actor_mask_model
import numpy as np register_actor_mask_model()
ray.shutdown()
ray.init(ignore_reinit_error=True) env_config={}
register_env("customtradingmodel", lambda env_config:mytradingenv(env_config)) TestEnvConfig = { "log_level":"WARN", "model": { "custom_model": "trading_mask" # Define the custom masking model in the config } } agent1 = ppo.PPOTrainer(config=TestEnvConfig,env="customtradingmodel")
env = agent1.env_creator('customtradingmodel')
state=env.reset()
print(state["action_mask"])

A következő képernyőképen látható kimenet a kezdeti műveletmaszk tömbjét mutatja.

Portfolio optimization through multidimensional action optimization using Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Most úgy módosítjuk a maszkvektorokat, hogy a₁, minden lehetőség, kivéve a 8. műveletet (vásároljon 30 egységet az 1. eszközből); a₂ mindent, kivéve az 5. műveletet (tartsa a 2. eszközt az aktuális számokon); és a₃, az 1. és 2. művelet kivételével (a 40. eszköz 30 vagy 3 egysége eladása) minden maszkolt:

state["action_mask"]=[np.zeros([11],dtype=np.float32) for _ in range(3)]
state['action_mask'][0][8]=1
state['action_mask'][1][5]=1
state['action_mask'][2][1:3]=[1,1]

Most, hogy módosítottuk a műveletmaszk tömböt, megpróbálunk egy új műveletet mintát venni.

Portfolio optimization through multidimensional action optimization using Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az ügynök csak azokat a műveleteket veszi minta, amelyek nincsenek lefedve. Ez ellenőrzi, hogy a műveletmaszkolás a várt módon működik-e.

Eredmények

Most, hogy a környezet és a paraméteres műveleti modell definiálva van, betanítunk egy ügynököt a portfólióoptimalizálási probléma megoldására a SageMaker RL segítségével. Megtanítunk egy RL ügynököt, hogy megtanulja az optimális szabályzatot a jutalom maximalizálásához a C1:C4 megszorítások mellett. A SageMaker RL proximális házirend-optimalizálási (PPO) algoritmusát használjuk az RL ügynök betanítására 500,000 XNUMX epizódra. A következő betanítási konfiguráció bemutatja, hogyan adjuk meg az ügynököt a használatához trading_mask mint custom_model használt:

 def get_experiment_config(self): return { "training": { "env": "mytradingmodel", "run": "PPO", # Use PPO algorithm "stop":{"episodes_total":500000}, # 500k training episodes "config": { "use_pytorch": False, "gamma": 0.99, "kl_coeff": 1.0, "num_sgd_iter": 20, "lr": 0.0001, "sgd_minibatch_size": 1000, "train_batch_size": 25000, "monitor": True, "model": { "custom_model": "trading_mask" # Use custom action masking model }, "num_workers": (self.num_cpus-1), "num_gpus": self.num_gpus, "batch_mode": "truncate_episodes", "explore":True, "exploration_config":{ "type":"StochasticSampling", }, }, "checkpoint_freq": 1, } }

Az ügynök 1,000 USD kezdeti készpénzegyenleggel indul. Az epizódonkénti átlagos jutalmat az edzési idő függvényében ábrázoltuk, amint azt a következő táblázat mutatja. Ne feledje, hogy jutalomként a portfólió végső teljes értékét használjuk. 20 befektetési időszak végén azt tapasztaljuk, hogy az ügynök portfóliójának átlagértéke meghaladja a 3,000 USD-t.

Portfolio optimization through multidimensional action optimization using Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Tisztítsuk meg

A SageMaker notebook példányon kívül semmilyen infrastruktúrát nem biztosítottunk. Ha SageMaker jegyzetfüzet-példányt használ a Studio-on keresztül, a következő utasításokat követve leállíthatja azt Nyitott jegyzetfüzet leállítása.

Következtetés

Ebben a bejegyzésben megvitattuk, hogyan lehet végrehajtani a műveletmaszkolást az RL-modell-képzésben a megszorítások érvényesítésére. Az elfogadhatatlan műveletek elfedésével lehetővé tesszük az ügynök számára, hogy csak érvényes műveleteket vegyen mintát, és minta-hatékony módon tanulja meg az optimális szabályzatot. Bevezettünk egy portfólióoptimalizálási problémát, amelyben az ügynök feladata a portfólió értékének maximalizálása három eszköztípussal, többféle megkötés mellett. Bemutattuk, hogyan valósíthatunk meg többdimenziós műveletmaszkot erre a problémára a Ray RLlib segítségével. Megtanítottunk egy RL ügynököt a korlátozott portfólióoptimalizálási probléma megoldására a SageMaker RL segítségével.

Most, hogy tudja, hogyan kell műveletmaszkolást végrehajtani a SageMaker RL és a Ray RLlib segítségével a portfólióoptimalizálás során, kipróbálhatja más olyan RL-problémák esetén is, amelyek megengedhetetlen műveletekkel járnak. Az ebben a bejegyzésben kifejlesztett akciómaszkoló kódot az egydimenziós cselekvési teret érintő egyszerűbb problémákhoz is adaptálhatja. Javasoljuk, hogy alkalmazza az itt kidolgozott megközelítést az RL használati eseteire, és tudassa velünk, ha kérdése vagy visszajelzése van.

További hivatkozások

További információkért és kapcsolódó tartalmakért tekintse meg a következő forrásokat:

A szerzőkről

Dilshad Raihan Akkam Veettil az AWS Professional Services adattudósa, ahol különféle iparágakban ügyfeleikkel foglalkozik, hogy a gépi tanulás és a felhőalapú számítástechnika segítségével megoldják üzleti kihívásaikat. PhD-fokozatot szerzett repüléstechnikából a Texas A&M Egyetemen, College Stationben. Szabadidejében szívesen focizik és olvas.

Portfolio optimization through multidimensional action optimization using Amazon SageMaker RL PlatoBlockchain Data Intelligence. Vertical Search. Ai. Budnarain Pál az Amazon Inventory Forecasting Systems (IFS) csoportjának alkalmazott tudósa, székhelye Los Angeles, Kalifornia.