How Games24x7 Transformed Their Retraining MLOps Pipelines With Amazon SageMaker

Ponovno objavil Platon

Spremljevalci: 0

To je gostujoča objava v blogu, ki jo je napisal skupaj s Hussainom Jagirdarjem iz Games24x7.

Igre 24x7 je ena najdragocenejših indijskih platform za več iger in zabava več kot 100 milijonov igralcev v različnih spretnostnih igrah. Z »Znanostjo o igrah« kot svojo osrednjo filozofijo so omogočili vizijo celovite informatike okoli dinamike iger, igralnih platform in igralcev s konsolidacijo ortogonalnih raziskovalnih smeri umetne inteligence iger, znanosti o podatkih o igrah in raziskav uporabnikov iger. Ekipa za AI in znanost o podatkih se potopi v množico večdimenzionalnih podatkov in izvaja različne primere uporabe, kot so optimizacija poti igralca, zaznavanje dejanj v igri, hiperpersonalizacija, customer 360 in več na AWS.

Games24x7 uporablja avtomatiziran okvir, ki temelji na podatkih in ga poganja umetna inteligenca, za oceno vedenja vsakega igralca prek interakcij na platformi in označuje uporabnike z nenormalnim vedenjem. Zgradili so model globokega učenja ScarceGAN, ki se osredotoča na identifikacijo izjemno redkih ali redkih vzorcev iz večdimenzionalnih longitudinalnih telemetričnih podatkov z majhnimi in šibkimi oznakami. To delo je bilo objavljeno v CIKM'21 in open source za identifikacijo redkih razredov za vse longitudinalne telemetrične podatke. Potreba po produkciji in sprejetju modela je bila najpomembnejša za ustvarjanje hrbtenice za omogočanje odgovornega igranja iger na njihovi platformi, kjer je mogoče označene uporabnike popeljati skozi drugačno pot moderiranja in nadzora.

V tej objavi delimo, kako je Games24x7 izboljšal svoje kanale usposabljanja za odgovorno uporabo platforme iger Amazon SageMaker.

Izzivi strank

Ekipa DS/AI pri Games24x7 je uporabila več storitev, ki jih je zagotovil AWS, vključno s prenosniki SageMaker, Korak funkcije AWS, AWS Lambdain Amazonski EMR, za gradnjo cevovodov za različne primere uporabe. Za obvladovanje premika v distribuciji podatkov in s tem za ponovno usposobitev svojega modela ScarceGAN so ugotovili, da obstoječi sistem potrebuje boljšo rešitev MLOps.

V prejšnjem cevovodu prek funkcij Step Functions je ena sama monolitna kodna baza izvajala predhodno obdelavo podatkov, ponovno usposabljanje in vrednotenje. To je postalo ozko grlo pri odpravljanju težav, dodajanju ali odstranjevanju koraka ali celo pri nekaterih majhnih spremembah v celotni infrastrukturi. Ta stopenjska funkcija je ustvarila gručo primerkov za ekstrahiranje in obdelavo podatkov iz S3, nadaljnji koraki predhodne obdelave, usposabljanja in vrednotenja pa bi se izvajali na enem samem velikem primerku EC2. V scenarijih, kjer je cevovod odpovedal na katerem koli koraku, je bilo treba celoten potek dela znova zagnati od začetka, kar je povzročilo ponavljajoče se zagone in višje stroške. Vse metrike usposabljanja in vrednotenja so bile ročno pregledane v storitvi Amazon Simple Storage Service (Amazon S3). Ni bilo mehanizma za posredovanje in shranjevanje metapodatkov več poskusov, izvedenih na modelu. Zaradi decentraliziranega spremljanja modela, temeljite preiskave in izbire najboljšega modela je skupina za podatkovno znanost zahtevala ure. Kopičenje vseh teh prizadevanj je imelo za posledico nižjo produktivnost ekipe in povečane režijske stroške. Poleg tega je bilo s hitro rastočo ekipo zelo težko deliti to znanje med ekipo.

Ker so koncepti MLOps zelo obsežni in bi izvedba vseh korakov potrebovala čas, smo se odločili, da bomo v prvi fazi obravnavali naslednja ključna vprašanja:

Varno, nadzorovano in šablonsko okolje za ponovno usposabljanje našega internega modela poglobljenega učenja z uporabo najboljših praks v industriji
Parametrirano okolje za usposabljanje za pošiljanje drugačnega nabora parametrov za vsako opravilo preusposabljanja in revidiranje zadnjih izvedb
Sposobnost vizualnega sledenja meritvam usposabljanja in meritvam vrednotenja ter metapodatkov za sledenje in primerjavo poskusov
Možnost prilagajanja vsakega koraka posebej in ponovne uporabe prejšnjih korakov v primerih napak korakov
Enotno namensko okolje za registracijo modelov, shranjevanje funkcij in priklic cevovodov za sklepanje
Sodoben nabor orodij, ki bi lahko zmanjšal računalniške zahteve, znižal stroške in spodbudil trajnostni razvoj in operacije strojnega pisanja z vključitvijo prilagodljivosti uporabe različnih primerkov za različne korake
Ustvarjanje primerjalne predloge najsodobnejšega cevovoda MLOps, ki bi ga lahko uporabljali v različnih skupinah za podatkovno znanost

Games24x7 je začel ocenjevati druge rešitve, vključno z Amazon SageMaker Studio Pipelines. Že obstoječa rešitev prek funkcij Step Functions je imela omejitve. Studijski cevovodi so imeli prilagodljivost dodajanja ali odstranjevanja koraka v katerem koli trenutku. Celotno arhitekturo in njihove odvisnosti podatkov med posameznimi koraki je mogoče vizualizirati prek DAG-jev. Vrednotenje in natančno prilagajanje korakov ponovnega usposabljanja je postalo zelo učinkovito, potem ko smo sprejeli različne funkcionalnosti Amazon SageMaker, kot so Amazon SageMaker Studio, Cevovodi, Obdelava, Usposabljanje, register modelov ter eksperimenti in poskusi. Ekipa AWS Solution Architecture je pokazala odličen poglobljeni potop in je bila resnično ključna pri načrtovanju in implementaciji te rešitve.

Pregled rešitev

Naslednji diagram prikazuje arhitekturo rešitev.

Arhitektura

Rešitev uporablja a Studio SageMaker okolje za izvajanje poskusov preusposabljanja. Koda za priklic skripta cevovoda je na voljo v zvezkih Studio, pri klicanju cevovoda pa lahko spremenimo hiperparametre in vhod/izhod. To se precej razlikuje od naše prejšnje metode, kjer smo imeli vse parametre trdo kodirane znotraj skriptov in so bili vsi procesi neločljivo povezani. To je zahtevalo modularizacijo monolitne kode v različne korake.

Naslednji diagram ponazarja naš prvotni monolitni postopek.

zapuščina-metoda

Modularizacija

Za prilagajanje, sledenje in izvajanje vsakega koraka posebej je bilo treba monolitno kodo modularizirati. Odvisnosti parametrov, podatkov in kode med posameznimi koraki so bile odstranjene in ustvarjeni so bili moduli v skupni rabi za komponente v skupni rabi med koraki. Ilustracija modularizacije je prikazana spodaj: -

mono-modular-sagemaker

Za vsak posamezen modul je bilo testiranje opravljeno lokalno s SDK-jem SageMaker Način skripta za usposabljanje, obdelavo in vrednotenje, ki zahteval manjše spremembe v kodi za izvajanje s SageMakerjem. The testiranje lokalnega načina za skripte za globoko učenje je mogoče narediti na prenosnikih SageMaker, če se že uporabljajo, ali z uporabo Lokalni način z uporabo cevovodov SageMaker v primeru neposrednega zagona s cevovodi. To pomaga pri preverjanju, ali se bodo naši skripti po meri izvajali na primerkih SageMaker.

Vsak modul je bil nato testiran ločeno z SDK-jem za usposabljanje/obdelavo SageMaker z uporabo Način skripta in jih ročno zagnal v zaporedju z uporabo primerkov SageMaker za vsak korak, kot je spodnji korak usposabljanja:

estimator = TensorFlow( entry_point="inference.py", source_dir="scripts_train/training/", instance_type="ml.c5.2xlarge", # Running on SageMaker ML instances instance_count=1, hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), # Passes to the container the AWS role that you are using on this notebook framework_version="2.11", py_version="py39",
) estimator.fit(inputs)
2022-09-28 11:10:34 Starting - Starting the training job...

Amazon S3 je bil uporabljen za pridobivanje izvornih podatkov za obdelavo in nato shranjevanje vmesnih podatkov, podatkovnih okvirov in rezultatov NumPy nazaj v Amazon S3 za naslednji korak. Po opravljenem integracijskem testiranju med posameznimi moduli za predprocesiranje, usposabljanje, evalvacijo je SDK SageMaker Pipeline ki je integriran s SDK-jem SageMaker Python, ki smo ga že uporabili v zgornjih korakih, nam je omogočil, da programsko povežemo vse te module s posredovanjem vhodnih parametrov, podatkov, metapodatkov in izhoda vsakega koraka kot vnosa v naslednje korake.

Lahko bi ponovno uporabili prejšnjo kodo SDK Sagemaker Python za zagon modulov posamično v izvajanjih, ki temeljijo na SDK za cevovod Sagemaker. Razmerja med posameznimi koraki cevovoda so določena z odvisnostmi podatkov med koraki.

Končni koraki plinovoda so naslednji:

Predobdelava podatkov
Prekvalifikacija
Ocenjevanje
Registracija modela

dag-cevovod

V naslednjih razdelkih podrobneje razpravljamo o vsakem od korakov pri izvajanju s SDK-jem SageMaker Pipeline.

Predobdelava podatkov

Ta korak preoblikuje neobdelane vhodne podatke in predobdela ter razdeli na nize za usposabljanje, validacijo in teste. Za ta korak obdelave smo instancirali opravilo obdelave SageMaker z TensorFlow Framework procesor, ki vzame naš skript, kopira podatke iz Amazon S3 in nato potegne sliko Docker, ki jo zagotavlja in vzdržuje SageMaker. Ta vsebnik Docker nam je omogočil posredovanje naših odvisnosti knjižnice v datoteki requirements.txt, medtem ko so vse knjižnice TensorFlow že vključene, in posredovanje poti za source_dir za skript. Podatki o usposabljanju in validaciji gredo v korak usposabljanja, testni podatki pa se posredujejo v korak ocenjevanja. Najboljši del uporabe tega vsebnika je bil, da nam je omogočil posredovanje različnih vhodov in izhodov kot različnih lokacij S3, ki jih je bilo nato mogoče posredovati kot odvisnost od korakov za naslednje korake v cevovodu SageMaker.

#Initialize the TensorFlowProcessor
tp = TensorFlowProcessor( framework_version='2.11', role=get_execution_role(), instance_type='ml.m5.xlarge', instance_count=1, base_job_name='frameworkprocessor-TF', py_version='py39', sagemaker_session=pipeline_session, )
from sagemaker.processing import ProcessingInput, ProcessingOutput
from sagemaker.workflow.steps import ProcessingStep
processor_args = tp.run( code='new_data_collection_kfold.py', source_dir='scripts_processing', inputs=[ ProcessingInput(input_name='data_unlabeled',source=data_unlabeled, destination="/opt/ml/processing/data_unlabeled"), ProcessingInput(input_name='data_risky',source=data_risky, destination= "/opt/ml/processing/data_risky"), ProcessingInput(input_name='data_dormant',source=data_dormant, destination= "/opt/ml/processing/data_dormant"), ProcessingInput(input_name='data_normal',source=data_normal, destination= "/opt/ml/processing/data_normal"), ProcessingInput(input_name='data_heavy',source=data_heavy, destination= "/opt/ml/processing/data_heavy") ], outputs=[ ProcessingOutput(output_name="train_output_data", source="/opt/ml/processing/train/data", destination=f's3://{BUCKET}/{op_train_path}/data'), ProcessingOutput(output_name="train_output_label", source="/opt/ml/processing/train/label", destination=f's3://{BUCKET}/{op_train_path}/label'), ProcessingOutput(output_name="train_kfold_output_data", source="/opt/ml/processing/train/kfold/data", destination=f's3://{BUCKET}/{op_train_path}/kfold/data'), ProcessingOutput(output_name="train_kfold_output_label", source="/opt/ml/processing/train/kfold/label", destination=f's3://{BUCKET}/{op_train_path}/kfold/label'), ProcessingOutput(output_name="val_output_data", source="/opt/ml/processing/val/data", destination=f's3://{BUCKET}/{op_val_path}/data'), ProcessingOutput(output_name="val_output_label", source="/opt/ml/processing/val/label", destination=f's3://{BUCKET}/{op_val_path}/label'), ProcessingOutput(output_name="val_output_kfold_data", source="/opt/ml/processing/val/kfold/data", destination=f's3://{BUCKET}/{op_val_path}/kfold/data'), ProcessingOutput(output_name="val_output_kfold_label", source="/opt/ml/processing/val/kfold/label", destination=f's3://{BUCKET}/{op_val_path}/kfold/label'), ProcessingOutput(output_name="train_unlabeled_kfold_data", source="/opt/ml/processing/train/unlabeled/kfold/", destination=f's3://{BUCKET}/{op_train_path}/unlabeled/kfold/'), ProcessingOutput(output_name="test_output", source="/opt/ml/processing/test", destination=f's3://{BUCKET}/{op_test_path}') ], arguments=["--scaler_path", op_scaler_path, "--bucket", BUCKET],
)

Prekvalifikacija

Modul usposabljanja smo zavili skozi SageMaker cevovodi TrainingStep API in uporabil že razpoložljive slike vsebnika za globoko učenje prek ocenjevalca TensorFlow Framework (znanega tudi kot skriptni način) za Izobraževanje žajblja. Skriptni način nam je omogočil minimalne spremembe v naši kodi za usposabljanje, SageMaker vnaprej zgrajen vsebnik Docker pa obravnava različice Python, Framework in tako naprej. Izhodi obdelave iz Data_Preprocessing korak so bili posredovani kot TrainingInput tega koraka.

from sagemaker.inputs import TrainingInput inputs={ "train_output_data": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_data"].S3Output.S3Uri, content_type="text/csv", ), "train_output_label": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_label"].S3Output.S3Uri, content_type="text/csv", )

Vsi hiperparametri so bili posredovani skozi ocenjevalec prek datoteke JSON. Za vsako obdobje v našem usposabljanju smo svoje metrike usposabljanja že pošiljali prek stdOut v skriptu. Ker smo želeli slediti metrikam tekočega usposabljanja in jih primerjati s prejšnjimi izobraževalnimi opravili, smo morali razčleniti ta StdOut z definiranjem metričnih definicij prek regularnega izraza, da bi pridobili metrike iz StdOut za vsako obdobje.

tensorflow_version = "2.11"
training_py_version = "py39"
training_instance_count = 1
training_instance_type = "ml.c5.2xlarge"
tf2_estimator = TensorFlow(
source_dir='scripts_train/training/',
entry_point='train.py',
instance_type=training_instance_type,
instance_count=training_instance_count,
framework_version=tensorflow_version,
hyperparameters=hyperparameters,
image_uri = "763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-training:2.11.0-cpu-py39-ubuntu20.04-sagemaker",
role=role,
base_job_name="Training-Marco-model",
py_version=training_py_version,
metric_definitions=[ {'Name': 'iteration', 'Regex': 'Iteration=(.*?);'},
{'Name': 'Discriminator_Supervised_Loss=', 'Regex': 'Discriminator_Supervised_Loss=(.*?);'},
{'Name': 'Discriminator_UnSupervised_Loss', 'Regex': 'Discriminator_UnSupervised_Loss=(.*?);'},
{'Name': 'Generator_Loss', 'Regex': 'Generator_Loss=(.*?);'},
{'Name': 'Accuracy_Supervised', 'Regex': 'Accuracy_Supervised=(.*?);'} ]
)

Zanimivo je bilo razumeti, da SageMaker Cevovodi samodejno integrira se z API-jem SageMaker Experiments, ki privzeto ustvari preizkus, preizkus in preizkusno komponento za vsako izvedbo. To nam omogoča, da primerjamo meritve vadbe, kot sta točnost in natančnost, med več teki, kot je prikazano spodaj.

poskusi-api-zaslon

Za vsako izvedbo usposabljanja ustvarimo štiri različne modele za Amazon S3 na podlagi naše poslovne definicije po meri.

Ocenjevanje

Ta korak naloži usposobljene modele iz Amazon S3 in oceni naše meritve po meri. Ta ProcessingStep vzame model in testne podatke kot vhod ter izpiše poročila o delovanju modela na Amazon S3.

Uporabljamo metrike po meri, zato smo morali za registracijo teh metrik po meri v register modelov pretvoriti shemo metrik ocenjevanja, shranjenih v Amazon S3 kot CSV, v Kakovost modela SageMaker Izhod JSON. Nato lahko registriramo lokacijo te ocenjevalne metrike JSON v registru modela.

Naslednji posnetki zaslona prikazujejo primer, kako smo pretvorili CSV v format kakovosti JSON modela Sagemaker.

csv-metrike

ocenjevalna-metrična-shema

Registracija modela

Kot smo že omenili, smo ustvarjali več modelov v enem koraku usposabljanja, zato smo morali uporabiti integracijo SageMaker Pipelines Lambda, da smo registrirali vse štiri modele v register modelov. Za registracijo posameznega modela lahko uporabimo ModelStep API za ustvarjanje modela SageMaker v registru. Za vsak model funkcija Lambda pridobi artefakt modela in metriko vrednotenja iz Amazona S3 ter ustvari paket modela za določeno ARN, tako da je mogoče vse štiri modele registrirati v en sam register modelov. API-ji SageMaker Python prav tako nam je omogočil pošiljanje metapodatkov po meri, ki smo jih želeli posredovati za izbiro najboljših modelov. To se je izkazalo za velik mejnik za produktivnost, saj je vse modele zdaj mogoče primerjati in revidirati iz enega okna. Zagotovili smo metapodatke za edinstveno razlikovanje modela drug od drugega. To je pomagalo tudi pri odobritvi enega samega modela s pomočjo strokovnih pregledov in vodstvenih pregledov na podlagi meritev modela.

def register_model_version(model_url, model_package_group_name, model_metrics_path, key, run_id): modelpackage_inference_specification = { "InferenceSpecification": { "Containers": [ { "Image": '763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-inference:2.11.0-cpu-py39-ubuntu20.04-sagemaker', "ModelDataUrl": model_url } ], "SupportedContentTypes": [ "text/csv" ], "SupportedResponseMIMETypes": [ "text/csv" ], } } ModelMetrics={ 'ModelQuality': { 'Statistics': { 'ContentType': 'application/json', 'S3Uri': model_metrics_path }, } } create_model_package_input_dict = { "ModelPackageGroupName" : model_package_group_name, "ModelPackageDescription" : key+" run_id:"+run_id, # additional metadata example "ModelApprovalStatus" : "PendingManualApproval", "ModelMetrics" : ModelMetrics } create_model_package_input_dict.update(modelpackage_inference_specification) create_model_package_response = sm_client.create_model_package(**create_model_package_input_dict) model_package_arn = create_model_package_response["ModelPackageArn"] return model_package_arn

Zgornji blok kode prikazuje primer, kako smo dodali metapodatke prek vnosa paketa modela v register modela skupaj z metriko modela.

Spodnji posnetek zaslona prikazuje, kako enostavno lahko primerjamo meritve različnih različic modelov, ko so registrirane.

model-register-primerjava

Priklic cevovoda

Cevovod je mogoče priklicati prek EventBridge , Sagemaker Studio ali SDK sama. Priklic zažene opravila na podlagi odvisnosti podatkov med koraki.

from sagemaker.workflow.pipeline import Pipeline pipeline = Pipeline( name=pipeline_name, steps=[Preprocess-Kfold,Training-Marco,Evaluate-Marco,ScarceGAN-Model-register]
) definition = json.loads(pipeline.definition())
pipeline.upsert(role_arn=role)
execution = pipeline.start()
execution.wait()

zaključek

V tej objavi smo pokazali, kako je Games24x7 preoblikoval svoja sredstva MLOps prek cevovodov SageMaker. Zmožnost vizualnega sledenja metrikam usposabljanja in metrikam ocenjevanja s parametriziranim okoljem, prilagajanjem posameznih korakov s pravo platformo za obdelavo in osrednjim registrom modelov se je izkazalo za velik mejnik pri standardizaciji in napredovanju do revizijskega, večkratno uporabljivega, učinkovitega in razložljivega poteka dela. . Ta projekt je načrt za različne ekipe za podatkovno znanost in je povečal splošno produktivnost, saj je članom omogočil delovanje, upravljanje in sodelovanje z najboljšimi praksami.

Če imate podoben primer uporabe in želite začeti, vam priporočamo uporabo SageMakerja Način skripta in SageMaker primeri od konca do konca z uporabo Sagemaker Studio. Ti primeri vsebujejo tehnične podrobnosti, ki so bile obravnavane v tem blogu.

Sodobna podatkovna strategija vam ponuja obsežen načrt za upravljanje, dostop, analizo in ukrepanje na podlagi podatkov. AWS zagotavlja najpopolnejši nabor storitev za celotno potovanje podatkov od konca do konca za vse delovne obremenitve, vse vrste podatkov in vse želene poslovne rezultate. Zaradi tega je AWS najboljše mesto za odklepanje vrednosti vaših podatkov in njihovo spreminjanje v vpogled.

O avtorjih

Hussain Jagirdar je višji znanstvenik – uporabne raziskave pri Games24x7. Trenutno je vključen v raziskovalna prizadevanja na področju razložljive umetne inteligence in globokega učenja. Njegovo nedavno delo je vključevalo globoko generativno modeliranje, modeliranje časovnih vrst in sorodna podpodročja strojnega učenja in umetne inteligence. Prav tako je navdušen nad MLOps in standardizirajočimi projekti, ki zahtevajo omejitve, kot so razširljivost, zanesljivost in občutljivost.

Sumir Kumar je arhitekt rešitev pri AWS in ima več kot 13 let izkušenj v tehnološki industriji. Pri AWS tesno sodeluje s ključnimi strankami AWS pri oblikovanju in izvajanju rešitev v oblaku, ki rešujejo zapletene poslovne probleme. Zelo se navdušuje nad podatkovno analitiko in strojnim učenjem ter ima dokazane izkušnje pri pomoči organizacijam pri sprostitvi celotnega potenciala njihovih podatkov z uporabo AWS Cloud.