Hur Games24x7 förvandlade sina omskolnings-MLOps-pipelines med Amazon SageMaker

Återutgiven av Platon

anhängare: 0

Det här är ett gästblogginlägg som skrivits tillsammans med Hussain Jagirdar från Games24x7.

Spel 24x7 är en av Indiens mest värdefulla flerspelsplattformar och underhåller över 100 miljoner spelare i olika skicklighetsspel. Med "Science of Gaming" som sin kärnfilosofi, har de möjliggjort en vision av end-to-end-informatik kring speldynamik, spelplattformar och spelare genom att konsolidera ortogonala forskningsriktningar för spel AI, speldatavetenskap och spelanvändarforskning. AI- och datavetenskapsteamet dyker ner i en uppsjö av multidimensionell data och kör en mängd olika användningsfall som optimering av spelarresa, upptäckt av spelåtgärder, hyperpersonalisering, kund 360 och mer på AWS.

Games24x7 använder ett automatiserat, datadrivet, AI-drivet ramverk för bedömning av varje spelares beteende genom interaktioner på plattformen och flaggar användare med avvikande beteende. De har byggt en djupinlärningsmodell ScarceGAN, som fokuserar på identifiering av extremt sällsynta eller knappa prover från flerdimensionell longitudinell telemetridata med små och svaga etiketter. Detta arbete har publicerats i CIKM'21 och är öppen källkod för sällsynt klassidentifiering för eventuella longitudinella telemetridata. Behovet av produktion och adoption av modellen var avgörande för att skapa en ryggrad bakom att möjliggöra ansvarsfullt spelande på deras plattform, där de flaggade användarna kan tas genom en annan resa av moderering och kontroll.

I det här inlägget delar vi hur Games24x7 förbättrade sina träningspipelines för deras ansvarsfulla spelplattform med hjälp av Amazon SageMaker.

Kundens utmaningar

DS/AI-teamet på Games24x7 använde flera tjänster från AWS, inklusive SageMaker-datorer, AWS stegfunktioner, AWS Lambdaoch Amazon EMR, för att bygga rörledningar för olika användningsfall. För att hantera driften i datadistribution, och därför för att träna om sin ScarceGAN-modell, upptäckte de att det befintliga systemet behövde en bättre MLOps-lösning.

I den föregående pipelinen genom Step Functions körde en enda monolitkodbas dataförbearbetning, omskolning och utvärdering. Detta blev en flaskhals vid felsökning, tillägg eller borttagning av ett steg, eller till och med i att göra några små förändringar i den övergripande infrastrukturen. Denna stegfunktion instansierade ett kluster av instanser för att extrahera och bearbeta data från S3 och de ytterligare stegen med förbearbetning, utbildning och utvärdering skulle köras på en enda stor EC2-instans. I scenarier där pipelinen misslyckades i något steg behövde hela arbetsflödet startas om från början, vilket resulterade i upprepade körningar och ökade kostnader. Alla utbildnings- och utvärderingsmått inspekterades manuellt från Amazon Simple Storage Service (Amazon S3). Det fanns ingen mekanism för att skicka och lagra metadata från de multipla experiment som gjordes på modellen. På grund av den decentraliserade modellövervakningen krävde grundlig undersökning och val av den bästa modellen timmar från datavetenskapsteamet. Ackumulering av alla dessa ansträngningar hade resulterat i lägre teamproduktivitet och ökade omkostnader. Dessutom, med ett snabbt växande team, var det mycket utmanande att dela denna kunskap i hela teamet.

Eftersom MLOps-koncept är mycket omfattande och att implementera alla steg skulle ta tid, bestämde vi oss för att i det första skedet skulle vi ta itu med följande kärnfrågor:

En säker, kontrollerad och mallbaserad miljö för att omskola vår interna modell för djupinlärning med hjälp av branschpraxis
En parametriserad träningsmiljö för att skicka en annan uppsättning parametrar för varje omskolningsjobb och granska de senaste körningarna
Möjligheten att visuellt spåra träningsmått och utvärderingsmått och ha metadata för att spåra och jämföra experiment
Möjligheten att skala varje steg individuellt och återanvända de tidigare stegen i fall av stegfel
En enda dedikerad miljö för att registrera modeller, lagra funktioner och anropa slutledningspipelines
En modern verktygsuppsättning som kan minimera beräkningskraven, sänka kostnaderna och driva hållbar ML-utveckling och drift genom att införliva flexibiliteten att använda olika instanser för olika steg
Skapa en benchmarkmall av toppmodern MLOps-pipeline som kan användas i olika datavetenskapsteam

Games24x7 började utvärdera andra lösningar, inklusive Amazon SageMaker Studio Pipelines. Den redan befintliga lösningen genom Step Functions hade begränsningar. Studiopipelines hade flexibiliteten att lägga till eller ta bort ett steg när som helst. Dessutom kan den övergripande arkitekturen och deras databeroende mellan varje steg visualiseras genom DAG. Utvärderingen och finjusteringen av omskolningsstegen blev ganska effektiv efter att vi anammat olika Amazon SageMaker-funktioner som Amazon SageMaker Studio, Pipelines, Processing, Training, modellregister och experiment och försök. AWS Solution Architecture-teamet visade en stor djupdykning och var verkligen avgörande i designen och implementeringen av denna lösning.

Lösningsöversikt

Följande diagram illustrerar lösningsarkitekturen.

arkitektur

Lösningen använder en SageMaker Studio miljö för att genomföra omskolningsexperimenten. Koden för att anropa pipeline-skriptet är tillgänglig i Studio-anteckningsböckerna, och vi kan ändra hyperparametrarna och input/output när vi anropar pipeline. Detta skiljer sig ganska mycket från vår tidigare metod där vi hade alla parametrar hårdkodade i skripten och alla processer var oupplösligt kopplade. Detta krävde modularisering av den monolitiska koden i olika steg.

Följande diagram illustrerar vår ursprungliga monolitiska process.

legacy-metod

Modularisering

För att skala, spåra och köra varje steg individuellt behövde den monolitiska koden modulariseras. Parametrar, data och kodberoende mellan varje steg togs bort, och delade moduler för de delade komponenterna över stegen skapades. En illustration av modulariseringen visas nedan:-

mono-modulär-sagemaker

För varje enskild modul gjordes testning lokalt med SageMaker SDK:s Skriptläge för utbildning, bearbetning och utvärdering som krävde mindre ändringar i koden för att köras med SageMaker. De lokalt lägestestning för djupinlärning kan skript göras antingen på SageMaker-anteckningsböcker om de redan används eller genom att använda Lokalt läge med SageMaker Pipelines vid direktstart med Pipelines. Detta hjälper till att validera om våra anpassade skript kommer att köras på SageMaker-instanser.

Varje modul testades sedan isolerat med SageMaker Training/processing SDK:s Skriptläge och körde dem i en sekvens manuellt med SageMaker-instanserna för varje steg som nedanstående träningssteg:

estimator = TensorFlow( entry_point="inference.py", source_dir="scripts_train/training/", instance_type="ml.c5.2xlarge", # Running on SageMaker ML instances instance_count=1, hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), # Passes to the container the AWS role that you are using on this notebook framework_version="2.11", py_version="py39",
) estimator.fit(inputs)
2022-09-28 11:10:34 Starting - Starting the training job...

Amazon S3 användes för att få källdata att bearbeta och sedan lagra mellanliggande data, dataramar och NumPy-resultat tillbaka till Amazon S3 för nästa steg. Efter att integrationstestningen mellan individuella moduler för förbearbetning, utbildning, utvärdering var klar, den SageMaker Pipeline SDK:er som är integrerad med SageMaker Python SDK:s som vi redan använde i stegen ovan, gjorde det möjligt för oss att koppla ihop alla dessa moduler programmatiskt genom att skicka ingångsparametrarna, data, metadata och utdata från varje steg som en ingång till nästa steg.

Vi kunde återanvända den tidigare Sagemaker Python SDK-koden för att köra modulerna individuellt i Sagemaker Pipeline SDK-baserade körningar. Relationerna mellan varje steg i pipelinen bestäms av databeroendet mellan stegen.

De sista stegen i pipelinen är följande:

Förbehandling av data
Omskolning
Utvärdering
Modellregistrering

dag-pipeline

I följande avsnitt diskuterar vi vart och ett av stegen mer i detalj när de körs med SageMaker Pipeline SDK:er.

Förbehandling av data

Detta steg omvandlar rå indata och förprocesser och delas upp i tåg-, validerings- och testuppsättningar. För detta bearbetningssteg instansierade vi ett SageMaker-bearbetningsjobb med TensorFlow Framework Processor, som tar vårt skript, kopierar data från Amazon S3 och drar sedan en Docker-bild som tillhandahålls och underhålls av SageMaker. Den här Docker-behållaren tillät oss att skicka våra biblioteksberoenden i filen requirement.txt samtidigt som alla TensorFlow-biblioteken redan var inkluderade, och skicka sökvägen till source_dir för skriptet. Tåg- och valideringsdata går till träningssteget och testdata vidarebefordras till utvärderingssteget. Det bästa med att använda den här behållaren var att den tillät oss att skicka en mängd olika ingångar och utgångar som olika S3-platser, som sedan kunde skickas som ett steg beroende till nästa steg i SageMaker-pipelinen.

#Initialize the TensorFlowProcessor
tp = TensorFlowProcessor( framework_version='2.11', role=get_execution_role(), instance_type='ml.m5.xlarge', instance_count=1, base_job_name='frameworkprocessor-TF', py_version='py39', sagemaker_session=pipeline_session, )
from sagemaker.processing import ProcessingInput, ProcessingOutput
from sagemaker.workflow.steps import ProcessingStep
processor_args = tp.run( code='new_data_collection_kfold.py', source_dir='scripts_processing', inputs=[ ProcessingInput(input_name='data_unlabeled',source=data_unlabeled, destination="/opt/ml/processing/data_unlabeled"), ProcessingInput(input_name='data_risky',source=data_risky, destination= "/opt/ml/processing/data_risky"), ProcessingInput(input_name='data_dormant',source=data_dormant, destination= "/opt/ml/processing/data_dormant"), ProcessingInput(input_name='data_normal',source=data_normal, destination= "/opt/ml/processing/data_normal"), ProcessingInput(input_name='data_heavy',source=data_heavy, destination= "/opt/ml/processing/data_heavy") ], outputs=[ ProcessingOutput(output_name="train_output_data", source="/opt/ml/processing/train/data", destination=f's3://{BUCKET}/{op_train_path}/data'), ProcessingOutput(output_name="train_output_label", source="/opt/ml/processing/train/label", destination=f's3://{BUCKET}/{op_train_path}/label'), ProcessingOutput(output_name="train_kfold_output_data", source="/opt/ml/processing/train/kfold/data", destination=f's3://{BUCKET}/{op_train_path}/kfold/data'), ProcessingOutput(output_name="train_kfold_output_label", source="/opt/ml/processing/train/kfold/label", destination=f's3://{BUCKET}/{op_train_path}/kfold/label'), ProcessingOutput(output_name="val_output_data", source="/opt/ml/processing/val/data", destination=f's3://{BUCKET}/{op_val_path}/data'), ProcessingOutput(output_name="val_output_label", source="/opt/ml/processing/val/label", destination=f's3://{BUCKET}/{op_val_path}/label'), ProcessingOutput(output_name="val_output_kfold_data", source="/opt/ml/processing/val/kfold/data", destination=f's3://{BUCKET}/{op_val_path}/kfold/data'), ProcessingOutput(output_name="val_output_kfold_label", source="/opt/ml/processing/val/kfold/label", destination=f's3://{BUCKET}/{op_val_path}/kfold/label'), ProcessingOutput(output_name="train_unlabeled_kfold_data", source="/opt/ml/processing/train/unlabeled/kfold/", destination=f's3://{BUCKET}/{op_train_path}/unlabeled/kfold/'), ProcessingOutput(output_name="test_output", source="/opt/ml/processing/test", destination=f's3://{BUCKET}/{op_test_path}') ], arguments=["--scaler_path", op_scaler_path, "--bucket", BUCKET],
)

Omskolning

Vi lade utbildningsmodulen igenom SageMaker-rörledningar TrainingStep API och använde redan tillgängliga behållarebilder för djupinlärning genom TensorFlow Framework-estimatorn (även känd som skriptläge) för SageMaker-utbildning. Skriptläget tillät oss att ha minimala ändringar i vår träningskod, och SageMaker förbyggda Docker-behållaren hanterar Python, Framework-versionerna och så vidare. ProcessingOutputs från Data_Preprocessing steg vidarebefordrades som TrainingInput för detta steg.

from sagemaker.inputs import TrainingInput inputs={ "train_output_data": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_data"].S3Output.S3Uri, content_type="text/csv", ), "train_output_label": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_label"].S3Output.S3Uri, content_type="text/csv", )

Alla hyperparametrar skickades genom estimatorn genom en JSON-fil. För varje epok i vår träning skickade vi redan våra träningsmått genom stdOut i manuset. Eftersom vi ville spåra måtten för ett pågående träningsjobb och jämföra dem med tidigare träningsjobb, var vi bara tvungna att analysera denna StdOut genom att definiera måttenhetsdefinitionerna genom regex för att hämta måtten från StdOut för varje epok.

tensorflow_version = "2.11"
training_py_version = "py39"
training_instance_count = 1
training_instance_type = "ml.c5.2xlarge"
tf2_estimator = TensorFlow(
source_dir='scripts_train/training/',
entry_point='train.py',
instance_type=training_instance_type,
instance_count=training_instance_count,
framework_version=tensorflow_version,
hyperparameters=hyperparameters,
image_uri = "763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-training:2.11.0-cpu-py39-ubuntu20.04-sagemaker",
role=role,
base_job_name="Training-Marco-model",
py_version=training_py_version,
metric_definitions=[ {'Name': 'iteration', 'Regex': 'Iteration=(.*?);'},
{'Name': 'Discriminator_Supervised_Loss=', 'Regex': 'Discriminator_Supervised_Loss=(.*?);'},
{'Name': 'Discriminator_UnSupervised_Loss', 'Regex': 'Discriminator_UnSupervised_Loss=(.*?);'},
{'Name': 'Generator_Loss', 'Regex': 'Generator_Loss=(.*?);'},
{'Name': 'Accuracy_Supervised', 'Regex': 'Accuracy_Supervised=(.*?);'} ]
)

Det var intressant att förstå att SageMaker Pipelines automatiskt integreras med SageMaker Experiments API, som som standard skapar en experiment-, test- och testkomponent för varje körning. Detta gör det möjligt för oss att jämföra träningsmått som noggrannhet och precision över flera körningar som visas nedan.

experiment-api-display

För varje utbildningsjobb som körs genererar vi fyra olika modeller till Amazon S3 baserat på vår anpassade affärsdefinition.

Utvärdering

Det här steget laddar de tränade modellerna från Amazon S3 och utvärderar på våra anpassade mätvärden. Detta ProcessingStep tar modellen och testdatan som indata och dumpar rapporterna om modellens prestanda på Amazon S3.

Vi använder anpassade mätvärden, så för att kunna registrera dessa anpassade mätvärden till modellregistret behövde vi konvertera schemat för utvärderingsmåtten lagrade i Amazon S3 som CSV till SageMaker modellkvalitet JSON-utgång. Sedan kan vi registrera platsen för denna utvärderings JSON-mått till modellregistret.

Följande skärmdumpar visar ett exempel på hur vi konverterade en CSV till Sagemaker Model Quality JSON-format.

csv-metrics

evaluation-metrics-schema

Modellregistrering

Som nämnts tidigare skapade vi flera modeller i ett enda träningssteg, så vi var tvungna att använda en SageMaker Pipelines Lambda-integration för att registrera alla fyra modellerna i ett modellregister. För en enda modellregistrering kan vi använda ModelStep API för att skapa en SageMaker-modell i registret. För varje modell hämtar Lambda-funktionen modellartefakt och utvärderingsmått från Amazon S3 och skapar ett modellpaket till ett specifikt ARN, så att alla fyra modellerna kan registreras i ett enda modellregister. SageMaker Python API:er tillät oss också att skicka anpassade metadata som vi ville skicka för att välja de bästa modellerna. Detta visade sig vara en viktig milstolpe för produktiviteten eftersom alla modeller nu kan jämföras och granskas från ett enda fönster. Vi tillhandahöll metadata för att unikt skilja modellen från varandra. Detta hjälpte också till att godkänna en enda modell med hjälp av peer-reviews och ledningsgranskningar baserade på modellmått.

def register_model_version(model_url, model_package_group_name, model_metrics_path, key, run_id): modelpackage_inference_specification = { "InferenceSpecification": { "Containers": [ { "Image": '763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-inference:2.11.0-cpu-py39-ubuntu20.04-sagemaker', "ModelDataUrl": model_url } ], "SupportedContentTypes": [ "text/csv" ], "SupportedResponseMIMETypes": [ "text/csv" ], } } ModelMetrics={ 'ModelQuality': { 'Statistics': { 'ContentType': 'application/json', 'S3Uri': model_metrics_path }, } } create_model_package_input_dict = { "ModelPackageGroupName" : model_package_group_name, "ModelPackageDescription" : key+" run_id:"+run_id, # additional metadata example "ModelApprovalStatus" : "PendingManualApproval", "ModelMetrics" : ModelMetrics } create_model_package_input_dict.update(modelpackage_inference_specification) create_model_package_response = sm_client.create_model_package(**create_model_package_input_dict) model_package_arn = create_model_package_response["ModelPackageArn"] return model_package_arn

Ovanstående kodblock visar ett exempel på hur vi lade till metadata genom modellpaketinmatning till modellregistret tillsammans med modellmåtten.

Skärmdumpen nedan visar hur enkelt vi kan jämföra mätvärden för olika modellversioner när de väl är registrerade.

modell-register-jämförelse

Pipeline Invocation

Pipelinjen kan anropas genom EventBridge , Sagemaker Studio eller SDK sig. Anropet kör jobben baserat på databeroendena mellan stegen.

from sagemaker.workflow.pipeline import Pipeline pipeline = Pipeline( name=pipeline_name, steps=[Preprocess-Kfold,Training-Marco,Evaluate-Marco,ScarceGAN-Model-register]
) definition = json.loads(pipeline.definition())
pipeline.upsert(role_arn=role)
execution = pipeline.start()
execution.wait()

Slutsats

I det här inlägget demonstrerade vi hur Games24x7 förvandlade sina MLOps-tillgångar genom SageMaker-pipelines. Möjligheten att visuellt spåra träningsmått och utvärderingsmått, med parametriserad miljö, skala stegen individuellt med rätt bearbetningsplattform och ett centralt modellregister visade sig vara en viktig milstolpe i standardisering och avancemang till ett revisionsbart, återanvändbart, effektivt och förklarande arbetsflöde . Detta projekt är en plan för olika datavetenskapsteam och har ökat den totala produktiviteten genom att låta medlemmarna driva, hantera och samarbeta med bästa praxis.

Om du har ett liknande användningsfall och vill komma igång rekommenderar vi att du går igenom SageMaker Skriptläge och SageMaker slut till slut exempel med Sagemaker Studio. Dessa exempel har de tekniska detaljerna som har behandlats i den här bloggen.

En modern datastrategi ger dig en omfattande plan för att hantera, komma åt, analysera och agera utifrån data. AWS tillhandahåller den mest kompletta uppsättningen tjänster för hela end-to-end-dataresan för alla arbetsbelastningar, alla typer av data och alla önskade affärsresultat. Detta gör i sin tur AWS till det bästa stället att låsa upp värde från din data och omvandla den till insikt.

Om författarna

Hussain Jagirdar är senior vetenskapsman – tillämpad forskning på Games24x7. Han är för närvarande involverad i forskningsinsatser inom området förklarlig AI och djupinlärning. Hans senaste arbete har involverat djupgående generativ modellering, tidsseriemodellering och relaterade delområden av maskininlärning och AI. Han brinner också för MLOps och standardisering av projekt som kräver begränsningar som skalbarhet, tillförlitlighet och känslighet.

Sumir Kumar är Solutions Architect på AWS och har över 13 års erfarenhet inom teknikindustrin. På AWS arbetar han nära AWS nyckelkunder för att designa och implementera molnbaserade lösningar som löser komplexa affärsproblem. Han brinner mycket för dataanalys och maskininlärning och har en bevisad meritlista i att hjälpa organisationer att låsa upp den fulla potentialen hos deras data med hjälp av AWS Cloud.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Minting the Future med Adryenn Ashley. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/how-games24x7-transformed-their-retraining-mlops-pipelines-with-amazon-sagemaker/

Tidsstämpel: 12 april 2023

Tidsstämpel: Februari 14, 2023

Återutgiven av Platon

Amazon SageMaker inbyggda LightGBM erbjuder nu distribuerad utbildning med Dask

Integrera ServiceNow med Amazon Lex chatbot för ärendehantering

Ny teknisk djupdykningskurs: Generative AI Foundations på AWS | Amazon webbtjänster

Uppnå övervakning av företagsklass för dina Amazon SageMaker-modeller med Fiddler

Accelerera din karriär med ML-kunskaper genom AWS Machine Learning Engineer Scholarship

Mät affärseffekten av Amazons personliga rekommendationer

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto