Como a Games24x7 transformou seus pipelines de MLOps de reciclagem com o Amazon SageMaker

Republicado por Platão

seguidores: 0

Este é um post de blog convidado co-escrito com Hussain Jagirdar da Games24x7.

Jogos 24x7 é uma das plataformas multijogos mais valiosas da Índia e entretém mais de 100 milhões de jogadores em vários jogos de habilidade. Com a “Ciência do jogo” como sua filosofia central, eles permitiram uma visão de informática de ponta a ponta em torno da dinâmica do jogo, plataformas de jogos e jogadores, consolidando direções de pesquisa ortogonais de IA de jogos, ciência de dados de jogos e pesquisa de usuários de jogos. A equipe de IA e ciência de dados mergulha em uma infinidade de dados multidimensionais e executa uma variedade de casos de uso, como otimização de jornada do jogador, detecção de ação do jogo, hiperpersonalização, cliente 360 e muito mais na AWS.

O Games24x7 emprega uma estrutura automatizada, baseada em dados e alimentada por IA para a avaliação do comportamento de cada jogador por meio de interações na plataforma e sinaliza os usuários com comportamento anômalo. Eles construíram um modelo de aprendizado profundo ScarceGAN, que se concentra na identificação de amostras extremamente raras ou escassas de dados de telemetria longitudinal multidimensional com rótulos pequenos e fracos. Este trabalho foi publicado em CIKM'21 e é open source para identificação de classe rara para quaisquer dados de telemetria longitudinal. A necessidade de produção e adoção do modelo foi fundamental para criar um backbone por trás de permitir um jogo responsável em sua plataforma, onde os usuários sinalizados podem ser conduzidos por uma jornada diferente de moderação e controle.

Nesta postagem, compartilhamos como a Games24x7 melhorou seus pipelines de treinamento para sua plataforma de jogo responsável usando Amazon Sage Maker.

desafios do cliente

A equipe DS/AI da Games24x7 usou vários serviços fornecidos pela AWS, incluindo notebooks SageMaker, Funções de etapa da AWS, AWS Lambda e Amazon EMR, para criar pipelines para vários casos de uso. Para lidar com o desvio na distribuição de dados e, portanto, treinar novamente seu modelo ScarceGAN, eles descobriram que o sistema existente precisava de uma solução MLOps melhor.

No pipeline anterior por meio do Step Functions, uma única base de código monolítica executava pré-processamento, retreinamento e avaliação de dados. Isso se tornou um gargalo na solução de problemas, adição ou remoção de uma etapa ou até mesmo na realização de algumas pequenas alterações na infraestrutura geral. Essa função de etapa instanciava um cluster de instâncias para extrair e processar dados do S3 e as etapas posteriores de pré-processamento, treinamento e avaliação seriam executadas em uma única instância grande do EC2. Em cenários em que o pipeline falhava em qualquer etapa, todo o fluxo de trabalho precisava ser reiniciado desde o início, o que resultava em execuções repetidas e aumento de custos. Todas as métricas de treinamento e avaliação foram inspecionadas manualmente a partir do Amazon Simple Storage Service (Amazon S3). Não havia nenhum mecanismo para passar e armazenar os metadados dos vários experimentos feitos no modelo. Devido ao monitoramento de modelo descentralizado, a investigação completa e a escolha do melhor modelo exigiram horas da equipe de ciência de dados. A acumulação de todos esses esforços resultou em menor produtividade da equipe e aumento de despesas gerais. Além disso, com uma equipe em rápido crescimento, foi muito desafiador compartilhar esse conhecimento com toda a equipe.

Como os conceitos de MLOps são muito extensos e a implementação de todas as etapas levaria tempo, decidimos que na primeira etapa abordaríamos as seguintes questões centrais:

Um ambiente seguro, controlado e modelado para retreinar nosso modelo interno de aprendizado profundo usando as melhores práticas do setor
Um ambiente de treinamento parametrizado para enviar um conjunto diferente de parâmetros para cada trabalho de retreinamento e auditar as últimas execuções
A capacidade de rastrear visualmente métricas de treinamento e métricas de avaliação e ter metadados para rastrear e comparar experimentos
A capacidade de dimensionar cada etapa individualmente e reutilizar as etapas anteriores em casos de falhas nas etapas
Um único ambiente dedicado para registrar modelos, armazenar recursos e invocar pipelines de inferência
Um conjunto de ferramentas moderno que pode minimizar os requisitos de computação, reduzir os custos e impulsionar o desenvolvimento e as operações sustentáveis de ML, incorporando a flexibilidade de usar diferentes instâncias para diferentes etapas
Criação de um modelo de benchmark de pipeline MLOps de última geração que pode ser usado em várias equipes de ciência de dados

Games24x7 começou a avaliar outras soluções, incluindo Pipelines do Amazon SageMaker Studio. A solução já existente através do Step Functions tinha limitações. Os pipelines do Studio tinham a flexibilidade de adicionar ou remover uma etapa a qualquer momento. Além disso, a arquitetura geral e suas dependências de dados entre cada etapa podem ser visualizadas por meio de DAGs. A avaliação e o ajuste fino das etapas de retreinamento tornaram-se bastante eficientes após adotarmos diversas funcionalidades do Amazon SageMaker como Amazon SageMaker Studio, Pipelines, Processing, Training, cadastro de modelos e experimentos e testes. A equipe de arquitetura de soluções da AWS mostrou grande profundidade e foi realmente fundamental no design e implementação desta solução.

Visão geral da solução

O diagrama a seguir ilustra a arquitetura da solução.

arquitetura

A solução usa um Estúdio SageMaker ambiente para executar os experimentos de retreinamento. O código para invocar o script do pipeline está disponível nos notebooks do Studio, e podemos alterar os hiperparâmetros e entrada/saída ao invocar o pipeline. Isso é bem diferente do nosso método anterior, no qual tínhamos todos os parâmetros codificados nos scripts e todos os processos estavam indissociavelmente vinculados. Isso exigia a modularização do código monolítico em diferentes etapas.

O diagrama a seguir ilustra nosso processo monolítico original.

método legado

Modularização

Para dimensionar, rastrear e executar cada etapa individualmente, o código monolítico precisava ser modularizado. Parâmetros, dados e dependências de código entre cada etapa foram removidos e foram criados módulos compartilhados para os componentes compartilhados nas etapas. Uma ilustração da modularização é mostrada abaixo: -

sagemaker mono-modular

Para cada módulo, o teste foi feito localmente usando o SDK do SageMaker Modo de script para treinamento, processamento e avaliação que necessárias pequenas alterações no código para executar com o SageMaker. O teste de modo local para scripts de aprendizado profundo pode ser feito em notebooks SageMaker se já estiver sendo usado ou usando Modo local usando pipelines do SageMaker no caso de iniciar diretamente com Pipelines. Isso ajuda a validar se nossos scripts personalizados serão executados em instâncias do SageMaker.

Cada módulo foi então testado isoladamente usando SageMaker Training/processing SDK's usando Modo de script e os executei em uma sequência manualmente usando as instâncias do SageMaker para cada etapa, como abaixo da etapa de treinamento:

estimator = TensorFlow( entry_point="inference.py", source_dir="scripts_train/training/", instance_type="ml.c5.2xlarge", # Running on SageMaker ML instances instance_count=1, hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), # Passes to the container the AWS role that you are using on this notebook framework_version="2.11", py_version="py39",
) estimator.fit(inputs)
2022-09-28 11:10:34 Starting - Starting the training job...

O Amazon S3 foi usado para obter os dados de origem para processar e, em seguida, armazenar os dados intermediários, quadros de dados e resultados NumPy de volta ao Amazon S3 para a próxima etapa. Depois que o teste de integração entre os módulos individuais para pré-processamento, treinamento e avaliação foi concluído, o SageMaker Pipeline SDK que está integrado com os SDKs do SageMaker Python que já usamos nas etapas acima, nos permitiu encadear todos esses módulos programaticamente passando os parâmetros de entrada, dados, metadados e saída de cada etapa como uma entrada para as próximas etapas.

Poderíamos reutilizar o código Sagemaker Python SDK anterior para executar os módulos individualmente em execuções baseadas no Sagemaker Pipeline SDK. As relações entre cada etapa do pipeline são determinadas pelas dependências de dados entre as etapas.

As etapas finais do pipeline são as seguintes:

Pré-processamento de dados
Retreinamento
Avaliação
Registro de modelo

dag-pipeline

Nas seções a seguir, discutimos cada uma das etapas com mais detalhes quando executadas com os SDKs do SageMaker Pipeline.

Pré-processamento de dados

Esta etapa transforma os dados brutos de entrada e pré-processa e divide em conjuntos de treinamento, validação e teste. Para esta etapa de processamento, instanciamos um trabalho de processamento do SageMaker com Processador TensorFlow Framework, que pega nosso script, copia os dados do Amazon S3 e extrai uma imagem do Docker fornecida e mantida pelo SageMaker. Esse contêiner do Docker nos permitiu passar nossas dependências de biblioteca no arquivo requirements.txt com todas as bibliotecas do TensorFlow já incluídas e passar o caminho para source_dir para o script. Os dados de treinamento e validação vão para a etapa de treinamento e os dados de teste são encaminhados para a etapa de avaliação. A melhor parte de usar esse contêiner foi que ele nos permitiu passar uma variedade de entradas e saídas como diferentes locais do S3, que poderiam ser passadas como uma dependência de etapa para as próximas etapas no pipeline do SageMaker.

#Initialize the TensorFlowProcessor
tp = TensorFlowProcessor( framework_version='2.11', role=get_execution_role(), instance_type='ml.m5.xlarge', instance_count=1, base_job_name='frameworkprocessor-TF', py_version='py39', sagemaker_session=pipeline_session, )
from sagemaker.processing import ProcessingInput, ProcessingOutput
from sagemaker.workflow.steps import ProcessingStep
processor_args = tp.run( code='new_data_collection_kfold.py', source_dir='scripts_processing', inputs=[ ProcessingInput(input_name='data_unlabeled',source=data_unlabeled, destination="/opt/ml/processing/data_unlabeled"), ProcessingInput(input_name='data_risky',source=data_risky, destination= "/opt/ml/processing/data_risky"), ProcessingInput(input_name='data_dormant',source=data_dormant, destination= "/opt/ml/processing/data_dormant"), ProcessingInput(input_name='data_normal',source=data_normal, destination= "/opt/ml/processing/data_normal"), ProcessingInput(input_name='data_heavy',source=data_heavy, destination= "/opt/ml/processing/data_heavy") ], outputs=[ ProcessingOutput(output_name="train_output_data", source="/opt/ml/processing/train/data", destination=f's3://{BUCKET}/{op_train_path}/data'), ProcessingOutput(output_name="train_output_label", source="/opt/ml/processing/train/label", destination=f's3://{BUCKET}/{op_train_path}/label'), ProcessingOutput(output_name="train_kfold_output_data", source="/opt/ml/processing/train/kfold/data", destination=f's3://{BUCKET}/{op_train_path}/kfold/data'), ProcessingOutput(output_name="train_kfold_output_label", source="/opt/ml/processing/train/kfold/label", destination=f's3://{BUCKET}/{op_train_path}/kfold/label'), ProcessingOutput(output_name="val_output_data", source="/opt/ml/processing/val/data", destination=f's3://{BUCKET}/{op_val_path}/data'), ProcessingOutput(output_name="val_output_label", source="/opt/ml/processing/val/label", destination=f's3://{BUCKET}/{op_val_path}/label'), ProcessingOutput(output_name="val_output_kfold_data", source="/opt/ml/processing/val/kfold/data", destination=f's3://{BUCKET}/{op_val_path}/kfold/data'), ProcessingOutput(output_name="val_output_kfold_label", source="/opt/ml/processing/val/kfold/label", destination=f's3://{BUCKET}/{op_val_path}/kfold/label'), ProcessingOutput(output_name="train_unlabeled_kfold_data", source="/opt/ml/processing/train/unlabeled/kfold/", destination=f's3://{BUCKET}/{op_train_path}/unlabeled/kfold/'), ProcessingOutput(output_name="test_output", source="/opt/ml/processing/test", destination=f's3://{BUCKET}/{op_test_path}') ], arguments=["--scaler_path", op_scaler_path, "--bucket", BUCKET],
)

Retreinamento

Envolvemos o módulo de treinamento através do Pipelines SageMaker API TrainingStep e usei imagens de contêiner de aprendizado profundo já disponíveis por meio do estimador TensorFlow Framework (também conhecido como modo Script) para Treinamento SageMaker. O modo de script nos permitiu ter alterações mínimas em nosso código de treinamento, e o contêiner Docker pré-construído do SageMaker lida com o Python, versões do Framework e assim por diante. As saídas de processamento do Data_Preprocessing step foram encaminhados como o TrainingInput desta etapa.

from sagemaker.inputs import TrainingInput inputs={ "train_output_data": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_data"].S3Output.S3Uri, content_type="text/csv", ), "train_output_label": TrainingInput( s3_data=step_process.properties.ProcessingOutputConfig.Outputs["train_output_label"].S3Output.S3Uri, content_type="text/csv", )

Todos os hiperparâmetros foram passados pelo estimador por meio de um arquivo JSON. Para cada época em nosso treinamento, já estávamos enviando nossas métricas de treinamento por meio de stdOut no script. Como queríamos rastrear as métricas de um trabalho de treinamento contínuo e compará-las com trabalhos de treinamento anteriores, tivemos apenas que analisar esse StdOut definindo as definições de métrica por meio de regex para buscar as métricas de StdOut para cada época.

tensorflow_version = "2.11"
training_py_version = "py39"
training_instance_count = 1
training_instance_type = "ml.c5.2xlarge"
tf2_estimator = TensorFlow(
source_dir='scripts_train/training/',
entry_point='train.py',
instance_type=training_instance_type,
instance_count=training_instance_count,
framework_version=tensorflow_version,
hyperparameters=hyperparameters,
image_uri = "763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-training:2.11.0-cpu-py39-ubuntu20.04-sagemaker",
role=role,
base_job_name="Training-Marco-model",
py_version=training_py_version,
metric_definitions=[ {'Name': 'iteration', 'Regex': 'Iteration=(.*?);'},
{'Name': 'Discriminator_Supervised_Loss=', 'Regex': 'Discriminator_Supervised_Loss=(.*?);'},
{'Name': 'Discriminator_UnSupervised_Loss', 'Regex': 'Discriminator_UnSupervised_Loss=(.*?);'},
{'Name': 'Generator_Loss', 'Regex': 'Generator_Loss=(.*?);'},
{'Name': 'Accuracy_Supervised', 'Regex': 'Accuracy_Supervised=(.*?);'} ]
)

Foi interessante entender que o SageMaker Pipelines automaticamente integra-se com a API de experimentos do SageMaker, que por padrão cria um experimento, teste e componente de teste para cada execução. Isso nos permite comparar métricas de treinamento, como exatidão e precisão em várias execuções, conforme mostrado abaixo.

experimentos-api-display

Para cada execução de trabalho de treinamento, geramos quatro modelos diferentes para o Amazon S3 com base em nossa definição de negócios personalizada.

Avaliação

Esta etapa carrega os modelos treinados do Amazon S3 e avalia nossas métricas personalizadas. Este ProcessingStep usa o modelo e os dados de teste como entrada e despeja os relatórios de desempenho do modelo no Amazon S3.

Estamos usando métricas personalizadas, portanto, para registrar essas métricas personalizadas no registro do modelo, precisamos converter o esquema das métricas de avaliação armazenadas no Amazon S3 como CSV para o Qualidade do modelo SageMaker Saída JSON. Em seguida, podemos registrar a localização dessa métrica JSON de avaliação no registro do modelo.

As capturas de tela a seguir mostram um exemplo de como convertemos um CSV no formato JSON de qualidade do modelo Sagemaker.

métricas csv

avaliação-esquema-métrico

Registro de modelo

Como mencionado anteriormente, estávamos criando vários modelos em uma única etapa de treinamento, então tivemos que usar uma integração SageMaker Pipelines Lambda para registrar todos os quatro modelos em um registro de modelo. Para o registro de um único modelo, podemos usar o ModeloEtapa API para criar um modelo SageMaker no registro. Para cada modelo, a função do Lambda recupera o artefato do modelo e a métrica de avaliação do Amazon S3 e cria um pacote de modelo para um ARN específico, para que todos os quatro modelos possam ser registrados em um único registro de modelo. As APIs Python do SageMaker também nos permitiu enviar metadados personalizados que queríamos passar para selecionar os melhores modelos. Isso provou ser um marco importante para a produtividade porque todos os modelos agora podem ser comparados e auditados em uma única janela. Fornecemos metadados para distinguir exclusivamente o modelo um do outro. Isso também ajudou na aprovação de um modelo único com a ajuda de revisões por pares e revisões de gerenciamento com base nas métricas do modelo.

def register_model_version(model_url, model_package_group_name, model_metrics_path, key, run_id): modelpackage_inference_specification = { "InferenceSpecification": { "Containers": [ { "Image": '763104351884.dkr.ecr.ap-south-1.amazonaws.com/tensorflow-inference:2.11.0-cpu-py39-ubuntu20.04-sagemaker', "ModelDataUrl": model_url } ], "SupportedContentTypes": [ "text/csv" ], "SupportedResponseMIMETypes": [ "text/csv" ], } } ModelMetrics={ 'ModelQuality': { 'Statistics': { 'ContentType': 'application/json', 'S3Uri': model_metrics_path }, } } create_model_package_input_dict = { "ModelPackageGroupName" : model_package_group_name, "ModelPackageDescription" : key+" run_id:"+run_id, # additional metadata example "ModelApprovalStatus" : "PendingManualApproval", "ModelMetrics" : ModelMetrics } create_model_package_input_dict.update(modelpackage_inference_specification) create_model_package_response = sm_client.create_model_package(**create_model_package_input_dict) model_package_arn = create_model_package_response["ModelPackageArn"] return model_package_arn

O bloco de código acima mostra um exemplo de como adicionamos metadados por meio da entrada do pacote de modelo ao registro do modelo junto com as métricas do modelo.

A captura de tela abaixo mostra com que facilidade podemos comparar métricas de diferentes versões de modelo depois de registradas.

modelo-registro-comparação

Invocação de Pipeline

O pipeline pode ser chamado por meio de EventBridge , Sagemaker Studio ou o SDK em si. A chamada executa as tarefas com base nas dependências de dados entre as etapas.

from sagemaker.workflow.pipeline import Pipeline pipeline = Pipeline( name=pipeline_name, steps=[Preprocess-Kfold,Training-Marco,Evaluate-Marco,ScarceGAN-Model-register]
) definition = json.loads(pipeline.definition())
pipeline.upsert(role_arn=role)
execution = pipeline.start()
execution.wait()

Conclusão

Nesta postagem, demonstramos como a Games24x7 transformou seus ativos MLOps por meio dos pipelines do SageMaker. A capacidade de rastrear visualmente métricas de treinamento e métricas de avaliação, com ambiente parametrizado, escalar as etapas individualmente com a plataforma de processamento certa e um registro de modelo central provou ser um marco importante na padronização e avanço para um fluxo de trabalho auditável, reutilizável, eficiente e explicável . Este projeto é um modelo para diferentes equipes de ciência de dados e aumentou a produtividade geral, permitindo que os membros operem, gerenciem e colaborem com as melhores práticas.

Se você tiver um caso de uso semelhante e quiser começar, recomendamos usar o SageMaker Modo de script e os votos de Exemplos de ponta a ponta do SageMaker usando o Sagemaker Studio. Esses exemplos têm os detalhes técnicos que foram abordados neste blog.

Uma estratégia de dados moderna oferece um plano abrangente para gerenciar, acessar, analisar e agir com base nos dados. A AWS fornece o conjunto mais completo de serviços para toda a jornada de dados de ponta a ponta para todas as cargas de trabalho, todos os tipos de dados e todos os resultados de negócios desejados. Por sua vez, isso torna a AWS o melhor lugar para extrair valor de seus dados e transformá-los em insights.

Sobre os autores

Hussain Jagirdar é Cientista Sênior – Pesquisa Aplicada na Games24x7. Atualmente, ele está envolvido em esforços de pesquisa na área de IA explicável e aprendizado profundo. Seu trabalho recente envolveu modelagem generativa profunda, modelagem de séries temporais e subáreas relacionadas de aprendizado de máquina e IA. Ele também é apaixonado por MLOps e projetos de padronização que exigem restrições como escalabilidade, confiabilidade e sensibilidade.

Sumir Kumar é arquiteto de soluções da AWS e tem mais de 13 anos de experiência no setor de tecnologia. Na AWS, ele trabalha de perto com os principais clientes da AWS para projetar e implementar soluções baseadas em nuvem que resolvem problemas complexos de negócios. Ele é muito apaixonado por análise de dados e aprendizado de máquina e tem um histórico comprovado de ajudar as organizações a liberar todo o potencial de seus dados usando a Nuvem AWS.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Cunhando o Futuro com Adryenn Ashley. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/how-games24x7-transformed-their-retraining-mlops-pipelines-with-amazon-sagemaker/

Carimbo de hora: 12 de abril de 2023

Carimbo de hora: 14 fevereiro de 2023

Republicado por Platão

O LightGBM integrado do Amazon SageMaker agora oferece treinamento distribuído usando o Dask

Integre o ServiceNow ao chatbot do Amazon Lex para processamento de tíquetes

Novo curso de aprofundamento técnico: Generative AI Foundations na AWS | Amazon Web Services

Obtenha monitoramento de nível empresarial para seus modelos do Amazon SageMaker usando o Fiddler

Acelere sua carreira com habilidades de ML por meio da bolsa AWS Machine Learning Engineer

Avalie o impacto comercial das recomendações personalizadas da Amazon

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta