Personalizar o contêiner do algoritmo Amazon SageMaker XGBoost

Republicado por Platão

seguidores: 0

A built-in Amazon Sage Maker O algoritmo XGBoost fornece um contêiner gerenciado para executar o popular XGBoostName estrutura de aprendizado de máquina (ML), com conveniência adicional de suporte a treinamento avançado ou recursos de inferência, como treinamento distribuído, fragmentação de conjunto de dados para conjuntos de dados em grande escala, Teste de modelo A/Bou inferência multimodelo pontos finais. Você também pode estender esse algoritmo poderoso para acomodar diferentes requisitos.

Empacotar o código e as dependências em um único contêiner é uma abordagem conveniente e robusta para fins de manutenção, reprodutibilidade e auditoria de código de longo prazo. A modificação do contêiner segue fielmente o contêiner base e evita a duplicação de funções existentes já suportadas pelo contêiner base. Nesta postagem, revisamos o funcionamento interno do contêiner do algoritmo SageMaker XGBoost e fornecemos scripts pragmáticos para personalizar diretamente o contêiner.

Estrutura do contêiner SageMaker XGBoost

O algoritmo XGBoost integrado do SageMaker é empacotado como um contêiner independente, disponível no GitHub, e pode ser estendido sob a licença de código aberto Apache 2.0, amigável ao desenvolvedor. O contêiner embala o algoritmo XGBoost de código aberto e ferramentas auxiliares para executar o algoritmo no ambiente SageMaker integrado com outros serviços da Nuvem AWS. Isso permite treinar modelos XGBoost em uma variedade de fontes de dados, faço previsões em lote em dados off-line ou hospedar um ponto final de inferência em tempo real oleoduto.

O contêiner oferece suporte a operações de treinamento e inferência com diferentes pontos de entrada. Para o modo de inferência, a entrada pode ser encontrada na função principal no script servindo.py. Para servir inferência em tempo real, o contêiner executa um FrascoBaseada servidor web que quando invocado, recebe uma solicitação codificada em HTTP contendo os dados, decodifica os dados no XGBoost Matriz D formato, carrega o modelo, e retorna um Resposta codificada em HTTP de volta. Esses métodos são encapsulados sob o Serviço de pontuação class, que também pode ser amplamente customizada através do modo script (veja o Apêndice abaixo).

O ponto de entrada para o modo de treinamento (modo algoritmo) é a função principal no treinamento.py. A função principal configura o ambiente de treinamento e chama a função de trabalho de treinamento. É flexível o suficiente para permitir treinamento distribuído ou de nó único, ou utilitários como validação cruzada. O cerne do processo de treinamento pode ser encontrado no train_job função.

Os arquivos Docker que empacotam o contêiner podem ser encontrados no GitHub repo. Observe que o contêiner é construído em duas etapas: uma base o contêiner é construído primeiro, seguido pelo final recipiente por cima.

Visão geral da solução

Você pode modificar e reconstruir o contêiner por meio do código-fonte. No entanto, isso envolve coletar e reconstruir todas as dependências e pacotes do zero. Nesta postagem, discutimos uma abordagem mais direta que modifica diretamente o contêiner sobre a imagem do contêiner do algoritmo SageMaker XGBoost já construída e disponível publicamente.

Nesta abordagem, nós puxar uma cópia da imagem pública do SageMaker XGBoost, modifique os scripts ou adicione pacotes e reconstrua o contêiner na parte superior. O contêiner modificado pode ser armazenado em um repositório privado. Dessa forma, evitamos reconstruir dependências intermediárias e, em vez disso, construímos diretamente sobre as bibliotecas já construídas, empacotadas no contêiner oficial.

A figura a seguir mostra uma visão geral do script usado para extrair a imagem de base pública, modificar e reconstruir a imagem e carregá-la em um servidor privado. Registro do Amazon Elastic Container (Amazon ECR). O script bash no código que acompanha esta postagem executa todas as etapas do fluxo de trabalho mostradas no diagrama. O acompanhamento caderno mostra um exemplo onde o URI de uma versão específica do algoritmo SageMaker XGBoost é primeiro recuperado e passado para o script bash, que substitui dois dos scripts Python na imagem, recria-a e envia a imagem modificada para um repositório privado do Amazon ECR. Você pode modificar o código que acompanha para atender às suas necessidades.

Pré-requisitos

A Repositório GitHub contém o código que acompanha esta postagem. Você pode executar o caderno de amostra em sua conta da AWS ou use o fornecido Formação da Nuvem AWS pilha para implantar o notebook usando um notebook SageMaker. Você precisa dos seguintes pré-requisitos:

Uma conta AWS.
Permissões necessárias para executar trabalhos de transformação e treinamento em lote do SageMaker e privilégios do Amazon ECR. O modelo CloudFormation cria amostra Gerenciamento de acesso e identidade da AWS (IAM).

Implante a solução

Para criar os recursos da sua solução usando o AWS CloudFormation, escolha Pilha de Lançamento:

A pilha implanta um notebook SageMaker pré-configurado para clonar o repositório GitHub. O passo a passo caderno inclui as etapas para extrair a imagem pública do SageMaker XGBoost para uma determinada versão, modificá-la e enviar o contêiner personalizado para um repositório privado do Amazon ECR. O notebook usa o público Conjunto de dados de abalone como exemplo, treina um modelo usando o modo de treinamento integrado do SageMaker XGBoost e reutiliza esse modelo na imagem personalizada para executar trabalhos de transformação em lote que produzem inferência junto com valores SHAP.

Conclusão

Os algoritmos integrados do SageMaker fornecem uma variedade de recursos e funcionalidades e podem ser estendidos ainda mais sob a licença de código aberto Apache 2.0. Nesta postagem, revisamos como estender o contêiner integrado de produção para o algoritmo SageMaker XGBoost para atender aos requisitos de produção, como código retroativo e compatibilidade de API.

O caderno de amostra e auxiliar Scripts fornece um ponto de partida conveniente para personalizar a imagem do contêiner SageMaker XGBoost da maneira que você deseja. De uma chance!

Apêndice: Modo Script

Modo de script fornece uma maneira de modificar muitos algoritmos integrados do SageMaker, fornecendo uma interface para substituir as funções responsáveis por transformar as entradas e carregar o modelo. O modo script não é tão flexível quanto modificar diretamente o contêiner, mas fornece uma rota totalmente baseada em Python para personalizar o algoritmo integrado sem a necessidade de trabalhar diretamente com Estivador.

No modo script, um user-module é fornecido para personalizar a decodificação de dados, o carregamento do modelo e a realização de previsões. O módulo do usuário pode definir um transformer_fn que lida com todos os aspectos do processamento da solicitação até a preparação da resposta. Ou em vez de definir transformer_fn, você pode fornecer métodos personalizados model_fn, input_fn, predict_fn e output_fn individualmente para personalizar o carregamento do modelo e a decodificação e preparação da entrada para previsão. Para uma visão geral mais completa do modo de script, consulte Traga seu próprio modelo com o modo de script SageMaker.

Sobre os autores

Personalize o contêiner de algoritmo PlatoBlockchain Data Intelligence do Amazon SageMaker XGBoost. Pesquisa Vertical. Ai. Peyman Razaghi é cientista de dados na AWS. Ele possui doutorado em teoria da informação pela Universidade de Toronto e foi pesquisador de pós-doutorado na Universidade do Sul da Califórnia (USC), em Los Angeles. Antes de ingressar na AWS, Peyman foi engenheiro de sistemas da Qualcomm, contribuindo para vários padrões internacionais de telecomunicações notáveis. Ele é autor de vários artigos de pesquisa científica revisados por pares na área de estatística e engenharia de sistemas, e gosta de ser pai e andar de bicicleta fora do trabalho.

Carimbo de hora: 5 de abril de 2022

Carimbo de hora: 3 Agosto , 2023

Personalize o contêiner do algoritmo XGBoost do Amazon SageMaker

Republicado por Platão

Estrutura do contêiner SageMaker XGBoost

Visão geral da solução

Pré-requisitos

Implante a solução

Conclusão

Apêndice: Modo Script

Sobre os autores

Mais de Aprendizado de máquina da AWS

Identifique a causa raiz potencial em anomalias críticas para os negócios usando o Amazon Lookout for Metrics

Preparação unificada de dados, treinamento de modelos e implantação com Amazon SageMaker Data Wrangler e Amazon SageMaker Autopilot – Parte 2

MDaudit usa IA para melhorar resultados de receita para clientes de saúde | Amazon Web Services

Novos recursos para o Amazon SageMaker Pipelines e o Amazon SageMaker SDK

Como a Amp na Amazon usou dados para aumentar o engajamento do cliente, Parte 1: Construindo uma plataforma de análise de dados

Anunciando o lançamento do recurso de cópia de modelo para rótulos personalizados do Amazon Rekognition

As bases de conhecimento do Amazon Bedrock agora oferecem suporte à filtragem de metadados para melhorar a precisão da recuperação | Amazon Web Services

Crie aplicativos de IA generativos prontos para produção para pesquisa corporativa usando pipelines Haystack e Amazon SageMaker JumpStart com LLMs | Amazon Web Services

Aproveitando a inteligência artificial e o aprendizado de máquina na Parsons com o AWS DeepRacer

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta