Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler

Republicado por Platão

seguidores: 0

Gerenciador de dados do Amazon SageMaker ajuda você a entender, agregar, transformar e preparar dados para aprendizado de máquina (ML) a partir de uma única interface visual. Ele contém mais de 300 transformações de dados integradas para que você possa normalizar, transformar e combinar recursos rapidamente sem precisar escrever nenhum código.

Os profissionais de ciência de dados geram, observam e processam dados para resolver problemas de negócios em que precisam transformar e extrair recursos de conjuntos de dados. Transformações como codificação ordinal ou codificação one-hot aprendem codificações em seu conjunto de dados. Essas saídas codificadas são referidas como parâmetros treinados. Como os conjuntos de dados mudam com o tempo, pode ser necessário reajustar as codificações em dados não vistos anteriormente para manter o fluxo de transformação relevante para seus dados.

Temos o prazer de anunciar o recurso de reajuste de parâmetros treinados, que permite usar parâmetros treinados anteriores e reajustá-los conforme desejado. Neste post, demonstramos como usar esse recurso.

Visão geral do recurso de reajuste do Data Wrangler

Ilustramos como esse recurso funciona com o exemplo a seguir, antes de nos aprofundarmos nas especificidades do recurso de parâmetro treinado de reajuste.

Suponha que o conjunto de dados do cliente tenha um recurso categórico para country representado como strings como Australia e Singapore. Os algoritmos de ML requerem entradas numéricas; portanto, esses valores categóricos devem ser codificados para valores numéricos. A codificação de dados categóricos é o processo de criação de uma representação numérica para categorias. Por exemplo, se o país da sua categoria tiver valores Australia e Singapore, você pode codificar esta informação em dois vetores: [1, 0] para representar Australia e [0, 1] para representar Singapore. A transformação usada aqui é codificação one-hot e a nova saída codificada reflete os parâmetros treinados.

Após treinar o modelo, com o tempo seus clientes poderão aumentar e você terá valores mais distintos na lista de países. O novo conjunto de dados pode conter outra categoria, India, que não fazia parte do conjunto de dados original, o que pode afetar a precisão do modelo. Portanto, é necessário treinar novamente seu modelo com os novos dados coletados ao longo do tempo.

Para superar esse problema, você precisa atualizar a codificação para incluir a nova categoria e atualizar a representação vetorial de acordo com seu conjunto de dados mais recente. Em nosso exemplo, a codificação deve refletir a nova categoria para o country, o que é India. Geralmente nos referimos a esse processo de atualização de uma codificação como uma operação de reajuste. Depois de executar a operação de reajuste, você obtém a nova codificação: Australia: [1, 0, 0], Singapore: [0, 1, 0] e India: [0, 0, 1]. Reajustar a codificação one-hot e, em seguida, treinar novamente o modelo no novo conjunto de dados resulta em previsões de melhor qualidade.

O recurso de parâmetro treinado de reajuste do Data Wrangler é útil nos seguintes casos:

Novos dados são adicionados ao conjunto de dados – Retreinar o modelo de ML é necessário quando o conjunto de dados é enriquecido com novos dados. Para obter resultados ideais, precisamos reajustar os parâmetros treinados no novo conjunto de dados.
Treinamento em um conjunto de dados completo após executar a engenharia de recursos em dados de amostra – Para um grande conjunto de dados, uma amostra do conjunto de dados é considerada para aprender os parâmetros treinados, que podem não representar todo o seu conjunto de dados. Precisamos reaprender os parâmetros treinados no conjunto de dados completo.

A seguir estão algumas das transformações mais comuns do Data Wrangler realizadas no conjunto de dados que se beneficiam da opção de parâmetro treinado de reajuste:

Para obter mais informações sobre transformações no Data Wrangler, consulte Transformar dados.

Neste post, mostramos como processar esses parâmetros treinados em conjuntos de dados usando o Data Wrangler. Você pode usar fluxos do Data Wrangler em trabalhos de produção para reprocessar seus dados à medida que eles crescem e mudam.

Visão geral da solução

Para esta postagem, demonstramos como usar o recurso de parâmetro treinado de reajuste do Data Wrangler com o conjunto de dados disponível publicamente em Kaggle: Dados de habitação nos EUA da Zillow, propriedades à venda nos Estados Unidos. Tem os preços de venda de casas em várias distribuições geográficas de casas.

O diagrama a seguir ilustra a arquitetura de alto nível do Data Wrangler usando o recurso de parâmetro treinado de reajuste. Também mostramos o efeito na qualidade dos dados sem o parâmetro treinado de reajuste e contrastamos os resultados no final.

O fluxo de trabalho inclui as seguintes etapas:

Realizar análise exploratória de dados – Crie um novo fluxo no Data Wrangler para iniciar a análise exploratória de dados (EDA). Importe dados de negócios para entender, limpar, agregar, transformar e preparar seus dados para treinamento. Referir-se Explore os recursos do Amazon SageMaker Data Wrangler com conjuntos de dados de amostra para obter mais detalhes sobre como realizar EDA com Data Wrangler.
Criar um trabalho de processamento de dados – Esta etapa exporta todas as transformações que você fez no conjunto de dados como um arquivo de fluxo armazenado no configurado Serviço de armazenamento simples da Amazon (Amazon S3) localização. A tarefa de processamento de dados com o arquivo de fluxo gerado pelo Data Wrangler aplica as transformações e os parâmetros treinados aprendidos em seu conjunto de dados. Quando o trabalho de processamento de dados é concluído, os arquivos de saída são carregados no local do Amazon S3 configurado no nó de destino. Observe que a opção de reajuste está desativada por padrão. Como alternativa para executar o trabalho de processamento instantaneamente, você também pode agendar um trabalho de processamento em poucos cliques usando o Data Wrangler – Criar Job para execução em horários específicos.
Crie um trabalho de processamento de dados com o recurso de parâmetro treinado de reajuste – Selecione o novo recurso de parâmetro treinado de reajuste ao criar o trabalho para forçar a reaprendizagem de seus parâmetros treinados em seu conjunto de dados completo ou reforçado. De acordo com a configuração de localização do Amazon S3 para armazenar o arquivo de fluxo, o trabalho de processamento de dados cria ou atualiza o novo arquivo de fluxo. Se você configurar o mesmo local do Amazon S3 da Etapa 2, o trabalho de processamento de dados atualizará o arquivo de fluxo gerado na Etapa 2, que pode ser usado para manter seu fluxo relevante para seus dados. Após a conclusão do trabalho de processamento, os arquivos de saída são carregados no bucket do S3 configurado pelo nó de destino. Você pode usar o fluxo atualizado em todo o conjunto de dados para um fluxo de trabalho de produção.

Pré-requisitos

Antes de começar, faça upload do conjunto de dados para um bucket do S3 e importe-o para o Data Wrangler. Para obter instruções, consulte Importar dados do Amazon S3.

Vamos agora percorrer as etapas mencionadas no diagrama de arquitetura.

Executar EDA no Data Wrangler

Para experimentar o recurso de reajuste do parâmetro treinado, configure a seguinte análise e transformação no Data Wrangler. No final da configuração do EDA, o Data Wrangler cria um arquivo de fluxo capturado com parâmetros treinados do conjunto de dados.

Crie um novo fluxo no Amazon SageMaker Data Wrangler para análise exploratória de dados.
Importe os dados de negócios que você carregou para o Amazon S3.
Você pode visualizar os dados e opções para escolher o tipo de arquivo, delimitador, amostragem e assim por diante. Para este exemplo, usamos o Primeiro K opção de amostragem fornecida pelo Data Wrangler para importar os primeiros 50,000 registros do conjunto de dados.
Escolha importação.