Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler

Gerenciador de dados do Amazon SageMaker ajuda você a entender, agregar, transformar e preparar dados para aprendizado de máquina (ML) a partir de uma única interface visual. Ele contém mais de 300 transformações de dados integradas para que você possa normalizar, transformar e combinar recursos rapidamente sem precisar escrever nenhum código.

Os profissionais de ciência de dados geram, observam e processam dados para resolver problemas de negócios em que precisam transformar e extrair recursos de conjuntos de dados. Transformações como codificação ordinal ou codificação one-hot aprendem codificações em seu conjunto de dados. Essas saídas codificadas são referidas como parâmetros treinados. Como os conjuntos de dados mudam com o tempo, pode ser necessário reajustar as codificações em dados não vistos anteriormente para manter o fluxo de transformação relevante para seus dados.

Temos o prazer de anunciar o recurso de reajuste de parâmetros treinados, que permite usar parâmetros treinados anteriores e reajustá-los conforme desejado. Neste post, demonstramos como usar esse recurso.

Visão geral do recurso de reajuste do Data Wrangler

Ilustramos como esse recurso funciona com o exemplo a seguir, antes de nos aprofundarmos nas especificidades do recurso de parâmetro treinado de reajuste.

Suponha que o conjunto de dados do cliente tenha um recurso categórico para country representado como strings como Australia e Singapore. Os algoritmos de ML requerem entradas numéricas; portanto, esses valores categóricos devem ser codificados para valores numéricos. A codificação de dados categóricos é o processo de criação de uma representação numérica para categorias. Por exemplo, se o país da sua categoria tiver valores Australia e Singapore, você pode codificar esta informação em dois vetores: [1, 0] para representar Australia e [0, 1] para representar Singapore. A transformação usada aqui é codificação one-hot e a nova saída codificada reflete os parâmetros treinados.

Após treinar o modelo, com o tempo seus clientes poderão aumentar e você terá valores mais distintos na lista de países. O novo conjunto de dados pode conter outra categoria, India, que não fazia parte do conjunto de dados original, o que pode afetar a precisão do modelo. Portanto, é necessário treinar novamente seu modelo com os novos dados coletados ao longo do tempo.

Para superar esse problema, você precisa atualizar a codificação para incluir a nova categoria e atualizar a representação vetorial de acordo com seu conjunto de dados mais recente. Em nosso exemplo, a codificação deve refletir a nova categoria para o country, o que é India. Geralmente nos referimos a esse processo de atualização de uma codificação como uma operação de reajuste. Depois de executar a operação de reajuste, você obtém a nova codificação: Australia: [1, 0, 0], Singapore: [0, 1, 0] e India: [0, 0, 1]. Reajustar a codificação one-hot e, em seguida, treinar novamente o modelo no novo conjunto de dados resulta em previsões de melhor qualidade.

O recurso de parâmetro treinado de reajuste do Data Wrangler é útil nos seguintes casos:

  • Novos dados são adicionados ao conjunto de dados – Retreinar o modelo de ML é necessário quando o conjunto de dados é enriquecido com novos dados. Para obter resultados ideais, precisamos reajustar os parâmetros treinados no novo conjunto de dados.
  • Treinamento em um conjunto de dados completo após executar a engenharia de recursos em dados de amostra – Para um grande conjunto de dados, uma amostra do conjunto de dados é considerada para aprender os parâmetros treinados, que podem não representar todo o seu conjunto de dados. Precisamos reaprender os parâmetros treinados no conjunto de dados completo.

A seguir estão algumas das transformações mais comuns do Data Wrangler realizadas no conjunto de dados que se beneficiam da opção de parâmetro treinado de reajuste:

Para obter mais informações sobre transformações no Data Wrangler, consulte Transformar dados.

Neste post, mostramos como processar esses parâmetros treinados em conjuntos de dados usando o Data Wrangler. Você pode usar fluxos do Data Wrangler em trabalhos de produção para reprocessar seus dados à medida que eles crescem e mudam.

Visão geral da solução

Para esta postagem, demonstramos como usar o recurso de parâmetro treinado de reajuste do Data Wrangler com o conjunto de dados disponível publicamente em Kaggle: Dados de habitação nos EUA da Zillow, propriedades à venda nos Estados Unidos. Tem os preços de venda de casas em várias distribuições geográficas de casas.

O diagrama a seguir ilustra a arquitetura de alto nível do Data Wrangler usando o recurso de parâmetro treinado de reajuste. Também mostramos o efeito na qualidade dos dados sem o parâmetro treinado de reajuste e contrastamos os resultados no final.

O fluxo de trabalho inclui as seguintes etapas:

  1. Realizar análise exploratória de dados – Crie um novo fluxo no Data Wrangler para iniciar a análise exploratória de dados (EDA). Importe dados de negócios para entender, limpar, agregar, transformar e preparar seus dados para treinamento. Referir-se Explore os recursos do Amazon SageMaker Data Wrangler com conjuntos de dados de amostra para obter mais detalhes sobre como realizar EDA com Data Wrangler.
  2. Criar um trabalho de processamento de dados – Esta etapa exporta todas as transformações que você fez no conjunto de dados como um arquivo de fluxo armazenado no configurado Serviço de armazenamento simples da Amazon (Amazon S3) localização. A tarefa de processamento de dados com o arquivo de fluxo gerado pelo Data Wrangler aplica as transformações e os parâmetros treinados aprendidos em seu conjunto de dados. Quando o trabalho de processamento de dados é concluído, os arquivos de saída são carregados no local do Amazon S3 configurado no nó de destino. Observe que a opção de reajuste está desativada por padrão. Como alternativa para executar o trabalho de processamento instantaneamente, você também pode agendar um trabalho de processamento em poucos cliques usando o Data Wrangler – Criar Job para execução em horários específicos.
  3. Crie um trabalho de processamento de dados com o recurso de parâmetro treinado de reajuste – Selecione o novo recurso de parâmetro treinado de reajuste ao criar o trabalho para forçar a reaprendizagem de seus parâmetros treinados em seu conjunto de dados completo ou reforçado. De acordo com a configuração de localização do Amazon S3 para armazenar o arquivo de fluxo, o trabalho de processamento de dados cria ou atualiza o novo arquivo de fluxo. Se você configurar o mesmo local do Amazon S3 da Etapa 2, o trabalho de processamento de dados atualizará o arquivo de fluxo gerado na Etapa 2, que pode ser usado para manter seu fluxo relevante para seus dados. Após a conclusão do trabalho de processamento, os arquivos de saída são carregados no bucket do S3 configurado pelo nó de destino. Você pode usar o fluxo atualizado em todo o conjunto de dados para um fluxo de trabalho de produção.

Pré-requisitos

Antes de começar, faça upload do conjunto de dados para um bucket do S3 e importe-o para o Data Wrangler. Para obter instruções, consulte Importar dados do Amazon S3.

Vamos agora percorrer as etapas mencionadas no diagrama de arquitetura.

Executar EDA no Data Wrangler

Para experimentar o recurso de reajuste do parâmetro treinado, configure a seguinte análise e transformação no Data Wrangler. No final da configuração do EDA, o Data Wrangler cria um arquivo de fluxo capturado com parâmetros treinados do conjunto de dados.

  1. Crie um novo fluxo no Amazon SageMaker Data Wrangler para análise exploratória de dados.
  2. Importe os dados de negócios que você carregou para o Amazon S3.
  3. Você pode visualizar os dados e opções para escolher o tipo de arquivo, delimitador, amostragem e assim por diante. Para este exemplo, usamos o Primeiro K opção de amostragem fornecida pelo Data Wrangler para importar os primeiros 50,000 registros do conjunto de dados.
  4. Escolha importação.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Depois de verificar a correspondência de tipo de dados aplicada pelo Data Wrangler, adicione uma nova análise.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Escolha Tipo de análise, escolha Relatório de insights e qualidade de dados.
  2. Escolha Crie.

Com o Relatório de insights e qualidade de dados, você obtém um breve resumo do conjunto de dados com informações gerais, como valores ausentes, valores inválidos, tipos de recursos, contagens de valores discrepantes e muito mais. Você pode escolher recursos property_type e city para aplicar transformações no conjunto de dados para entender o recurso de parâmetro treinado de reajuste.

Vamos nos concentrar no recurso property_type do conjunto de dados. Na reportagem Detalhes do Recurso seção, você pode ver o property_type, que é um recurso categórico, e seis valores exclusivos derivados do conjunto de dados de 50,000 amostras do Data Wrangler. O conjunto de dados completo pode ter mais categorias para o recurso property_type. Para um recurso com muitos valores exclusivos, você pode preferir a codificação ordinal. Se o recurso tiver alguns valores exclusivos, uma abordagem de codificação única pode ser usada. Para este exemplo, optamos pela codificação one-hot em property_type.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Da mesma forma, para o city recurso, que é um tipo de dados de texto com um grande número de valores exclusivos, vamos aplicar a codificação ordinal a esse recurso.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Navegue até o fluxo do Data Wrangler, escolha o sinal de mais e escolha Adicionar transformação.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Escolha o Codificar categórico opção para transformar características categóricas.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

No Relatório de insights e qualidade de dados, recurso property_type mostra seis categorias únicas: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY e TOWNHOUSE.

  1. Escolha Transformar, escolha Codificação one-hot.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Depois de aplicar a codificação one-hot no recurso property_type, você pode visualizar todas as seis categorias como recursos separados adicionados como novas colunas. Observe que 50,000 registros foram amostrados do seu conjunto de dados para gerar essa visualização. Ao executar um trabalho de processamento do Data Wrangler com esse fluxo, essas transformações são aplicadas a todo o conjunto de dados.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Adicione uma nova transformação e escolha Codificar categórico para aplicar uma transformação no recurso city, que tem um número maior de valores de texto categóricos exclusivos.
  2. Para codificar esse recurso em uma representação numérica, escolha Codificação ordinal para Transformar.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Escolha Visualizar nesta transformação.

Você pode ver que o recurso categórico city é mapeado para valores ordinais na coluna de saída e_city.

  1. Adicione esta etapa escolhendo Atualizar.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Você pode definir o destino como Amazon S3 para armazenar as transformações aplicadas no conjunto de dados para gerar a saída como arquivo CSV.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O Data Wrangler armazena o fluxo de trabalho que você definiu na interface do usuário como um arquivo de fluxo e carrega para o local do Amazon S3 do trabalho de processamento de dados configurado. Esse arquivo de fluxo é usado quando você cria tarefas de processamento do Data Wrangler para aplicar as transformações em conjuntos de dados maiores ou para transformar novos dados de reforço para treinar novamente o modelo.

Iniciar uma tarefa de processamento de dados do Data Wrangler sem reajuste ativado

Agora você pode ver como a opção de reajuste usa parâmetros treinados em novos conjuntos de dados. Para esta demonstração, definimos duas tarefas de processamento do Data Wrangler operando nos mesmos dados. O primeiro trabalho de processamento não permitirá o reajuste; para o segundo trabalho de processamento, usamos refit. Comparamos os efeitos no final.

  1. Escolha Criar emprego para iniciar um trabalho de processamento de dados com o Data Wrangler.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Escolha Nome do trabalho, Insira o nome.
  2. Debaixo Parâmetros treinados, não selecione Montar.
  3. Escolha Configurar trabalho.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Configure os parâmetros do trabalho como tipos de instância, tamanho do volume e localização do Amazon S3 para armazenar o arquivo de fluxo de saída.
  2. O Data Wrangler cria um arquivo de fluxo no local do arquivo de fluxo S3. O fluxo usa transformações para treinar parâmetros e, posteriormente, usamos a opção de reajuste para treinar novamente esses parâmetros.
  3. Escolha Crie.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Aguarde a conclusão do trabalho de processamento de dados para ver os dados transformados no bucket do S3 configurado no nó de destino.

Inicie uma tarefa de processamento de dados do Data Wrangler com refit ativado

Vamos criar outro trabalho de processamento habilitado com o recurso de parâmetro treinado de reajuste habilitado. Esta opção impõe os parâmetros treinados reaprendidos em todo o conjunto de dados. Quando esse trabalho de processamento de dados é concluído, um arquivo de fluxo é criado ou atualizado para o local configurado do Amazon S3.

  1. Escolha Criar emprego.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Escolha Nome do trabalho, Insira o nome.
  2. Escolha Parâmetros treinados, selecione Montar.
  3. Se você escolher Ver tudo, você pode revisar todos os parâmetros treinados.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Escolha Configurar trabalho.
  2. Insira o local do arquivo de fluxo do Amazon S3.
  3. Escolha Crie.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Aguarde a conclusão do trabalho de processamento de dados.

Consulte o bucket do S3 configurado no nó de destino para visualizar os dados gerados pelo trabalho de processamento de dados que executa as transformações definidas.

Exportar para código Python para executar jobs de processamento do Data Wrangler

Como alternativa para iniciar os trabalhos de processamento usando a opção Criar trabalho no Data Wrangler, você pode acionar os trabalhos de processamento de dados exportando o fluxo do Data Wrangler para um notebook Jupyter. O Data Wrangler gera um notebook Jupyter com entradas, saídas, configurações de trabalho de processamento e código para verificações de status de trabalho. Você pode alterar ou atualizar os parâmetros de acordo com seus requisitos de transformação de dados.

  1. Escolha o sinal de mais próximo ao final Transformar nó.
  2. Escolha Exportações para e Amazon S3 (via notebook Jupyter).

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Você pode ver um notebook Jupyter aberto com entradas, saídas, configurações de trabalho de processamento e código para verificações de status de trabalho.

  1. Para impor a opção reajustar parâmetros treinados via código, defina o refit parâmetro para True.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Comparar resultados de jobs de processamento de dados

Após a conclusão dos trabalhos de processamento do Data Wrangler, você deve criar dois novos fluxos do Data Wrangler com a saída gerada pelos trabalhos de processamento de dados armazenados no destino Amazon S3 configurado.

Você pode consultar o local configurado na pasta de destino do Amazon S3 para revisar as saídas dos trabalhos de processamento de dados.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Para inspecionar os resultados da tarefa de processamento, crie dois novos fluxos do Data Wrangler usando o Relatório de insights e qualidade de dados para comparar os resultados da transformação.

  1. Crie um novo fluxo no Amazon SageMaker Data Wrangler.
  2. Importe o trabalho de processamento de dados sem reajustar o arquivo de saída habilitado do Amazon S3.
  3. Adicione uma nova análise.
  4. Escolha Tipo de análise, escolha Relatório de insights e qualidade de dados.
  5. Escolha Crie.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Repita as etapas acima e crie um novo fluxo do administrador de dados para analisar a saída da tarefa de processamento de dados com o reajuste ativado.

Agora vamos ver as saídas dos trabalhos de processamento para o recurso property_type usando os relatórios de qualidade de dados e insights. Role até os detalhes do recurso na listagem de relatórios de dados e insights feature_type.

O trabalho de processamento de parâmetro treinado de reajuste reajustou os parâmetros treinados em todo o conjunto de dados e codificou o novo valor APARTMENT com sete valores distintos no conjunto de dados completo.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O trabalho de processamento normal aplicou os parâmetros treinados do conjunto de dados de amostra, que têm apenas seis valores distintos para o property_type característica. Para dados com feature_type APARTMENT, estratégia de manipulação inválida Ignorar é aplicado e o trabalho de processamento de dados não aprende essa nova categoria. A codificação one-hot ignorou esta nova categoria presente nos novos dados e a codificação pula a categoria APARTMENT.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Vamos agora focar em outro recurso, city. O trabalho de processamento de parâmetro treinado reajustado reaprendeu todos os valores disponíveis para o city recurso, considerando os novos dados.

Conforme mostrado no Resumo dos Recursos seção do relatório, a nova coluna de recurso codificado e_city tem parâmetros 100% válidos usando o recurso de parâmetro treinado de reajuste.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Em contraste, o trabalho de processamento normal tem 82.4% de valores ausentes na nova coluna de recurso codificado e_city. Esse fenômeno ocorre porque apenas o conjunto de amostra de parâmetros treinados aprendidos é aplicado no conjunto de dados completo e nenhum reajuste é aplicado pelo trabalho de processamento de dados.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Os seguintes histogramas descrevem o recurso codificado ordinal e_city. O primeiro histograma é da característica transformada com a opção de reajuste.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O próximo histograma é do recurso transformado sem a opção de reajuste. A coluna laranja mostra os valores ausentes (NaN) no Relatório de insights e qualidade de dados. Os novos valores que não são aprendidos do conjunto de dados de amostra são substituídos como Not a Number (NaN), conforme configurado na IU do Data Wrangler estratégia de manipulação inválida.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O trabalho de processamento de dados com o parâmetro treinado de reajuste reaprendeu o property_type e city características considerando os novos valores de todo o conjunto de dados. Sem o parâmetro treinado de reajuste, o trabalho de processamento de dados usa apenas os parâmetros treinados pré-aprendidos do conjunto de dados de amostra. Em seguida, ele os aplica aos novos dados, mas os novos valores não são considerados para codificação. Isso terá implicações na precisão do modelo.

limpar

Quando você não estiver usando o Data Wrangler, é importante encerrar a instância na qual ele é executado para evitar taxas adicionais.

Para evitar a perda de trabalho, salve seu fluxo de dados antes de encerrar o Data Wrangler.

  1. Para salvar seu fluxo de dados em Estúdio Amazon SageMaker, escolha Envie o, Em seguida, escolha Salvar fluxo do Data Wrangler. O Data Wrangler salva automaticamente seu fluxo de dados a cada 60 segundos.
  2. Para encerrar a instância do Data Wrangler, no Studio, escolha Executando instâncias e kernels.
  3. Debaixo APLICATIVOS DE CORRIDA, escolha o ícone de desligamento ao lado do aplicativo sagemaker-data-wrangler-1.0.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

  1. Escolha Desligar tudo para confirmar.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O Data Wrangler é executado em uma instância ml.m5.4xlarge. Esta instância desaparece de INSTÂNCIAS EM EXECUÇÃO quando você desliga o aplicativo Data Wrangler.

Depois de encerrar o aplicativo Data Wrangler, ele precisa ser reiniciado na próxima vez que você abrir um arquivo de fluxo do Data Wrangler. Isso pode levar alguns minutos.

Conclusão

Nesta postagem, fornecemos uma visão geral do recurso de parâmetro treinado de reajuste no Data Wrangler. Com esse novo recurso, você pode armazenar os parâmetros treinados no fluxo do Data Wrangler e os trabalhos de processamento de dados usam os parâmetros treinados para aplicar as transformações aprendidas em grandes conjuntos de dados ou conjuntos de dados de reforço. Você pode aplicar esta opção para vetorizar recursos de texto, dados numéricos e lidar com valores discrepantes.

A preservação de parâmetros treinados durante todo o processamento de dados do ciclo de vida de ML simplifica e reduz as etapas de processamento de dados, oferece suporte a engenharia de recursos robusta e oferece suporte ao treinamento de modelos e treinamento de reforço em novos dados.

Recomendamos que você experimente esse novo recurso para seus requisitos de processamento de dados.


Sobre os autores

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Hariharan Suresh é Arquiteto de Soluções Sênior na AWS. Ele é apaixonado por bancos de dados, aprendizado de máquina e design de soluções inovadoras. Antes de ingressar na AWS, Hariharan foi arquiteto de produtos, especialista em implementação de core banking e desenvolvedor, e trabalhou com organizações BFSI por mais de 11 anos. Fora da tecnologia, ele gosta de parapente e ciclismo.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Santosh Kulkarni é um arquiteto de soluções corporativas da Amazon Web Services que trabalha com clientes de esportes na Austrália. Ele é apaixonado por criar aplicativos distribuídos em larga escala para resolver problemas de negócios usando seu conhecimento em IA/ML, big data e desenvolvimento de software.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Vishaal Kapoor é um cientista aplicado sênior da AWS AI. Ele é apaixonado por ajudar os clientes a entender seus dados no Data Wrangler. Em seu tempo livre, ele anda de mountain bike, snowboard e passa o tempo com sua família.

Reajuste parâmetros treinados em grandes conjuntos de dados usando o Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Aniketh Manjunath é um engenheiro de desenvolvimento de software no Amazon SageMaker. Ele ajuda a dar suporte ao Amazon SageMaker Data Wrangler e é apaixonado por sistemas distribuídos de aprendizado de máquina. Fora do trabalho, ele gosta de fazer caminhadas, assistir a filmes e jogar críquete.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS