Identificando e evitando problemas comuns de dados ao criar modelos de ML sem código com o Amazon SageMaker Canvas

Republicado por Platão

seguidores: 0

Os analistas de negócios trabalham com dados e gostam de analisar, explorar e entender os dados para obter resultados de negócios eficazes. Para resolver problemas de negócios, eles geralmente contam com profissionais de aprendizado de máquina (ML), como cientistas de dados, para ajudar com técnicas como a utilização de ML para criar modelos usando dados existentes e gerar previsões. No entanto, nem sempre é possível, pois os cientistas de dados geralmente estão ocupados com suas tarefas e não têm largura de banda para ajudar os analistas.

Para ser independente e atingir seus objetivos como analista de negócios, o ideal seria trabalhar com ferramentas fáceis de usar, intuitivas e visuais que utilizam ML sem a necessidade de conhecer detalhes e usar código. O uso dessas ferramentas ajudará você a resolver seus problemas de negócios e alcançar os resultados desejados.

Com o objetivo de ajudar você e sua organização a se tornarem mais eficazes e usar ML sem escrever código, nós introduziu o Amazon SageMaker Canvas. Esta é uma solução de ML sem código que ajuda a criar modelos de ML precisos sem a necessidade de aprender detalhes técnicos, como algoritmos de ML e métricas de avaliação. O SageMaker Canvas oferece uma interface visual e intuitiva que permite importar dados, treinar modelos de ML, realizar análises de modelos e gerar previsões de ML, tudo sem escrever uma única linha de código.

Ao usar o SageMaker Canvas para experimentar, você pode encontrar problemas de qualidade de dados, como valores ausentes ou ter o tipo de problema errado. Esses problemas podem não ser descobertos até bem tarde no processo após o treinamento de um modelo de ML. Para aliviar esse desafio, o SageMaker Canvas agora oferece suporte à validação de dados. Esse recurso verifica proativamente problemas em seus dados e fornece orientação sobre soluções.

Nesta postagem, demonstraremos como você pode usar o recurso de validação de dados no SageMaker Canvas antes da construção do modelo. Como o nome sugere, esse recurso valida seu conjunto de dados, relata problemas e fornece indicadores úteis para corrigi-los. Ao usar dados de melhor qualidade, você terá um modelo de ML de melhor desempenho.

Validar dados no SageMaker Canvas

A validação de dados é um novo recurso do SageMaker Canvas para verificar proativamente possíveis problemas de qualidade de dados. Depois de importar os dados e selecionar uma coluna de destino, você terá a opção de validar seus dados, conforme mostrado aqui:

Se você optar por validar seus dados, o Canvas analisa seus dados para várias condições, incluindo:

Muitos rótulos exclusivos em sua coluna de destino – para o tipo de modelo de previsão de categoria
Muitos rótulos exclusivos em sua coluna de destino para o número de linhas em seus dados – para o tipo de modelo de previsão de categoria
Tipo de modelo incorreto para seus dados – o tipo de modelo não se ajusta aos dados que você está prevendo na coluna Alvo
Muitas linhas inválidas – valores ausentes em sua coluna de destino
Todas as colunas de recursos são colunas de texto – eles serão descartados para compilações padrão
Poucas colunas – poucas colunas em seus dados
Nenhuma linha completa – todas as linhas em seus dados contêm valores ausentes
Um ou mais nomes de coluna contêm sublinhados duplos – SageMaker não pode lidar com (__) no cabeçalho da coluna

Detalhes para cada critério de validação serão fornecidos nas seções posteriores deste post.

Se todas as verificações forem aprovadas, você receberá a seguinte confirmação: “Nenhum problema foi encontrado em seu conjunto de dados”.

Se algum problema for encontrado, você receberá uma notificação para visualizar e entender. Isso revela os problemas de qualidade de dados antecipadamente e permite resolvê-los imediatamente antes de desperdiçar tempo e recursos no processo.

Você pode fazer seus ajustes e continuar validando seu conjunto de dados até que todos os problemas sejam resolvidos.

Valide a coluna de destino e os tipos de modelo

Ao criar um modelo de ML no SageMaker Canvas, vários problemas de qualidade de dados relacionados ao coluna de destino pode fazer com que a construção do seu modelo falhe. O SageMaker Canvas verifica diferentes tipos de problemas que podem afetar sua coluna de destino.

Para sua coluna de destino, verifique o Tipo de modelo incorreto para seus dados. Por exemplo, se um modelo de previsão de 2 categorias for selecionado, mas sua coluna de destino tiver mais de 2 rótulos exclusivos, o SageMaker Canvas fornecerá o seguinte aviso de validação.
Se o tipo de modelo for previsão de categoria 2 ou 3+, você deverá validar muitos rótulos únicos para sua coluna de destino. O número máximo de classes exclusivas é 2000. Se você selecionar uma coluna com mais de 2000 valores exclusivos em sua coluna Alvo, o Canvas fornecerá o seguinte aviso de validação.
Além de muitos rótulos de destino únicos, você também deve tomar cuidado com muitos rótulos de destino exclusivos para o número de linhas em seus dados. O SageMaker Canvas impõe uma proporção de rótulo de destino para o número total de linhas inferior a 10%. Isso garante que você tenha representação suficiente para cada categoria para um modelo de alta qualidade e reduz o potencial de superajuste. Seu modelo é considerado superajustado quando prevê bem os dados de treinamento, mas não os novos dados que não viu antes. Referir SUA PARTICIPAÇÃO FAZ A DIFERENÇA para saber mais.
Por fim, a última verificação da coluna de destino é muitas linhas inválidas. Se sua coluna de destino tiver mais de 10% dos dados ausentes ou inválidos, isso afetará o desempenho do modelo e, em alguns casos, fará com que a construção do modelo falhe. O exemplo a seguir tem muitos valores ausentes (>90% ausentes) na coluna de destino e você obtém o seguinte aviso de validação.

Se você receber algum dos avisos acima para sua coluna de destino, use as seguintes etapas para atenuar os problemas:

Você está usando a coluna de destino correta?
Você selecionou o tipo de modelo correto?
Você pode aumentar o número de linhas em seu conjunto de dados por rótulo de destino?
Você pode consolidar/agrupar rótulos semelhantes?
Você pode preencher os valores ausentes/inválidos?
Você tem dados suficientes para descartar os valores ausentes/inválidos?
Se todas as opções acima não estiverem limpando o aviso, você deve considerar o uso de um conjunto de dados diferente.

Consulte o Documentação de transformação de dados do SageMaker Canvas para executar as etapas de imputação mencionadas acima.

Valide todas as colunas

Além da coluna de destino, você também pode ter problemas de qualidade de dados com outras colunas de dados (colunas de recursos). As colunas de recursos são dados de entrada usados para fazer uma previsão de ML.

Cada conjunto de dados deve ter pelo menos 1 coluna de recurso e 1 coluna de destino (2 colunas no total). Caso contrário, o SageMaker Canvas lhe dará uma Poucas colunas em seus dados aviso. Você deve atender a esse requisito antes de prosseguir com a construção de um modelo.
Depois disso, você deve garantir que seus dados tenham pelo menos 1 coluna numérica. Se não, então você receberá o todas as colunas de recursos são colunas de texto aviso. Isso ocorre porque as colunas de texto geralmente são descartadas durante as construções padrão, deixando assim o modelo sem recursos para treinar. Portanto, isso fará com que a construção do seu modelo falhe. Você pode usar o SageMaker Canvas para codificar algumas das colunas de texto em números ou usar a construção rápida em vez da construção padrão.
O terceiro tipo de aviso que você pode obter para colunas de recursos é Nenhuma linha completa. Essa validação verifica se você tem pelo menos uma linha sem valores ausentes. O SageMaker Canvas requer pelo menos uma linha completa, caso contrário, seu construção rápida vai falhar. Tente preencher os valores que faltam antes de construir o modelo.
O último tipo de validação é Um ou mais nomes de coluna contêm sublinhados duplos. Este é um requisito específico do SageMaker Canvas. Se você tiver sublinhados duplos (__) nos cabeçalhos das colunas, isso fará com que construção rápida falhar. Renomeie as colunas para remover qualquer sublinhado duplo e tente novamente.

limpar

Para evitar incorrer no futuro cobranças de sessão, saia do SageMaker Canvas.

Conclusão

O SageMaker Canvas é uma solução de ML sem código que permite aos analistas de negócios criar modelos de ML precisos e gerar previsões por meio de uma interface visual de apontar e clicar. Mostramos como o SageMaker Canvas ajuda você a garantir a qualidade dos dados e atenuar os problemas de dados ao validar proativamente o conjunto de dados. Ao identificar os problemas antecipadamente, o SageMaker Canvas ajuda você a criar modelos de ML de qualidade e reduzir as iterações de construção sem experiência em ciência de dados e programação. Para saber mais sobre esse novo recurso, consulte o Documentação do SageMaker Canvas.

Para começar e saber mais sobre o SageMaker Canvas, consulte os seguintes recursos:

Sobre os autores

Hariharan Suresh é Arquiteto de Soluções Sênior na AWS. Ele é apaixonado por bancos de dados, aprendizado de máquina e design de soluções inovadoras. Antes de ingressar na AWS, Hariharan foi arquiteto de produtos, especialista em implementação de core banking e desenvolvedor, e trabalhou com organizações BFSI por mais de 11 anos. Fora da tecnologia, ele gosta de parapente e ciclismo.

Sainath Miriyala é gerente técnico de contas sênior da AWS e trabalha para clientes automotivos nos EUA. Sainath é apaixonado por projetar e construir aplicativos distribuídos em larga escala usando AI/ML. Em seu tempo livre, Sainath passa tempo com a família e amigos.

James Wu é arquiteto de soluções especialista em IA/ML sênior na AWS. ajudando os clientes a projetar e criar soluções de IA/ML. O trabalho de James abrange uma ampla variedade de casos de uso de ML, com interesse principal em visão computacional, aprendizado profundo e dimensionamento de ML em toda a empresa. Antes de ingressar na AWS, James foi arquiteto, desenvolvedor e líder de tecnologia por mais de 10 anos, incluindo 6 anos em engenharia e 4 anos nos setores de marketing e publicidade.

Carimbo de hora: 10 de novembro de 2022 11 de novembro de 2022

Carimbo de hora: 5 de maio de 2022

Identificar e evitar problemas comuns de dados ao criar modelos de ML sem código com o Amazon SageMaker Canvas

Republicado por Platão

Validar dados no SageMaker Canvas

Valide a coluna de destino e os tipos de modelo

Valide todas as colunas

limpar

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Anunciando novas ferramentas e capacidades para permitir a inovação responsável em IA | Amazon Web Services

Habilitar CI/CD de endpoints multirregionais do Amazon SageMaker

Processamento inteligente de documentos com serviços AWS AI e Analytics no setor de seguros: Parte 2

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta