Use o Amazon SageMaker Canvas para análise exploratória de dados

Republicado por Platão

seguidores: 0

A análise exploratória de dados (EDA) é uma tarefa comum realizada por analistas de negócios para descobrir padrões, entender relacionamentos, validar suposições e identificar anomalias em seus dados. No aprendizado de máquina (ML), é importante primeiro entender os dados e seus relacionamentos antes de entrar na construção do modelo. Os ciclos tradicionais de desenvolvimento de ML às vezes podem levar meses e exigem habilidades avançadas de ciência de dados e engenharia de ML, enquanto as soluções de ML sem código podem ajudar as empresas a acelerar a entrega de soluções de ML em dias ou até horas.

Tela do Amazon SageMaker é uma ferramenta de ML sem código que ajuda os analistas de negócios a gerar previsões precisas de ML sem precisar escrever código ou sem exigir nenhuma experiência em ML. O Canvas fornece uma interface visual fácil de usar para carregar, limpar e transformar os conjuntos de dados, seguida pela criação de modelos de ML e geração de previsões precisas.

Neste post, explicamos como executar o EDA para entender melhor seus dados antes de criar seu modelo de ML, graças às visualizações avançadas integradas do Canvas. Essas visualizações ajudam você a analisar as relações entre os recursos em seus conjuntos de dados e a compreender melhor seus dados. Isso é feito de forma intuitiva, com a capacidade de interagir com os dados e descobrir insights que podem passar despercebidos com consultas ad hoc. Eles podem ser criados rapidamente por meio do 'Visualizador de dados' no Canvas antes de construir e treinar modelos de ML.

Visão geral da solução

Essas visualizações se somam à variedade de recursos para preparação e exploração de dados já oferecidos pelo Canvas, incluindo a capacidade de corrigir valores ausentes e substituir valores discrepantes; filtrar, unir e modificar conjuntos de dados; e extraia valores de tempo específicos de timestamps. Para saber mais sobre como o Canvas pode ajudá-lo a limpar, transformar e preparar seu conjunto de dados, confira Prepare dados com transformações avançadas.

Para nosso caso de uso, analisamos por que os clientes abandonam qualquer negócio e ilustramos como a EDA pode ajudar do ponto de vista de um analista. O conjunto de dados que usamos neste post é um conjunto de dados sintético de uma operadora de telefonia móvel de telecomunicações para previsão de perda de clientes que você pode baixar (rotatividade.csv), ou você traz seu próprio conjunto de dados para experimentar. Para obter instruções sobre como importar seu próprio conjunto de dados, consulte Importando dados no Amazon SageMaker Canvas.

Pré-requisitos

Siga as instruções em Pré-requisitos para configurar o Amazon SageMaker Canvas antes de prosseguir.

Importe seu conjunto de dados para o Canvas

Para importar o conjunto de dados de amostra para o Canvas, conclua as seguintes etapas:

Faça login no Canvas como um usuário de negócios.Primeiro, carregamos o conjunto de dados mencionado anteriormente de nosso computador local para o Canvas. Se você quiser usar outras fontes, como Amazon RedShift, referir-se Conectar-se a uma fonte de dados externa.
Escolha importação.
Escolha Escolher arquivo, Em seguida, escolha Selecione arquivos do seu computador.
Selecione seu conjunto de dados (churn.csv) e escolha Datas de importação.
Selecione o conjunto de dados e escolha Criar modelo.
Escolha Nome do modelo, digite um nome (para este post, demos o nome de previsão de Churn).
Escolha Crie.

Assim que você seleciona seu conjunto de dados, é apresentada uma visão geral que descreve os tipos de dados, valores ausentes, valores incompatíveis, valores exclusivos e os valores médios ou moda das respectivas colunas.
De uma perspectiva de EDA, você pode observar que não há valores ausentes ou incompatíveis no conjunto de dados. Como analista de negócios, você pode querer obter uma visão inicial da construção do modelo antes mesmo de iniciar a exploração de dados para identificar como o modelo funcionará e quais fatores estão contribuindo para o desempenho do modelo. O Canvas oferece a capacidade de obter insights de seus dados antes de criar um modelo visualizando primeiro o modelo.
Antes de fazer qualquer exploração de dados, escolha Modelo de visualização.
Selecione a coluna para prever (churn). O Canvas detecta automaticamente que esta é uma previsão de duas categorias.
Escolha Modelo de visualização. O SageMaker Canvas usa um subconjunto de seus dados para criar um modelo rapidamente para verificar se seus dados estão prontos para gerar uma previsão precisa. Usando este modelo de amostra, você pode entender a precisão do modelo atual e o impacto relativo de cada coluna nas previsões.

A captura de tela a seguir mostra nossa visualização.

A visualização do modelo indica que o modelo prevê o destino correto (churn?) 95.6% das vezes. Você também pode ver o impacto inicial da coluna (influência que cada coluna tem na coluna de destino). Vamos fazer alguma exploração, visualização e transformação de dados e, em seguida, prosseguir para a construção de um modelo.

Exploração de dados

O Canvas já fornece algumas visualizações básicas comuns, como distribuição de dados em uma exibição de grade no Construa aba. Eles são ótimos para obter uma visão geral de alto nível dos dados, entender como os dados são distribuídos e obter uma visão geral resumida do conjunto de dados.

Como analista de negócios, você pode precisar obter insights de alto nível sobre como os dados são distribuídos e como a distribuição se reflete na coluna de destino (churn) para entender facilmente o relacionamento de dados antes de criar o modelo. Agora você pode escolher exibição de grade para obter uma visão geral da distribuição de dados.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A captura de tela a seguir mostra a visão geral da distribuição do conjunto de dados.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Podemos fazer as seguintes observações:

O telefone assume muitos valores exclusivos para ser de qualquer uso prático. Sabemos que o telefone é uma identificação do cliente e não queremos construir um modelo que possa considerar clientes específicos, mas sim aprender em um sentido mais geral o que pode levar ao churn. Você pode remover esta variável.
A maioria dos recursos numéricos são bem distribuídos, seguindo uma Gaussian curva do sino. No ML, você deseja que os dados sejam distribuídos normalmente porque qualquer variável que exiba distribuição normal pode ser prevista com maior precisão.

Vamos nos aprofundar e conferir as visualizações avançadas disponíveis no Canvas.

Visualização de dados

Como analistas de negócios, você deseja ver se há relacionamentos entre os elementos de dados e como eles estão relacionados à rotatividade. Com o Canvas, você pode explorar e visualizar seus dados, o que ajuda a obter informações avançadas sobre seus dados antes de criar seus modelos de ML. Você pode visualizar usando gráficos de dispersão, gráficos de barras e gráficos de caixa, que podem ajudá-lo a entender seus dados e descobrir as relações entre os recursos que podem afetar a precisão do modelo.

Para começar a criar suas visualizações, conclua as etapas a seguir:

No Construa guia do aplicativo Canvas, escolha Visualizador de dados.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Um acelerador chave de visualização no Canvas é o Visualizador de dados. Vamos alterar o tamanho da amostra para obter uma perspectiva melhor.

Escolha o número de linhas ao lado de Amostra de visualização.
Use o controle deslizante para selecionar o tamanho de amostra desejado.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Escolha Atualizar para confirmar a alteração do tamanho da amostra.

Você pode querer alterar o tamanho da amostra com base em seu conjunto de dados. Em alguns casos, você pode ter algumas centenas a alguns milhares de linhas nas quais pode selecionar todo o conjunto de dados. Em alguns casos, você pode ter vários milhares de linhas; nesse caso, você pode selecionar algumas centenas ou alguns milhares de linhas com base em seu caso de uso.

Um gráfico de dispersão mostra a relação entre duas variáveis quantitativas medidas para os mesmos indivíduos. No nosso caso, é importante entender a relação entre os valores para verificar a correlação.

Como temos Chamadas, Minutos e Cobrança, traçaremos a correlação entre eles para Dia, Tarde e Noite.

Primeiro, vamos criar um gráfico de dispersão entre Carga Diária vs. Minutos Diurnos.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Podemos observar que conforme o Day Mins aumenta, a Day Charge também aumenta.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O mesmo se aplica às chamadas noturnas.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

As ligações noturnas também seguem o mesmo padrão.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Como os minutos e a carga parecem aumentar linearmente, você pode observar que eles têm uma alta correlação entre si. Incluir esses pares de recursos em alguns algoritmos de ML pode consumir armazenamento adicional e reduzir a velocidade do treinamento, e ter informações semelhantes em mais de uma coluna pode levar o modelo a enfatizar demais os impactos e levar a um viés indesejado no modelo. Vamos remover um recurso de cada um dos pares altamente correlacionados: Carga Diurna do par com Day Mins, Carga Noturna do par com Night Mins e Intl Charge do par com Intl Mins.

Balanço e variação de dados

Um gráfico de barras é um gráfico entre uma variável categórica no eixo x e uma variável numérica no eixo y para explorar a relação entre ambas as variáveis. Vamos criar um gráfico de barras para ver como as chamadas são distribuídas em nossa coluna de destino Churn para True e False. Escolher Gráfico de barras e arraste e solte chamadas diurnas e alterne para o eixo y e eixo x, respectivamente.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Agora, vamos criar o mesmo gráfico de barras para chamadas noturnas vs churn.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Em seguida, vamos criar um gráfico de barras para ligações noturnas vs. rotatividade.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Parece que há uma diferença de comportamento entre os clientes que desistiram e aqueles que não o fizeram.

Os gráficos de caixa são úteis porque mostram diferenças no comportamento dos dados por classe (churn ou não). Como vamos prever o churn (coluna de destino), vamos criar um gráfico de caixa de alguns recursos em nossa coluna de destino para inferir estatísticas descritivas no conjunto de dados, como média, máxima, mínima, mediana e valores discrepantes.

Escolha Gráfico de caixa e arraste e solte Day mins e Churn no eixo y e no eixo x, respectivamente.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Você também pode tentar a mesma abordagem para outras colunas em nossa coluna de destino (churn).

Vamos agora criar um gráfico de caixa de minutos do dia em relação às chamadas de atendimento ao cliente para entender como as chamadas de atendimento ao cliente abrangem o valor de minutos do dia. Você pode ver que as chamadas de atendimento ao cliente não têm uma dependência ou correlação no valor de minutos do dia.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A partir de nossas observações, podemos determinar que o conjunto de dados é bastante equilibrado. Queremos que os dados sejam distribuídos uniformemente entre valores verdadeiros e falsos para que o modelo não seja tendencioso em relação a um valor.

Transformações

Com base em nossas observações, descartamos a coluna Phone porque é apenas um número de conta e as colunas Day Charge, Eve Charge, Night Charge porque contêm informações sobrepostas, como as colunas de minutos, mas podemos executar uma visualização novamente para confirmar.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Após a análise e transformação dos dados, vamos visualizar o modelo novamente.

Você pode observar que a precisão estimada do modelo mudou de 95.6% para 93.6% (isso pode variar), porém o impacto da coluna (importância do recurso) para colunas específicas mudou consideravelmente, o que melhora a velocidade do treinamento, bem como a influência das colunas no a previsão à medida que avançamos para as próximas etapas da construção do modelo. Nosso conjunto de dados não requer transformação adicional, mas se você precisar, poderá aproveitar Transformações de dados de ML para limpar, transformar e preparar seus dados para construção de modelos.

Construa o modelo

Agora você pode prosseguir para construir um modelo e analisar os resultados. Para obter mais informações, consulte Preveja a perda de clientes com aprendizado de máquina sem código usando o Amazon SageMaker Canvas.

limpar

Para evitar incorrer no futuro cobranças de sessão, logout de Tela.

Use o Amazon SageMaker Canvas para análise exploratória de dados PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Conclusão

Neste post, mostramos como você pode usar os recursos de visualização do Canvas para EDA para entender melhor seus dados antes da construção do modelo, criar modelos de ML precisos e gerar previsões usando uma interface visual, sem código, de apontar e clicar.

Sobre os autores

Rajakumar Sampathkumar é gerente técnico principal de contas da AWS, fornecendo orientação aos clientes sobre o alinhamento de tecnologia de negócios e apoiando a reinvenção de seus modelos e processos de operação em nuvem. Ele é apaixonado por nuvem e aprendizado de máquina. Raj também é especialista em machine learning e trabalha com clientes da AWS para projetar, implantar e gerenciar suas cargas de trabalho e arquiteturas da AWS.

Rahul Nabera é consultor de análise de dados nos serviços profissionais da AWS. Seu trabalho atual se concentra em permitir que os clientes criem suas cargas de trabalho de dados e machine learning na AWS. Em seu tempo livre, ele gosta de jogar críquete e vôlei.

Raviteja Yelamanchili é um arquiteto de soluções corporativas da Amazon Web Services com sede em Nova York. Ele trabalha com grandes clientes corporativos de serviços financeiros para projetar e implantar aplicativos altamente seguros, escaláveis, confiáveis e econômicos na nuvem. Ele traz mais de 11 anos de experiência em gerenciamento de riscos, consultoria de tecnologia, análise de dados e aprendizado de máquina. Quando não está ajudando os clientes, ele gosta de viajar e jogar PS5.

Carimbo de hora: 18 de outubro de 202219 de outubro de 2022

Carimbo de hora: Julho 3, 2023

Use o Amazon SageMaker Canvas para análise exploratória de dados

Republicado por Platão

Visão geral da solução

Pré-requisitos

Importe seu conjunto de dados para o Canvas

Exploração de dados

Visualização de dados

Balanço e variação de dados

Transformações

Construa o modelo

limpar

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Desenvolvendo sistemas avançados de aprendizado de máquina na Trumid com a Deep Graph Library for Knowledge Embedding

Impeça o controle de conta no login com o novo modelo Account Takeover Insights no Amazon Fraud Detector

Execute inferência em escala para OpenFold, um modelo de ML de dobra de proteína baseado em PyTorch, usando o Amazon EKS

Crie um back-end de resumo de reunião sem servidor com grandes modelos de linguagem no Amazon SageMaker JumpStart | Amazon Web Services

Crie áudio para conteúdo em vários idiomas com a mesma persona de voz TTS no Amazon Polly

Use os serviços de IA e ML da AWS para promover a acessibilidade e a inclusão de pessoas com deficiência visual ou de comunicação

Use um URL pré-assinado para fornecer a seus analistas de negócios acesso seguro ao Amazon SageMaker Canvas

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta