Preveja a rotatividade de clientes com aprendizado de máquina sem código usando o Amazon SageMaker Canvas

Republicado por Platão

seguidores: 0

Compreender o comportamento do cliente é a prioridade de todas as empresas hoje. Obter insights sobre por que e como os clientes compram pode ajudar a aumentar a receita. Mas a perda de clientes (também chamada de rotatividade de clientes) é sempre um risco, e a compreensão dos motivos pelos quais os clientes saem pode ser igualmente importante para a manutenção de receitas e lucros. O aprendizado de máquina (ML) pode ajudar com insights, mas até agora você precisava de especialistas em ML para construir modelos para prever a rotatividade, cuja falta poderia atrasar ações baseadas em insights por parte das empresas para reter clientes.

Nesta postagem, mostramos como os analistas de negócios podem construir um modelo de ML de rotatividade de clientes com Tela do Amazon SageMaker, nenhum código é necessário. O Canvas fornece aos analistas de negócios uma interface visual de apontar e clicar que permite criar modelos e gerar previsões precisas de ML por conta própria, sem exigir qualquer experiência em ML ou escrever uma única linha de código.

Visão geral da solução

Para esta postagem, assumimos a função de analista de marketing no departamento de marketing de uma operadora de telefonia móvel. Fomos encarregados de identificar clientes que estão potencialmente em risco de desligamento. Temos acesso ao uso do serviço e outros dados de comportamento do cliente e queremos saber se esses dados podem ajudar a explicar por que um cliente sairia. Se pudermos identificar os fatores que explicam a rotatividade, poderemos tomar ações corretivas para mudar o comportamento previsto, como a realização de campanhas de retenção direcionadas.

Para fazer isso, usamos os dados que temos em um arquivo CSV, que contém informações sobre uso e rotatividade de clientes. Usamos o Canvas para realizar as seguintes etapas:

Importe o conjunto de dados de rotatividade de Serviço de armazenamento simples da Amazon (Amazônia S3).
Treine e construa o modelo de rotatividade.
Analise os resultados do modelo.
Teste as previsões em relação ao modelo.

Para nosso conjunto de dados, usamos um conjunto de dados sintéticos de uma operadora de telefonia móvel de telecomunicações. Este conjunto de dados de amostra contém 5,000 registros, onde cada registro usa 21 atributos para descrever o perfil do cliente. Os atributos são os seguintes:

Estado – O estado dos EUA em que o cliente reside, indicado por uma abreviatura de duas letras; por exemplo, OH ou NJ
Comprimento da conta – O número de dias que esta conta está ativa
Código de área – O código de área de três dígitos do número de telefone do cliente
Telefone – O número de telefone restante de sete dígitos
Plano Internacional – Se o cliente possui plano de ligações internacionais (sim/não)
Plano VMail – Se o cliente possui recurso de correio de voz (sim/não)
Mensagem VMail – O número médio de mensagens de correio de voz por mês
Minutos do dia – O número total de minutos de chamada usados durante o dia
Chamadas diurnas – O número total de chamadas feitas durante o dia
Carga Diária – O custo faturado das chamadas diurnas
Minutos de véspera, Eva chama, Carga de véspera – O custo faturado para chamadas noturnas
Minutos noturnos, Chamadas noturnas, Carga Noturna – O custo faturado para chamadas noturnas
Minutos internacionais, Chamadas internacionais, Carga Internacional – O custo faturado para chamadas internacionais
Chamadas CustServ – O número de chamadas feitas para o atendimento ao cliente
Agitação? – Se o cliente abandonou o serviço (verdadeiro/falso)

O último atributo, Churn?, é o atributo que queremos que o modelo de ML preveja. O atributo target é binário, o que significa que nosso modelo prevê a saída como uma de duas categorias (True or False).

Pré-requisitos

Um administrador de nuvem com um Conta da AWS com as permissões apropriadas é necessário para concluir os seguintes pré-requisitos:

Implantar um Amazon Sage Maker Para obter instruções, veja Integrado ao domínio do Amazon SageMaker.
Implantar tela. Para obter instruções, consulte Configuração e gerenciamento do Amazon SageMaker Canvas (para administradores de TI).
Configure as políticas de compartilhamento de recursos entre origens (CORS) para o Canvas. Para obter instruções, consulte Dê aos seus usuários a capacidade de fazer upload de arquivos locais.

Crie um modelo de rotatividade de clientes

Primeiro, vamos baixar o conjunto de dados de rotatividade e revise o arquivo para ter certeza de que todos os dados estão lá. Em seguida, conclua as seguintes etapas:

Entre no Console de gerenciamento da AWS, usando uma conta com as permissões apropriadas para acessar o Canvas.
Faça login no console do Canvas.

É aqui que podemos gerenciar nossos conjuntos de dados e criar modelos.

Escolha importação.

Selecionar botão de importação de tela

Escolha Escolher arquivo e selecione o churn.csv arquivo.
Escolha Datas de importação para carregá-lo no Canvas.

Canvas seleciona dados do s3

O processo de importação leva aproximadamente 10 segundos (isso pode variar dependendo do tamanho do conjunto de dados). Quando estiver concluído, podemos ver que o conjunto de dados está em Ready estado.

Conjunto de dados pronto para tela

Para visualizar as primeiras 100 linhas do conjunto de dados, passe o mouse sobre o ícone do olho.

Conjunto de dados de visualização em tela

Uma visualização do conjunto de dados é exibida. Aqui podemos verificar se nossos dados estão corretos.

Dados de verificação do Canvas

Depois de confirmarmos que o conjunto de dados importado está pronto, criamos nosso modelo.

Escolha novo modelo.

Novos modelos de tela

Selecione o conjunto de dados churn.csv e escolha Selecione o conjunto de dados.

Conjunto de dados de seleção de tela

Agora configuramos o processo de construção do modelo.

Escolha Colunas de destino, escolha o Churn? coluna.

Escolha Tipo de modelo, o Canvas recomenda automaticamente o tipo de modelo, neste caso Previsão de 2 categorias (o que um cientista de dados chamaria de classificação binária). Isso é adequado para nosso caso de uso porque temos apenas dois valores de previsão possíveis: True or False, então seguimos a recomendação feita pelo Canvas.

Modelo de construção de tela

Validamos agora algumas suposições. Queremos ter uma visão rápida se nossa coluna de destino pode ser prevista pelas outras colunas. Podemos obter uma visão rápida da precisão estimada do modelo e do impacto da coluna (a importância estimada de cada coluna na previsão da coluna de destino).

Selecione todas as 21 colunas e escolha Modelo de visualização.

Este recurso usa um subconjunto de nosso conjunto de dados e apenas uma única passagem na modelagem. Para nosso caso de uso, o modelo de visualização leva aproximadamente 2 minutos para ser construído.

Modelo de visualização de tela

Conforme mostrado na captura de tela a seguir, o Phone e State colunas têm muito menos impacto em nossa previsão. Queremos ter cuidado ao remover a entrada de texto porque ela pode conter recursos categóricos discretos e importantes que contribuem para nossa previsão. Aqui, o número de telefone é apenas o equivalente a um número de conta – não tem valor para prever a probabilidade de rotatividade de outras contas, e o estado do cliente não afeta muito nosso modelo.

Removemos essas colunas porque elas não têm grande importância de recurso.
Depois de removermos o Phone e State colunas, vamos executar a visualização novamente.

Conforme mostrado na captura de tela a seguir, a precisão do modelo aumentou 0.1%. Nosso modelo de visualização tem uma precisão estimada de 95.9%, e as colunas com maior impacto são Night Calls, Eve Mins e Night Charge. Isso nos dá uma ideia de quais colunas impactam mais o desempenho do nosso modelo. Aqui precisamos ter cuidado ao fazer a seleção de recursos, porque se um único recurso for extremamente impactante no resultado de um modelo, é um indicador primário de vazamento alvo, e o recurso não estará disponível no momento da previsão. Neste caso, poucas colunas apresentaram impacto muito semelhante, por isso continuamos a construir nosso modelo.

Engenharia de recursos do Canvas depois

Canvas oferece duas opções de construção:

Versão padrão – Constrói o melhor modelo a partir de um processo otimizado alimentado por AutoML; a velocidade é trocada por maior precisão
Construção rápida – Constrói um modelo em uma fração do tempo comparado a uma construção padrão; a precisão potencial é trocada pela velocidade.

Para esta postagem, escolhemos o Versão padrão opção porque queremos ter o melhor modelo e estamos dispostos a gastar mais tempo esperando o resultado.

Construção padrão do Canvas

O processo de construção pode levar de 2 a 4 horas. Durante esse tempo, o Canvas testa centenas de pipelines candidatos, selecionando o melhor modelo para nos apresentar. Na captura de tela a seguir, podemos ver o tempo de construção e o progresso esperados.

Modelo de análise de tela

Avalie o desempenho do modelo

Quando o processo de construção do modelo for concluído, o modelo previu rotatividade em 97.9% das vezes. Isto parece bom, mas como analistas queremos nos aprofundar e ver se podemos confiar no modelo para tomar decisões com base nele. No Marcar guia, podemos revisar um gráfico visual de nossas previsões mapeadas para seus resultados. Isso nos permite uma visão mais profunda do nosso modelo.

O Canvas separa o conjunto de dados em conjuntos de treinamento e teste. O conjunto de dados de treinamento são os dados que o Canvas usa para construir o modelo. O conjunto de teste é usado para verificar se o modelo funciona bem com novos dados. O diagrama de Sankey na captura de tela a seguir mostra o desempenho do modelo no conjunto de teste. Para saber mais, consulte Avaliando o desempenho do seu modelo no Amazon SageMaker Canvas.

Para obter insights mais detalhados além do que é exibido no diagrama de Sankey, os analistas de negócios podem usar um matriz de confusão análise para suas soluções de negócios. Por exemplo, queremos compreender melhor a probabilidade de o modelo fazer previsões falsas. Podemos ver isso no diagrama de Sankey, mas queremos mais insights, então escolhemos Métricas avançadas. Somos apresentados a uma matriz de confusão, que exibe o desempenho de um modelo em um formato visual com os seguintes valores, específicos para a classe positiva - estamos medindo com base em se eles de fato irão mudar, então nossa classe positiva é True neste exemplo:

Verdadeiro Positivo (TP) - O número de True resultados que foram corretamente previstos como True
Verdadeiro Negativo (TN) - O número de False resultados que foram corretamente previstos como False
Falso Positivo (FP) - O número de False resultados que foram erroneamente previstos como True
Falso Negativo (FN) - O número de True resultados que foram erroneamente previstos como False

Podemos usar este gráfico de matriz para determinar não apenas o quão preciso é o nosso modelo, mas também quando ele está errado, com que frequência isso pode acontecer e até que ponto está errado.

Matriz F1 de tela

As métricas avançadas parecem boas. Podemos confiar no resultado do modelo. Vemos falsos positivos e falsos negativos muito baixos. Isso ocorre se o modelo achar que um cliente no conjunto de dados irá se desligar e na verdade não o fará (falso positivo), ou se o modelo achar que o cliente irá se desligar e ele realmente o fará (falso negativo). Números elevados para ambos podem nos fazer pensar mais sobre se podemos usar o modelo para tomar decisões.

Vamos voltar para Visão geral guia, para revisar o impacto de cada coluna. Essas informações podem ajudar a equipe de marketing a obter insights que levem à tomada de ações para reduzir a rotatividade de clientes. Por exemplo, podemos ver que tanto o nível baixo como o alto CustServ Calls aumentar a probabilidade de rotatividade. A equipe de marketing pode tomar medidas para evitar a rotatividade de clientes com base nesses aprendizados. Os exemplos incluem a criação de perguntas frequentes detalhadas em sites para reduzir chamadas de atendimento ao cliente e a realização de campanhas educativas com os clientes sobre as perguntas frequentes que podem manter o engajamento.

Nosso modelo parece bastante preciso. Podemos realizar diretamente uma previsão interativa no Prever guia, em lote ou previsão única (em tempo real). Neste exemplo, fizemos algumas alterações em determinados valores de coluna e realizamos uma previsão em tempo real. O Canvas nos mostra o resultado da previsão junto com o nível de confiança.

Inferência de previsão do Canvas

Digamos que temos um cliente existente que faz o seguinte uso: Night Mins é 40 e Eve Mins é 40. Podemos fazer uma previsão e nosso modelo retorna uma pontuação de confiança de 93.2% de que esse cliente irá abandonar (True). Podemos agora optar por oferecer descontos promocionais para reter esse cliente.

Digamos que temos um cliente existente que tem o seguinte uso: Night Mins é 40 e Eve Mins é 40. Podemos fazer uma previsão e nosso modelo retorna uma pontuação de confiança de 93.2% de que esse cliente irá abandonar (True). Podemos agora optar por oferecer descontos promocionais para reter esse cliente.

Executar uma previsão é ótimo para análises hipotéticas individuais, mas também precisamos executar previsões em vários registros de uma só vez. A tela é capaz de executar previsões em lote, que permite executar previsões em escala.

Conclusão

Nesta postagem, mostramos como um analista de negócios pode criar um modelo de rotatividade de clientes com o SageMaker Canvas usando dados de amostra. O Canvas permite que seus analistas de negócios criem modelos de ML precisos e gerem previsões usando uma interface visual, sem código, de apontar e clicar. Um analista de marketing agora pode usar essas informações para executar campanhas de retenção direcionadas e testar novas estratégias de campanha com mais rapidez, levando a uma redução na rotatividade de clientes.

Os analistas podem levar isso para o próximo nível compartilhando seus modelos com colegas cientistas de dados. Os cientistas de dados podem visualizar o modelo Canvas em Estúdio Amazon SageMaker, onde eles podem explorar as escolhas feitas pelo Canvas AutoML, validar os resultados do modelo e até mesmo produzir o modelo com apenas alguns cliques. Isso pode acelerar a criação de valor baseado em ML e ajudar a dimensionar resultados aprimorados com mais rapidez.

Para saber mais sobre como usar o Canvas, consulte Crie, compartilhe, implante: como analistas de negócios e cientistas de dados alcançam um time-to-market mais rápido usando ML sem código e Amazon SageMaker Canvas. Para obter mais informações sobre como criar modelos de ML com uma solução sem código, consulte Anunciando o Amazon SageMaker Canvas – um recurso de aprendizado de máquina visual e sem código para analistas de negócios.

Sobre o autor

Henrique Robalino é arquiteto de soluções na AWS, baseado em NJ. Ele é apaixonado por nuvem e aprendizado de máquina e pelo papel que eles podem desempenhar na sociedade. Ele consegue isso trabalhando com os clientes para ajudá-los a atingir suas metas de negócios usando a Nuvem AWS. Fora do trabalho, você pode encontrar Henry viajando ou explorando a natureza com sua filha peluda, Arly.

Preveja a rotatividade de clientes com machine learning sem código usando Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Chaoran Wang é arquiteto de soluções na AWS, baseado em Dallas, TX. Ele trabalha na AWS desde que se formou na Universidade do Texas em Dallas em 2016 com mestrado em Ciência da Computação. Chaoran ajuda os clientes a criar aplicativos escalonáveis, seguros e econômicos e a encontrar soluções para resolver seus desafios de negócios na Nuvem AWS. Fora do trabalho, Chaoran adora passar o tempo com a família e dois cachorros, Biubiu e Coco.