Muitos aplicativos destinados à manutenção de equipamentos industriais, monitoramento comercial, gerenciamento de frota e otimização de rotas são criados usando APIs e drivers Cassandra de código aberto para processar dados em alta velocidade e baixa latência. Gerenciar você mesmo as tabelas do Cassandra pode ser demorado e caro. Amazon Keyspaces (para Apache Cassandra) permite configurar, proteger e dimensionar tabelas do Cassandra na Nuvem AWS sem gerenciar infraestrutura adicional.
Nesta postagem, orientaremos você pelos serviços da AWS relacionados ao treinamento de modelos de machine learning (ML) usando Amazon Keyspaces em alto nível e forneceremos instruções passo a passo para a ingestão de dados do Amazon Keyspaces em Amazon Sage Maker e treinar um modelo que pode ser usado para um caso de uso específico de segmentação de clientes.
A AWS tem vários serviços para ajudar as empresas a implementar processos de ML na nuvem.
O AWS ML Stack tem três camadas. Na camada intermediária está SageMaker, que oferece aos desenvolvedores, cientistas de dados e engenheiros de ML a capacidade de criar, treinar e implantar modelos de ML em escala. Ele remove a complexidade de cada etapa do fluxo de trabalho de ML para que você possa implantar seus casos de uso de ML com mais facilidade. Isso inclui qualquer coisa, desde manutenção preditiva até visão computacional para prever comportamentos do cliente. Os clientes obtêm uma melhoria de até 10 vezes na produtividade dos cientistas de dados com o SageMaker.
O Apache Cassandra é uma escolha popular para casos de uso de leitura pesada com dados não estruturados ou semiestruturados. Por exemplo, uma empresa popular de entrega de alimentos estima o tempo de entrega e um cliente de varejo pode persistir frequentemente usando as informações do catálogo de produtos no banco de dados Apache Cassandra. Espaços-chave da Amazon é um serviço de banco de dados compatível com Apache Cassandra escalável, altamente disponível e gerenciado sem servidor. Você não precisa provisionar, corrigir ou gerenciar servidores e não precisa instalar, manter ou operar software. As tabelas podem aumentar e diminuir automaticamente, e você paga apenas pelos recursos que usar. O Amazon Keyspaces permite que você execute suas cargas de trabalho do Cassandra na AWS usando o mesmo código de aplicativo Cassandra e ferramentas de desenvolvedor que você usa hoje.
O SageMaker fornece um conjunto de algoritmos integrados para ajudar cientistas de dados e profissionais de ML a começar a treinar e implantar modelos de ML rapidamente. Neste post, mostraremos como um cliente de varejo pode usar o histórico de compras do cliente no banco de dados de Keyspaces e segmentar diferentes segmentos de clientes para campanhas de marketing.
K-significa é um algoritmo de aprendizado não supervisionado. Ele tenta encontrar agrupamentos discretos dentro dos dados, onde os membros de um grupo são tão semelhantes quanto possível uns aos outros e tão diferentes quanto possível dos membros de outros grupos. Você define os atributos que deseja que o algoritmo use para determinar a similaridade. O SageMaker usa uma versão modificada do algoritmo de clustering k-means em escala da web. Em comparação com a versão original do algoritmo, a versão usada pelo SageMaker é mais precisa. No entanto, como o algoritmo original, ele é dimensionado para grandes conjuntos de dados e oferece melhorias no tempo de treinamento.
Visão geral da solução
As instruções pressupõem que você usaria o SageMaker Studio para executar o código. O código associado foi compartilhado em GitHub de amostra da AWS. Seguindo as instruções do laboratório, você pode fazer o seguinte:
- Instale as dependências necessárias.
- Conecte-se ao Amazon Keyspaces, crie uma tabela e ingira dados de amostra.
- Crie um modelo de ML de classificação usando os dados no Amazon Keyspaces.
- Explore os resultados do modelo.
- Limpe os recursos recém-criados.
Depois de concluído, você terá integrado o SageMaker ao Amazon Keyspaces para treinar modelos de ML, conforme mostrado na imagem a seguir.
Agora você pode seguir o instruções passo a passo nesta postagem para ingerir dados brutos armazenados em Amazon Keyspaces usando o SageMaker e os dados assim recuperados para processamento de ML.
Pré-requisitos
Primeiro, navegue até SageMaker.
Em seguida, se esta for a primeira vez que você está usando o SageMaker, selecione Iniciar.
Em seguida, selecione Configurar domínio do SageMaker.
Em seguida, crie um novo perfil de usuário com Nome – usuário de sábioe selecione Criar nova função no Função de execução padrão subseção.
Em seguida, na tela que aparece, selecione qualquer Serviço de armazenamento simples da Amazon (Amazon S3) bucket e selecione Criar função.
Essa função será usada nas etapas a seguir para permitir que o SageMaker acesse a Tabela de Keyspaces usando credenciais temporárias da função. Isso elimina a necessidade de armazenar um nome de usuário e senha no notebook.
Em seguida, recupere a função associada ao usuário de sábio que foi criado na etapa anterior da seção de resumo.
Em seguida, navegue até o Console AWS e olhe para cima Gerenciamento de identidade e acesso da AWS (IAM). No IAM, navegue até Funções. Em Funções, procure a função de execução identificada na etapa anterior.
Em seguida, selecione a função identificada na etapa anterior e selecione Adicionar permissões. Na lista suspensa exibida, selecione Criar política em linha. O SageMaker permite fornecer um nível granular de acesso que restringe quais ações um usuário/aplicativo pode realizar com base nos requisitos de negócios.
Em seguida, selecione a guia JSON e copie a política da seção Nota do Github página. Essa política permite que o notebook SageMaker se conecte a Keyspaces e recupere dados para processamento adicional.
Em seguida, selecione Adicionar permissões novamente e na lista suspensa e selecione Anexar política.
Pesquise a política AmazonKeyspacesFullAccess e marque a caixa de seleção ao lado do resultado correspondente e selecione Anexar políticas.
Verifique se a seção de políticas de permissões inclui AmazonS3FullAccess
, AmazonSageMakerFullAccess
, AmazonKeyspacesFullAccess
, bem como a política em linha recém-adicionada.
Em seguida, navegue até o SageMaker Studio usando o Console AWS e selecione o SageMaker Studio. Uma vez lá, selecione Iniciar aplicativo e selecione Studio.
Passo a passo do notebook
A maneira preferida de se conectar a Keyspaces do SageMaker Notebook é usando Processo do AWS Signature versão 4 (SigV4) baseado Credenciais Temporárias para autenticação. Nesse cenário, NÃO precisamos gerar ou armazenar credenciais de Keyspaces e podemos usar as credenciais para autenticar com o plug-in SigV4. As credenciais de segurança temporárias consistem em um ID de chave de acesso e uma chave de acesso secreta. No entanto, eles também incluem um token de segurança que indica quando as credenciais expiram. Nesta postagem, criaremos uma função do IAM e geraremos credenciais de segurança temporárias.
Primeiro, instalamos um driver (cassandra-sigv4). Esse driver permite que você adicione informações de autenticação às suas solicitações de API usando o processo do AWS Signature versão 4 (SigV4). Usando o plug-in, você pode fornecer aos usuários e aplicativos credenciais de curto prazo para acessar Amazon Keyspaces (para Apache Cassandra) usando usuários e funções do IAM. Depois disso, você importará um certificado necessário junto com dependências de pacote adicionais. No final, você permitirá que o notebook assuma o papel de conversar com os Keyspaces.
Em seguida, conecte-se ao Amazon Keyspaces e leia os dados do sistema de Keyspaces no Pandas DataFrame para validar a conexão.
Em seguida, prepare os dados para treinamento no conjunto de dados brutos. No notebook python associado a esta postagem, use um conjunto de dados de varejo baixado de SUA PARTICIPAÇÃO FAZ A DIFERENÇA, e processá-lo. Nosso objetivo de negócios, dado o conjunto de dados, é agrupar os clientes usando uma chamada de métrica específica RFM. O modelo RFM é baseado em três fatores quantitativos:
- Recência: quão recentemente um cliente fez uma compra.
- Frequência: a frequência com que um cliente faz uma compra.
- Valor monetário: quanto dinheiro um cliente gasta em compras.
A análise RFM classifica numericamente um cliente em cada uma dessas três categorias, geralmente em uma escala de 1 a 5 (quanto maior o número, melhor o resultado). O “melhor” cliente receberia uma pontuação máxima em todas as categorias. Usaremos a função de discretização baseada em quantil do pandas (qcut). Isso ajudará a discretizar valores em intervalos de tamanhos iguais com base ou com base em quantis de amostra.
Neste exemplo, usamos CQL para ler registros da tabela Keyspace. Em alguns casos de uso de ML, pode ser necessário ler os mesmos dados da mesma tabela Keyspaces várias vezes. Nesse caso, recomendamos que você salve seus dados em um bucket do Amazon S3 para evitar incorrer em custos lendo do Amazon Keyspaces. Dependendo do seu cenário, você também pode usar Amazon EMR para ingerir um arquivo muito grande do Amazon S3 no SageMaker.
Em seguida, treinamos um modelo de ML usando o algoritmo KMeans e garantimos que os clusters sejam criados. Nesse cenário específico, você veria que os clusters criados são impressos, mostrando que os clientes no conjunto de dados brutos foram agrupados com base em vários atributos no conjunto de dados. Essas informações de cluster podem ser usadas para campanhas de marketing direcionadas.
(Opcional) Em seguida, salvamos os segmentos de clientes que foram identificados pelo modelo de ML em uma tabela do Amazon Keyspaces para marketing direcionado. Um trabalho em lote pode ler esses dados e executar campanhas direcionadas a clientes em segmentos específicos.
Finalmente, nós limpar os recursos criado durante este tutorial para evitar cobranças adicionais.
Pode levar alguns segundos a um minuto para concluir a exclusão do keyspace e das tabelas. Quando você exclui um keyspace, o keyspace e todas as suas tabelas são excluídas e você para de acumular cobranças a partir deles.
Conclusão
Esta postagem mostrou como ingerir dados de clientes do Amazon Keyspaces no SageMaker e treinar um modelo de cluster que permitia segmentar clientes. Você pode usar essas informações para marketing direcionado, melhorando muito o KPI do seu negócio. Para saber mais sobre Amazon Keyspaces, consulte os seguintes recursos:
- Treinar modelos de aprendizado de máquina usando Amazon Keyspaces como fonte de dados (Caderno do SageMaker)
- Conecte-se ao Amazon Keyspaces do seu desktop usando IDEs IntelliJ, PyCharm ou DataGrip
- Referência de linguagem CQL para Amazon Keyspaces (para Apache Cassandra)
- Como configurar o acesso de linha de comando ao Amazon Keyspaces (para Apache Cassandra) usando a nova imagem do Docker do kit de ferramentas do desenvolvedor
- Gerenciamento de identidade e acesso para Amazon Keyspaces (para Apache Cassandra)
- Conectando-se a Amazon Keyspaces do SageMaker com credenciais específicas do serviço
- Recência, Frequência, Valor Monetário (RFM)
- Referência do código Kaggle
Sobre os autores
Vadim Lyakhovich é arquiteto de soluções sênior da AWS na área da baía de São Francisco, ajudando os clientes a migrar para a AWS. Ele está trabalhando com organizações que vão de grandes empresas a pequenas startups para apoiar suas inovações. Ele também está ajudando os clientes a arquitetar soluções escaláveis, seguras e econômicas na AWS.
Parte Patel é arquiteto de soluções na AWS na área da baía de São Francisco. Parth orienta os clientes a acelerar sua jornada para a nuvem e os ajuda a adotar a nuvem AWS com sucesso. Ele se concentra em ML e modernização de aplicativos.
Ram Pathangi é arquiteto de soluções na AWS na área da baía de São Francisco. Ele ajudou clientes nas verticais de agricultura, seguros, bancos, varejo, saúde e ciências da vida, hotelaria e alta tecnologia a administrar seus negócios com sucesso na nuvem AWS. Ele é especialista em Bancos de Dados, Analytics e ML.
- Coinsmart. A melhor troca de Bitcoin e criptografia da Europa.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. ACESSO LIVRE.
- CryptoHawk. Radar Altcoin. Teste grátis.
- Fonte: https://aws.amazon.com/blogs/machine-learning/train-machine-learning-models-using-amazon-keyspaces-as-a-data-source/
- '
- "
- &
- 10
- 100
- 9
- habilidade
- Sobre
- acelerar
- Acesso
- preciso
- Alcançar
- ações
- Adicional
- agricultura
- à frente
- algoritmo
- Todos os Produtos
- Amazon
- análise
- analítica
- Outro
- api
- APIs
- app
- Aplicação
- aplicações
- ÁREA
- por WhatsApp.
- atributos
- Autenticação
- automaticamente
- disponível
- AWS
- Bancário
- Bay
- Blog
- fronteira
- construir
- negócio
- negócios
- chamada
- Campanhas
- Cuidado
- casos
- Categoria
- certificado
- acusações
- escolha
- classificação
- Na nuvem
- código
- comparado
- computador
- Contato
- da conexão
- cônsul
- relação custo-benefício
- poderia
- país
- crio
- criado
- Credenciais
- cliente
- Clientes
- dados,
- conjunto de dados
- banco de dados
- bases de dados
- entrega
- Entrega
- Dependendo
- implantar
- Implantação
- área de trabalho
- Determinar
- Developer
- desenvolvedores
- diferente
- Estivador
- down
- motorista
- Cair
- durante
- facilmente
- Engenheiros
- empresas
- equipamento
- estimativas
- exemplo
- execução
- fatores
- Primeiro nome
- primeira vez
- ANIMARIS
- concentra-se
- seguir
- seguinte
- comida
- Francisco
- função
- mais distante
- geralmente
- gerar
- obtendo
- GitHub
- grandemente
- Grupo
- Do grupo
- Guias
- Saúde
- Assistência médica
- ajudar
- ajuda
- Alta
- superior
- altamente
- história
- Como funciona o dobrador de carta de canal
- Como Negociar
- Contudo
- HTTPS
- Dados de identificação:
- imagem
- executar
- melhoria
- melhorar
- incluir
- inclui
- índice
- industrial
- INFORMAÇÕES
- Infraestrutura
- e inovações
- instalar
- com seguro
- integrado
- IT
- Trabalho
- viagem
- Chave
- laboratório
- língua
- grande
- lançamento
- camada
- APRENDER
- aprendizagem
- Nível
- Ciências da Vida
- olhar
- fiel
- máquina
- aprendizado de máquina
- moldadas
- a manter
- FAZ
- gerencia
- gerenciados
- de grupos
- gestão
- Marketing
- maciço
- correspondente
- Membros
- ML
- modelo
- modelos
- Monetário
- dinheiro
- monitoração
- mais
- a maioria
- múltiplo
- necessário
- caderno
- número
- operar
- otimização
- organizações
- Outros
- pacote
- particular
- Senha
- Remendo
- Pagar
- plug-in
- políticas
- Privacidade
- Popular
- possível
- potencial
- predizer
- Preparar
- anterior
- preço
- primário
- processo
- processos
- em processamento
- Produto
- produtividade
- Perfil
- promissor
- fornecer
- fornece
- compra
- compras
- quantitativo
- rapidamente
- variando
- Cru
- Leitura
- receber
- recentemente
- recomendar
- registros
- pedidos
- requeridos
- Requisitos
- Recursos
- Resultados
- varejo
- rever
- Risco
- Tipo
- Rota
- Execute
- San
- San Francisco
- SC
- escalável
- Escala
- CIÊNCIAS
- cientistas
- Peneira
- Pesquisar
- segundo
- seguro
- segurança
- token de segurança
- segmento
- segmentação
- segmentos
- Serverless
- serviço
- Serviços
- conjunto
- compartilhado
- assistência técnica de curto e longo prazo
- mostrando
- semelhante
- simples
- dormir
- pequeno
- So
- Software
- sólido
- Soluções
- alguns
- especializada
- pilha
- começado
- Startups
- armazenamento
- loja
- estudo
- entraram com sucesso
- ajuda
- .
- sistemas
- Converse
- Target
- visadas
- temporário
- A
- Através da
- tempo
- vezes
- hoje
- juntos
- token
- kit de ferramentas
- ferramentas
- topo
- comércio
- Training
- usar
- casos de uso
- usuários
- valor
- vário
- versão
- Verticais
- visão
- O Quê
- dentro
- sem
- trabalhar
- seria
- investimentos