E-mails de spam, também conhecidos como lixo eletrônico, são enviados para um grande número de usuários de uma só vez e geralmente contêm golpes, conteúdo de phishing ou mensagens enigmáticas. Às vezes, os e-mails de spam são enviados manualmente por um ser humano, mas na maioria das vezes são enviados usando um bot. Exemplos de e-mails de spam incluem anúncios falsos, e-mails em cadeia e tentativas de falsificação de identidade. Existe o risco de um e-mail de spam particularmente bem disfarçado chegar à sua caixa de entrada, o que pode ser perigoso se clicado. É importante tomar precauções extras para proteger seu dispositivo e informações confidenciais.
À medida que a tecnologia está melhorando, a detecção de e-mails de spam se torna uma tarefa desafiadora devido à sua natureza mutável. O spam é bem diferente de outros tipos de ameaças à segurança. A princípio pode parecer uma mensagem irritante e não um ameaça, mas tem um efeito imediato. Além disso, os spammers geralmente adaptam novas técnicas. As organizações que fornecem serviços de e-mail desejam minimizar o spam o máximo possível para evitar danos aos clientes finais.
Nesta postagem, mostramos como é simples criar um detector de spam de e-mail usando Amazon Sage Maker. O embutido Algoritmo BlazingText oferece implementações otimizadas de algoritmos de classificação de texto e Word2vec. O Word2vec é útil para várias tarefas de processamento de linguagem natural (NLP), como análise de sentimento, reconhecimento de entidades nomeadas e tradução automática. A classificação de texto é essencial para aplicativos como pesquisas na Web, recuperação de informações, classificação e classificação de documentos.
Visão geral da solução
Esta postagem demonstra como você pode configurar o detector de spam de e-mail e filtrar e-mails de spam usando o SageMaker. Vamos ver como um detector de spam normalmente funciona, conforme mostrado no diagrama a seguir.
Os e-mails são enviados por meio de um detector de spam. Um e-mail é enviado para a pasta de spam se o detector de spam o detectar como spam. Caso contrário, é enviado para a caixa de entrada do cliente.
Orientamos você nas seguintes etapas para configurar nosso modelo de detector de spam:
- Baixe o conjunto de dados de amostra do repositório do GitHub.
- Carregue os dados em um Estúdio Amazon SageMaker notebook.
- Prepare os dados para o modelo.
- Treine, implante e teste o modelo.
Pré-requisitos
Antes de mergulhar neste caso de uso, preencha os seguintes pré-requisitos:
- Configure um Conta da AWS.
- Configurar uma Domínio do SageMaker.
- Crie uma Serviço de armazenamento simples da Amazon (Amazon S3). Para obter instruções, consulte Crie seu primeiro bucket do S3.
Baixe o conjunto de dados
Baixe o email_dataset.csv de GitHub e faça upload do arquivo para o bucket S3.
O algoritmo BlazingText espera um único arquivo de texto pré-processado com tokens separados por espaço. Cada linha do arquivo deve conter uma única frase. Se você precisar treinar em vários arquivos de texto, concatene-os em um arquivo e carregue o arquivo no respectivo canal.
Carregue os dados no SageMaker Studio
Para executar o carregamento de dados, conclua as etapas a seguir:
- Faça o download do
spam_detector.ipynb
arquivo de GitHub e carregue o arquivo no SageMaker Studio. - No bloco de notas do Studio, abra o
spam_detector.ipynb
notebook. - Se você for solicitado a escolher um Kernel, escolha o kernel Python 3 (Data Science 3.0) e escolha Selecionar. Caso contrário, verifique se o kernel correto foi selecionado automaticamente.
- Importe a biblioteca Python necessária e defina as funções e os depósitos S3. Especifique o bucket S3 e o prefixo onde você carregou email_dataset.csv.
- Execute a etapa de carregamento de dados no notebook.
- Verifique se o conjunto de dados está balanceado ou não com base nos rótulos de categoria.
Podemos ver que nosso conjunto de dados está balanceado.
Prepare os dados
O algoritmo BlazingText espera os dados no seguinte formato:
Aqui está um exemplo:
Verifique Formato de dados de treinamento e validação para o algoritmo BlazingText.
Agora você executa a etapa de preparação de dados no notebook.
- Primeiro, você precisa converter a coluna Categoria em um número inteiro. A célula a seguir substitui o valor SPAM por 1 e o valor HAM por 0.
- A próxima célula adiciona o prefixo
__label__
a cada valor de Categoria e tokeniza a coluna Mensagem.
- A próxima etapa é dividir o conjunto de dados em conjuntos de dados de treinamento e validação e carregar os arquivos no bucket do S3.
Treine o modelo
Para treinar o modelo, conclua as seguintes etapas no notebook:
- Configure o estimador BlazingText e crie uma instância do estimador passando a imagem do contêiner.
- Defina o hiperparâmetro do modo de aprendizado como supervisionado.
O BlazingText possui modos de aprendizado supervisionado e não supervisionado. Nosso caso de uso é a classificação de texto, que é um aprendizado supervisionado.
- Crie os canais de dados de treinamento e validação.
- Comece a treinar o modelo.
- Obtenha a precisão do conjunto de dados de treinamento e validação.
Implantar o modelo
Nesta etapa, implantamos o modelo treinado como um endpoint. Escolha sua instância preferida
Teste o modelo
Vamos fornecer um exemplo de três mensagens de e-mail para as quais queremos obter previsões:
- Clique no link abaixo, forneça seus dados e ganhe este prêmio
- Melhor oferta de verão aqui
- Vejo você no escritório na sexta-feira.
Torne a mensagem de e-mail tokenizada e especifique a carga a ser usada ao chamar a API REST.
Agora podemos prever a classificação de e-mail para cada e-mail. Chame o método de previsão do classificador de texto, passando as instâncias de sentença tokenizadas (carga útil) para o argumento de dados.
limpar
Por fim, você pode excluir o ponto de extremidade para evitar custos inesperados.
Além disso, exclua o arquivo de dados do balde S3.
Conclusão
Nesta postagem, orientamos você pelas etapas para criar um detector de spam de e-mail usando o Algoritmo SageMaker BlazingText. Com o algoritmo BlazingText, você pode escalar para grandes conjuntos de dados. O BlazingText é usado para análise textual e problemas de classificação de texto e possui modos de aprendizado não supervisionado e supervisionado. Você pode usar o algoritmo para casos de uso como análise de sentimento do cliente e classificação de texto.
Para saber mais sobre o algoritmo BlazingText, confira Algoritmo BlazingText.
Sobre o autor
Dhiraj Thakur é arquiteto de soluções da Amazon Web Services. Ele trabalha com clientes e parceiros da AWS para fornecer orientação sobre adoção, migração e estratégia da nuvem corporativa. Ele é apaixonado por tecnologia e gosta de construir e experimentar no espaço de análise e IA/ML.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Automotivo / EVs, Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- BlockOffsets. Modernizando a Propriedade de Compensação Ambiental. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :tem
- :é
- :não
- :onde
- $UP
- 1
- 7
- a
- Sobre
- precisão
- adaptar
- Adiciona
- Adoção
- anúncios
- AI / ML
- algoritmo
- algoritmos
- tb
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- an
- análise
- analítica
- e
- qualquer
- api
- aparecer
- aplicações
- SOMOS
- argumento
- AS
- At
- Tentativas
- automaticamente
- evitar
- AWS
- baseado
- BE
- torna-se
- sido
- abaixo
- Bot
- ambos
- construir
- Prédio
- construídas em
- mas a
- by
- chamada
- chamada
- CAN
- casas
- casos
- Categoria
- cadeia
- desafiante
- mudança
- Canal
- canais
- verificar
- Escolha
- classificação
- Na nuvem
- adoção de nuvem
- Coluna
- completar
- não contenho
- Recipiente
- conteúdo
- converter
- Custo
- crio
- cliente
- Clientes
- Perigoso
- dados,
- Preparação de dados
- ciência de dados
- conjuntos de dados
- acordo
- demonstra
- implantar
- detalhes
- Detecção
- dispositivo
- diferente
- documento
- dois
- cada
- efeito
- e-mails
- final
- Ponto final
- Empreendimento
- entidade
- essencial
- exemplo
- exemplos
- espera
- extra
- falsificação
- anúncios falsos
- Envie o
- Arquivos
- filtro
- Primeiro nome
- seguinte
- Escolha
- formato
- Sexta-feira
- da
- ter
- GitHub
- orientações
- he
- Como funciona o dobrador de carta de canal
- HTML
- HTTPS
- humano
- if
- imagem
- Imediato
- importante
- melhorar
- in
- incluir
- INFORMAÇÕES
- instância
- instruções
- para dentro
- IT
- ESTÁ
- jpg
- conhecido
- Rótulos
- Terreno
- língua
- grande
- APRENDER
- aprendizagem
- Biblioteca
- como
- Line
- LINK
- carregar
- máquina
- manualmente
- Posso..
- mensagem
- mensagens
- método
- migração
- Moda
- modelo
- modos
- mais
- a maioria
- muito
- múltiplo
- Nomeado
- natural
- Processamento de linguagem natural
- Natureza
- você merece...
- Novo
- Próximo
- PNL
- caderno
- agora
- número
- of
- Oferece
- Office
- frequentemente
- on
- uma vez
- ONE
- aberto
- otimizado
- or
- organizações
- Outros
- de outra forma
- A Nossa
- Fora
- particularmente
- Parceiros
- Passagem
- apaixonado
- Realizar
- Phishing
- platão
- Inteligência de Dados Platão
- PlatãoData
- possível
- Publique
- predizer
- Previsões
- preferido
- preparação
- pré-requisitos
- problemas
- em processamento
- proteger
- fornecer
- Python
- Posição
- reconhecimento
- requeridos
- aqueles
- DESCANSO
- certo
- Risco
- papéis
- Execute
- sábio
- Conjunto de dados de amostra
- Escala
- scams
- Ciência
- segurança
- As ameaças de segurança
- Vejo
- selecionado
- sensível
- enviei
- sentença
- sentimento
- Serviços
- conjunto
- rede de apoio social
- mostrar
- mostrando
- simples
- solteiro
- Soluções
- Espaço
- Spam
- divisão
- Passo
- Passos
- armazenamento
- franco
- Estratégia
- estudo
- tal
- verão
- Tire
- Tarefa
- tarefas
- técnicas
- Tecnologia
- teste
- Classificação de Texto
- que
- A
- deles
- Eles
- Lá.
- deles
- isto
- ameaças
- três
- Através da
- para
- tokenized
- Tokens
- Trem
- treinado
- Training
- Tradução
- tipos
- tipicamente
- Inesperado
- carregado
- usar
- caso de uso
- usava
- usuários
- utilização
- validação
- valor
- vário
- verificar
- caminhou
- queremos
- we
- web
- serviços web
- quando
- qual
- QUEM
- ganhar
- de
- trabalho
- Vocês
- investimentos
- zefirnet