Los correos electrónicos no deseados, también conocidos como correo no deseado, se envían a una gran cantidad de usuarios a la vez y, a menudo, contienen estafas, contenido de phishing o mensajes crípticos. Los correos electrónicos no deseados a veces son enviados manualmente por un ser humano, pero la mayoría de las veces se envían mediante un bot. Los ejemplos de correos electrónicos no deseados incluyen anuncios falsos, correos electrónicos en cadena e intentos de suplantación de identidad. Existe el riesgo de que un correo electrónico no deseado particularmente bien disfrazado pueda llegar a su bandeja de entrada, lo que puede ser peligroso si se hace clic en él. Es importante tomar precauciones adicionales para proteger su dispositivo y la información confidencial.
A medida que la tecnología mejora, la detección de correos electrónicos no deseados se convierte en una tarea desafiante debido a su naturaleza cambiante. El spam es bastante diferente de otros tipos de amenazas a la seguridad. Al principio puede parecer un mensaje molesto y no un amenaza, pero tiene un efecto inmediato. Además, los spammers suelen adaptar nuevas técnicas. Las organizaciones que brindan servicios de correo electrónico desean minimizar el spam tanto como sea posible para evitar daños a sus clientes finales.
En esta publicación, mostramos lo sencillo que es construir un detector de spam de correo electrónico usando Amazon SageMaker. El incorporado Algoritmo BlazingText ofrece implementaciones optimizadas de Word2vec y algoritmos de clasificación de texto. Word2vec es útil para varias tareas de procesamiento de lenguaje natural (NLP), como el análisis de sentimientos, el reconocimiento de entidades nombradas y la traducción automática. La clasificación de texto es esencial para aplicaciones como búsquedas web, recuperación de información, clasificación y clasificación de documentos.
Resumen de la solución
Esta publicación demuestra cómo puede configurar el detector de correo no deseado y filtrar los correos electrónicos no deseados con SageMaker. Veamos cómo funciona normalmente un detector de spam, como se muestra en el siguiente diagrama.
Los correos electrónicos se envían a través de un detector de spam. Se envía un correo electrónico a la carpeta de spam si el detector de spam lo detecta como spam. De lo contrario, se envía a la bandeja de entrada del cliente.
Lo guiamos a través de los siguientes pasos para configurar nuestro modelo de detector de spam:
- Descargue el conjunto de datos de muestra del repositorio de GitHub.
- Cargue los datos en un Estudio Amazon SageMaker cuaderno.
- Prepare los datos para el modelo.
- Entrene, implemente y pruebe el modelo.
Requisitos previos
Antes de sumergirse en este caso de uso, complete los siguientes requisitos previos:
- Configurar un Cuenta de AWS.
- Establece una Dominio de SageMaker.
- Crear una Servicio de almacenamiento simple de Amazon (Amazon S3) cubeta. Para obtener instrucciones, consulte Cree su primer depósito S3.
Descargar el conjunto de datos
Descargue el email_dataset.csv de GitHub y suba el archivo al depósito S3.
El algoritmo BlazingText espera un único archivo de texto preprocesado con tokens separados por espacios. Cada línea del archivo debe contener una sola oración. Si necesita entrenar en varios archivos de texto, concatenelos en un solo archivo y cargue el archivo en el canal respectivo.
Cargue los datos en SageMaker Studio
Para realizar la carga de datos, complete los siguientes pasos:
- Descargue nuestra
spam_detector.ipynb
archivo de GitHub y cargue el archivo en SageMaker Studio. - En su cuaderno de Studio, abra el
spam_detector.ipynb
cuaderno. - Si se le solicita que elija un kernel, elija el kernel Python 3 (Data Science 3.0) y elija Seleccione. De lo contrario, verifique que se haya seleccionado automáticamente el kernel correcto.
- Importe la biblioteca de Python requerida y configure los roles y los depósitos de S3. Especifique el depósito de S3 y el prefijo donde cargó email_dataset.csv.
- Ejecute el paso de carga de datos en el cuaderno.
- Compruebe si el conjunto de datos está equilibrado o no en función de las etiquetas de Categoría.
Podemos ver que nuestro conjunto de datos está equilibrado.
Prepara los datos
El algoritmo BlazingText espera los datos en el siguiente formato:
Aquí hay un ejemplo:
cheque Formato de datos de entrenamiento y validación para el algoritmo BlazingText.
Ahora ejecuta el paso de preparación de datos en el cuaderno.
- Primero, debe convertir la columna Categoría en un número entero. La siguiente celda reemplaza el valor SPAM con 1 y el valor HAM con 0.
- La siguiente celda agrega el prefijo
__label__
a cada valor de Categoría y tokeniza la columna Mensaje.
- El siguiente paso es dividir el conjunto de datos en conjuntos de datos de entrenamiento y validación y cargar los archivos en el depósito S3.
Entrenar a la modelo
Para entrenar el modelo, complete los siguientes pasos en el cuaderno:
- Configure el estimador BlazingText y cree una instancia de estimador que pase la imagen del contenedor.
- Establezca el hiperparámetro del modo de aprendizaje en supervisado.
BlazingText tiene modos de aprendizaje supervisado y no supervisado. Nuestro caso de uso es la clasificación de texto, que es aprendizaje supervisado.
- Cree los canales de datos de entrenamiento y validación.
- Comience a entrenar el modelo.
- Obtenga la precisión del tren y el conjunto de datos de validación.
Implementar el modelo
En este paso, implementamos el modelo entrenado como punto final. Elige tu instancia preferida
Prueba el modelo
Proporcionemos un ejemplo de tres mensajes de correo electrónico para los que queremos obtener predicciones:
- Haga clic en el siguiente enlace, proporcione sus datos y gane este premio
- La mejor oferta de verano aquí
- Nos vemos en la oficina el viernes.
Cree tokens en el mensaje de correo electrónico y especifique la carga útil que se usará al llamar a la API de REST.
Ahora podemos predecir la clasificación de correo electrónico para cada correo electrónico. Llame al método de predicción del clasificador de texto, pasando las instancias de oraciones tokenizadas (carga útil) al argumento de datos.
Limpiar
Finalmente, puede eliminar el punto final para evitar cualquier costo inesperado.
Además, elimine el archivo de datos del depósito S3.
Conclusión
En esta publicación, lo guiamos a través de los pasos para crear un detector de spam de correo electrónico utilizando el Algoritmo SageMaker BlazingText. Con el algoritmo BlazingText, puede escalar a grandes conjuntos de datos. BlazingText se utiliza para el análisis textual y los problemas de clasificación de texto, y tiene modos de aprendizaje supervisado y no supervisado. Puede usar el algoritmo para casos de uso como análisis de opinión del cliente y clasificación de texto.
Para obtener más información sobre el algoritmo BlazingText, consulte Algoritmo BlazingText.
Sobre la autora
Dhiraj Thakur es un arquitecto de soluciones con Amazon Web Services. Trabaja con los clientes y socios de AWS para proporcionar orientación sobre la adopción, la migración y la estrategia de la nube empresarial. Es un apasionado de la tecnología y disfruta construyendo y experimentando en el espacio analítico y AI / ML.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Automoción / vehículos eléctricos, Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- Desplazamientos de bloque. Modernización de la propiedad de compensaciones ambientales. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/machine-learning/build-an-email-spam-detector-using-amazon-sagemaker/
- :posee
- :es
- :no
- :dónde
- $ UP
- 1
- 7
- a
- Nuestra Empresa
- la exactitud
- adaptar
- Añade
- Adopción
- Anuncios
- AI / ML
- algoritmo
- algoritmos
- también
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- análisis
- Analytics
- y
- cualquier
- abejas
- Aparecer
- aplicaciones
- somos
- argumento
- AS
- At
- Los intentos
- automáticamente
- evitar
- AWS
- basado
- BE
- se convierte en
- esto
- a continuación
- Bot
- ambas
- build
- Construir la
- incorporado
- pero
- by
- llamar al
- llamar
- PUEDEN
- case
- cases
- Categoría
- cadena
- desafiante
- cambio
- Channel
- canales
- comprobar
- Elige
- clasificación
- Soluciones
- adopción en la nube
- Columna
- completar
- que no contengo
- Envase
- contenido
- convertir
- Cost
- Para crear
- cliente
- Clientes
- peligroso
- datos
- Preparación de datos
- Ciencia de los datos
- conjuntos de datos
- acuerdo
- demuestra
- desplegar
- detalles
- Detección
- dispositivo
- una experiencia diferente
- documento
- dos
- cada una
- efecto
- correo
- final
- Punto final
- Empresa
- entidad
- esencial
- ejemplo
- ejemplos
- espera
- extra
- falso
- anuncios falsos
- Archive
- archivos
- filtrar
- Nombre
- siguiendo
- formato
- Viernes
- Desde
- obtener
- GitHub
- guía
- he
- Cómo
- HTML
- HTTPS
- humana
- if
- imagen
- inmediata
- importante
- la mejora de
- in
- incluir
- información
- ejemplo
- Instrucciones
- dentro
- IT
- SUS
- jpg
- conocido
- Etiquetas
- CARGA TERRESTRE
- idioma
- large
- APRENDE:
- aprendizaje
- Biblioteca
- como
- línea
- LINK
- carga
- máquina
- a mano
- Puede..
- mensaje
- la vida
- Método
- migración
- Moda
- modelo
- los modos
- más,
- MEJOR DE TU
- mucho más
- múltiples
- Llamado
- Natural
- Procesamiento natural del lenguaje
- Naturaleza
- ¿ Necesita ayuda
- Nuevo
- Next
- nlp
- cuaderno
- ahora
- número
- of
- Ofertas
- Oficina
- a menudo
- on
- una vez
- ONE
- habiertos
- optimizado
- or
- para las fiestas.
- Otro
- de otra manera
- nuestros
- salir
- particularmente
- socios
- Pasando (Paso)
- apasionado
- Realizar
- suplantación de identidad
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- posible
- Publicación
- predecir
- Predicciones
- preferido
- preparación
- requisitos previos
- problemas
- tratamiento
- proteger
- proporcionar
- Python
- Clasificación
- reconocimiento
- Requisitos
- aquellos
- RESTO
- Derecho
- Riesgo
- También soy miembro del cuerpo docente de World Extreme Medicine (WEM) y embajadora europea de igualdad para The Transformational Travel Council (TTC). En mi tiempo libre, soy una incansable aventurera, escaladora, patrona de día, buceadora y defensora de la igualdad de género en el deporte y la aventura. En XNUMX, fundé Almas Libres, una ONG nacida para involucrar, educar y empoderar a mujeres y niñas a través del deporte urbano, la cultura y la tecnología.
- Ejecutar
- sabio
- Conjunto de datos de muestra
- Escala
- estafas
- Ciencia:
- EN LINEA
- Las amenazas de seguridad
- ver
- seleccionado
- sensible
- expedido
- sentencia
- sentimiento
- Servicios
- set
- tienes
- Mostrar
- mostrado
- sencillos
- soltero
- Soluciones
- Espacio
- correo no deseado (spam)
- dividido
- paso
- pasos
- STORAGE
- sencillo
- Estrategia
- estudio
- tal
- verano
- ¡Prepárate!
- Tarea
- tareas
- técnicas
- Tecnología
- test
- Clasificación de texto
- esa
- El proyecto
- su
- Les
- Ahí.
- ellos
- así
- amenazas
- Tres
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- a
- tokenized
- Tokens
- Entrenar
- entrenado
- Formación
- Traducción
- tipos
- típicamente
- Inesperado
- subido
- utilizan el
- caso de uso
- usado
- usuarios
- usando
- validación
- propuesta de
- diversos
- verificar
- caminado
- quieres
- we
- web
- servicios web
- cuando
- que
- QUIENES
- ganar
- funciona
- Usted
- tú
- zephyrnet