Esta es una publicación invitada de Capital escalable, una FinTech líder en Europa que ofrece gestión de patrimonio digital y una plataforma de corretaje con una tarifa plana de negociación.
Como empresa de rápido crecimiento, los objetivos de Scalable Capital no solo son construir una infraestructura innovadora, sólida y confiable, sino también brindar las mejores experiencias a nuestros clientes, especialmente cuando se trata de servicios al cliente.
Scalable recibe diariamente cientos de consultas por correo electrónico de nuestros clientes. Al implementar un modelo moderno de procesamiento del lenguaje natural (PLN), el proceso de respuesta se ha configurado de manera mucho más eficiente y el tiempo de espera de los clientes se ha reducido enormemente. El modelo de aprendizaje automático (ML) clasifica las nuevas solicitudes entrantes de los clientes tan pronto como llegan y las redirige a colas predefinidas, lo que permite a nuestros agentes dedicados al éxito del cliente centrarse en el contenido de los correos electrónicos según sus habilidades y proporcionar respuestas adecuadas.
En esta publicación, demostramos los beneficios técnicos de usar transformadores Hugging Face implementados con Amazon SageMaker, como la formación y la experimentación a escala, y una mayor productividad y rentabilidad.
Planteamiento del problema
Scalable Capital es una de las FinTechs de más rápido crecimiento en Europa. Con el objetivo de democratizar la inversión, la empresa ofrece a sus clientes un fácil acceso a los mercados financieros. Los clientes de Scalable pueden participar activamente en el mercado a través de la plataforma de operaciones de corretaje de la empresa o utilizar Scalable Wealth Management para invertir de forma inteligente y automatizada. En 2021, Scalable Capital experimentó un aumento de diez veces en su base de clientes, de decenas de miles a cientos de miles.
Para brindar a nuestros clientes una experiencia de usuario de primera clase (y consistente) en todos los productos y servicio al cliente, la empresa buscaba soluciones automatizadas para generar eficiencias para una solución escalable y al mismo tiempo mantener la excelencia operativa. Los equipos de ciencia de datos y servicio al cliente de Scalable Capital identificaron que uno de los mayores obstáculos en el servicio a nuestros clientes era responder a las consultas por correo electrónico. En concreto, el cuello de botella era el paso de clasificación, en el que los empleados tenían que leer y etiquetar los textos de solicitud a diario. Una vez que los correos electrónicos fueron enrutados a sus colas adecuadas, los respectivos especialistas rápidamente contactaron y resolvieron los casos.
Para agilizar este proceso de clasificación, el equipo de ciencia de datos de Scalable creó e implementó un modelo de PNL multitarea utilizando una arquitectura transformadora de última generación, basada en el modelo previamente entrenado. distilbert-base-con caja-alemana modelo publicado por Hugging Face. distilbert-base-con caja-alemana utiliza el destilación del conocimiento Método para entrenar previamente un modelo de representación de lenguaje de propósito general más pequeño que el modelo base BERT original. La versión destilada logra un rendimiento comparable a la versión original, a la vez que es más pequeña y más rápida. Para facilitar nuestro proceso de ciclo de vida de ML, decidimos adoptar SageMaker para construir, implementar, servir y monitorear nuestros modelos. En la siguiente sección, presentamos el diseño de la arquitectura de nuestro proyecto.
Resumen de la solución
La infraestructura ML de Scalable Capital consta de dos cuentas de AWS: una como entorno para la etapa de desarrollo y otra para la etapa de producción.
El siguiente diagrama muestra el flujo de trabajo de nuestro proyecto de clasificador de correo electrónico, pero también se puede generalizar a otros proyectos de ciencia de datos.
El flujo de trabajo consta de los siguientes componentes:
- Experimentación de modelos – Los científicos de datos utilizan Estudio Amazon SageMaker para llevar a cabo los primeros pasos en el ciclo de vida de la ciencia de datos: análisis exploratorio de datos (EDA), limpieza y preparación de datos y construcción de modelos prototipo. Cuando se completa la fase exploratoria, recurrimos a VSCode alojado en una computadora portátil SageMaker como nuestra herramienta de desarrollo remoto para modularizar y producir nuestra base de código. Para explorar diferentes tipos de modelos y configuraciones de modelos y, al mismo tiempo, realizar un seguimiento de nuestras experimentaciones, utilizamos SageMaker Training y SageMaker Experiments.
- Construcción del modelo – Después de decidir un modelo para nuestro caso de uso de producción, en este caso una tarea múltiple distilbert-base-con caja-alemana modelo, ajustado a partir del modelo previamente entrenado de Hugging Face, confirmamos y enviamos nuestro código a la rama de desarrollo de Github. El evento de fusión de Github activa nuestra canalización de CI de Jenkins, que a su vez inicia un trabajo de SageMaker Pipelines con datos de prueba. Esto actúa como una prueba para asegurarse de que los códigos se ejecuten como se esperaba. Se implementa un punto final de prueba con fines de prueba.
- Despliegue del modelo – Después de asegurarse de que todo funciona como se esperaba, los científicos de datos fusionan la rama de desarrollo con la rama principal. Este evento de fusión ahora activa un trabajo de SageMaker Pipelines que utiliza datos de producción con fines de capacitación. Posteriormente, los artefactos del modelo se producen y almacenan en un archivo de salida. Servicio de almacenamiento simple de Amazon (Amazon S3) y se registra una nueva versión del modelo en el registro de modelos de SageMaker. Los científicos de datos examinan el rendimiento del nuevo modelo y luego aprueban si está en línea con las expectativas. El evento de aprobación del modelo es capturado por Puente de eventos de Amazon, que luego implementa el modelo en un punto final de SageMaker en el entorno de producción.
- MLOps – Debido a que el punto final de SageMaker es privado y no se puede acceder a él mediante servicios fuera de la VPC, un AWS Lambda función y Puerta de enlace API de Amazon Se requieren puntos finales públicos para comunicarse con CRM. Cada vez que llegan nuevos correos electrónicos a la bandeja de entrada de CRM, CRM invoca el punto final público de API Gateway, que a su vez activa la función Lambda para invocar el punto final privado de SageMaker. Luego, la función transmite la clasificación a CRM a través del punto final público de API Gateway. Para monitorear el desempeño de nuestro modelo implementado, implementamos un circuito de retroalimentación entre CRM y los científicos de datos para realizar un seguimiento de las métricas de predicción del modelo. Mensualmente, CRM actualiza los datos históricos utilizados para la experimentación y el entrenamiento de modelos. Usamos Flujos de trabajo administrados por Amazon para Apache Airflow (Amazon MWAA) como programador de nuestro reentrenamiento mensual.
En las siguientes secciones, desglosamos con más detalle los pasos de preparación de datos, experimentación de modelos e implementación de modelos.
Preparación de datos
Scalable Capital utiliza una herramienta CRM para gestionar y almacenar datos de correo electrónico. Los contenidos relevantes del correo electrónico consisten en el asunto, el cuerpo y los bancos custodios. Hay tres etiquetas para asignar a cada correo electrónico: de qué línea de negocio proviene el correo electrónico, qué cola es apropiada y el tema específico del correo electrónico.
Antes de comenzar a entrenar cualquier modelo de PNL, nos aseguramos de que los datos de entrada estén limpios y que las etiquetas estén asignadas de acuerdo con las expectativas.
Para recuperar contenidos limpios de consultas de clientes Scalable, eliminamos de los datos de correo electrónico sin procesar y texto y símbolos adicionales, como firmas de correo electrónico, impresiones, citas de mensajes anteriores en cadenas de correo electrónico, símbolos CSS, etc. De lo contrario, nuestros futuros modelos entrenados podrían experimentar un rendimiento degradado.
Las etiquetas para los correos electrónicos evolucionan con el tiempo a medida que los equipos de servicio al cliente escalables agregan nuevas y perfeccionan o eliminan las existentes para adaptarse a las necesidades comerciales. Para asegurarse de que las etiquetas de los datos de entrenamiento, así como las clasificaciones esperadas para la predicción, estén actualizadas, el equipo de ciencia de datos trabaja en estrecha colaboración con el equipo de servicio al cliente para garantizar la exactitud de las etiquetas.
Experimentación de modelos
Comenzamos nuestro experimento con los pre-entrenados disponibles. distilbert-base-con caja-alemana modelo publicado por Hugging Face. Debido a que el modelo previamente entrenado es un modelo de representación de lenguaje de propósito general, podemos adaptar la arquitectura para realizar tareas posteriores específicas, como clasificación y respuesta a preguntas, conectando cabezales apropiados a la red neuronal. En nuestro caso de uso, la tarea posterior que nos interesa es la clasificación de secuencias. Sin modificar el arquitectura existente, decidimos ajustar tres modelos previamente entrenados separados para cada una de nuestras categorías requeridas. Con el Contenedores de aprendizaje profundo de SageMaker Hugging Face (DLC), iniciar y administrar experimentos de PNL se simplifica con los contenedores Hugging Face y la API de experimentos de SageMaker.
El siguiente es un fragmento de código de train.py
:
El siguiente código es el estimador de Hugging Face:
Para validar los modelos ajustados, utilizamos el Puntuación F1 debido a la naturaleza desequilibrada de nuestro conjunto de datos de correo electrónico, pero también para calcular otras métricas como exactitud, precisión y recuperación. Para que la API de Experimentos de SageMaker registre las métricas del trabajo de capacitación, primero debemos registrar las métricas en la consola local del trabajo de capacitación, que son recogidas por Reloj en la nube de Amazon. Luego definimos el formato de expresión regular correcto para capturar los registros de CloudWatch. Las definiciones de métricas incluyen el nombre de las métricas y la validación de expresiones regulares para extraer las métricas del trabajo de capacitación:
Como parte de la iteración de entrenamiento para el modelo clasificador, utilizamos una matriz de confusión y un informe de clasificación para evaluar el resultado. La siguiente figura muestra la matriz de confusión para la predicción de líneas de negocio.
La siguiente captura de pantalla muestra un ejemplo del informe de clasificación para la predicción de línea de negocio.
Como próxima iteración de nuestro experimento, aprovecharemos aprendizaje multitarea para mejorar nuestro modelo. El aprendizaje multitarea es una forma de entrenamiento en la que un modelo aprende a resolver múltiples tareas simultáneamente, porque la información compartida entre tareas puede mejorar la eficiencia del aprendizaje. Al adjuntar dos cabezales de clasificación más a la arquitectura distilbert original, podemos realizar ajustes multitarea, lo que logra métricas razonables para nuestro equipo de servicio al cliente.
Despliegue del modelo
En nuestro caso de uso, el clasificador de correo electrónico se implementará en un punto final, al cual nuestra canalización de CRM puede enviar un lote de correos electrónicos no clasificados y obtener predicciones. Debido a que tenemos otras lógicas, como la limpieza de datos de entrada y predicciones de tareas múltiples, además de la inferencia del modelo Hugging Face, necesitamos escribir un script de inferencia personalizado que se adhiera a la Estándar SageMaker.
El siguiente es un fragmento de código de inference.py
:
Cuando todo está listo, usamos SageMaker Pipelines para administrar nuestro proceso de capacitación y conectarlo a nuestra infraestructura para completar nuestra configuración de MLOps.
Para monitorear el desempeño del modelo implementado, creamos un circuito de retroalimentación para permitir que CRM nos proporcione el estado de los correos electrónicos clasificados cuando se cierran los casos. Con base en esta información, realizamos ajustes para mejorar el modelo implementado.
Conclusión
En esta publicación, compartimos cómo SageMaker facilita que el equipo de ciencia de datos de Scalable administre de manera eficiente el ciclo de vida de un proyecto de ciencia de datos, es decir, el proyecto de clasificador de correo electrónico. El ciclo de vida comienza con la fase inicial de análisis y exploración de datos con SageMaker Studio; pasa a la experimentación y la implementación de modelos con entrenamiento, inferencia y DLC de Hugging Face de SageMaker; y se completa con un canal de capacitación con SageMaker Pipelines integrado con otros servicios de AWS. Gracias a esta infraestructura, podemos iterar e implementar nuevos modelos de manera más eficiente y, por lo tanto, podemos mejorar los procesos existentes dentro de Scalable, así como las experiencias de nuestros clientes.
Para obtener más información sobre Hugging Face y SageMaker, consulte los siguientes recursos:
Acerca de los autores
Dra. Sandra Schmid es jefe de análisis de datos en Scalable GmbH. Es responsable de los enfoques basados en datos y los casos de uso en la empresa junto con sus equipos. Su enfoque clave es encontrar la mejor combinación de modelos de aprendizaje automático y ciencia de datos y objetivos comerciales para obtener el mayor valor comercial y eficiencia posible de los datos.
Huy Dang Científico de datos en Scalable GmbH. Sus responsabilidades incluyen análisis de datos, creación e implementación de modelos de aprendizaje automático, así como desarrollo y mantenimiento de infraestructura para el equipo de ciencia de datos. En su tiempo libre, le gusta leer, hacer senderismo, escalar rocas y mantenerse actualizado con los últimos avances en aprendizaje automático.
mia chang es un arquitecto de soluciones especializado en aprendizaje automático para Amazon Web Services. Trabaja con clientes en EMEA y comparte las mejores prácticas para ejecutar cargas de trabajo de IA/ML en la nube con su experiencia en matemáticas aplicadas, informática e IA/ML. Se centra en cargas de trabajo específicas de PNL y comparte su experiencia como conferenciante y autora de libros. En su tiempo libre, le gusta el yoga, los juegos de mesa y preparar café.
Moritz Guertler es Ejecutivo de Cuentas en el segmento de Negocios Nativos Digitales en AWS. Se centra en los clientes del sector FinTech y los apoya para acelerar la innovación a través de una infraestructura de nube segura y escalable.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Automoción / vehículos eléctricos, Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- ChartPrime. Eleve su juego comercial con ChartPrime. Accede Aquí.
- Desplazamientos de bloque. Modernización de la propiedad de compensaciones ambientales. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/machine-learning/accelerate-client-success-management-through-email-classification-with-hugging-face-on-amazon-sagemaker/
- :posee
- :es
- :no
- :dónde
- $ UP
- 1
- 100
- 13
- 15%
- 17
- 2021
- 26%
- 32
- 500
- 7
- a
- Poder
- Nuestra Empresa
- arriba
- acelerar
- acelerador
- Aceptar
- de la máquina
- acomodar
- Conforme
- Mi Cuenta
- Cuentas
- la exactitud
- Logra
- a través de
- activamente
- hechos
- adaptar
- add
- adición
- ajustes
- adoptar
- Ventaja
- Después
- después
- agentes
- AI / ML
- objetivo
- permite
- también
- Amazon
- Amazon SageMaker
- Amazon Web Services
- entre
- an
- análisis
- Analytics
- y
- cualquier
- APACHE
- abejas
- aplicada
- enfoques
- adecuado
- aprobación
- aprobar
- arquitectura
- somos
- argumentos
- AS
- asigna
- At
- adjuntar
- autor
- Confirmación de Viaje
- Hoy Disponibles
- AWS
- Atrás
- fondo
- Bancos
- bases
- basado
- base
- BE
- porque
- esto
- "Ser"
- beneficios
- MEJOR
- y las mejores prácticas
- entre
- tablero
- Juegos de Mesa
- cuerpo
- primer libro
- Rama
- Descanso
- corretaje
- build
- Construir la
- construido
- negocios
- pero
- by
- PUEDEN
- capital
- De capital
- capturar
- capturado
- llevar
- case
- cases
- categoría
- cadenas
- clasificación
- clasificado
- Limpieza
- cliente
- clientes
- Alpinismo
- Cerrar
- cerrado
- Soluciones
- infraestructura de nube
- código
- base de código
- los códigos de
- CAFÉ
- colaboración
- combinación
- proviene
- hacer
- Comunicarse
- compañía
- De la empresa
- comparable
- completar
- ultima
- componentes
- Calcular
- computadora
- Ciencias de la Computación
- Congreso
- confusión
- consistente
- consiste
- Consola
- Contenedores
- contenido
- contenido
- correcta
- CRM
- CO
- custodio
- personalizado
- cliente
- Clientes
- todos los días
- datos
- análisis de los datos
- Data Analytics
- Preparación de datos
- Ciencia de los datos
- científico de datos
- basada en datos
- Fecha
- decidir
- decidido
- a dedicados
- profundo
- deep learning
- Predeterminado
- definir
- se define
- Definiciones
- democratizar
- demostrar
- desplegar
- desplegado
- Desplegando
- despliegue
- despliega
- Diseño
- detalle
- desarrollar
- el desarrollo
- Desarrollo
- desarrollos
- una experiencia diferente
- digital
- gestión patrimonial digital
- DE INSCRIPCIÓN
- dos
- cada una
- de forma sencilla
- eficiencias
- eficiente.
- más
- correo
- EMEA
- personas
- habilitar
- Punto final
- comprometido
- garantizar
- Entorno
- época
- especialmente
- Europa
- evaluar
- evaluación
- Evento
- todo
- evoluciona
- examinar
- ejemplo
- Excelencia
- ejecutivos
- existente
- expectativa
- las expectativas
- esperado
- experience
- experimentado
- Experiencias
- experimento
- experimentos
- exploración
- Análisis exploratorio de datos
- explorar
- extra
- f1
- Cara
- facilitar
- facilita
- Moda
- más rápida
- más rápido
- de más rápido crecimiento
- realimentación
- Figura
- financiero
- la búsqueda de
- Fintech
- Fintechs
- Nombre
- primeros pasos
- plano
- Focus
- se centra
- siguiendo
- formulario
- formato
- Gratis
- Desde
- función
- futuras
- Obtén
- Juegos
- puerta
- propósito general
- generar
- obtener
- GitHub
- GMBH
- Goals
- Creciendo
- Invitad@s
- Guest Post
- tenido
- Tienen
- he
- cabeza
- ¡Aviso!
- aquí
- su
- histórico
- organizado
- Cómo
- HTML
- http
- HTTPS
- Cientos
- no haber aun identificado una solucion para el problema
- if
- implementar
- implementación
- mejorar
- in
- incluir
- Entrante
- aumente
- aumentado
- información
- EN LA MINA
- inicial
- Innovation
- originales
- Las opciones de entrada
- Consultas
- investigación
- COMPLETAMENTE
- De Operación
- interesado
- dentro
- introducir
- Invertir
- inversión extranjera
- invoca
- IT
- iteración
- SUS
- Trabajos
- json
- Guardar
- Clave
- Label
- Etiquetas
- idioma
- mayor
- más reciente
- líder
- APRENDE:
- aprendizaje
- ciclo de vida
- línea
- carga
- local
- log
- conectado
- mirando
- de
- máquina
- máquina de aprendizaje
- hecho
- Mantener los
- para lograr
- Realizar
- gestionan
- gestionado
- Management
- administrar
- Mercado
- Industrias
- matemáticas
- Matrix
- ir
- evento de fusión
- la vida
- Método
- métrico
- Métrica
- podría
- ML
- MLOps
- modelo
- modelos
- Moderno
- Monitorear
- mensual
- más,
- se mueve
- mucho más
- múltiples
- nombre
- a saber
- nativo
- Natural
- Procesamiento natural del lenguaje
- Naturaleza
- ¿ Necesita ayuda
- del sistema,
- neural
- red neural
- Nuevo
- Next
- nlp
- cuaderno
- ahora
- número
- of
- Ofertas
- on
- ONE
- las
- , solamente
- operativos.
- or
- solicite
- reconocida por
- Otro
- de otra manera
- "nuestr
- salir
- salida
- afuera
- Más de
- parte
- participar
- Realizar
- actuación
- fase
- escogido
- industrial
- plataforma
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- posible
- Publicación
- prácticas
- Precisión
- predicción
- Predicciones
- preparación
- anterior
- primario
- privada
- en costes
- tratamiento
- producido
- Producción
- productividad
- Productos
- proyecto
- proyecta
- apropiado
- prototipo
- proporcionar
- proporciona un
- público
- publicado
- fines
- Push
- pregunta
- con rapidez
- citas
- aumento
- Rate
- Crudo
- alcanzado
- Leer
- Reading
- ready
- mejor
- recibe
- archivos
- Reducción
- remitir
- FILTRO
- expresiones regulares
- registrarte
- registro
- confianza
- sanaciones
- remove
- reporte
- representación
- solicita
- solicitudes
- Requisitos
- resuelto
- Recursos
- aquellos
- responder
- respuesta
- respuestas
- responsabilidades
- responsable
- resultado
- volvemos
- robusto
- Rock
- correr
- sabio
- Tuberías de SageMaker
- mismo
- escalable
- Escala
- Ciencia:
- Científico
- los científicos
- guión
- Sección
- (secciones)
- seguro
- segmento
- envío
- separado
- Secuencia
- ayudar
- de coches
- Servicios
- Configure
- en forma de
- compartido
- Acciones
- ella
- Shows
- Firmas
- sencillos
- simultáneamente
- habilidades
- menores
- retazo
- So
- a medida
- Soluciones
- RESOLVER
- pronto
- Espacio
- Speaker
- especialista
- especialistas
- soluciones y
- específicamente
- Etapa
- comienzo
- Comience a
- comienza
- el estado de la técnica
- Estado
- quedarse
- paso
- pasos
- STORAGE
- almacenados
- almacenamiento
- aerodinamizar
- estudio
- sujeto
- comercial
- tal
- soportes
- seguro
- ¡Prepárate!
- Tarea
- tareas
- equipo
- equipos
- Técnico
- tener
- test
- Pruebas
- texto
- que
- Muchas Gracias
- esa
- La
- su
- Les
- luego
- Ahí.
- por lo tanto
- ellos
- así
- miles
- Tres
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- a
- juntos
- del IRS
- tema
- antorcha
- seguir
- Plataforma de
- Trading Platform
- Entrenar
- entrenado
- Formación
- transformador
- transformers
- tremendamente
- GIRO
- dos
- tipo
- tipos
- Actualizaciones
- us
- utilizan el
- caso de uso
- usado
- Usuario
- experiencia como usuario
- usos
- usando
- VALIDAR
- validación
- propuesta de
- versión
- Esperando
- fue
- we
- Gestión de Patrimonio
- gestión de patrimonios
- web
- servicios web
- WELL
- tuvieron
- cuando
- cuando
- que
- mientras
- dentro de
- sin
- flujo de trabajo
- flujos de trabajo
- funciona
- escribir
- Yoga
- zephyrnet