Cree, comparta, implemente: cómo los analistas de negocios y los científicos de datos logran un tiempo de comercialización más rápido utilizando ML sin código y Amazon SageMaker Canvas

Reeditado por Platón

seguidores: 0

El aprendizaje automático (ML) ayuda a las organizaciones a aumentar los ingresos, impulsar el crecimiento comercial y reducir los costos al optimizar las funciones comerciales centrales en múltiples verticales, como el pronóstico de la demanda, la calificación crediticia, la fijación de precios, la predicción de la rotación de clientes, la identificación de las próximas mejores ofertas, la predicción de envíos tardíos y mejorando la calidad de fabricación. Los ciclos tradicionales de desarrollo de ML toman meses y requieren escasas habilidades de ciencia de datos e ingeniería de ML. Las ideas de los analistas para los modelos de ML a menudo se encuentran en largos retrasos que esperan el ancho de banda del equipo de ciencia de datos, mientras que los científicos de datos se centran en proyectos de ML más complejos que requieren todo su conjunto de habilidades.

Para ayudar a romper este punto muerto, hemos presentó Amazon SageMaker Canvas, una solución de aprendizaje automático sin código que puede ayudar a las empresas a acelerar la entrega de soluciones de aprendizaje automático en horas o días. SageMaker Canvas permite a los analistas utilizar fácilmente los datos disponibles en lagos de datos, almacenes de datos y almacenes de datos operativos; construir modelos ML; y utilícelos para hacer predicciones de forma interactiva y para la puntuación por lotes en conjuntos de datos masivos, todo sin escribir una sola línea de código.

En esta publicación, mostramos cómo SageMaker Canvas permite la colaboración entre los científicos de datos y los analistas comerciales, logrando un tiempo de comercialización más rápido y acelerando el desarrollo de soluciones de ML. Los analistas obtienen su propio espacio de trabajo de aprendizaje automático sin código en SageMaker Canvas, sin tener que convertirse en expertos en aprendizaje automático. Luego, los analistas pueden compartir sus modelos desde Canvas con unos pocos clics, con los cuales los científicos de datos podrán trabajar en Estudio Amazon SageMaker, un entorno de desarrollo integrado (IDE) de ML de extremo a extremo. Al trabajar juntos, los analistas de negocios pueden aportar su conocimiento de dominio y los resultados de la experimentación, mientras que los científicos de datos pueden crear canalizaciones y agilizar el proceso de manera efectiva.

Profundicemos en cómo sería el flujo de trabajo.

Los analistas de negocios construyen un modelo y luego lo comparten

Para comprender cómo SageMaker Canvas simplifica la colaboración entre los analistas comerciales y los científicos de datos (o ingenieros de aprendizaje automático), primero abordamos el proceso como analista comercial. Antes de comenzar, consulte Anuncio de Amazon SageMaker Canvas: una capacidad de aprendizaje automático visual y sin código para analistas de negocios para obtener instrucciones sobre cómo crear y probar el modelo con SageMaker Canvas.

Para esta publicación, utilizamos una versión modificada del Conjunto de datos de detección de fraude de tarjetas de crédito de Kaggle, un conocido conjunto de datos para un problema de clasificación binaria. El conjunto de datos originalmente está muy desequilibrado: tiene muy pocas entradas clasificadas como clase negativa (transacciones anómalas). Independientemente de la distribución de funciones de destino, aún podemos usar este conjunto de datos, porque SageMaker Canvas maneja este desequilibrio mientras entrena y ajusta un modelo automáticamente. Este conjunto de datos consta de alrededor de 9 millones de celdas. También puede descargar un versión reducida de este conjunto de datos. El tamaño del conjunto de datos es mucho más pequeño, alrededor de 500,000 0 celdas, porque se ha submuestreado aleatoriamente y luego se ha sobremuestreado con la técnica SMOTE para garantizar que se pierda la menor cantidad de información posible durante este proceso. Ejecutar un experimento completo con este conjunto de datos reducido le cuesta $XNUMX en la capa gratuita de SageMaker Canvas.

Una vez que se crea el modelo, los analistas pueden usarlo para hacer predicciones directamente en Canvas, ya sea para solicitudes individuales o para un conjunto de datos de entrada completo de forma masiva.

Los modelos creados con Canvas Standard Build también se pueden compartir fácilmente con un clic de un botón con científicos de datos e ingenieros de ML que usan SageMaker Studio. Esto permite que un científico de datos valide el rendimiento del modelo que ha creado y proporcione comentarios. Los ingenieros de ML pueden elegir su modelo e integrarlo con los flujos de trabajo existentes y los productos disponibles para su empresa y sus clientes. Tenga en cuenta que, en el momento de escribir este artículo, no es posible compartir un modelo creado con Canvas Quick Build o un modelo de pronóstico de series temporales.

Compartir un modelo a través de la interfaz de usuario de Canvas es sencillo:

En la página que muestra los modelos que ha creado, elija un modelo.
Elige Compartir.
Elija una o más versiones del modelo que desea compartir.
Opcionalmente, incluya una nota que brinde más contexto sobre el modelo o la ayuda que está buscando.
Elige Crear enlace de SageMaker Studio.
Copie el enlace generado.

¡Y eso es! Ahora puede compartir el enlace con sus colegas a través de Slack, correo electrónico o cualquier otro método de su preferencia. El científico de datos debe estar en el mismo dominio de SageMaker Studio para poder acceder a su modelo, así que asegúrese de que este sea el caso con el administrador de su organización.

Los científicos de datos acceden a la información del modelo desde SageMaker Studio

Ahora, juguemos el papel de un científico de datos o un ingeniero de aprendizaje automático y veamos las cosas desde su punto de vista con SageMaker Studio.

El enlace compartido por el analista nos lleva a SageMaker Studio, el primer IDE basado en la nube para el flujo de trabajo de aprendizaje automático de extremo a extremo.

La pestaña se abre automáticamente y muestra una descripción general del modelo creado por el analista en SageMaker Canvas. Puede ver rápidamente el nombre del modelo, el tipo de problema de ML, la versión del modelo y qué usuario creó el modelo (en el campo ID de usuario de Canvas). También tiene acceso a detalles sobre el conjunto de datos de entrada y el mejor modelo que SageMaker pudo producir. Nos sumergiremos en eso más adelante en la publicación.

En Conjunto de datos de entrada pestaña, también puede ver el flujo de datos desde el origen hasta el conjunto de datos de entrada. En este caso, solo se utiliza una fuente de datos y no se han aplicado operaciones de unión, por lo que se muestra una única fuente. Puede analizar estadísticas y detalles sobre el conjunto de datos eligiendo Cuaderno de exploración de datos abiertos. Este cuaderno le permite explorar los datos que estaban disponibles antes de entrenar el modelo y contiene un análisis de la variable de destino, una muestra de los datos de entrada, estadísticas y descripciones de columnas y filas, así como otra información útil para que el científico de datos saber más sobre el conjunto de datos. Para obtener más información sobre este informe, consulte Informe de exploración de datos.

Después de analizar el conjunto de datos de entrada, pasemos a la segunda pestaña de la descripción general del modelo, Trabajo de AutoML. Esta pestaña contiene una descripción del trabajo de AutoML cuando seleccionó la opción de compilación estándar en SageMaker Canvas.

La tecnología AutoML que se encuentra debajo de SageMaker Canvas elimina el trabajo pesado de crear modelos ML. Crea, entrena y ajusta automáticamente el mejor modelo de ML basado en sus datos mediante un enfoque automatizado, al tiempo que le permite mantener el control y la visibilidad totales. Esta visibilidad de los modelos candidatos generados, así como de los hiperparámetros utilizados durante el proceso de AutoML, está contenida en el cuaderno de generación de candidatos, que está disponible en esta pestaña.

El Trabajo de AutoML La pestaña también contiene una lista de todos los modelos creados como parte del proceso de AutoML, ordenados por la métrica del objetivo F1. Para destacar el mejor modelo de los trabajos de formación lanzados, se utiliza una etiqueta con un círculo verde en el Mejor modelo columna. También puede visualizar fácilmente otras métricas utilizadas durante la fase de capacitación y evaluación, como la puntuación de precisión y el Área bajo la curva (AUC). Para obtener más información sobre los modelos que puede entrenar durante un trabajo de AutoML y las métricas utilizadas para evaluar el rendimiento del modelo entrenado, consulte Compatibilidad con modelos, métricas y validación.

Para obtener más información sobre el modelo, ahora puede hacer clic con el botón derecho en el mejor modelo y elegir Abrir en detalles del modelo. Alternativamente, puede elegir el Mejor modelo enlace en la parte superior de la Visión general del modelo sección que visitó por primera vez.

La página de detalles del modelo contiene una gran cantidad de información útil sobre el modelo que funcionó mejor con estos datos de entrada. Enfoquémonos primero en el resumen en la parte superior de la página. La captura de pantalla de ejemplo anterior muestra que, de cientos de ejecuciones de entrenamiento de modelos, un modelo XGBoost se desempeñó mejor en el conjunto de datos de entrada. Al momento de escribir este artículo, SageMaker Canvas puede entrenar tres tipos de algoritmos de ML: aprendizaje lineal, XGBoost y un perceptrón multicapa (MLP), cada uno con una amplia variedad de canalizaciones de preprocesamiento e hiperparámetros. Para obtener más información sobre cada algoritmo, consulte página de algoritmos compatibles.

SageMaker también incluye una funcionalidad explicativa gracias a una implementación escalable y eficiente de KernelSHAP, basado en el concepto de un valor de Shapley del campo de la teoría de juegos cooperativos que asigna a cada característica un valor de importancia para una predicción particular. Esto permite transparencia sobre cómo el modelo llegó a sus predicciones y es muy útil para definir la importancia de las características. Se puede descargar un informe completo de explicabilidad que incluye la importancia de las características en formato PDF, cuaderno o datos sin procesar. En ese informe, se muestra un conjunto más amplio de métricas, así como una lista completa de hiperparámetros utilizados durante el trabajo de AutoML. Para obtener más información sobre cómo SageMaker proporciona herramientas de explicación integradas para las soluciones de AutoML y los algoritmos de ML estándar, consulte Utilice herramientas de explicabilidad integradas y mejore la calidad del modelo con Amazon SageMaker Autopilot.

Finalmente, las otras pestañas de esta vista muestran información sobre los detalles de rendimiento (matriz de confusión, curva de recuperación de precisión, curva ROC), artefactos usados para las entradas y generados durante el trabajo de AutoML y detalles de la red.

En este punto, el científico de datos tiene dos opciones: implementar directamente el modelo o crear una canalización de capacitación que se pueda programar o activar de forma manual o automática. Las siguientes secciones brindan información sobre ambas opciones.

Implementar el modelo directamente

Si el científico de datos está satisfecho con los resultados obtenidos por el trabajo de AutoML, puede implementar directamente el modelo desde el Detalles del modelo página. Es tan simple como elegir Implementar modelo junto al nombre del modelo.

SageMaker le muestra dos opciones de implementación: un punto final en tiempo real, con tecnología de Puntos finales de Amazon SageMakere inferencia por lotes, impulsada por Transformación por lotes de Amazon SageMaker.

SageMaker también proporciona otros modos de inferencia. Para obtener más información, consulte Implementar modelos para inferencia.

Para habilitar el modo de predicciones en tiempo real, simplemente le da al punto final un nombre, un tipo de instancia y un recuento de instancias. Debido a que este modelo no requiere grandes recursos informáticos, puede usar una instancia basada en CPU con un recuento inicial de 1. Puede obtener más información sobre los diferentes tipos de instancias disponibles y sus especificaciones en el Página de precios de Amazon SageMaker (en el Precios bajo demanda sección, elija el Inferencia en tiempo real pestaña). Si no sabe qué instancia debe elegir para su implementación, también puede pedirle a SageMaker que encuentre la mejor para usted de acuerdo con sus KPI utilizando el Recomendador de inferencia de SageMaker. También puede proporcionar parámetros opcionales adicionales, con respecto a si desea o no capturar datos de solicitud y respuesta hacia o desde el punto final. Esto puede resultar útil si está planeando monitoreando tu modelo. También puede elegir qué contenido desea proporcionar como parte de su respuesta, ya sea solo la predicción o la probabilidad de predicción, la probabilidad de todas las clases y las etiquetas de destino.

Para ejecutar un trabajo de puntuación por lotes y obtener predicciones para un conjunto completo de entradas a la vez, puede iniciar el trabajo de transformación por lotes desde el Consola de administración de AWS o a través del SDK de Python de SageMaker. Para obtener más información sobre la transformación por lotes, consulte Usar transformación por lotes y los cuadernos de ejemplo.

Definir una canalización de entrenamiento

Los modelos de ML rara vez, si acaso, se pueden considerar estáticos e inmutables, porque se alejan de la línea de base en la que han sido entrenados. Los datos del mundo real evolucionan con el tiempo, y de ellos surgen más patrones y conocimientos, que pueden o no ser capturados por el modelo original entrenado en datos históricos. Para resolver este problema, puede configurar una canalización de entrenamiento que vuelva a entrenar automáticamente sus modelos con los últimos datos disponibles.

Al definir esta canalización, una de las opciones del científico de datos es volver a usar AutoML para la canalización de capacitación. Puede iniciar un trabajo de AutoML mediante programación invocando la API create_auto_ml_job() desde el SDK de AWS Boto3. Puede llamar a esta operación desde un AWS Lambda función dentro de un Funciones de paso de AWS flujo de trabajo, o desde un LambdaStep en Canalizaciones de Amazon SageMaker.

Como alternativa, el científico de datos puede usar el conocimiento, los artefactos y los hiperparámetros obtenidos del trabajo de AutoML para definir una canalización de capacitación completa. Necesitas los siguientes recursos:

El algoritmo que funcionó mejor para el caso de uso – Ya obtuvo esta información del resumen del modelo generado por Canvas. Para este caso de uso, es el algoritmo integrado XGBoost. Para obtener instrucciones sobre cómo usar SageMaker Python SDK para entrenar el algoritmo XGBoost con SageMaker, consulte Utilice XGBoost con el SDK de Python de SageMaker.

Los hiperparámetros derivados del trabajo de AutoML – Están disponibles en el Explicabilidad sección. Puede usarlos como entradas al definir el trabajo de entrenamiento con SageMaker Python SDK.

El código de ingeniería de características proporcionado en la sección Artefactos – Puede usar este código para preprocesar los datos antes del entrenamiento (por ejemplo, a través del procesamiento de Amazon SageMaker) o antes de la inferencia (por ejemplo, como parte de una canalización de inferencia de SageMaker).

Puede combinar estos recursos como parte de una canalización de SageMaker. Omitimos los detalles de implementación en esta publicación; manténgase atento a más contenido sobre este tema.

Conclusión

SageMaker Canvas le permite usar ML para generar predicciones sin necesidad de escribir ningún código. Un analista comercial puede comenzar a usarlo de forma autónoma con conjuntos de datos locales, así como con datos ya almacenados en Servicio de almacenamiento simple de Amazon (Amazon S3), Desplazamiento al rojo de Amazono Copo de nieve. Con solo unos pocos clics, pueden preparar y unir sus conjuntos de datos, analizar la precisión estimada, verificar qué columnas son impactantes, entrenar el mejor modelo y generar nuevas predicciones individuales o por lotes, todo sin necesidad de recurrir a un científico de datos experto. Luego, según sea necesario, pueden compartir el modelo con un equipo de científicos de datos o ingenieros de MLOps, quienes importan los modelos a SageMaker Studio y trabajan junto con el analista para brindar una solución de producción.

Los analistas de negocios pueden obtener información de forma independiente a partir de sus datos sin tener un título en ML y sin tener que escribir una sola línea de código. Los científicos de datos ahora pueden tener tiempo adicional para trabajar en proyectos más desafiantes que pueden usar mejor su amplio conocimiento de IA y ML.

Creemos que esta nueva colaboración abre la puerta a la creación de muchas soluciones de aprendizaje automático más potentes para su empresa. Ahora tiene analistas que producen información comercial valiosa, mientras permite que los científicos de datos y los ingenieros de ML ayuden a refinar, ajustar y ampliar según sea necesario.

Recursos adicionales

Para obtener más información sobre cómo SageMaker puede ayudar aún más a los analistas comerciales, consulte Amazon SageMaker para analistas empresariales.
Para obtener más información sobre cómo SageMaker permite que los científicos de datos desarrollen, entrenen e implementen sus modelos ML, consulte Amazon SageMaker para científicos de datos.
Para obtener más información sobre cómo SageMaker puede ayudar a los ingenieros de MLOps a optimizar el ciclo de vida de ML mediante MLOps, consulte Amazon SageMaker para ingenieros de MLOps.

Acerca de los autores

david gallitelli es Arquitecto de Soluciones Especializado en IA/ML en la región EMEA. Tiene su sede en Bruselas y trabaja en estrecha colaboración con los clientes en todo el Benelux. Ha sido desarrollador desde que era muy joven, comenzó a programar a la edad de 7 años. Comenzó a aprender AI/ML en la universidad y se enamoró de él desde entonces.

marca roy es un arquitecto principal de aprendizaje automático para AWS, que ayuda a los clientes a diseñar y desarrollar soluciones de IA / ML. El trabajo de Mark cubre una amplia gama de casos de uso de ML, con un interés principal en la visión por computadora, el aprendizaje profundo y la ampliación de ML en toda la empresa. Ha ayudado a empresas en muchas industrias, incluidas las de seguros, servicios financieros, medios y entretenimiento, atención médica, servicios públicos y fabricación. Mark tiene seis certificaciones de AWS, incluida la Certificación de especialidad ML. Antes de unirse a AWS, Mark fue arquitecto, desarrollador y líder tecnológico durante más de 25 años, incluidos 19 años en servicios financieros.

Sello de tiempo: Marzo 10, 2022

Sello de tiempo: 20 de jul, 2022

Reeditado por Platón

Informe técnico: Mejores prácticas de aprendizaje automático en el cuidado de la salud y las ciencias biológicas

Reduzca los costos y el tiempo de desarrollo con el modo local de Amazon SageMaker Pipelines

MLOps para inferencia por lotes con monitoreo y reentrenamiento de modelos utilizando Amazon SageMaker, HashiCorp Terraform y GitLab CI/CD | Servicios web de Amazon

Reinventar la experiencia de los datos: utilice la IA generativa y la arquitectura de datos moderna para desbloquear conocimientos | Servicios web de Amazon

Modere, clasifique y procese documentos con Amazon Rekognition y Amazon Textract

Cree una segmentación contextual basada en taxonomía con AWS Media Intelligence y Hugging Face BERT

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta