Cuadernos ilustrativos en Amazon SageMaker JumpStart

Reeditado por Platón

seguidores: 0

JumpStart de Amazon SageMaker es el centro de aprendizaje automático (ML) de SageMaker que proporciona modelos previamente capacitados y disponibles públicamente para una amplia gama de tipos de problemas para ayudarlo a comenzar con el aprendizaje automático.

JumpStart también ofrece ejemplos de notebooks que usan Amazon SageMaker funciones como entrenamiento de instancias puntuales y experimentos en una gran variedad de tipos de modelos y casos de uso. Estos cuadernos de ejemplo contienen código que muestra cómo aplicar soluciones de ML mediante SageMaker y JumpStart. Se pueden adaptar para que coincidan con sus propias necesidades y, por lo tanto, pueden acelerar el desarrollo de aplicaciones.

Recientemente, agregamos 10 nuevas computadoras portátiles a JumpStart en Estudio Amazon SageMaker. Esta publicación se centra en estos nuevos portátiles. Al momento de escribir este artículo, JumpStart ofrece 56 cuadernos, que van desde el uso de modelos de procesamiento de lenguaje natural (NLP) de última generación hasta la corrección de sesgos en conjuntos de datos al entrenar modelos.

Los 10 nuevos cuadernos pueden ayudarlo de las siguientes maneras:

Ofrecen un código de ejemplo para que lo ejecute tal cual desde la interfaz de usuario de JumpStart en Studio y vea cómo funciona el código.
Muestran el uso de varias API de SageMaker y JumpStart
Ofrecen una solución técnica que puede personalizar aún más en función de sus propias necesidades.

La cantidad de notebooks que se ofrecen a través de JumpStart aumenta regularmente a medida que se agregan más notebooks. Estos cuadernos también están disponibles en gitHub.

Descripción general de los cuadernos

Los 10 nuevos portátiles son los siguientes:

Aprendizaje en contexto con AlexaTM 20B – Demuestra cómo usar AlexaTM 20B para el aprendizaje en contexto con aprendizaje de intentos cero y pocos intentos en cinco tareas de ejemplo: resumen de texto, generación de lenguaje natural, traducción automática, respuesta de preguntas extractivas e inferencia y clasificación de lenguaje natural.
Aprendiz lineal de equidad en SageMaker: Recientemente ha habido preocupaciones sobre el sesgo en los algoritmos de ML como resultado de imitar los prejuicios humanos existentes. Este cuaderno aplica conceptos de equidad para ajustar las predicciones del modelo de manera adecuada.
Administre la experimentación de ML con SageMaker Search: Amazon SageMaker Search le permite encontrar y evaluar rápidamente las ejecuciones de entrenamiento de modelos más relevantes de potencialmente cientos y miles de trabajos de entrenamiento de modelos de SageMaker.
Modelo de tema neural de SageMaker: SageMaker Neural Topic Model (NTM) es un algoritmo de aprendizaje no supervisado que intenta describir un conjunto de observaciones como una combinación de distintas categorías.
Predecir infracciones de velocidad de conducción: El algoritmo SageMaker DeepAR se puede usar para entrenar un modelo para varias calles simultáneamente y predecir infracciones para varias cámaras de calle.
Predicción del cáncer de mama – Este cuaderno utiliza el conjunto de datos de diagnóstico de cáncer de mama de UCI para construir un modelo predictivo de si una imagen de masa mamaria indica un tumor benigno o maligno.
Conjunto de predicciones de múltiples modelos – Al combinar o promediar las predicciones de múltiples fuentes y modelos, generalmente obtenemos un pronóstico mejorado. Este cuaderno ilustra este concepto.
Inferencia asíncrona de SageMaker: La inferencia asincrónica es una nueva opción de inferencia para las necesidades de inferencia casi en tiempo real. Las solicitudes pueden tardar hasta 15 minutos en procesarse y tienen tamaños de carga útil de hasta 1 GB.
TensorFlow traiga su propio modelo: Aprenda a entrenar un modelo de TensorFlow localmente e implementarlo en SageMaker con este cuaderno.
Scikit-learn trae tu propio modelo – Este cuaderno muestra cómo usar un modelo de Scikit-learn entrenado previamente con el contenedor de SageMaker Scikit-learn para crear rápidamente un punto final alojado para ese modelo.

Requisitos previos

Para usar estos cuadernos, asegúrese de tener acceso a Studio con un rol de ejecución que le permita ejecutar la funcionalidad de SageMaker. El breve video a continuación lo ayudará a navegar a las computadoras portátiles JumpStart.

En las siguientes secciones, analizamos cada una de las 10 nuevas soluciones y discutimos algunos de sus detalles interesantes.

Aprendizaje en contexto con AlexaTM 20B

AlexaTM 20B es un modelo de secuencia a secuencia (seq2seq) multitarea, multilingüe y a gran escala, entrenado en una combinación de datos de Common Crawl (mC4) y Wikipedia en 12 idiomas, utilizando tareas de eliminación de ruido y modelado de lenguaje causal (CLM). Logra un rendimiento de última generación en tareas lingüísticas comunes en contexto, como resúmenes de un solo paso y traducción automática de un solo paso, superando a los modelos de solo decodificador como GPT3 de Open AI y PaLM de Google, que son más de ocho veces más grandes.

El aprendizaje en contexto, también conocido como incitando, se refiere a un método en el que utiliza un modelo NLP en una nueva tarea sin tener que ajustarlo. Se proporcionan algunos ejemplos de tareas al modelo solo como parte de la entrada de inferencia, un paradigma conocido como aprendizaje en contexto de pocas tomas. En algunos casos, el modelo puede funcionar bien sin ningún dato de entrenamiento, solo con una explicación de lo que se debe predecir. Se llama aprendizaje en contexto de tiro cero.

Este cuaderno demuestra cómo implementar AlexaTM 20B a través de la API JumpStart y ejecutar la inferencia. También demuestra cómo se puede usar AlexaTM 20B para el aprendizaje en contexto con cinco tareas de ejemplo: resumen de texto, generación de lenguaje natural, traducción automática, respuesta de preguntas extractivas e inferencia y clasificación de lenguaje natural.

Cuadernos ilustrativos en Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

El cuaderno demuestra lo siguiente:

Resumen de texto de una sola vez, generación de lenguaje natural y traducción automática utilizando un solo ejemplo de capacitación para cada una de estas tareas
Respuesta a preguntas de tiro cero e inferencia de lenguaje natural más clasificación utilizando el modelo tal cual, sin necesidad de proporcionar ningún ejemplo de capacitación.

Intente ejecutar su propio texto con este modelo y vea cómo resume el texto, extrae preguntas y respuestas o traduce de un idioma a otro.

Aprendiz lineal de equidad en SageMaker

Recientemente ha habido preocupaciones sobre el sesgo en los algoritmos de ML como resultado de imitar los prejuicios humanos existentes. Hoy en día, varios métodos de ML tienen fuertes implicaciones sociales, por ejemplo, se utilizan para predecir préstamos bancarios, tasas de seguros o publicidad. Desafortunadamente, un algoritmo que aprende de datos históricos naturalmente heredará sesgos pasados. Este cuaderno presenta cómo superar este problema mediante el uso de SageMaker y algoritmos justos en el contexto de los estudiantes lineales.

Comienza presentando algunos de los conceptos y las matemáticas detrás de la equidad, luego descarga datos, entrena un modelo y finalmente aplica conceptos de equidad para ajustar las predicciones del modelo de manera adecuada.

El cuaderno demuestra lo siguiente:

Ejecución de un modelo lineal estándar en el conjunto de datos para adultos de UCI.
Mostrando injusticia en las predicciones del modelo
Corrección de datos para eliminar el sesgo
Reciclar el modelo

Intente ejecutar sus propios datos con este código de ejemplo y detecte si hay sesgo. Después de eso, intente eliminar el sesgo, si lo hay, en su conjunto de datos usando las funciones proporcionadas en este cuaderno de ejemplo.

Administre la experimentación de ML con SageMaker Search

SageMaker Search le permite encontrar y evaluar rápidamente las ejecuciones de entrenamiento de modelos más relevantes entre cientos y miles de trabajos de entrenamiento de modelos de SageMaker. Desarrollar un modelo de ML requiere experimentación continua, probar nuevos algoritmos de aprendizaje y ajustar hiperparámetros, todo mientras se observa el impacto de dichos cambios en el rendimiento y la precisión del modelo. Este ejercicio iterativo a menudo conduce a una explosión de cientos de experimentos de entrenamiento de modelos y versiones de modelos, lo que ralentiza la convergencia y el descubrimiento de un modelo ganador. Además, la explosión de información hace que sea muy difícil en el futuro rastrear el linaje de una versión del modelo: la combinación única de conjuntos de datos, algoritmos y parámetros que elaboraron ese modelo en primer lugar.

Este cuaderno muestra cómo usar SageMaker Search para organizar, rastrear y evaluar rápida y fácilmente sus trabajos de entrenamiento de modelos en SageMaker. Puede buscar en todos los atributos definitorios del algoritmo de aprendizaje utilizado, la configuración de hiperparámetros, los conjuntos de datos de entrenamiento utilizados e incluso las etiquetas que ha agregado en los trabajos de entrenamiento del modelo. También puede comparar y clasificar rápidamente sus ejecuciones de capacitación en función de sus métricas de rendimiento, como la pérdida de capacitación y la precisión de la validación, creando así tablas de clasificación para identificar los modelos ganadores que se pueden implementar en entornos de producción. SageMaker Search puede rastrear rápidamente el linaje completo de una versión del modelo implementada en un entorno en vivo, hasta los conjuntos de datos utilizados para entrenar y validar el modelo.

El cuaderno demuestra lo siguiente:

Entrenamiento de un modelo lineal tres veces
Uso de SageMaker Search para organizar y evaluar estos experimentos
Visualización de los resultados en una tabla de clasificación
Implementación de un modelo en un punto final
Seguimiento del linaje del modelo a partir del punto final

En su propio desarrollo de modelos predictivos, puede estar ejecutando varios experimentos. Intente usar SageMaker Search en tales experimentos y experimente cómo puede ayudarlo de varias maneras.

Modelo de tema neural de SageMaker

SageMaker Neural Topic Model (NTM) es un algoritmo de aprendizaje no supervisado que intenta describir un conjunto de observaciones como una combinación de distintas categorías. NTM se usa más comúnmente para descubrir una cantidad especificada por el usuario de temas compartidos por documentos dentro de un corpus de texto. Aquí cada observación es un documento, las características son la presencia (o recuento de ocurrencias) de cada palabra y las categorías son los temas. Debido a que el método no está supervisado, los temas no se especifican por adelantado y no se garantiza que se alineen con la forma en que un ser humano puede clasificar los documentos de forma natural. Los temas se aprenden como una distribución de probabilidad sobre las palabras que aparecen en cada documento. Cada documento, a su vez, se describe como una mezcla de temas.

Este cuaderno utiliza el algoritmo NTM de SageMaker para entrenar un modelo en el conjunto de datos de 20NewsGroups. Este conjunto de datos se ha utilizado ampliamente como punto de referencia de modelado de temas.

El cuaderno demuestra lo siguiente:

Crear un trabajo de entrenamiento de SageMaker en un conjunto de datos para producir un modelo NTM
Uso del modelo para realizar inferencias con un extremo de SageMaker
Exploración del modelo entrenado y visualización de temas aprendidos

Puede modificar fácilmente este cuaderno para ejecutarlo en sus documentos de texto y dividirlos en varios temas.

Predecir infracciones de velocidad de conducción

Este cuaderno demuestra la previsión de series temporales utilizando el algoritmo SageMaker DeepAR mediante el análisis del conjunto de datos de infracción de radares de tráfico de la ciudad de Chicago. El conjunto de datos está alojado en Data.gov y es administrado por el Servicio de Transformación Tecnológica de la Administración de Servicios Generales de EE. UU.

Estas violaciones son capturadas por sistemas de cámaras y están disponibles para mejorar la vida del público a través del portal de datos de la ciudad de Chicago. El conjunto de datos de infracciones de radares de tráfico se puede utilizar para discernir patrones en los datos y obtener información significativa.

El conjunto de datos contiene varias ubicaciones de cámaras y recuentos diarios de infracciones. Cada recuento diario de infracciones de una cámara se puede considerar una serie temporal independiente. Puede usar el algoritmo SageMaker DeepAR para entrenar un modelo para varias calles simultáneamente y predecir infracciones para varias cámaras de calle.

El cuaderno demuestra lo siguiente:

Entrenamiento del algoritmo SageMaker DeepAR en el conjunto de datos de series temporales mediante instancias puntuales
Hacer inferencias en el modelo entrenado para hacer predicciones de infracciones de tránsito

Con este cuaderno, puede aprender cómo se pueden resolver los problemas de series temporales utilizando el algoritmo DeepAR en SageMaker e intentar aplicarlo en sus propios conjuntos de datos de series temporales.

predicción del cáncer de mama

Este cuaderno toma un ejemplo para la predicción del cáncer de mama utilizando el conjunto de datos de diagnóstico de cáncer de mama de UCI. Utiliza este conjunto de datos para construir un modelo predictivo de si una imagen de masa mamaria indica un tumor benigno o maligno.

El cuaderno demuestra lo siguiente:

Configuración básica para usar SageMaker
Conversión de conjuntos de datos al formato Protobuf utilizado por los algoritmos de SageMaker y carga en Servicio de almacenamiento simple de Amazon (Amazon S3)
Entrenamiento de un modelo de aprendizaje lineal de SageMaker en el conjunto de datos
Hospedaje del modelo entrenado
Puntuación usando el modelo entrenado

Puede consultar este cuaderno para obtener información sobre cómo resolver un problema comercial con SageMaker y comprender los pasos necesarios para entrenar y hospedar un modelo.

Conjunto de predicciones de múltiples modelos

En aplicaciones prácticas de ML en tareas predictivas, un modelo a menudo no es suficiente. La mayoría de los concursos de predicción suelen requerir la combinación de pronósticos de múltiples fuentes para obtener un pronóstico mejorado. Al combinar o promediar predicciones de múltiples fuentes o modelos, generalmente obtenemos un pronóstico mejorado. Esto sucede porque existe una incertidumbre considerable en la elección del modelo y no existe un modelo verdadero en muchas aplicaciones prácticas. Por lo tanto, es beneficioso combinar predicciones de diferentes modelos. En la literatura bayesiana, esta idea se conoce como promediación del modelo bayesiano y se ha demostrado que funciona mucho mejor que simplemente elegir un modelo.

Este cuaderno presenta un ejemplo ilustrativo para predecir si una persona gana más de $50,000 al año con base en información sobre su educación, experiencia laboral, género y más.

El cuaderno demuestra lo siguiente:

Preparación de su cuaderno SageMaker
Cargar un conjunto de datos desde Amazon S3 usando SageMaker
Investigar y transformar los datos para que puedan alimentarse a los algoritmos de SageMaker
Estimación de un modelo usando el algoritmo SageMaker XGBoost (Extreme Gradient Boosting)
Alojando el modelo en SageMaker para hacer predicciones continuas
Estimación de un segundo modelo mediante el método de aprendizaje lineal de SageMaker
Combinar las predicciones de ambos modelos y evaluar la predicción combinada
Generación de predicciones finales en el conjunto de datos de prueba

Intente ejecutar este cuaderno en su conjunto de datos y use varios algoritmos. Intente experimentar con varias combinaciones de modelos que ofrecen SageMaker y JumpStart y vea qué combinación de ensamblaje de modelos ofrece los mejores resultados con sus propios datos.

Inferencia asíncrona de SageMaker

La inferencia asíncrona de SageMaker es una nueva capacidad de SageMaker que pone en cola las solicitudes entrantes y las procesa de forma asíncrona. SageMaker actualmente ofrece dos opciones de inferencia para que los clientes implementen modelos ML: una opción en tiempo real para cargas de trabajo de baja latencia y transformación por lotes, una opción fuera de línea para procesar solicitudes de inferencia en lotes de datos disponibles por adelantado. La inferencia en tiempo real es adecuada para cargas de trabajo con tamaños de carga útil de menos de 6 MB y requiere que las solicitudes de inferencia se procesen en 60 segundos. La transformación por lotes es adecuada para la inferencia fuera de línea en lotes de datos.

La inferencia asincrónica es una nueva opción de inferencia para las necesidades de inferencia casi en tiempo real. Las solicitudes pueden tardar hasta 15 minutos en procesarse y tienen tamaños de carga útil de hasta 1 GB. La inferencia asíncrona es adecuada para cargas de trabajo que no tienen requisitos de latencia inferiores a un segundo y tienen requisitos de latencia relajados. Por ejemplo, es posible que deba procesar una inferencia en una imagen grande de varios MB en 5 minutos. Además, los puntos finales de inferencia asincrónica le permiten controlar los costos al reducir el recuento de instancias de puntos finales a cero cuando están inactivos, por lo que solo paga cuando sus puntos finales procesan solicitudes.

El cuaderno demuestra lo siguiente:

Creación de un modelo de SageMaker
Creación de un punto final con este modelo y configuración de inferencia asíncrona
Hacer predicciones contra este punto final asíncrono

Este cuaderno le muestra un ejemplo funcional de la creación de un punto de enlace asíncrono para un modelo de SageMaker.

TensorFlow trae tu propio modelo

Un modelo de TensorFlow se entrena localmente en una tarea de clasificación donde se ejecuta este cuaderno. Luego se implementa en un punto final de SageMaker.

El cuaderno demuestra lo siguiente:

Entrenamiento de un modelo de TensorFlow localmente en el conjunto de datos de IRIS
Importar ese modelo a SageMaker
Alojarlo en un punto final

Si tiene modelos de TensorFlow que desarrolló usted mismo, este cuaderno de ejemplo puede ayudarlo a alojar su modelo en un extremo administrado de SageMaker.

Scikit-learn trae tu propio modelo

SageMaker incluye funcionalidad para admitir un entorno de notebook alojado, capacitación distribuida sin servidor y alojamiento en tiempo real. Funciona mejor cuando estos tres servicios se usan juntos, pero también se pueden usar de forma independiente. Es posible que algunos casos de uso solo requieran alojamiento. Tal vez el modelo se entrenó antes de que existiera SageMaker, en un servicio diferente.

El cuaderno demuestra lo siguiente:

Uso de un modelo Scikit-learn preentrenado con el contenedor SageMaker Scikit-learn para crear rápidamente un punto final alojado para ese modelo

Si tiene modelos de Scikit-learn que desarrolló usted mismo, este cuaderno de ejemplo puede ayudarlo a alojar su modelo en un extremo administrado de SageMaker.

Limpiar recursos

Una vez que haya terminado de ejecutar un cuaderno en JumpStart, asegúrese de Eliminar todos los recursos para que todos los recursos que creaste en el proceso se eliminen y se detenga tu facturación. La última celda de estos cuadernos suele eliminar los puntos finales que se crean.

Resumen

Esta publicación lo guió a través de 10 nuevos cuadernos de ejemplo que se agregaron recientemente a JumpStart. Aunque esta publicación se centró en estos 10 nuevos portátiles, hay un total de 56 portátiles disponibles a partir de este escrito. Lo alentamos a que inicie sesión en Studio y explore los cuadernos JumpStart y comience a obtener valor inmediato de ellos. Para obtener más información, consulte Estudio Amazon SageMaker y Inicio rápido de SageMaker.

Sobre la autora

Dr. Raju Penmatcha es un arquitecto de soluciones especializado en IA/ML en plataformas de IA en AWS. Recibió su doctorado de la Universidad de Stanford. Trabaja de cerca en los servicios de la suite de código bajo/sin código en SageMaker que ayudan a los clientes a crear e implementar fácilmente modelos y soluciones de aprendizaje automático.

Sello de tiempo: 1 de diciembre de 20222 de diciembre de 2022

Sello de tiempo: 2 de octubre de 2023

Cuadernos ilustrativos en Amazon SageMaker JumpStart

Reeditado por Platón

Descripción general de los cuadernos

Requisitos previos

Aprendizaje en contexto con AlexaTM 20B

Aprendiz lineal de equidad en SageMaker

Administre la experimentación de ML con SageMaker Search

Modelo de tema neural de SageMaker

Predecir infracciones de velocidad de conducción

predicción del cáncer de mama

Conjunto de predicciones de múltiples modelos

Inferencia asíncrona de SageMaker

TensorFlow trae tu propio modelo

Scikit-learn trae tu propio modelo

Limpiar recursos

Resumen

Sobre la autora

Mas de Aprendizaje automático de AWS

Implemente BLOOM-176B y OPT-30B en Amazon SageMaker con inferencia de modelos grandes Contenedores de aprendizaje profundo y DeepSpeed

Anuncio de la versión preliminar de Amazon SageMaker Profiler: realice un seguimiento y visualice datos detallados de rendimiento del hardware para sus cargas de trabajo de entrenamiento de modelos | Servicios web de Amazon

Cómo utiliza Synamedia Amazon Rekognition Video para crear funciones avanzadas de búsqueda de videos para videos de formato largo

Visión artificial utilizando conjuntos de datos sintéticos con Amazon Rekognition Custom Labels y Dassault Systèmes 3DEXCITE

Lea páginas web y resalte contenido con Amazon Polly

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta