Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código

Desde la crisis financiera mundial, la gestión de riesgos ha asumido un papel importante en la configuración de la toma de decisiones de los bancos, incluida la predicción del estado de los préstamos para clientes potenciales. Este es a menudo un ejercicio intensivo en datos que requiere aprendizaje automático (ML). Sin embargo, no todas las organizaciones tienen los recursos y la experiencia en ciencia de datos para crear un flujo de trabajo de ML de gestión de riesgos.

Amazon SageMaker es una plataforma de ML completamente administrada que permite a los ingenieros de datos y analistas de negocios crear, entrenar e implementar modelos de ML de forma rápida y sencilla. Los ingenieros de datos y los analistas de negocios pueden colaborar usando las capacidades sin código/de código bajo de SageMaker. Los ingenieros de datos pueden usar Wrangler de datos de Amazon SageMaker para agregar y preparar datos rápidamente para la creación de modelos sin escribir código. Luego, los analistas de negocios pueden usar la interfaz visual de apuntar y hacer clic de Lienzo de Amazon SageMaker para generar predicciones precisas de ML por su cuenta.

En esta publicación, mostramos lo simple que es para los ingenieros de datos y los analistas comerciales colaborar para crear un flujo de trabajo de ML que involucre la preparación de datos, la construcción de modelos y la inferencia sin escribir código.

Resumen de la solución

Aunque el desarrollo de ML es un proceso complejo e iterativo, puede generalizar un flujo de trabajo de ML en las etapas de preparación de datos, desarrollo de modelos e implementación de modelos.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Data Wrangler y Canvas abstraen las complejidades de la preparación de datos y el desarrollo de modelos, por lo que puede concentrarse en brindar valor a su negocio extrayendo información de sus datos sin ser un experto en desarrollo de código. El siguiente diagrama de arquitectura destaca los componentes en una solución sin código/de código bajo.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Servicio de almacenamiento simple de Amazon (Amazon S3) actúa como nuestro repositorio de datos para datos sin procesar, datos de ingeniería y artefactos de modelos. También puede optar por importar datos de Desplazamiento al rojo de Amazon, Atenea amazónica, Databricks y Snowflake.

Como científicos de datos, usamos Data Wrangler para el análisis exploratorio de datos y la ingeniería de características. Aunque Canvas puede ejecutar tareas de ingeniería de características, la ingeniería de características generalmente requiere algunos conocimientos estadísticos y de dominio para enriquecer un conjunto de datos en la forma adecuada para el desarrollo del modelo. Por lo tanto, otorgamos esta responsabilidad a los ingenieros de datos para que puedan transformar datos sin escribir código con Data Wrangler.

Después de la preparación de los datos, pasamos las responsabilidades de creación de modelos a los analistas de datos, quienes pueden usar Canvas para entrenar un modelo sin tener que escribir ningún código.

Finalmente, hacemos predicciones individuales y por lotes directamente dentro de Canvas a partir del modelo resultante sin tener que implementar los puntos finales del modelo nosotros mismos.

Descripción general del conjunto de datos

Usamos funciones de SageMaker para predecir el estado de un préstamo usando una versión modificada de Lending Club. conjunto de datos de análisis de préstamos disponible públicamente. El conjunto de datos contiene datos de préstamos para préstamos emitidos entre 2007 y 2011. Las columnas que describen el préstamo y el prestatario son nuestras características. La columna estado_prestamo es la variable de destino, que es lo que intentamos predecir.

Para demostrarlo en Data Wrangler, dividimos el conjunto de datos en dos archivos CSV: primera parte y la segunda parte. Hemos eliminado algunas columnas del conjunto de datos original de Lending Club para simplificar la demostración. Nuestro conjunto de datos contiene más de 37,000 21 filas y XNUMX columnas de características, como se describe en la siguiente tabla.

Nombre de columna Descripción
loan_status Estado actual del préstamo (variable objetivo).
loan_amount El monto indicado del préstamo solicitado por el prestatario. Si el departamento de crédito reduce el monto del préstamo, se refleja en este valor.
funded_amount_by_investors El monto total comprometido por los inversionistas para ese préstamo en ese momento.
term El número de pagos del préstamo. Los valores están expresados ​​en meses y pueden ser 36 o 60.
interest_rate Tasa de interés del préstamo.
installment El pago mensual adeudado por el prestatario si se origina el préstamo.
grade Grado de préstamo asignado por LC.
sub_grade LC subrasante de préstamo asignado.
employment_length Duración del empleo en años. Los valores posibles están entre 0 y 10, donde 0 significa menos de un año y 10 significa diez o más años.
home_ownership El estado de propiedad de la vivienda proporcionado por el prestatario durante el registro. Nuestros valores son ALQUILER, PROPIO, HIPOTECA y OTROS.
annual_income Los ingresos anuales autodeclarados proporcionados por el prestatario durante el registro.
verification_status Indica si los ingresos fueron verificados o no por la LC.
issued_amount El mes en que se financió el préstamo.
purpose Una categoría proporcionada por el prestatario para la solicitud de préstamo.
dti Una relación calculada usando los pagos de deuda mensuales totales del prestatario sobre las obligaciones de deuda totales, excluyendo la hipoteca y el préstamo de LC solicitado, dividido por el ingreso mensual autoinformado del prestatario.
earliest_credit_line El mes en que se abrió la primera línea de crédito informada del prestatario.
inquiries_last_6_months El número de consultas en los últimos 6 meses (excluyendo consultas sobre automóviles e hipotecas).
open_credit_lines El número de líneas de crédito abiertas en el archivo de crédito del prestatario.
derogatory_public_records El número de registros públicos despectivos.
revolving_line_utilization_rate Tasa de utilización de la línea renovable, o la cantidad de crédito que el prestatario está utilizando en relación con todo el crédito renovable disponible.
total_credit_lines El número total de líneas de crédito actualmente en el archivo de crédito del prestatario.

Usamos este conjunto de datos para nuestra preparación de datos y entrenamiento de modelos.

Requisitos previos

Complete los siguientes pasos de requisitos previos:

  1. Subir ambos archivos de préstamo a un cubo S3 de su elección.
  2. Asegúrate de tener los permisos necesarios. Para obtener más información, consulte Comience con Data Wrangler.
  3. Configure un dominio de SageMaker configurado para usar Data Wrangler. Para obtener instrucciones, consulte Incorporación al dominio de Amazon SageMaker.

Importar los datos

Crear un nuevo flujo de datos de Data Wrangler del desplegable Interfaz de usuario de Amazon SageMaker Studio.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Importe datos de Amazon S3 seleccionando los archivos CSV del depósito de S3 donde colocó su conjunto de datos. Después de importar ambos archivos, puede ver dos flujos de trabajo separados en el Flujo de datos ver.

Puede elegir varias opciones de muestreo al importar sus datos en un flujo de Data Wrangler. El muestreo puede ayudar cuando tiene un conjunto de datos que es demasiado grande para prepararlo de forma interactiva, o cuando desea conservar la proporción de eventos raros en su conjunto de datos muestreado. Debido a que nuestro conjunto de datos es pequeño, no usamos muestreo.

Prepara los datos

Para nuestro caso de uso, tenemos dos conjuntos de datos con una columna común: id. Como primer paso en la preparación de datos, queremos combinar estos archivos uniéndolos. Para obtener instrucciones, consulte Transformar datos.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Usamos la Únete paso de transformación de datos y utilice el Interior tipo de unión en el id columna.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Como resultado de nuestra transformación de combinación, Data Wrangler crea dos columnas adicionales: id_0 y id_1. Sin embargo, estas columnas son innecesarias para nuestros propósitos de construcción de modelos. Soltamos estas columnas redundantes usando el Administrar columnas paso de transformación.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Importamos nuestros conjuntos de datos, los unimos y eliminamos las columnas innecesarias. Ahora estamos listos para enriquecer nuestros datos a través de la ingeniería de características y prepararnos para la creación de modelos.

Realizar ingeniería de características

Usamos Data Wrangler para preparar los datos. También puede utilizar el Función de informe de información y calidad de datos dentro de Data Wrangler para verificar la calidad de sus datos y detectar anormalidades en sus datos. Los científicos de datos a menudo necesitan usar estos conocimientos de datos para aplicar de manera eficiente el conocimiento de dominio correcto a las funciones de ingeniería. Para esta publicación, asumimos que hemos completado estas evaluaciones de calidad y podemos pasar a la ingeniería de funciones.

En este paso, aplicamos algunas transformaciones a columnas numéricas, categóricas y de texto.

Primero normalizamos la tasa de interés para escalar los valores entre 0 y 1. Esto lo hacemos usando el Proceso numérico transformar a escala la interest_rate columna usando un escalador min-max. El propósito de la normalización (o estandarización) es eliminar el sesgo de nuestro modelo. Las variables que se miden en diferentes escalas no contribuirán por igual al proceso de aprendizaje del modelo. Por lo tanto, una función de transformación como una transformación de escalador min-max ayuda a normalizar las características.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Para convertir una variable categórica en un valor numérico, usamos la codificación one-hot. Elegimos el Codificar categórico transformar, luego elegir Codificación one-hot. La codificación one-hot mejora la capacidad predictiva de un modelo ML. Este proceso convierte un valor categórico en una nueva característica asignando un valor binario de 1 o 0 a la característica. Como un ejemplo simple, si tuviera una columna que tuviera un valor de yes or no, la codificación one-hot convertiría esa columna en dos columnas: una Yes columna y una No columna. Un valor sí tendría 1 en el Yes columna y un 0 en la No columna. La codificación one-hot hace que nuestros datos sean más útiles porque los valores numéricos pueden determinar más fácilmente una probabilidad para nuestras predicciones.

Finalmente, destacamos el employer_title columna para transformar sus valores de cadena en un vector numérico. Aplicamos el Vectorizador de conteo y un tokenizador estándar dentro del Vectorizar transformar. La tokenización descompone una oración o serie de texto en palabras, mientras que un vectorizador convierte los datos de texto en una forma legible por máquina. Estas palabras se representan como vectores.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Con todos los pasos de ingeniería de funciones completos, podemos exportar los datos y enviar los resultados a nuestro depósito S3. Alternativamente, puede exportar su flujo como código Python o un cuaderno Jupyter para crear una canalización con su vista usando Canalizaciones de Amazon SageMaker. Considere esto cuando quiera ejecutar sus pasos de ingeniería de características a escala o como parte de una canalización de ML.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Ahora podemos usar el archivo de salida de Data Wrangler como nuestra entrada para Canvas. Hacemos referencia a esto como un conjunto de datos en Canvas para construir nuestro modelo ML.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

En nuestro caso, exportamos nuestro conjunto de datos preparado al depósito predeterminado de Studio con un output prefijo. Hacemos referencia a esta ubicación del conjunto de datos cuando cargamos los datos en Canvas para la siguiente construcción del modelo.

Cree y entrene su modelo ML con Canvas

En la consola de SageMaker, inicie la aplicación Canvas. Para construir un modelo ML a partir de los datos preparados en la sección anterior, realizamos los siguientes pasos:

  1. Importe el conjunto de datos preparado a Canvas desde el depósito S3.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Hacemos referencia a la misma ruta de S3 donde exportamos los resultados de Data Wrangler de la sección anterior.

  1. Cree un nuevo modelo en Canvas y asígnele un nombre loan_prediction_model.
  2. Seleccione el conjunto de datos importado y agréguelo al objeto modelo.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Para que Canvas construya un modelo, debemos seleccionar la columna de destino.

  1. Debido a que nuestro objetivo es predecir la probabilidad de que un prestamista pueda pagar un préstamo, elegimos la loan_status columna.

Canvas identifica automáticamente el tipo de declaración del problema de ML. Al momento de redactar este documento, Canvas admite problemas de regresión, clasificación y pronóstico de series temporales. Puede especificar el tipo de problema o hacer que Canvas infiera automáticamente el problema a partir de sus datos.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

  1. Elija su opción para iniciar el proceso de construcción del modelo: Construcción rápida or Construcción estándar.

El Construcción rápida La opción utiliza su conjunto de datos para entrenar un modelo en 2 a 15 minutos. Esto es útil cuando está experimentando con un nuevo conjunto de datos para determinar si el conjunto de datos que tiene será suficiente para hacer predicciones. Usamos esta opción para esta publicación.

El Construcción estándar La opción elige la precisión sobre la velocidad y utiliza aproximadamente 250 modelos candidatos para entrenar el modelo. El proceso suele durar de 1 a 2 horas.

Después de compilar el modelo, puede revisar los resultados del modelo. Canvas estima que su modelo puede predecir el resultado correcto el 82.9 % de las veces. Sus propios resultados pueden variar debido a la variabilidad en los modelos de entrenamiento.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Además, puede profundizar en el análisis de detalles del modelo para obtener más información sobre el modelo.

La importancia de la característica representa la importancia estimada de cada característica en la predicción de la columna de destino. En este caso, la columna de la línea de crédito tiene el impacto más significativo en la predicción de si un cliente pagará el monto del préstamo, seguida por la tasa de interés y el ingreso anual.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

La matriz de confusión en el Métricas avanzadas La sección contiene información para los usuarios que desean una comprensión más profunda del rendimiento de su modelo.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Antes de que pueda implementar su modelo para cargas de trabajo de producción, use Canvas para probar el modelo. Canvas administra el punto final de nuestro modelo y nos permite hacer predicciones directamente en la interfaz de usuario de Canvas.

  1. Elige Predicción y revisar los hallazgos en cualquiera de los Predicción por lotes or Predicción única .

En el siguiente ejemplo, hacemos una sola predicción modificando los valores para predecir nuestra variable objetivo loan_status en tiempo real

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

También podemos seleccionar un conjunto de datos más grande y hacer que Canvas genere predicciones por lotes en nuestro nombre.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Conclusión

El aprendizaje automático de extremo a extremo es complejo e iterativo y, a menudo, involucra múltiples personas, tecnologías y procesos. Data Wrangler y Canvas permiten la colaboración entre equipos sin necesidad de que estos equipos escriban ningún código.

Un ingeniero de datos puede preparar datos fácilmente con Data Wrangler sin escribir ningún código y pasar el conjunto de datos preparado a un analista de negocios. Luego, un analista comercial puede crear fácilmente modelos ML precisos con solo unos pocos clics usando Canvas y obtener predicciones precisas en tiempo real o por lotes.

Comience con Data Wrangler usando estas herramientas sin tener que administrar ninguna infraestructura. Puede configurar lienzo comience a crear rápida e inmediatamente modelos ML para respaldar sus necesidades comerciales.


Acerca de los autores

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Pedro Chung es un arquitecto de soluciones para AWS y le apasiona ayudar a los clientes a descubrir información de sus datos. Ha estado creando soluciones para ayudar a las organizaciones a tomar decisiones basadas en datos tanto en el sector público como en el privado. Posee todas las certificaciones de AWS, así como dos certificaciones de GCP.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Meenakshisundaram Thandavarayan es un especialista sénior en IA/ML de AWS. Ayuda a las cuentas estratégicas de alta tecnología en su viaje de IA y ML. Es un apasionado de la IA basada en datos.

Cree un flujo de trabajo de aprendizaje automático de gestión de riesgos en Amazon SageMaker sin código PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Daniel Ferguson es arquitecto de soluciones en AWS, con sede en Nueva York, EE. UU. Como experto en servicios de aprendizaje automático, Dan trabaja para ayudar a los clientes en su viaje hacia la integración de los flujos de trabajo de ML de manera eficiente, efectiva y sostenible.

Sello de tiempo:

Mas de Aprendizaje automático de AWS