Desde la crisis financiera mundial, la gestión de riesgos ha asumido un papel importante en la configuración de la toma de decisiones de los bancos, incluida la predicción del estado de los préstamos para clientes potenciales. Este es a menudo un ejercicio intensivo en datos que requiere aprendizaje automático (ML). Sin embargo, no todas las organizaciones tienen los recursos y la experiencia en ciencia de datos para crear un flujo de trabajo de ML de gestión de riesgos.
Amazon SageMaker es una plataforma de ML completamente administrada que permite a los ingenieros de datos y analistas de negocios crear, entrenar e implementar modelos de ML de forma rápida y sencilla. Los ingenieros de datos y los analistas de negocios pueden colaborar usando las capacidades sin código/de código bajo de SageMaker. Los ingenieros de datos pueden usar Wrangler de datos de Amazon SageMaker para agregar y preparar datos rápidamente para la creación de modelos sin escribir código. Luego, los analistas de negocios pueden usar la interfaz visual de apuntar y hacer clic de Lienzo de Amazon SageMaker para generar predicciones precisas de ML por su cuenta.
En esta publicación, mostramos lo simple que es para los ingenieros de datos y los analistas comerciales colaborar para crear un flujo de trabajo de ML que involucre la preparación de datos, la construcción de modelos y la inferencia sin escribir código.
Resumen de la solución
Aunque el desarrollo de ML es un proceso complejo e iterativo, puede generalizar un flujo de trabajo de ML en las etapas de preparación de datos, desarrollo de modelos e implementación de modelos.
Data Wrangler y Canvas abstraen las complejidades de la preparación de datos y el desarrollo de modelos, por lo que puede concentrarse en brindar valor a su negocio extrayendo información de sus datos sin ser un experto en desarrollo de código. El siguiente diagrama de arquitectura destaca los componentes en una solución sin código/de código bajo.
Servicio de almacenamiento simple de Amazon (Amazon S3) actúa como nuestro repositorio de datos para datos sin procesar, datos de ingeniería y artefactos de modelos. También puede optar por importar datos de Desplazamiento al rojo de Amazon, Atenea amazónica, Databricks y Snowflake.
Como científicos de datos, usamos Data Wrangler para el análisis exploratorio de datos y la ingeniería de características. Aunque Canvas puede ejecutar tareas de ingeniería de características, la ingeniería de características generalmente requiere algunos conocimientos estadísticos y de dominio para enriquecer un conjunto de datos en la forma adecuada para el desarrollo del modelo. Por lo tanto, otorgamos esta responsabilidad a los ingenieros de datos para que puedan transformar datos sin escribir código con Data Wrangler.
Después de la preparación de los datos, pasamos las responsabilidades de creación de modelos a los analistas de datos, quienes pueden usar Canvas para entrenar un modelo sin tener que escribir ningún código.
Finalmente, hacemos predicciones individuales y por lotes directamente dentro de Canvas a partir del modelo resultante sin tener que implementar los puntos finales del modelo nosotros mismos.
Descripción general del conjunto de datos
Usamos funciones de SageMaker para predecir el estado de un préstamo usando una versión modificada de Lending Club. conjunto de datos de análisis de préstamos disponible públicamente. El conjunto de datos contiene datos de préstamos para préstamos emitidos entre 2007 y 2011. Las columnas que describen el préstamo y el prestatario son nuestras características. La columna estado_prestamo es la variable de destino, que es lo que intentamos predecir.
Para demostrarlo en Data Wrangler, dividimos el conjunto de datos en dos archivos CSV: primera parte y la segunda parte. Hemos eliminado algunas columnas del conjunto de datos original de Lending Club para simplificar la demostración. Nuestro conjunto de datos contiene más de 37,000 21 filas y XNUMX columnas de características, como se describe en la siguiente tabla.
Nombre de columna | Descripción |
loan_status |
Estado actual del préstamo (variable objetivo). |
loan_amount |
El monto indicado del préstamo solicitado por el prestatario. Si el departamento de crédito reduce el monto del préstamo, se refleja en este valor. |
funded_amount_by_investors |
El monto total comprometido por los inversionistas para ese préstamo en ese momento. |
term |
El número de pagos del préstamo. Los valores están expresados en meses y pueden ser 36 o 60. |
interest_rate |
Tasa de interés del préstamo. |
installment |
El pago mensual adeudado por el prestatario si se origina el préstamo. |
grade |
Grado de préstamo asignado por LC. |
sub_grade |
LC subrasante de préstamo asignado. |
employment_length |
Duración del empleo en años. Los valores posibles están entre 0 y 10, donde 0 significa menos de un año y 10 significa diez o más años. |
home_ownership |
El estado de propiedad de la vivienda proporcionado por el prestatario durante el registro. Nuestros valores son ALQUILER, PROPIO, HIPOTECA y OTROS. |
annual_income |
Los ingresos anuales autodeclarados proporcionados por el prestatario durante el registro. |
verification_status |
Indica si los ingresos fueron verificados o no por la LC. |
issued_amount |
El mes en que se financió el préstamo. |
purpose |
Una categoría proporcionada por el prestatario para la solicitud de préstamo. |
dti |
Una relación calculada usando los pagos de deuda mensuales totales del prestatario sobre las obligaciones de deuda totales, excluyendo la hipoteca y el préstamo de LC solicitado, dividido por el ingreso mensual autoinformado del prestatario. |
earliest_credit_line |
El mes en que se abrió la primera línea de crédito informada del prestatario. |
inquiries_last_6_months |
El número de consultas en los últimos 6 meses (excluyendo consultas sobre automóviles e hipotecas). |
open_credit_lines |
El número de líneas de crédito abiertas en el archivo de crédito del prestatario. |
derogatory_public_records |
El número de registros públicos despectivos. |
revolving_line_utilization_rate |
Tasa de utilización de la línea renovable, o la cantidad de crédito que el prestatario está utilizando en relación con todo el crédito renovable disponible. |
total_credit_lines |
El número total de líneas de crédito actualmente en el archivo de crédito del prestatario. |
Usamos este conjunto de datos para nuestra preparación de datos y entrenamiento de modelos.
Requisitos previos
Complete los siguientes pasos de requisitos previos:
- Subir ambos archivos de préstamo a un cubo S3 de su elección.
- Asegúrate de tener los permisos necesarios. Para obtener más información, consulte Comience con Data Wrangler.
- Configure un dominio de SageMaker configurado para usar Data Wrangler. Para obtener instrucciones, consulte Incorporación al dominio de Amazon SageMaker.
Importar los datos
Crear un nuevo flujo de datos de Data Wrangler del desplegable Interfaz de usuario de Amazon SageMaker Studio.
Importe datos de Amazon S3 seleccionando los archivos CSV del depósito de S3 donde colocó su conjunto de datos. Después de importar ambos archivos, puede ver dos flujos de trabajo separados en el Flujo de datos ver.
Puede elegir varias opciones de muestreo al importar sus datos en un flujo de Data Wrangler. El muestreo puede ayudar cuando tiene un conjunto de datos que es demasiado grande para prepararlo de forma interactiva, o cuando desea conservar la proporción de eventos raros en su conjunto de datos muestreado. Debido a que nuestro conjunto de datos es pequeño, no usamos muestreo.
Prepara los datos
Para nuestro caso de uso, tenemos dos conjuntos de datos con una columna común: id
. Como primer paso en la preparación de datos, queremos combinar estos archivos uniéndolos. Para obtener instrucciones, consulte Transformar datos.
Usamos la Únete paso de transformación de datos y utilice el Interior tipo de unión en el id
columna.
Como resultado de nuestra transformación de combinación, Data Wrangler crea dos columnas adicionales: id_0
y id_1
. Sin embargo, estas columnas son innecesarias para nuestros propósitos de construcción de modelos. Soltamos estas columnas redundantes usando el Administrar columnas paso de transformación.
Importamos nuestros conjuntos de datos, los unimos y eliminamos las columnas innecesarias. Ahora estamos listos para enriquecer nuestros datos a través de la ingeniería de características y prepararnos para la creación de modelos.
Realizar ingeniería de características
Usamos Data Wrangler para preparar los datos. También puede utilizar el Función de informe de información y calidad de datos dentro de Data Wrangler para verificar la calidad de sus datos y detectar anormalidades en sus datos. Los científicos de datos a menudo necesitan usar estos conocimientos de datos para aplicar de manera eficiente el conocimiento de dominio correcto a las funciones de ingeniería. Para esta publicación, asumimos que hemos completado estas evaluaciones de calidad y podemos pasar a la ingeniería de funciones.
En este paso, aplicamos algunas transformaciones a columnas numéricas, categóricas y de texto.
Primero normalizamos la tasa de interés para escalar los valores entre 0 y 1. Esto lo hacemos usando el Proceso numérico transformar a escala la interest_rate
columna usando un escalador min-max. El propósito de la normalización (o estandarización) es eliminar el sesgo de nuestro modelo. Las variables que se miden en diferentes escalas no contribuirán por igual al proceso de aprendizaje del modelo. Por lo tanto, una función de transformación como una transformación de escalador min-max ayuda a normalizar las características.
Para convertir una variable categórica en un valor numérico, usamos la codificación one-hot. Elegimos el Codificar categórico transformar, luego elegir Codificación one-hot. La codificación one-hot mejora la capacidad predictiva de un modelo ML. Este proceso convierte un valor categórico en una nueva característica asignando un valor binario de 1 o 0 a la característica. Como un ejemplo simple, si tuviera una columna que tuviera un valor de yes
or no
, la codificación one-hot convertiría esa columna en dos columnas: una Yes
columna y una No
columna. Un valor sí tendría 1 en el Yes
columna y un 0 en la No
columna. La codificación one-hot hace que nuestros datos sean más útiles porque los valores numéricos pueden determinar más fácilmente una probabilidad para nuestras predicciones.
Finalmente, destacamos el employer_title
columna para transformar sus valores de cadena en un vector numérico. Aplicamos el Vectorizador de conteo y un tokenizador estándar dentro del Vectorizar transformar. La tokenización descompone una oración o serie de texto en palabras, mientras que un vectorizador convierte los datos de texto en una forma legible por máquina. Estas palabras se representan como vectores.
Con todos los pasos de ingeniería de funciones completos, podemos exportar los datos y enviar los resultados a nuestro depósito S3. Alternativamente, puede exportar su flujo como código Python o un cuaderno Jupyter para crear una canalización con su vista usando Canalizaciones de Amazon SageMaker. Considere esto cuando quiera ejecutar sus pasos de ingeniería de características a escala o como parte de una canalización de ML.
Ahora podemos usar el archivo de salida de Data Wrangler como nuestra entrada para Canvas. Hacemos referencia a esto como un conjunto de datos en Canvas para construir nuestro modelo ML.
En nuestro caso, exportamos nuestro conjunto de datos preparado al depósito predeterminado de Studio con un output
prefijo. Hacemos referencia a esta ubicación del conjunto de datos cuando cargamos los datos en Canvas para la siguiente construcción del modelo.
Cree y entrene su modelo ML con Canvas
En la consola de SageMaker, inicie la aplicación Canvas. Para construir un modelo ML a partir de los datos preparados en la sección anterior, realizamos los siguientes pasos:
- Importe el conjunto de datos preparado a Canvas desde el depósito S3.
Hacemos referencia a la misma ruta de S3 donde exportamos los resultados de Data Wrangler de la sección anterior.
- Cree un nuevo modelo en Canvas y asígnele un nombre
loan_prediction_model
. - Seleccione el conjunto de datos importado y agréguelo al objeto modelo.
Para que Canvas construya un modelo, debemos seleccionar la columna de destino.
- Debido a que nuestro objetivo es predecir la probabilidad de que un prestamista pueda pagar un préstamo, elegimos la
loan_status
columna.
Canvas identifica automáticamente el tipo de declaración del problema de ML. Al momento de redactar este documento, Canvas admite problemas de regresión, clasificación y pronóstico de series temporales. Puede especificar el tipo de problema o hacer que Canvas infiera automáticamente el problema a partir de sus datos.
- Elija su opción para iniciar el proceso de construcción del modelo: Construcción rápida or Construcción estándar.
El Construcción rápida La opción utiliza su conjunto de datos para entrenar un modelo en 2 a 15 minutos. Esto es útil cuando está experimentando con un nuevo conjunto de datos para determinar si el conjunto de datos que tiene será suficiente para hacer predicciones. Usamos esta opción para esta publicación.
El Construcción estándar La opción elige la precisión sobre la velocidad y utiliza aproximadamente 250 modelos candidatos para entrenar el modelo. El proceso suele durar de 1 a 2 horas.
Después de compilar el modelo, puede revisar los resultados del modelo. Canvas estima que su modelo puede predecir el resultado correcto el 82.9 % de las veces. Sus propios resultados pueden variar debido a la variabilidad en los modelos de entrenamiento.
Además, puede profundizar en el análisis de detalles del modelo para obtener más información sobre el modelo.
La importancia de la característica representa la importancia estimada de cada característica en la predicción de la columna de destino. En este caso, la columna de la línea de crédito tiene el impacto más significativo en la predicción de si un cliente pagará el monto del préstamo, seguida por la tasa de interés y el ingreso anual.
La matriz de confusión en el Métricas avanzadas La sección contiene información para los usuarios que desean una comprensión más profunda del rendimiento de su modelo.
Antes de que pueda implementar su modelo para cargas de trabajo de producción, use Canvas para probar el modelo. Canvas administra el punto final de nuestro modelo y nos permite hacer predicciones directamente en la interfaz de usuario de Canvas.
- Elige Predicción y revisar los hallazgos en cualquiera de los Predicción por lotes or Predicción única .
En el siguiente ejemplo, hacemos una sola predicción modificando los valores para predecir nuestra variable objetivo loan_status
en tiempo real
También podemos seleccionar un conjunto de datos más grande y hacer que Canvas genere predicciones por lotes en nuestro nombre.
Conclusión
El aprendizaje automático de extremo a extremo es complejo e iterativo y, a menudo, involucra múltiples personas, tecnologías y procesos. Data Wrangler y Canvas permiten la colaboración entre equipos sin necesidad de que estos equipos escriban ningún código.
Un ingeniero de datos puede preparar datos fácilmente con Data Wrangler sin escribir ningún código y pasar el conjunto de datos preparado a un analista de negocios. Luego, un analista comercial puede crear fácilmente modelos ML precisos con solo unos pocos clics usando Canvas y obtener predicciones precisas en tiempo real o por lotes.
Comience con Data Wrangler usando estas herramientas sin tener que administrar ninguna infraestructura. Puede configurar lienzo comience a crear rápida e inmediatamente modelos ML para respaldar sus necesidades comerciales.
Acerca de los autores
Pedro Chung es un arquitecto de soluciones para AWS y le apasiona ayudar a los clientes a descubrir información de sus datos. Ha estado creando soluciones para ayudar a las organizaciones a tomar decisiones basadas en datos tanto en el sector público como en el privado. Posee todas las certificaciones de AWS, así como dos certificaciones de GCP.
Meenakshisundaram Thandavarayan es un especialista sénior en IA/ML de AWS. Ayuda a las cuentas estratégicas de alta tecnología en su viaje de IA y ML. Es un apasionado de la IA basada en datos.
Daniel Ferguson es arquitecto de soluciones en AWS, con sede en Nueva York, EE. UU. Como experto en servicios de aprendizaje automático, Dan trabaja para ayudar a los clientes en su viaje hacia la integración de los flujos de trabajo de ML de manera eficiente, efectiva y sostenible.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- Sobre
- RESUMEN
- preciso
- adición
- Adicionales
- AI
- Todos
- Aunque
- Amazon
- cantidad
- análisis
- analista
- anual
- Aplicación
- Aplicá
- aproximadamente
- arquitectura
- asigna
- auto
- Hoy Disponibles
- AWS
- Bancos
- "Ser"
- frontera
- rompe
- build
- Construir la
- candidatos
- lienzo
- capacidades
- Categoría
- manera?
- Elige
- clasificación
- código
- colaboran
- colaboración
- Columna
- comprometido
- Algunos
- integraciones
- complejidades
- confusión
- Consola
- contiene
- contribuir
- Para crear
- crea
- Creamos
- crédito
- humanitaria
- En la actualidad
- cliente
- Clientes
- datos
- análisis de los datos
- Ciencia de los datos
- Deuda
- decisiones
- más profundo
- entregar
- demostrar
- desplegar
- despliegue
- descrito
- detalles
- Determinar
- Desarrollo
- una experiencia diferente
- directamente
- dominio
- DE INSCRIPCIÓN
- dibujo
- Soltar
- durante
- pasan fácilmente
- eficiente.
- eliminarlos
- habilitar
- Punto final
- ingeniero
- Ingeniería
- certificados
- estimado
- estima
- Eventos
- ejemplo
- El Ejercicio
- experto
- Experiencia
- Feature
- Caracteristicas
- financiero
- crisis financiera
- Nombre
- de tus señales
- Focus
- siguiendo
- formulario
- función
- financiado
- generar
- Buscar
- objetivo
- es
- altura
- ayuda
- ayudando
- ayuda
- mantiene
- Inicio
- Cómo
- Sin embargo
- HTTPS
- Impacto
- importancia
- importador
- Incluye
- por
- información
- EN LA MINA
- Las opciones de entrada
- Insights
- intereses
- Interfaz
- Inversionistas
- IT
- únete
- se unió a
- especialistas
- large
- mayores
- lanzamiento
- APRENDE:
- aprendizaje
- préstamo
- línea
- Listado
- carga
- Préstamos
- Ubicación
- máquina
- máquina de aprendizaje
- gran
- HACE
- gestionan
- gestionado
- Management
- Matrix
- significa
- ML
- modelo
- modelos
- Mes
- meses
- más,
- MEJOR DE TU
- movimiento
- múltiples
- necesario
- New York
- cuaderno
- número
- bonos
- habiertos
- Optión
- Opciones
- para las fiestas.
- Otro
- EL DESARROLLADOR
- propiedad
- parte
- apasionado
- Pagar
- pago
- pagos
- actuación
- plataforma
- posible
- posible
- predecir
- predicción
- Predicciones
- Preparar
- anterior
- privada
- Problema
- problemas
- en costes
- Producción
- público
- propósito
- fines
- calidad
- Búsqueda
- con rapidez
- Crudo
- archivos
- Registro
- Renta
- reporte
- repositorio
- representado
- representa
- solicita
- requiere
- Recursos
- responsabilidades
- responsabilidad
- Resultados
- una estrategia SEO para aparecer en las búsquedas de Google.
- Riesgo
- Gestión sistemática del riesgo,
- Ejecutar
- Escala
- Ciencia:
- los científicos
- Sectores
- Serie
- Servicios
- Varios
- importante
- sencillos
- chica
- So
- sólido
- a medida
- Soluciones
- algo
- especialista
- velocidad
- dividido
- etapas
- estándar
- comienzo
- fundó
- Posicionamiento
- estadístico
- Estado
- STORAGE
- Estratégico
- estudio
- SOPORTE
- soportes
- Target
- tareas
- Tecnologías
- test
- por lo tanto
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- Tokenization
- Formación
- Transformar
- comprensión
- us
- Estados Unidos de America
- utilizan el
- usuarios
- generalmente
- propuesta de
- verificar
- versión
- Ver
- ¿
- QUIENES
- dentro de
- sin
- palabras
- funciona
- se
- la escritura
- año
- años