После мирового финансового кризиса управление рисками стало играть важную роль в принятии банками решений, включая прогнозирование статуса кредита для потенциальных клиентов. Часто это упражнение с интенсивным использованием данных, требующее машинного обучения (ML). Однако не у всех организаций есть ресурсы и опыт работы с данными для создания рабочего процесса машинного обучения для управления рисками.
Создатель мудреца Амазонки — это полностью управляемая платформа машинного обучения, которая позволяет инженерам данных и бизнес-аналитикам быстро и легко создавать, обучать и развертывать модели машинного обучения. Инженеры по обработке данных и бизнес-аналитики могут сотрудничать, используя возможности SageMaker без кода/мало кода. Инженеры данных могут использовать Обработчик данных Amazon SageMaker для быстрой агрегации и подготовки данных для построения модели без написания кода. Затем бизнес-аналитики могут использовать визуальный интерфейс типа «укажи и щелкни». Холст Amazon SageMaker самостоятельно генерировать точные прогнозы машинного обучения.
В этом посте мы покажем, насколько просто для инженеров данных и бизнес-аналитиков совместная работа над созданием рабочего процесса машинного обучения, включающего подготовку данных, построение модели и вывод без написания кода.
Обзор решения
Хотя разработка машинного обучения — это сложный и повторяющийся процесс, вы можете обобщить рабочий процесс машинного обучения на этапы подготовки данных, разработки модели и развертывания модели.
Data Wrangler и Canvas избавляют от сложностей подготовки данных и разработки моделей, поэтому вы можете сосредоточиться на создании ценности для своего бизнеса, извлекая ценные сведения из ваших данных, не будучи экспертом в разработке кода. На следующей диаграмме архитектуры показаны компоненты решения без кода/мало кода.
Простой сервис хранения Amazon (Amazon S3) действует как наш репозиторий данных для необработанных данных, инженерных данных и артефактов модели. Вы также можете импортировать данные из Амазонка Redshift, Амазонка Афина, Databricks и Snowflake.
Затем, как специалисты по данным, мы используем Data Wrangler для исследовательского анализа данных и разработки функций. Хотя Canvas может выполнять задачи проектирования признаков, проектирование признаков обычно требует некоторых статистических и предметных знаний, чтобы преобразовать набор данных в правильную форму для разработки модели. Поэтому мы возлагаем эту ответственность на инженеров данных, чтобы они могли преобразовывать данные без написания кода с помощью Data Wrangler.
После подготовки данных мы передаем обязанности по построению модели аналитикам данных, которые могут использовать Canvas для обучения модели без написания кода.
Наконец, мы делаем одиночные и пакетные прогнозы непосредственно в Canvas из полученной модели без необходимости развертывать конечные точки модели самостоятельно.
Обзор набора данных
Мы используем функции SageMaker для прогнозирования статуса кредита с помощью модифицированной версии Lending Club. общедоступный набор данных анализа кредита. Набор данных содержит кредитные данные по кредитам, выданным в период с 2007 по 2011 год. Столбцы, описывающие кредит и заемщика, являются нашими функциями. Столбец кредит_статус — это целевая переменная, которую мы пытаемся предсказать.
Чтобы продемонстрировать в Data Wrangler, мы разделили набор данных на два файла CSV: Первая часть и часть вторая. Мы удалили некоторые столбцы из исходного набора данных Lending Club, чтобы упростить демонстрацию. Наш набор данных содержит более 37,000 21 строк и XNUMX столбец функций, как описано в следующей таблице.
Название колонки | Описание |
loan_status |
Текущее состояние кредита (целевая переменная). |
loan_amount |
Перечисленная сумма кредита, заявленного заемщиком. Если кредитный отдел уменьшает сумму кредита, это отражается в этом значении. |
funded_amount_by_investors |
Общая сумма, выделенная инвесторами для этого кредита в то время. |
term |
Количество платежей по кредиту. Значения указаны в месяцах и могут быть 36 или 60. |
interest_rate |
Процентная ставка по кредиту. |
installment |
Ежемесячный платеж, причитающийся заемщику, если кредит выдан. |
grade |
LC присвоен кредитный рейтинг. |
sub_grade |
LC присвоено кредитное основание. |
employment_length |
Стаж работы в годах. Возможные значения находятся в диапазоне от 0 до 10, где 0 означает менее одного года, а 10 означает десять или более лет. |
home_ownership |
Статус собственности на жилье предоставляется заемщиком при регистрации. Наши ценности: АРЕНДА, СОБСТВЕННОСТЬ, ИПОТЕКА и ДРУГОЕ. |
annual_income |
Годовой доход, заявленный заемщиком при регистрации. |
verification_status |
Указывает, был ли подтвержден доход LC. |
issued_amount |
Месяц, в котором кредит был профинансирован. |
purpose |
Категория, предоставляемая заемщиком для заявки на кредит. |
dti |
Соотношение, рассчитанное путем деления общей суммы ежемесячных платежей заемщика на общую сумму долговых обязательств, за исключением ипотечного кредита и запрошенного аккредитивного кредита, на ежемесячный доход заемщика, о котором сообщается самостоятельно. |
earliest_credit_line |
Месяц, в котором заемщик открыл самую раннюю из заявленных кредитных линий. |
inquiries_last_6_months |
Количество запросов за последние 6 месяцев (исключая запросы по авто и ипотеке). |
open_credit_lines |
Количество открытых кредитных линий в кредитном досье заемщика. |
derogatory_public_records |
Количество унизительных публичных записей. |
revolving_line_utilization_rate |
Коэффициент использования возобновляемой линии или сумма кредита, которую заемщик использует по отношению ко всему доступному возобновляемому кредиту. |
total_credit_lines |
Общее количество кредитных линий в настоящее время в кредитном файле заемщика. |
Мы используем этот набор данных для подготовки данных и обучения модели.
Предпосылки
Выполните следующие обязательные шаги:
- Загрузите оба кредитных файла в корзину S3 по вашему выбору.
- Убедитесь, что у вас есть необходимые разрешения. Для получения дополнительной информации см. Начать работу с Data Wrangler.
- Настройте домен SageMaker, настроенный для использования Data Wrangler. Инструкции см. Подключение к домену Amazon SageMaker.
Импортировать данные
Создайте новый поток данных Data Wrangler из Пользовательский интерфейс Amazon SageMaker Studio.
Импортируйте данные из Amazon S3, выбрав CSV-файлы из корзины S3, в которую вы поместили набор данных. После того как вы импортируете оба файла, вы увидите два отдельных рабочих процесса в Поток данных Посмотреть.
Вы можете выбрать несколько вариантов выборки при импорте данных в поток Data Wrangler. Выборка может помочь, если у вас есть набор данных, который слишком велик для интерактивной подготовки, или когда вы хотите сохранить долю редких событий в своем выборочном наборе данных. Поскольку наш набор данных небольшой, мы не используем выборку.
Подготовьте данные
Для нашего варианта использования у нас есть два набора данных с общим столбцом: id
. В качестве первого шага в подготовке данных мы хотим объединить эти файлы, объединив их. Инструкции см. Преобразовать данные.
Мы используем Присоединиться шаг преобразования данных и используйте Внутренний тип соединения на id
колонка.
В результате нашего преобразования соединения Data Wrangler создает два дополнительных столбца: id_0
и id_1
. Однако эти столбцы не нужны для построения нашей модели. Мы удаляем эти избыточные столбцы, используя Управление столбцами шаг трансформации.
Мы импортировали наши наборы данных, соединили их и удалили ненужные столбцы. Теперь мы готовы обогатить наши данные с помощью разработки функций и подготовиться к построению модели.
Выполнение функционального инжиниринга
Мы использовали Data Wrangler для подготовки данных. Вы также можете использовать Функция качества данных и аналитических отчетов в Data Wrangler для проверки качества ваших данных и обнаружения аномалий в ваших данных. Специалистам по данным часто необходимо использовать эти аналитические данные для эффективного применения правильных знаний в предметной области к инженерным функциям. Для этого поста мы предполагаем, что завершили эти оценки качества и можем перейти к разработке функций.
На этом шаге мы применяем несколько преобразований к числовым, категориальным и текстовым столбцам.
Сначала мы нормализуем процентную ставку, чтобы масштабировать значения от 0 до 1. Делаем это с помощью Числовой процесс преобразовать, чтобы масштабировать interest_rate
колонке с помощью мин-макс масштабатора. Цель нормализации (или стандартизации) состоит в том, чтобы устранить предвзятость в нашей модели. Переменные, которые измеряются в разных масштабах, не будут в равной степени способствовать процессу обучения модели. Таким образом, функция преобразования, такая как преобразование мин-макс, помогает нормализовать функции.
Чтобы преобразовать категориальную переменную в числовое значение, мы используем однократное кодирование. Мы выбираем Кодировать категориальный преобразовать, а затем выбрать Одно горячее кодирование. Горячее кодирование улучшает предсказательную способность модели машинного обучения. Этот процесс преобразует категориальное значение в новый признак, присваивая признаку двоичное значение 1 или 0. В качестве простого примера, если у вас есть один столбец, содержащий либо значение yes
or no
, однократное кодирование преобразовало бы этот столбец в два столбца: Yes
столбец и No
столбец. Значение «да» будет иметь 1 в Yes
столбец и 0 в No
столбец. Горячее кодирование делает наши данные более полезными, потому что числовые значения могут легче определять вероятность наших прогнозов.
Наконец, мы employer_title
столбец для преобразования его строковых значений в числовой вектор. Мы применяем Векторизатор подсчета и стандартный токенизатор внутри Векторизовать трансформировать. Токенизация разбивает предложение или последовательность текста на слова, тогда как векторизатор преобразует текстовые данные в машиночитаемую форму. Эти слова представлены в виде векторов.
Когда все этапы разработки функций завершены, мы можем экспортировать данные и выводить результаты в нашу корзину S3. Кроме того, вы можете экспортировать свой поток в виде кода Python или блокнота Jupyter, чтобы создать конвейер с вашим представлением, используя Конвейеры Amazon SageMaker. Учтите это, если вы хотите выполнять этапы разработки функций в масштабе или как часть конвейера машинного обучения.
Теперь мы можем использовать выходной файл Data Wrangler в качестве входных данных для Canvas. Мы ссылаемся на это как на набор данных в Canvas для построения нашей модели машинного обучения.
В нашем случае мы экспортировали подготовленный набор данных в корзину Studio по умолчанию с output
префикс. Мы ссылаемся на это расположение набора данных при загрузке данных в Canvas для последующего построения модели.
Создавайте и обучайте свою модель машинного обучения с помощью Canvas
На консоли SageMaker запустите приложение Canvas. Чтобы построить модель ML из подготовленных данных в предыдущем разделе, мы выполняем следующие шаги:
- Импортируйте подготовленный набор данных в Canvas из корзины S3.
Мы ссылаемся на тот же путь S3, по которому мы экспортировали результаты Data Wrangler из предыдущего раздела.
- Создайте новую модель в Canvas и назовите ее.
loan_prediction_model
. - Выберите импортированный набор данных и добавьте его в объект модели.
Чтобы Canvas построил модель, мы должны выбрать целевой столбец.
- Поскольку наша цель состоит в том, чтобы предсказать вероятность способности кредитора погасить кредит, мы выбираем
loan_status
колонка.
Canvas автоматически определяет тип постановки задачи ML. На момент написания Canvas поддерживал задачи регрессии, классификации и прогнозирования временных рядов. Вы можете указать тип проблемы или заставить Canvas автоматически определить проблему на основе ваших данных.
- Выберите свой вариант, чтобы начать процесс построения модели: Быстрая сборка or Стандартная сборка.
Ассоциация Быстрая сборка вариант использует ваш набор данных для обучения модели в течение 2–15 минут. Это полезно, когда вы экспериментируете с новым набором данных, чтобы определить, достаточно ли имеющегося у вас набора данных для прогнозирования. Мы используем этот вариант для этого поста.
Ассоциация Стандартная сборка Опция предпочитает точность скорости и использует около 250 моделей-кандидатов для обучения модели. Обычно процесс занимает 1-2 часа.
После построения модели вы можете просмотреть результаты модели. Canvas оценивает, что ваша модель способна предсказать правильный результат в 82.9% случаев. Ваши собственные результаты могут отличаться из-за различий в моделях обучения.
Кроме того, вы можете углубиться в детальный анализ модели, чтобы узнать больше о модели.
Важность функции представляет предполагаемую важность каждой функции при прогнозировании целевого столбца. В этом случае столбец кредитной линии оказывает наибольшее влияние на прогнозирование того, погасит ли клиент сумму кредита, за которым следуют процентная ставка и годовой доход.
Матрица путаницы в Расширенные метрики Раздел содержит информацию для пользователей, которые хотят получить более глубокое представление о производительности своей модели.
Прежде чем вы сможете развернуть модель для рабочих нагрузок, используйте Canvas для тестирования модели. Canvas управляет конечной точкой нашей модели и позволяет нам делать прогнозы непосредственно в пользовательском интерфейсе Canvas.
- Выберите прогнозировать и просмотреть результаты либо Пакетный прогноз or Один прогноз меню.
В следующем примере мы делаем один прогноз, изменяя значения, чтобы предсказать нашу целевую переменную. loan_status
в режиме реального времени
Мы также можем выбрать больший набор данных и заставить Canvas генерировать пакетные прогнозы от нашего имени.
Заключение
Сквозное машинное обучение является сложным и итеративным и часто включает в себя несколько персонажей, технологий и процессов. Data Wrangler и Canvas обеспечивают совместную работу между командами, не требуя от этих команд написания кода.
Инженер данных может легко подготовить данные с помощью Data Wrangler без написания кода и передать подготовленный набор данных бизнес-аналитику. Затем бизнес-аналитик может легко создавать точные модели ML всего несколькими щелчками мыши с помощью Canvas и получать точные прогнозы в режиме реального времени или в пакетном режиме.
Начните работу с обработчиком данных с помощью этих инструментов без необходимости управлять какой-либо инфраструктурой. Ты сможешь настроить холст быстро и сразу же приступайте к созданию моделей машинного обучения для удовлетворения потребностей вашего бизнеса.
Об авторах
Питер Чунг является архитектором решений для AWS и стремится помогать клиентам извлекать ценную информацию из своих данных. Он разрабатывает решения, помогающие организациям принимать решения на основе данных как в государственном, так и в частном секторах. Он имеет все сертификаты AWS, а также два сертификата GCP.
Минакшисундарам Тандавараян является старшим специалистом по AI/ML в AWS. Он помогает высокотехнологичным стратегическим клиентам в их путешествии по искусственному интеллекту и машинному обучению. Он очень увлечен искусственным интеллектом, управляемым данными.
Дэн Фергюсон является архитектором решений в AWS, базирующейся в Нью-Йорке, США. Как эксперт по услугам машинного обучения, Дэн поддерживает клиентов на пути к эффективной, действенной и устойчивой интеграции рабочих процессов машинного обучения.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- О нас
- АБСТРАКТ НАЯ
- точный
- дополнение
- дополнительный
- AI
- Все
- Несмотря на то, что
- Amazon
- количество
- анализ
- аналитик
- годовой
- Применение
- Применить
- примерно
- архитектура
- назначенный
- автоматический
- доступен
- AWS
- Банки
- не являетесь
- граница
- брейки
- строить
- Строительство
- бизнес
- кандидатов
- холст
- возможности
- Категории
- выбор
- Выберите
- классификация
- код
- сотрудничать
- сотрудничество
- Column
- привержен
- Общий
- комплекс
- сложности
- замешательство
- Консоли
- содержит
- способствовать
- Создайте
- создает
- Создающий
- кредит
- кризис
- В настоящее время
- клиент
- Клиенты
- данным
- анализ данных
- наука о данных
- Долг
- решения
- более глубокий
- доставки
- демонстрировать
- развертывание
- развертывание
- описано
- подробнее
- Определять
- Разработка
- различный
- непосредственно
- домен
- вниз
- рисование
- Падение
- в течение
- легко
- эффективно
- ликвидировать
- включить
- Конечная точка
- инженер
- Проект и
- Инженеры
- По оценкам,
- Оценки
- События
- пример
- Упражнение
- эксперту
- опыта
- Особенность
- Особенности
- финансовый
- финансовый кризис
- First
- поток
- Фокус
- после
- форма
- функция
- фундированный
- порождать
- Глобальный
- цель
- имеющий
- высота
- помощь
- помощь
- помогает
- имеет
- Главная
- Как
- Однако
- HTTPS
- Влияние
- значение
- импортирующий
- В том числе
- доход
- информация
- Инфраструктура
- вход
- размышления
- интерес
- Интерфейс
- Инвесторы
- IT
- присоединиться
- присоединился
- путешествие
- знания
- большой
- больше
- запуск
- УЧИТЬСЯ
- изучение
- кредитование
- линия
- Включенный в список
- погрузка
- Кредиты
- расположение
- машина
- обучение с помощью машины
- основной
- ДЕЛАЕТ
- управлять
- управляемого
- управление
- матрица
- означает
- ML
- модель
- Модели
- Месяц
- месяцев
- БОЛЕЕ
- самых
- двигаться
- с разными
- необходимо
- потребности
- New York
- ноутбук
- номер
- обязательства
- открытый
- Опция
- Опции
- организации
- Другие контрактные услуги
- собственный
- собственность
- часть
- страстный
- ОПЛАТИТЬ
- оплата
- платежи
- производительность
- Платформа
- возможное
- потенциал
- предсказывать
- прогноз
- Predictions
- Подготовить
- предыдущий
- частная
- Проблема
- проблемам
- процесс
- Процессы
- Производство
- что такое варган?
- цель
- целей
- САЙТ
- быстро
- Сырье
- учет
- Регистрация
- Аренда
- отчету
- хранилище
- представленный
- представляет
- запросить
- требуется
- Полезные ресурсы
- ответственности
- ответственность
- Итоги
- обзоре
- Снижение
- управление рисками
- Run
- Шкала
- Наука
- Ученые
- Сектора юридического права
- Серии
- Услуги
- несколько
- значительный
- просто
- небольшой
- So
- твердый
- Решение
- Решения
- некоторые
- специалист
- скорость
- раскол
- этапы
- стандарт
- Начало
- и политические лидеры
- заявление
- статистический
- Статус:
- диск
- Стратегический
- студия
- поддержка
- Поддержка
- цель
- задачи
- технологии
- тестXNUMX
- следовательно
- Через
- время
- лексемизацию
- инструменты
- Обучение
- Transform
- трансформация
- понимание
- us
- США
- использование
- пользователей
- обычно
- ценностное
- проверить
- версия
- Вид
- Что
- КТО
- в
- без
- слова
- работает
- бы
- письмо
- год
- лет