Создайте рабочий процесс машинного обучения для управления рисками на Amazon SageMaker без кода

Переиздано Платоном

Читают: 0

После мирового финансового кризиса управление рисками стало играть важную роль в принятии банками решений, включая прогнозирование статуса кредита для потенциальных клиентов. Часто это упражнение с интенсивным использованием данных, требующее машинного обучения (ML). Однако не у всех организаций есть ресурсы и опыт работы с данными для создания рабочего процесса машинного обучения для управления рисками.

Создатель мудреца Амазонки — это полностью управляемая платформа машинного обучения, которая позволяет инженерам данных и бизнес-аналитикам быстро и легко создавать, обучать и развертывать модели машинного обучения. Инженеры по обработке данных и бизнес-аналитики могут сотрудничать, используя возможности SageMaker без кода/мало кода. Инженеры данных могут использовать Обработчик данных Amazon SageMaker для быстрой агрегации и подготовки данных для построения модели без написания кода. Затем бизнес-аналитики могут использовать визуальный интерфейс типа «укажи и щелкни». Холст Amazon SageMaker самостоятельно генерировать точные прогнозы машинного обучения.

В этом посте мы покажем, насколько просто для инженеров данных и бизнес-аналитиков совместная работа над созданием рабочего процесса машинного обучения, включающего подготовку данных, построение модели и вывод без написания кода.

Обзор решения

Хотя разработка машинного обучения — это сложный и повторяющийся процесс, вы можете обобщить рабочий процесс машинного обучения на этапы подготовки данных, разработки модели и развертывания модели.

Создайте рабочий процесс машинного обучения для управления рисками на Amazon SageMaker без написания кода PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Data Wrangler и Canvas избавляют от сложностей подготовки данных и разработки моделей, поэтому вы можете сосредоточиться на создании ценности для своего бизнеса, извлекая ценные сведения из ваших данных, не будучи экспертом в разработке кода. На следующей диаграмме архитектуры показаны компоненты решения без кода/мало кода.

Простой сервис хранения Amazon (Amazon S3) действует как наш репозиторий данных для необработанных данных, инженерных данных и артефактов модели. Вы также можете импортировать данные из Амазонка Redshift, Амазонка Афина, Databricks и Snowflake.

Затем, как специалисты по данным, мы используем Data Wrangler для исследовательского анализа данных и разработки функций. Хотя Canvas может выполнять задачи проектирования признаков, проектирование признаков обычно требует некоторых статистических и предметных знаний, чтобы преобразовать набор данных в правильную форму для разработки модели. Поэтому мы возлагаем эту ответственность на инженеров данных, чтобы они могли преобразовывать данные без написания кода с помощью Data Wrangler.

После подготовки данных мы передаем обязанности по построению модели аналитикам данных, которые могут использовать Canvas для обучения модели без написания кода.

Наконец, мы делаем одиночные и пакетные прогнозы непосредственно в Canvas из полученной модели без необходимости развертывать конечные точки модели самостоятельно.

Обзор набора данных

Мы используем функции SageMaker для прогнозирования статуса кредита с помощью модифицированной версии Lending Club. общедоступный набор данных анализа кредита. Набор данных содержит кредитные данные по кредитам, выданным в период с 2007 по 2011 год. Столбцы, описывающие кредит и заемщика, являются нашими функциями. Столбец кредит_статус — это целевая переменная, которую мы пытаемся предсказать.

Чтобы продемонстрировать в Data Wrangler, мы разделили набор данных на два файла CSV: Первая часть и часть вторая. Мы удалили некоторые столбцы из исходного набора данных Lending Club, чтобы упростить демонстрацию. Наш набор данных содержит более 37,000 21 строк и XNUMX столбец функций, как описано в следующей таблице.

Название колонки	Описание
`loan_status`	Текущее состояние кредита (целевая переменная).
`loan_amount`	Перечисленная сумма кредита, заявленного заемщиком. Если кредитный отдел уменьшает сумму кредита, это отражается в этом значении.
`funded_amount_by_investors`	Общая сумма, выделенная инвесторами для этого кредита в то время.
`term`	Количество платежей по кредиту. Значения указаны в месяцах и могут быть 36 или 60.
`interest_rate`	Процентная ставка по кредиту.
`installment`	Ежемесячный платеж, причитающийся заемщику, если кредит выдан.
`grade`	LC присвоен кредитный рейтинг.
`sub_grade`	LC присвоено кредитное основание.
`employment_length`	Стаж работы в годах. Возможные значения находятся в диапазоне от 0 до 10, где 0 означает менее одного года, а 10 означает десять или более лет.
`home_ownership`	Статус собственности на жилье предоставляется заемщиком при регистрации. Наши ценности: АРЕНДА, СОБСТВЕННОСТЬ, ИПОТЕКА и ДРУГОЕ.
`annual_income`	Годовой доход, заявленный заемщиком при регистрации.
`verification_status`	Указывает, был ли подтвержден доход LC.
`issued_amount`	Месяц, в котором кредит был профинансирован.
`purpose`	Категория, предоставляемая заемщиком для заявки на кредит.
`dti`	Соотношение, рассчитанное путем деления общей суммы ежемесячных платежей заемщика на общую сумму долговых обязательств, за исключением ипотечного кредита и запрошенного аккредитивного кредита, на ежемесячный доход заемщика, о котором сообщается самостоятельно.
`earliest_credit_line`	Месяц, в котором заемщик открыл самую раннюю из заявленных кредитных линий.
`inquiries_last_6_months`	Количество запросов за последние 6 месяцев (исключая запросы по авто и ипотеке).
`open_credit_lines`	Количество открытых кредитных линий в кредитном досье заемщика.
`derogatory_public_records`	Количество унизительных публичных записей.
`revolving_line_utilization_rate`	Коэффициент использования возобновляемой линии или сумма кредита, которую заемщик использует по отношению ко всему доступному возобновляемому кредиту.
`total_credit_lines`	Общее количество кредитных линий в настоящее время в кредитном файле заемщика.

Мы используем этот набор данных для подготовки данных и обучения модели.

Предпосылки

Выполните следующие обязательные шаги:

Загрузите оба кредитных файла в корзину S3 по вашему выбору.
Убедитесь, что у вас есть необходимые разрешения. Для получения дополнительной информации см. Начать работу с Data Wrangler.
Настройте домен SageMaker, настроенный для использования Data Wrangler. Инструкции см. Подключение к домену Amazon SageMaker.

Импортировать данные

Создайте новый поток данных Data Wrangler из Пользовательский интерфейс Amazon SageMaker Studio.

Импортируйте данные из Amazon S3, выбрав CSV-файлы из корзины S3, в которую вы поместили набор данных. После того как вы импортируете оба файла, вы увидите два отдельных рабочих процесса в Поток данных Посмотреть.

Вы можете выбрать несколько вариантов выборки при импорте данных в поток Data Wrangler. Выборка может помочь, если у вас есть набор данных, который слишком велик для интерактивной подготовки, или когда вы хотите сохранить долю редких событий в своем выборочном наборе данных. Поскольку наш набор данных небольшой, мы не используем выборку.

Подготовьте данные

Для нашего варианта использования у нас есть два набора данных с общим столбцом: id. В качестве первого шага в подготовке данных мы хотим объединить эти файлы, объединив их. Инструкции см. Преобразовать данные.

Мы используем Присоединиться шаг преобразования данных и используйте Внутренний тип соединения на id колонка.

В результате нашего преобразования соединения Data Wrangler создает два дополнительных столбца: id_0 и id_1. Однако эти столбцы не нужны для построения нашей модели. Мы удаляем эти избыточные столбцы, используя Управление столбцами шаг трансформации.

Мы импортировали наши наборы данных, соединили их и удалили ненужные столбцы. Теперь мы готовы обогатить наши данные с помощью разработки функций и подготовиться к построению модели.

Выполнение функционального инжиниринга

Мы использовали Data Wrangler для подготовки данных. Вы также можете использовать Функция качества данных и аналитических отчетов в Data Wrangler для проверки качества ваших данных и обнаружения аномалий в ваших данных. Специалистам по данным часто необходимо использовать эти аналитические данные для эффективного применения правильных знаний в предметной области к инженерным функциям. Для этого поста мы предполагаем, что завершили эти оценки качества и можем перейти к разработке функций.

На этом шаге мы применяем несколько преобразований к числовым, категориальным и текстовым столбцам.

Сначала мы нормализуем процентную ставку, чтобы масштабировать значения от 0 до 1. Делаем это с помощью Числовой процесс преобразовать, чтобы масштабировать interest_rate колонке с помощью мин-макс масштабатора. Цель нормализации (или стандартизации) состоит в том, чтобы устранить предвзятость в нашей модели. Переменные, которые измеряются в разных масштабах, не будут в равной степени способствовать процессу обучения модели. Таким образом, функция преобразования, такая как преобразование мин-макс, помогает нормализовать функции.

Чтобы преобразовать категориальную переменную в числовое значение, мы используем однократное кодирование. Мы выбираем Кодировать категориальный преобразовать, а затем выбрать Одно горячее кодирование. Горячее кодирование улучшает предсказательную способность модели машинного обучения. Этот процесс преобразует категориальное значение в новый признак, присваивая признаку двоичное значение 1 или 0. В качестве простого примера, если у вас есть один столбец, содержащий либо значение yes or no, однократное кодирование преобразовало бы этот столбец в два столбца: Yes столбец и No столбец. Значение «да» будет иметь 1 в Yes столбец и 0 в No столбец. Горячее кодирование делает наши данные более полезными, потому что числовые значения могут легче определять вероятность наших прогнозов.

Наконец, мы employer_title столбец для преобразования его строковых значений в числовой вектор. Мы применяем Векторизатор подсчета и стандартный токенизатор внутри Векторизовать трансформировать. Токенизация разбивает предложение или последовательность текста на слова, тогда как векторизатор преобразует текстовые данные в машиночитаемую форму. Эти слова представлены в виде векторов.

Когда все этапы разработки функций завершены, мы можем экспортировать данные и выводить результаты в нашу корзину S3. Кроме того, вы можете экспортировать свой поток в виде кода Python или блокнота Jupyter, чтобы создать конвейер с вашим представлением, используя Конвейеры Amazon SageMaker. Учтите это, если вы хотите выполнять этапы разработки функций в масштабе или как часть конвейера машинного обучения.

Теперь мы можем использовать выходной файл Data Wrangler в качестве входных данных для Canvas. Мы ссылаемся на это как на набор данных в Canvas для построения нашей модели машинного обучения.

В нашем случае мы экспортировали подготовленный набор данных в корзину Studio по умолчанию с output префикс. Мы ссылаемся на это расположение набора данных при загрузке данных в Canvas для последующего построения модели.

Создавайте и обучайте свою модель машинного обучения с помощью Canvas

На консоли SageMaker запустите приложение Canvas. Чтобы построить модель ML из подготовленных данных в предыдущем разделе, мы выполняем следующие шаги:

Импортируйте подготовленный набор данных в Canvas из корзины S3.

Мы ссылаемся на тот же путь S3, по которому мы экспортировали результаты Data Wrangler из предыдущего раздела.

Создайте новую модель в Canvas и назовите ее. loan_prediction_model.
Выберите импортированный набор данных и добавьте его в объект модели.

Чтобы Canvas построил модель, мы должны выбрать целевой столбец.

Поскольку наша цель состоит в том, чтобы предсказать вероятность способности кредитора погасить кредит, мы выбираем loan_status колонка.

Canvas автоматически определяет тип постановки задачи ML. На момент написания Canvas поддерживал задачи регрессии, классификации и прогнозирования временных рядов. Вы можете указать тип проблемы или заставить Canvas автоматически определить проблему на основе ваших данных.

Выберите свой вариант, чтобы начать процесс построения модели: Быстрая сборка or Стандартная сборка.

Ассоциация Быстрая сборка вариант использует ваш набор данных для обучения модели в течение 2–15 минут. Это полезно, когда вы экспериментируете с новым набором данных, чтобы определить, достаточно ли имеющегося у вас набора данных для прогнозирования. Мы используем этот вариант для этого поста.

Ассоциация Стандартная сборка Опция предпочитает точность скорости и использует около 250 моделей-кандидатов для обучения модели. Обычно процесс занимает 1-2 часа.

После построения модели вы можете просмотреть результаты модели. Canvas оценивает, что ваша модель способна предсказать правильный результат в 82.9% случаев. Ваши собственные результаты могут отличаться из-за различий в моделях обучения.

Кроме того, вы можете углубиться в детальный анализ модели, чтобы узнать больше о модели.

Важность функции представляет предполагаемую важность каждой функции при прогнозировании целевого столбца. В этом случае столбец кредитной линии оказывает наибольшее влияние на прогнозирование того, погасит ли клиент сумму кредита, за которым следуют процентная ставка и годовой доход.

Матрица путаницы в Расширенные метрики Раздел содержит информацию для пользователей, которые хотят получить более глубокое представление о производительности своей модели.

Прежде чем вы сможете развернуть модель для рабочих нагрузок, используйте Canvas для тестирования модели. Canvas управляет конечной точкой нашей модели и позволяет нам делать прогнозы непосредственно в пользовательском интерфейсе Canvas.

Выберите прогнозировать и просмотреть результаты либо Пакетный прогноз or Один прогноз меню.

В следующем примере мы делаем один прогноз, изменяя значения, чтобы предсказать нашу целевую переменную. loan_status в режиме реального времени

Мы также можем выбрать больший набор данных и заставить Canvas генерировать пакетные прогнозы от нашего имени.

Заключение

Сквозное машинное обучение является сложным и итеративным и часто включает в себя несколько персонажей, технологий и процессов. Data Wrangler и Canvas обеспечивают совместную работу между командами, не требуя от этих команд написания кода.

Инженер данных может легко подготовить данные с помощью Data Wrangler без написания кода и передать подготовленный набор данных бизнес-аналитику. Затем бизнес-аналитик может легко создавать точные модели ML всего несколькими щелчками мыши с помощью Canvas и получать точные прогнозы в режиме реального времени или в пакетном режиме.

Начните работу с обработчиком данных с помощью этих инструментов без необходимости управлять какой-либо инфраструктурой. Ты сможешь настроить холст быстро и сразу же приступайте к созданию моделей машинного обучения для удовлетворения потребностей вашего бизнеса.

Об авторах

Создайте рабочий процесс машинного обучения для управления рисками на Amazon SageMaker без написания кода PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Питер Чунг является архитектором решений для AWS и стремится помогать клиентам извлекать ценную информацию из своих данных. Он разрабатывает решения, помогающие организациям принимать решения на основе данных как в государственном, так и в частном секторах. Он имеет все сертификаты AWS, а также два сертификата GCP.

Создайте рабочий процесс машинного обучения для управления рисками на Amazon SageMaker без написания кода PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Минакшисундарам Тандавараян является старшим специалистом по AI/ML в AWS. Он помогает высокотехнологичным стратегическим клиентам в их путешествии по искусственному интеллекту и машинному обучению. Он очень увлечен искусственным интеллектом, управляемым данными.

Создайте рабочий процесс машинного обучения для управления рисками на Amazon SageMaker без написания кода PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Дэн Фергюсон является архитектором решений в AWS, базирующейся в Нью-Йорке, США. Как эксперт по услугам машинного обучения, Дэн поддерживает клиентов на пути к эффективной, действенной и устойчивой интеграции рабочих процессов машинного обучения.

Отметка времени: 19 мая 2022

Отметка времени: 4 мая 2022

Создайте рабочий процесс машинного обучения для управления рисками на Amazon SageMaker без написания кода

Переиздано Платоном

Обзор решения

Обзор набора данных

Предпосылки

Импортировать данные

Подготовьте данные

Выполнение функционального инжиниринга

Создавайте и обучайте свою модель машинного обучения с помощью Canvas

Заключение

Об авторах

Больше от Машинное обучение AWS

Содействуйте обнаружению и повторному использованию функций в вашей организации с помощью Amazon SageMaker Feature Store и его возможностей метаданных на уровне функций.

Сократите затраты на вывод Amazon SageMaker с помощью AWS Graviton

Развертывайте конвейеры машинного обучения и управляйте ими с помощью Terraform с помощью Amazon SageMaker.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись