Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon

Возможность быстро создавать и развертывать модели машинного обучения (ML) становится все более важной в современном мире, управляемом данными. Однако построение моделей машинного обучения требует значительного времени, усилий и специальных знаний. От сбора и очистки данных до разработки функций, построения моделей, настройки и развертывания — проекты ML часто занимают у разработчиков месяцы. А опытных специалистов по обработке данных может быть трудно найти.

Именно здесь незаменимым инструментом становится набор сервисов машинного обучения AWS с низким кодированием и без него. Всего за несколько кликов с помощью Холст Amazon SageMaker, вы можете воспользоваться преимуществами машинного обучения без необходимости писать какой-либо код.

Являясь стратегическим системным интегратором с глубоким опытом машинного обучения, Deloitte использует инструменты машинного обучения AWS без кода и с низким кодированием для эффективного создания и развертывания моделей машинного обучения для клиентов Deloitte и для внутренних активов. Эти инструменты позволяют Deloitte разрабатывать решения машинного обучения без необходимости вручную кодировать модели и конвейеры. Это может помочь ускорить сроки реализации проектов и позволить Deloitte взять на себя больше работы с клиентами.

Ниже приведены некоторые конкретные причины, по которым Deloitte использует эти инструменты:

  • Доступность для непрограммистов – Инструменты без написания кода открывают возможность построения моделей ML для непрограммистов. Члены команды, обладающие лишь знаниями в предметной области и очень небольшими навыками программирования, могут разрабатывать модели ML.
  • Быстрое внедрение новых технологий – Доступность и постоянное совершенствование готовых к использованию моделей и AutoML помогает гарантировать, что пользователи постоянно используют технологии ведущего класса.
  • Экономичная разработка – Инструменты без написания кода помогают сократить затраты и время, необходимые для разработки модели ML, делая ее более доступной для клиентов, что может помочь им добиться более высокой окупаемости инвестиций.

Кроме того, эти инструменты предоставляют комплексное решение для ускорения рабочих процессов, позволяя:

  • Ускоренная подготовка данных – SageMaker Canvas имеет более 300 встроенных преобразований и возможность использовать естественный язык, что позволяет ускорить подготовку данных и подготовку данных для построения модели.
  • Более быстрое построение модели – SageMaker Canvas предлагает готовые к использованию модели или Амазон АвтоМЛ технология, которая позволяет создавать собственные модели на основе корпоративных данных всего за несколько кликов. Это помогает ускорить процесс по сравнению с моделями кодирования с нуля.
  • Более легкое развертывание – SageMaker Canvas предлагает возможность развертывания готовых к производству моделей на Амазон Сагмейкер конечную точку в несколько кликов, а также зарегистрировать ее в Реестр моделей Amazon SageMaker.

Вишвешвара Васа, Облачный технический директор Deloitte, говорит:

«Благодаря сервисам машинного обучения AWS без кода, таким как SageMaker Canvas и SageMaker Data Wrangler, мы в Deloitte Consulting добились новых возможностей, повысив скорость разработки и производительность развертывания на 30–40 % в наших клиентских и внутренних проектах».

В этом посте мы демонстрируем возможности построения комплексной модели машинного обучения без кода с использованием SageMaker Canvas, показывая, как построить классификационную модель для прогнозирования невыполнения клиентом обязательств по кредиту. Более точно прогнозируя дефолты по кредитам, модель может помочь компании, предоставляющей финансовые услуги, управлять рисками, правильно оценивать кредиты, улучшать операции, предоставлять дополнительные услуги и получать конкурентные преимущества. Мы демонстрируем, как SageMaker Canvas может помочь вам быстро перейти от необработанных данных к развернутой модели двоичной классификации для прогнозирования дефолта по кредиту.

SageMaker Canvas предлагает комплексные возможности подготовки данных на базе Обработчик данных Amazon SageMaker в рабочей среде SageMaker Canvas. Это позволяет вам пройти все этапы стандартного рабочего процесса машинного обучения — от подготовки данных до построения и развертывания модели — на единой платформе.

Подготовка данных обычно является наиболее трудоемким этапом рабочего процесса машинного обучения. Чтобы сократить время, затрачиваемое на подготовку данных, SageMaker Canvas позволяет подготовить данные с помощью более 300 встроенных преобразований. Альтернативно, вы можете писать подсказки на естественном языке, например «удалить строки из столбца c, которые являются выбросами», и получить фрагмент кода, необходимый для этого этапа подготовки данных. Затем вы можете добавить это в свой рабочий процесс подготовки данных за несколько кликов. В этом посте мы также покажем вам, как это использовать.

Обзор решения

На следующей диаграмме описана архитектура модели классификации дефолтов по кредитам с использованием инструментов SageMaker с низким кодом и без кода.

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Начиная с набора данных, который содержит подробную информацию о данных о дефолте по кредиту в Простой сервис хранения Amazon (Amazon S3) мы используем SageMaker Canvas, чтобы получить представление о данных. Затем мы выполняем разработку функций для применения преобразований, таких как кодирование категориальных функций, удаление ненужных функций и многое другое. Далее мы сохраняем очищенные данные обратно в Amazon S3. Мы используем очищенный набор данных для создания модели классификации для прогнозирования дефолтов по кредитам. Тогда у нас есть готовая к производству модель для вывода.

Предпосылки

Убедитесь, что следующее предпосылки завершены и что вы включили Холст Готовые к использованию модели вариант при настройке домена SageMaker. Если вы уже настроили свой домен, отредактируйте настройки вашего домена и перейти в Настройки холста для Включить готовые к использованию модели Canvas вариант. Кроме того, настройте и создать приложение SageMaker Canvas, затем запросите и включите Доступ к модели Антропного Клода on Коренная порода Амазонки.

Dataset

Мы используем общедоступный набор данных из kaggle который содержит информацию о финансовых кредитах. Каждая строка в наборе данных представляет один кредит, а столбцы предоставляют подробную информацию о каждой транзакции. Загрузите этот набор данных и сохраните его в корзине S3 по вашему выбору. В следующей таблице перечислены поля в наборе данных.

Имя столбца Тип данных Описание
Person_age Целое Возраст человека, взявшего кредит
Person_income Целое Доход заемщика
Person_home_ownership строка Статус собственности на жилье (собственное или арендованное)
Person_emp_length Десятичная дробь Количество лет, в течение которых они работают
Loan_intent строка Причина кредита (личная, медицинская, образовательная и т. д.)
Loan_grade строка Кредитный рейтинг (A – E)
Loan_int_rate Десятичная дробь Процентная ставка
Loan_amnt Целое Общая сумма кредита
Loan_status Целое Цель (независимо от того, не выполнили ли они дефолт или нет)
Loan_percent_income Десятичная дробь Сумма кредита в сравнении с процентом от дохода
Cb_person_default_on_file Целое Предыдущие настройки по умолчанию (если есть)
Cb_person_credit_history_length строка Длина их кредитной истории

Упростите подготовку данных с помощью SageMaker Canvas

Подготовка данных может занимать до 80 % усилий в проектах ML.. Правильная подготовка данных приводит к повышению производительности модели и более точным прогнозам. SageMaker Canvas позволяет осуществлять интерактивное исследование, преобразование и подготовку данных без написания кода SQL или Python.

Для подготовки данных выполните следующие шаги:

  1. В консоли SageMaker Canvas выберите Подготовка данных в навигационной панели.
  2. На Создавай Меню, выберите Документ.
  3. Что касается Имя набора данных, введите имя для вашего набора данных.
  4. Выберите Создавай.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  5. Выберите Amazon S3 в качестве источника данных и подключите его к набору данных.
  6. После загрузки набора данных создайте поток данных, используя этот набор данных.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  7. Перейдите на вкладку анализов и создайте Отчет о качестве данных и аналитических данных.

Это рекомендуемый шаг для анализа качества входного набора данных. Результаты этого отчета позволяют мгновенно получить ценную информацию на основе машинного обучения, такую ​​как неравномерность данных, дубликаты данных, пропущенные значения и многое другое. На следующем снимке экрана показан образец созданного отчета для набора данных о кредитах.

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Создавая эту информацию от вашего имени, SageMaker Canvas предоставляет вам ряд проблем в данных, которые необходимо устранить на этапе подготовки данных. Чтобы выбрать две основные проблемы, выявленные SageMaker Canvas, вам необходимо закодировать категориальные функции и удалить повторяющиеся строки, чтобы качество вашей модели было высоким. Вы можете сделать и то, и другое в визуальном рабочем процессе с помощью SageMaker Canvas.

  1. Во-первых, горячее кодирование loan_intent, loan_gradeи person_home_ownership
  2. Вы можете отбросить cb_person_cred_history_length столбец, поскольку этот столбец имеет наименьшую прогнозирующую способность, как показано в отчете о качестве данных и аналитике.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    SageMaker Canvas недавно добавил Общайтесь с данными вариант. Эта функция использует возможности базовых моделей для интерпретации запросов на естественном языке и создания кода на основе Python для применения преобразований проектирования функций. Эта функция реализована на базе Amazon Bedrock, и ее можно настроить для работы полностью в вашем VPC, чтобы данные никогда не покидали вашу среду.
  3. Чтобы использовать эту функцию для удаления повторяющихся строк, выберите знак плюс рядом с Удалить столбец преобразовать, а затем выбрать Общайтесь с данными.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  4. Введите запрос на естественном языке (например, «Удалить повторяющиеся строки из набора данных»).
  5. Просмотрите сгенерированное преобразование и выберите Добавить к шагам чтобы добавить преобразование в поток.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. Наконец, экспортируйте результаты этих преобразований в Amazon S3 или (при необходимости) Магазин функций Amazon SageMaker использовать эти функции в нескольких проектах.

Вы также можете добавить еще один шаг для создания места назначения Amazon S3 для набора данных, чтобы масштабировать рабочий процесс для большого набора данных. На следующей диаграмме показан поток данных SageMaker Canvas после добавления визуальных преобразований.

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы завершили весь этап обработки данных и проектирования функций, используя визуальные рабочие процессы в SageMaker Canvas. Это помогает сократить время, которое инженер данных тратит на очистку и подготовку данных для разработки модели, с недель до дней. Следующий шаг — построение модели ML.

Создайте модель с помощью SageMaker Canvas.

Amazon SageMaker Canvas предоставляет комплексный рабочий процесс без написания кода для создания, анализа, тестирования и развертывания этой модели двоичной классификации. Выполните следующие шаги:

  1. Создайте набор данных в SageMaker Canvas.
  2. Укажите либо местоположение S3, которое использовалось для экспорта данных, либо местоположение S3, которое находится в месте назначения задания SageMaker Canvas.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Теперь вы готовы построить модель.
  3. Выберите Модели в панели навигации и выберите Новая модель.
  4. Назовите модель и выберите Прогнозный анализ как тип модели.
  5. Выберите набор данных, созданный на предыдущем шаге.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Следующий шаг — настройка типа модели.
  6. Выберите целевой столбец, и тип модели будет автоматически установлен как прогноз 2 категории.
  7. Выберите тип сборки, Стандартная сборка or Быстрая сборка.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    SageMaker Canvas отображает ожидаемое время сборки, как только вы начинаете строить модель. Стандартная сборка обычно занимает от 2 до 4 часов; вы можете использовать опцию быстрой сборки для небольших наборов данных, которая занимает всего 2–15 минут. Для этого конкретного набора данных построение модели должно занять около 45 минут. SageMaker Canvas информирует вас о ходе процесса сборки.
  8. После построения модели вы можете посмотреть ее производительность.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    SageMaker Canvas предоставляет различные показатели, такие как точность, точность и показатель F1, в зависимости от типа модели. На следующем снимке экрана показана точность и некоторые другие дополнительные показатели для этой модели двоичной классификации.
  9. Следующий шаг — сделать тестовые прогнозы.
    SageMaker Canvas позволяет выполнять пакетные прогнозы для нескольких входных данных или один прогноз для быстрой проверки качества модели. На следующем снимке экрана показан пример вывода.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  10. Последний шаг — развернуть обученную модель.
    SageMaker Canvas развертывает модель на конечных точках SageMaker, и теперь у вас есть рабочая модель, готовая к выводу. На следующем снимке экрана показана развернутая конечная точка.
    Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

После развертывания модели вы можете вызвать ее через AWS SDK или Интерфейс командной строки AWS (AWS CLI) или выполняйте вызовы API к любому приложению по вашему выбору, чтобы уверенно прогнозировать риск потенциального заемщика. Дополнительную информацию о тестировании вашей модели см. Вызов конечных точек в реальном времени.

Убирать

Чтобы избежать дополнительных расходов, выйти из SageMaker Canvas or удалить домен SageMaker что было создано. Кроме того, удалить конечную точку модели SageMaker и удалить набор данных, который был загружен в Amazon S3.

Заключение

Машинное обучение без кода ускоряет разработку, упрощает развертывание, не требует навыков программирования, повышает стандартизацию и снижает затраты. Эти преимущества сделали ML без кода привлекательным для Deloitte для улучшения своих предложений услуг ML, и они сократили сроки создания моделей ML на 30–40%.

Deloitte — стратегический глобальный системный интегратор, в котором работают более 17,000 XNUMX сертифицированных специалистов AWS по всему миру. Компания продолжает поднимать планку, участвуя в программе AWS Competency Program с 25 компетенций, включая машинное обучение. Свяжитесь с «Делойтом» чтобы начать использовать решения AWS без кода и с низким кодированием на своем предприятии.


Об авторах

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Чида Садаяппан возглавляет практику Deloitte по облачному искусственному интеллекту и машинному обучению. Он привносит в свою работу большой опыт интеллектуального лидерства и помогает руководителям компаний достигать целей повышения производительности и модернизации в различных отраслях с использованием искусственного интеллекта и машинного обучения. Чида — серийный технологический предприниматель и активный строитель сообществ в экосистемах стартапов и разработчиков.

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Кулдип Сингх, ведущий глобальный лидер в области искусственного интеллекта и машинного обучения в AWS с более чем 20-летним опытом работы в сфере технологий, умело сочетает свой опыт продаж и предпринимательства с глубоким пониманием искусственного интеллекта, машинного обучения и кибербезопасности. Он преуспевает в налаживании стратегического глобального партнерства, разработке преобразующих решений и стратегий в различных отраслях с упором на генеративный искусственный интеллект и GSI.

Повышение продуктивности разработчиков: как Deloitte использует Amazon SageMaker Canvas для машинного обучения без программирования и с низким уровнем кода | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Каси Мутху — старший архитектор партнерских решений, специализирующийся на данных и искусственном интеллекте и машинном обучении в AWS в Хьюстоне, штат Техас. Он с энтузиазмом помогает партнерам и клиентам ускорить использование облачных данных. Он является надежным консультантом в этой области и имеет большой опыт проектирования и создания масштабируемых, отказоустойчивых и производительных рабочих нагрузок в облаке. Вне работы он любит проводить время со своей семьей.

Отметка времени:

Больше от Машинное обучение AWS