Создавайте, делитесь, развертывайте: как бизнес-аналитики и специалисты по обработке и анализу данных сокращают время выхода на рынок с помощью машинного обучения без кода и Amazon SageMaker Canvas

Переиздано Платоном

Читают: 0

Машинное обучение (ML) помогает организациям увеличивать доходы, стимулировать рост бизнеса и сокращать расходы за счет оптимизации основных бизнес-функций в нескольких вертикалях, таких как прогнозирование спроса, оценка кредитоспособности, ценообразование, прогнозирование оттока клиентов, определение следующих лучших предложений, прогнозирование просроченных поставок и улучшение качества изготовления. Традиционные циклы разработки машинного обучения занимают месяцы и требуют ограниченных навыков работы с данными и инженерных навыков машинного обучения. Идеи аналитиков для моделей машинного обучения часто остаются в длинных бэклогах, ожидая разрешения группы специалистов по обработке и анализу данных, в то время как специалисты по данным сосредотачиваются на более сложных проектах машинного обучения, требующих их полного набора навыков.

Чтобы выйти из этого тупика, мы представил Amazon SageMaker Canvas, решение машинного обучения без кода, которое может помочь компаниям ускорить разработку решений машинного обучения до нескольких часов или дней. SageMaker Canvas позволяет аналитикам легко использовать доступные данные в озерах данных, хранилищах данных и оперативных хранилищах данных; строить модели машинного обучения; и использовать их для интерактивных прогнозов и для пакетной оценки больших наборов данных — и все это без написания единой строки кода.

В этом посте мы покажем, как SageMaker Canvas обеспечивает совместную работу специалистов по данным и бизнес-аналитиков, ускоряя выход на рынок и ускоряя разработку решений машинного обучения. Аналитики получают собственное рабочее пространство машинного обучения без написания кода в SageMaker Canvas, и им не нужно становиться экспертом по машинному обучению. Затем аналитики могут поделиться своими моделями из Canvas несколькими щелчками мыши, с которыми специалисты по данным смогут работать в Студия Amazon SageMaker, комплексная интегрированная среда разработки машинного обучения (IDE). Работая вместе, бизнес-аналитики могут использовать свои знания в предметной области и результаты экспериментов, а специалисты по данным могут эффективно создавать конвейеры и оптимизировать процесс.

Давайте подробно рассмотрим, как будет выглядеть рабочий процесс.

Бизнес-аналитики строят модель, а затем делятся ею

Чтобы понять, как SageMaker Canvas упрощает сотрудничество между бизнес-аналитиками и специалистами по данным (или инженерами машинного обучения), мы сначала подойдем к этому процессу как бизнес-аналитик. Прежде чем приступить к работе, см. Представляем Amazon SageMaker Canvas — визуальную возможность машинного обучения без кода для бизнес-аналитиков инструкции по созданию и тестированию модели с помощью SageMaker Canvas.

Для этого поста мы используем модифицированную версию Набор данных обнаружения мошенничества с кредитными картами от Kaggle, известного набора данных для задачи бинарной классификации. Набор данных изначально сильно несбалансирован — в нем очень мало записей, отнесенных к отрицательному классу (аномальные транзакции). Независимо от целевого распределения функций, мы по-прежнему можем использовать этот набор данных, поскольку SageMaker Canvas обрабатывает этот дисбаланс, поскольку он автоматически обучает и настраивает модель. Этот набор данных состоит примерно из 9 миллионов ячеек. Вы также можете скачать уменьшенная версия этого набора данных. Размер набора данных намного меньше, около 500,000 0 ячеек, потому что он был случайным образом занижен, а затем перевыбран с помощью метода SMOTE, чтобы гарантировать, что во время этого процесса будет потеряно как можно меньше информации. Проведение всего эксперимента с этим сокращенным набором данных стоит XNUMX долларов США на уровне бесплатного пользования SageMaker Canvas.

После того, как модель построена, аналитики могут использовать ее для прогнозирования непосредственно в Canvas для отдельных запросов или для всего массива входных данных.

Модели, созданные с помощью Canvas Standard Build, также можно легко отправить одним нажатием кнопки специалистам по данным и инженерам по машинному обучению, использующим SageMaker Studio. Это позволяет специалисту по обработке и анализу данных проверять производительность созданной вами модели и предоставлять обратную связь. Инженеры машинного обучения могут выбрать вашу модель и интегрировать ее с существующими рабочими процессами и продуктами, доступными для вашей компании и ваших клиентов. Обратите внимание, что на момент написания статьи невозможно было поделиться моделью, созданной с помощью Canvas Quick Build, или моделью прогнозирования временных рядов.

Поделиться моделью через пользовательский интерфейс Canvas очень просто:

На странице с созданными вами моделями выберите модель.
Выберите Поделиться.
Выберите одну или несколько версий модели, которыми вы хотите поделиться.
При желании добавьте примечание с дополнительным контекстом о модели или помощи, которую вы ищете.
Выберите Создать ссылку на SageMaker Studio.
Скопируйте сгенерированную ссылку.

Вот и все! Теперь вы можете поделиться ссылкой со своими коллегами через Slack, по электронной почте или любым другим удобным для вас способом. Специалист по данным должен находиться в том же домене SageMaker Studio, чтобы получить доступ к вашей модели, поэтому убедитесь, что это относится к администратору вашей организации.

Специалисты по данным получают доступ к информации о модели из SageMaker Studio.

Теперь давайте сыграем роль специалиста по данным или инженера по машинному обучению и посмотрим на вещи с их точки зрения с помощью SageMaker Studio.

Ссылка, которой поделился аналитик, ведет нас в SageMaker Studio, первую облачную IDE для сквозного рабочего процесса машинного обучения.

Вкладка открывается автоматически и показывает обзор модели, созданной аналитиком в SageMaker Canvas. Вы можете быстро увидеть название модели, тип задачи машинного обучения, версию модели и пользователя, создавшего модель (в поле Идентификатор пользователя холста). У вас также есть доступ к подробной информации о входном наборе данных и лучшей модели, которую смог создать SageMaker. Мы углубимся в это позже в посте.

На Входной набор данных на вкладке вы также можете увидеть поток данных от источника к входному набору данных. В этом случае используется только один источник данных и операции соединения не применялись, поэтому отображается один источник. Вы можете проанализировать статистику и подробности о наборе данных, выбрав Блокнот исследования открытых данных. Эта записная книжка позволяет изучить данные, которые были доступны до обучения модели, и содержит анализ целевой переменной, выборку входных данных, статистику и описания столбцов и строк, а также другую полезную информацию для специалиста по данным. узнать больше о наборе данных. Чтобы узнать больше об этом отчете, см. Отчет об исследовании данных.

Проанализировав входной набор данных, перейдем ко второй вкладке обзора модели, Автомл-задание. Эта вкладка содержит описание задания AutoML при выборе параметра «Стандартная сборка» в SageMaker Canvas.

Технология AutoML, реализованная в SageMaker Canvas, избавляет от тяжелой работы по созданию моделей машинного обучения. Он автоматически создает, обучает и настраивает лучшую модель машинного обучения на основе ваших данных, используя автоматизированный подход, позволяя вам сохранять полный контроль и прозрачность. Эта видимость сгенерированных моделей-кандидатов, а также гиперпараметров, используемых во время процесса AutoML, содержится в блокнот поколения кандидатов, который доступен на этой вкладке.

Ассоциация Автомл-задание Вкладка также содержит список всех моделей, созданных в рамках процесса AutoML, отсортированных по целевому показателю F1. Для выделения лучшей модели из запущенных обучающих заданий используется тег с зеленым кружком в Лучшая модель столбец. Вы также можете легко визуализировать другие показатели, используемые на этапе обучения и оценки, такие как оценка точности и площадь под кривой (AUC). Чтобы узнать больше о моделях, которые можно обучать во время задания AutoML, и метриках, используемых для оценки производительности обученной модели, см. Поддержка моделей, метрики и проверка.

Чтобы узнать больше о модели, теперь вы можете щелкнуть правой кнопкой мыши лучшую модель и выбрать Открыть в деталях модели. Кроме того, вы можете выбрать Лучшая модель ссылка вверху страницы Обзор модели раздел, который вы впервые посетили.

Страница сведений о модели содержит множество полезной информации о модели, которая лучше всего работает с этими входными данными. Давайте сначала сосредоточимся на резюме в верхней части страницы. На снимке экрана из предыдущего примера показано, что из сотен прогонов обучения модели модель XGBoost показала лучшие результаты на входном наборе данных. На момент написания этой статьи SageMaker Canvas может обучать три типа алгоритмов машинного обучения: линейный алгоритм обучения, XGBoost и многоуровневый персептрон (MLP), каждый из которых имеет множество конвейеров предварительной обработки и гиперпараметров. Чтобы узнать больше о каждом алгоритме, см. страница поддерживаемых алгоритмов.

SageMaker также включает в себя объяснительную функциональность благодаря масштабируемой и эффективной реализации ЯдроSHAP, основанный на концепции значения Шепли из области теории кооперативных игр, которая присваивает каждой функции значение важности для конкретного прогноза. Это обеспечивает прозрачность того, как модель пришла к своим прогнозам, и очень полезно определить важность функций. Полный отчет об объяснимости, включая важность функций, можно загрузить в формате PDF, записной книжки или необработанных данных. В этом отчете показан более широкий набор показателей, а также полный список гиперпараметров, используемых во время задания AutoML. Чтобы узнать больше о том, как SageMaker предоставляет интегрированные инструменты объяснимости для решений AutoML и стандартных алгоритмов машинного обучения, см. Используйте интегрированные инструменты объяснимости и улучшайте качество моделей с помощью Amazon SageMaker Autopilot.

Наконец, другие вкладки в этом представлении показывают сведения о производительности (матрица путаницы, кривая точности, кривая ROC), артефакты, используемые для входных данных и созданные во время задания AutoML, и сведения о сети.

На этом этапе у специалиста по данным есть два варианта: напрямую развернуть модель или создать конвейер обучения, который можно запланировать или запустить вручную или автоматически. В следующих разделах представлены некоторые сведения об обоих вариантах.

Разверните модель напрямую

Если специалист по данным удовлетворен результатами, полученными с помощью задания AutoML, он может напрямую развернуть модель из Детали модели страница. Это так же просто, как выбрать Развернуть модель рядом с названием модели.

SageMaker предлагает два варианта развертывания: конечная точка в реальном времени на базе Конечные точки Amazon SageMaker, и пакетный вывод, основанный на Пакетное преобразование Amazon SageMaker.

SageMaker также предоставляет другие режимы логического вывода. Чтобы узнать больше, см. Развертывание моделей для логического вывода.

Чтобы включить режим прогнозирования в реальном времени, вы просто даете конечной точке имя, тип экземпляра и количество экземпляров. Поскольку для этой модели не требуются большие вычислительные ресурсы, вы можете использовать инстанс на базе ЦП с начальным счетчиком 1. Вы можете узнать больше о различных типах доступных инстансов и их спецификациях на странице Страница с ценами на Amazon SageMaker (в Цены по запросу раздел, выберите Вывод в реальном времени вкладку). Если вы не знаете, какой экземпляр следует выбрать для развертывания, вы также можете попросить SageMaker подобрать для вас лучший экземпляр в соответствии с вашими ключевыми показателями эффективности, используя Рекомендатор вывода SageMaker. Вы также можете указать дополнительные необязательные параметры, касающиеся того, хотите ли вы собирать данные запросов и ответов в конечную точку или из нее. Это может оказаться полезным, если вы планируете мониторинг вашей модели. Вы также можете выбрать, какой контент вы хотите предоставить как часть своего ответа — будь то просто прогноз или вероятность прогноза, вероятность всех классов и целевые метки.

Чтобы запустить задание пакетной оценки, получая прогнозы для всего набора входных данных за один раз, вы можете запустить задание пакетного преобразования из Консоль управления AWS или через SageMaker Python SDK. Чтобы узнать больше о пакетном преобразовании, см. Использовать пакетное преобразование и примеры блокнотов.

Определение конвейера обучения

Модели машинного обучения очень редко, если вообще когда-либо, можно считать статичными и неизменными, потому что они отклоняются от базовой линии, на которой они были обучены. Данные реального мира со временем развиваются, и из них появляется больше шаблонов и идей, которые могут быть или не быть захвачены исходной моделью, обученной на исторических данных. Чтобы решить эту проблему, вы можете настроить конвейер обучения, который автоматически переобучает ваши модели с использованием последних доступных данных.

При определении этого конвейера специалист по данным может снова использовать AutoML для обучающего конвейера. Вы можете запустить задание AutoML программно, вызвав API create_auto_ml_job() из SDK для AWS Boto3. Вы можете вызвать эту операцию из AWS Lambda функционировать в рамках Шаговые функции AWS рабочий процесс или из LambdaStep в Конвейеры Amazon SageMaker.

В качестве альтернативы специалист по данным может использовать знания, артефакты и гиперпараметры, полученные из задания AutoML, для определения полного конвейера обучения. Вам понадобятся следующие ресурсы:

Алгоритм, который лучше всего работал для варианта использования – Вы уже получили эту информацию из сводки модели, сгенерированной Canvas. В данном случае это встроенный алгоритм XGBoost. Инструкции по использованию SageMaker Python SDK для обучения алгоритма XGBoost с помощью SageMaker см. Используйте XGBoost с SageMaker Python SDK.

Гиперпараметры, полученные заданием AutoML – Они доступны в Объяснимость раздел. Вы можете использовать их в качестве входных данных при определении задания обучения с помощью SageMaker Python SDK.

Код разработки функций, представленный в разделе «Артефакты». – Этот код можно использовать как для предварительной обработки данных перед обучением (например, с помощью Amazon SageMaker Processing), так и перед выводом (например, как часть конвейера вывода SageMaker).

Вы можете комбинировать эти ресурсы как часть конвейера SageMaker. Мы опускаем детали реализации в этом посте — следите за новостями по этой теме.

Заключение

SageMaker Canvas позволяет использовать машинное обучение для создания прогнозов без необходимости написания кода. Бизнес-аналитик может автономно начать использовать его с локальными наборами данных, а также данными, уже хранящимися на Простой сервис хранения Amazon (Амазон С3), Амазонка Redshiftили Снежинка. Всего несколькими щелчками мыши они могут подготовить и объединить свои наборы данных, проанализировать предполагаемую точность, проверить, какие столбцы являются эффективными, обучить наиболее эффективную модель и создать новые индивидуальные или пакетные прогнозы, и все это без необходимости привлечения эксперта по данным. Затем, по мере необходимости, они могут поделиться моделью с командой специалистов по данным или инженеров MLOps, которые импортируют модели в SageMaker Studio и работают вместе с аналитиком над созданием производственного решения.

Бизнес-аналитики могут самостоятельно получать ценную информацию из своих данных, не имея степени в области машинного обучения и не написав ни единой строки кода. У специалистов по данным теперь есть дополнительное время для работы над более сложными проектами, которые могут лучше использовать их обширные знания в области искусственного интеллекта и машинного обучения.

Мы считаем, что это новое сотрудничество открывает двери для создания множества более мощных решений машинного обучения для вашего бизнеса. Теперь у вас есть аналитики, которые производят ценные бизнес-идеи, а специалисты по данным и инженеры по машинному обучению помогают уточнять, настраивать и расширять по мере необходимости.

Дополнительные ресурсы

Чтобы узнать больше о том, как SageMaker может помочь бизнес-аналитикам, см. Amazon SageMaker для бизнес-аналитиков.
Чтобы узнать больше о том, как SageMaker позволяет специалистам по обработке и анализу данных разрабатывать, обучать и развертывать свои модели машинного обучения, см. Amazon SageMaker для специалистов по данным.
Дополнительные сведения о том, как SageMaker может помочь инженерам MLOps в оптимизации жизненного цикла машинного обучения с помощью MLOps, см. Amazon SageMaker для инженеров MLOps.

Об авторах

Давиде Галлителли является специалистом по разработке решений для AI/ML в регионе EMEA. Он базируется в Брюсселе и тесно сотрудничает с клиентами из стран Бенилюкса. Он был разработчиком с самого раннего возраста, начав программировать в возрасте 7 лет. Он начал изучать AI/ML в университете и с тех пор влюбился в него.

Марк Рой является главным архитектором машинного обучения для AWS, помогая клиентам разрабатывать и создавать решения AI / ML. Работа Марка охватывает широкий спектр сценариев использования машинного обучения, в первую очередь интересующихся компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. Он помог компаниям во многих отраслях, включая страхование, финансовые услуги, средства массовой информации и развлечения, здравоохранение, коммунальные услуги и производство. Марк имеет шесть сертификатов AWS, включая сертификат ML Specialty Certification. До прихода в AWS Марк более 25 лет был архитектором, разработчиком и лидером в области технологий, в том числе 19 лет в сфере финансовых услуг.

Отметка времени: 10 марта 2022

Отметка времени: Июль 20, 2022

Переиздано Платоном

Технический документ: передовой опыт машинного обучения в здравоохранении и медико-биологических науках

Сократите затраты и время разработки с помощью локального режима Amazon SageMaker Pipelines

MLOps для пакетного вывода с мониторингом и переобучением моделей с использованием Amazon SageMaker, HashiCorp Terraform и GitLab CI/CD | Веб-сервисы Amazon

Модерация, классификация и обработка документов с помощью Amazon Rekognition и Amazon Textract

Создавайте контекстный таргетинг на основе таксономии с помощью AWS Media Intelligence и Hugging Face BERT.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись