Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart.

Amazon SageMaker JumpStart предоставляет предварительно обученные модели с открытым исходным кодом для широкого спектра типов проблем, которые помогут вам начать работу с машинным обучением (ML). JumpStart также предоставляет шаблоны решений, которые настраивают инфраструктуру для распространенных случаев использования, а также исполняемые примеры блокнотов для машинного обучения с Создатель мудреца Амазонки.

Как бизнес-пользователь, вы можете делать следующее с помощью решений JumpStart:

  • Изучите решения и оцените, какие из них лучше всего соответствуют потребностям вашего бизнеса.
  • Запускайте решения одним щелчком мыши Студия Amazon SageMaker. Это запускает AWS CloudFormation шаблон для создания необходимых ресурсов.
  • Измените решение в соответствии со своими потребностями, получив доступ к базовым ресурсам блокнота и модели.
  • Удалите приобретенные ресурсы после завершения.

В этом посте основное внимание уделяется пяти решениям машинного обучения, которые были недавно добавлены для решения пяти различных бизнес-задач. На момент написания этой статьи JumpStart предлагает 23 бизнес-решения, начиная от обнаружения мошенничества в финансовых транзакциях и заканчивая распознаванием почерка. Количество решений, предлагаемых через JumpStart, регулярно увеличивается по мере добавления новых решений.

Обзор решения

Пять новых решений заключаются в следующем:

  • Оптимизация цен – Предлагает настраиваемые модели машинного обучения, которые помогут вам принять оптимальные решения по установлению цены на ваш продукт или услугу для достижения ваших бизнес-целей, таких как максимизация дохода, прибыли или других пользовательских показателей.
  • Прогноз видов птиц – Показывает, как можно обучить и точно настроить модель обнаружения объектов. Он демонстрирует настройку модели посредством дополнения обучающего изображения и отображает улучшения точности, которые происходят на протяжении итераций (эпох) задания обучения.
  • Прогноз выживаемости при раке легких – Показывает, как можно передать 2D- и 3D-радиомические характеристики и демографические данные пациента в алгоритм машинного обучения, чтобы спрогнозировать шансы пациента на выживание при раке легких. Результаты этого прогноза могут помочь поставщикам услуг принять соответствующие упреждающие меры.
  • Классификация финансовых платежей – Демонстрирует, как обучить и развернуть модель машинного обучения для классификации финансовых транзакций на основе информации о транзакциях. Вы также можете использовать это решение в качестве промежуточного этапа в обнаружении мошенничества, персонализации или обнаружении аномалий.
  • Прогноз оттока клиентов мобильных телефонов – Демонстрирует, как быстро разработать модель прогнозирования оттока клиентов с использованием набора данных о транзакциях мобильных вызовов. Это простой пример для пользователей, которые плохо знакомы с ML.

Предпосылки

Чтобы использовать эти решения, убедитесь, что у вас есть доступ к Studio с ролью выполнения, позволяющей запускать функции SageMaker. Для вашей роли пользователя в Studio убедитесь, что Проекты SageMaker и JumpStart опция включена.

В следующих разделах мы рассмотрим каждое из пяти новых решений и подробно обсудим, как оно работает, а также дадим некоторые рекомендации о том, как вы можете использовать его для нужд своего бизнеса.

Оптимизация цен

Компании любят использовать различные рычаги для достижения наилучших результатов. Например, цена продукта или услуги — это рычаг, которым может управлять бизнес. Вопрос в том, как решить, какую цену установить на продукт или услугу, чтобы максимизировать бизнес-цели, такие как прибыль или доход.

Это решение предоставляет настраиваемые модели машинного обучения, которые помогут вам принимать оптимальные решения по установлению цены на ваш продукт или услугу для достижения вашей цели, например максимизации дохода, прибыли или других пользовательских показателей. Решение использует подходы машинного обучения и причинно-следственной связи для изучения отношений цены и объема на основе исторических данных, а также способно давать динамические рекомендации по ценам в режиме реального времени для оптимизации пользовательских целевых показателей.

На следующем снимке экрана показан пример входных данных.

Решение включает в себя три части:

  • Оценка ценовой эластичности – Это оценивается путем причинно-следственной связи с помощью алгоритма двойного машинного обучения.
  • Прогноз объема – Это прогнозируется с использованием алгоритма Пророка.
  • Оптимизация цен – Это достигается за счет моделирования «что, если» с использованием различных ценовых сценариев.

Решение предоставляет рекомендуемую цену на следующий день для максимизации дохода. Кроме того, выходные данные включают расчетную ценовую эластичность, которая представляет собой значение, указывающее влияние цены на объем, и прогнозную модель, которая позволяет прогнозировать объем на следующий день. На следующей диаграмме показано, как причинно-следственная модель, включающая рассчитанную ценовую эластичность, работает намного лучше при анализе «что, если» (с большими отклонениями от цены поведения), чем прогнозирующая модель, которая использует Prophet для прогнозирования объема с использованием данных временных рядов.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы можете применить это решение к своему бизнесу в следующих случаях:

  • Определить оптимальную цену товара для розничного магазина
  • Оцените влияние купонов на скидку на покупки клиентов.
  • Прогнозируйте эффект различных методов стимулирования в любом бизнесе

Прогнозирование видов птиц

Сегодня существует несколько приложений компьютерного зрения (CV) для бизнеса. Одним из таких приложений является обнаружение объектов, где алгоритм машинного обучения определяет местоположение объекта на изображении, рисуя вокруг него ограничивающую рамку, и определяет тип этого объекта. Изучение того, как применять модель обнаружения объектов и ее тонкую настройку, может иметь большую ценность для организации, которой необходимы CV.

Это решение представляет собой пример преобразования спецификаций ограничительной рамки при передаче изображений в алгоритм SageMaker. Это решение также демонстрирует, как улучшить модель обнаружения объектов, добавив обучающие изображения, перевернутые по горизонтали (зеркальные изображения).

Для экспериментов с задачами по обнаружению объектов предусмотрен блокнот при наличии большого количества классов (200 видов птиц). В блокноте также показано, как составить диаграмму повышения точности, происходящего в разные периоды обучения. На следующем изображении показаны примеры изображений из набора данных о птицах.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Это решение состоит из пяти шагов:

  1. Подготовьте данные, включая загрузку и RecordIO генерация файла.
  2. Создайте и обучите модель обнаружения объектов.
  3. Разверните конечную точку и оцените производительность модели.
  4. Снова создайте и обучите модель обнаружения объектов с помощью расширенного набора данных.
  5. Разверните конечную точку и оцените производительность расширенной модели.

В качестве вывода вы получите следующее:

  • Результаты обнаружения объектов с помощью приклеивания рамок к вашему тестовому изображению
  • Обученная модель обнаружения объектов
  • Обученная модель обнаружения объектов с дополнительным расширенным (перевернутым) набором данных.
  • Две отдельные конечные точки развернуты по одной для каждой модели.

На следующей диаграмме показано улучшение модели по сравнению с итерациями модели (эпохами) во время обучения.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Следующие примеры получены из двух тестовых изображений.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы можете применить это решение к своему бизнесу в следующих случаях:

  • Обнаружение объектов на конвейерной ленте в упаковочной промышленности
  • Обнаружение начинки в пицце
  • Внедрение операционных приложений цепочки поставок, включающих обнаружение объектов.

Прогноз выживаемости при раке легких

COVID-19 привлек гораздо больше внимания к медицинским проблемам, связанным с легкими. Это также оказало большое давление на больницы, врачей, медсестер и рентгенологов. Представьте себе возможность применения МО в качестве мощного инструмента для помощи практикующим врачам и ускорения их работы. В этом решении мы показываем, как 2D- и 3D-радиомические характеристики и демографические данные пациентов могут быть переданы в алгоритм машинного обучения для прогнозирования шансов на выживание пациента при раке легких. Результаты этого прогноза могут помочь поставщикам услуг принять соответствующие упреждающие меры.

Это решение демонстрирует, как создать масштабируемый конвейер машинного обучения для набора данных радиогеномики немелкоклеточного рака легких (НМРЛ), который состоит из данных секвенирования РНК, клинических данных (отражающих данные EHR) и медицинских изображений. Использование нескольких типов данных для создания модели машины называется мультимодальный МЛ. Это решение предсказывает выживаемость пациентов с диагнозом немелкоклеточный рак легких.

На следующем изображении показан пример входных данных из набора данных радиогеномики немелкоклеточного рака легких (НМРЛ).

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

В составе раствора из опухолевой ткани была выделена тотальная РНК и проанализирована с помощью технологии секвенирования РНК. Хотя исходные данные содержат более 22,000 21 генов, мы сохраняем 10 ген из XNUMX кластеров генов с высокой коэкспрессией (метагенов), которые были идентифицированы, проверены в общедоступных когортах генной экспрессии и коррелируют с прогнозом.

Клинические записи хранятся в формате CSV. Каждая строка соответствует пациенту, а столбцы содержат информацию о пациентах, включая демографические данные, стадию опухоли и статус выживаемости.

В качестве геномных данных мы храним 21 ген из 10 кластеров генов (метагенов) с высокой коэкспрессией, которые были идентифицированы, проверены в общедоступных когортах генной экспрессии и коррелируют с прогнозом.

Для данных медицинской визуализации мы создаем 3D-радиомические характеристики на уровне пациента, которые объясняют размер, форму и визуальные характеристики опухолей, наблюдаемых при компьютерной томографии. Для каждого исследования пациента выполняются следующие этапы:

  1. Считайте файлы срезов 2D DICOM как для компьютерной томографии, так и для сегментации опухоли, объедините их в 3D-объемы и сохраните объемы в формате NIfTI.
  2. Выровняйте объем КТ и сегментацию опухоли, чтобы мы могли сосредоточить вычисления внутри опухоли.
  3. Вычислите радиомические характеристики, описывающие область опухоли, используя библиотеку пирадиомики.
  4. Извлеките 120 радиомических характеристик восьми классов, таких как статистические представления распределения и одновременного возникновения интенсивности в интересующей опухолевой области, а также измерения на основе формы, описывающие опухоль морфологически.

Чтобы создать мультимодальное представление пациента для обучения модели, мы объединяем векторы признаков из трех модальностей. Затем мы обрабатываем данные. Сначала мы нормализуем диапазон независимых функций, используя масштабирование функций. Затем мы выполняем анализ главных компонентов (PCA) для признаков, чтобы уменьшить размерность и определить наиболее отличительные признаки, которые вносят 95%-ную дисперсию в данные.

Это приводит к уменьшению размерности с 215 функций до 45 основных компонентов, которые составляют функции для контролируемого учащегося.

Решение создает модель машинного обучения, которая прогнозирует статус выживания пациентов с НМРЛ (живой или мертвый) в форме вероятности. Помимо модели и прогнозов, мы также создаем отчеты для объяснения модели. Конвейер медицинской визуализации создает трехмерные КТ-объемы легких и сегментацию опухолей для целей визуализации.

Вы можете применить это решение к случаям использования в сфере здравоохранения и биологических наук.

Классификация финансовых платежей

Анализ всех финансовых транзакций предприятия или потребителя и их организация по различным категориям может оказаться весьма полезным. Это может помочь пользователю узнать, сколько он потратил в какой категории, а также может выдавать оповещения, когда транзакции или расходы в определенной категории неожиданно увеличиваются или уменьшаются.

Это решение демонстрирует, как обучить и развернуть модель машинного обучения для классификации финансовых транзакций на основе информации о транзакциях. Многие банки предоставляют это как услугу, позволяющую конечным пользователям получить представление об их привычках расходования средств. Вы также можете использовать это решение в качестве промежуточного этапа в обнаружении мошенничества, персонализации или обнаружении аномалий. Мы используем SageMaker для обучения и развертывания модели XGBoost с необходимой базовой инфраструктурой.

Синтетический набор данных, который мы демонстрируем для этого решения, имеет следующие особенности:

  • транзакция_категория – Категория транзакции из следующих 19 вариантов: Uncategorized, Entertainment, Education, Shopping, Personal Care, Health and Fitness, Food and Dining, Gifts and Donations, Investments, Bills and Utilities, Auto and Transport, Travel, Fees and Charges, Business Services, Personal Services, Taxes, Gambling, Homeи Pension and insurances.
  • receiver_id – Идентификатор принимающей стороны. Идентификатор состоит из 16 цифр.
  • Удостоверение личности отправителя – Идентификатор отправляющей стороны. Идентификатор состоит из 16 цифр.
  • количество – Сумма перевода.
  • отметка времени – Временная метка транзакции в формате ГГГГ-ММ-ДД ЧЧ:ММ:СС.

Первые пять наблюдений набора данных следующие:

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Для этого решения мы используем XGBoost, популярную и эффективную реализацию с открытым исходным кодом алгоритма деревьев с градиентным усилением. Повышение градиента — это контролируемый алгоритм обучения, который пытается точно предсказать целевую переменную, комбинируя ансамбль оценок из набора более простых и слабых моделей. Его реализация доступна во встроенных алгоритмах SageMaker.

Решение по классификации финансовых платежей состоит из четырех этапов:

  1. Подготовьте данные.
  2. Создайте хранилище функций.
  3. Создайте и обучите модель XGBoost.
  4. Разверните конечную точку и оцените производительность модели.

Получаем такой вывод:

  • Обученная модель XGBoost на основе нашего примера набора данных.
  • Конечная точка SageMaker, которая может прогнозировать категорию транзакции.

После запуска этого решения вы должны увидеть отчет о классификации, аналогичный следующему.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Возможные применения для вашего бизнеса включают следующее:

  • Различные финансовые приложения в розничной торговле и инвестиционном банкинге
  • Когда транзакции необходимо классифицировать по любому варианту использования (не только финансовому)

Прогноз оттока клиентов мобильных телефонов

Прогнозирование оттока клиентов — очень распространенная бизнес-потребность. Многочисленные исследования показывают, что затраты на удержание существующего клиента намного меньше, чем на приобретение нового. Проблема часто возникает из-за того, что компаниям сложно понять, почему клиенты уходят, или построить модель, прогнозирующую отток клиентов.

В этом примере пользователи, плохо знакомые с машинным обучением, могут узнать, как можно быстро разработать модель прогнозирования оттока клиентов с использованием набора данных транзакций мобильных вызовов. В этом решении используется SageMaker для обучения и развертывания модели XGBoost на наборе данных профилей клиентов, чтобы предсказать, вероятно ли, что клиент покинет оператора мобильной связи.

Набор данных, который использует это решение, общедоступен и упоминается в книге Дэниела Т. Лароуза «Обнаружение знаний в данных». Автор приписывает его репозиторию наборов данных машинного обучения Калифорнийского университета в Ирвайне.

В этом наборе данных используется следующий 21 атрибут для описания профиля клиента неизвестного оператора мобильной связи в США.

  • Штат: штат США, в котором проживает клиент, обозначается двухбуквенной аббревиатурой; например, Огайо или Нью-Джерси
  • Длина учетной записи: количество дней, в течение которых эта учетная запись была активна.
  • Код города: трехзначный код города соответствующего номера телефона клиента.
  • Телефон: оставшийся семизначный номер телефона.
  • Международный план: есть ли у клиента международный тарифный план: да/нет
  • План VMail: есть ли у клиента функция голосовой почты: да/нет
  • Сообщение VMail: среднее количество сообщений голосовой почты в месяц.
  • Day Mins: общее количество минут разговоров, использованных в течение дня.
  • Дневные звонки: общее количество звонков, совершенных в течение дня.
  • Day Charge: выставленная стоимость дневных звонков.
  • Eve Mins, Eve Calls, Eve Charge: стоимость звонков, совершенных в вечернее время.
  • Ночные минуты, ночные вызовы, ночная плата: стоимость звонков, совершенных в ночное время.
  • Международные минуты, Международные звонки, Международные расходы: выставленная стоимость международных звонков.
  • CustServ Calls: количество звонков в службу поддержки клиентов.
  • Отток?: покинул ли клиент услугу: верно/неверно

Это решение содержит три этапа:

  1. Подготовьте данные.
  2. Создайте и обучите модель XGBoost.
  3. Разверните конечную точку и оцените производительность модели.

Получаем такой вывод:

  • Обученная модель XGBoost на основе нашего примера набора данных для прогнозирования оттока пользователей.
  • Конечная точка SageMaker, которая может прогнозировать отток пользователей

Эта модель помогает оценить, сколько из 5,000 клиентов мобильных телефонов, скорее всего, перестанут пользоваться услугами своего текущего оператора мобильной связи.

На следующей диаграмме показано распределение вероятности оттока клиентов как результат модели.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы можете применить это к своему бизнесу в следующих случаях:

  • Прогнозируйте отток клиентов в вашем бизнесе
  • Определите, какие клиенты могут открывать вашу маркетинговую электронную почту, а какие нет (двоичная классификация).
  • Прогнозируйте, какие студенты, скорее всего, бросят курс

Очистить ресурсы

Завершив запуск решения в JumpStart, обязательно выберите Удалить все ресурсы поэтому все ресурсы, которые вы создали в процессе, удаляются, и ваши платежи прекращаются.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Обзор

В этом посте показано, как решать различные бизнес-задачи с помощью машинного обучения на основе решений JumpStart. Хотя этот пост посвящен пяти новым решениям, которые недавно были добавлены в JumpStart, всего доступно 23 решения. Мы рекомендуем вам войти в Studio, самостоятельно ознакомиться с решениями JumpStart и начать немедленно извлекать из них пользу. Для получения дополнительной информации см. Студия Amazon SageMaker и SageMaker JumpStart.

Примечание. Если вы не видите все вышеперечисленные пять решений в консоли JumpStart вашего региона AWS, подождите неделю и проверьте еще раз. Мы поэтапно выпускаем их в различные регионы.


Об авторах

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Доктор Раджу Пенматча — специалист по архитектуре решений искусственного интеллекта и машинного обучения в сфере платформ искусственного интеллекта в AWS. Он работает над набором сервисов SageMaker с минимальным кодированием и без него, которые помогают клиентам легко создавать и развертывать модели и решения машинного обучения. Когда он не помогает клиентам, ему нравится путешествовать по новым местам.

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Манан Шах — менеджер по разработке программного обеспечения в Amazon Web Services. Он является энтузиастом машинного обучения и занимается созданием продуктов искусственного интеллекта и машинного обучения без кода или с низким уровнем кода. Он стремится дать возможность другим талантливым техническим людям создавать отличное программное обеспечение.

Отметка времени:

Больше от Машинное обучение AWS

Используйте машинное обучение без программирования, чтобы получать ценную информацию из обзоров продуктов с помощью моделей анализа настроений Amazon SageMaker Canvas и анализа текста | Веб-сервисы Amazon

Исходный узел: 1899999
Отметка времени: 9 октября, 2023