Прогнозирование оттока клиентов с помощью машинного обучения без кода с помощью Amazon SageMaker Canvas

Переиздано Платоном

Читают: 0

Понимание поведения клиентов сегодня является приоритетом для любого бизнеса. Получение информации о том, почему и как клиенты покупают, может помочь увеличить доход. Но потеря клиентов (также называемая оттоком клиентов) — это всегда риск, и понимание того, почему клиенты уходят, может быть столь же важным для поддержания доходов и прибыли. Машинное обучение (ML) может помочь в получении информации, но до сих пор вам требовались эксперты по ML для создания моделей для прогнозирования оттока, отсутствие которых могло задержать действия компаний, основанные на информации, для удержания клиентов.

В этом посте мы покажем вам, как бизнес-аналитики могут построить модель машинного обучения оттока клиентов с помощью Холст Amazon SageMaker, код не требуется. Canvas предоставляет бизнес-аналитикам визуальный интерфейс «укажи и щелкни», который позволяет создавать модели и генерировать точные прогнозы машинного обучения самостоятельно, не требуя опыта машинного обучения или написания единой строки кода.

Обзор решения

Для этой должности мы берем на себя роль маркетингового аналитика в отделе маркетинга оператора мобильной связи. Перед нами стояла задача выявить клиентов, потенциально подверженных риску оттока. У нас есть доступ к данным об использовании сервиса и другим данным о поведении клиентов, и мы хотим знать, могут ли эти данные помочь объяснить, почему клиент уйдет. Если мы сможем определить факторы, объясняющие отток, мы сможем предпринять корректирующие действия, чтобы изменить прогнозируемое поведение, например, запустить целевые кампании по удержанию.

Для этого мы используем имеющиеся у нас данные в файле CSV, который содержит информацию об использовании и оттоке клиентов. Мы используем Canvas для выполнения следующих шагов:

Импортируйте набор данных об оттоке из Простой сервис хранения Amazon (Amazon S3).
Обучите и постройте модель оттока.
Проанализируйте результаты модели.
Протестируйте прогнозы по модели.

Для нашего набора данных мы используем синтетический набор данных от оператора мобильной связи. Этот образец набора данных содержит 5,000 записей, каждая из которых использует 21 атрибут для описания профиля клиента. Атрибуты следующие:

Область – Штат США, в котором проживает клиент, обозначается двухбуквенной аббревиатурой; например, Огайо или Нью-Джерси
Длина аккаунта – Количество дней, в течение которых эта учетная запись была активной.
Код зоны – Трехзначный код города номера телефона клиента
Телефон – Оставшийся семизначный номер телефона
Международный план – Есть ли у клиента тарифный план международных звонков (да/нет)
План VMail – Есть ли у клиента функция голосовой почты (да/нет)
Сообщение VMail – Среднее количество сообщений голосовой почты в месяц
Дневные минуты – Общее количество минут разговоров, использованных в течение дня
Дневные звонки – Общее количество звонков, совершенных в течение дня
Дневной заряд – Выставленная стоимость звонков в дневное время
Ева Минс, Ева звонит, Ева Чардж – Выставленная стоимость вечерних звонков
Ночные минуты, Ночные звонки, Ночной заряд – Стоимость звонков в ночное время
Международные минуты, Международные звонки, Международный заряд – Стоимость выставленных счетов за международные звонки
CustServ звонки - Количество обращений в службу поддержки клиентов.
Отток? – Покинул ли клиент услугу (верно/неверно)

Последний атрибут, Churn?, — это атрибут, который мы хотим, чтобы модель ML предсказывала. Атрибут target является бинарным, что означает, что наша модель предсказывает выходные данные как одну из двух категорий (True or False).

Предпосылки

Облачный администратор с Аккаунт AWS с соответствующими разрешениями требуется для выполнения следующих предварительных условий:

Развернуть Создатель мудреца Амазонки Для получения инструкций см. Подключение к домену Amazon SageMaker.
Разверните холст. Инструкции см. Настройка и управление Amazon SageMaker Canvas (для ИТ-администраторов).
Настройте политики общего доступа к ресурсам из разных источников (CORS) для Canvas. Инструкции см. Предоставьте своим пользователям возможность загружать локальные файлы.

Создайте модель оттока клиентов

Во-первых, давайте загрузим набор данных оттока и просмотрите файл, чтобы убедиться, что все данные есть. Затем выполните следующие шаги:

Войдите в Консоль управления AWS, используя учетную запись с соответствующими разрешениями для доступа к Canvas.
Войдите в консоль Canvas.

Здесь мы можем управлять нашими наборами данных и создавать модели.

Выберите Импортировать.

Выбор кнопки импорта холста

Выберите Загрузите И выберите churn.csv .
Выберите Даты импорта чтобы загрузить его на Canvas.

Холст выбирает данные из s3

Процесс импорта занимает примерно 10 секунд (это может варьироваться в зависимости от размера набора данных). Когда это будет завершено, мы увидим, что набор данных находится в Ready Статус.

Готовый набор данных Canvas

Чтобы просмотреть первые 100 строк набора данных, наведите указатель мыши на значок глаза.

Набор данных просмотра холста

Появится предварительный просмотр набора данных. Здесь мы можем убедиться, что наши данные верны.

Холст Проверка данных

После того, как мы подтвердим, что импортированный набор данных готов, мы создадим нашу модель.

Выберите Новая модель.

Холст Новые модели

Выберите набор данных churn.csv и выберите Выбрать набор данных.

Холст Выберите набор данных

Теперь настроим процесс сборки модели.

Что касается Целевые столбцы, выбрать Churn? колонка.

Что касается Тип модели, Canvas автоматически рекомендует тип модели, в этом случае прогноз 2 категории (то, что специалист по данным назвал бы бинарной классификацией). Это подходит для нашего варианта использования, потому что у нас есть только два возможных значения прогноза: True or False, поэтому мы придерживаемся рекомендации Canvas.

Модель сборки холста

Теперь проверим некоторые предположения. Мы хотим быстро увидеть, можно ли предсказать наш целевой столбец по другим столбцам. Мы можем быстро просмотреть расчетную точность модели и влияние столбца (оценочную важность каждого столбца при прогнозировании целевого столбца)..

Выберите все 21 столбец и выберите Предварительная версия модели.

Эта функция использует подмножество нашего набора данных и только один проход при моделировании. В нашем случае создание модели для предварительного просмотра занимает около 2 минут.

Модель предварительного просмотра холста

Как показано на следующем снимке экрана, Phone и State столбцы имеют гораздо меньшее влияние на наш прогноз. Мы хотим быть осторожными при удалении ввода текста, потому что он может содержать важные дискретные категориальные признаки, способствующие нашему прогнозу. Здесь номер телефона является просто эквивалентом номера учетной записи и не имеет значения для прогнозирования вероятности оттока других учетных записей, а состояние клиента не сильно влияет на нашу модель.

Мы удаляем эти столбцы, потому что они не имеют большого значения.
После того, как мы удалим Phone и State столбцы, давайте снова запустим предварительный просмотр.

Как показано на следующем снимке экрана, точность модели увеличилась на 0.1%. Наша предварительная модель имеет оценочную точность 95.9%, а столбцы с наибольшим влиянием: Night Calls, Eve Minsкачества Night Charge. Это дает нам представление о том, какие столбцы больше всего влияют на производительность нашей модели. Здесь нам нужно быть осторожными при выборе функций, потому что, если одна функция чрезвычайно влияет на результат модели, это основной показатель целевая утечка, и эта функция будет недоступна во время прогнозирования. В этом случае несколько столбцов показали очень похожее влияние, поэтому мы продолжаем строить нашу модель.

Разработка элементов холста после

Canvas предлагает два варианта сборки:

Стандартная сборка – Создает наилучшую модель на основе оптимизированного процесса, основанного на AutoML; скорость обменивается на максимальную точность
Быстрая сборка – строит модель за долю времени по сравнению со стандартной сборкой; потенциальная точность обменивается на скорость.

Для этого поста мы выбрали Стандартная сборка вариант, потому что мы хотим иметь самую лучшую модель и готовы потратить дополнительное время на ожидание результата.

Холст Стандартная сборка

Процесс сборки может занять 2-4 часа. За это время Canvas тестирует сотни конвейеров-кандидатов, выбирая лучшую модель для представления нам. На следующем снимке экрана мы видим ожидаемое время сборки и прогресс.

Холст Анализ модели

Оцените производительность модели

Когда процесс построения модели завершен, модель предсказала отток в 97.9% случаев. Это кажется прекрасным, но как аналитики мы хотим погрузиться глубже и посмотреть, можем ли мы доверять модели при принятии решений на ее основе. На Счет Вкладка, мы можем просмотреть визуальный график наших прогнозов, сопоставленных с их результатами. Это позволяет нам глубже понять нашу модель.

Canvas разделяет набор данных на обучающий и тестовый наборы. Набор обучающих данных — это данные, которые Canvas использует для построения модели. Тестовый набор используется, чтобы увидеть, хорошо ли работает модель с новыми данными. Диаграмма Санки на следующем снимке экрана показывает, как модель работала на тестовом наборе. Чтобы узнать больше, см. Оценка производительности вашей модели в Amazon SageMaker Canvas.

Чтобы получить более подробную информацию помимо того, что показано на диаграмме Санки, бизнес-аналитики могут использовать матрица путаницы анализа своих бизнес-решений. Например, мы хотим лучше понять вероятность того, что модель будет делать ложные прогнозы. Мы можем видеть это на диаграмме Санки, но нам нужно больше информации, поэтому мы выбираем Расширенные метрики. Нам представлена матрица путаницы, которая отображает производительность модели в визуальном формате со следующими значениями, характерными для положительного класса — мы измеряем, основываясь на том, действительно ли они будут уходить, поэтому наш положительный класс True в этом примере:

Истинный положительный результат (TP) - Количество True результаты, которые были правильно предсказаны как True
Истинный отрицательный результат (TN) - Количество False результаты, которые были правильно предсказаны как False
Ложноположительный результат (FP) - Количество False результаты, которые были ошибочно предсказаны как True
Ложноотрицательный (ЛН) - Количество True результаты, которые были ошибочно предсказаны как False

Мы можем использовать эту матричную диаграмму, чтобы определить не только то, насколько точна наша модель, но и когда она ошибочна, как часто это может быть и насколько она неверна.

Холст F1 Матрица

Расширенные показатели выглядят хорошо. Мы можем доверять результату модели. Мы видим очень мало ложноположительных и ложноотрицательных результатов. Это происходит, если модель думает, что клиент в наборе данных уйдет, а на самом деле этого не происходит (ложноположительный результат), или если модель думает, что клиент уйдет, а он действительно уйдет (ложноотрицательный). Высокие значения для любого из них могут заставить нас задуматься о том, можем ли мы использовать модель для принятия решений.

Вернемся к Обзор вкладку, чтобы просмотреть влияние каждого столбца. Эта информация может помочь команде маркетинга получить информацию, которая приведет к принятию мер по снижению оттока клиентов. Например, мы можем видеть, что и низкие, и высокие CustServ Calls увеличить вероятность оттока. Маркетинговая команда может принять меры для предотвращения оттока клиентов на основе этих знаний. Примеры включают создание подробных часто задаваемых вопросов на веб-сайтах, чтобы уменьшить количество обращений в службу поддержки клиентов, и проведение образовательных кампаний с клиентами по часто задаваемым вопросам, которые могут поддерживать интерес.

Наша модель выглядит довольно точной. Мы можем напрямую выполнить интерактивный прогноз на прогнозировать tab, либо в пакетном, либо в одиночном (в реальном времени) прогнозе. В этом примере мы внесли несколько изменений в определенные значения столбца и выполнили прогноз в реальном времени. Canvas показывает нам результат прогноза вместе с уровнем достоверности.

Вывод предсказания холста

Допустим, у нас есть существующий клиент со следующим использованием: Night Mins это 40 и Eve Mins равно 40. Мы можем выполнить прогноз, и наша модель возвращает показатель достоверности 93.2%, что этот клиент уйдет (True). Теперь мы можем предоставить рекламные скидки, чтобы удержать этого клиента.

Допустим, у нас есть существующий клиент, который использует следующее: Night Mins это 40 и Eve Mins равно 40. Мы можем выполнить прогноз, и наша модель возвращает показатель достоверности 93.2%, что этот клиент уйдет (True). Теперь мы можем предоставить рекламные скидки, чтобы удержать этого клиента.

Выполнение одного прогноза отлично подходит для индивидуального анализа «что, если», но нам также необходимо запускать прогнозы для многих записей одновременно. Холст способен запускать пакетные прогнозы, что позволяет запускать прогнозы в масштабе.

Заключение

В этом посте мы показали, как бизнес-аналитик может создать модель оттока клиентов с помощью SageMaker Canvas, используя образцы данных. Canvas позволяет вашим бизнес-аналитикам создавать точные модели машинного обучения и генерировать прогнозы с помощью визуального интерфейса без кода и щелчка. Маркетинговый аналитик теперь может использовать эту информацию для запуска целенаправленных кампаний по удержанию и более быстрого тестирования новых стратегий кампаний, что приводит к сокращению оттока клиентов.

Аналитики могут вывести это на новый уровень, поделившись своими моделями с коллегами по обработке данных. Специалисты по данным могут просматривать модель Canvas в Студия Amazon SageMaker, где они могут изучить выбор, сделанный Canvas AutoML, проверить результаты модели и даже запустить модель в производство несколькими щелчками мыши. Это может ускорить создание ценности на основе машинного обучения и помочь быстрее масштабировать улучшенные результаты.

Чтобы узнать больше об использовании Canvas, см. Создавайте, делитесь, развертывайте: как бизнес-аналитики и специалисты по обработке и анализу данных сокращают время выхода на рынок с помощью машинного обучения без кода и Amazon SageMaker Canvas. Дополнительные сведения о создании моделей машинного обучения с помощью решения без кода см. Представляем Amazon SageMaker Canvas — визуальную возможность машинного обучения без кода для бизнес-аналитиков.

Об авторе

Генри Робалино является архитектором решений в AWS, базирующейся в Нью-Джерси. Он увлечен облачными технологиями и машинным обучением, а также той ролью, которую они могут играть в обществе. Он достигает этого, работая с клиентами, помогая им достичь своих бизнес-целей с помощью облака AWS. Вне работы вы можете найти Генри, путешествующего или исследующего природу со своей меховой дочерью Арли.

Прогнозируйте отток клиентов с помощью машинного обучения без программирования с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Чаоран Ван является архитектором решений в AWS, базирующейся в Далласе, штат Техас. Он работает в AWS с тех пор, как в 2016 году окончил Техасский университет в Далласе со степенью магистра компьютерных наук. Chaoran помогает клиентам создавать масштабируемые, безопасные и экономичные приложения и находить решения для решения своих бизнес-задач в облаке AWS. Вне работы Чаоран любит проводить время со своей семьей и двумя собаками, Биубиу и Коко.

Отметка времени: 5 мая 2022

Отметка времени: 13 Апрель, 2023

Переиздано Платоном

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon

Преобразование качественных исследований путем автоматизации речи в анализ преобразования текста в текст

Как Sophos обучает мощный и легкий детектор вредоносных программ PDF в сверхмасштабе с помощью Amazon SageMaker

Автоматизируйте классификацию запросов на ИТ-услуги с помощью пользовательского классификатора Amazon Comprehend.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись