Понимание поведения клиентов сегодня является приоритетом для любого бизнеса. Получение информации о том, почему и как клиенты покупают, может помочь увеличить доход. Но потеря клиентов (также называемая оттоком клиентов) — это всегда риск, и понимание того, почему клиенты уходят, может быть столь же важным для поддержания доходов и прибыли. Машинное обучение (ML) может помочь в получении информации, но до сих пор вам требовались эксперты по ML для создания моделей для прогнозирования оттока, отсутствие которых могло задержать действия компаний, основанные на информации, для удержания клиентов.
В этом посте мы покажем вам, как бизнес-аналитики могут построить модель машинного обучения оттока клиентов с помощью Холст Amazon SageMaker, код не требуется. Canvas предоставляет бизнес-аналитикам визуальный интерфейс «укажи и щелкни», который позволяет создавать модели и генерировать точные прогнозы машинного обучения самостоятельно, не требуя опыта машинного обучения или написания единой строки кода.
Обзор решения
Для этой должности мы берем на себя роль маркетингового аналитика в отделе маркетинга оператора мобильной связи. Перед нами стояла задача выявить клиентов, потенциально подверженных риску оттока. У нас есть доступ к данным об использовании сервиса и другим данным о поведении клиентов, и мы хотим знать, могут ли эти данные помочь объяснить, почему клиент уйдет. Если мы сможем определить факторы, объясняющие отток, мы сможем предпринять корректирующие действия, чтобы изменить прогнозируемое поведение, например, запустить целевые кампании по удержанию.
Для этого мы используем имеющиеся у нас данные в файле CSV, который содержит информацию об использовании и оттоке клиентов. Мы используем Canvas для выполнения следующих шагов:
- Импортируйте набор данных об оттоке из Простой сервис хранения Amazon (Amazon S3).
- Обучите и постройте модель оттока.
- Проанализируйте результаты модели.
- Протестируйте прогнозы по модели.
Для нашего набора данных мы используем синтетический набор данных от оператора мобильной связи. Этот образец набора данных содержит 5,000 записей, каждая из которых использует 21 атрибут для описания профиля клиента. Атрибуты следующие:
- Область – Штат США, в котором проживает клиент, обозначается двухбуквенной аббревиатурой; например, Огайо или Нью-Джерси
- Длина аккаунта – Количество дней, в течение которых эта учетная запись была активной.
- Код зоны – Трехзначный код города номера телефона клиента
- Телефон – Оставшийся семизначный номер телефона
- Международный план – Есть ли у клиента тарифный план международных звонков (да/нет)
- План VMail – Есть ли у клиента функция голосовой почты (да/нет)
- Сообщение VMail – Среднее количество сообщений голосовой почты в месяц
- Дневные минуты – Общее количество минут разговоров, использованных в течение дня
- Дневные звонки – Общее количество звонков, совершенных в течение дня
- Дневной заряд – Выставленная стоимость звонков в дневное время
- Ева Минс, Ева звонит, Ева Чардж – Выставленная стоимость вечерних звонков
- Ночные минуты, Ночные звонки, Ночной заряд – Стоимость звонков в ночное время
- Международные минуты, Международные звонки, Международный заряд – Стоимость выставленных счетов за международные звонки
- CustServ звонки - Количество обращений в службу поддержки клиентов.
- Отток? – Покинул ли клиент услугу (верно/неверно)
Последний атрибут, Churn?
, — это атрибут, который мы хотим, чтобы модель ML предсказывала. Атрибут target является бинарным, что означает, что наша модель предсказывает выходные данные как одну из двух категорий (True
or False
).
Предпосылки
Облачный администратор с Аккаунт AWS с соответствующими разрешениями требуется для выполнения следующих предварительных условий:
- Развернуть Создатель мудреца Амазонки Для получения инструкций см. Подключение к домену Amazon SageMaker.
- Разверните холст. Инструкции см. Настройка и управление Amazon SageMaker Canvas (для ИТ-администраторов).
- Настройте политики общего доступа к ресурсам из разных источников (CORS) для Canvas. Инструкции см. Предоставьте своим пользователям возможность загружать локальные файлы.
Создайте модель оттока клиентов
Во-первых, давайте загрузим набор данных оттока и просмотрите файл, чтобы убедиться, что все данные есть. Затем выполните следующие шаги:
- Войдите в Консоль управления AWS, используя учетную запись с соответствующими разрешениями для доступа к Canvas.
- Войдите в консоль Canvas.
Здесь мы можем управлять нашими наборами данных и создавать модели.
- Выберите Импортировать.
- Выберите Загрузите И выберите
churn.csv
. - Выберите Даты импорта чтобы загрузить его на Canvas.
Процесс импорта занимает примерно 10 секунд (это может варьироваться в зависимости от размера набора данных). Когда это будет завершено, мы увидим, что набор данных находится в Ready
Статус.
- Чтобы просмотреть первые 100 строк набора данных, наведите указатель мыши на значок глаза.
Появится предварительный просмотр набора данных. Здесь мы можем убедиться, что наши данные верны.
После того, как мы подтвердим, что импортированный набор данных готов, мы создадим нашу модель.
- Выберите Новая модель.
- Выберите набор данных churn.csv и выберите Выбрать набор данных.
Теперь настроим процесс сборки модели.
- Что касается Целевые столбцы, выбрать
Churn?
колонка.
Что касается Тип модели, Canvas автоматически рекомендует тип модели, в этом случае прогноз 2 категории (то, что специалист по данным назвал бы бинарной классификацией). Это подходит для нашего варианта использования, потому что у нас есть только два возможных значения прогноза: True
or False
, поэтому мы придерживаемся рекомендации Canvas.
Теперь проверим некоторые предположения. Мы хотим быстро увидеть, можно ли предсказать наш целевой столбец по другим столбцам. Мы можем быстро просмотреть расчетную точность модели и влияние столбца (оценочную важность каждого столбца при прогнозировании целевого столбца)..
- Выберите все 21 столбец и выберите Предварительная версия модели.
Эта функция использует подмножество нашего набора данных и только один проход при моделировании. В нашем случае создание модели для предварительного просмотра занимает около 2 минут.
Как показано на следующем снимке экрана, Phone
и State
столбцы имеют гораздо меньшее влияние на наш прогноз. Мы хотим быть осторожными при удалении ввода текста, потому что он может содержать важные дискретные категориальные признаки, способствующие нашему прогнозу. Здесь номер телефона является просто эквивалентом номера учетной записи и не имеет значения для прогнозирования вероятности оттока других учетных записей, а состояние клиента не сильно влияет на нашу модель.
- Мы удаляем эти столбцы, потому что они не имеют большого значения.
- После того, как мы удалим
Phone
иState
столбцы, давайте снова запустим предварительный просмотр.
Как показано на следующем снимке экрана, точность модели увеличилась на 0.1%. Наша предварительная модель имеет оценочную точность 95.9%, а столбцы с наибольшим влиянием: Night Calls
, Eve Mins
качества Night Charge
. Это дает нам представление о том, какие столбцы больше всего влияют на производительность нашей модели. Здесь нам нужно быть осторожными при выборе функций, потому что, если одна функция чрезвычайно влияет на результат модели, это основной показатель целевая утечка, и эта функция будет недоступна во время прогнозирования. В этом случае несколько столбцов показали очень похожее влияние, поэтому мы продолжаем строить нашу модель.
Canvas предлагает два варианта сборки:
- Стандартная сборка – Создает наилучшую модель на основе оптимизированного процесса, основанного на AutoML; скорость обменивается на максимальную точность
- Быстрая сборка – строит модель за долю времени по сравнению со стандартной сборкой; потенциальная точность обменивается на скорость.
- Для этого поста мы выбрали Стандартная сборка вариант, потому что мы хотим иметь самую лучшую модель и готовы потратить дополнительное время на ожидание результата.
Процесс сборки может занять 2-4 часа. За это время Canvas тестирует сотни конвейеров-кандидатов, выбирая лучшую модель для представления нам. На следующем снимке экрана мы видим ожидаемое время сборки и прогресс.
Оцените производительность модели
Когда процесс построения модели завершен, модель предсказала отток в 97.9% случаев. Это кажется прекрасным, но как аналитики мы хотим погрузиться глубже и посмотреть, можем ли мы доверять модели при принятии решений на ее основе. На Счет Вкладка, мы можем просмотреть визуальный график наших прогнозов, сопоставленных с их результатами. Это позволяет нам глубже понять нашу модель.
Canvas разделяет набор данных на обучающий и тестовый наборы. Набор обучающих данных — это данные, которые Canvas использует для построения модели. Тестовый набор используется, чтобы увидеть, хорошо ли работает модель с новыми данными. Диаграмма Санки на следующем снимке экрана показывает, как модель работала на тестовом наборе. Чтобы узнать больше, см. Оценка производительности вашей модели в Amazon SageMaker Canvas.
Чтобы получить более подробную информацию помимо того, что показано на диаграмме Санки, бизнес-аналитики могут использовать матрица путаницы анализа своих бизнес-решений. Например, мы хотим лучше понять вероятность того, что модель будет делать ложные прогнозы. Мы можем видеть это на диаграмме Санки, но нам нужно больше информации, поэтому мы выбираем Расширенные метрики. Нам представлена матрица путаницы, которая отображает производительность модели в визуальном формате со следующими значениями, характерными для положительного класса — мы измеряем, основываясь на том, действительно ли они будут уходить, поэтому наш положительный класс True
в этом примере:
- Истинный положительный результат (TP) - Количество
True
результаты, которые были правильно предсказаны какTrue
- Истинный отрицательный результат (TN) - Количество
False
результаты, которые были правильно предсказаны какFalse
- Ложноположительный результат (FP) - Количество
False
результаты, которые были ошибочно предсказаны какTrue
- Ложноотрицательный (ЛН) - Количество
True
результаты, которые были ошибочно предсказаны какFalse
Мы можем использовать эту матричную диаграмму, чтобы определить не только то, насколько точна наша модель, но и когда она ошибочна, как часто это может быть и насколько она неверна.
Расширенные показатели выглядят хорошо. Мы можем доверять результату модели. Мы видим очень мало ложноположительных и ложноотрицательных результатов. Это происходит, если модель думает, что клиент в наборе данных уйдет, а на самом деле этого не происходит (ложноположительный результат), или если модель думает, что клиент уйдет, а он действительно уйдет (ложноотрицательный). Высокие значения для любого из них могут заставить нас задуматься о том, можем ли мы использовать модель для принятия решений.
Вернемся к Обзор вкладку, чтобы просмотреть влияние каждого столбца. Эта информация может помочь команде маркетинга получить информацию, которая приведет к принятию мер по снижению оттока клиентов. Например, мы можем видеть, что и низкие, и высокие CustServ Calls
увеличить вероятность оттока. Маркетинговая команда может принять меры для предотвращения оттока клиентов на основе этих знаний. Примеры включают создание подробных часто задаваемых вопросов на веб-сайтах, чтобы уменьшить количество обращений в службу поддержки клиентов, и проведение образовательных кампаний с клиентами по часто задаваемым вопросам, которые могут поддерживать интерес.
Наша модель выглядит довольно точной. Мы можем напрямую выполнить интерактивный прогноз на прогнозировать tab, либо в пакетном, либо в одиночном (в реальном времени) прогнозе. В этом примере мы внесли несколько изменений в определенные значения столбца и выполнили прогноз в реальном времени. Canvas показывает нам результат прогноза вместе с уровнем достоверности.
Допустим, у нас есть существующий клиент со следующим использованием: Night Mins
это 40 и Eve Mins
равно 40. Мы можем выполнить прогноз, и наша модель возвращает показатель достоверности 93.2%, что этот клиент уйдет (True
). Теперь мы можем предоставить рекламные скидки, чтобы удержать этого клиента.
Допустим, у нас есть существующий клиент, который использует следующее: Night Mins
это 40 и Eve Mins
равно 40. Мы можем выполнить прогноз, и наша модель возвращает показатель достоверности 93.2%, что этот клиент уйдет (True
). Теперь мы можем предоставить рекламные скидки, чтобы удержать этого клиента.
Выполнение одного прогноза отлично подходит для индивидуального анализа «что, если», но нам также необходимо запускать прогнозы для многих записей одновременно. Холст способен запускать пакетные прогнозы, что позволяет запускать прогнозы в масштабе.
Заключение
В этом посте мы показали, как бизнес-аналитик может создать модель оттока клиентов с помощью SageMaker Canvas, используя образцы данных. Canvas позволяет вашим бизнес-аналитикам создавать точные модели машинного обучения и генерировать прогнозы с помощью визуального интерфейса без кода и щелчка. Маркетинговый аналитик теперь может использовать эту информацию для запуска целенаправленных кампаний по удержанию и более быстрого тестирования новых стратегий кампаний, что приводит к сокращению оттока клиентов.
Аналитики могут вывести это на новый уровень, поделившись своими моделями с коллегами по обработке данных. Специалисты по данным могут просматривать модель Canvas в Студия Amazon SageMaker, где они могут изучить выбор, сделанный Canvas AutoML, проверить результаты модели и даже запустить модель в производство несколькими щелчками мыши. Это может ускорить создание ценности на основе машинного обучения и помочь быстрее масштабировать улучшенные результаты.
Чтобы узнать больше об использовании Canvas, см. Создавайте, делитесь, развертывайте: как бизнес-аналитики и специалисты по обработке и анализу данных сокращают время выхода на рынок с помощью машинного обучения без кода и Amazon SageMaker Canvas. Дополнительные сведения о создании моделей машинного обучения с помощью решения без кода см. Представляем Amazon SageMaker Canvas — визуальную возможность машинного обучения без кода для бизнес-аналитиков.
Об авторе
Генри Робалино является архитектором решений в AWS, базирующейся в Нью-Джерси. Он увлечен облачными технологиями и машинным обучением, а также той ролью, которую они могут играть в обществе. Он достигает этого, работая с клиентами, помогая им достичь своих бизнес-целей с помощью облака AWS. Вне работы вы можете найти Генри, путешествующего или исследующего природу со своей меховой дочерью Арли.
Чаоран Ван является архитектором решений в AWS, базирующейся в Далласе, штат Техас. Он работает в AWS с тех пор, как в 2016 году окончил Техасский университет в Далласе со степенью магистра компьютерных наук. Chaoran помогает клиентам создавать масштабируемые, безопасные и экономичные приложения и находить решения для решения своих бизнес-задач в облаке AWS. Вне работы Чаоран любит проводить время со своей семьей и двумя собаками, Биубиу и Коко.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/predicting-customer-churn-with-no-code-machine-learning-using-amazon-sagemaker-canvas/
- "
- 000
- 10
- 100
- 11
- 2016
- 7
- 9
- О нас
- ускорять
- доступ
- Учетная запись
- точный
- действия
- дополнительный
- Администратор
- администраторы
- продвинутый
- Все
- Amazon
- анализ
- аналитик
- Приложения
- соответствующий
- примерно
- ПЛОЩАДЬ
- Атрибуты
- доступен
- в среднем
- AWS
- ЛУЧШЕЕ
- Beyond
- Крупнейшая
- граница
- строить
- Строительство
- строит
- бизнес
- бизнес
- купить
- призывают
- Кампания
- Кампании
- Может получить
- кандидат
- холст
- Категории
- определенный
- проблемы
- изменение
- заряд
- выбор
- Выберите
- класс
- классификация
- облако
- код
- коллеги
- Column
- сравненный
- компьютер
- Информатика
- доверие
- замешательство
- Консоли
- содержит
- продолжать
- рентабельным
- может
- Создайте
- Создающий
- создание
- клиент
- Служба поддержки игроков
- Клиенты
- Dallas
- данным
- ученый данных
- более глубокий
- задерживать
- в зависимости
- развертывание
- подробный
- Определять
- непосредственно
- дисплеев
- не
- Обучение
- обязательство
- Проект и
- По оценкам,
- пример
- существующий
- ожидаемый
- опыт
- эксперты
- Больше
- Глаза
- факторы
- семья
- FAQ
- БЫСТРО
- быстрее
- Особенность
- Особенности
- конец
- First
- после
- формат
- порождать
- Цели
- хорошо
- большой
- величайший
- Расти
- имеющий
- помощь
- помогает
- здесь
- High
- Как
- HTTPS
- Сотни
- ICON
- определения
- идентифицирующий
- Влияние
- эффектных
- значение
- важную
- улучшенный
- включают
- Увеличение
- расширились
- individual
- информация
- вход
- размышления
- интерактивный
- Интерфейс
- Мультиязычность
- IT
- вести
- ведущий
- УЧИТЬСЯ
- изучение
- Оставлять
- уровень
- линия
- локальным
- машина
- обучение с помощью машины
- сделанный
- основной
- Создание
- управлять
- управление
- управления
- Маркетинг
- магистра
- матрица
- смысл
- Метрика
- против
- ML
- Мобильный телефон
- мобильный телефон
- модель
- Модели
- БОЛЕЕ
- самых
- отрицательный
- номер
- номера
- Предложения
- оптимизированный
- Опция
- Опции
- Другие контрактные услуги
- на открытом воздухе
- страстный
- производительность
- Играть
- сборах
- положительный
- возможное
- потенциал
- предсказывать
- прогноз
- Predictions
- представить
- довольно
- предварительный просмотр
- первичный
- процесс
- Профиль
- доходы
- продвижение
- рекламный
- обеспечивать
- приводит
- САЙТ
- реального времени
- рекомендует
- запись
- учет
- уменьшить
- осталось
- удаление
- обязательный
- ресурс
- Итоги
- Возвращает
- доходы
- обзоре
- Снижение
- Run
- Бег
- масштабируемые
- Шкала
- Наука
- Ученый
- Ученые
- секунды
- безопасный
- обслуживание
- набор
- Поделиться
- разделение
- аналогичный
- просто
- Размер
- So
- Общество
- твердый
- Решение
- Решения
- РЕШАТЬ
- некоторые
- скорость
- тратить
- Расходы
- стандарт
- Область
- Статус:
- диск
- стратегий
- с
- цель
- команда
- связь
- тестXNUMX
- тестов
- Техас
- время
- сегодня
- топ
- Обучение
- Путешествие
- Доверие
- TX
- понимать
- Университет
- us
- использование
- пользователей
- ценностное
- проверить
- Вид
- Режимы
- веб-сайты
- Что
- Что такое
- будь то
- КТО
- Википедия.
- Работа
- работает
- бы