Прогнозуйте відтік клієнтів за допомогою машинного навчання без коду за допомогою Amazon SageMaker Canvas

Перевидано Платоном

читають: 0

Розуміння поведінки клієнтів є головним завданням для кожного бізнесу сьогодні. Отримання розуміння того, чому та як клієнти купують, може допомогти збільшити дохід. Але втрата клієнтів (її також називають відтоком клієнтів) — це завжди ризик, і розуміння того, чому клієнти залишають компанію, може бути не менш важливим для збереження доходів і прибутків. Машинне навчання (ML) може допомогти отримати статистику, але досі вам потрібні були експерти з ML, щоб створювати моделі для прогнозування відтоку, відсутність яких могла затримувати дії компаній, орієнтовані на аналітику, щоб утримати клієнтів.

У цій публікації ми покажемо вам, як бізнес-аналітики можуть створити модель ML для відтоку клієнтів Canvas Amazon SageMaker, код не потрібен. Canvas надає бізнес-аналітикам візуальний інтерфейс «вкажи й клацни», який дозволяє самостійно будувати моделі та генерувати точні прогнози машинного навчання, не потребуючи жодного досвіду ML або написання жодного рядка коду.

Огляд рішення

Для цієї посади ми беремо на себе роль маркетингового аналітика у відділі маркетингу оператора мобільного зв’язку. Нам було доручено ідентифікувати клієнтів, які потенційно ризикують відмовитися. У нас є доступ до даних про використання послуг та інших даних про поведінку клієнтів, і ми хочемо знати, чи можуть ці дані допомогти пояснити, чому клієнт пішов. Якщо ми зможемо визначити фактори, які пояснюють відтік, тоді ми зможемо вжити коригувальні дії, щоб змінити прогнозовану поведінку, наприклад, запустити цільові кампанії утримання.

Для цього ми використовуємо дані у файлі CSV, який містить інформацію про використання та відтік клієнтів. Ми використовуємо Canvas для виконання наступних кроків:

Імпортуйте набір даних відтоку з Служба простого зберігання Amazon (Amazon S3).
Навчання та створення моделі відтоку.
Проаналізуйте результати моделі.
Тестові прогнози щодо моделі.

Для нашого набору даних ми використовуємо a синтетичний набір даних від телекомунікаційного оператора мобільного зв’язку. Цей зразок набору даних містить 5,000 записів, де кожен запис використовує 21 атрибут для опису профілю клієнта. Атрибути такі:

стан – Штат США, у якому проживає клієнт, позначений дволітерною абревіатурою; наприклад, OH або NJ
Довжина рахунку – Кількість днів, протягом яких цей рахунок був активним
Код зони – Тризначний код міста телефонного номера клієнта
Телефони – Решта семизначний номер телефону
Міжнародний план – Чи має клієнт міжнародний тарифний план (так/ні)
План VMail – Чи має клієнт функцію голосової пошти (так/ні)
Повідомлення VMail – Середня кількість повідомлень голосової пошти на місяць
Хв – Загальна кількість хвилин дзвінків, використаних протягом дня
Денні дзвінки – Загальна кількість дзвінків за день
День заряду – Виставлена вартість денних дзвінків
Eve Mins, Дзвінки Єви, Єва Заряд – Виставлена вартість вечірніх дзвінків
ніч хв, Нічні дзвінки, Нічний заряд – Виставлена вартість дзвінків у нічний час
Міжн. хв, Міжн. дзвінки, Міжнародна плата – Виставлена вартість міжнародних дзвінків
Виклики CustServ – Кількість звернень до служби підтримки клієнтів
Відточувати? – Чи залишив клієнт послугу (правда/неправда)

Останній атрибут, Churn?, це атрибут, який ми хочемо передбачити в моделі ML. Цільовий атрибут є двійковим, тобто наша модель передбачає вихід як одну з двох категорій (True or False).

Передумови

Адміністратор хмари з an Обліковий запис AWS з відповідними дозволами потрібно виконати наступні передумови:

Розгорнути Amazon SageMaker Інструкції див На борту до домену Amazon SageMaker.
Розгорнути Canvas. Інструкції див Налаштування та керування Amazon SageMaker Canvas (для ІТ-адміністраторів).
Налаштуйте політики спільного використання ресурсів між джерелами (CORS) для Canvas. Інструкції див Надайте своїм користувачам можливість завантажувати локальні файли.

Створіть модель відтоку клієнтів

Спочатку завантажимо набір даних відтоку і перегляньте файл, щоб переконатися, що там є всі дані. Потім виконайте наступні дії:

Увійдіть у Консоль управління AWS, використовуючи обліковий запис із відповідними дозволами на доступ до Canvas.
Увійдіть у консоль Canvas.

Тут ми можемо керувати нашими наборами даних і створювати моделі.

Вибирати Імпортувати.

Виберіть кнопку імпорту Canvas

Вибирати Завантажувати і виберіть churn.csv файлу.
Вибирати Дати імпорту щоб завантажити його на Canvas.

Canvas виберіть дані з s3

Процес імпорту займає приблизно 10 секунд (це може відрізнятися залежно від розміру набору даних). Коли це буде завершено, ми побачимо, що набір даних є Ready Статус.

Набір даних Canvas Ready

Щоб переглянути перші 100 рядків набору даних, наведіть курсор миші на значок ока.

Набір даних Canvas View

З’явиться попередній перегляд набору даних. Тут ми можемо перевірити правильність наших даних.

Canvas Verify Data

Підтвердивши, що імпортований набір даних готовий, ми створюємо нашу модель.

Вибирати нова модель.

Полотно Нові моделі

Виберіть набір даних churn.csv і виберіть Виберіть набір даних.

Canvas Select Dataset

Тепер ми налаштуємо процес побудови моделі.

для Цільові колонки, виберіть Churn? колонка.

для Тип моделі, У цьому випадку Canvas автоматично рекомендує тип моделі 2 категорія передбачення (те, що дослідник даних назвав би бінарною класифікацією). Це підходить для нашого випадку використання, оскільки ми маємо лише два можливі значення прогнозу: True or False, тому ми використовуємо рекомендацію Canvas made.

Модель збірки Canvas

Тепер ми підтверджуємо деякі припущення. Ми хочемо отримати швидке уявлення про те, чи можна передбачити наш цільовий стовпець іншими стовпцями. Ми можемо швидко переглянути оцінену точність моделі та вплив стовпців (орієнтовну важливість кожного стовпця для прогнозування цільового стовпця).

Виберіть усі 21 стовпці та виберіть Модель попереднього перегляду.

Ця функція використовує підмножину нашого набору даних і лише один прохід під час моделювання. Для нашого випадку використання модель попереднього перегляду займає приблизно 2 хвилини.

Модель попереднього перегляду Canvas

Як показано на наступному знімку екрана, Phone та State стовпці мають набагато менший вплив на наш прогноз. Ми хочемо бути обережними, видаляючи введений текст, оскільки він може містити важливі окремі, категоричні функції, які сприяють нашому передбаченню. Тут номер телефону є лише еквівалентом номера облікового запису, він не має значення для прогнозування ймовірності відтоку інших облікових записів, а стан клієнта не сильно впливає на нашу модель.

Ми видаляємо ці стовпці, оскільки вони не мають особливого значення.
Після того, як ми видалимо Phone та State стовпці, давайте знову запустимо попередній перегляд.

Як показано на наступному скріншоті, точність моделі зросла на 0.1%. Наша модель попереднього перегляду має точність 95.9%, а стовпці з найбільшим впливом: Night Calls, Eve Mins та Night Charge. Це дає нам уявлення про те, які стовпці найбільше впливають на продуктивність нашої моделі. Тут нам потрібно бути обережними під час вибору функцій, тому що якщо одна функція надзвичайно впливає на результат моделі, це основний показник цільовий витік, і функція буде недоступна на момент передбачення. У цьому випадку кілька стовпців показали дуже подібний вплив, тому ми продовжуємо будувати нашу модель.

Canvas Feature Engineering After

Canvas пропонує два варіанти збірки:

Стандартна збірка – Створює найкращу модель на основі оптимізованого процесу AutoML; швидкість замінюється на найбільшу точність
Швидка збірка – Створює модель за частку часу порівняно зі стандартною збіркою; потенційна точність обмінюється на швидкість.

Для цієї публікації ми вибираємо Стандартна збірка варіант, тому що ми хочемо мати найкращу модель і ми готові витратити додатковий час на очікування результату.

Стандартна збірка Canvas

Процес складання може тривати 2-4 години. Протягом цього часу Canvas тестує сотні потенційних конвеєрів, вибираючи найкращу модель для представлення нам. На наступному скріншоті ми можемо побачити очікуваний час створення та прогрес.

Модель аналізу полотна

Оцініть продуктивність моделі

Коли процес побудови моделі завершено, модель передбачила відтік у 97.9% випадків. Здається, це добре, але як аналітики ми хочемо зануритися глибше та побачити, чи можна довіряти моделі для прийняття рішень на її основі. На Рахунок ми можемо переглянути візуальний графік наших прогнозів, зіставлених із їхніми результатами. Це дозволяє нам глибше зрозуміти нашу модель.

Canvas розділяє набір даних на навчальний і тестовий. Навчальний набір даних — це дані, які Canvas використовує для створення моделі. Тестовий набір використовується, щоб перевірити, чи добре модель працює з новими даними. Діаграма Санкі на наступному знімку екрана показує, як модель працювала на тестовому наборі. Щоб дізнатися більше, зверніться до Оцінка продуктивності вашої моделі в Amazon SageMaker Canvas.

Щоб отримати більш детальну інформацію, крім того, що відображається на діаграмі Санкі, бізнес-аналітики можуть використовувати матриця плутанини аналіз своїх бізнес-рішень. Наприклад, ми хочемо краще зрозуміти ймовірність того, що модель робить помилкові прогнози. Ми можемо побачити це на діаграмі Санкі, але хочемо отримати більше інформації, тому ми вибираємо Розширені показники. Нам представлена матриця плутанини, яка відображає продуктивність моделі у візуальному форматі з наступними значеннями, специфічними для позитивного класу — ми вимірюємо на основі того, чи будуть вони справді відтікати, тому наш позитивний клас True у цьому прикладі:

Справжній позитивний (TP) - Кількість True результати, які були правильно передбачені як True
Істинно негативний (TN) - Кількість False результати, які були правильно передбачені як False
Хибнопозитивний (FP) - Кількість False результати, які були неправильно передбачені як True
Помилково негативний (FN) - Кількість True результати, які були неправильно передбачені як False

Ми можемо використовувати цю матричну діаграму, щоб визначити не лише точність нашої моделі, але й те, коли вона хибна, як часто це може бути та в чому вона хибна.

Canvas F1 Matrix

Розширені показники виглядають добре. Ми можемо довіряти результату моделі. Ми бачимо дуже низьку кількість помилкових спрацьовувань і помилкових негативів. Це випадки, коли модель вважає, що клієнт у наборі даних відійде, а він насправді цього не зробить (хибно-позитивний результат), або якщо модель вважає, що клієнт відійде, а він справді відійде (хибно-негативний). Високі показники для обох можуть змусити нас більше замислитися над тим, чи можемо ми використовувати цю модель для прийняття рішень.

Повернемось до огляд вкладку, щоб переглянути вплив кожного стовпця. Ця інформація може допомогти маркетинговій команді отримати інформацію, яка допоможе вжити заходів для зменшення відтоку клієнтів. Наприклад, ми бачимо, що і низький, і високий CustServ Calls збільшити ймовірність відтоку. На основі цих знань команда маркетингу може вжити заходів для запобігання відтоку клієнтів. Приклади включають створення докладних поширених запитань на веб-сайтах, щоб зменшити кількість дзвінків у службу підтримки клієнтів, і проведення освітніх кампаній із клієнтами щодо поширених запитань, які можуть підтримувати залучення.

Наша модель виглядає досить точно. Ми можемо безпосередньо виконати інтерактивний прогноз на Прогнозуйте у пакетному або одноразовому передбаченні (у реальному часі). У цьому прикладі ми внесли кілька змін до певних значень стовпців і виконали прогноз у реальному часі. Canvas показує нам результат передбачення разом із рівнем достовірності.

Canvas Predict Inference

Скажімо, у нас є наявний клієнт, який використовує наступне: Night Mins становить 40 та Eve Mins дорівнює 40. Ми можемо спрогнозувати, і наша модель повертає оцінку достовірності 93.2%, що цей клієнт відмовиться (True). Тепер ми можемо надати рекламні знижки, щоб утримати цього клієнта.

Припустімо, у нас є наявний клієнт, який використовує наступне: Night Mins становить 40 та Eve Mins дорівнює 40. Ми можемо спрогнозувати, і наша модель повертає оцінку достовірності 93.2%, що цей клієнт відмовиться (True). Тепер ми можемо надати спеціальні знижки, щоб утримати цього клієнта.

Виконання одного прогнозу чудово підходить для індивідуального аналізу «що-якщо», але нам також потрібно запускати прогнози для багатьох записів одночасно. Полотно вміє запустити пакетні прогнози, що дозволяє виконувати прогнози в масштабі.

Висновок

У цій публікації ми показали, як бізнес-аналітик може створити модель відтоку клієнтів за допомогою SageMaker Canvas, використовуючи зразки даних. Canvas дозволяє вашим бізнес-аналітикам створювати точні моделі ML і генерувати прогнози за допомогою візуального інтерфейсу без використання коду. Маркетинговий аналітик тепер може використовувати цю інформацію для проведення цільових кампаній утримання та швидше тестувати нові стратегії кампанії, що призведе до зменшення відтоку клієнтів.

Аналітики можуть вивести це на новий рівень, поділившись своїми моделями з колегами-фахівцями з даних. Дослідники даних можуть переглядати модель Canvas у Студія Amazon SageMaker, де вони можуть ознайомитись із вибором, зробленим Canvas AutoML, підтвердити результати моделі та навіть створити модель кількома клацаннями миші. Це може прискорити створення вартості на основі машинного навчання та допомогти швидше досягти покращених результатів.

Щоб дізнатися більше про використання Canvas, див Створюйте, діліться, розгортайте: як бізнес-аналітики та науковці з даних досягають швидшого виходу на ринок за допомогою ML без коду та Amazon SageMaker Canvas. Додаткову інформацію про створення моделей ML з рішенням без коду див Анонс Amazon SageMaker Canvas – візуальна можливість машинного навчання без коду для бізнес-аналітиків.

Про автора

Генрі Робаліно є архітектором рішень в AWS, розташованому в Нью-Джерсі. Він захоплений хмарним і машинним навчанням, а також роллю, яку вони можуть відігравати в суспільстві. Він досягає цього, працюючи з клієнтами, щоб допомогти їм досягти бізнес-цілей за допомогою AWS Cloud. Поза роботою ви можете знайти Генрі подорожуючим або досліджуючи природу зі своєю хутряною донькою Арлі.

Прогнозуйте відтік клієнтів за допомогою машинного навчання без коду за допомогою Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Чаоран Ван є архітектором рішень в AWS, розташованому в Далласі, штат Техас. Він працює в AWS після того, як у 2016 році закінчив Техаський університет у Далласі зі ступенем магістра комп’ютерних наук. Chaoran допомагає клієнтам створювати масштабовані, безпечні та економічно ефективні програми та знаходити рішення для вирішення їхніх бізнес-завдань у хмарі AWS. Поза роботою Чаоран любить проводити час зі своєю родиною та двома собаками, Біубіу та Коко.

Часова мітка: Травень 5, 2022

Часова мітка: Квітень 13, 2023

Перевидано Платоном

Базовий захист даних для прискорення корпоративного LLM за допомогою Protopia AI | Веб-сервіси Amazon

Перетворення якісного дослідження шляхом автоматизації мовлення в аналітику тексту в текст

Як Sophos тренує потужний, легкий детектор зловмисного програмного забезпечення PDF у надмасштабному режимі за допомогою Amazon SageMaker

Автоматизуйте класифікацію запитів на ІТ-послуги за допомогою спеціального класифікатора Amazon Comprehend

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки