Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних

Перевидано Платоном

читають: 0

Дослідницький аналіз даних (EDA) — це звичайне завдання, яке виконують бізнес-аналітики для виявлення закономірностей, розуміння зв’язків, перевірки припущень і виявлення аномалій у своїх даних. У машинному навчанні (ML) важливо спочатку зрозуміти дані та їхні зв’язки, перш ніж приступати до побудови моделі. Традиційні цикли розробки ML іноді можуть тривати місяцями та вимагати передових навичок у галузі обробки даних та інженерних навичок ML, тоді як рішення ML без коду можуть допомогти компаніям прискорити доставку рішень ML до днів або навіть годин.

Canvas Amazon SageMaker — це інструмент ML без коду, який допомагає бізнес-аналітикам генерувати точні прогнози ML без необхідності писати код або без досвіду ML. Canvas надає простий у використанні візуальний інтерфейс для завантаження, очищення та перетворення наборів даних, а потім створення моделей ML і створення точних прогнозів.

У цій публікації ми розповімо, як виконати EDA, щоб краще зрозуміти ваші дані перед побудовою моделі ML завдяки вбудованим розширеним візуалізаціям Canvas. Ці візуалізації допомагають аналізувати зв’язки між функціями у ваших наборах даних і краще розуміти ваші дані. Це робиться інтуїтивно з можливістю взаємодії з даними та виявлення інформації, яка може залишитися непоміченою за допомогою спеціальних запитів. Їх можна швидко створити за допомогою «Візуалізатора даних» у Canvas до створення та навчання моделей ML.

Огляд рішення

Ці візуалізації доповнюють спектр можливостей підготовки та дослідження даних, які вже пропонує Canvas, включаючи можливість виправляти відсутні значення та замінювати викиди; фільтрувати, об’єднувати та змінювати набори даних; і витягувати конкретні значення часу з часових позначок. Щоб дізнатися більше про те, як Canvas може допомогти вам очистити, трансформувати та підготувати ваш набір даних, перегляньте Підготуйте дані за допомогою розширених перетворень.

Для нашого випадку використання ми розглядаємо, чому клієнти відтікають від будь-якого бізнесу, і показуємо, як EDA може допомогти з точки зору аналітика. Набір даних, який ми використовуємо в цій публікації, є синтетичним набором даних від телекомунікаційного оператора мобільного зв’язку для прогнозування відтоку клієнтів, який ви можете завантажити (churn.csv), або ви приносите власний набір даних для експериментів. Інструкції щодо імпорту власного набору даних див Імпорт даних у Amazon SageMaker Canvas.

Передумови

Дотримуйтесь інструкцій у Передумови для налаштування Amazon SageMaker Canvas перш ніж продовжити.

Імпортуйте набір даних на Canvas

Щоб імпортувати зразок набору даних на Canvas, виконайте такі дії:

Увійдіть до Canvas як бізнес-користувач.Спочатку ми завантажуємо згаданий раніше набір даних із нашого локального комп’ютера на Canvas. Якщо ви хочете використовувати інші джерела, наприклад Амазонська червона зміна, відноситься до Підключіться до зовнішнього джерела даних.
Вибирати Імпортувати.
Вибирати Завантажувати, Потім виберіть Виберіть файли з комп’ютера.
Виберіть набір даних (churn.csv) і виберіть Дати імпорту.
Виберіть набір даних і виберіть Створити модель.
для назва моделі, введіть назву (для цієї публікації ми дали назву Churn prediction).
Вибирати Створювати.

Щойно ви виберете свій набір даних, вам буде запропоновано огляд, у якому описано типи даних, відсутні значення, невідповідні значення, унікальні значення та середні значення або значення моди у відповідних стовпцях.
З точки зору EDA, ви можете спостерігати, що в наборі даних немає відсутніх або невідповідних значень. Як бізнес-аналітик, ви можете отримати початкове уявлення про побудову моделі ще до початку дослідження даних, щоб визначити, як буде працювати модель і які фактори впливають на продуктивність моделі. Canvas дає вам можливість отримати статистичні дані з ваших даних, перш ніж створювати модель, попередньо переглянувши модель.
Перш ніж почати дослідження даних, виберіть Модель попереднього перегляду.
Виберіть стовпець для передбачення (відтік). Canvas автоматично визначає, що це передбачення двох категорій.
Вибирати Модель попереднього перегляду. SageMaker Canvas використовує підмножину ваших даних, щоб швидко побудувати модель і перевірити, чи готові ваші дані для створення точного прогнозу. Використовуючи цей зразок моделі, ви можете зрозуміти поточну точність моделі та відносний вплив кожного стовпця на прогнози.

На наступному знімку екрана показано наш попередній перегляд.

Попередній перегляд моделі вказує на те, що модель передбачає правильну ціль (відтік?) у 95.6% випадків. Ви також можете побачити початковий вплив стовпця (вплив кожного стовпця на цільовий стовпець). Давайте зробимо дослідження, візуалізацію та трансформацію даних, а потім приступимо до створення моделі.

Дослідження даних

Canvas уже надає деякі загальні базові візуалізації, наприклад розподіл даних у вигляді сітки на Будувати вкладка. Вони чудово підходять для отримання високорівневого огляду даних, розуміння того, як дані розподіляються, і отримання підсумкового огляду набору даних.

Як бізнес-аналітику, вам може знадобитися глибоке уявлення про те, як розподіляються дані, а також про те, як розподіл відображається в цільовому стовпці (відтоку), щоб легко зрозуміти зв’язок даних перед створенням моделі. Тепер ви можете вибрати Значки щоб отримати огляд розподілу даних.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

На наступному знімку екрана показано огляд розподілу набору даних.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми можемо зробити такі спостереження:

Телефон має надто багато унікальних цінностей, щоб мати будь-яку практичну користь. Ми знаємо, що телефон — це ідентифікатор клієнта, і не хочемо будувати модель, яка б враховувала конкретних клієнтів, а скоріше вивчаємо в більш загальному сенсі, що може призвести до відтоку. Ви можете видалити цю змінну.
Більшість числових функцій добре розподілено, дотримуючись a Гауссія дзвоноподібна крива. У ML ви хочете, щоб дані розподілялися нормально, оскільки будь-яку змінну, яка має нормальний розподіл, можна спрогнозувати з більшою точністю.

Давайте заглибимося глибше та перевіримо розширені візуалізації, доступні в Canvas.

Візуалізація даних

Як бізнес-аналітики, ви хочете побачити, чи існують зв’язки між елементами даних і як вони пов’язані з відтоком. За допомогою Canvas ви можете досліджувати та візуалізувати свої дані, що допоможе вам отримати розширене уявлення про свої дані перед створенням моделей ML. Ви можете візуалізувати за допомогою точкових діаграм, гістограм і прямокутних діаграм, які допоможуть зрозуміти ваші дані та виявити зв’язки між функціями, які можуть вплинути на точність моделі.

Щоб розпочати створення візуалізацій, виконайте такі кроки:

на Будувати вкладку програми Canvas виберіть Візуалізатор даних.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ключовим прискорювачем візуалізації в Canvas є Візуалізатор даних. Давайте змінимо розмір вибірки, щоб отримати кращу перспективу.

Виберіть кількість рядків поруч Зразок візуалізації.
Використовуйте повзунок, щоб вибрати бажаний розмір вибірки.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вибирати Оновити щоб підтвердити зміну розміру вибірки.

Ви можете змінити розмір вибірки на основі свого набору даних. У деяких випадках у вас може бути від кількох сотень до кількох тисяч рядків, де можна вибрати весь набір даних. У деяких випадках у вас може бути кілька тисяч рядків, і в цьому випадку ви можете вибрати кілька сотень або кілька тисяч рядків залежно від вашого варіанту використання.

Діаграма розсіювання показує зв’язок між двома кількісними змінними, виміряними для тих самих осіб. У нашому випадку важливо розуміти зв’язок між значеннями, щоб перевірити кореляцію.

Оскільки у нас є Дзвінки, Мінуси та Плата, ми побудуємо графік кореляції між ними для дня, вечора та ночі.

Спочатку давайте створимо Діаграма розкиду між денною платою та денними хв.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми можемо помітити, що зі збільшенням денних хвилин денна плата також збільшується.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Те саме стосується вечірніх дзвінків.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Нічні дзвінки також мають ту саму схему.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Оскільки кількість хвилин і заряд, здається, зростають лінійно, ви можете помітити, що вони мають високу кореляцію один з одним. Включення цих пар функцій у деякі алгоритми ML може зайняти додатковий обсяг пам’яті та зменшити швидкість навчання, а наявність подібної інформації в кількох стовпцях може призвести до того, що модель переоцінить вплив і призведе до небажаного зміщення в моделі. Давайте вилучимо одну функцію з кожної з висококорельованих пар: денний заряд з пари з денними хвилинами, нічний заряд з пари з нічними хвилинами та міжнародний заряд з пари з міжнародними хвилинами.

Баланс і варіація даних

Стовпчаста діаграма — це графік між категоріальною змінною на осі абсцис і числовою змінною на осі у, щоб дослідити зв’язок між обома змінними. Давайте створимо гістограму, щоб побачити, як виклики розподіляються в нашому цільовому стовпці Відтік для True і False. Виберіть Гістограма і перетягніть виклики дня та відтік на вісь y та вісь x відповідно.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Тепер давайте створимо таку саму гістограму для вечірніх дзвінків і відтоку.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Далі створимо гістограму для нічних дзвінків і відтоку.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Схоже, існує різниця в поведінці між клієнтами, які відмовилися, і тими, які цього не зробили.

Коробкові діаграми корисні, оскільки вони показують відмінності в поведінці даних за класом (відтік чи ні). Оскільки ми збираємося передбачити відтік (цільовий стовпець), давайте створимо коробкову діаграму деяких характеристик щодо нашого цільового стовпця, щоб отримати описову статистику набору даних, як-от середнє, максимальне, мінімальне, медіана та викиди.

Вибирати Коробковий сюжет і перетягніть Day mins і Churn на вісь Y і X відповідно.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ви також можете спробувати такий же підхід до інших стовпців проти нашого цільового стовпця (відтік).

Давайте тепер створимо коробковий графік денних хвилин і дзвінків у службу підтримки, щоб зрозуміти, як дзвінки в службу підтримки охоплюють значення денних хвилин. Ви бачите, що дзвінки в службу підтримки клієнтів не залежать або не пов’язані зі значенням хвилин за день.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

З наших спостережень ми можемо визначити, що набір даних досить збалансований. Ми хочемо, щоб дані були рівномірно розподілені між істинними та хибними значеннями, щоб модель не була зміщеною до одного значення.

Перетворення

Виходячи з наших спостережень, ми видалили стовпець «Телефон», оскільки це лише номер рахунку, і стовпці «Денна плата», «Напередодні плата», «Нічна плата», оскільки вони містять інформацію, що збігається, наприклад стовпці «хвилини», але ми можемо запустити попередній перегляд ще раз, щоб підтвердити.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Після аналізу даних і перетворення давайте знову переглянемо модель.

Ви можете помітити, що оцінена точність моделі змінилася з 95.6% до 93.6% (це може змінюватися), однак вплив стовпця (важливість функції) для окремих стовпців значно змінився, що покращує швидкість навчання, а також вплив стовпців на прогноз, коли ми переходимо до наступних кроків створення моделі. Наш набір даних не вимагає додаткової трансформації, але якщо вам потрібно, ви можете скористатися нею Перетворення даних ML щоб очистити, трансформувати та підготувати ваші дані для створення моделі.

Побудуйте модель

Тепер можна переходити до побудови моделі та аналізу результатів. Для отримання додаткової інформації див Передбачте відтік клієнтів за допомогою машинного навчання без використання коду за допомогою Amazon SageMaker Canvas.

Прибирати

Щоб уникнути ризику в майбутньому сесійні збори, вийти полотна.

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Висновок

У цьому дописі ми показали, як ви можете використовувати можливості візуалізації Canvas для EDA, щоб краще розуміти свої дані перед побудовою моделі, створювати точні моделі ML і генерувати прогнози за допомогою візуального інтерфейсу без використання коду.

Про авторів

Раджакумар Сампаткумар є головним технічним менеджером по роботі з клієнтами в AWS, надає клієнтам рекомендації щодо узгодження бізнес-технологій та підтримує оновлення їхніх моделей і процесів у хмарі. Він захоплений хмарним та машинним навчанням. Радж також є фахівцем з машинного навчання та працює з клієнтами AWS, щоб проектувати, розгортати й керувати їхніми робочими навантаженнями та архітектурами AWS.

Рахул Набера є консультантом з аналізу даних у AWS Professional Services. Його поточна робота зосереджена на тому, щоб дозволити клієнтам створювати робочі навантаження даних і машинного навчання на AWS. У вільний час любить грати в крикет і волейбол.

Равітеджа Єламанчілі є архітектором корпоративних рішень Amazon Web Services у Нью-Йорку. Він працює з великими клієнтами фінансових послуг над розробкою та розгортанням високобезпечних, масштабованих, надійних і економічно ефективних програм у хмарі. Він має понад 11 років досвіду управління ризиками, технологічного консультування, аналітики даних і машинного навчання. Коли він не допомагає клієнтам, він любить подорожувати та грати в PS5.

Часова мітка: Жовтень 18, 2022Жовтень 19, 2022

Часова мітка: Березень 1, 2022

Використовуйте Amazon SageMaker Canvas для дослідницького аналізу даних

Перевидано Платоном

Огляд рішення

Передумови

Імпортуйте набір даних на Canvas

Дослідження даних

Візуалізація даних

Баланс і варіація даних

Перетворення

Побудуйте модель

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

Виявлення схем оборонного покриття в статистиці наступного покоління NFL

Покращте масштабованість API Amazon Rekognition без збереження стану за допомогою кількох регіонів

Визначте мангрові ліси за допомогою функцій супутникового зображення за допомогою Amazon SageMaker Studio та Amazon SageMaker Autopilot – Частина 1

Простий посібник із навчання Llama 2 за допомогою AWS Trainium на Amazon SageMaker | Веб-сервіси Amazon

Дизайн модульних функцій для Advanced Driver Assistance Systems (ADAS) на AWS

Розподілене навчання та ефективне масштабування за допомогою Amazon SageMaker Model Parallel і Data Parallel Libraries | Веб-сервіси Amazon

Виявлення аномалій за допомогою Amazon SageMaker Edge Manager за допомогою AWS IoT Greengrass V2

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки