Виявлення та уникнення типових проблем із даними під час створення моделей ML без коду за допомогою Amazon SageMaker Canvas

Перевидано Платоном

читають: 0

Бізнес-аналітики працюють з даними та люблять аналізувати, досліджувати та розуміти дані, щоб досягти ефективних бізнес-результатів. Щоб вирішити бізнес-проблеми, вони часто покладаються на практиків машинного навчання (ML), таких як спеціалісти з обробки даних, які допомагають із такими методами, як використання ML для побудови моделей із використанням наявних даних і створення прогнозів. Однак це не завжди можливо, оскільки спеціалісти з обробки даних зазвичай пов’язані зі своїми завданнями та не мають достатньої пропускної здатності, щоб допомогти аналітикам.

Щоб бути незалежним і досягати своїх цілей як бізнес-аналітик, було б ідеально працювати з простими у використанні, інтуїтивно зрозумілими та візуальними інструментами, які використовують ML без необхідності знати деталі та використовувати код. Використання цих інструментів допоможе вам вирішити ваші бізнес-проблеми та досягти бажаних результатів.

З метою допомогти вам і вашій організації стати ефективнішими та використовувати ML без написання коду, ми представив Amazon SageMaker Canvas. Це рішення ML без коду, яке допомагає створювати точні моделі ML без необхідності вивчати технічні деталі, такі як алгоритми ML і показники оцінки. SageMaker Canvas пропонує візуальний інтуїтивно зрозумілий інтерфейс, який дає змогу імпортувати дані, навчати моделі ML, виконувати аналіз моделі та генерувати прогнози ML, і все це без написання жодного рядка коду.

Використовуючи SageMaker Canvas для експерименту, ви можете зіткнутися з проблемами якості даних, наприклад відсутні значення або неправильний тип проблеми. Ці проблеми можуть бути виявлені лише на досить пізньому етапі процесу після навчання моделі ML. Щоб полегшити цю проблему, SageMaker Canvas тепер підтримує перевірку даних. Ця функція завчасно перевіряє наявність проблем у ваших даних і надає вказівки щодо вирішення.

У цій публікації ми продемонструємо, як ви можете використовувати можливість перевірки даних у SageMaker Canvas перед створенням моделі. Як випливає з назви, ця функція перевіряє ваш набір даних, повідомляє про проблеми та надає корисні підказки для їх вирішення. Використовуючи дані кращої якості, ви отримаєте ефективнішу модель ML.

Перевірте дані в SageMaker Canvas

Перевірка даних — це нова функція в SageMaker Canvas для проактивної перевірки потенційних проблем з якістю даних. Після того, як ви імпортуєте дані та виберете цільовий стовпець, ви зможете перевірити свої дані, як показано тут:

Якщо ви вирішите перевірити свої дані, Canvas аналізує ваші дані для багатьох умов, зокрема:

Забагато унікальних міток у вашому цільовому стовпці – для типу моделі прогнозування категорії
Забагато унікальних міток у вашому цільовому стовпці для кількості рядків у ваших даних – для типу моделі прогнозування категорії
Неправильний тип моделі для ваших даних – тип моделі не відповідає даним, які ви прогнозуєте в стовпці Target
Забагато недійсних рядків – відсутні значення у вашому цільовому стовпці
Усі стовпці функцій є текстовими стовпцями – вони будуть видалені для стандартних збірок
Замало стовпців – занадто мало стовпців у ваших даних
Немає повних рядків – усі рядки ваших даних містять відсутні значення
Один або кілька імен стовпців містять подвійне підкреслення – SageMaker не може обробити (__) у заголовку стовпця

Подробиці щодо кожного критерію перевірки буде надано в наступних розділах цієї публікації.

Якщо всі перевірки пройдено, ви отримаєте таке підтвердження: «У вашому наборі даних не виявлено проблем».

Якщо буде виявлено будь-яку проблему, ви отримаєте сповіщення, щоб переглянути та зрозуміти. Це завчасно виявляє проблеми з якістю даних і дає змогу негайно їх вирішити, перш ніж витрачати час і ресурси на подальший процес.

Ви можете внести свої корективи та продовжувати перевірку свого набору даних, доки не буде вирішено всі проблеми.

Перевірте цільовий стовпець і типи моделі

Коли ви створюєте модель ML у SageMaker Canvas, деякі проблеми з якістю даних, пов’язані з цільовий стовпець може призвести до збою збірки вашої моделі. SageMaker Canvas перевіряє наявність різних проблем, які можуть вплинути на ваш цільовий стовпець.

Для цільового стовпця позначте Неправильний тип моделі для ваших даних. Наприклад, якщо вибрано модель передбачення з 2 категоріями, але ваш цільовий стовпець має більше ніж 2 унікальні мітки, тоді SageMaker Canvas видасть таке попередження перевірки.
Якщо тип моделі – передбачення категорії 2 або 3+, ви повинні перевірити занадто багато унікальних міток для вашого цільового стовпця. Максимальна кількість унікальних класів – 2000. Якщо ви виберете стовпець із понад 2000 унікальними значеннями у стовпці Target, Canvas видасть таке попередження перевірки.
На додаток до занадто великої кількості унікальних цільових міток, ви також повинні остерігатися багато унікальних цільових міток для кількості рядків у ваших даних. SageMaker Canvas забезпечує співвідношення цільової мітки до загальної кількості рядків менше 10%. Це гарантує, що ви маєте достатню кількість представлень для кожної категорії для високоякісної моделі та зменшуєте можливість переобладнання. Ваша модель вважається переобладнаною, якщо вона добре прогнозує дані навчання, але не нові дані, яких вона раніше не бачила. Зверніться тут щоб дізнатися більше.
Нарешті, остання перевірка цільового стовпця занадто багато недійсних рядків. Якщо у вашому цільовому стовпці більше 10% даних відсутні або недійсні, це вплине на продуктивність вашої моделі, а в деяких випадках призведе до збою побудови моделі. У наступному прикладі є багато відсутніх значень (>90% відсутні) у цільовому стовпці, і ви отримуєте таке попередження перевірки.

Якщо ви отримуєте будь-яке з наведених вище попереджень для свого цільового стовпця, виконайте такі дії, щоб пом’якшити проблеми:

Ви використовуєте правильний цільовий стовпець?
Ви вибрали правильний тип моделі?
Чи можете ви збільшити кількість рядків у своєму наборі даних на цільову мітку?
Чи можете ви об’єднати/згрупувати подібні мітки?
Чи можете ви заповнити відсутні/недійсні значення?
Чи достатньо у вас даних, щоб ви могли видалити відсутні/недійсні значення?
Якщо всі наведені вище параметри не знімають попередження, вам слід розглянути можливість використання іншого набору даних.

Див Документація про перетворення даних SageMaker Canvas для виконання згаданих вище кроків імпутації.

Перевірте всі стовпці

Крім цільового стовпця, ви можете зіткнутися з проблемами якості даних і в інших стовпцях даних (стовпці функцій). Стовпці функцій – це вхідні дані, які використовуються для прогнозування ML.

Кожен набір даних повинен мати принаймні 1 стовпець ознак і 1 цільовий стовпець (загалом 2 стовпці). В іншому випадку SageMaker Canvas надасть вам a Замало стовпців у ваших даних УВАГА. Ви повинні задовольнити цю вимогу, перш ніж продовжити створення моделі.
Після цього ви повинні переконатися, що ваші дані мають принаймні 1 числовий стовпець. Якщо ні, то ви отримаєте усі стовпці функцій є текстовими стовпцями УВАГА. Це пояснюється тим, що текстові стовпці зазвичай видаляються під час стандартних збірок, тому модель не має функцій для навчання. Таким чином, це призведе до збою створення вашої моделі. Ви можете використовувати SageMaker Canvas для кодування деяких текстових стовпців у числа або використовувати швидке збирання замість стандартного збирання.
Третій тип попередження, яке ви можете отримати для стовпців функцій Немає повних рядків. Ця перевірка перевіряє, чи є у вас принаймні один рядок без пропущених значень. SageMaker Canvas вимагає принаймні одного повного рядка, інакше ваш швидка збірка не вийде. Спробуйте заповнити пропущені значення перед побудовою моделі.
Останній тип перевірки Один або кілька імен стовпців містять подвійне підкреслення. Це спеціальна вимога SageMaker Canvas. Якщо у вас є подвійне підкреслення (__) у заголовках стовпців, це спричинить ваш швидка збірка провалитися. Перейменуйте стовпці, щоб видалити подвійне підкреслення, а потім повторіть спробу.

Прибирати

Щоб уникнути ризику в майбутньому сесійні збори, вийдіть із SageMaker Canvas.

Висновок

SageMaker Canvas — це рішення для ML без коду, яке дозволяє бізнес-аналітикам створювати точні моделі ML і генерувати прогнози за допомогою візуального інтерфейсу «вкажи та клацни». Ми показали вам, як SageMaker Canvas допомагає переконатися в якості даних і пом’якшити проблеми з даними шляхом проактивної перевірки набору даних. Виявляючи проблеми на ранній стадії, SageMaker Canvas допомагає вам створювати якісні моделі ML і скорочувати кількість ітерацій побудови без досвіду в галузі обробки даних і програмування. Щоб дізнатися більше про цю нову функцію, зверніться до Документація SageMaker Canvas.

Щоб почати роботу та дізнатися більше про SageMaker Canvas, зверніться до таких ресурсів:

Про авторів

Харіхаран Суреш є старшим архітектором рішень в AWS. Він захоплюється базами даних, машинним навчанням і розробкою інноваційних рішень. До того як приєднатися до AWS, Харіхаран був архітектором продукту, фахівцем із впровадження основних банківських операцій і розробником, а також працював з організаціями BFSI понад 11 років. Крім технологій, він захоплюється парапланеризмом і їздою на велосипеді.

Сайнат Міріяла є старшим технічним менеджером з роботи з клієнтами в AWS, який працює з автомобільними клієнтами в США. Sainath захоплений проектуванням і створенням великомасштабних розподілених додатків за допомогою AI/ML. У вільний час Сайнат проводить час з родиною та друзями.

Джеймс Ву є старшим архітектором рішень для AI/ML у AWS. допомога клієнтам у проектуванні та створенні рішень AI/ML. Робота Джеймса охоплює широкий спектр випадків використання машинного машинного навчання, з головним інтересом до комп’ютерного зору, глибокого навчання та масштабування машинного машинного навчання на підприємстві. До того, як приєднатися до AWS, Джеймс був архітектором, розробником і технологічним лідером понад 10 років, у тому числі 6 років у галузі інженерії та 4 роки в галузі маркетингу та реклами.

Часова мітка: Листопад 10, 2022Листопад 11, 2022

Часова мітка: Травень 5, 2022

Виявлення та уникнення типових проблем із даними під час створення моделей ML без коду за допомогою Amazon SageMaker Canvas

Перевидано Платоном

Перевірте дані в SageMaker Canvas

Перевірте цільовий стовпець і типи моделі

Перевірте всі стовпці

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

Оголошуємо про нові інструменти та можливості для відповідальних інновацій ШІ | Веб-сервіси Amazon

Увімкніть CI/CD мультирегіональних кінцевих точок Amazon SageMaker

Інтелектуальна обробка документів за допомогою AWS AI та сервісів Analytics у страховій галузі: Частина 2

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки