Створюйте, діліться, розгортайте: як бізнес-аналітики та спеціалісти з обробки даних досягають швидшого виходу на ринок за допомогою безкодового машинного навчання та Amazon SageMaker Canvas

Перевидано Платоном

читають: 0

Машинне навчання (ML) допомагає організаціям збільшувати прибуток, стимулювати зростання бізнесу та знижувати витрати за рахунок оптимізації основних бізнес-функцій у кількох галузях, таких як прогнозування попиту, кредитний рейтинг, ціноутворення, прогнозування відтоку клієнтів, визначення наступних найкращих пропозицій, прогнозування пізніх поставок і підвищення якості виготовлення. Традиційні цикли розробки ML займають місяці і вимагають дефіцитних навичок науки про дані та інженерних навичок ML. Ідеї аналітиків щодо моделей машинного машинного навчання часто лежать у довгих резервах, чекаючи пропускної здатності команди наукових досліджень даних, тоді як науковці з даних зосереджуються на більш складних проектах ML, які вимагають повного набору навичок.

Щоб допомогти вийти з глухого кута, ми зробили це представив Amazon SageMaker Canvas, рішення ML без коду, яке може допомогти компаніям прискорити доставку рішень ML до годин або днів. SageMaker Canvas дає змогу аналітикам легко використовувати доступні дані в озерах даних, сховищах даних та операційних сховищах даних; побудувати моделі ML; і використовуйте їх, щоб робити прогнози в інтерактивному режимі та для групового оцінювання масових наборів даних — і все це без написання жодного рядка коду.

У цій публікації ми показуємо, як SageMaker Canvas дозволяє співпрацювати між науковцями з даних і бізнес-аналітиками, прискорюючи вихід на ринок і прискорюючи розробку рішень ML. Аналітики отримують власну робочу область ML без коду в SageMaker Canvas, не будучи експертом з ML. Потім аналітики можуть кількома клацаннями поділитися своїми моделями з Canvas, з якими спеціалісти з даних зможуть працювати в Студія Amazon SageMaker, наскрізне інтегроване середовище розробки ML (IDE). Працюючи разом, бізнес-аналітики можуть донести свої знання в області та результати експериментів, а науковці з даних можуть ефективно створювати конвеєри та оптимізувати процес.

Давайте глибоко зануримося в те, як буде виглядати робочий процес.

Бізнес-аналітики будують модель, а потім діляться нею

Щоб зрозуміти, як SageMaker Canvas спрощує співпрацю між бізнес-аналітиками та науковцями з даних (або інженерами ML), ми спочатку підходимо до процесу як бізнес-аналітик. Перш ніж почати, див Анонс Amazon SageMaker Canvas – візуальна можливість машинного навчання без коду для бізнес-аналітиків для інструкцій зі створення та тестування моделі за допомогою SageMaker Canvas.

Для цієї публікації ми використовуємо модифіковану версію Набір даних виявлення шахрайства з кредитними картками від Kaggle, добре відомого набору даних для проблеми бінарної класифікації. Спочатку набір даних був дуже незбалансованим — у ньому дуже мало записів, класифікованих як негативний клас (аномальні транзакції). Незалежно від цільового розподілу функцій ми все одно можемо використовувати цей набір даних, оскільки SageMaker Canvas справляється з цим дисбалансом, оскільки він автоматично тренує та налаштовує модель. Цей набір даних складається з приблизно 9 мільйонів клітинок. Ви також можете завантажити a зменшена версія цього набору даних. Розмір набору даних набагато менший, близько 500,000 0 осередків, тому що він був випадково занижений, а потім надвибірковий за допомогою техніки SMOTE, щоб гарантувати, що під час цього процесу втрачається якомога менше інформації. Проведення цілого експерименту з цим скороченим набором даних коштує вам XNUMX доларів США за безкоштовним рівнем SageMaker Canvas.

Після створення моделі аналітики можуть використовувати її для прогнозування безпосередньо в Canvas для окремих запитів або для цілого набору вхідних даних.

Моделі, створені за допомогою Canvas Standard Build, також можна легко поділитися одним натисканням кнопки з науковцями з даних та інженерами ML, які використовують SageMaker Studio. Це дозволяє досліднику даних перевірити продуктивність створеної вами моделі та надати зворотній зв’язок. Інженери ML можуть підібрати вашу модель та інтегрувати її з існуючими робочими процесами та продуктами, доступними для вашої компанії та ваших клієнтів. Зауважте, що на момент написання статті неможливо поділитися моделлю, створеною за допомогою Canvas Quick Build, або моделлю прогнозування часових рядів.

Спільний доступ до моделі через інтерфейс користувача Canvas простий:

На сторінці, де показано створені вами моделі, виберіть модель.
Вибирати Поділитись.
Виберіть одну або кілька версій моделі, якими ви хочете поділитися.
За бажанням, додайте примітку з додатковим контекстом про модель або допомогу, яку ви шукаєте.
Вибирати Створіть посилання на SageMaker Studio.
Скопіюйте створене посилання.

І це все! Тепер ви можете поділитися посиланням зі своїми колегами за допомогою Slack, електронної пошти або будь-яким іншим способом на ваш смак. Щоб отримати доступ до вашої моделі, спеціаліст із даних має бути в тому самому домені SageMaker Studio, тому переконайтеся, що це стосується адміністратора вашої організації.

Науковці даних отримують доступ до інформації про модель із SageMaker Studio

Тепер давайте зіграємо роль спеціаліста з обробки даних або інженера з машинного навчання та подивимося на речі з їхньої точки зору за допомогою SageMaker Studio.

Посилання, яким поділився аналітик, переведе нас у SageMaker Studio, першу хмарну IDE для наскрізного робочого процесу ML.

Вкладка відкривається автоматично і показує огляд моделі, створеної аналітиком у SageMaker Canvas. Ви можете швидко побачити назву моделі, тип проблеми ML, версію моделі та користувач, який створив модель (під полем ID користувача Canvas). Ви також маєте доступ до деталей про вхідний набір даних і найкращу модель, яку вдалося створити SageMaker. Ми розглянемо це пізніше в дописі.

на Вхідний набір даних на вкладці, ви також можете побачити потік даних від джерела до вхідного набору даних. У цьому випадку використовується лише одне джерело даних і жодних операцій з’єднання не було застосовано, тому показано одне джерело. Ви можете проаналізувати статистичні дані та деталі про набір даних, вибравши Відкрити блокнот дослідження даних. Цей блокнот дозволяє досліджувати дані, які були доступні до навчання моделі, і містить аналіз цільової змінної, зразок вхідних даних, статистику та опис стовпців і рядків, а також іншу корисну інформацію, яку науковець даних може дізнатися більше про набір даних. Щоб дізнатися більше про цей звіт, див Звіт про дослідження даних.

Після аналізу вхідного набору даних перейдемо до другої вкладки огляду моделі, Робота AutoML. Ця вкладка містить опис завдання AutoML, коли ви вибрали параметр Standard Build у SageMaker Canvas.

Технологія AutoML під SageMaker Canvas усуває важку роботу зі створення моделей ML. Він автоматично створює, навчає та налаштовує найкращу модель машинного навчання на основі ваших даних за допомогою автоматизованого підходу, дозволяючи вам зберігати повний контроль та видимість. Ця видимість на згенерованих моделях-кандидатах, а також гіперпараметри, що використовуються під час процесу AutoML, міститься в ноутбук покоління кандидатів, який доступний на цій вкладці.

Команда Робота AutoML Вкладка також містить список кожної моделі, створеної як частина процесу AutoML, відсортований за метрикою F1. Щоб виділити найкращу модель із запущених навчальних завдань, використовується тег із зеленим колом Найкраща модель колонка. Ви також можете легко візуалізувати інші показники, які використовуються на етапі навчання та оцінки, такі як показник точності та площа під кривою (AUC). Щоб дізнатися більше про моделі, які можна тренувати під час роботи AutoML, і про показники, які використовуються для оцінки ефективності навченої моделі, див. Підтримка моделі, метрики та перевірка.

Щоб дізнатися більше про модель, тепер ви можете клацнути правою кнопкою миші найкращу модель і вибрати Відкрити в деталях моделі. Як варіант, ви можете вибрати Найкраща модель посилання у верхній частині Огляд моделі розділ, який ви вперше відвідали.

Сторінка деталей моделі містить велику кількість корисної інформації щодо моделі, яка найкраще працювала з цими вхідними даними. Давайте спочатку зосередимося на резюме у верхній частині сторінки. Попередній приклад екрана показує, що із сотень навчальних запусків моделі модель XGBoost найкраще працювала на вхідному наборі даних. На момент написання цієї статті SageMaker Canvas міг навчати три типи алгоритмів ML: лінійний навчальний модуль, XGBoost і багатошаровий персептрон (MLP), кожен з яких має широкий спектр конвеєрів попередньої обробки та гіперпараметрів. Щоб дізнатися більше про кожен алгоритм, див сторінка підтримуваних алгоритмів.

SageMaker також містить пояснювальні функції завдяки масштабованій та ефективній реалізації KernelSHAP, заснований на концепції значення Шеплі з області кооперативної теорії ігор, яка присвоює кожній ознакі значення важливості для конкретного передбачення. Це забезпечує прозорість щодо того, як модель досягла своїх прогнозів, і дуже корисно визначити важливість функції. Повний звіт про пояснення, включаючи важливість функцій, можна завантажити у форматі PDF, блокнота або вихідних даних. У цьому звіті показано ширший набір показників, а також повний список гіперпараметрів, які використовуються під час роботи AutoML. Щоб дізнатися більше про те, як SageMaker надає інтегровані інструменти пояснення для рішень AutoML і стандартних алгоритмів ML, див. Використовуйте інтегровані інструменти пояснення та покращуйте якість моделі за допомогою Amazon SageMaker Autopilot.

Нарешті, інші вкладки в цьому поданні показують інформацію про деталі продуктивності (матриця плутанини, крива точного відкликання, крива ROC), артефакти, які використовуються для введення даних і створені під час завдання AutoML, а також відомості про мережу.

На цьому етапі науковець даних має два варіанти: безпосередньо розгорнути модель або створити навчальний конвеєр, який можна запланувати або запустити вручну або автоматично. Наступні розділи надають деяке уявлення про обидва варіанти.

Розгорніть модель безпосередньо

Якщо спеціаліст з даних задоволений результатами, отриманими за допомогою роботи AutoML, він може безпосередньо розгорнути модель із Деталі моделі сторінку. Це так само просто, як вибрати Розгорнути модель поруч із назвою моделі.

SageMaker показує два варіанти розгортання: кінцеву точку в режимі реального часу на основі живлення Кінцеві точки Amazon SageMaker, і пакетний висновок, на основі живлення Пакетне перетворення Amazon SageMaker.

SageMaker також надає інші способи висновку. Щоб дізнатися більше, див Розгортання моделей для висновку.

Щоб увімкнути режим передбачення в реальному часі, ви просто дайте кінцевій точці ім’я, тип екземпляра та кількість екземплярів. Оскільки ця модель не вимагає великих обчислювальних ресурсів, ви можете використовувати екземпляр на основі ЦП з початковим числом 1. Ви можете дізнатися більше про різні типи доступних екземплярів та їх характеристики на сторінці Сторінка цін Amazon SageMaker (в Ціни на вимогу виберіть розділ Висновок у реальному часі вкладка). Якщо ви не знаєте, який екземпляр слід вибрати для свого розгортання, ви також можете попросити SageMaker знайти найкращий для вас відповідно до ваших KPI за допомогою SageMaker Inference Recommender. Ви також можете надати додаткові додаткові параметри щодо того, чи хочете ви отримувати дані запиту та відповіді до або з кінцевої точки. Це може виявитися корисним, якщо ви плануєте моніторинг вашої моделі. Ви також можете вибрати, який вміст ви хочете надати як частину своєї відповіді — чи то лише прогноз чи ймовірність передбачення, ймовірність усіх класів та цільові мітки.

Щоб запустити завдання пакетного підрахунку балів, отримуючи прогнози для всього набору вхідних даних одночасно, ви можете запустити завдання пакетного перетворення з Консоль управління AWS або через SageMaker Python SDK. Щоб дізнатися більше про пакетне перетворення, див Використовуйте пакетне перетворення і приклади зошитів.

Визначте конвеєр навчання

Моделі ML дуже рідко, якщо взагалі взагалі, можна вважати статичними та незмінними, оскільки вони відхиляються від базової лінії, на якій їх навчали. Дані реального світу з часом розвиваються, і на їх основі з’являється все більше моделей та ідей, які можуть бути відображені або не відображені оригінальною моделлю, навченою на історичних даних. Щоб вирішити цю проблему, ви можете налаштувати навчальний конвеєр, який автоматично перенавчає ваші моделі з останніми доступними даними.

Визначаючи цей конвеєр, одним із варіантів спеціаліста з даних є ще раз використовувати AutoML для навчального конвеєра. Ви можете запустити завдання AutoML програмно, викликавши API create_auto_ml_job() з AWS Boto3 SDK. Ви можете викликати цю операцію з an AWS Lambda функція всередині an Функції кроку AWS робочого процесу або з LambdaStep in Трубопроводи Amazon SageMaker.

Крім того, спеціаліст з даних може використовувати знання, артефакти та гіперпараметри, отримані в результаті роботи AutoML, щоб визначити повний навчальний конвеєр. Вам потрібні такі ресурси:

Алгоритм, який найкраще працював у випадку використання – Ви вже отримали цю інформацію з резюме моделі, створеної Canvas. Для цього варіанту використання це вбудований алгоритм XGBoost. Інструкції щодо використання SageMaker Python SDK для навчання алгоритму XGBoost за допомогою SageMaker див. Використовуйте XGBoost з SageMaker Python SDK.

Гіперпараметри, отримані завданням AutoML – Вони доступні в Пояснюваність розділ. Ви можете використовувати їх як вхідні дані під час визначення навчального завдання за допомогою SageMaker Python SDK.

Інженерний код функцій, наданий у розділі Артефакти – Цей код можна використовувати як для попередньої обробки даних перед навчанням (наприклад, через Amazon SageMaker Processing), так і перед висновком (наприклад, як частину конвеєра висновку SageMaker).

Ви можете об’єднати ці ресурси як частину конвеєра SageMaker. Ми опускаємо деталі впровадження в цій публікації — слідкуйте за оновленнями, щоб отримати більше вмісту на цю тему.

Висновок

SageMaker Canvas дозволяє використовувати ML для створення прогнозів без необхідності писати будь-який код. Бізнес-аналітик може самостійно почати використовувати його з локальними наборами даних, а також з даними, які вже зберігаються Служба простого зберігання Amazon (Amazon S3), Амазонська червона зміна, або Сніжинка. Лише кількома клацаннями миші вони можуть підготувати та об’єднати свої набори даних, проаналізувати приблизну точність, перевірити, які стовпці мають вплив, навчити найефективнішу модель і створити нові індивідуальні або пакетні прогнози, і все це без необхідності залучати експерта з обробки даних. Потім, за потреби, вони можуть поділитися моделлю з командою спеціалістів із обробки даних або інженерів MLOps, які імпортують моделі в SageMaker Studio та працюють разом із аналітиком, щоб створити виробниче рішення.

Бізнес-аналітики можуть самостійно отримувати уявлення про свої дані, не маючи ступеня з ML і не писати жодного рядка коду. Тепер науковці з даних можуть мати додатковий час для роботи над складнішими проектами, які можуть краще використовувати свої обширні знання AI та ML.

Ми віримо, що ця нова співпраця відкриває двері для створення багатьох потужніших рішень ML для вашого бізнесу. Тепер у вас є аналітики, які виробляють цінну бізнес-ідею, а науковці з даних та інженери з машинного машинного навчання можуть допомагати вдосконалювати, налаштовувати та розширювати за потреби.

Додаткові ресурси

Щоб дізнатися більше про те, як SageMaker може допомогти бізнес-аналітикам, див Amazon SageMaker для бізнес-аналітиків.
Щоб дізнатися більше про те, як SageMaker дозволяє науковцям з даних розробляти, навчати та впроваджувати свої моделі машинного навчання, перегляньте Amazon SageMaker для Data Scientists.
Для отримання додаткової інформації про те, як SageMaker може допомогти інженерам MLOps в оптимізації життєвого циклу ML за допомогою MLOps, див. Amazon SageMaker для інженерів MLOps.

Про авторів

Давіде Галлітеллі є спеціалістом архітектора рішень для AI/ML у регіоні EMEA. Він базується в Брюсселі і тісно співпрацює з клієнтами по всьому Бенілюксу. Він був розробником з самого дитинства, почавши кодувати у віці 7 років. Він почав вивчати AI/ML в університеті і з тих пір закохався в нього.

Марк Рой є головним архітектором машинного навчання для AWS, який допомагає клієнтам розробляти та створювати рішення AI/ML. Робота Марка охоплює широкий спектр випадків використання машинного навчання, з головним інтересом до комп’ютерного бачення, глибокого навчання та масштабування ML у масштабах підприємства. Він допомагав компаніям у багатьох галузях, включаючи страхування, фінансові послуги, медіа та розваги, охорону здоров’я, комунальні послуги та виробництво. Марк має шість сертифікатів AWS, включаючи сертифікат спеціальності ML. До того, як приєднатися до AWS, Марк був архітектором, розробником і технологічним лідером понад 25 років, у тому числі 19 років у фінансових послугах.

Часова мітка: Березня 10, 2022

Часова мітка: Липень 20, 2022

Перевидано Платоном

Біла книга: найкращі методи машинного навчання в галузі охорони здоров’я та природничих наук

Зменште вартість і час розробки за допомогою локального режиму Amazon SageMaker Pipelines

MLO для пакетного висновку з моніторингом моделі та перенавчанням за допомогою Amazon SageMaker, HashiCorp Terraform і GitLab CI/CD | Веб-сервіси Amazon

Переосмислення даних: використовуйте генеративний штучний інтелект і сучасну архітектуру даних, щоб розблокувати ідеї | Веб-сервіси Amazon

Модеруйте, класифікуйте та обробляйте документи за допомогою Amazon Rekognition і Amazon Textract

Створіть контекстне націлювання на основі таксономії за допомогою AWS Media Intelligence та Hugging Face BERT

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки