Ілюстративні блокноти в Amazon SageMaker JumpStart

Перевидано Платоном

читають: 0

Amazon SageMaker JumpStart це центр машинного навчання (ML) SageMaker, який надає попередньо підготовлені загальнодоступні моделі для широкого діапазону проблем, які допоможуть вам розпочати машинне навчання.

JumpStart також пропонує приклади зошитів, які використовують Amazon SageMaker такі функції, як навчання вибіркового екземпляра та експерименти над великою різноманітністю типів моделей і випадків використання. Ці приклади блокнотів містять код, який показує, як застосовувати рішення ML за допомогою SageMaker і JumpStart. Їх можна адаптувати відповідно до ваших власних потреб і таким чином прискорити розробку програм.

Нещодавно ми додали до JumpStart 10 нових блокнотів Студія Amazon SageMaker. Ця публікація присвячена цим новим ноутбукам. На момент написання цієї статті JumpStart пропонує 56 блокнотів, починаючи від використання найсучасніших моделей обробки природної мови (NLP) і закінчуючи виправленням упереджень у наборах даних під час навчання моделей.

10 нових блокнотів можуть допомогти вам у таких випадках:

Вони пропонують приклад коду, який можна запустити як є з інтерфейсу користувача JumpStart у Studio та подивитися, як працює код
Вони показують використання різних API SageMaker і JumpStart
Вони пропонують технічне рішення, яке ви можете налаштувати відповідно до власних потреб

Кількість блокнотів, які пропонуються через JumpStart, регулярно збільшується, оскільки додається більше блокнотів. Ці блокноти також доступні на GitHub.

Огляд зошитів

10 нових блокнотів:

Навчання в контексті з AlexaTM 20B – Демонструє, як використовувати AlexaTM 20B для навчання в контексті з нульовим і поодиноким навчанням на п’яти прикладах завдань: підсумовування тексту, генерування природної мови, машинний переклад, витягнення відповідей на запитання та висновок і класифікація природної мови.
Справедливість лінійного навчання в SageMaker – Нещодавно виникло занепокоєння щодо упередженості в алгоритмах машинного навчання в результаті імітації існуючих людських упереджень. Цей блокнот застосовує концепції справедливості для відповідного коригування прогнозів моделі.
Керуйте експериментами ML за допомогою SageMaker Search – Пошук Amazon SageMaker дозволяє швидко знаходити та оцінювати найрелевантніші тренінги моделей із потенційно сотень і тисяч робочих місць навчання моделей SageMaker.
Нейронна тематична модель SageMaker – Нейронна тематична модель SageMaker (NTM) — це алгоритм неконтрольованого навчання, який намагається описати набір спостережень як суміш різних категорій.
Прогнозуйте порушення швидкості руху – Алгоритм SageMaker DeepAR можна використовувати для навчання моделі для кількох вулиць одночасно та прогнозування порушень для кількох вуличних камер.
Прогноз раку грудей - У цьому блокноті використовується набір діагностичних даних раку молочної залози UCI, щоб побудувати прогностичну модель того, чи вказує зображення новоутворення грудей на доброякісну чи злоякісну пухлину.
Прогнози ансамблю з кількох моделей – Поєднуючи або усереднюючи прогнози з кількох джерел і моделей, ми зазвичай отримуємо покращений прогноз. Цей блокнот ілюструє цю концепцію.
Асинхронний висновок SageMaker – Асинхронний логічний висновок — це нова опція логічного висновку для потреб майже в реальному часі. Обробка запитів може тривати до 15 хвилин і мати розмір корисного навантаження до 1 ГБ.
TensorFlow принесіть свою власну модель – Дізнайтеся, як навчити модель TensorFlow локально та розгорнути на SageMaker за допомогою цього блокнота.
Scikit-learn принесіть свою власну модель – У цьому блокноті показано, як використовувати попередньо навчену модель навчання Scikit із контейнером навчання Scikit SageMaker, щоб швидко створити розміщену кінцеву точку для цієї моделі.

Передумови

Щоб використовувати ці блокноти, переконайтеся, що у вас є доступ до Studio з роллю виконання, яка дозволяє запускати функції SageMaker. Коротке відео нижче допоможе вам зорієнтуватися в блокнотах JumpStart.

У наступних розділах ми розглядаємо кожне з 10 нових рішень і обговорюємо деякі їх цікаві деталі.

Навчання в контексті з AlexaTM 20B

AlexaTM 20B — це багатозадачна, багатомовна, широкомасштабна модель послідовності до послідовності (seq2seq), навчена на суміші даних Common Crawl (mC4) і даних Вікіпедії 12 мовами, використовуючи завдання усунення шуму та моделювання причинної мови (CLM). Він досягає найсучаснішої продуктивності в таких звичайних мовних завданнях у контексті, як одноразове підсумовування та одноразовий машинний переклад, перевершуючи моделі лише декодера, такі як GPT3 Open AI та PaLM Google, які більш ніж у вісім разів більші.

Навчання в контексті, також відоме як спонукання, відноситься до методу, за якого ви використовуєте модель НЛП для нового завдання без необхідності її тонкого налаштування. Кілька прикладів завдань надаються моделі лише як частина вхідних даних, парадигми, відомої як короткочасне навчання в контексті. У деяких випадках модель може працювати добре без будь-яких тренувальних даних взагалі, лише отримавши пояснення того, що слід передбачити. Це називається безпосереднє навчання в контексті.

Цей блокнот демонструє, як розгорнути AlexaTM 20B через JumpStart API і запустити висновок. Він також демонструє, як AlexaTM 20B можна використовувати для навчання в контексті з п’ятьма прикладами завдань: підсумовування тексту, генерування природної мови, машинний переклад, екстрактивні відповіді на питання, а також висновок і класифікація природної мови.

Ілюстративні блокноти в Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Блокнот демонструє наступне:

Одноразове узагальнення тексту, створення природної мови та машинний переклад з використанням єдиного навчального прикладу для кожного з цих завдань
Нульові відповіді на питання та логічні висновки з природної мови плюс класифікація за допомогою моделі як є, без необхідності надавати будь-які навчальні приклади.

Спробуйте порівняти свій власний текст із цією моделлю та подивіться, як він узагальнює текст, вилучає запитання та відповіді чи перекладає з однієї мови на іншу.

Справедливість лінійного навчання в SageMaker

Нещодавно виникло занепокоєння щодо упередженості в алгоритмах машинного навчання в результаті імітації існуючих людських упереджень. Нині кілька методів ML мають серйозні соціальні наслідки, наприклад, вони використовуються для прогнозування банківських позик, страхових ставок або реклами. На жаль, алгоритм, який навчається на історичних даних, природно успадковує минулі упередження. У цьому блокноті показано, як подолати цю проблему за допомогою SageMaker і чесних алгоритмів у контексті лінійних учнів.

Він починається з представлення деяких концепцій і математики, що лежать в основі справедливості, потім він завантажує дані, навчає модель і, нарешті, застосовує концепції справедливості, щоб належним чином налаштувати прогнози моделі.

Блокнот демонструє наступне:

Запуск стандартної лінійної моделі на наборі даних UCI для дорослих.
Показ несправедливості в прогнозах моделі
Виправлення даних для усунення упередженості
Перенавчання моделі

Спробуйте запустити власні дані, використовуючи цей приклад коду, і визначте, чи є зміщення. Після цього спробуйте усунути зміщення, якщо такі є, у вашому наборі даних за допомогою функцій, наданих у цьому прикладі блокнота.

Керуйте експериментами ML за допомогою SageMaker Search

Пошук SageMaker дозволяє швидко знаходити та оцінювати найрелевантніші тренінги моделей із потенційно сотень і тисяч робочих місць навчання моделей SageMaker. Розробка моделі ML вимагає безперервного експериментування, випробування нових алгоритмів навчання та налаштування гіперпараметрів, спостерігаючи за впливом таких змін на продуктивність і точність моделі. Ця ітеративна вправа часто призводить до вибуху сотень експериментів з навчання моделі та версій моделі, уповільнюючи конвергенцію та відкриття виграшної моделі. Крім того, через інформаційний вибух стає дуже важко відстежити родовід версії моделі — унікальну комбінацію наборів даних, алгоритмів і параметрів, які створили цю модель.

Цей блокнот показує, як використовувати SageMaker Search для швидкого й легкого впорядкування, відстеження й оцінювання завдань навчання моделей у SageMaker. Ви можете здійснювати пошук за всіма визначальними атрибутами використовуваного алгоритму навчання, налаштувань гіперпараметрів, використаних навчальних наборів даних і навіть тегів, які ви додали до навчальних завдань моделі. Ви також можете швидко порівнювати та ранжувати ваші тренувальні прогони на основі їх показників продуктивності, таких як втрати під час навчання та точність перевірки, таким чином створюючи таблиці лідерів для визначення переможних моделей, які можна розгорнути у виробничих середовищах. SageMaker Search може швидко відстежити повне походження версії моделі, розгорнутої в реальному середовищі, аж до наборів даних, які використовуються під час навчання та перевірки моделі.

Блокнот демонструє наступне:

Тренування лінійної моделі тричі
Використання SageMaker Search для організації та оцінки цих експериментів
Візуалізація результатів у таблиці лідерів
Розгортання моделі до кінцевої точки
Відстеження походження моделі, починаючи з кінцевої точки

Під час власної розробки прогностичних моделей ви можете провести кілька експериментів. Спробуйте використовувати SageMaker Search у таких експериментах і відчуйте, як він може допомогти вам різними способами.

Нейронна тематична модель SageMaker

Нейронна тематична модель SageMaker (NTM) — це алгоритм неконтрольованого навчання, який намагається описати набір спостережень як суміш різних категорій. NTM найчастіше використовується для виявлення визначеної користувачем кількості тем, спільних для документів у текстовому корпусі. Тут кожне спостереження є документом, ознаками є присутність (або кількість випадків) кожного слова, а категорії є темами. Оскільки цей метод не контролюється, теми не вказуються заздалегідь і не гарантовано відповідають тому, як людина може природно класифікувати документи. Теми вивчаються як розподіл імовірностей за словами, які зустрічаються в кожному документі. Кожен документ, у свою чергу, описується як суміш тем.

Цей блокнот використовує алгоритм SageMaker NTM для навчання моделі на наборі даних 20NewsGroups. Цей набір даних широко використовувався як еталон тематичного моделювання.

Блокнот демонструє наступне:

Створення навчального завдання SageMaker на наборі даних для створення моделі NTM
Використання моделі для виконання висновків із кінцевою точкою SageMaker
Вивчення навченої моделі та візуалізація вивчених тем

Ви можете легко змінити цей блокнот для роботи з вашими текстовими документами та розділити їх на різні теми.

Прогнозуйте порушення швидкості руху

Цей блокнот демонструє прогнозування часових рядів за допомогою алгоритму SageMaker DeepAR шляхом аналізу набору даних про порушення камер контролю швидкості міста Чикаго. Набір даних розміщується на Data.gov і управляється Службою технологічної трансформації Адміністрації загальних служб США.

Ці порушення фіксуються системами камер і доступні для покращення життя населення через портал даних міста Чикаго. Набір даних про порушення камер контролю швидкості можна використовувати для виявлення закономірностей у даних і отримання суттєвої інформації.

Набір даних містить кілька місць розташування камер і щоденну кількість порушень. Кожен щоденний підрахунок порушень для камери можна вважати окремим часовим рядом. Ви можете використовувати алгоритм SageMaker DeepAR, щоб навчити модель для кількох вулиць одночасно та передбачити порушення для кількох вуличних камер.

Блокнот демонструє наступне:

Навчання алгоритму SageMaker DeepAR на наборі даних часових рядів за допомогою точкових екземплярів
Висновки на основі навченої моделі для прогнозування порушень ПДР

За допомогою цього блокнота ви можете дізнатися, як можна розв’язувати проблеми з часовими рядами за допомогою алгоритму DeepAR у SageMaker, і спробувати застосувати його до власних наборів даних із часовими рядами.

Прогноз раку молочної залози

Цей блокнот містить приклад прогнозування раку молочної залози з використанням набору діагностичних даних раку молочної залози UCI. Він використовує цей набір даних, щоб побудувати прогностичну модель того, чи вказує зображення маси молочної залози на доброякісну чи злоякісну пухлину.

Блокнот демонструє наступне:

Базове налаштування для використання SageMaker
Перетворення наборів даних у формат Protobuf, який використовується алгоритмами SageMaker, і завантаження в Служба простого зберігання Amazon (Amazon S3)
Навчання лінійної моделі учня SageMaker на наборі даних
Розміщення навченої моделі
Оцінка за навченою моделлю

Ви можете переглянути цей блокнот, щоб дізнатися, як вирішити бізнес-проблему за допомогою SageMaker, і зрозуміти кроки, необхідні для навчання та розміщення моделі.

Прогнози ансамблю з кількох моделей

У практичних застосуваннях ML для прогнозних завдань однієї моделі часто недостатньо. Більшість конкурсів передбачень зазвичай вимагають об’єднання прогнозів із кількох джерел для отримання кращого прогнозу. Поєднуючи або усереднюючи прогнози з кількох джерел або моделей, ми зазвичай отримуємо покращений прогноз. Це відбувається тому, що існує значна невизначеність у виборі моделі, і в багатьох практичних застосуваннях немає єдиної справжньої моделі. Тому корисно поєднувати прогнози з різних моделей. У байєсівській літературі ця ідея називається усередненням байєсівської моделі, і було показано, що вона працює набагато краще, ніж просто вибір однієї моделі.

У цьому зошиті наведено наочний приклад, який дозволяє передбачити, чи заробляє людина понад 50,000 XNUMX доларів на рік на основі інформації про її освіту, досвід роботи, стать тощо.

Блокнот демонструє наступне:

Підготовка блокнота SageMaker
Завантаження набору даних з Amazon S3 за допомогою SageMaker
Дослідження та перетворення даних, щоб їх можна було передати в алгоритми SageMaker
Оцінка моделі за допомогою алгоритму SageMaker XGBoost (Extreme Gradient Boosting)
Розміщення моделі на SageMaker, щоб робити поточні прогнози
Оцінка другої моделі за допомогою лінійного методу учня SageMaker
Об’єднання прогнозів з обох моделей і оцінка комбінованого прогнозу
Створення остаточних прогнозів на тестовому наборі даних

Спробуйте запустити цей блокнот на своєму наборі даних і використати кілька алгоритмів. Спробуйте поекспериментувати з різними комбінаціями моделей, запропонованими SageMaker і JumpStart, і подивіться, яка комбінація ансамблю моделей дає найкращі результати на ваших власних даних.

Асинхронний висновок SageMaker

Асинхронний висновок SageMaker — це нова можливість у SageMaker, яка ставить у чергу вхідні запити та обробляє їх асинхронно. Наразі SageMaker пропонує клієнтам два варіанти висновків для розгортання моделей ML: варіант у реальному часі для робочих навантажень з низькою затримкою та пакетне перетворення, автономний варіант для обробки запитів на висновки щодо пакетів даних, доступних заздалегідь. Висновок у реальному часі підходить для робочих навантажень із розміром корисного навантаження менше 6 МБ і потребує обробки запитів на висновок протягом 60 секунд. Пакетне перетворення підходить для офлайнового висновку щодо пакетів даних.

Асинхронний логічний висновок — це нова опція логічного висновку для потреб майже в реальному часі. Обробка запитів може тривати до 15 хвилин і мати розмір корисного навантаження до 1 ГБ. Асинхронний висновок підходить для робочих навантажень, які не мають вимог до субсекундної затримки та мають послаблені вимоги до затримки. Наприклад, вам може знадобитися обробити висновок на великому зображенні в кілька МБ протягом 5 хвилин. Крім того, кінцеві точки асинхронного висновку дозволяють контролювати витрати, зменшуючи кількість екземплярів кінцевих точок до нуля, коли вони неактивні, тому ви платите лише тоді, коли ваші кінцеві точки обробляють запити.

Блокнот демонструє наступне:

Створення моделі SageMaker
Створення кінцевої точки за допомогою цієї моделі та конфігурації асинхронного висновку
Створення прогнозів щодо цієї асинхронної кінцевої точки

У цьому блокноті показано робочий приклад об’єднання асинхронної кінцевої точки для моделі SageMaker.

TensorFlow принесіть свою власну модель

Модель TensorFlow навчається локально на класифікаційному завданні, де виконується цей блокнот. Потім його розгортають на кінцевій точці SageMaker.

Блокнот демонструє наступне:

Навчання моделі TensorFlow локально на наборі даних IRIS
Імпорт цієї моделі в SageMaker
Розміщення на кінцевій точці

Якщо у вас є моделі TensorFlow, які ви розробили самостійно, цей приклад блокнота може допомогти вам розмістити свою модель на керованій кінцевій точці SageMaker.

Scikit-learn принесіть свою власну модель

SageMaker містить функціональні можливості для підтримки середовища розміщеного ноутбука, розподіленого навчання без сервера та розміщення в реальному часі. Найкраще працює, коли всі ці три служби використовуються разом, але їх також можна використовувати окремо. Деякі випадки використання можуть потребувати лише розміщення. Можливо, модель була навчена до появи SageMaker в іншому сервісі.

Блокнот демонструє наступне:

Використання попередньо навченої моделі Scikit-learn із контейнером Scikit-learn SageMaker для швидкого створення розміщеної кінцевої точки для цієї моделі

Якщо у вас є моделі Scikit-learn, які ви розробили самостійно, цей приклад блокнота може допомогти вам розмістити вашу модель на керованій кінцевій точці SageMaker.

Очистити ресурси

Після того, як ви закінчите працювати з блокнотом у JumpStart, переконайтеся, що Видалити всі ресурси так що всі ресурси, які ви створили в процесі, буде видалено, а виставлення рахунків припинено. Остання клітинка в цих блокнотах зазвичай видаляє створені кінцеві точки.

Підсумки

Ця публікація познайомила вас із 10 новими прикладами записників, які нещодавно були додані до JumpStart. Хоча ця публікація зосереджена на цих 10 нових блокнотах, на момент написання цієї публікації доступно 56 блокнотів. Ми заохочуємо вас увійти до Studio та самостійно дослідити блокноти JumpStart і почати отримувати з них негайну користь. Для отримання додаткової інформації зверніться до Студія Amazon SageMaker та SageMaker JumpStart.

Про автора

Доктор Раджу Пенматча є архітектором рішень AI/ML у сфері платформ AI в AWS. Він отримав ступінь доктора філософії в Стенфордському університеті. Він тісно співпрацює з пакетом послуг SageMaker з низьким рівнем/без коду, який допомагає клієнтам легко створювати та розгортати моделі та рішення машинного навчання.

Часова мітка: 1 Грудня, 20222 Грудня, 2022

Часова мітка: Жовтень 2, 2023

Ілюстративні блокноти в Amazon SageMaker JumpStart

Перевидано Платоном

Огляд зошитів

Передумови

Навчання в контексті з AlexaTM 20B

Справедливість лінійного навчання в SageMaker

Керуйте експериментами ML за допомогою SageMaker Search

Нейронна тематична модель SageMaker

Прогнозуйте порушення швидкості руху

Прогноз раку молочної залози

Прогнози ансамблю з кількох моделей

Асинхронний висновок SageMaker

TensorFlow принесіть свою власну модель

Scikit-learn принесіть свою власну модель

Очистити ресурси

Підсумки

Про автора

Більше від AWS Машинне навчання

Розгорніть BLOOM-176B і OPT-30B на Amazon SageMaker із великими контейнерами глибокого навчання та DeepSpeed.

Як Synamedia використовує Amazon Rekognition Video для створення розширених можливостей пошуку відео для довгого відео

Комп’ютерний зір із використанням синтетичних наборів даних із користувацькими етикетками Amazon Rekognition та Dassault Systèmes 3DEXCITE

Читайте веб-сторінки та виділіть вміст за допомогою Amazon Polly

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки