Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань

Дані змінюють кожну сферу та кожен бізнес. Однак, оскільки обсяг даних зростає швидше, ніж можуть відстежувати більшість компаній, збирати дані та отримувати від них користь – це складна справа. А сучасна стратегія даних може допомогти вам досягти кращих бізнес-результатів за допомогою даних. AWS надає найповніший набір послуг для наскрізна передача даних , Щоб допомогти вам розблокувати цінність ваших даних і перетворити це на розуміння.

Науковці даних можуть витрачати до 80% свого часу на підготовку даних для проектів машинного навчання (ML). Цей процес підготовки є здебільшого недиференційованою та виснажливою роботою, яка може включати численні API програмування та спеціальні бібліотеки. Amazon SageMaker Data Wrangler допомагає науковцям та інженерам даних спростити та прискорити підготовку табличних і часових рядів даних та розробку функцій за допомогою візуального інтерфейсу. Ви можете імпортувати дані з кількох джерел даних, наприклад Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона змінаабо навіть рішення сторонніх розробників, як Сніжинка or DataBricks, а також обробляти ваші дані за допомогою понад 300 вбудованих перетворень даних і бібліотеки фрагментів коду, щоб ви могли швидко нормалізувати, трансформувати та комбінувати функції без написання коду. Ви також можете перенести власні трансформації в PySpark, SQL або Pandas.

Ця публікація демонструє, як можна запланувати автоматичне виконання завдань підготовки даних. Ми також досліджуємо нову можливість Data Wrangler параметризованих наборів даних, яка дозволяє вказувати файли, які слід включити в потік даних за допомогою параметризованих URI.

Огляд рішення

Data Wrangler тепер підтримує імпорт даних за допомогою параметризованого URI. Це забезпечує додаткову гнучкість, оскільки тепер ви можете імпортувати всі набори даних, які відповідають указаним параметрам, які можуть бути типу String, Number, Datetime та Pattern, в URI. Крім того, тепер ви можете запускати завдання трансформації Data Wrangler за розкладом.

У цій публікації ми створюємо зразок потоку з набором даних Titanic, щоб показати, як можна почати експериментувати з цими двома новими функціями Data Wrangler. Щоб завантажити набір даних, зверніться до Титанік – машинне навчання після катастрофи.

Передумови

Щоб отримати всі функції, описані в цій публікації, вам потрібно запустити останню версію ядра Data Wrangler. Для отримання додаткової інформації див Оновити Data Wrangler. Крім того, вам потрібно бігати Студія Amazon SageMaker JupyterLab 3. Щоб переглянути поточну версію та оновити її, зверніться до Версій JupyterLab.

Структура файлу

Для цієї демонстрації ми дотримуємося простої файлової структури, яку ви повинні відтворити, щоб відтворити кроки, описані в цій публікації.

  1. У студії, створити новий блокнот.
  2. Запустіть наведений нижче фрагмент коду, щоб створити структуру папок, яку ми використовуємо (переконайтеся, що ви перебуваєте в потрібній папці в дереві файлів):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. Скопіюйте train.csv та test.csv файли з оригінального набору даних Titanic до папок titanic_dataset/train та titanic_dataset/test, відповідно.
  4. Запустіть наведений нижче фрагмент коду, щоб заповнити папки необхідними файлами:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Ми розділили train.csv файл набору даних "Титаніка" на дев'ять різних файлів з назвами part_x, де х – номер деталі. Частина 0 містить перші 100 записів, частина 1 — наступні 100 і так далі до частини 8. Кожна папка вузла дерева файлів містить копію дев’яти частин навчальних даних, за винятком train та test папки, які містять train.csv та test.csv.

Параметризовані набори даних

Користувачі Data Wrangler тепер можуть вказувати параметри для наборів даних, імпортованих із Amazon S3. Параметри набору даних указано в URI ресурсів, і його значення можна динамічно змінювати, що забезпечує більшу гнучкість вибору файлів, які ми хочемо імпортувати. Параметри можуть бути чотирьох типів даних:

  • Номер – Може приймати значення будь-якого цілого числа
  • рядок – Може приймати значення будь-якого текстового рядка
  • Викрійки – Може приймати значення будь-якого регулярного виразу
  • Дата, час – Може приймати значення будь-якого з підтримуваних форматів дати/часу

У цьому розділі ми пропонуємо покрокове керівництво цією новою функцією. Це доступно лише після імпорту набору даних у поточний потік і лише для наборів даних, імпортованих із Amazon S3.

  1. У потоці даних виберіть знак плюс (+) поруч із кроком імпорту та виберіть Редагувати набір даних.
  2. Найкращий (і найпростіший) спосіб створення нових параметрів – це виділити розділ вашого URI та вибрати Створити власний параметр у спадному меню. Вам потрібно вказати чотири речі для кожного параметра, який ви хочете створити:
    1. ІМ'Я
    2. тип
    3. Значення за замовчуванням
    4. Опис

    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Тут ми створили параметр типу String під назвою filename_param зі значенням за замовчуванням train.csv. Тепер ви можете побачити назву параметра, укладену в подвійні дужки, замінюючи частину URI, яку ми раніше виділили. Оскільки визначене значення цього параметра було train.csv, тепер ми бачимо файл train.csv перераховані в таблиці імпорту.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

  3. Коли ми намагаємося створити завдання трансформації, на Налаштувати завдання крок, тепер ми бачимо a параметри розділ, де ми можемо побачити список усіх визначених нами параметрів.
  4. Вибір параметра дає нам можливість змінити значення параметра, у цьому випадку змінюючи вхідний набір даних, який буде перетворено відповідно до визначеного потоку.
    Припустимо, що ми змінимо значення filename_param від train.csv до part_0.csv, виконується робота з перетворення part_0.csv (за умови, що файл із назвою part_0.csv існує в тій же папці), що й нові вхідні дані.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. Крім того, якщо ви спробуєте експортувати свій потік до пункту призначення Amazon S3 (через блокнот Jupyter), тепер ви побачите нову клітинку, що містить параметри, які ви визначили.
    Зверніть увагу, що параметр приймає значення за замовчуванням, але ви можете змінити його, замінивши його значення в parameter_overrides словник (при цьому ключі словника залишаються без змін).
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Крім того, ви можете створити нові параметри з параметри UI.
  6. Відкрийте його, вибравши піктограму параметрів ({{}}), розташований поруч із Go варіант; обидва вони розташовані поруч із значенням шляху URI.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Відкриється таблиця з усіма параметрами, які наразі існують у вашому файлі потоку (filename_param на даному етапі).
  7. Ви можете створити нові параметри для свого потоку, вибравши Створити параметр.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Відкриється спливаюче вікно, у якому можна створити новий спеціальний параметр.
  8. Ось ми створили новий example_parameter як тип числа зі значенням за замовчуванням 0. Цей щойно створений параметр тепер перераховано в параметри стіл. Наведення курсора на параметр відображає параметри Редагувати, видаляти та Insert.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  9. Зсередини параметри UI, ви можете вставити один із ваших параметрів до URI, вибравши потрібний параметр і вибравши Insert.
    Це додає параметр у кінець вашого URI. Вам потрібно перемістити його до потрібного розділу вашого URI.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  10. Змініть значення параметра за замовчуванням, застосуйте зміни (з модального), виберіть Goі виберіть піктограму оновлення, щоб оновити список попереднього перегляду за допомогою вибраного набору даних на основі щойно визначеного значення параметра.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Давайте тепер розглянемо інші типи параметрів. Припустімо, що тепер у нас є набір даних, розділений на кілька частин, де кожен файл має номер частини.
  11. Якщо ми хочемо динамічно змінювати номер файлу, ми можемо визначити параметр Number, як показано на наступному знімку екрана.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Зауважте, що вибраний файл відповідає номеру, указаному в параметрі.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Тепер давайте продемонструємо, як використовувати параметр Pattern. Припустимо, ми хочемо імпортувати всі part_1.csv файли в усіх папках під titanic-dataset/ папку. Параметри шаблону можуть приймати будь-який дійсний регулярний вираз; як приклади наведено кілька шаблонів регулярних виразів.
  12. Створіть параметр шаблону, який називається any_pattern щоб відповідати будь-якій папці чи файлу під titanic-dataset/ папка зі значенням за замовчуванням .*.Зверніть увагу, що символ підстановки — це не одна * (зірочка), а також крапка.
  13. Виділіть titanic-dataset/ частину шляху та створіть спеціальний параметр. Цього разу ми вибираємо Викрійки типОтримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Цей шаблон вибирає всі викликані файли part-1.csv з будь-якої з папок нижче titanic-dataset/.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Параметр можна використовувати кілька разів у шляху. У наступному прикладі ми використовуємо наш щойно створений параметр any_pattern двічі в нашому URI, щоб відповідати будь-якому з файлів частини в будь-якій папці під titanic-dataset/.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Нарешті, давайте створимо параметр Datetime. Параметри дати й часу корисні, коли ми маємо справу зі шляхами, розділеними за датою та часом, як ті, що генеруються Amazon Kinesis Data Firehose (Див. Динамічне розділення в Kinesis Data Firehose). Для цієї демонстрації ми використовуємо дані з папки datetime-data.
  14. Виберіть частину шляху, яка є датою/часом, і створіть настроюваний параметр. Виберіть Дата, час тип параметра.
    Вибираючи тип даних Datetime, потрібно вказати більше деталей.
  15. Перш за все, ви повинні вказати формат дати. Ви можете вибрати будь-який із попередньо визначених форматів дати/часу або створити власний.
    Для попередньо визначених форматів дати/часу легенда містить приклад дати, що відповідає вибраному формату. Для цієї демонстрації ми вибираємо формат рррр/ММ/дд.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  16. Далі вкажіть часовий пояс для значень дати й часу.
    Наприклад, поточна дата може бути 1 січня 2022 року в одному часовому поясі, але може бути 2 січня 2022 року в іншому часовому поясі.
  17. Нарешті, ви можете вибрати часовий діапазон, який дає змогу вибрати діапазон файлів, які ви хочете включити у свій потік даних.
    Ви можете вказати часовий діапазон у годинах, днях, тижнях, місяцях або роках. Для цього прикладу ми хочемо отримати всі файли за останній рік.
  18. Надайте опис параметра та виберіть Створювати.
    Якщо ви використовуєте кілька наборів даних із різними часовими поясами, час не конвертується автоматично; вам потрібно попередньо обробити кожен файл або джерело, щоб конвертувати його в один часовий пояс.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Вибрані файли — це всі файли в папках, що відповідають даним минулого року.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  19. Тепер, якщо ми створюємо завдання перетворення даних, ми можемо побачити список усіх визначених нами параметрів і можемо змінити їхні значення за замовчуванням, щоб наші завдання перетворення вибирали вказані файли.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Розклад робіт з обробки

Тепер ви можете планувати завдання обробки для автоматизації виконання завдань перетворення даних і експорту перетворених даних до Amazon S3 або Магазин функцій Amazon SageMaker. Ви можете запланувати роботу з часом і періодичністю, яка відповідає вашим потребам.

Використання завдань обробки за розкладом Amazon EventBridge Правила щоб запланувати виконання завдання. Тому, як передумова, ви повинні переконатися, що Управління ідентифікацією та доступом AWS (IAM), яку використовує Data Wrangler, а саме Amazon SageMaker виконавча роль екземпляра Studio має дозволи на створення правил EventBridge.

Налаштувати IAM

Продовжуйте з наступними оновленнями щодо ролі виконання IAM SageMaker, що відповідає екземпляру Studio, де запущено потік Data Wrangler:

  1. Прикріпіть AmazonEventBridgeFullAccess керована політика.
  2. Додайте політику для надання дозволу на створення завдання обробки:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Надайте EventBridge дозвіл на виконання ролі, додавши таку політику довіри:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

Крім того, якщо ви використовуєте іншу роль для виконання завдання обробки, застосуйте до цієї ролі політики, описані в кроках 2 і 3. Докладніше про конфігурацію IAM див Створіть розклад для автоматичної обробки нових даних.

Створіть розклад

Щоб створити розклад, відкрийте свій потік у редакторі потоку Data Wrangler.

  1. на Потік даних вкладку, виберіть Створити роботу.
  2. Налаштуйте необхідні поля та виберіть Далі 2. Налаштувати завдання.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. Розширювати Асоційовані графіки.
  4. Вибирати Створіть новий розклад.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Команда Створіть новий розклад Відкриється діалогове вікно, де ви визначаєте деталі розкладу завдань обробки.
    Діалогове вікно забезпечує велику гнучкість, щоб допомогти вам визначити розклад. Ви можете, наприклад, виконати завдання обробки в певний час або кожні X годин у певні дні тижня.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Періодичність може бути гранульованою до рівня хвилин.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. Визначте назву розкладу та періодичність, а потім виберіть Створювати щоб зберегти розклад.
  6. У вас є можливість розпочати завдання обробки відразу разом із плануванням, яке піклується про майбутні запуски, або залишити завдання виконуватися лише за розкладом.
  7. Ви також можете визначити додатковий розклад для того самого завдання обробки.
    Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  8. Щоб завершити розклад завдання обробки, виберіть Створювати.
    Ви бачите повідомлення «Завдання заплановано успішно». Крім того, якщо ви вирішили залишити завдання виконуватися лише за розкладом, ви побачите посилання на щойно створене правило EventBridge.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Якщо вибрати посилання розкладу, у браузері відкриється нова вкладка з правилом EventBridge. На цій сторінці ви можете вносити подальші зміни в правило та відстежувати історію його викликів. Щоб припинити виконання запланованого завдання обробки, видаліть правило події, яке містить назву розкладу.

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Правило EventBridge показує конвеєр SageMaker як ціль, який запускається відповідно до визначеного розкладу, а завдання обробки викликається як частина конвеєра.

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Щоб відстежувати запуски конвеєра SageMaker, ви можете повернутися до Studio, вибрати Ресурси SageMaker піктограму, виберіть Трубопроводиі виберіть назву конвеєра, який потрібно відстежувати. Тепер ви можете побачити таблицю з усіма поточними та минулими запусками та статусом цього конвеєра.

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ви можете побачити більше деталей, двічі клацнувши певний запис.

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Прибирати

Якщо ви не використовуєте Data Wrangler, радимо вимкнути екземпляр, на якому він працює, щоб уникнути додаткових зборів.

Щоб уникнути втрати роботи, збережіть потік даних, перш ніж вимикати Data Wrangler.

  1. Щоб зберегти потік даних у Studio, виберіть філе, Потім виберіть Збереження потоку даних Wrangler. Data Wrangler автоматично зберігає ваш потік даних кожні 60 секунд.
  2. Щоб вимкнути екземпляр Data Wrangler, виберіть у Studio Запуск екземплярів та ядер.
  3. під ЗАПУЩЕНІ ПРОГРАМИвиберіть піктограму завершення роботи поруч із sagemaker-data-wrangler-1.0 додатокОтримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  4. Вибирати Вимкнути все підтвердити.Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Data Wrangler працює на примірнику ml.m5.4xlarge. Цей екземпляр зникає з ЗАПУСКАНІ ЕКЗЕМПЛЯРИ коли ви закриваєте програму Data Wrangler.

Після завершення роботи програми Data Wrangler її потрібно буде перезапустити, коли ви наступного разу відкриєте файл потоку Data Wrangler. Це може тривати кілька хвилин.

Висновок

У цій публікації ми продемонстрували, як можна використовувати параметри для імпорту наборів даних за допомогою потоків Data Wrangler і створення на них завдань перетворення даних. Параметризовані набори даних забезпечують більшу гнучкість наборів даних, які ви використовуєте, і дозволяють повторно використовувати свої потоки. Ми також продемонстрували, як ви можете налаштувати заплановані завдання для автоматизації перетворення даних і експорту в Amazon S3 або Feature Store у час і з періодичністю, які відповідають вашим потребам, безпосередньо з інтерфейсу користувача Data Wrangler.

Щоб дізнатися більше про використання потоків даних із Data Wrangler, див Створення та використання потоку даних Wrangler та Ціни на Amazon SageMaker. Щоб почати роботу з Data Wrangler, див Підготуйте дані ML за допомогою Amazon SageMaker Data Wrangler.


Про авторів

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Девід Ларедо є архітектором прототипування команди прототипування та хмарної інженерії в Amazon Web Services, де він допоміг розробити кілька прототипів машинного навчання для клієнтів AWS. Протягом останніх 6 років він працював у сфері машинного навчання, тренував і налагоджував моделі машинного навчання та впроваджував наскрізні конвеєри для виробництва цих моделей. Сфери його інтересів – НЛП, додатки ML і наскрізне ML.

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Гіванільдо Алвес є архітектором прототипування в групі прототипування та хмарної інженерії в Amazon Web Services, допомагаючи клієнтам впроваджувати інновації та прискорюватися, демонструючи мистецтво можливого на AWS, уже реалізувавши кілька прототипів на основі штучного інтелекту. Він має довгу кар’єру в розробці програмного забезпечення, а раніше працював інженером з розробки програмного забезпечення в Amazon.com.br.

Отримайте більше контролю над робочими навантаженнями Amazon SageMaker Data Wrangler за допомогою параметризованих наборів даних і запланованих завдань PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Адріан Фуентес є менеджером програм у групі прототипування та хмарної інженерії Amazon Web Services, впроваджуючи інновації для клієнтів у сфері машинного навчання, Інтернету речей та блокчейну. Він має понад 15 років досвіду управління та реалізації проектів і 1 рік роботи в AWS.

Часова мітка:

Більше від AWS Машинне навчання