Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий

Переиздано Платоном

Читают: 0

Данные трансформируют каждую область и каждый бизнес. Однако, учитывая, что данные растут быстрее, чем большинство компаний могут их отслеживать, сбор данных и извлечение из них полезной информации становится сложной задачей. А современная стратегия данных может помочь вам добиться лучших бизнес-результатов с помощью данных. AWS предоставляет наиболее полный набор сервисов для сквозной путь передачи данных , чтобы помочь вам разблокировать ценность ваших данных и превратить его в понимание.

Специалисты по данным могут тратить до 80 % своего времени на подготовку данных для проектов машинного обучения (ML). Этот процесс подготовки в значительной степени представляет собой однообразную и утомительную работу и может включать в себя несколько программных API и пользовательских библиотек. Обработчик данных Amazon SageMaker помогает специалистам по данным и инженерам данных упростить и ускорить подготовку табличных данных и данных временных рядов, а также разработку функций с помощью визуального интерфейса. Вы можете импортировать данные из нескольких источников данных, таких как Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshiftили даже сторонние решения, такие как Снежинка or DataBricks, и обрабатывайте свои данные с помощью более 300 встроенных преобразований данных и библиотеки фрагментов кода, чтобы вы могли быстро нормализовать, преобразовывать и комбинировать функции без написания кода. Вы также можете использовать собственные преобразования в PySpark, SQL или Pandas.

В этом посте показано, как можно запланировать автоматический запуск заданий по подготовке данных. Мы также изучаем новую возможность Data Wrangler для параметризованных наборов данных, которая позволяет указывать файлы для включения в поток данных с помощью параметризованных URI.

Обзор решения

Data Wrangler теперь поддерживает импорт данных с использованием параметризованного URI. Это обеспечивает дополнительную гибкость, поскольку теперь вы можете импортировать все наборы данных, соответствующие указанным параметрам, которые могут иметь тип String, Number, Datetime и Pattern, в URI. Кроме того, теперь вы можете запускать задания преобразования Data Wrangler по расписанию.

В этом посте мы создаем пример потока с набором данных Titanic, чтобы показать, как вы можете начать экспериментировать с этими двумя новыми функциями Data Wrangler. Чтобы загрузить набор данных, см. «Титаник» — машинное обучение на основе катастроф.

Предпосылки

Чтобы получить все функции, описанные в этом посте, вам необходимо использовать последнюю версию ядра Data Wrangler. Для получения дополнительной информации см. Обновление обработчика данных. Кроме того, вам нужно запустить Студия Amazon SageMaker JupyterLab 3. Чтобы просмотреть текущую версию и обновить ее, см. Версии JupyterLab.

Файловая структура

Для этой демонстрации мы используем простую файловую структуру, которую вы должны реплицировать, чтобы воспроизвести шаги, описанные в этом посте.

В студии, создать новый блокнот.

Запустите следующий фрагмент кода, чтобы создать структуру папок, которую мы используем (убедитесь, что вы находитесь в нужной папке в дереве файлов):

!mkdir titanic_dataset
!mkdir titanic_dataset/datetime_data
!mkdir titanic_dataset/datetime_data/2021
!mkdir titanic_dataset/datetime_data/2022

!mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
!mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
!mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
!mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06

!mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
!mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
!mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
!mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01

!mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
!mkdir titanic_dataset/train titanic_dataset/test

Скопируйте train.csv и test.csv файлы из исходного набора данных Титаника в папки titanic_dataset/train и titanic_dataset/test, Соответственно.

Запустите следующий фрагмент кода, чтобы заполнить папки необходимыми файлами:

import os
import math
import pandas as pd
batch_size = 100

#Get a list of all the leaf nodes in the folder structure
leaf_nodes = []

for root, dirs, files in os.walk('titanic_dataset'):
    if not dirs:
        if root != "titanic_dataset/test" and root != "titanic_dataset/train":
            leaf_nodes.append(root)
            
titanic_df = pd.read_csv('titanic_dataset/train/train.csv')

#Create the mini batch files
for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
    batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
    
    #Place a copy of each mini batch in each one of the leaf folders
    for node in leaf_nodes:
        batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Мы разделили train.csv файл набора данных Титаника на девять разных файлов, названных part_x, где х - номер детали. Часть 0 содержит первые 100 записей, часть 1 — следующие 100 и так далее до части 8. Каждая папка узла дерева файлов содержит копию девяти частей обучающих данных, за исключением train и test папки, которые содержат train.csv и test.csv.

Параметризованные наборы данных

Пользователи Data Wrangler теперь могут указывать параметры для наборов данных, импортированных из Amazon S3. Параметры набора данных указываются в URI ресурса, и его значение может быть изменено динамически, что обеспечивает большую гибкость при выборе файлов, которые мы хотим импортировать. Параметры могут быть четырех типов данных:

Номер регистрации - Может принимать значение любого целого числа
строка - Может принимать значение любой текстовой строки
шаблон - Может принимать значение любого регулярного выражения
Datetime – Может принимать значение любого из поддерживаемых форматов даты/времени.

В этом разделе мы представляем пошаговое руководство по этой новой функции. Это доступно только после импорта набора данных в текущий поток и только для наборов данных, импортированных из Amazon S3.

В потоке данных выберите знак плюс (+) рядом с шагом импорта и выберите Изменить набор данных.
Предпочтительный (и самый простой) способ создания новых параметров — выделение раздела вашего URI и выбор Создать специальный параметр в раскрывающемся меню. Вам нужно указать четыре вещи для каждого параметра, который вы хотите создать:
1. Фамилия
2. Тип
3. Значение по умолчанию
4. Описание
Здесь мы создали параметр типа String с именем filename_param со значением по умолчанию train.csv. Теперь вы можете видеть имя параметра, заключенное в двойные скобки, заменяя часть URI, которую мы ранее выделили. Поскольку определенное значение для этого параметра было train.csv, теперь мы видим файл train.csv перечислены в таблице импорта.
Когда мы пытаемся создать задание преобразования, на Настроить задание шаг, теперь мы видим параметры раздел, где мы можем увидеть список всех наших определенных параметров.
Выбор параметра дает нам возможность изменить значение параметра, в данном случае изменив набор входных данных для преобразования в соответствии с определенным потоком.
Предположим, что мы изменили значение filename_param от train.csv в part_0.csv, задание преобразования теперь занимает part_0.csv (при условии, что файл с именем part_0.csv находится в той же папке), что и его новые входные данные.
Кроме того, если вы попытаетесь экспортировать свой поток в пункт назначения Amazon S3 (через блокнот Jupyter), вы увидите новую ячейку, содержащую определенные вами параметры.
Обратите внимание, что параметр принимает значение по умолчанию, но вы можете изменить его, заменив его значение в parameter_overrides словарь (при этом ключи словаря оставляем без изменений).

Кроме того, вы можете создавать новые параметры из параметры UI.
Откройте его, выбрав значок параметров ({{}}) находится рядом с Go вариант; оба они расположены рядом со значением пути URI.
Откроется таблица со всеми параметрами, которые в настоящее время существуют в вашем файле потока (filename_param в этот момент).
Вы можете создать новые параметры для своего потока, выбрав Создать параметр.

Откроется всплывающее окно, в котором можно создать новый настраиваемый параметр.
Здесь мы создали новый example_parameter как числовой тип со значением по умолчанию 0. Этот вновь созданный параметр теперь указан в параметры стол. При наведении курсора на параметр отображаются параметры Редактировать, Удалитьи Вставить.
Изнутри параметры пользовательского интерфейса, вы можете вставить один из ваших параметров в URI, выбрав нужный параметр и выбрав Вставить.
Это добавит параметр в конец вашего URI. Вам нужно переместить его в нужный раздел вашего URI.
Измените значение параметра по умолчанию, примените изменение (из модального), выберите Goи выберите значок обновления, чтобы обновить список предварительного просмотра, используя выбранный набор данных на основе вновь определенного значения параметра.Давайте теперь рассмотрим другие типы параметров. Предположим, теперь у нас есть набор данных, разделенный на несколько частей, где каждый файл имеет номер части.
Если мы хотим динамически изменять номер файла, мы можем определить параметр Number, как показано на следующем снимке экрана.Обратите внимание, что выбран файл, который соответствует номеру, указанному в параметре.
Теперь давайте продемонстрируем, как использовать параметр Pattern. Предположим, мы хотим импортировать все part_1.csv файлы во всех папках под titanic-dataset/ папка. Параметры шаблона могут принимать любое допустимое регулярное выражение; в качестве примеров показаны некоторые шаблоны регулярных выражений.
Создайте параметр шаблона с именем any_pattern чтобы соответствовать любой папке или файлу в titanic-dataset/ папка со значением по умолчанию .*.Обратите внимание, что подстановочный знак — это не одна * (звездочка), а точка.
Выделить titanic-dataset/ часть пути и создайте настраиваемый параметр. На этот раз мы выбираем шаблон тип.Этот шаблон выбирает все файлы с именем part-1.csv из любой из папок в titanic-dataset/.
Параметр может использоваться более одного раза в пути. В следующем примере мы используем наш вновь созданный параметр any_pattern дважды в нашем URI, чтобы соответствовать любому файлу детали в любой из папок в titanic-dataset/.
Наконец, давайте создадим параметр Datetime. Параметры даты и времени полезны, когда мы имеем дело с путями, разделенными по дате и времени, например, сгенерированными Пожарный шланг данных Amazon Kinesis (См. Динамическое секционирование в Kinesis Data Firehose). Для этой демонстрации мы используем данные из папки datetime-data.
Выберите часть вашего пути, которая является датой/временем, и создайте настраиваемый параметр. Выбрать Datetime тип параметра.
При выборе типа данных Datetime необходимо указать дополнительные сведения.
Прежде всего, вы должны указать формат даты. Вы можете выбрать любой из предопределенных форматов даты/времени или создать собственный.
Для предопределенных форматов даты/времени в легенде приводится пример даты, соответствующей выбранному формату. Для этой демонстрации мы выбираем формат гггг / ММ / дд.
Затем укажите часовой пояс для значений даты/времени.
Например, текущая дата может быть 1 января 2022 года в одном часовом поясе, но может быть 2 января 2022 года в другом часовом поясе.
Наконец, вы можете выбрать временной диапазон, который позволяет выбрать диапазон файлов, которые вы хотите включить в свой поток данных.
Вы можете указать временной диапазон в часах, днях, неделях, месяцах или годах. Для этого примера мы хотим получить все файлы за последний год.
Введите описание параметра и выберите Создавай.
Если вы используете несколько наборов данных с разными часовыми поясами, время не преобразуется автоматически; вам необходимо предварительно обработать каждый файл или источник, чтобы преобразовать его в один часовой пояс.Выбранные файлы — это все файлы в папках, соответствующих прошлогодним данным.
Теперь, если мы создадим задание преобразования данных, мы сможем увидеть список всех определенных нами параметров и можем переопределить их значения по умолчанию, чтобы наши задания преобразования выбирали указанные файлы.

Расписание заданий обработки

Теперь вы можете запланировать задания обработки, чтобы автоматизировать выполнение заданий преобразования данных и экспорт преобразованных данных в Amazon S3 или Магазин функций Amazon SageMaker. Вы можете запланировать задания со временем и периодичностью, которые соответствуют вашим потребностям.

Использование запланированных заданий обработки Amazon EventBridge условиями, чтобы запланировать выполнение задания. Поэтому в качестве предварительного условия необходимо убедиться, что Управление идентификацией и доступом AWS (IAM), используемая Data Wrangler, а именно Создатель мудреца Амазонки роль исполнения экземпляра Studio имеет разрешения на создание правил EventBridge.

Настройка IAM

Внесите следующие обновления в роль исполнения IAM SageMaker, соответствующую экземпляру Studio, в котором запущен поток Data Wrangler:

Прикрепите AmazonEventBridgeFullAccess управляемая политика.

Прикрепите политику, чтобы предоставить разрешение на создание задания обработки:

{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Effect": "Allow",
			"Action": "sagemaker:StartPipelineExecution",
			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
		}
	]
}

Предоставьте EventBridge разрешение на использование роли, добавив следующую политику доверия:
```
{
	"Effect": "Allow",
	"Principal": {
		"Service": "events.amazonaws.com"
	},
	"Action": "sts:AssumeRole"
}
```

В качестве альтернативы, если вы используете другую роль для запуска задания обработки, примените политики, описанные в шагах 2 и 3, к этой роли. Для получения подробной информации о конфигурации IAM см. Создайте расписание для автоматической обработки новых данных.

Составьте расписание

Чтобы создать расписание, откройте поток в редакторе потоков Data Wrangler.

На Поток данных , выберите Создать работу.
Настройте необходимые поля и выберите Далее 2. Настройка задания.
Расширьте Ассоциированные расписания.
Выберите Создать новое расписание.

Ассоциация Создать новое расписание открывается диалоговое окно, в котором вы определяете подробности расписания задания обработки.
Диалог предлагает большую гибкость, чтобы помочь вам определить расписание. Например, задание обработки может выполняться в определенное время или каждые X часов в определенные дни недели.
Периодичность может быть гранулирована до минут.
Определите имя расписания и периодичность, затем выберите Создавай чтобы сохранить расписание.
У вас есть возможность сразу же запустить задание обработки вместе с планированием, которое позаботится о будущих запусках, или оставить задание выполняться только в соответствии с расписанием.
Вы также можете определить дополнительное расписание для того же задания обработки.
Чтобы завершить расписание задания обработки, выберите Создавай.
Вы видите сообщение «Задание запланировано успешно». Кроме того, если вы решили оставить задание для выполнения только по расписанию, вы увидите ссылку на только что созданное правило EventBridge.

Если вы выберете ссылку расписания, в браузере откроется новая вкладка с правилом EventBridge. На этой странице вы можете вносить дополнительные изменения в правило и отслеживать историю его вызовов. Чтобы остановить выполнение запланированного задания обработки, удалите правило событий, содержащее имя расписания.

Правило EventBridge показывает в качестве цели конвейер SageMaker, который запускается в соответствии с заданным расписанием, а задание обработки вызывается как часть конвейера.

Чтобы отслеживать выполнение конвейера SageMaker, вы можете вернуться в Studio, выбрать Ресурсы SageMaker значок, выберите Трубопроводыи выберите имя конвейера, который вы хотите отслеживать. Теперь вы можете увидеть таблицу со всеми текущими и прошлыми запусками и состоянием этого конвейера.

Вы можете просмотреть дополнительные сведения, дважды щелкнув определенную запись.

Убирать

Если вы не используете Data Wrangler, рекомендуется закрыть экземпляр, на котором он работает, чтобы избежать дополнительных сборов.

Чтобы не потерять работу, сохраните поток данных перед закрытием Data Wrangler.

Чтобы сохранить поток данных в Studio, выберите Файл, а затем выберите Сохранить поток данных Wrangler. Data Wrangler автоматически сохраняет ваш поток данных каждые 60 секунд.
Чтобы закрыть экземпляр Data Wrangler, в Studio выберите Запуск экземпляров и ядер.
Под ЗАПУСК ПРИЛОЖЕНИЙ, выберите значок выключения рядом с sagemaker-data-wrangler-1.0 приложение
Выберите Выключи все , чтобы подтвердить действие.

Data Wrangler работает на экземпляре ml.m5.4xlarge. Этот экземпляр исчезает из ЗАПУСК ИНСТАНСОВ когда вы закрываете приложение Data Wrangler.

После закрытия приложения Data Wrangler его необходимо перезапустить при следующем открытии файла потока Data Wrangler. Это может занять несколько минут.

Заключение

В этом посте мы продемонстрировали, как вы можете использовать параметры для импорта наборов данных с помощью потоков Data Wrangler и создания для них заданий преобразования данных. Параметризованные наборы данных обеспечивают большую гибкость используемых наборов данных и позволяют повторно использовать потоки. Мы также продемонстрировали, как можно настраивать запланированные задания для автоматизации преобразования и экспорта данных в Amazon S3 или Feature Store в нужное время и с периодичностью непосредственно из пользовательского интерфейса Data Wrangler.

Чтобы узнать больше об использовании потоков данных с Data Wrangler, см. Создание и использование потока обработчика данных и Цены на Amazon SageMaker. Чтобы начать работу с Data Wrangler, см. Подготовка данных машинного обучения с помощью Amazon SageMaker Data Wrangler.

Об авторах

Дэвид Ларедо является архитектором прототипов в группе прототипирования и облачной инженерии в Amazon Web Services, где он помог разработать несколько прототипов машинного обучения для клиентов AWS. Последние 6 лет он занимается машинным обучением, обучает и настраивает модели машинного обучения, а также внедряет сквозные конвейеры для производства этих моделей. В сферу его интересов входят НЛП, приложения машинного обучения и сквозное машинное обучение.

Дживанильдо Алвес является архитектором прототипов в группе прототипирования и облачной инженерии в Amazon Web Services, помогая клиентам внедрять инновации и ускоряться, демонстрируя искусство возможного на AWS, уже внедрив несколько прототипов на основе искусственного интеллекта. У него долгая карьера в области разработки программного обеспечения, а ранее он работал инженером по разработке программного обеспечения в Amazon.com.br.

Адриан Фуэнтес является менеджером программы в команде прототипирования и облачной инженерии в Amazon Web Services, предлагая клиентам инновации в области машинного обучения, Интернета вещей и блокчейна. У него более 15 лет опыта управления и реализации проектов и 1 год работы в AWS.

Отметка времени: 15 ноября 202215 ноября 2022

Больше от Машинное обучение AWS

Создавайте контрфактический анализ реакции кукурузы на азот с помощью решений Amazon SageMaker JumpStart.

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1821717

Отметка времени: 3 Апрель, 2023

AWS и Mistral AI обязуются демократизировать генеративный искусственный интеллект посредством укрепления сотрудничества | Веб-сервисы Amazon

Машинное обучение AWS

Исходный узел: 1961063

Отметка времени: 2 Апрель, 2024

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий

Переиздано Платоном

Обзор решения

Предпосылки

Файловая структура

Параметризованные наборы данных

Расписание заданий обработки

Настройка IAM

Составьте расписание

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Создавайте контрфактический анализ реакции кукурузы на азот с помощью решений Amazon SageMaker JumpStart.

AWS и Mistral AI обязуются демократизировать генеративный искусственный интеллект посредством укрепления сотрудничества | Веб-сервисы Amazon

Ваш путеводитель по AI/ML на AWS re:Invent 2022

Унифицированная подготовка данных, обучение модели и развертывание с помощью Amazon SageMaker Data Wrangler и Amazon SageMaker Autopilot — часть 2

Обеспечьте помощь оператора в реальном времени для пользователей ваших чат-ботов с помощью Amazon Lex и облачного контакт-центра Talkdesk | Веб-сервисы Amazon

Иллюстративные блокноты в Amazon SageMaker JumpStart

Gradient делает бенчмаркинг LLM экономичным и простым с помощью AWS Inferentia | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись