Подготовка данных является важным этапом в любом проекте, управляемом данными, и наличие правильных инструментов может значительно повысить эффективность работы. Обработчик данных Amazon SageMaker сокращает время, необходимое для агрегирования и подготовки табличных данных и данных изображений для машинного обучения (ML) с недель до минут. С помощью SageMaker Data Wrangler вы можете упростить процесс подготовки данных и разработки функций, а также выполнить каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса.
В этом посте мы рассмотрим новейшие функции SageMaker Data Wrangler, специально разработанные для улучшения работы. Мы углубляемся в поддержку Простая служба хранения (Амазон С3) проявлять файлы, артефакты логического вывода в интерактивном потоке данных и бесшовная интеграция с JSON (нотация объектов JavaScript) формат для вывода, подчеркивая, как эти улучшения делают подготовку данных проще и эффективнее.
Представляем новые функции
В этом разделе мы обсудим новые функции SageMaker Data Wrangler для оптимальной подготовки данных.
Поддержка файла манифеста S3 с помощью SageMaker Autopilot для вывода машинного обучения
SageMaker Data Wrangler позволяет унифицированная подготовка данных и обучение модели опыт работы с Amazon SageMaker Автопилот всего за несколько кликов. Вы можете использовать SageMaker Autopilot для автоматического обучения, настройки и развертывания моделей на основе данных, преобразованных вами в потоке данных.
Этот опыт теперь еще больше упрощен благодаря поддержке файла манифеста S3. Файл манифеста S3 — это текстовый файл, в котором перечислены объекты (файлы), хранящиеся в корзине S3. Если ваш экспортированный набор данных в SageMaker Data Wrangler довольно большой и разделен на несколько файлов данных в Amazon S3, теперь SageMaker Data Wrangler автоматически создаст файл манифеста в S3, представляющий все эти файлы данных. Этот сгенерированный файл манифеста теперь можно использовать с пользовательским интерфейсом SageMaker Autopilot в SageMaker Data Wrangler для сбора всех секционированных данных для обучения.
До запуска этой функции при использовании моделей SageMaker Autopilot, обученных на подготовленных данных из SageMaker Data Wrangler, можно было выбрать только один файл данных, который мог не представлять весь набор данных, особенно если набор данных очень большой. С этим новым интерфейсом файла манифеста вы не ограничены подмножеством своего набора данных. Вы можете построить модель машинного обучения с помощью SageMaker Autopilot, представляющую все ваши данные с помощью файла манифеста, и использовать ее для логического вывода машинного обучения и производственного развертывания. Эта функция повышает эффективность работы за счет упрощения обучения моделей машинного обучения с помощью SageMaker Autopilot и оптимизации рабочих процессов обработки данных.
Добавлена поддержка потока вывода в сгенерированных артефактах.
Клиенты хотят использовать преобразования данных, которые они применили к своим обучающим данным модели, такие как горячее кодирование, PCA и вменение пропущенных значений, и применить эти преобразования данных к выводу в реальном времени или пакетному выводу в рабочей среде. Для этого у вас должен быть артефакт вывода SageMaker Data Wrangler, который используется моделью SageMaker.
Ранее артефакты логических выводов можно было создавать только из пользовательского интерфейса при экспорте в программу обучения SageMaker Autopilot или при экспорте записной книжки конвейера логических выводов. Это не обеспечивало гибкости, если вы хотели вывести свои потоки SageMaker Data Wrangler за пределы Студия Amazon SageMaker среда. Теперь вы можете создать артефакт логического вывода для любого совместимого потокового файла с помощью задания обработки SageMaker Data Wrangler. Это обеспечивает программные, сквозные MLOps с потоками SageMaker Data Wrangler для персонажей MLOps, ориентированных на код, а также интуитивно понятный путь без кода для получения артефакта вывода путем создания задания из пользовательского интерфейса.
Оптимизация подготовки данных
JSON стал широко распространенным форматом для обмена данными в современных экосистемах данных. Интеграция SageMaker Data Wrangler с форматом JSON позволяет легко обрабатывать данные JSON для преобразования и очистки. Предоставляя встроенную поддержку JSON, SageMaker Data Wrangler упрощает процесс работы со структурированными и частично структурированными данными, позволяя вам извлекать ценную информацию и эффективно подготавливать данные. SageMaker Data Wrangler теперь поддерживает формат JSON как для пакетного развертывания, так и для конечной точки логического вывода в реальном времени.
Обзор решения
Для нашего варианта использования мы используем образец Набор данных отзывов клиентов Amazon чтобы показать, как SageMaker Data Wrangler может упростить операционные усилия по созданию новой модели машинного обучения с помощью SageMaker Autopilot. Набор данных отзывов клиентов Amazon содержит обзоры продуктов и метаданные от Amazon, в том числе 142.8 миллиона отзывов, охватывающих период с мая 1996 года по июль 2014 года.
На высоком уровне мы используем SageMaker Data Wrangler для управления этим большим набором данных и выполнения следующих действий:
- Разработайте модель машинного обучения в SageMaker Autopilot, используя весь набор данных, а не только образец.
- Создайте конвейер вывода в реальном времени с помощью артефакта вывода, созданного SageMaker Data Wrangler, и используйте форматирование JSON для ввода и вывода.
Поддержка файла манифеста S3 с помощью SageMaker Autopilot
При создании эксперимента SageMaker Autopilot с помощью SageMaker Data Wrangler ранее можно было указать только один файл CSV или Parquet. Теперь вы также можете использовать файл манифеста S3, что позволяет использовать большие объемы данных для экспериментов SageMaker Autopilot. SageMaker Data Wrangler автоматически разбивает файлы входных данных на несколько файлов меньшего размера и создает манифест, который можно использовать в эксперименте SageMaker Autopilot для извлечения всех данных из интерактивного сеанса, а не только небольшого образца.
Выполните следующие шаги:
- Импортируйте данные отзывов клиентов Amazon из файла CSV в SageMaker Data Wrangler. Обязательно отключите выборку при импорте данных.
- Задайте преобразования, которые нормализуют данные. В этом примере удалите символы и преобразуйте все в нижний регистр с помощью встроенных преобразований SageMaker Data Wrangler.
- Выберите Модель поезда начать обучение.
Для обучения модели с помощью SageMaker Autopilot SageMaker автоматически экспортирует данные в корзину S3. Для больших наборов данных, таких как этот, он автоматически разбивает файл на более мелкие файлы и создает манифест, который включает расположение более мелких файлов.
- Сначала выберите входные данные.
Ранее в SageMaker Data Wrangler не было возможности создать файл манифеста для использования с SageMaker Autopilot. Сегодня, с выпуском поддержки файла манифеста, SageMaker Data Wrangler автоматически экспортирует файл манифеста в Amazon S3, предварительно заполняет местоположение S3 обучения SageMaker Autopilot местоположением файла манифеста S3 и переключает параметр файла манифеста на Да. Для создания или использования файла манифеста не требуется никакой работы.
- Настройте свой эксперимент, выбрав цель для прогнозируемой модели.
- Далее выберите метод обучения. В этом случае мы выбираем Авто и позвольте SageMaker Autopilot выбрать лучший метод обучения на основе размера набора данных.
- Укажите параметры развертывания.
- Наконец, просмотрите конфигурацию задания и отправьте эксперимент SageMaker Autopilot для обучения. Когда SageMaker Autopilot завершит эксперимент, вы сможете просмотреть результаты обучения и выбрать лучшую модель.
Благодаря поддержке файлов манифеста вы можете использовать весь набор данных для эксперимента SageMaker Autopilot, а не только подмножество ваших данных.
Дополнительные сведения об использовании SageMaker Autopilot с SageMaker Data Wrangler см. Унифицированная подготовка данных и обучение модели с помощью Amazon SageMaker Data Wrangler и Amazon SageMaker Autopilot.
Создание артефактов логического вывода из заданий обработки SageMaker.
Теперь давайте посмотрим, как можно создавать артефакты логических выводов с помощью пользовательского интерфейса SageMaker Data Wrangler и блокнотов SageMaker Data Wrangler.
Пользовательский интерфейс обработчика данных SageMaker
В нашем случае мы хотим обрабатывать наши данные через пользовательский интерфейс, а затем использовать полученные данные для обучения и развертывания модели через консоль SageMaker. Выполните следующие шаги:
- Откройте поток данных, созданный в предыдущем разделе.
- Выберите знак плюс рядом с последним преобразованием, выберите Добавить пункт назначения, и выберите Amazon S3. Здесь будут храниться обработанные данные.
- Выберите Создать работу.
- Выберите Создание артефактов логического вывода в разделе параметров вывода, чтобы сгенерировать артефакт вывода.
- В поле Имя артефакта вывода введите имя своего артефакта вывода (с расширением файла .tar.gz).
- Для узла вывода вывода введите узел назначения, соответствующий преобразованиям, примененным к вашим обучающим данным.
- Выберите Настроить задание.
- Под Конфигурация задания, введите путь для Потоковое расположение файла S3. Папка под названием
data_wrangler_flows
будет создан в этом месте, и артефакт вывода будет загружен в эту папку. Чтобы изменить место загрузки, установите другое местоположение S3. - Оставьте значения по умолчанию для всех остальных параметров и выберите Создавай для создания задания обработки.
Задание обработки создастtarball (.tar.gz)
содержащий измененный файл потока данных с недавно добавленным разделом вывода, который позволяет использовать его для вывода. Унифицированный идентификатор ресурса S3 (URI) артефакта вывода необходим для предоставления артефакта модели SageMaker при развертывании решения для вывода. URI будет в форме{Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz
. - Если вы не записали эти значения ранее, вы можете выбрать ссылку на задание обработки, чтобы найти соответствующие сведения. В нашем примере это URI
s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
- Скопируйте значение Обработка изображения; нам также нужен этот URI при создании нашей модели.
- Теперь мы можем использовать этот URI для создания модели SageMaker на консоли SageMaker, которую позже можно развернуть на конечной точке или в задании пакетного преобразования.
- Под Настройки модели¸ введите название модели и укажите свою роль IAM.
- Что касается Варианты ввода контейнера, наведите на Предоставление артефактов модели и местоположения изображения вывода.
- Что касается Расположение изображения кода вывода, введите URI обрабатываемого изображения.
- Что касается Расположение артефактов модели, введите URI артефакта вывода.
- Кроме того, если в ваших данных есть целевой столбец, который будет предсказан обученной моделью машинного обучения, укажите имя этого столбца в разделе Переменные средыпризывают
INFERENCE_TARGET_COLUMN_NAME
as Основные и имя столбца как Значение. - Завершите создание модели, выбрав Создать модель.
Теперь у нас есть модель, которую мы можем развернуть на конечной точке или в задании пакетного преобразования.
Блокноты SageMaker Data Wrangler
Для подхода «сначала код» для создания артефакта вывода из задания обработки мы можем найти пример кода, выбрав Экспорт в в меню узла и выбрав либо Amazon S3, Конвейеры SageMakerили Конвейер выводов SageMaker, Мы выбираем Конвейер выводов SageMaker в этом примере.
В этой записной книжке есть раздел под названием Создать процессор (это идентично в блокноте SageMaker Pipelines, но в блокноте Amazon S3 эквивалентный код будет под Конфигурации работы раздел). Внизу этого раздела находится конфигурация нашего артефакта логического вывода, который называется inference_params
. Он содержит ту же информацию, которую мы видели в пользовательском интерфейсе, а именно имя артефакта вывода и узел вывода вывода. Эти значения будут предварительно заполнены, но их можно изменить. Кроме того, есть параметр, называемый use_inference_params
, который должен быть установлен в True
использовать эту конфигурацию в задании обработки.
Далее находится раздел под названием Определение шагов конвейера, Где inference_params
конфигурация добавляется к списку аргументов задания и передается в определение шага обработки SageMaker Data Wrangler. В блокноте Amazon S3 job_arguments
определяется сразу после Конфигурации работы .
С этими простыми конфигурациями задание обработки, созданное этой записной книжкой, создаст артефакт вывода в том же месте S3, что и наш файл потока (определенный ранее в нашей записной книжке). Мы можем программно определить это местоположение S3 и использовать этот артефакт для создания модели SageMaker с помощью SDK для SageMaker Python, что демонстрируется в записной книжке SageMaker Inference Pipeline.
Тот же подход можно применить к любому коду Python, создающему задание обработки SageMaker Data Wrangler.
Поддержка формата файла JSON для ввода и вывода во время логического вывода
Веб-сайты и приложения довольно часто используют JSON в качестве запроса/ответа для API, чтобы информацию было легко анализировать на разных языках программирования.
Раньше, когда у вас была обученная модель, вы могли взаимодействовать с ней только через CSV в качестве входного формата в конвейере логического вывода SageMaker Data Wrangler. Сегодня вы можете использовать JSON в качестве формата ввода и вывода, обеспечивая большую гибкость при взаимодействии с контейнерами логических выводов SageMaker Data Wrangler.
Чтобы начать использовать JSON для ввода и вывода в записной книжке конвейера вывода, выполните следующие действия.
- Определите полезную нагрузку.
Для каждой полезной нагрузки модель ожидает ключ с именем instances. Значение представляет собой список объектов, каждый из которых является собственной точкой данных. Для объектов требуется ключ, называемый функциями, а значения должны быть функциями одной точки данных, которые предназначены для отправки в модель. В одном запросе можно отправить несколько точек данных, общий размер каждого запроса не должен превышать 6 МБ.
Смотрите следующий код:
- Укажите
ContentType
asapplication/json
. - Предоставьте данные модели и получите вывод в формате JSON.
Читать Общие форматы данных для логических выводов для примера ввода и вывода примеров JSON.
Убирать
Когда вы закончите использовать SageMaker Data Wrangler, мы рекомендуем закрыть экземпляр, на котором он работает, чтобы избежать дополнительных расходов. Инструкции по завершению работы приложения SageMaker Data Wrangler и связанного с ним экземпляра см. Выключить обработчик данных.
Заключение
Новые функции SageMaker Data Wrangler, включая поддержку файлов манифеста S3, возможности логического вывода и интеграцию формата JSON, меняют операционный опыт подготовки данных. Эти усовершенствования упрощают импорт данных, автоматизируют преобразование данных и упрощают работу с данными JSON. Благодаря этим функциям вы можете повысить эффективность своей работы, сократить объем ручных операций и с легкостью извлекать ценную информацию из своих данных. Воспользуйтесь мощью новых функций SageMaker Data Wrangler и раскройте весь потенциал рабочих процессов подготовки данных.
Чтобы начать работу с SageMaker Data Wrangler, ознакомьтесь с последней информацией о Страница продукта SageMaker Data Wrangler.
Об авторах
Муниш Дабра является главным архитектором решений в Amazon Web Services (AWS). В настоящее время он специализируется на искусственном интеллекте/машинном обучении и наблюдении. У него большой опыт проектирования и создания масштабируемых распределенных систем. Ему нравится помогать клиентам внедрять инновации и преобразовывать свой бизнес в AWS. Линкедин: /мдабра
Патрик Лин работает инженером-разработчиком программного обеспечения в Amazon SageMaker Data Wrangler. Он стремится сделать Amazon SageMaker Data Wrangler лучшим инструментом подготовки данных для производственных рабочих процессов машинного обучения. Вне работы вы можете найти его за чтением, прослушиванием музыки, беседами с друзьями и служением в своей церкви.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/optimize-data-preparation-with-new-features-in-aws-sagemaker-data-wrangler/
- :имеет
- :является
- :нет
- :куда
- $UP
- 100
- 1996
- 2014
- 7
- 8
- 9
- a
- действия
- добавленный
- дополнительный
- Дополнительно
- принял
- После
- AI / ML
- Все
- Позволяющий
- позволяет
- причислены
- Amazon
- Создатель мудреца Амазонки
- Amazon SageMaker Автопилот
- Обработчик данных Amazon SageMaker
- Amazon Web Services
- Веб-службы Amazon (AWS)
- суммы
- an
- и
- любой
- API
- приложение
- Приложения
- прикладной
- Применить
- подхода
- МЫ
- области
- Аргументы
- AS
- связанный
- At
- автоматизировать
- автоматически
- избежать
- AWS
- фон
- основанный
- BE
- становиться
- не являетесь
- ЛУЧШЕЕ
- большой
- изоферменты печени
- Дно
- Ломать
- строить
- Строительство
- встроенный
- бизнес
- но
- by
- под названием
- CAN
- возможности
- случаев
- изменение
- расходы
- проверка
- Выберите
- Выбирая
- церковь
- Уборка
- код
- Column
- привержен
- Общий
- совместим
- полный
- зАВЕРШАЕТ
- Конфигурация
- Консоли
- потребленный
- Контейнеры
- содержит
- Беседы
- соответствующий
- может
- Создайте
- создали
- создает
- Создающий
- критической
- Текущий
- клиент
- Клиенты
- данным
- Обмен данными
- точки данных
- Подготовка данных
- обработка данных
- управляемых данными
- Наборы данных
- день
- решать
- по умолчанию
- определенный
- определение
- копаться
- убивают
- развертывание
- развертывание
- развертывание
- предназначенный
- проектирование
- назначение
- подробнее
- Определять
- Развитие
- различный
- обсуждать
- распределенный
- распределенные системы
- do
- вниз
- в течение
- каждый
- Ранее
- простота
- легче
- легко
- Экосистемы
- затрат
- эффективный
- эффективно
- усилие
- или
- обниматься
- позволяет
- позволяет
- впритык
- Конечная точка
- инженер
- Проект и
- повышать
- улучшения
- Усиливает
- Enter
- Весь
- Окружающая среда
- Эквивалент
- особенно
- НИКОГДА
- Каждая
- каждый день
- многое
- пример
- Примеры
- обмена
- ожидается
- опыт
- эксперимент
- Эксперименты
- исследование
- Больше
- экспорт
- Izvoz,en
- расширение
- извлечение
- Особенность
- Особенности
- несколько
- Файл
- Файлы
- Найдите
- Трансформируемость
- поток
- Потоки
- Фокус
- следовать
- после
- Что касается
- форма
- формат
- друзья
- от
- полный
- далее
- порождать
- генерируется
- получить
- значительно
- было
- обрабатывать
- Есть
- имеющий
- he
- помощь
- High
- выделив
- его
- его
- Как
- How To
- HTML
- HTTPS
- i
- идентичный
- идентификатор
- if
- изображение
- немедленно
- Импортировать
- импортирующий
- улучшать
- in
- включает в себя
- В том числе
- информация
- обновлять
- вход
- размышления
- пример
- инструкции
- интеграции.
- предназначенных
- взаимодействовать
- взаимодействующий
- интерактивный
- Интерфейс
- в
- интуитивный
- IT
- ЕГО
- JavaScript
- работа
- JPG
- JSON
- июль
- всего
- Основные
- Языки
- большой
- Фамилия
- новее
- последний
- запуск
- изучение
- позволять
- уровень
- такое как
- Ограниченный
- LINK
- Список
- Listening
- Списки
- расположение
- посмотреть
- машина
- обучение с помощью машины
- сделать
- Создание
- управлять
- руководство
- Май..
- Меню
- Метаданные
- метод
- может быть
- миллиона
- Минут
- отсутствующий
- ML
- млн операций в секунду
- модель
- Модели
- Модерн
- модифицировало
- БОЛЕЕ
- более эффективным
- с разными
- Музыка
- должен
- имя
- Названный
- а именно
- родной
- необходимо
- Необходимость
- потребности
- Новые
- Новые функции
- вновь
- следующий
- нет
- узел
- ноутбук
- сейчас
- номер
- объект
- объекты
- of
- on
- ONE
- только
- оперативный
- оптимальный
- Оптимизировать
- Опция
- Опции
- or
- Другое
- наши
- внешний
- выходной
- внешнюю
- собственный
- параметр
- параметры
- Прошло
- путь
- для
- Выполнять
- выбирать
- трубопровод
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- плюс
- Точка
- пунктов
- После
- потенциал
- мощностью
- предсказывать
- предсказанный
- подготовка
- Подготовить
- (например,
- довольно
- предварительно
- Основной
- процесс
- Обработанный
- обработка
- Продукт
- Отзывы о товаре
- Производство
- программный
- Программирование
- языки программирования
- Проект
- обеспечивать
- обеспечение
- Питон
- Reading
- реального времени
- Получать
- рекомендовать
- уменьшить
- снижает
- освободить
- соответствующие
- удаление
- представлять
- представляющий
- запросить
- требовать
- ресурс
- в результате
- Итоги
- обзоре
- Отзывы
- правую
- Роли
- работает
- s
- sagemaker
- Вывод SageMaker
- Конвейеры SageMaker
- то же
- видел
- масштабируемые
- бесшовные
- легко
- Раздел
- посмотреть
- выбор
- выбор
- Услуги
- выступающей
- Сессия
- набор
- настройки
- несколько
- должен
- показывать
- выключать
- подпись
- просто
- упрощенный
- упростить
- упрощение
- одинарной
- Размер
- небольшой
- меньше
- So
- Software
- разработка программного обеспечения
- Решение
- Решения
- конкретно
- раскол
- Начало
- и политические лидеры
- Шаг
- Шаги
- диск
- хранить
- упорядочить
- упорядочение
- сильный
- структурированный
- отправить
- представленный
- такие
- поддержка
- Поддержка
- Убедитесь
- системы
- взять
- принимает
- цель
- который
- Ассоциация
- информация
- их
- тогда
- Там.
- Эти
- этой
- те
- Через
- время
- титулованный
- в
- сегодня
- слишком
- инструментом
- инструменты
- Всего
- Train
- специалистов
- Обучение
- Transform
- трансформация
- преобразований
- преобразован
- прообразы
- Дважды
- ui
- под
- отпереть
- загружено
- использование
- прецедент
- используемый
- через
- ценный
- ценностное
- Наши ценности
- очень
- с помощью
- Вид
- визуализация
- хотеть
- стремятся
- we
- Web
- веб-сервисы
- веб-сайты
- Недели
- ЧТО Ж
- когда
- , которые
- широко
- будете
- Работа
- рабочий
- Рабочие процессы
- работает
- Ты
- ВАШЕ
- зефирнет