Обработчик данных Amazon SageMaker сокращает время агрегирования и подготовки данных для машинного обучения (ML) с недель до минут. С помощью Data Wrangler вы можете выбирать и запрашивать данные всего несколькими щелчками мыши, быстро преобразовывать данные с помощью более 300 встроенных преобразований данных и понимать свои данные с помощью встроенных визуализаций без написания кода.
Кроме того, вы можете создать пользовательские преобразования уникально для ваших требований. Пользовательские преобразования позволяют создавать собственные преобразования с использованием PySpark, Pandas или SQL.
Data Wrangler теперь поддерживает пользовательский Пользовательская функция Pandas (UDF), которое может эффективно обрабатывать большие наборы данных. Вы можете выбрать один из двух настраиваемых режимов Pandas UDF: Pandas и Python. Оба режима обеспечивают эффективное решение для обработки наборов данных, и выбор режима зависит от ваших предпочтений.
В этом посте мы покажем, как использовать новое преобразование Pandas UDF в любом режиме.
Обзор решения
На момент написания этой статьи вы можете импортировать наборы данных в Data Wrangler из Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshift, Databricks и Snowflake. В этом посте мы используем Amazon S3 для хранения данных 2014 года. Набор данных отзывов Amazon.
Данные имеют столбец с именем reviewText
содержащие пользовательский текст. В тексте также есть несколько стоп слова, которые являются общеупотребительными словами, не дающими много информации, такими как «a», «an» и «the». Удаление стоп-слов является распространенным этапом предварительной обработки в конвейерах обработки естественного языка (NLP). Мы можем создать пользовательскую функцию для удаления стоп-слов из отзывов.
Создайте пользовательское преобразование Pandas UDF
Давайте рассмотрим процесс создания двух пользовательских преобразований UDF Pandas в Data Wrangler с использованием режимов Pandas и Python.
- Скачать Набор данных отзывов о цифровой музыке и загрузите его на Amazon S3.
- Откройте Студия Amazon SageMaker и создайте новый поток Data Wrangler.
- Под Даты импорта, выберите Amazon S3 и перейдите к расположению набора данных.
- Что касается Тип файла, выберите jsonl.
Предварительный просмотр данных должен отображаться в таблице.
- Выберите Импортировать продолжать.
- После того, как ваши данные будут импортированы, выберите знак «плюс» рядом с Типы данных , а затем выбрать Добавить преобразование.
- Выберите Пользовательское преобразование.
- В раскрывающемся меню Python (определяемая пользователем функция).
Теперь мы создаем наше пользовательское преобразование для удаления стоп-слов.
- Укажите столбец ввода, столбец вывода, тип возвращаемого значения и режим.
В следующем примере используется режим Pandas. Это означает, что функция должна принимать и возвращать серию Pandas одинаковой длины. Вы можете думать о серии Pandas как о столбце в таблице или фрагменте столбца. Это наиболее производительный режим Pandas UDF, поскольку Pandas может векторизовать операции для пакетов значений, а не по одному за раз. pd.Series
подсказки типов требуются в режиме Pandas.
Если вы предпочитаете использовать чистый Python, а не Pandas API, режим Python позволяет указать чистую функцию Python, которая принимает один аргумент и возвращает одно значение. Следующий пример эквивалентен предыдущему коду Pandas с точки зрения вывода. Подсказки типов не требуются в режиме Python.
- Выберите Добавить чтобы добавить собственное преобразование.
Заключение
Data Wrangler имеет более 300 встроенных преобразований, и вы также можете добавлять пользовательские преобразования, уникальные для ваших требований. В этом посте мы продемонстрировали, как обрабатывать наборы данных с помощью нового пользовательского преобразования UDF Pandas в Data Wrangler, используя режимы Pandas и Python. Вы можете использовать любой режим в зависимости от ваших предпочтений. Чтобы узнать больше о Data Wrangler, см. Создание и использование потока обработчика данных.
Об авторах
Бен Харрис — инженер-программист с опытом проектирования, развертывания и обслуживания масштабируемых конвейеров данных и решений для машинного обучения в различных областях. Бен создал системы для сбора и маркировки данных, классификации изображений и текста, моделирования последовательных последовательностей, встраивания и кластеризации, среди прочего.
Хайдер Накви является архитектором решений в AWS. Он имеет обширный опыт разработки программного обеспечения и корпоративной архитектуры. Он фокусируется на том, чтобы помочь клиентам достичь бизнес-результатов с помощью AWS. Он базируется в Нью-Йорке.
Вишал Шривастава является техническим менеджером по работе с клиентами в AWS. Имея опыт разработки программного обеспечения и аналитики, он в основном работает с сектором финансовых услуг и цифровыми бизнес-клиентами и поддерживает их переход к облачным технологиям. В свободное время любит путешествовать с семьей.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- О нас
- Учетная запись
- через
- Amazon
- среди
- аналитика
- API
- архитектура
- доступен
- AWS
- фон
- встроенный
- бизнес
- Выберите
- классификация
- облако
- код
- лыжных шлемов
- Column
- Общий
- содержит
- Создайте
- Создающий
- изготовленный на заказ
- Клиенты
- данным
- демонстрировать
- убивают
- зависит
- развертывание
- проектирование
- Разработка
- Интернет
- доменов
- эффективный
- эффективно
- позволяет
- инженер
- Предприятие
- пример
- опыт
- обширный
- семья
- финансовый
- финансовые услуги
- поток
- фокусируется
- после
- Бесплатно
- функция
- Как
- How To
- HTTPS
- изображение
- информация
- вход
- IT
- Играя
- маркировка
- язык
- большой
- УЧИТЬСЯ
- изучение
- расположение
- машина
- обучение с помощью машины
- менеджер
- Совпадение
- ML
- БОЛЕЕ
- самых
- Музыка
- натуральный
- New York
- Операционный отдел
- Подготовить
- предварительный просмотр
- процесс
- обработка
- обеспечивать
- САЙТ
- быстро
- обязательный
- Требования
- возвращают
- Возвращает
- Отзывы
- масштабируемые
- сектор
- Серии
- Услуги
- просто
- Software
- разработка программного обеспечения
- Инженер-программист
- Решение
- Решения
- пространства
- диск
- магазин
- Поддержка
- системы
- Технический
- Через
- время
- знак
- Лексемы
- Transform
- путешествовать
- понимать
- созданного
- использование
- ценностное
- разнообразие
- без
- слова
- работает
- письмо