Пользовательские функции Pandas теперь доступны в Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

Обработчик данных Amazon SageMaker сокращает время агрегирования и подготовки данных для машинного обучения (ML) с недель до минут. С помощью Data Wrangler вы можете выбирать и запрашивать данные всего несколькими щелчками мыши, быстро преобразовывать данные с помощью более 300 встроенных преобразований данных и понимать свои данные с помощью встроенных визуализаций без написания кода.

Кроме того, вы можете создать пользовательские преобразования уникально для ваших требований. Пользовательские преобразования позволяют создавать собственные преобразования с использованием PySpark, Pandas или SQL.

Data Wrangler теперь поддерживает пользовательский Пользовательская функция Pandas (UDF), которое может эффективно обрабатывать большие наборы данных. Вы можете выбрать один из двух настраиваемых режимов Pandas UDF: Pandas и Python. Оба режима обеспечивают эффективное решение для обработки наборов данных, и выбор режима зависит от ваших предпочтений.

В этом посте мы покажем, как использовать новое преобразование Pandas UDF в любом режиме.

Обзор решения

На момент написания этой статьи вы можете импортировать наборы данных в Data Wrangler из Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshift, Databricks и Snowflake. В этом посте мы используем Amazon S3 для хранения данных 2014 года. Набор данных отзывов Amazon.

Данные имеют столбец с именем reviewText содержащие пользовательский текст. В тексте также есть несколько стоп слова, которые являются общеупотребительными словами, не дающими много информации, такими как «a», «an» и «the». Удаление стоп-слов является распространенным этапом предварительной обработки в конвейерах обработки естественного языка (NLP). Мы можем создать пользовательскую функцию для удаления стоп-слов из отзывов.

Создайте пользовательское преобразование Pandas UDF

Давайте рассмотрим процесс создания двух пользовательских преобразований UDF Pandas в Data Wrangler с использованием режимов Pandas и Python.

Скачать Набор данных отзывов о цифровой музыке и загрузите его на Amazon S3.
Откройте Студия Amazon SageMaker и создайте новый поток Data Wrangler.
Под Даты импорта, выберите Amazon S3 и перейдите к расположению набора данных.
Что касается Тип файла, выберите jsonl.

Предварительный просмотр данных должен отображаться в таблице.

Выберите Импортировать продолжать.
После того, как ваши данные будут импортированы, выберите знак «плюс» рядом с Типы данных , а затем выбрать Добавить преобразование.
Выберите Пользовательское преобразование.
В раскрывающемся меню Python (определяемая пользователем функция).

Теперь мы создаем наше пользовательское преобразование для удаления стоп-слов.

Укажите столбец ввода, столбец вывода, тип возвращаемого значения и режим.

В следующем примере используется режим Pandas. Это означает, что функция должна принимать и возвращать серию Pandas одинаковой длины. Вы можете думать о серии Pandas как о столбце в таблице или фрагменте столбца. Это наиболее производительный режим Pandas UDF, поскольку Pandas может векторизовать операции для пакетов значений, а не по одному за раз. pd.Series подсказки типов требуются в режиме Pandas.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Если вы предпочитаете использовать чистый Python, а не Pandas API, режим Python позволяет указать чистую функцию Python, которая принимает один аргумент и возвращает одно значение. Следующий пример эквивалентен предыдущему коду Pandas с точки зрения вывода. Подсказки типов не требуются в режиме Python.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Выберите Добавить чтобы добавить собственное преобразование.

Заключение

Data Wrangler имеет более 300 встроенных преобразований, и вы также можете добавлять пользовательские преобразования, уникальные для ваших требований. В этом посте мы продемонстрировали, как обрабатывать наборы данных с помощью нового пользовательского преобразования UDF Pandas в Data Wrangler, используя режимы Pandas и Python. Вы можете использовать любой режим в зависимости от ваших предпочтений. Чтобы узнать больше о Data Wrangler, см. Создание и использование потока обработчика данных.

Об авторах

Бен Харрис — инженер-программист с опытом проектирования, развертывания и обслуживания масштабируемых конвейеров данных и решений для машинного обучения в различных областях. Бен создал системы для сбора и маркировки данных, классификации изображений и текста, моделирования последовательных последовательностей, встраивания и кластеризации, среди прочего.

Хайдер Накви является архитектором решений в AWS. Он имеет обширный опыт разработки программного обеспечения и корпоративной архитектуры. Он фокусируется на том, чтобы помочь клиентам достичь бизнес-результатов с помощью AWS. Он базируется в Нью-Йорке.

Вишал Шривастава является техническим менеджером по работе с клиентами в AWS. Имея опыт разработки программного обеспечения и аналитики, он в основном работает с сектором финансовых услуг и цифровыми бизнес-клиентами и поддерживает их переход к облачным технологиям. В свободное время любит путешествовать с семьей.

Отметка времени: 28 апреля 2022

Больше от Машинное обучение AWS

Создавайте прогнозы холодного запуска для продуктов без исторических данных с помощью Amazon Forecast, который теперь на 45 % точнее PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Создавайте прогнозы холодного запуска для продуктов, не имеющих исторических данных, с помощью Amazon Forecast, которые теперь точнее на 45 %.

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1761594

Отметка времени: 21 ноября, 2022

Локализуйте контент на несколько языков с помощью сервисов машинного обучения AWS.

Машинное обучение AWS

Исходный узел: 1279228

Отметка времени: 25 Апрель, 2022

Пользовательские функции Pandas теперь доступны в Amazon SageMaker Data Wrangler.

Переиздано Платоном

Обзор решения

Создайте пользовательское преобразование Pandas UDF

Заключение

Об авторах

Больше от Машинное обучение AWS

Создавайте прогнозы холодного запуска для продуктов, не имеющих исторических данных, с помощью Amazon Forecast, которые теперь точнее на 45 %.

Локализуйте контент на несколько языков с помощью сервисов машинного обучения AWS.

Сводка о запуске Amazon Textract в 2022H2

Chronomics обнаруживает результаты тестов на COVID-19 с помощью пользовательских меток Amazon Rekognition

Оптимизация затрат на Amazon SageMaker Canvas с автоматическим закрытием неактивных приложений | Веб-сервисы Amazon

Оцените большие языковые модели на качество и ответственность | Веб-сервисы Amazon

Унифицированная подготовка данных, обучение модели и развертывание с помощью Amazon SageMaker Data Wrangler и Amazon SageMaker Autopilot — часть 2

Демистификация машинного обучения на периферии с помощью реальных сценариев использования

Создайте надежный предиктор токсичности на основе текста

Хостинг моделей трансформеров Hugging Face с использованием Amazon SageMaker Serverless Inference

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись