Создание случайных и стратифицированных выборок данных с помощью Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

В этом посте мы познакомим вас с двумя методами выборки в Обработчик данных Amazon SageMaker так что вы можете быстро создавать рабочие процессы обработки для ваших данных. Мы охватываем как методы случайной выборки, так и методы стратифицированной выборки, чтобы помочь вам выбрать данные в соответствии с вашими конкретными требованиями.

Data Wrangler сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения (ML), с недель до минут. Вы можете упростить процесс подготовки данных и разработки признаков, а также выполнять каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса. С помощью инструмента выбора данных Data Wrangler вы можете выбирать нужные данные из различных источников данных и импортировать их одним щелчком мыши. Data Wrangler содержит более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и комбинировать функции без необходимости написания кода. С помощью шаблонов визуализации Data Wrangler вы можете быстро просмотреть и проверить, завершены ли эти преобразования, как вы предполагали, просматривая их в Студия Amazon SageMaker, первая полностью интегрированная среда разработки (IDE) для машинного обучения. После подготовки данных вы можете создавать полностью автоматизированные рабочие процессы машинного обучения с помощью Конвейеры Amazon SageMaker и сохранить их для повторного использования в Магазин функций Amazon SageMaker.

Что такое выборка и чем она может помочь

В статистическом анализе совокупность наблюдений называется население. При работе с данными часто невозможно измерить каждое наблюдение из совокупности с вычислительной точки зрения. Статистическая выборка это процедура, которая позволяет вам понять ваши данные, выбирая подмножества из совокупности.

Выборка предлагает практическое решение, которое жертвует некоторой точностью ради практичности и простоты. Чтобы гарантировать, что ваша выборка является хорошим представлением генеральной совокупности, вы можете использовать стратегии выборки. Data Wrangler поддерживает две наиболее распространенные стратегии: случайная выборка и стратифицированная выборка.

Случайная выборка

Если у вас есть большой набор данных, экспериментирование с этим набором данных может занять много времени. Data Wrangler обеспечивает случайную выборку, чтобы вы могли эффективно обрабатывать и визуализировать свои данные. Например, вы можете рассчитать среднее количество покупок для клиента за определенный период времени или рассчитать коэффициент отсева подписчика. Вы можете использовать случайную выборку, чтобы визуализировать приближения к этим показателям.

Случайная выборка из вашего набора данных выбирается так, чтобы каждый элемент имел равную вероятность быть выбранным. Эта операция выполняется эффективным способом, подходящим для больших наборов данных, поэтому возвращаемый размер выборки примерно равен запрошенному размеру и не обязательно равен запрошенному размеру.

Вы можете использовать случайную выборку, если хотите выполнить быстрые приблизительные вычисления, чтобы понять свой набор данных. По мере увеличения размера выборки случайная выборка может лучше аппроксимировать весь набор данных, но если вы не включите все точки данных, ваша случайная выборка может не включать все выбросы и крайние случаи. Если вы хотите подготовить весь набор данных в интерактивном режиме, вы также можете переключиться на более крупный тип экземпляра.

Как правило, ошибка выборки при вычислении среднего значения генеральной совокупности с использованием случайной выборки стремится к 0 по мере увеличения выборки. По мере увеличения размера выборки ошибка уменьшается обратно пропорционально квадратному корню из размера выборки. Вывод: чем больше выборка, тем лучше приближение.

Стратифицированная выборка

В некоторых случаях ваше население может быть разделено на страты или взаимоисключающие сегменты, такие как географическое положение для адресов, год публикации для песен или налоговые категории для доходов. Случайная выборка — самый популярный метод выборки, но если какие-то страты встречаются редко в вашей совокупности, вы можете использовать стратифицированную выборку в Data Wrangler, чтобы убедиться, что каждая страта пропорционально представлена в вашей выборке. Это может быть полезно для уменьшения ошибок выборки, а также для того, чтобы убедиться, что вы фиксируете крайние случаи во время экспериментов.

В реальном мире мошеннические операции с кредитными картами случаются редко и обычно составляют менее 1% ваших данных. Если бы мы выбрали случайную выборку, выборка нередко содержала бы очень мало мошеннических транзакций или вообще не содержала бы их. В результате при обучении модели у нас будет слишком мало мошеннических примеров, чтобы изучить точную модель. Мы можем использовать стратифицированную выборку, чтобы обеспечить пропорциональное представительство мошеннических транзакций.

В стратифицированной выборке размер каждой страты в выборке пропорционален размеру страты в генеральной совокупности. Это работает путем разделения ваших данных на страты на основе указанного вами столбца, выбора случайных выборок из каждой страты с правильной пропорцией и объединения этих выборок в стратифицированную выборку населения.

Стратифицированная выборка — полезный метод, когда вы хотите понять, как различные группы в ваших данных сравниваются друг с другом, и вы хотите убедиться, что у вас есть соответствующее представление от каждой группы.

Случайная выборка при импорте из Amazon S3

В этом разделе мы используем случайную выборку с набором данных, состоящим как из мошеннических, так и не мошеннических событий из нашей системы обнаружения мошенничества. Ты сможешь скачать набор данных, чтобы следовать вместе с этим сообщением (Лицензия на международную атрибуцию CC 4.0).

На момент написания этой статьи вы можете импортировать наборы данных из Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshift, и Снежинка. Наш набор данных очень большой, содержащий 1 миллион строк. В этом случае мы хотим отобрать 1,0000 строк при импорте из Amazon S3 для некоторых интерактивных экспериментов в Data Wrangler.

Откройте SageMaker Studio и создайте новый поток Data Wrangler.
Под Даты импорта, выберите Amazon S3.
Выберите набор данных для импорта.
В Подробнее введите имя набора данных и тип файла.
Что касается Отбор проб, выберите случайный.
Что касается Размер образца, войти 10000.
Выберите Импортировать для загрузки набора данных в Data Wrangler.

Вы можете визуализировать два отдельных шага на странице потока данных в Data Wrangler. Первый шаг указывает на загрузку выборочного набора данных на основе определенной вами стратегии выборки. После загрузки данных Data Wrangler выполняет автоматическое определение типов данных для каждого столбца в наборе данных. Этот шаг добавляется по умолчанию для всех наборов данных.

Теперь вы можете просмотреть данные случайной выборки в Data Wrangler, добавив анализ.

Выберите знак плюс рядом с Типы данных , а затем выбрать Анализ.
Что касается Тип анализавыберите Точечная диаграмма.
Выберите feat_1 и feat_2 что касается Ось X и Ось Y, Соответственно.
Что касается Цвет по, выберите is_fraud.

Когда вы освоитесь с набором данных, приступайте к дальнейшим преобразованиям данных в соответствии с вашими бизнес-требованиями, чтобы подготовить данные для машинного обучения.

На следующем снимке экрана мы можем наблюдать мошеннические (темно-синий) и немошеннические (светло-синий) транзакции в нашем анализе.

В следующем разделе мы обсудим использование стратифицированной выборки для обеспечения пропорционального выбора случаев мошенничества.

Стратифицированная выборка с преобразованием

Data Wrangler позволяет выполнять выборку при импорте, а также выборку с помощью преобразования. В этом разделе мы обсудим использование стратифицированной выборки с помощью преобразования после того, как вы импортировали свой набор данных в Data Wrangler.

Чтобы начать выборку, на Поток данных выберите значок «плюс» рядом с импортированным набором данных и выберите Добавить преобразование.

На момент написания этой статьи Data Wrangler предоставляет более 300 встроенных трансформаций. В дополнение к встроенным преобразованиям вы можете написать свои собственные преобразования в Pandas или PySpark.

Из издания Добавить преобразование список, выберите Отбор проб.

Теперь вы можете использовать три различные стратегии выборки: лимитную, случайную и стратифицированную.

Что касается Метод выборки, выберите слоистый.
Использовать is_fraud столбец в качестве столбца стратификации.
Выберите предварительный просмотр для предварительного просмотра преобразования, затем выберите Добавить чтобы добавить это преобразование в качестве шага к вашему рецепту преобразования.

Ваш поток данных теперь отражает добавленный шаг выборки.

Теперь мы можем просмотреть данные случайной выборки, добавив анализ.

Нажми плюсик и выбери Анализ.
Что касается Тип анализавыберите Гистограмма.
Выберите is_fraud как для Ось X и Цвет по.
Выберите предварительный просмотр.

На следующем снимке экрана мы можем наблюдать разбивку мошеннических (темно-синий) и немошеннических (светло-синий) случаев, выбранных с помощью стратифицированной выборки в правильных пропорциях: 20% мошеннических и 80% немошеннических.

Заключение

При работе с очень большими наборами данных очень важно правильно выбирать данные и выбирать правильную стратегию выборки, соответствующую вашим бизнес-требованиям. Эффективность вашей выборки зависит от различных факторов, включая бизнес-результаты, доступность данных и их распространение. В этом посте мы рассмотрели, как использовать Data Wrangler и его встроенные стратегии выборки для подготовки ваших данных.

Вы можете начать использовать эту возможность уже сегодня во всех регионах, где доступна SageMaker Studio. Для начала посетите Подготовка данных машинного обучения с помощью Amazon SageMaker Data Wrangler.

Благодарности

Авторы хотели бы поблагодарить Джонатана Чанга (ученого-прикладника) за обзор и ценные отзывы об этой статье.

Об авторах

Бен Харрис — инженер-программист с опытом проектирования, развертывания и обслуживания масштабируемых конвейеров данных и решений для машинного обучения в различных областях.

Вишаал Капур — старший научный сотрудник AWS AI. Он увлечен тем, что помогает клиентам понять их данные в Data Wrangler. В свободное время он катается на горных велосипедах, сноуборде и проводит время со своей семьей.

Минакшисундарам Тандавараян является старшим специалистом по AI/ML в AWS. Он помогает стратегическим клиентам Hi-Tech в их путешествии в области искусственного интеллекта и машинного обучения. Он очень увлечен искусственным интеллектом, управляемым данными.

Аджай Шарма является главным менеджером по продуктам в Amazon SageMaker, где он занимается Data Wrangler, визуальным инструментом подготовки данных для специалистов по обработке и анализу данных. До прихода в AWS Аджай был экспертом по науке о данных в McKinsey and Company, где руководил проектами по машинному обучению для ведущих финансовых и страховых компаний по всему миру. Аджаи увлечен наукой о данных и любит изучать новейшие алгоритмы и методы машинного обучения.

Отметка времени: 26 апреля 2022

Отметка времени: 6 февраля, 2024

Создавайте случайные и стратифицированные выборки данных с помощью Amazon SageMaker Data Wrangler.

Переиздано Платоном

Что такое выборка и чем она может помочь

Случайная выборка

Стратифицированная выборка

Случайная выборка при импорте из Amazon S3

Стратифицированная выборка с преобразованием

Заключение

Благодарности

Об авторах

Больше от Машинное обучение AWS

Точная настройка моделей Whisper на Amazon SageMaker с помощью LoRA | Веб-сервисы Amazon

Интеллектуальный поиск контента Adobe Experience Manager с помощью Amazon Kendra | Веб-сервисы Amazon

Создание синтетических данных для конвейеров компьютерного зрения на AWS

Используйте свои блокноты Amazon SageMaker Studio как запланированные задания блокнотов

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись