Створюйте випадкові та стратифіковані вибірки даних за допомогою Amazon SageMaker Data Wrangler

Перевидано Платоном

читають: 0

У цій публікації ми ознайомимо вас із двома методами вибірки Amazon SageMaker Data Wrangler щоб ви могли швидко створювати робочі процеси обробки своїх даних. Ми розглядаємо як випадкову вибірку, так і методи стратифікованої вибірки, щоб допомогти вам вибрати дані на основі ваших конкретних вимог.

Data Wrangler скорочує час, необхідний для агрегування та підготовки даних для машинного навчання (ML), з тижнів до хвилин. Ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен крок робочого циклу підготовки даних, включаючи вибір, очищення, дослідження та візуалізацію, за допомогою єдиного візуального інтерфейсу. За допомогою інструмента вибору даних Data Wrangler ви можете вибрати потрібні дані з різних джерел даних та імпортувати їх одним клацанням миші. Data Wrangler містить понад 300 вбудованих перетворень даних, тож ви можете швидко нормалізувати, трансформувати та комбінувати функції без необхідності писати код. За допомогою шаблонів візуалізації Data Wrangler ви можете швидко переглянути та перевірити, чи ці перетворення завершено, як ви планували, переглянувши їх у Студія Amazon SageMaker, перше повністю інтегроване середовище розробки (IDE) для ML. Після того як ваші дані будуть підготовлені, ви можете створювати повністю автоматизовані робочі процеси машинного навчання Трубопроводи Amazon SageMaker і збережіть їх для повторного використання Магазин функцій Amazon SageMaker.

Що таке вибірка і чим вона може допомогти

У статистичному аналізі загальний набір спостережень називається населення. Під час роботи з даними часто неможливо виміряти кожне спостереження за сукупністю. Статистична вибірка це процедура, яка дозволяє зрозуміти ваші дані шляхом вибору підмножин із сукупності.

Відбір проб пропонує практичне рішення, яке жертвує деякою точністю заради практичності та легкості. Щоб переконатися, що ваша вибірка добре відображає загальну сукупність, ви можете застосувати стратегії вибірки. Data Wrangler підтримує дві найпоширеніші стратегії: випадкова вибірка та стратифікований відбір проб.

Випадкова вибірка

Якщо у вас великий набір даних, експерименти з ним можуть зайняти багато часу. Data Wrangler забезпечує випадкову вибірку, щоб ви могли ефективно обробляти та візуалізувати свої дані. Наприклад, ви можете обчислити середню кількість покупок для клієнта за певний проміжок часу або ви можете обчислити коефіцієнт вибуття передплатника. Ви можете використати випадкову вибірку, щоб візуалізувати приблизні значення цих показників.

З вашого набору даних вибирається випадкова вибірка, щоб кожен елемент мав рівну ймовірність бути обраним. Ця операція виконується ефективним способом, придатним для великих наборів даних, тому розмір поверненої вибірки приблизно дорівнює запитуваному розміру та не обов’язково дорівнює запитуваному розміру.

Ви можете використовувати випадкову вибірку, якщо хочете зробити швидкі приблизні обчислення, щоб зрозуміти свій набір даних. Зі збільшенням розміру вибірки випадкова вибірка може краще наблизити весь набір даних, але якщо ви не включите всі точки даних, ваша випадкова вибірка може не включати всі викиди та крайові випадки. Якщо ви хочете підготувати весь набір даних в інтерактивному режимі, ви також можете переключитися на більший тип екземпляра.

Як правило, помилка вибірки при обчисленні середнього значення генеральної сукупності з використанням випадкової вибірки прагне до 0, коли вибірка стає більшою. У міру збільшення розміру вибірки помилка зменшується як величина, обернена квадратного кореня з розміру вибірки. Отже, чим більша вибірка, тим краще наближення.

Стратифікована вибірка

У деяких випадках ваше населення можна розділити на верстви або взаємовиключні сегменти, як-от географічне розташування для адрес, рік публікації для пісень або податкові категорії для доходів. Випадкова вибірка є найпопулярнішою технікою вибірки, але якщо деякі страти є незвичайними у вашій сукупності, ви можете використовувати стратифіковану вибірку в Data Wrangler, щоб переконатися, що кожна страта пропорційно представлена у вашій вибірці. Це може бути корисним для зменшення помилок вибірки, а також для забезпечення фіксації граничних випадків під час експерименту.

У реальному світі шахрайські транзакції з кредитними картками трапляються рідко і зазвичай складають менше 1% ваших даних. Якби ми брали вибірку випадковим чином, нерідко вибірка містила дуже мало шахрайських транзакцій або взагалі не містила їх. Як наслідок, під час навчання моделі ми мали б занадто мало шахрайських прикладів, щоб вивчити точну модель. Ми можемо використовувати стратифіковану вибірку, щоб забезпечити пропорційне представництво шахрайських операцій.

При стратифікованій вибірці розмір кожної страти у вибірці пропорційний розміру страт у сукупності. Це працює шляхом поділу ваших даних на страти на основі вказаного стовпця, вибору випадкових вибірок із кожної страти з правильною пропорцією та об’єднання цих вибірок у стратифіковану вибірку сукупності.

Стратифікована вибірка є корисною технікою, коли ви хочете зрозуміти, як різні групи у ваших даних порівнюються одна з одною, і ви хочете забезпечити відповідне представлення кожної групи.

Випадкова вибірка під час імпорту з Amazon S3

У цьому розділі ми використовуємо випадкову вибірку з набором даних, що складається з шахрайських і нешахрайських подій з нашої системи виявлення шахрайства. Ти можеш скачати набір даних, який буде додано до цієї публікації (Міжнародна ліцензія на авторство CC 4.0).

На момент написання цієї статті ви можете імпортувати набори даних із Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна, і Сніжинка. Наш набір даних дуже великий, містить 1 мільйон рядків. У цьому випадку ми хочемо відібрати 1,0000 рядків під час імпорту з Amazon S3 для інтерактивних експериментів у Data Wrangler.

Відкрийте SageMaker Studio та створіть новий потік Data Wrangler.
під Дати імпортувиберіть Amazon S3.
Виберіть набір даних для імпорту.
У ПОДРОБИЦІ введіть назву набору даних і тип файлу.
для Вибіркавиберіть випадковий.
для Обсяг вибірки, введіть 10000.
Вибирати Імпортувати щоб завантажити набір даних у Data Wrangler.

Ви можете візуалізувати два окремі кроки на сторінці потоку даних у Data Wrangler. Перший крок вказує на завантаження вибіркового набору даних на основі визначеної вами стратегії вибірки. Після завантаження даних Data Wrangler автоматично визначає типи даних для кожного стовпця в наборі даних. Цей крок додається за умовчанням для всіх наборів даних.

Тепер ви можете переглядати дані випадкової вибірки в Data Wrangler, додавши аналіз.

Виберіть знак плюс біля Типи даних І вибирай аналіз.
для Тип аналізу¸ вибрати Діаграма розкиду.
Вибирати feat_1 та feat_2 що стосується вісь X та Вісь Y, відповідно.
для Колір завиберіть is_fraud.

Коли ви впораєтеся з набором даних, перейдіть до подальших перетворень даних відповідно до ваших бізнес-вимог, щоб підготувати дані для ML.

На наступному знімку екрана ми можемо побачити шахрайські (темно-синій) і нешахрайські (світло-блакитний) транзакції в нашому аналізі.

У наступному розділі ми обговорюємо використання стратифікованої вибірки, щоб забезпечити пропорційний вибір випадків шахрайства.

Стратифікована вибірка з перетворенням

Data Wrangler дозволяє отримувати вибірку під час імпорту, а також вибірку за допомогою перетворення. У цьому розділі ми обговорюємо використання стратифікованої вибірки за допомогою перетворення після того, як ви імпортували набір даних у Data Wrangler.

Щоб почати відбір проб, на Потік даних виберіть вкладку «плюс» біля імпортованого набору даних і виберіть Додати трансформацію.

На момент написання цієї статті Data Wrangler надає більше ніж 300 вбудованих трансформацій. На додаток до вбудованих трансформацій, ви можете писати власні власні трансформації в Pandas або PySpark.

Від Додати трансформацію список, виберіть Вибірка.

Тепер ви можете використовувати три різні стратегії вибірки: обмежена, випадкова та стратифікована.

для Метод відбору пробвиберіть Стратифікований.
Використовувати is_fraud колонка як стратифікаційна колонка.
Вибирати попередній перегляд щоб переглянути трансформацію, потім виберіть додавати щоб додати це перетворення як крок до вашого рецепту перетворення.

Ваш потік даних тепер відображає доданий крок вибірки.

Тепер ми можемо переглянути дані випадкової вибірки, додавши аналіз.

Виберіть знак плюс і виберіть аналіз.
для Тип аналізу¸ вибрати Гістограма.
Вибирати is_fraud як для вісь X та Колір за.
Вибирати попередній перегляд.

На наступному знімку екрана ми можемо спостерігати розбивку шахрайських (темно-синій) і нешахрайських (світло-блакитний) випадків, відібраних за допомогою стратифікованої вибірки в правильних пропорціях 20% шахрайських і 80% нешахрайських.

Висновок

Під час роботи з надзвичайно великими наборами даних важливо правильно відібрати вибірку даних і вибрати правильну стратегію вибірки відповідно до вимог вашого бізнесу. Ефективність вашої вибірки залежить від різних факторів, у тому числі результатів діяльності, доступності даних і розподілу. У цій публікації ми розповіли, як використовувати Data Wrangler і його вбудовані стратегії вибірки для підготовки ваших даних.

Ви можете почати використовувати цю можливість сьогодні в усіх регіонах, де доступна SageMaker Studio. Щоб почати, відвідайте Підготуйте дані ML за допомогою Amazon SageMaker Data Wrangler.

Подяки

Автори хотіли б подякувати Джонатану Чунгу (прикладний науковець) за його рецензію та цінний відгук щодо цієї статті.

Про авторів

Бен Харріс є інженером-програмістом із досвідом проектування, розгортання та підтримки масштабованих конвеєрів даних і рішень машинного навчання в різних областях.

Вішал Капур є старшим науковим співробітником з AWS AI. Він прагне допомогти клієнтам зрозуміти їхні дані в Data Wrangler. У вільний час він катається на гірських велосипедах, сноубордах і проводить час з родиною.

Мінакшісундарам Тандавараян є старшим фахівцем зі штучного інтелекту та ML в AWS. Він допомагає Hi-Tech стратегічним обліковим записам у їхній подорожі AI та ML. Він дуже захоплений штучним інтелектом на основі даних.

Аджай Шарма є головним менеджером із продуктів Amazon SageMaker, де він зосереджується на Data Wrangler, візуальному інструменті підготовки даних для науковців із обробки даних. До роботи в AWS Аджай працював експертом з обробки даних у компанії McKinsey and Company, де керував проектами, орієнтованими на ML, для провідних фінансових і страхових компаній у всьому світі. Аджай захоплюється наукою про дані та любить досліджувати новітні алгоритми та методи машинного навчання.

Часова мітка: Квітень 26, 2022

Часова мітка: Лютий 6, 2024

Створюйте випадкові та стратифіковані вибірки даних за допомогою Amazon SageMaker Data Wrangler

Перевидано Платоном

Що таке вибірка і чим вона може допомогти

Випадкова вибірка

Стратифікована вибірка

Випадкова вибірка під час імпорту з Amazon S3

Стратифікована вибірка з перетворенням

Висновок

Подяки

Про авторів

Більше від AWS Машинне навчання

Точне налаштування моделей Whisper на Amazon SageMaker за допомогою LoRA | Веб-сервіси Amazon

Розумний пошук вмісту Adobe Experience Manager за допомогою Amazon Kendra | Веб-сервіси Amazon

Створюйте синтетичні дані для конвеєрів комп’ютерного зору на AWS

Операціоналізуйте свої блокноти Amazon SageMaker Studio як заплановані завдання для ноутбуків

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки