Amazon SageMaker Data Wrangler скорочує час на агрегування та підготовку даних для машинного навчання (ML) з тижнів до хвилин. За допомогою Data Wrangler ви можете вибирати й запитувати дані лише кількома клацаннями, швидко перетворювати дані за допомогою понад 300 вбудованих перетворень даних і розуміти свої дані за допомогою вбудованих візуалізацій, не писуючи жодного коду.
Додатково можна створити користувацькі перетворення унікальні для ваших вимог. Користувацькі перетворення дозволяють писати власні перетворення за допомогою PySpark, Pandas або SQL.
Data Wrangler тепер підтримує користувацькі Функція Pandas, визначена користувачем (UDF), яке може ефективно обробляти великі набори даних. Ви можете вибрати один із двох спеціальних режимів Pandas UDF: Pandas і Python. Обидва режими забезпечують ефективне рішення для обробки наборів даних, і вибраний режим залежить від ваших уподобань.
У цій публікації ми демонструємо, як використовувати нове перетворення Pandas UDF в будь-якому режимі.
Огляд рішення
На момент написання цієї статті ви можете імпортувати набори даних у Data Wrangler з Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна, Блоки даних та Сніжинка. Для цієї публікації ми використовуємо Amazon S3 для зберігання 2014 Amazon переглядає набір даних.
Дані мають стовпець під назвою reviewText
містить створений користувачем текст. Текст також містить декілька зупинити слова, які є поширеними словами, які не надають багато інформації, наприклад «a», «an» і «the». Видалення стоп-слів є поширеним етапом попередньої обробки в конвеєрах обробки природної мови (NLP). Ми можемо створити спеціальну функцію для видалення стоп-слів з оглядів.
Створіть спеціальне перетворення Pandas UDF
Давайте розглянемо процес створення двох користувацьких перетворень UDF Pandas Data Wrangler за допомогою режимів Pandas і Python.
- Завантажити Digital Music переглядає набір даних і завантажте його на Amazon S3.
- відкритий Студія Amazon SageMaker і створіть новий потік Data Wrangler.
- під Дати імпортувиберіть Amazon S3 і перейдіть до розташування набору даних.
- для Тип файлувиберіть jsonl.
Попередній перегляд даних має відображатися в таблиці.
- Вибирати Імпортувати продовжити.
- Після того, як ваші дані імпортуються, виберіть знак плюса поруч із Типи даних І вибирай Додати трансформацію.
- Вибирати Спеціальне перетворення.
- У спадному меню Python (визначена користувачем функція).
Тепер ми створюємо власне перетворення, щоб видалити стоп-слова.
- Укажіть вхідний стовпець, вихідний стовпець, тип повернення та режим.
У наступному прикладі використовується режим Pandas. Це означає, що функція повинна приймати та повертати серію Pandas такої ж довжини. Ви можете уявити серію Pandas як стовпець у таблиці або частину стовпця. Це найпродуктивніший режим Pandas UDF, оскільки Pandas може векторизувати операції між пакетами значень, а не по одному. The pd.Series
в режимі Pandas потрібні підказки типу.
Якщо ви віддаєте перевагу використовувати чистий Python, а не Pandas API, режим Python дозволяє вам вказати чисту функцію Python, яка приймає один аргумент і повертає одне значення. Наступний приклад еквівалентний попередньому коду Pandas з точки зору виводу. Підказки типу не потрібні в режимі Python.
- Вибирати додавати щоб додати власне перетворення.
Висновок
Data Wrangler має понад 300 вбудованих перетворень, і ви також можете додати власні трансформації, унікальні для ваших вимог. У цій публікації ми продемонстрували, як обробляти набори даних за допомогою нового користувацького перетворення UDF Pandas від Data Wrangler, використовуючи режими Pandas і Python. Ви можете використовувати будь-який режим відповідно до ваших уподобань. Щоб дізнатися більше про Data Wrangler, див Створення та використання потоку даних Wrangler.
Про авторів
Бен Харріс є інженером-програмістом з досвідом проектування, розгортання та підтримки масштабованих конвеєрів даних і рішень машинного навчання в різних областях. Бен створив системи для збору та маркування даних, класифікації зображень і текстів, моделювання від послідовності до послідовності, вбудовування та кластеризації тощо.
Хайдер Накві є архітектором рішень в AWS. Має великий досвід розробки програмного забезпечення та архітектури підприємства. Він зосереджується на тому, щоб дозволити клієнтам досягти бізнес-результатів за допомогою AWS. Він базується з Нью-Йорка.
Вішал Шривастава є технічним менеджером по роботі з клієнтами в AWS. Маючи досвід у сфері розробки програмного забезпечення та аналітики, він в основному працює з сектором фінансових послуг і цифровими бізнес-клієнтами та підтримує їхнє хмарне життя. У вільний час любить подорожувати з родиною.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- МЕНЮ
- рахунки
- через
- Amazon
- серед
- аналітика
- API
- архітектура
- доступний
- AWS
- фон
- вбудований
- бізнес
- Вибирати
- класифікація
- хмара
- код
- збір
- Колонка
- загальний
- містить
- створювати
- створення
- виготовлений на замовлення
- Клієнти
- дані
- демонструвати
- продемонстрований
- залежить
- розгортання
- проектування
- розробка
- цифровий
- домени
- ефективний
- продуктивно
- дозволяє
- інженер
- підприємство
- приклад
- досвід
- обширний
- сім'я
- фінансовий
- фінансові послуги
- потік
- фокусується
- після
- Безкоштовна
- функція
- Як
- How To
- HTTPS
- зображення
- інформація
- вхід
- IT
- з'єднання
- маркування
- мова
- великий
- УЧИТЬСЯ
- вивчення
- розташування
- машина
- навчання за допомогою машини
- менеджер
- матч
- ML
- більше
- найбільш
- музика
- Природний
- Нью-Йорк
- операції
- Готувати
- попередній перегляд
- процес
- обробка
- забезпечувати
- Швидко
- швидко
- вимагається
- Вимога
- повертати
- Умови повернення
- Відгуки
- масштабовані
- сектор
- Серія
- Послуги
- простий
- Софтвер
- розробка програмного забезпечення
- Інженер-програміст
- рішення
- Рішення
- пробіли
- зберігання
- зберігати
- Опори
- Systems
- технічний
- через
- час
- знак
- Жетони
- Перетворення
- подорожувати
- розуміти
- створеного
- використання
- значення
- різноманітність
- без
- слова
- працює
- лист