Amazon SageMaker Data Wrangler є спеціально створеним інструментом для агрегації та підготовки даних до машинного навчання (ML). Він дає змогу використовувати візуальний інтерфейс для доступу до даних та виконання дослідницького аналізу даних (EDA) та розробки функцій. Функція EDA має вбудовані можливості аналізу даних для діаграм (наприклад, діаграму розсіювання або гістограму) та можливості аналізу моделі, що заощаджують час, наприклад важливість функції, витоку цілі та пояснення моделі. Можливість розробки функцій має понад 300 вбудованих перетворень і може виконувати користувацькі перетворення за допомогою середовища виконання Python, PySpark або Spark SQL.
Для користувацьких візуалізацій та перетворень Data Wrangler тепер надає приклади фрагментів коду для поширених типів візуалізацій та перетворень. У цій публікації ми демонструємо, як використовувати ці фрагменти коду для швидкого запуску EDA в Data Wrangler.
Огляд рішення
На момент написання цієї статті ви можете імпортувати набори даних у Data Wrangler з Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна, Блоки даних та Сніжинка. Для цієї публікації ми використовуємо Amazon S3 для зберігання Amazon 2014 року набір даних оглядів. Нижче наведено зразок набору даних:
У цій публікації ми виконуємо EDA за допомогою трьох стовпців:asin
, reviewTime
та overall
— який відповідає ідентифікатору продукту, даті часу огляду та загальному рейтингу огляду відповідно. Ми використовуємо ці дані для візуалізації динаміки кількості оглядів за місяці та роки.
Використання прикладу фрагмента коду для EDA в Data Wrangler
Щоб почати виконувати EDA в Data Wrangler, виконайте такі дії:
- Завантажити Digital Music переглядає набір даних JSON і завантажте його на Amazon S3.
Ми використовуємо це як вихідний набір даних для EDA. - відкритий Студія Amazon SageMaker і створіть новий потік даних Wrangler та імпортуйте набір даних із Amazon S3.
Цей набір даних має дев’ять стовпців, але ми використовуємо лише три:
asin
,reviewTime
таoverall
. Нам потрібно опустити інші шість стовпців. - Створіть спеціальне перетворення та виберіть Python (PySpark).
- Розширювати Шукайте фрагменти прикладів І вибирай Відкиньте всі стовпці, крім кількох.
- Введіть наданий фрагмент у власне перетворення та дотримуйтесь інструкцій, щоб змінити код.
Тепер, коли у нас є всі потрібні стовпці, давайте відфільтруємо дані, щоб зберігати огляди лише за 2000–2020 роки.
- Використовувати Фільтрувати часову позначку за межами діапазону фрагмент для видалення даних до 2000 року та після 2020 року:
Далі ми витягуємо рік і місяць із стовпця ReviewTime.
- Використовувати Вкажіть дату/час трансформувати.
- для Витягнути стовпцівиберіть рік та місяць.
Далі ми хочемо звести кількість відгуків за рік і місяць, які ми створили на попередньому кроці.
- Використовувати Обчислюйте статистику в групах фрагмент:
- Перейменуйте агрегацію попереднього кроку з
count(overall)
доreviews_num
вибравши Керування стовпцями і Перейменувати стовпець трансформувати.
Нарешті, ми хочемо створити теплову карту для візуалізації розподілу відгуків за роками та місяцями. - На вкладці аналіз виберіть Індивідуальна візуалізація.
- Розширювати Знайдіть фрагмент І вибирай Карта пам'яті у спадному меню.
- Введіть наданий фрагмент у власну візуалізацію:
Отримуємо наступну візуалізацію.
Якщо ви хочете ще більше покращити теплову карту, ви можете розділити дані, щоб показувати лише огляди до 2011 року. Їх важко визначити на теплові карті, яку ми щойно створили через велику кількість оглядів з 2012 року. - Додайте один рядок коду до власної візуалізації:
Отримуємо наступну теплову карту.
Тепер теплова карта більш помітно відображає огляди до 2011 року: ми можемо спостерігати сезонні ефекти (кінець року приносить більше покупок і, отже, більше оглядів) і можемо визначити аномальні місяці, такі як жовтень 2003 року та березень 2005 року. Варто дослідити далі щоб визначити причину цих аномалій.
Висновок
Data Wrangler — це спеціально створений інструмент для агрегації та підготовки даних для машинного навчання. У цій публікації ми продемонстрували, як виконати EDA та швидко трансформувати ваші дані за допомогою фрагментів коду, наданих Data Wrangler. Вам просто потрібно знайти фрагмент, ввести код і налаштувати параметри відповідно до вашого набору даних. Ви можете продовжувати повторювати свій сценарій, щоб створити більш складні візуалізації та перетворення.
Щоб дізнатися більше про Data Wrangler, див Створення та використання потоку даних Wrangler.
Про авторів
Микита Івкін є прикладним науковцем, Amazon SageMaker Data Wrangler.
Хайдер Накві є архітектором рішень в AWS. Має великий досвід розробки програмного забезпечення та архітектури підприємства. Він зосереджується на тому, щоб дозволити клієнтам досягти бізнес-результатів за допомогою AWS. Він базується з Нью-Йорка.
Харіш Раджагопалан є старшим архітектором рішень у Amazon Web Services. Harish працює з корпоративними клієнтами та допомагає їм у подорожі до хмари.
Джеймс Ву є старшим спеціалістом з AI/ML SA в AWS. Він працює з клієнтами, щоб пришвидшити їхній хмарний шлях і прискорити реалізацію цінності для бізнесу. На додаток до цього, Джеймс також захоплюється розробкою та масштабуванням великих рішень AI/ML у різних областях. До того, як приєднатися до AWS, він очолював багатопрофільну команду інноваційних технологій із інженерами ML та розробниками програмного забезпечення для провідної світової фірми на ринку та рекламної індустрії.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- МЕНЮ
- прискорювати
- доступ
- Achieve
- через
- доповнення
- реклама
- ВСІ
- дозволяє
- Amazon
- Amazon Web Services
- аналіз
- прикладної
- архітектура
- доступний
- AWS
- Вісь
- оскільки
- перед тим
- між
- вбудований
- бізнес
- можливості
- Викликати
- Чарти
- Вибирати
- хмара
- код
- Колонка
- загальний
- повний
- комплекс
- продовжувати
- управління
- створювати
- створений
- виготовлений на замовлення
- Клієнти
- дані
- аналіз даних
- демонструвати
- продемонстрований
- Визначати
- розробників
- розвивається
- розробка
- розподіл
- домени
- вниз
- Падіння
- динаміка
- ефекти
- дозволяє
- Машинобудування
- Інженери
- Що натомість? Створіть віртуальну версію себе у
- підприємство
- приклад
- Крім
- досвід
- обширний
- швидше
- особливість
- в кінці кінців
- Фірма
- Перший
- потік
- фокусується
- стежити
- після
- від
- функція
- Функції
- далі
- Глобальний
- великий
- Групи
- має
- корисний
- допомагає
- Як
- How To
- HTTPS
- ідентифікувати
- значення
- промисловість
- інновація
- інтерфейс
- IT
- подорож
- тримати
- великий
- УЧИТЬСЯ
- вивчення
- Led
- Лінія
- список
- машина
- навчання за допомогою машини
- карта
- березня
- ринок
- матч
- ML
- модель
- місяць
- місяців
- більше
- музика
- Імена
- Нью-Йорк
- номер
- Інше
- загальний
- пристрасний
- виконанні
- ігри
- Готувати
- попередній
- Product
- забезпечувати
- за умови
- забезпечує
- покупка
- Купівля
- кількісний
- швидко
- Сировина
- облік
- Відображає
- огляд
- Відгуки
- Масштабування
- вчений
- Послуги
- простий
- з
- SIX
- Софтвер
- розробка програмного забезпечення
- Рішення
- спеціаліст
- старт
- статистика
- зберігання
- зберігати
- Мета
- команда
- Технологія
- Команда
- отже
- три
- час
- інструмент
- топ
- Перетворення
- перетворень
- Типи
- використання
- значення
- різний
- візуалізації
- Обсяги
- Web
- веб-сервіси
- ВООЗ
- чудовий
- працює
- вартість
- лист
- X
- рік
- років
- вашу