Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Налаштуйте спеціальне місце виведення запиту Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler скорочує час, потрібний для агрегування та підготовки даних для машинного навчання (ML), з тижнів до хвилин Студія Amazon SageMaker, перше повністю інтегроване середовище розробки (IDE) для ML. За допомогою Data Wrangler ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен етап робочого циклу підготовки даних, включаючи вибір даних, очищення, дослідження та візуалізацію, за допомогою єдиного візуального інтерфейсу. Ви можете імпортувати дані з кількох джерел даних, наприклад Служба простого зберігання Amazon (Amazon S3), Амазонська червона зміна, Сніжинка та 26 об'єднаних джерел даних запитів підтримується Амазонка Афіна.

Починаючи з сьогоднішнього дня, імпортуючи дані з джерел даних Athena, ви можете налаштувати місце виведення запиту S3 і період зберігання даних, щоб імпортувати дані в Data Wrangler, щоб контролювати, де та як довго Athena зберігає проміжні дані. У цій публікації ми розповімо вам про цю нову функцію.

Огляд рішення

Athena — це інтерактивна служба запитів, яка полегшує перегляд Клей AWS Каталог даних і аналіз даних в Amazon S3 і 26 об’єднаних джерелах даних запитів за допомогою стандартного SQL. Коли ви використовуєте Athena для імпорту даних, ви можете використовувати розташування Data Wrangler за замовчуванням S3 для виводу запиту Athena або вказати робочу групу Athena, щоб застосувати спеціальне розташування S3. Раніше вам доводилося впроваджувати робочі процеси очищення, щоб видалити ці проміжні дані, або вручну налаштовувати конфігурацію життєвого циклу S3, щоб контролювати вартість зберігання та відповідати вимогам вашої організації щодо безпеки даних. Це великі операційні витрати, і їх неможливо масштабувати.

Data Wrangler тепер підтримує користувальницькі місця S3 і періоди зберігання даних для ваших запитів Athena. За допомогою цієї нової функції ви можете змінити розташування виведення запиту Athena на спеціальне відро S3. Тепер у вас є політика збереження даних за замовчуванням 5 днів для результатів запиту Athena, і ви можете змінити це, щоб відповідати вимогам безпеки даних вашої організації. Залежно від періоду зберігання вихідні дані запиту Athena у сегменті S3 очищаються автоматично. Після імпорту даних ви можете виконати пошуковий аналіз цього набору даних і зберегти чисті дані в Amazon S3.

Наступна схема ілюструє цю архітектуру.

Для нашого випадку використання ми використовуємо зразок банківських даних, щоб пройти через рішення. Робочий процес складається з наступних кроків:

  1. Завантажити зразок набору даних і завантажте його в сегмент S3.
  2. Налаштуйте клей AWS гусеничний щоб сканувати схему та зберігати схему метаданих у каталозі даних AWS Glue.
  3. Використовуйте Athena для доступу до каталогу даних для запиту даних із сегмента S3.
  4. Створіть новий потік Data Wrangler для підключення до Athena.
  5. Під час створення підключення встановіть TTL збереження для набору даних.
  6. Використовуйте це підключення в робочому процесі та зберігайте чисті дані в іншому сегменті S3.

Для простоти ми припускаємо, що ви вже налаштували середовище Athena (кроки 1–3). Подальші кроки ми детально описуємо в цій публікації.

Передумови

Щоб налаштувати середовище Athena, див Керівництво користувача щоб отримати покрокові інструкції, і виконайте кроки 1–3, як описано в попередньому розділі.

Імпортуйте дані з Athena до Data Wrangler

Щоб імпортувати дані, виконайте такі дії:

  1. На консолі Studio виберіть ресурси на панелі навігації.
  2. Вибирати Data Wrangler у спадному меню.
  3. Вибирати Новий потік.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  4. на Імпортувати вкладку, виберіть Амазонка Афіна.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Відкриється сторінка з деталями, на якій можна підключитися до Athena та написати SQL-запит для імпорту з бази даних.
  5. Введіть назву свого підключення.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  6. Розширювати Розширена конфігурація.
    Під час підключення до Athena Data Wrangler використовує Amazon S3 для етапування запитуваних даних. За замовчуванням ці дані розміщені в розташуванні S3 s3://sagemaker-{region}-{account_id}/athena/ з терміном зберігання 5 днів.
  7. для Розташування результатів запиту в Amazon S3, введіть своє місцезнаходження S3.
  8. Select Термін зберігання даних і встановити термін зберігання даних (для цього поста 1 день).
    Якщо ви скасуєте цей параметр, дані зберігатимуться необмежений час.Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.За лаштунками Data Wrangler додає політику конфігурації життєвого циклу S3 до цього місця S3 для автоматичного очищення. Перегляньте наведений нижче приклад політики:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Тобі потрібно s3:GetLifecycleConfiguration та s3:PutLifecycleConfiguration для вашої ролі виконання SageMaker, щоб правильно застосувати політики конфігурації життєвого циклу. Без цих дозволів ви отримуєте повідомлення про помилку під час спроби імпортувати дані.

    Наступне повідомлення про помилку є прикладом відсутності GetLifecycleConfiguration дозвіл.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

    Наступне повідомлення про помилку є прикладом відсутності PutLifecycleConfiguration дозвіл.

    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

  9. За бажанням, для Робоча група, ви можете вказати робочу групу Athena.
    Робоча група Athena ізолює користувачів, команди, програми або робочі навантаження в групи, кожна зі своїми дозволами та налаштуваннями конфігурації. Коли ви вказуєте робочу групу, Data Wrangler успадковує налаштування робочої групи, визначені в Athena. Наприклад, якщо робоча група має розташування S3, визначене для зберігання результатів запиту та дозволів Перевизначити сторону клієнта налаштувань, ви не можете редагувати розташування результатів запиту S3.Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.За замовчуванням Data Wrangler також зберігає для вас з’єднання Athena. Це відображається як нова плитка Афіни в Імпортувати вкладка. Ви завжди можете повторно відкрити це з’єднання, щоб запитувати та передавати інші дані в Data Wrangler.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  10. Скасувати вибір Зберегти з'єднання якщо ви не хочете зберігати з’єднання.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  11. Щоб налаштувати підключення Athena, виберіть ніхто та цінності Вибірка щоб імпортувати весь набір даних.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Для великих наборів даних Data Wrangler дозволяє імпортувати підмножину ваших даних, щоб створити робочий процес трансформації, і обробляти весь набір даних лише тоді, коли ви будете готові. Це прискорює ітераційний цикл і заощаджує час і кошти обробки. Щоб дізнатися більше про різні доступні варіанти вибірки даних, відвідайте сторінку Amazon SageMaker Data Wrangler тепер підтримує випадкову вибірку та стратифіковану вибірку.
  12. для Каталог даних¸ вибрати AwsDataCatalog.
  13. для Database, виберіть свою базу даних.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Data Wrangler відображає доступні таблиці. Ви можете вибрати кожну таблицю, щоб перевірити схему та переглянути дані.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  14. Введіть наступний код у поле запиту:
    Select *
    From bank_additional_full

  15. Вибирати прогін для попереднього перегляду даних.
  16. Якщо все виглядає добре, вибирайте Імпортувати.
  17. Введіть назву набору даних і виберіть додавати щоб імпортувати дані в робочу область Data Wrangler.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Аналізуйте та обробляйте дані за допомогою Data Wrangler

Завантаживши дані в Data Wrangler, ви можете виконати пошуковий аналіз даних (EDA) і підготувати дані для машинного навчання.

  1. Виберіть знак плюс поруч із bank-data набір даних у потоці даних і виберіть Додати аналіз.
    Data Wrangler надає вбудований аналіз, зокрема звіт про якість даних і статистичні дані, кореляцію даних, звіт про упередженість перед навчанням, підсумок вашого набору даних і візуалізації (наприклад, гістограми та діаграми розсіювання). Крім того, ви можете створити власну візуалізацію.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. для Тип аналізу¸ вибрати Якість даних і аналітичний звіт.
    Це автоматично створює візуалізації, аналізи для виявлення проблем із якістю даних і рекомендації щодо правильних перетворень, необхідних для вашого набору даних.
  3. для Цільова колонкавиберіть Y.
  4. Оскільки це постановка задачі класифікації, для Тип проблемивиберіть Класифікація.
  5. Вибирати Створювати.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Data Wrangler створює детальний звіт про ваш набір даних. Ви також можете завантажити звіт на локальну машину.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  6. Для підготовки даних виберіть знак «плюс» поруч із набором банківських даних у потоці даних і виберіть Додати трансформацію.
  7. Вибирати Додати крок щоб почати будувати свої перетворення.
    Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

На момент написання цієї статті Data Wrangler надає понад 300 вбудованих перетворень. Ви також можете написати власні трансформації за допомогою Pandas або PySpark.

Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Тепер ви можете почати будувати свої трансформації та аналізи на основі вимог вашого бізнесу.

Прибирати

Щоб уникнути поточних витрат, видаліть ресурси Data Wrangler, виконавши наведені нижче дії, коли закінчите.

  1. Виберіть піктограму «Запущені екземпляри та ядра».
  2. У розділі ЗАПУЩЕНІ ПРОГРАМИ клацніть піктограму завершення роботи поруч із sagemaker-data-wrangler-1.0 app.
  3. Виберіть «Закрити все», щоб підтвердити.

Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Висновок

У цій публікації ми надали огляд налаштування вашого розташування S3 і ввімкнення конфігурацій життєвого циклу S3 для імпорту даних з Athena до Data Wrangler. За допомогою цієї функції ви можете зберігати проміжні дані в безпечному місці S3 і автоматично видаляти копію даних після закінчення періоду зберігання, щоб зменшити ризик неавторизованого доступу до даних. Радимо вам спробувати цю нову функцію. Щасливого будівництва!

Щоб дізнатися більше про Athena та SageMaker, відвідайте Посібник користувача Athena та Документація Amazon SageMaker.


Про авторів

Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Мінакшісундарам Тандавараян є старшим спеціалістом AI/ML із AWS. Він допомагає високотехнологічним стратегічним обліковим записам на їхньому шляху ШІ та ML. Він дуже захоплений ШІ, що керується даними.

Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Харіш Раджагопалан є старшим архітектором рішень у Amazon Web Services. Harish працює з корпоративними клієнтами та допомагає їм у подорожі до хмари.

Налаштуйте спеціальне місце виведення запитів Amazon S3 і політику збереження даних для джерел даних Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Джеймс Ву є старшим архітектором рішень для AI/ML у AWS. допомога клієнтам у проектуванні та створенні рішень AI/ML. Робота Джеймса охоплює широкий спектр випадків використання машинного машинного навчання, з головним інтересом до комп’ютерного зору, глибокого навчання та масштабування машинного машинного навчання на підприємстві. До того, як приєднатися до AWS, Джеймс був архітектором, розробником і технологічним лідером понад 10 років, у тому числі 6 років у галузі інженерії та 4 роки в галузі маркетингу та реклами.

Часова мітка:

Більше від AWS Машинне навчання