Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Настройте пользовательское расположение вывода запроса Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler.

Обработчик данных Amazon SageMaker сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения (ML) с недель до минут в Студия Amazon SageMaker, первая полностью интегрированная среда разработки (IDE) для машинного обучения. С помощью Data Wrangler вы можете упростить процесс подготовки данных и проектирования функций, а также выполнять каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса. Вы можете импортировать данные из нескольких источников данных, таких как Простой сервис хранения Amazon (Амазон С3), Амазонка Redshift, Снежинкаи 26 федеративных источников данных запросов поддерживается Амазонка Афина.

Начиная с сегодняшнего дня при импорте данных из источников данных Athena вы можете настроить расположение вывода запроса S3 и период хранения данных для импорта данных в Data Wrangler, чтобы контролировать, где и как долго Athena хранит промежуточные данные. В этом посте мы познакомим вас с этой новой функцией.

Обзор решения

Athena — интерактивный сервис запросов, который упрощает просмотр Клей AWS Каталог данных и анализ данных в Amazon S3 и 26 федеративных источниках данных запросов с использованием стандартного SQL. Когда вы используете Athena для импорта данных, вы можете использовать местоположение S3 Data Wrangler по умолчанию для выходных данных запроса Athena или указать рабочую группу Athena для принудительного применения пользовательского местоположения S3. Раньше вам приходилось реализовывать рабочие процессы очистки для удаления этих промежуточных данных или вручную настраивать конфигурацию жизненного цикла S3, чтобы контролировать стоимость хранения и соответствовать требованиям безопасности данных вашей организации. Это большие операционные накладные расходы, которые нельзя масштабировать.

Data Wrangler теперь поддерживает настраиваемые местоположения S3 и периоды хранения данных для выходных данных запроса Athena. С помощью этой новой функции вы можете изменить местоположение вывода запроса Athena на пользовательскую корзину S3. Теперь у вас есть 5-дневная политика хранения данных по умолчанию для выходных данных запроса Athena, и вы можете изменить ее в соответствии с требованиями безопасности данных вашей организации. В зависимости от периода хранения выходные данные запроса Athena в корзине S3 очищаются автоматически. После импорта данных вы можете выполнить исследовательский анализ этого набора данных и сохранить чистые данные обратно в Amazon S3.

Следующая диаграмма иллюстрирует эту архитектуру.

Для нашего варианта использования мы используем образец набора данных банка, чтобы пройтись по решению. Рабочий процесс состоит из следующих шагов:

  1. Скачать образец набора данных и загрузите его в корзину S3.
  2. Настройте клей AWS гусеничный для сканирования схемы и сохранения схемы метаданных в каталоге данных AWS Glue.
  3. Используйте Athena для доступа к каталогу данных для запроса данных из корзины S3.
  4. Создайте новый поток Data Wrangler для подключения к Athena.
  5. При создании подключения задайте срок хранения для набора данных.
  6. Используйте это подключение в рабочем процессе и сохраните чистые данные в другой корзине S3.

Для простоты мы предполагаем, что вы уже настроили среду Athena (шаги 1–3). Подробно о дальнейших шагах мы расскажем в этом посте.

Предпосылки

Чтобы настроить среду Athena, см. Руководство пользователя для получения пошаговых инструкций и выполните шаги 1–3, как описано в предыдущем разделе.

Импорт данных из Athena в Data Wrangler

Чтобы импортировать данные, выполните следующие действия:

  1. На консоли Studio выберите Полезные ресурсы значок на панели навигации.
  2. Выберите Обработчик данных в раскрывающемся меню.
  3. Выберите Новый поток.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  4. На Импортировать , выберите Амазонка Афина.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Откроется страница сведений, где вы можете подключиться к Athena и написать SQL-запрос для импорта из базы данных.
  5. Введите имя для вашего соединения.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. Расширьте Расширенная конфигурация.
    При подключении к Athena Data Wrangler использует Amazon S3 для обработки запрошенных данных. По умолчанию эти данные хранятся в расположении S3. s3://sagemaker-{region}-{account_id}/athena/ со сроком хранения 5 дней.
  7. Что касается Расположение результатов запроса Amazon S3, введите свое местоположение S3.
  8. Выберите Срок хранения данных и установите срок хранения данных (для этого поста 1 день).
    Если вы отмените выбор этой опции, данные будут сохраняться неограниченное время.Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.В фоновом режиме Data Wrangler прикрепляет политику конфигурации жизненного цикла S3 к этому местоположению S3 для автоматической очистки. См. следующий пример политики:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Вам нужно s3:GetLifecycleConfiguration и s3:PutLifecycleConfiguration чтобы ваша исполнительная роль SageMaker правильно применяла политики конфигурации жизненного цикла. Без этих разрешений вы получаете сообщения об ошибках при попытке импортировать данные.

    Следующее сообщение об ошибке является примером отсутствия GetLifecycleConfiguration .
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

    Следующее сообщение об ошибке является примером отсутствия PutLifecycleConfiguration .

    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

  9. По желанию, для Рабочая группа, вы можете указать рабочую группу Athena.
    Рабочая группа Athena изолирует пользователей, команды, приложения или рабочие нагрузки в группы, каждая из которых имеет свои собственные разрешения и параметры конфигурации. Когда вы указываете рабочую группу, Data Wrangler наследует настройку рабочей группы, определенную в Athena. Например, если в рабочей группе определено местоположение S3 для хранения результатов запросов и включена Переопределить клиентскую сторону настройки, вы не можете редактировать местоположение результатов запроса S3.Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.По умолчанию Data Wrangler также сохраняет для вас подключение к Athena. Это отображается как новая плитка Афины в Импортировать вкладка Вы всегда можете повторно открыть это соединение для запроса и внесения других данных в Data Wrangler.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  10. Отменить Сохранить соединение если вы не хотите сохранять соединение.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  11. Чтобы настроить соединение с Athena, выберите Ничто для Отбор проб чтобы импортировать весь набор данных.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Для больших наборов данных Data Wrangler позволяет импортировать подмножество ваших данных, чтобы построить рабочий процесс преобразования, и обрабатывать весь набор данных только тогда, когда вы будете готовы. Это ускоряет итерационный цикл и экономит время и затраты на обработку. Чтобы узнать больше о различных доступных вариантах выборки данных, посетите Amazon SageMaker Data Wrangler теперь поддерживает случайную выборку и стратифицированную выборку..
  12. Что касается Каталог данныхвыберите Каталог данных AwsData.
  13. Что касается База данных, выберите свою базу данных.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Data Wrangler отображает доступные таблицы. Вы можете выбрать каждую таблицу, чтобы проверить схему и просмотреть данные.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  14. Введите следующий код в поле запроса:
    Select *
    From bank_additional_full

  15. Выберите Run для предварительного просмотра данных.
  16. Если все выглядит хорошо, выберите Импортировать.
  17. Введите имя набора данных и выберите Добавить для импорта данных в рабочую область Data Wrangler.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Анализируйте и обрабатывайте данные с помощью Data Wrangler

После загрузки данных в Data Wrangler вы можете выполнить исследовательский анализ данных (EDA) и подготовить данные для машинного обучения.

  1. Выберите знак «плюс» рядом с bank-data набор данных в потоке данных и выберите Добавить анализ.
    Data Wrangler предоставляет встроенный анализ, в том числе отчет о качестве и анализе данных, корреляцию данных, отчет о смещении перед обучением, сводку вашего набора данных и визуализации (например, гистограммы и диаграммы рассеяния). Кроме того, вы можете создать свою собственную визуализацию.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Что касается Тип анализавыберите Качество данных и аналитический отчет.
    При этом автоматически создаются визуализации, анализ для выявления проблем с качеством данных и рекомендации по правильным преобразованиям, необходимым для вашего набора данных.
  3. Что касается Целевой столбец, выберите Y.
  4. Поскольку это постановка задачи классификации, для Тип проблемы, наведите на классификация.
  5. Выберите Создавай.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Data Wrangler создает подробный отчет о вашем наборе данных. Вы также можете загрузить отчет на локальный компьютер.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. Для подготовки данных выберите знак «плюс» рядом с набором данных банка в потоке данных и выберите Добавить преобразование.
  7. Выберите Добавить шаг чтобы начать строить свои преобразования.
    Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

На момент написания этой статьи Data Wrangler предоставляет более 300 встроенных преобразований. Вы также можете написать свои собственные преобразования, используя Pandas или PySpark.

Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Теперь вы можете приступить к созданию преобразований и анализов в соответствии с вашими бизнес-требованиями.

Убирать

Чтобы избежать текущих затрат, удалите ресурсы Data Wrangler, выполнив следующие действия, когда закончите.

  1. Выберите значок «Запущенные экземпляры и ядра».
  2. В разделе «РАБОТАЮЩИЕ ПРИЛОЖЕНИЯ» щелкните значок выключения рядом с sagemaker-data-wrangler-1.0 app.
  3. Выберите «Выключить все» для подтверждения.

Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Заключение

В этом посте мы представили обзор настройки вашего местоположения S3 и включения конфигураций жизненного цикла S3 для импорта данных из Athena в Data Wrangler. С помощью этой функции вы можете хранить промежуточные данные в защищенном месте S3 и автоматически удалять копию данных по истечении периода хранения, чтобы снизить риск несанкционированного доступа к данным. Мы рекомендуем вам попробовать эту новую функцию. Удачного строительства!

Чтобы узнать больше об Athena и SageMaker, посетите Руководство пользователя Athena и Документация по Amazon SageMaker.


Об авторах

Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Минакшисундарам Тандавараян является старшим специалистом по AI/ML в AWS. Он помогает высокотехнологичным стратегическим клиентам в их путешествии по искусственному интеллекту и машинному обучению. Он очень увлечен искусственным интеллектом, управляемым данными.

Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Хариш Раджагопалан является старшим архитектором решений в Amazon Web Services. Хариш работает с корпоративными клиентами и помогает им в переходе к облаку.

Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Джеймс Ву является старшим специалистом по архитектуре решений AI/ML в AWS. помогая клиентам разрабатывать и создавать решения AI/ML. Работа Джеймса охватывает широкий спектр вариантов использования машинного обучения, в первую очередь интересуясь компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. До прихода в AWS Джеймс более 10 лет был архитектором, разработчиком и руководителем технологий, в том числе 6 лет в области проектирования и 4 года в сфере маркетинга и рекламы.

Отметка времени:

Больше от Машинное обучение AWS