Настройте собственное местоположение вывода запроса Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

Обработчик данных Amazon SageMaker сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения (ML) с недель до минут в Студия Amazon SageMaker, первая полностью интегрированная среда разработки (IDE) для машинного обучения. С помощью Data Wrangler вы можете упростить процесс подготовки данных и проектирования функций, а также выполнять каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса. Вы можете импортировать данные из нескольких источников данных, таких как Простой сервис хранения Amazon (Амазон С3), Амазонка Redshift, Снежинкаи 26 федеративных источников данных запросов поддерживается Амазонка Афина.

Начиная с сегодняшнего дня при импорте данных из источников данных Athena вы можете настроить расположение вывода запроса S3 и период хранения данных для импорта данных в Data Wrangler, чтобы контролировать, где и как долго Athena хранит промежуточные данные. В этом посте мы познакомим вас с этой новой функцией.

Обзор решения

Athena — интерактивный сервис запросов, который упрощает просмотр Клей AWS Каталог данных и анализ данных в Amazon S3 и 26 федеративных источниках данных запросов с использованием стандартного SQL. Когда вы используете Athena для импорта данных, вы можете использовать местоположение S3 Data Wrangler по умолчанию для выходных данных запроса Athena или указать рабочую группу Athena для принудительного применения пользовательского местоположения S3. Раньше вам приходилось реализовывать рабочие процессы очистки для удаления этих промежуточных данных или вручную настраивать конфигурацию жизненного цикла S3, чтобы контролировать стоимость хранения и соответствовать требованиям безопасности данных вашей организации. Это большие операционные накладные расходы, которые нельзя масштабировать.

Data Wrangler теперь поддерживает настраиваемые местоположения S3 и периоды хранения данных для выходных данных запроса Athena. С помощью этой новой функции вы можете изменить местоположение вывода запроса Athena на пользовательскую корзину S3. Теперь у вас есть 5-дневная политика хранения данных по умолчанию для выходных данных запроса Athena, и вы можете изменить ее в соответствии с требованиями безопасности данных вашей организации. В зависимости от периода хранения выходные данные запроса Athena в корзине S3 очищаются автоматически. После импорта данных вы можете выполнить исследовательский анализ этого набора данных и сохранить чистые данные обратно в Amazon S3.

Следующая диаграмма иллюстрирует эту архитектуру.

Для нашего варианта использования мы используем образец набора данных банка, чтобы пройтись по решению. Рабочий процесс состоит из следующих шагов:

Скачать образец набора данных и загрузите его в корзину S3.
Настройте клей AWS гусеничный для сканирования схемы и сохранения схемы метаданных в каталоге данных AWS Glue.
Используйте Athena для доступа к каталогу данных для запроса данных из корзины S3.
Создайте новый поток Data Wrangler для подключения к Athena.
При создании подключения задайте срок хранения для набора данных.
Используйте это подключение в рабочем процессе и сохраните чистые данные в другой корзине S3.

Для простоты мы предполагаем, что вы уже настроили среду Athena (шаги 1–3). Подробно о дальнейших шагах мы расскажем в этом посте.

Предпосылки

Чтобы настроить среду Athena, см. Руководство пользователя для получения пошаговых инструкций и выполните шаги 1–3, как описано в предыдущем разделе.

Импорт данных из Athena в Data Wrangler

Чтобы импортировать данные, выполните следующие действия:

На консоли Studio выберите Полезные ресурсы значок на панели навигации.
Выберите Обработчик данных в раскрывающемся меню.
Выберите Новый поток.
На Импортировать , выберите Амазонка Афина.

Откроется страница сведений, где вы можете подключиться к Athena и написать SQL-запрос для импорта из базы данных.
Введите имя для вашего соединения.
Расширьте Расширенная конфигурация.
При подключении к Athena Data Wrangler использует Amazon S3 для обработки запрошенных данных. По умолчанию эти данные хранятся в расположении S3. s3://sagemaker-{region}-{account_id}/athena/ со сроком хранения 5 дней.
Что касается Расположение результатов запроса Amazon S3, введите свое местоположение S3.
Выберите Срок хранения данных и установите срок хранения данных (для этого поста 1 день).
Если вы отмените выбор этой опции, данные будут сохраняться неограниченное время.В фоновом режиме Data Wrangler прикрепляет политику конфигурации жизненного цикла S3 к этому местоположению S3 для автоматической очистки. См. следующий пример политики:
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
Вам нужно s3:GetLifecycleConfiguration и s3:PutLifecycleConfiguration чтобы ваша исполнительная роль SageMaker правильно применяла политики конфигурации жизненного цикла. Без этих разрешений вы получаете сообщения об ошибках при попытке импортировать данные.

Следующее сообщение об ошибке является примером отсутствия GetLifecycleConfiguration .

Следующее сообщение об ошибке является примером отсутствия PutLifecycleConfiguration .
По желанию, для Рабочая группа, вы можете указать рабочую группу Athena.
Рабочая группа Athena изолирует пользователей, команды, приложения или рабочие нагрузки в группы, каждая из которых имеет свои собственные разрешения и параметры конфигурации. Когда вы указываете рабочую группу, Data Wrangler наследует настройку рабочей группы, определенную в Athena. Например, если в рабочей группе определено местоположение S3 для хранения результатов запросов и включена Переопределить клиентскую сторону настройки, вы не можете редактировать местоположение результатов запроса S3.По умолчанию Data Wrangler также сохраняет для вас подключение к Athena. Это отображается как новая плитка Афины в Импортировать вкладка Вы всегда можете повторно открыть это соединение для запроса и внесения других данных в Data Wrangler.
Отменить Сохранить соединение если вы не хотите сохранять соединение.
Чтобы настроить соединение с Athena, выберите Ничто для Отбор проб чтобы импортировать весь набор данных.

Для больших наборов данных Data Wrangler позволяет импортировать подмножество ваших данных, чтобы построить рабочий процесс преобразования, и обрабатывать весь набор данных только тогда, когда вы будете готовы. Это ускоряет итерационный цикл и экономит время и затраты на обработку. Чтобы узнать больше о различных доступных вариантах выборки данных, посетите Amazon SageMaker Data Wrangler теперь поддерживает случайную выборку и стратифицированную выборку..
Что касается Каталог данныхвыберите Каталог данных AwsData.
Что касается База данных, выберите свою базу данных.

Data Wrangler отображает доступные таблицы. Вы можете выбрать каждую таблицу, чтобы проверить схему и просмотреть данные.
Введите следующий код в поле запроса:
```
Select *
From bank_additional_full
```
Выберите Run для предварительного просмотра данных.
Если все выглядит хорошо, выберите Импортировать.
Введите имя набора данных и выберите Добавить для импорта данных в рабочую область Data Wrangler.

Анализируйте и обрабатывайте данные с помощью Data Wrangler

После загрузки данных в Data Wrangler вы можете выполнить исследовательский анализ данных (EDA) и подготовить данные для машинного обучения.

Выберите знак «плюс» рядом с bank-data набор данных в потоке данных и выберите Добавить анализ.
Data Wrangler предоставляет встроенный анализ, в том числе отчет о качестве и анализе данных, корреляцию данных, отчет о смещении перед обучением, сводку вашего набора данных и визуализации (например, гистограммы и диаграммы рассеяния). Кроме того, вы можете создать свою собственную визуализацию.
Что касается Тип анализавыберите Качество данных и аналитический отчет.
При этом автоматически создаются визуализации, анализ для выявления проблем с качеством данных и рекомендации по правильным преобразованиям, необходимым для вашего набора данных.
Что касается Целевой столбец, выберите Y.
Поскольку это постановка задачи классификации, для Тип проблемы, наведите на классификация.
Выберите Создавай.

Data Wrangler создает подробный отчет о вашем наборе данных. Вы также можете загрузить отчет на локальный компьютер.
Для подготовки данных выберите знак «плюс» рядом с набором данных банка в потоке данных и выберите Добавить преобразование.
Выберите Добавить шаг чтобы начать строить свои преобразования.

На момент написания этой статьи Data Wrangler предоставляет более 300 встроенных преобразований. Вы также можете написать свои собственные преобразования, используя Pandas или PySpark.

Теперь вы можете приступить к созданию преобразований и анализов в соответствии с вашими бизнес-требованиями.

Убирать

Чтобы избежать текущих затрат, удалите ресурсы Data Wrangler, выполнив следующие действия, когда закончите.

Выберите значок «Запущенные экземпляры и ядра».
В разделе «РАБОТАЮЩИЕ ПРИЛОЖЕНИЯ» щелкните значок выключения рядом с sagemaker-data-wrangler-1.0 app.
Выберите «Выключить все» для подтверждения.

Заключение

В этом посте мы представили обзор настройки вашего местоположения S3 и включения конфигураций жизненного цикла S3 для импорта данных из Athena в Data Wrangler. С помощью этой функции вы можете хранить промежуточные данные в защищенном месте S3 и автоматически удалять копию данных по истечении периода хранения, чтобы снизить риск несанкционированного доступа к данным. Мы рекомендуем вам попробовать эту новую функцию. Удачного строительства!

Чтобы узнать больше об Athena и SageMaker, посетите Руководство пользователя Athena и Документация по Amazon SageMaker.

Об авторах

Настройте собственное местоположение вывода запросов Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Минакшисундарам Тандавараян является старшим специалистом по AI/ML в AWS. Он помогает высокотехнологичным стратегическим клиентам в их путешествии по искусственному интеллекту и машинному обучению. Он очень увлечен искусственным интеллектом, управляемым данными.

Хариш Раджагопалан является старшим архитектором решений в Amazon Web Services. Хариш работает с корпоративными клиентами и помогает им в переходе к облаку.

Джеймс Ву является старшим специалистом по архитектуре решений AI/ML в AWS. помогая клиентам разрабатывать и создавать решения AI/ML. Работа Джеймса охватывает широкий спектр вариантов использования машинного обучения, в первую очередь интересуясь компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. До прихода в AWS Джеймс более 10 лет был архитектором, разработчиком и руководителем технологий, в том числе 6 лет в области проектирования и 4 года в сфере маркетинга и рекламы.

Отметка времени: 20 сентября, 202221 сентября, 2022

Отметка времени: 10 Марта, 2023

Защита потребителей и продвижение инноваций — регулирование ИИ и укрепление доверия к ответственному ИИ

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1765573

Отметка времени: Декабрь 1, 2022

Amazon SageMaker JumpStart теперь предлагает блокноты Amazon Comprehend для пользовательской классификации и обнаружения пользовательских объектов PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Amazon SageMaker JumpStart теперь предлагает записные книжки Amazon Comprehend для пользовательской классификации и обнаружения пользовательских сущностей.

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1771393

Отметка времени: Декабрь 12, 2022

Amazon Personalize запускает новые рецепты, поддерживающие более крупные каталоги товаров с меньшей задержкой | Веб-сервисы Amazon

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1970709

Отметка времени: 2 мая 2024

Настройте пользовательское расположение вывода запроса Amazon S3 и политику хранения данных для источников данных Amazon Athena в Amazon SageMaker Data Wrangler.

Переиздано Платоном

Обзор решения

Предпосылки

Импорт данных из Athena в Data Wrangler

Анализируйте и обрабатывайте данные с помощью Data Wrangler

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

MLOps для пакетного вывода с мониторингом и переобучением моделей с использованием Amazon SageMaker, HashiCorp Terraform и GitLab CI/CD | Веб-сервисы Amazon

Обучайте и развертывайте модели машинного обучения в мультиоблачной среде с помощью Amazon SageMaker | Веб-сервисы Amazon

Обеспечьте более быстрое обучение с помощью параллельной библиотеки данных Amazon SageMaker | Веб-сервисы Amazon

Локализуйте контент на несколько языков с помощью сервисов машинного обучения AWS.

Защита потребителей и продвижение инноваций — регулирование ИИ и укрепление доверия к ответственному ИИ

Amazon SageMaker JumpStart теперь предлагает записные книжки Amazon Comprehend для пользовательской классификации и обнаружения пользовательских сущностей.

Amazon Personalize запускает новые рецепты, поддерживающие более крупные каталоги товаров с меньшей задержкой | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись