Вы можете создать хранилища функций, чтобы предоставить центральный репозиторий для функций машинного обучения (ML), который можно использовать совместно с группами специалистов по данным в вашей организации для обучения, пакетной оценки и вывода в реальном времени. Группы специалистов по обработке и анализу данных могут повторно использовать функции, хранящиеся в центральном репозитории, избегая необходимости реинжиниринга конвейеров функций для разных проектов и, как следствие, устранения повторной работы и дублирования.
Чтобы удовлетворить требования безопасности и соответствия требованиям, вам может потребоваться детальный контроль над доступом к этим общим функциям машинного обучения. Эти потребности часто выходят за рамки управления доступом на уровне таблиц и столбцов и ограничиваются контролем доступа на уровне отдельных строк. Например, вы можете позволить представителям учетных записей видеть строки из таблицы продаж только для своих учетных записей и замаскировать префикс конфиденциальных данных, таких как номера кредитных карт. Детализированные элементы управления доступом необходимы для защиты данных хранилища функций и предоставления доступа в зависимости от роли пользователя. Это особенно важно для клиентов и заинтересованных сторон в отраслях, которым необходимо проводить аудит доступа к данным функций и обеспечивать необходимый уровень безопасности.
В этом посте мы представляем обзор того, как реализовать детальный контроль доступа к группам функций и функциям, хранящимся в автономном хранилище функций, с помощью Магазин функций Amazon SageMaker и Формирование озера AWS. Если вы новичок в Feature Store, вы можете обратиться к Понимание основных возможностей Amazon SageMaker Feature Store для дополнительной информации, прежде чем погрузиться в остальную часть этого поста. Обратите внимание, что для онлайн-магазина функций вы можете использовать Управление идентификацией и доступом AWS (IAM) с условиями для ограничения доступа пользователей к группам функций.
Обзор решения
Следующая архитектура использует Lake Formation для реализации доступа на уровне строк, столбцов или ячеек, чтобы ограничить, какие группы функций или функции в группе функций могут быть доступны специалисту по данным, работающему в Студия Amazon SageMaker. Хотя мы сосредоточены на ограничении доступа для пользователей, работающих в Studio, тот же подход применим и к пользователям, получающим доступ к автономному хранилищу функций с помощью таких сервисов, как Амазонка Афина.
Feature Store — это специально созданное решение для управления функциями машинного обучения, которое помогает специалистам по обработке и анализу данных повторно использовать функции машинного обучения в разных группах и моделях, предоставлять функции для прогнозирования моделей в масштабе с малой задержкой, а также обучать и развертывать новые модели быстрее и эффективнее.
Lake Formation — это полностью управляемая служба, которая помогает создавать озера данных, защищать их и управлять ими, а также обеспечивает контроль доступа к данным в озере данных. Lake Formation поддерживает следующие уровни безопасности:
- Разрешения на уровне строк – Ограничивает доступ к определенным строкам на основе политик соответствия данных и управления.
- Разрешения на уровне столбца – Ограничивает доступ к определенным столбцам на основе фильтров данных.
- Разрешения на уровне ячейки – Объединяет элементы управления на уровне строк и столбцов, предоставляя вам доступ к определенным строкам и столбцам в таблицах базы данных.
Lake Formation также обеспечивает централизованный аудит и отчетность о соблюдении требований, определяя, какие участники получили доступ к данным, когда и через какие службы.
Комбинируя Feature Store и Lake Formation, вы можете реализовать детальный доступ к функциям ML в вашем существующем автономном хранилище функций.
В этом посте мы предлагаем подход для вариантов использования, в которых вы создали группы функций в Feature Store и вам необходимо предоставить доступ вашим командам по обработке и анализу данных для изучения функций и создания моделей для их проектов. На высоком уровне администратор Lake Formation определяет и создает модель разрешений в Lake Formation и назначает ее отдельным пользователям Studio или группам пользователей.
Мы проведем вас через следующие шаги:
- Зарегистрируйте автономное хранилище объектов в Lake Formation.
- Создайте фильтры данных Lake Formation для детального контроля доступа.
- Предоставьте разрешения группам функций (таблицам) и функциям (столбцам).
Предпосылки
Чтобы реализовать это решение, вам необходимо создать пользователя-администратора Lake Formation в IAM и войти в систему как этот пользователь-администратор. Инструкции см. Создание администратора озера данных.
Мы начнем с настройки тестовых данных с использованием синтетических заказов продуктов из синтетически сгенерированных списков клиентов с использованием обманщик Библиотека Python. Вы можете попробовать это сами, следуя модулю на GitHub. Для каждого клиента блокнот генерирует от 1 до 10 заказов, в каждом из которых приобретаются продукты. Затем вы можете использовать следующее ноутбук для создания трех групп функций для наборов данных о клиентах, продуктах и заказах в хранилище функций. Прежде чем создавать группы функций, убедитесь, что среда Studio настроена в вашей учетной записи AWS. Инструкции см. Подключение к домену Amazon SageMaker.
Цель состоит в том, чтобы проиллюстрировать, как использовать Feature Store для хранения функций и использовать Lake Formation для управления доступом к этим функциям. На следующем снимке экрана показано определение orders
группа функций с помощью консоли Studio.
Feature Store использует Простой сервис хранения Amazon (Amazon S3) в своей учетной записи для хранения офлайн-данных. Вы можете использовать механизмы запросов, такие как Athena, для автономного хранилища данных в Amazon S3, чтобы извлекать наборы обучающих данных или анализировать данные функций, и вы можете объединять более одной группы функций в одном запросе. Feature Store автоматически создает Клей AWS Каталог данных для групп функций во время создания группы функций, что позволяет вам использовать этот каталог для доступа и запроса данных из автономного хранилища с помощью Athena или инструментов с открытым исходным кодом, таких как Presto.
Зарегистрируйте автономное хранилище объектов в Lake Formation
Чтобы начать использовать разрешения Lake Formation с вашими существующими базами данных и таблицами Feature Store, вы должны отозвать разрешение Super из IAMAllowedPrincipals
group в базе данных и связанные таблицы групп объектов в Lake Formation.
- Войдите в Консоль управления AWS в качестве администратора Lake Formation.
- На панели навигации под Каталог данных, выберите Databases.
- Выберите базу данных
sagemaker_featurestore
, которая представляет собой базу данных, связанную с автономным хранилищем объектов.
Поскольку Feature Store автоматически создает каталог данных AWS Glue при создании групп функций, автономное хранилище объектов отображается как база данных в Lake Formation.
- На Действия Меню, выберите Редактировать.
- На Изменить базу данных страницу, если вы хотите, чтобы разрешения Lake Formation работали и для вновь созданных групп объектов, и вам не нужно было отзывать
IAMAllowedPrincipals
для каждой таблицы снять выделение Использовать только контроль доступа IAM для новых таблиц в этой базе данных, а затем выберите Сохранить. - На Databases страницы, выберите
sagemaker_featurestore
база данных. - На Действия Меню, выберите Просмотр разрешений.
- Выберите
IAMAllowedPrincipals
сгруппируйся и выбери Отозвать.
Точно так же вам необходимо выполнить эти шаги для всех таблиц групп функций, связанных с вашим автономным хранилищем функций.
- На панели навигации под Каталог данных, выберите таблицы.
- Выберите таблицу с названием вашей группы функций.
- На Действия Меню, выберите Просмотр разрешений.
- Выберите
IAMAllowedPrincipals
сгруппируйся и выбери Отозвать.
Чтобы переключить автономное хранилище объектов на модель разрешений Lake Formation, необходимо включить разрешения Lake Formation для местоположения Amazon S3 автономного хранилища объектов. Для этого вам необходимо зарегистрировать местоположение Amazon S3.
- На панели навигации под Зарегистрируйтесь и загрузите, выберите Расположение озера данных.
- Выберите Зарегистрировать местонахождение.
- Выберите расположение автономного хранилища функций в Amazon S3 для Путь к Amazon S3.
Место это S3Uri
который был предоставлен в конфигурации офлайн-магазина функциональной группы и может быть найден в DescribeFeatureGroup
API-интерфейсы ResolvedOutputS3Uri
поле.
- Выберите по умолчанию
AWSServiceRoleForLakeFormationDataAccess
роль IAM и выберите Зарегистрировать местонахождение.
Lake Formation интегрируется с Служба управления ключами AWS (АРМ КМС); этот подход также работает с местоположениями Amazon S3, которые были зашифрованы с помощью ключа, управляемого AWS, или с рекомендуемым подходом с использованием ключа, управляемого клиентом. Для дальнейшего чтения см. Регистрация зашифрованного местоположения Amazon S3.
Создайте фильтры данных Lake Formation для детального контроля доступа
Вы можете реализовать безопасность на уровне строк и ячеек, создав фильтры данных. Вы выбираете фильтр данных, когда предоставляете разрешение SELECT Lake Formation для таблиц. В этом случае мы используем эту возможность для реализации набора фильтров, которые ограничивают доступ к группам функций и определенным функциям в группе функций.
Давайте используем следующий рисунок, чтобы объяснить, как работают фильтры данных. На рисунке показаны две группы функций: customers
и orders
. Фильтр данных на уровне строки применяется к customers
группа функций, в результате чего появляются только записи, в которых feature1 = ‘12’
возвращается. Точно так же доступ к группе функций заказов ограничен с помощью фильтра данных на уровне ячейки только записями функций, в которых feature2 = ‘22
', а также исключить признак 1 из результирующего набора данных.
Чтобы создать новый фильтр данных, на панели навигации консоли Lake Formation в разделе Каталог данных, выберите Фильтры данных и затем выберите Создать новый фильтр.
Когда вы выбираете Доступ ко всем столбцам и укажите выражение фильтра строк, вы устанавливаете безопасность только на уровне строк (фильтрацию строк). В этом примере мы создаем фильтр, который ограничивает доступ специалиста по данным только к записям в orders
группа функций на основе значения функции customer_id ='C7782'
.
Когда вы включаете или исключаете определенные столбцы, а также предоставляете выражение фильтра строк, вы устанавливаете безопасность на уровне ячеек (фильтрацию ячеек). В этом примере мы создаем фильтр, который ограничивает доступ специалиста по данным к определенным функциям группы функций (мы исключаем sex
и is_married
) и подмножество записей в customers
группа функций на основе значения функции (customer_id ='C3126'
).
На следующем снимке экрана показаны созданные фильтры данных.
Предоставить группам функций (таблицам) и функциям (столбцам) разрешение
В этом разделе вы предоставляете детальный контроль доступа и разрешения, определенные в Lake Formation, пользователю SageMaker, назначая фильтр данных роли выполнения SageMaker, связанной с пользователем, который первоначально создал группы функций. Роль выполнения SageMaker создается как часть Настройка домена SageMaker Studio и по умолчанию начинается с AmazonSageMaker-ExecutionRole-*
. Вам необходимо предоставить этой роли разрешения на API Lake Formation (GetDataAccess
, StartQueryPlanning
, GetQueryState
, GetWorkUnits
и GetWorkUnitResults
) и API-интерфейсы AWS Glue (GetTables
и GetDatabases
) в IAM, чтобы он мог получить доступ к данным.
Создайте следующую политику в IAM, назовите политику LakeFormationDataAccess
и прикрепите его к исполнительной роли SageMaker. Также необходимо прикрепить AmazonAthenaFullAccess
политика доступа к Athena.
Затем вам необходимо предоставить доступ к базе данных Feature Store и конкретной таблице группы функций роли выполнения SageMaker и назначить ей один из фильтров данных, созданных ранее. Чтобы предоставить разрешения на доступ к данным внутри Lake Formation, на панели навигации в разделе Разрешения..., выберите Разрешения озера данных, а затем выберите Грант. На следующем снимке экрана показано, как предоставить разрешения с помощью фильтра данных для доступа на уровне строк к роли выполнения SageMaker.
Точно так же вы можете предоставить разрешения с фильтром данных, созданным для доступа на уровне ячейки к роли выполнения SageMaker.
Тестовый доступ к магазину функций
В этом разделе вы проверяете элементы управления доступом, настроенные в Lake Formation, с помощью записной книжки Studio. В этой реализации используется Магазин функций Python SDK и Athena для запроса данных из автономного хранилища объектов, зарегистрированного в Lake Formation.
Во-первых, вы тестируете доступ на уровне строк, создавая запрос Athena для своей группы функций. orders
со следующим кодом. table_name
— это таблица AWS Glue, которая автоматически создается Feature Store.
Вы запрашиваете все записи из заказов, используя следующую строку запроса:
Только записи с customer_id = ‘C7782’
возвращаются в соответствии с фильтрами данных, созданными в Lake Formation.
Во-вторых, вы тестируете доступ на уровне ячеек, создавая запрос Athena для своей функциональной группы. customers
со следующим кодом. table_name
— это таблица AWS Glue, которая автоматически создается Feature Store.
Вы запрашиваете все записи из заказов, используя следующую строку запроса:
Только записи с customer_id ='C3126'
возвращаются в соответствии с фильтрами данных, созданными в Lake Formation. Кроме того, особенности sex
и is_married
не видны.
При таком подходе вы можете реализовать детальное управление доступом к офлайн-хранилищу функций. С помощью модели разрешений Lake Formation вы можете ограничить доступ к определенным группам функций или определенным функциям в группе функций для отдельных лиц в зависимости от их роли в организации.
Чтобы изучить полный пример кода и попробовать его в своей учетной записи, см. Репо GitHub.
Заключение
SageMaker Feature Store — это специально созданное решение для управления функциями, которое помогает организациям масштабировать разработку машинного обучения между бизнес-подразделениями и группами специалистов по обработке и анализу данных. В этом посте мы объяснили, как вы можете использовать Lake Formation для реализации детального контроля доступа к вашему автономному хранилищу функций. Попробуйте и дайте нам знать, что вы думаете в комментариях.
Об авторах
Арно Лауэр является старшим архитектором партнерских решений в команде государственного сектора в AWS. Он помогает партнерам и клиентам понять, как лучше всего использовать технологии AWS для преобразования потребностей бизнеса в решения. Он обладает более чем 16-летним опытом реализации и разработки проектов цифровой трансформации в различных отраслях, включая государственный сектор, энергетику и потребительские товары. Искусственный интеллект и машинное обучение — некоторые из его увлечений. Арно имеет 12 сертификатов AWS, включая сертификат ML Specialty Certification.
Иоан Катана является специалистом по искусственному интеллекту и машинному обучению, архитектором решений в AWS. Он помогает клиентам разрабатывать и масштабировать решения машинного обучения в облаке AWS. Йоан имеет более чем 20-летний опыт работы, в основном в области проектирования архитектуры программного обеспечения и облачной инженерии.
Свагат Кулкарни является старшим архитектором решений в AWS и энтузиастом AI/ML. Он увлечен решением реальных проблем клиентов с помощью облачных сервисов и машинного обучения. Swagat имеет более чем 15-летний опыт реализации нескольких инициатив по цифровому преобразованию для клиентов в различных областях, включая розничную торговлю, путешествия, гостиничный бизнес и здравоохранение. Вне работы Свагат любит путешествовать, читать и медитировать.
Чару Сарин является старшим менеджером по продуктам Amazon SageMaker Feature Store. До прихода в AWS она руководила стратегией роста и монетизации услуг SaaS в VMware. Она увлекается данными и машинным обучением и имеет более чем десятилетний опыт работы в области управления продуктами, проектирования данных и расширенной аналитики. Она имеет степень бакалавра информационных технологий Национального технологического института Индии и степень магистра делового администрирования Мичиганского университета в Школе бизнеса Росса.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/control-access-to-amazon-sagemaker-feature-store-offline-using-aws-lake-formation/
- '
- "
- 100
- 15 лет
- 20 лет
- 9
- О нас
- доступ
- Учетная запись
- через
- Действие
- дополнение
- дополнительный
- Администратор
- продвинутый
- Все
- Позволяющий
- Несмотря на то, что
- Amazon
- аналитика
- API
- отношение
- подхода
- архитектура
- искусственный
- искусственный интеллект
- Искусственный интеллект и машинное обучение
- аудит
- AWS
- фон
- не являетесь
- ЛУЧШЕЕ
- граница
- строить
- строит
- бизнес
- возможности
- случаев
- централизованная
- Сертификация
- Выберите
- облако
- код
- Комментарии
- Соответствие закону
- Конфигурация
- Консоли
- потребитель
- контроль
- создали
- создает
- Создающий
- создание
- кредит
- кредитная карта
- Клиенты
- данным
- наука о данных
- ученый данных
- База данных
- базы данных
- десятилетие
- доставки
- развертывание
- Проект
- развивать
- Развитие
- различный
- Интернет
- цифровое преобразование
- домен
- доменов
- эффект
- энергетика
- Проект и
- Окружающая среда
- установить
- пример
- выполнение
- опыт
- исследование
- Больше
- Особенность
- Особенности
- фигура
- фильтры
- Фокус
- после
- найденный
- далее
- цель
- товары
- управление
- группы
- Рост
- здравоохранение
- помощь
- помогает
- High
- имеет
- Как
- How To
- HTTPS
- идентифицирующий
- Личность
- осуществлять
- реализация
- важную
- включают
- В том числе
- Индия
- individual
- промышленности
- информация
- информационная технология
- Интеллекта
- IT
- присоединиться
- Основные
- ведущий
- изучение
- уровень
- Библиотека
- Списки
- расположение
- места
- машина
- обучение с помощью машины
- управляемого
- управление
- Управленческое решение
- менеджер
- маска
- Мичиган
- ML
- модель
- Модели
- БОЛЕЕ
- с разными
- национальный
- Навигация
- ноутбук
- номера
- оффлайн
- онлайн
- заказ
- заказы
- организация
- организации
- собственный
- партнер
- партнеры
- страстный
- сборах
- политика
- Predictions
- проблемам
- Продукт
- Управление продуктом
- Продукция
- проектов
- для защиты
- обеспечивать
- приводит
- что такое варган?
- купленный
- быстро
- ассортимент
- Reading
- реального времени
- учет
- зарегистрироваться
- зарегистрированный
- хранилище
- обязательный
- ресурс
- ОТДЫХ
- розничный
- главная
- Шкала
- Школа
- Наука
- Ученый
- сектор
- безопасный
- безопасность
- обслуживание
- Услуги
- набор
- установка
- общие
- Аналогичным образом
- просто
- Software
- Решение
- Решения
- некоторые
- конкретно
- Начало
- начинается
- заявление
- диск
- магазин
- магазины
- Стратегия
- студия
- Поддержка
- Коммутатор
- команда
- технологии
- Технологии
- тестXNUMX
- Через
- инструменты
- Обучение
- трансформация
- путешествовать
- понимать
- Университет
- us
- использование
- пользователей
- ценностное
- видимый
- VMware
- Что
- КТО
- в
- Работа
- работает
- работает
- лет