在 Amazon SageMaker Data Wrangler 中使用基于 OAuth 的身份验证访问 Snowflake 数据

由柏拉图重新发布

关注： 0

在这篇文章中，我们展示了如何配置一个新的基于 OAuth 的身份验证功能以使用雪花 in 亚马逊SageMaker数据牧马人. Snowflake是一个云数据平台，提供数据仓库到数据科学的数据解决方案。雪花是一个 AWS 合作伙伴拥有多项 AWS 认证，包括 AWS 在机器学习 (ML)、零售以及数据和分析方面的能力。

Data Wrangler 简化了数据准备和特征工程过程，通过为数据科学家提供单一可视化界面来选择和清理数据、创建特征以及在 ML 工作流中自动进行数据准备而无需编写任何代码，从而将所需时间从数周减少到几分钟。您可以从多个数据源导入数据，例如亚马逊简单存储服务（Amazon S3），亚马逊雅典娜, 亚马逊Redshift, 亚马逊电子病历和雪花。有了这个新功能，您可以使用自己的身份提供者 (IdP)，例如高层云, 天蓝色广告或平联邦通过 Data Wrangler 连接到 Snowflake。

解决方案概述

在以下部分中，我们为管理员提供了设置 IdP、Snowflake 和 Studio 的步骤。我们还详细介绍了数据科学家可以用来配置数据流、分析数据质量和添加数据转换的步骤。最后，我们展示了如何导出数据流并使用以下方法训练模型 SageMaker自动驾驶仪.

先决条件

对于本演练，您应该具有以下先决条件：

对于管理员：
- 有权在 Snowflake 中创建存储集成和安全集成的 Snowflake 用户。
- 具有创建权限的 AWS 账户 AWS身份和访问管理 (IAM) 政策和角色。
- 配置 IDP 以注册 Data Wrangler 应用程序并设置授权服务器或 API 的访问权限。

对于数据科学家：

管理员设置

您可以让用户使用 IdP 访问 Snowflake，而不是让您的用户直接将他们的 Snowflake 凭据输入 Data Wrangler。

启用 Data Wrangler OAuth 对 Snowflake 的访问涉及以下步骤：

配置 IdP。
配置雪花。
配置 SageMaker Studio。

配置 IdP

要设置您的 IdP，您必须注册 Data Wrangler 应用程序并设置您的授权服务器或 API。

在 IdP 中注册 Data Wrangler 应用程序

有关 Data Wrangler 支持的 IdP，请参阅以下文档：

使用您的 IdP 提供的文档来注册您的 Data Wrangler 应用程序。本节中的信息和程序可帮助您了解如何正确使用您的 IdP 提供的文档。

除了相应指南中的步骤之外，特定的定制在小节中被调用。

选择启动将 Data Wrangler 注册为应用程序的配置。
为 IdP 中的用户提供对 Data Wrangler 的访问权限。
通过将客户端凭证存储为 Secrets Manager 密钥来启用 OAuth 客户端身份验证。
使用以下格式指定重定向 URL： https://domain-ID.studio.AWS Region.sagemaker.aws/jupyter/default/lab.

您正在指定用于运行 Data Wrangler 的 SageMaker 域 ID 和 AWS 区域。您必须为运行 Data Wrangler 的每个域和区域注册一个 URL。来自未为其设置重定向 URL 的域和区域的用户将无法使用 IdP 进行身份验证以访问 Snowflake 连接。

确保您的 Data Wrangler 应用程序允许授权代码和刷新令牌授予类型。

在 IdP 中设置授权服务器或 API

在您的 IdP 中，您必须设置授权服务器或应用程序编程接口 (API)。对于每个用户，授权服务器或 API 将令牌发送给以 Snowflake 作为受众的 Data Wrangler。

雪花使用的概念角色与 AWS 中使用的 IAM 角色不同。您必须将 IdP 配置为使用任何角色以使用与 Snowflake 帐户关联的默认角色。例如，如果用户有 systems administrator 作为其 Snowflake 配置文件中的默认角色，从 Data Wrangler 到 Snowflake 的连接使用 systems administrator 作为角色。

使用以下过程在您的 IdP 中设置授权服务器或 API：

从您的 IdP，开始设置服务器或 API 的过程。
配置授权服务器以使用授权代码和刷新令牌授予类型。
指定访问令牌的生命周期。
设置刷新令牌空闲超时。

空闲超时是刷新令牌在未使用时过期的时间。如果您在 Data Wrangler 中安排作业，我们建议使空闲超时时间大于处理作业的频率。否则，某些处理作业可能会失败，因为刷新令牌在它们运行之前就已过期。当刷新令牌过期时，用户必须通过 Data Wrangler 访问他们与 Snowflake 建立的连接来重新进行身份验证。

请注意，Data Wrangler 不支持轮换刷新令牌。使用轮换刷新令牌可能会导致访问失败或用户需要频繁登录。

如果刷新令牌过期，您的用户必须通过 Data Wrangler 访问他们与 Snowflake 建立的连接来重新进行身份验证。

指定 session:role-any 作为新范围。

对于 Azure AD，您还必须为范围指定一个唯一标识符。

设置 OAuth 提供程序后，您可以向 Data Wrangler 提供连接到提供程序所需的信息。您可以使用 IdP 的文档来获取以下字段的值：

令牌网址 – IdP 发送给 Data Wrangler 的令牌的 URL
授权网址 – IdP 授权服务器的 URL
客户ID – IdP 的 ID
客户机密 – 只有授权服务器或 API 才能识别的秘密
OAuth 范围 – 这仅适用于 Azure AD

配置雪花

要配置 Snowflake，请完成中的说明从雪花导入数据.

使用您的 IdP 的 Snowflake 文档在 Snowflake 中设置外部 OAuth 集成。见上一节 在 IdP 中注册 Data Wrangler 应用程序 有关如何设置外部 OAuth 集成的更多信息。

在 Snowflake 中设置安全集成时，确保激活 external_oauth_any_role_mode.

配置 SageMaker Studio

您将字段和值存储在 Secrets Manager 密钥中，并将其添加到您用于 Data Wrangler 的 Studio 生命周期配置中。生命周期配置是一个 shell 脚本，它会在用户登录 Studio 时自动加载存储在机密中的凭据。有关创建机密的信息，请参阅将硬编码的机密移至 AWS Secrets Manager. 有关在 Studio 中使用生命周期配置的信息，请参阅将生命周期配置与 Amazon SageMaker Studio 结合使用.

为 Snowflake 凭据创建秘密

要为 Snowflake 凭证创建您的秘密，请完成以下步骤：

在Secrets Manager控制台上，选择 储存新秘密.
针对 秘密类型，选择 其他类型的秘密.
将密钥的详细信息指定为键值对。

由于区分大小写，密钥名称需要小写字母。如果您输入任何错误，Data Wrangler 会发出警告。如果您愿意，可以将秘密值作为键值对键/值输入，或者使用 纯文本 选项。

以下是用于 Okta 的机密格式。如果您使用的是 Azure AD，则需要添加 datasource_oauth_scope 领域。

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secretsovfDSUoOKAiLe4V6DiZrCLpW44x", "identity_provider":"OKTA"|"AZURE_AD"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize"
}

使用您选择的 IdP 和应用程序注册后收集的信息更新上述值。
下一页.
针对 秘密名称, 添加前缀 AmazonSageMaker （例如，我们的秘密是 AmazonSageMaker-DataWranglerSnowflakeCreds).
在标签部分，添加带有键的标签 SageMaker 和价值 true.
下一页.
其余字段是可选的；选择 下一页 直到您可以选择 线上商城 来存储秘密。

存储密钥后，您将返回到 Secrets Manager 控制台。

选择您刚刚创建的密钥，然后检索密钥 ARN。
将其存储在您首选的文本编辑器中，以便稍后在创建 Data Wrangler 数据源时使用。

创建 Studio 生命周期配置

要在 Studio 中创建生命周期配置，请完成以下步骤：

在SageMaker控制台上，选择 生命周期配置 在导航窗格中。
创建配置.
Jupyter 服务器应用程序.

创建一个新的生命周期配置或附加一个具有以下内容的现有配置：

#!/bin/bash
set -eux
## Script Body
cat > ~/.snowflake_identity_provider_oauth_config <<EOL
{ "secret_arn": "<secret_arn>"
}
EOL

配置创建一个名为的文件 ".snowflake_identity_provider_oauth_config"，包含用户主文件夹中的秘密。

创建配置.

设置默认生命周期配置

完成以下步骤以将刚刚创建的生命周期配置设置为默认配置：

在SageMaker控制台上，选择域名在导航窗格中。
选择您将用于此示例的 Studio 域。
点击环境标签，在 个人 Studio 应用程序的生命周期配置 部分中，选择附.
针对来源，选择 现有配置.
选择刚才的配置，然后选择 附加到域.
选择新配置并选择 设置为默认，然后选择 设置为默认 再次在弹出消息中。

您的新设置现在应该在下面可见 个人 Studio 应用程序的生命周期配置 作为默认值。

在 Amazon SageMaker Data Wrangler PlatoBlockchain 数据智能中使用基于 OAuth 的身份验证访问 Snowflake 数据。垂直搜索。人工智能。

关闭 Studio 应用程序并重新启动以使更改生效。

数据科学家经验

在本节中，我们将介绍数据科学家如何连接到 Snowflake 作为 Data Wrangler 中的数据源并为 ML 准备数据。

创建新的数据流

要创建数据流，请完成以下步骤：

在SageMaker控制台上，选择 亚马逊SageMaker Studio 在导航窗格中。
开放工作室.
在工作室主页页面，选择 以可视化方式导入和准备数据. 或者，在文件下拉菜单中选择全新，然后选择 SageMaker Data Wrangler 流程.

创建新流可能需要几分钟时间。

创建新流程

点击 导入日期 页面，选择 创建连接.
雪花从数据源列表。
针对 身份验证方法，选择 OAuth的.

如果您没有看到 OAuth，请验证前面的生命周期配置步骤。

输入详细信息 雪花账户名 和 存储集成.
输入连接名称并选择 分享链接.

您将被重定向到 IdP 身份验证页面。对于这个例子，我们使用 Okta。

输入您的用户名和密码，然后选择登录.

身份验证成功后，您将被重定向到 Studio 数据流页面。

点击 从雪花导入数据 页面、浏览数据库对象或对目标数据运行查询。
在查询编辑器中，输入查询并预览结果。

在下面的例子中，我们加载 贷款数据 并从 5,000 行中检索所有列。

进口.
输入数据集名称（对于本文，我们使用 snowflake_loan_dataset）并选择地址.

您已重定向到 Prepare 页面，您可以在其中向数据添加转换和分析。

Data Wrangler 使摄取数据和执行数据准备任务变得容易，例如探索性数据分析、特征选择和特征工程。在这篇关于数据准备的文章中，我们只介绍了 Data Wrangler 的一些功能；您可以使用 Data Wrangler 通过简单直观的用户界面进行更高级的数据分析，例如特征重要性、目标泄漏和模型可解释性。