在具有默认生命周期配置的 Amazon SageMaker Studio 中使用 Amazon SageMaker Data Wrangler

由柏拉图重新发布

关注： 0

如果您为您的域或用户配置文件使用默认生命周期配置亚马逊SageMaker Studio 并使用亚马逊SageMaker数据牧马人对于数据准备，这篇文章适合你。在这篇文章中，我们将展示如何创建一个 Data Wrangler 流，并将其用于具有默认生命周期配置的 Studio 环境中的数据准备。

数据管理员是一种能力亚马逊SageMaker 这使数据科学家和工程师可以更快地通过可视化界面为机器学习 (ML) 应用程序准备数据。数据准备是 ML 生命周期的关键步骤，Data Wrangler 提供了一个端到端的解决方案，以可视化的低代码体验为 ML 导入、探索、转换、特征化和处理数据。它使您可以轻松快速地连接到 AWS 组件，例如亚马逊简单存储服务（Amazon S3），亚马逊雅典娜, 亚马逊Redshift及 AWS湖形成，以及外部资源，如 Snowflake 和 DataBricks DeltaLake。 Data Wrangler 支持标准数据类型，例如 CSV、JSON、ORC 和 Parquet。

Studio 应用程序是支持 Studio 的可视化界面、代码创作和运行体验的交互式应用程序。应用程序类型可以是 Jupyter 服务器或内核网关：

Jupyter 服务器 – 允许访问 Studio 的可视化界面。 Studio 中的每个用户都有自己的 Jupyter Server 应用程序。
内核网关 – 允许访问 Studio 笔记本和终端的代码运行环境和内核。有关详细信息，请参阅 Jupyter 内核网关.

生命周期配置 (LCC) 是用于自动自定义 Studio 环境的 shell 脚本，例如安装 JupyterLab 扩展、预加载数据集和设置源代码存储库。 LCC 脚本由 Studio 生命周期事件触发，例如启动新的 Studio 笔记本。要以编程方式将生命周期配置设置为域或用户配置文件的默认值，您可以创建新资源或更新现有资源。要将生命周期配置关联为默认值，您首先需要按照中的步骤创建生命周期配置创建和关联生命周期配置

注意：在域级别设置的默认生命周期配置由所有用户继承，而在用户级别设置的默认生命周期配置仅限于特定用户。如果同时应用域级别和用户配置文件级别的生命周期配置，则用户配置文件级别的生命周期配置优先并应用于应用程序，而不管在域级别应用什么生命周期配置。有关详细信息，请参阅设置默认生命周期配置.

Data Wrangler 接受默认的 Kernel Gateway 生命周期配置，但默认 Kernel Gateway 生命周期配置中定义的某些命令不适用于 Data Wrangler，这可能会导致 Data Wrangler 无法启动。以下屏幕截图显示了您在启动 Data Wrangler 流时可能收到的错误消息示例。这可能只发生在默认生命周期配置而不是生命周期配置中。

数据管理员错误

解决方案概述

在 Studio 中使用默认生命周期配置的客户可以关注这篇文章并使用生命周期配置脚本中提供的代码块来启动 Data Wrangler 应用程序而不会出现任何错误。

设置默认生命周期配置

要设置默认生命周期配置，您必须将其添加到 DefaultResourceSpec 适当的应用程序类型。生命周期配置的行为取决于它是否添加到 DefaultResourceSpec Jupyter 服务器或内核网关应用程序：

Jupyter 服务器应用程序 – 当添加到 DefaultResourceSpec 对于 Jupyter Server 应用程序，默认生命周期配置脚本会在用户首次登录 Studio 或重新启动 Studio 时自动运行。您可以使用它来自动化 Studio 开发人员环境的一次性设置操作，例如安装笔记本扩展或设置 GitHub 存储库。有关这方面的示例，请参阅使用生命周期配置自定义 Amazon SageMaker Studio.
内核网关应用 – 当添加到 DefaultResourceSpec 对于 Kernel Gateway 应用程序，Studio 默认从 Studio 启动器中选择生命周期配置脚本。您可以使用默认脚本启动笔记本或终端，或从生命周期配置列表中选择不同的脚本。

中指定的默认内核网关生命周期配置 DefaultResourceSpec 适用于 Studio 域中的所有内核网关映像，除非您从 Studio 启动器中显示的列表中选择不同的脚本。

使用 Studio 的生命周期配置时，您可以创建生命周期配置并将其附加到 Studio 域或用户配置文件。然后，您可以启动 Jupyter 服务器或内核网关应用程序以使用生命周期配置。

下表总结了使用默认生命周期配置启动 Data Wrangler 应用程序时可能遇到的这些错误。

生命周期配置的级别被申请;被应用	创建数据管理员流工作（或）错误	解决方法
域名	错误请求错误	应用脚本（见下文）
用户资料	错误请求错误	应用脚本（见下文）
应用领域	工作——没问题	不需要

当您使用与 Studio 和 Data Wrangler（内核网关应用程序）关联的默认生命周期配置时，您可能会遇到内核网关应用程序故障。在这篇文章中，我们演示了如何正确设置默认生命周期配置以排除 Data Wrangler 应用程序中正在运行的命令，这样您就不会遇到内核网关应用程序故障。

假设您要安装一个 git-克隆-repo 脚本作为默认生命周期配置，当 Jupyter 服务器启动时自动检出用户主文件夹下的 Git 存储库。让我们看看应用生命周期配置（Studio 域、用户配置文件或应用程序级别）的每个场景。

在 Studio 域或用户配置文件级别应用生命周期配置

要在 Studio 域或用户配置文件级别应用默认内核网关生命周期配置，请完成本节中的步骤。我们从用户配置文件级别的说明开始。

在您的生命周期配置脚本中，您必须包含以下检查并跳过 Data Wrangler Kernel Gateway 应用程序的代码块：

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

例如，让我们使用以下脚本作为我们的原始文件（请注意，克隆 repo 的文件夹已更改为 /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

新修改的脚本如下所示：

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

您可以将此脚本另存为 git_command_test.sh.

现在您在终端或命令提示符下运行一系列命令。您应该配置 AWS命令行界面 (AWS CLI) 与 AWS 交互。如果您尚未设置 AWS CLI，请参阅配置AWS CLI.

转换您的 git_command_test.sh 文件转换成 Base64 格式。此要求可防止由于间距和换行符的编码而导致的错误。
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

创建 Studio 生命周期配置。以下命令创建一个生命周期配置，该配置在关联的内核网关应用程序启动时运行：

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

使用以下 API 调用创建具有关联生命周期配置的新用户配置文件：

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

或者，如果您想创建一个 Studio 域以在域级别关联您的生命周期配置，或者更新用户配置文件或域，您可以按照设置默认生命周期配置.

现在您可以从 SageMaker 控制面板启动您的 Studio 应用程序。
在您的 Studio 环境中，在文件菜单中选择全新和 数据牧马人流程. 新的 Data Wrangler 流程应该毫无问题地打开。
要验证 Git 克隆，您可以在 Studio 中打开一个新的启动器。
下 笔记本和计算资源，选择 Python 3 笔记本和 数据科学 SageMaker 映像将您的脚本作为默认生命周期配置脚本启动。

您可以看到克隆到的 Git /root 在下面的屏幕截图中。

克隆到 /root 的 Git

我们已经成功地在用户配置文件级别应用了默认的内核生命周期配置，并创建了一个 Data Wrangler 流。要在 Studio 域级别进行配置，唯一的更改不是创建用户配置文件，而是将生命周期配置的 ARN 传递到创建域呼叫。

在应用程序级别应用生命周期配置

如果您在应用程序级别应用默认内核网关生命周期配置，则不会有任何问题，因为 Data Wrangler 会跳过在应用程序级别应用的生命周期配置。

结论

在这篇文章中，我们展示了当您使用 Data Wrangler 进行数据准备和可视化需求时，如何为 Studio 正确配置默认生命周期配置。

总结一下，如果需要使用默认 Studio 的生命周期配置要为您的 Studio 环境自动定制并使用 Data Wrangler 进行数据准备，您可以在用户配置文件或 Studio 域级别应用默认内核网关生命周期配置，并在生命周期配置中包含适当的代码块，以便默认生命周期配置检查它并跳过 Data Wrangler Kernel Gateway 应用程序。

有关更多信息，请参见以下资源：

作者简介

拉贾库马尔·桑帕斯库马尔 是 AWS 的首席技术客户经理，为客户提供业务技术协调方面的指导，并支持其云运营模型和流程的重塑。他对云计算和机器学习充满热情。 Raj 还是一名机器学习专家，与 AWS 客户合作设计、部署和管理他们的 AWS 工作负载和架构。

张维琪 是 Amazon SageMaker 的软件开发工程师。她热衷于解决问题。业余时间，她喜欢看侦探片和打羽毛球。

拉胡尔·纳贝拉 是 AWS 专业服务的数据分析顾问。他目前的工作重点是让客户能够在 AWS 上构建他们的数据和机器学习工作负载。在业余时间，他喜欢打板球和排球。

时间戳记： 2022 年 7 月 5 日

时间戳记： 2022 年 6 月 27 日

在 Amazon SageMaker Studio 中使用具有默认生命周期配置的 Amazon SageMaker Data Wrangler

由柏拉图重新发布

解决方案概述

设置默认生命周期配置

在 Studio 域或用户配置文件级别应用生命周期配置

在应用程序级别应用生命周期配置

结论

作者简介

更多来自 AWS机器学习

使用 AWS Graviton 降低 Amazon SageMaker 推理成本

使用 AWS Trainium 快速且经济高效地微调 LLaMA 2 | 亚马逊网络服务

使用 Amazon Lex 中的提示增强呼叫者体验

在 Amazon Translate 中应用亵渎屏蔽

Amazon Comprehend 自动化 PDF 预标记 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理