Utilice Amazon SageMaker Data Wrangler en Amazon SageMaker Studio con una configuración de ciclo de vida predeterminada

Reeditado por Platón

seguidores: 0

Si usa la configuración de ciclo de vida predeterminada para su dominio o perfil de usuario en Estudio Amazon SageMaker y use Wrangler de datos de Amazon SageMaker para la preparación de datos, entonces esta publicación es para ti. En esta publicación, mostramos cómo puede crear un flujo de Data Wrangler y usarlo para la preparación de datos en un entorno de Studio con una configuración de ciclo de vida predeterminada.

Data Wrangler es una capacidad de Amazon SageMaker eso hace que sea más rápido para los científicos e ingenieros de datos preparar datos para aplicaciones de aprendizaje automático (ML) a través de una interfaz visual. La preparación de datos es un paso crucial del ciclo de vida de ML, y Data Wrangler proporciona una solución integral para importar, explorar, transformar, caracterizar y procesar datos para ML en una experiencia visual de código bajo. Le permite conectarse fácil y rápidamente a componentes de AWS como Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazony Formación del lago AWSy fuentes externas como Snowflake y DataBricks DeltaLake. Data Wrangler admite tipos de datos estándar como CSV, JSON, ORC y Parquet.

Las aplicaciones de Studio son aplicaciones interactivas que habilitan la interfaz visual, la creación de código y la experiencia de ejecución de Studio. Los tipos de aplicaciones pueden ser Jupyter Server o Kernel Gateway:

Servidor Jupyter – Habilita el acceso a la interfaz visual de Studio. Cada usuario de Studio obtiene su propia aplicación Jupyter Server.
Puerta de enlace del núcleo – Habilita el acceso al entorno de ejecución de código y kernels para sus portátiles y terminales Studio. Para más información, ver Puerta de enlace del núcleo de Jupyter.

Configuraciones de ciclo de vida (LCC) son scripts de shell para automatizar la personalización de sus entornos de Studio, como la instalación de extensiones de JupyterLab, la precarga de conjuntos de datos y la configuración de repositorios de código fuente. Los scripts de LCC se activan por eventos del ciclo de vida de Studio, como iniciar una nueva notebook de Studio. Para establecer una configuración de ciclo de vida como predeterminada para su dominio o perfil de usuario mediante programación, puede crear un nuevo recurso o actualizar un recurso existente. Para asociar una configuración de ciclo de vida como predeterminada, primero debe crear una configuración de ciclo de vida siguiendo los pasos de Crear y asociar una configuración de ciclo de vida

Nota: Todos los usuarios heredan las configuraciones de ciclo de vida predeterminadas establecidas en el nivel de dominio, mientras que las configuradas en el nivel de usuario se limitan a un usuario específico. Si aplica configuraciones de ciclo de vida de nivel de dominio y de perfil de usuario al mismo tiempo, la configuración de ciclo de vida de nivel de perfil de usuario tiene prioridad y se aplica a la aplicación independientemente de qué configuración de ciclo de vida se aplique a nivel de dominio. Para más información, ver Establecimiento de configuraciones de ciclo de vida predeterminadas.

Data Wrangler acepta la configuración predeterminada del ciclo de vida de Kernel Gateway, pero algunos de los comandos definidos en la configuración predeterminada del ciclo de vida de Kernel Gateway no se aplican a Data Wrangler, lo que puede provocar que Data Wrangler no se inicie. La siguiente captura de pantalla muestra un ejemplo de un mensaje de error que puede recibir al iniciar el flujo de Data Wrangler. Esto puede suceder solo con configuraciones de ciclo de vida predeterminadas y no con configuraciones de ciclo de vida.

Error del controlador de datos

Resumen de la solución

Los clientes que usan la configuración del ciclo de vida predeterminado en Studio pueden seguir esta publicación y usar el bloque de código proporcionado dentro del script de configuración del ciclo de vida para iniciar una aplicación Data Wrangler sin ningún error.

Establecer la configuración del ciclo de vida predeterminado

Para establecer una configuración de ciclo de vida predeterminada, debe agregarla a la DefaultResourceSpec del tipo de aplicación apropiado. El comportamiento de su configuración de ciclo de vida depende de si se agrega a la DefaultResourceSpec de una aplicación Jupyter Server o Kernel Gateway:

Aplicaciones del servidor Jupyter – Cuando se añade a la DefaultResourceSpec de una aplicación de Jupyter Server, el script de configuración del ciclo de vida predeterminado se ejecuta automáticamente cuando el usuario inicia sesión en Studio por primera vez o reinicia Studio. Puede usar esto para automatizar acciones de configuración únicas para el entorno de desarrollo de Studio, como instalar extensiones de notebook o configurar un repositorio de GitHub. Para un ejemplo de esto, ver Personalice Amazon SageMaker Studio mediante configuraciones de ciclo de vida.
Aplicaciones de puerta de enlace del núcleo – Cuando se añade a la DefaultResourceSpec de una aplicación Kernel Gateway, Studio selecciona de manera predeterminada el script de configuración del ciclo de vida desde el iniciador de Studio. Puede iniciar una computadora portátil o terminal con el script predeterminado o elegir uno diferente de la lista de configuraciones del ciclo de vida.

Una configuración predeterminada del ciclo de vida de Kernel Gateway especificada en DefaultResourceSpec se aplica a todas las imágenes de Kernel Gateway en el dominio de Studio a menos que elija una secuencia de comandos diferente de la lista presentada en el iniciador de Studio.

Cuando trabaja con configuraciones de ciclo de vida para Studio, crea una configuración de ciclo de vida y la adjunta a su dominio de Studio o perfil de usuario. A continuación, puede iniciar una aplicación Jupyter Server o Kernel Gateway para utilizar la configuración del ciclo de vida.

La siguiente tabla resume estos errores que puede encontrar al iniciar una aplicación Data Wrangler con configuraciones de ciclo de vida predeterminadas.

Nivel en el que la configuración del ciclo de vida Está aplicado	Crear flujo de administrador de datos Funciona (o) Error	Solución
Dominio	Error de solicitud incorrecta	Aplicar el script (ver más abajo)
Perfil	Error de solicitud incorrecta	Aplicar el script (ver más abajo)
Aplicación	Funciona: no hay problema	No se requiere

Cuando utiliza la configuración de ciclo de vida predeterminada asociada con Studio y Data Wrangler (aplicación Kernel Gateway), es posible que encuentre una falla en la aplicación Kernel Gateway. En esta publicación, demostramos cómo establecer correctamente la configuración del ciclo de vida predeterminado para excluir la ejecución de comandos en una aplicación Data Wrangler para que no encuentre fallas en la aplicación Kernel Gateway.

Digamos que desea instalar un repositorio-clon-git script como la configuración de ciclo de vida predeterminada que extrae automáticamente un repositorio de Git en la carpeta de inicio del usuario cuando se inicia el servidor Jupyter. Veamos cada escenario de aplicación de una configuración de ciclo de vida (dominio de Studio, perfil de usuario o nivel de aplicación).

Aplicar la configuración del ciclo de vida en el dominio de Studio o en el nivel de perfil de usuario

Para aplicar la configuración predeterminada del ciclo de vida de Kernel Gateway en el dominio de Studio o en el nivel de perfil de usuario, complete los pasos de esta sección. Comenzamos con instrucciones para el nivel de perfil de usuario.

En su secuencia de comandos de configuración del ciclo de vida, debe incluir el siguiente bloque de código que verifica y omite la aplicación Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Por ejemplo, usemos el siguiente guión como nuestro original (tenga en cuenta que la carpeta para clonar el repositorio se cambia a /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

El nuevo script modificado tiene el siguiente aspecto:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Puede guardar este script como git_command_test.sh.

Ahora ejecuta una serie de comandos en su terminal o símbolo del sistema. Debes configurar el Interfaz de línea de comandos de AWS (AWS CLI) para interactuar con AWS. Si no ha configurado la CLI de AWS, consulte Configuración de la AWS CLI.

Convierte tu git_command_test.sh archivo en formato Base64. Este requisito evita errores debido a la codificación de espacios y saltos de línea.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Cree una configuración de ciclo de vida de Studio. El siguiente comando crea una configuración de ciclo de vida que se ejecuta al iniciar una aplicación Kernel Gateway asociada:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Utilice la siguiente llamada a la API para crear un nuevo perfil de usuario con una configuración de ciclo de vida asociada:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Alternativamente, si desea crear un dominio de Studio para asociar su configuración de ciclo de vida a nivel de dominio, o actualizar el perfil de usuario o el dominio, puede seguir los pasos en Establecimiento de configuraciones de ciclo de vida predeterminadas.

Ahora puede iniciar su aplicación Studio desde el Panel de control de SageMaker.
En su entorno Studio, en el Archive menú, seleccione Nuevo y Flujo de Data Wrangler.El nuevo flujo de Data Wrangler debería abrirse sin problemas.
Para validar el clon de Git, puede abrir un nuevo Lanzador en Studio.
under Cuadernos y recursos informáticos, elija el cuaderno de Python 3 y el Data science Imagen de SageMaker para iniciar su script como su script de configuración de ciclo de vida predeterminado.

Puedes ver el Git clonado en /root en la siguiente captura de pantalla.

Git clonado a /root

Hemos aplicado con éxito la configuración del ciclo de vida del Kernel predeterminado en el nivel de perfil de usuario y hemos creado un flujo de Data Wrangler. Para configurar a nivel de dominio de Studio, el único cambio es que en lugar de crear un perfil de usuario, pasa el ARN de la configuración del ciclo de vida en un crear-dominio llamada.

Aplicar la configuración del ciclo de vida en el nivel de la aplicación

Si aplica la configuración predeterminada del ciclo de vida de Kernel Gateway en el nivel de la aplicación, no tendrá ningún problema porque Data Wrangler omite la configuración del ciclo de vida aplicada en el nivel de la aplicación.

Conclusión

En esta publicación, mostramos cómo configurar correctamente su ciclo de vida predeterminado para Studio cuando utiliza Data Wrangler para los requisitos de visualización y preparación de datos.

Para resumir, si necesita usar el valor predeterminado configuración del ciclo de vida para Studio Para automatizar la personalización de sus entornos de Studio y usar Data Wrangler para la preparación de datos, puede aplicar la configuración de ciclo de vida de Kernel Gateway predeterminada en el perfil de usuario o nivel de dominio de Studio con el bloque de código adecuado incluido en su configuración de ciclo de vida para que la configuración de ciclo de vida predeterminado lo verifique. y omite la aplicación Data Wrangler Kernel Gateway.

Para obtener más información, consulte los siguientes recursos:

Acerca de los autores

Rajakumar Sampathkumar es Gerente Técnico Principal de Cuentas en AWS, brinda orientación a los clientes sobre la alineación de la tecnología comercial y apoya la reinvención de sus modelos y procesos de operación en la nube. Le apasiona la nube y el aprendizaje automático. Raj también es especialista en aprendizaje automático y trabaja con clientes de AWS para diseñar, implementar y administrar sus cargas de trabajo y arquitecturas de AWS.

Vicky Zhang es ingeniero de desarrollo de software en Amazon SageMaker. Le apasiona la resolución de problemas. En su tiempo libre, disfruta viendo películas de detectives y jugando bádminton.

Raúl Nabera es consultor de análisis de datos en los servicios profesionales de AWS. Su trabajo actual se centra en permitir que los clientes creen sus cargas de trabajo de datos y aprendizaje automático en AWS. En su tiempo libre, le gusta jugar al cricket y al voleibol.

Sello de tiempo: 5 de Julio de 2022

Sello de tiempo: 27 de junio de 2022

Utilice Amazon SageMaker Data Wrangler en Amazon SageMaker Studio con una configuración de ciclo de vida predeterminada

Reeditado por Platón

Resumen de la solución

Establecer la configuración del ciclo de vida predeterminado

Aplicar la configuración del ciclo de vida en el dominio de Studio o en el nivel de perfil de usuario

Aplicar la configuración del ciclo de vida en el nivel de la aplicación

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Reduzca el costo de inferencia de Amazon SageMaker con AWS Graviton

Ajuste rápido y rentable de LLaMA 2 con AWS Trainium | Servicios web de Amazon

Mejore la experiencia de la persona que llama con sugerencias en Amazon Lex

Aplicar enmascaramiento de blasfemias en Amazon Translate

Automatizar el preetiquetado de PDF para Amazon Comprehend | Servicios web de Amazon

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta