Si usa la configuración de ciclo de vida predeterminada para su dominio o perfil de usuario en Estudio Amazon SageMaker y use Wrangler de datos de Amazon SageMaker para la preparación de datos, entonces esta publicación es para ti. En esta publicación, mostramos cómo puede crear un flujo de Data Wrangler y usarlo para la preparación de datos en un entorno de Studio con una configuración de ciclo de vida predeterminada.
Data Wrangler es una capacidad de Amazon SageMaker eso hace que sea más rápido para los científicos e ingenieros de datos preparar datos para aplicaciones de aprendizaje automático (ML) a través de una interfaz visual. La preparación de datos es un paso crucial del ciclo de vida de ML, y Data Wrangler proporciona una solución integral para importar, explorar, transformar, caracterizar y procesar datos para ML en una experiencia visual de código bajo. Le permite conectarse fácil y rápidamente a componentes de AWS como Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazony Formación del lago AWSy fuentes externas como Snowflake y DataBricks DeltaLake. Data Wrangler admite tipos de datos estándar como CSV, JSON, ORC y Parquet.
Las aplicaciones de Studio son aplicaciones interactivas que habilitan la interfaz visual, la creación de código y la experiencia de ejecución de Studio. Los tipos de aplicaciones pueden ser Jupyter Server o Kernel Gateway:
- Servidor Jupyter – Habilita el acceso a la interfaz visual de Studio. Cada usuario de Studio obtiene su propia aplicación Jupyter Server.
- Puerta de enlace del núcleo – Habilita el acceso al entorno de ejecución de código y kernels para sus portátiles y terminales Studio. Para más información, ver Puerta de enlace del núcleo de Jupyter.
Configuraciones de ciclo de vida (LCC) son scripts de shell para automatizar la personalización de sus entornos de Studio, como la instalación de extensiones de JupyterLab, la precarga de conjuntos de datos y la configuración de repositorios de código fuente. Los scripts de LCC se activan por eventos del ciclo de vida de Studio, como iniciar una nueva notebook de Studio. Para establecer una configuración de ciclo de vida como predeterminada para su dominio o perfil de usuario mediante programación, puede crear un nuevo recurso o actualizar un recurso existente. Para asociar una configuración de ciclo de vida como predeterminada, primero debe crear una configuración de ciclo de vida siguiendo los pasos de Crear y asociar una configuración de ciclo de vida
Nota: Todos los usuarios heredan las configuraciones de ciclo de vida predeterminadas establecidas en el nivel de dominio, mientras que las configuradas en el nivel de usuario se limitan a un usuario específico. Si aplica configuraciones de ciclo de vida de nivel de dominio y de perfil de usuario al mismo tiempo, la configuración de ciclo de vida de nivel de perfil de usuario tiene prioridad y se aplica a la aplicación independientemente de qué configuración de ciclo de vida se aplique a nivel de dominio. Para más información, ver Establecimiento de configuraciones de ciclo de vida predeterminadas.
Data Wrangler acepta la configuración predeterminada del ciclo de vida de Kernel Gateway, pero algunos de los comandos definidos en la configuración predeterminada del ciclo de vida de Kernel Gateway no se aplican a Data Wrangler, lo que puede provocar que Data Wrangler no se inicie. La siguiente captura de pantalla muestra un ejemplo de un mensaje de error que puede recibir al iniciar el flujo de Data Wrangler. Esto puede suceder solo con configuraciones de ciclo de vida predeterminadas y no con configuraciones de ciclo de vida.
Resumen de la solución
Los clientes que usan la configuración del ciclo de vida predeterminado en Studio pueden seguir esta publicación y usar el bloque de código proporcionado dentro del script de configuración del ciclo de vida para iniciar una aplicación Data Wrangler sin ningún error.
Establecer la configuración del ciclo de vida predeterminado
Para establecer una configuración de ciclo de vida predeterminada, debe agregarla a la DefaultResourceSpec
del tipo de aplicación apropiado. El comportamiento de su configuración de ciclo de vida depende de si se agrega a la DefaultResourceSpec
de una aplicación Jupyter Server o Kernel Gateway:
- Aplicaciones del servidor Jupyter – Cuando se añade a la
DefaultResourceSpec
de una aplicación de Jupyter Server, el script de configuración del ciclo de vida predeterminado se ejecuta automáticamente cuando el usuario inicia sesión en Studio por primera vez o reinicia Studio. Puede usar esto para automatizar acciones de configuración únicas para el entorno de desarrollo de Studio, como instalar extensiones de notebook o configurar un repositorio de GitHub. Para un ejemplo de esto, ver Personalice Amazon SageMaker Studio mediante configuraciones de ciclo de vida. - Aplicaciones de puerta de enlace del núcleo – Cuando se añade a la
DefaultResourceSpec
de una aplicación Kernel Gateway, Studio selecciona de manera predeterminada el script de configuración del ciclo de vida desde el iniciador de Studio. Puede iniciar una computadora portátil o terminal con el script predeterminado o elegir uno diferente de la lista de configuraciones del ciclo de vida.
Una configuración predeterminada del ciclo de vida de Kernel Gateway especificada en DefaultResourceSpec
se aplica a todas las imágenes de Kernel Gateway en el dominio de Studio a menos que elija una secuencia de comandos diferente de la lista presentada en el iniciador de Studio.
Cuando trabaja con configuraciones de ciclo de vida para Studio, crea una configuración de ciclo de vida y la adjunta a su dominio de Studio o perfil de usuario. A continuación, puede iniciar una aplicación Jupyter Server o Kernel Gateway para utilizar la configuración del ciclo de vida.
La siguiente tabla resume estos errores que puede encontrar al iniciar una aplicación Data Wrangler con configuraciones de ciclo de vida predeterminadas.
Nivel en el que la configuración del ciclo de vida Está aplicado |
Crear flujo de administrador de datos Funciona (o) Error |
Solución |
Dominio | Error de solicitud incorrecta | Aplicar el script (ver más abajo) |
Perfil | Error de solicitud incorrecta | Aplicar el script (ver más abajo) |
Aplicación | Funciona: no hay problema | No se requiere |
Cuando utiliza la configuración de ciclo de vida predeterminada asociada con Studio y Data Wrangler (aplicación Kernel Gateway), es posible que encuentre una falla en la aplicación Kernel Gateway. En esta publicación, demostramos cómo establecer correctamente la configuración del ciclo de vida predeterminado para excluir la ejecución de comandos en una aplicación Data Wrangler para que no encuentre fallas en la aplicación Kernel Gateway.
Digamos que desea instalar un repositorio-clon-git script como la configuración de ciclo de vida predeterminada que extrae automáticamente un repositorio de Git en la carpeta de inicio del usuario cuando se inicia el servidor Jupyter. Veamos cada escenario de aplicación de una configuración de ciclo de vida (dominio de Studio, perfil de usuario o nivel de aplicación).
Aplicar la configuración del ciclo de vida en el dominio de Studio o en el nivel de perfil de usuario
Para aplicar la configuración predeterminada del ciclo de vida de Kernel Gateway en el dominio de Studio o en el nivel de perfil de usuario, complete los pasos de esta sección. Comenzamos con instrucciones para el nivel de perfil de usuario.
En su secuencia de comandos de configuración del ciclo de vida, debe incluir el siguiente bloque de código que verifica y omite la aplicación Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Por ejemplo, usemos el siguiente guión como nuestro original (tenga en cuenta que la carpeta para clonar el repositorio se cambia a /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
El nuevo script modificado tiene el siguiente aspecto:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Puede guardar este script como git_command_test.sh
.
Ahora ejecuta una serie de comandos en su terminal o símbolo del sistema. Debes configurar el Interfaz de línea de comandos de AWS (AWS CLI) para interactuar con AWS. Si no ha configurado la CLI de AWS, consulte Configuración de la AWS CLI.
- Convierte tu
git_command_test.sh
archivo en formato Base64. Este requisito evita errores debido a la codificación de espacios y saltos de línea. - Cree una configuración de ciclo de vida de Studio. El siguiente comando crea una configuración de ciclo de vida que se ejecuta al iniciar una aplicación Kernel Gateway asociada:
- Utilice la siguiente llamada a la API para crear un nuevo perfil de usuario con una configuración de ciclo de vida asociada:
Alternativamente, si desea crear un dominio de Studio para asociar su configuración de ciclo de vida a nivel de dominio, o actualizar el perfil de usuario o el dominio, puede seguir los pasos en Establecimiento de configuraciones de ciclo de vida predeterminadas.
- Ahora puede iniciar su aplicación Studio desde el Panel de control de SageMaker.
- En su entorno Studio, en el Archive menú, seleccione Nuevo y Flujo de Data Wrangler.El nuevo flujo de Data Wrangler debería abrirse sin problemas.
- Para validar el clon de Git, puede abrir un nuevo Lanzador en Studio.
- under Cuadernos y recursos informáticos, elija el cuaderno de Python 3 y el Data science Imagen de SageMaker para iniciar su script como su script de configuración de ciclo de vida predeterminado.
Puedes ver el Git clonado en /root
en la siguiente captura de pantalla.
Hemos aplicado con éxito la configuración del ciclo de vida del Kernel predeterminado en el nivel de perfil de usuario y hemos creado un flujo de Data Wrangler. Para configurar a nivel de dominio de Studio, el único cambio es que en lugar de crear un perfil de usuario, pasa el ARN de la configuración del ciclo de vida en un crear-dominio llamada.
Aplicar la configuración del ciclo de vida en el nivel de la aplicación
Si aplica la configuración predeterminada del ciclo de vida de Kernel Gateway en el nivel de la aplicación, no tendrá ningún problema porque Data Wrangler omite la configuración del ciclo de vida aplicada en el nivel de la aplicación.
Conclusión
En esta publicación, mostramos cómo configurar correctamente su ciclo de vida predeterminado para Studio cuando utiliza Data Wrangler para los requisitos de visualización y preparación de datos.
Para resumir, si necesita usar el valor predeterminado configuración del ciclo de vida para Studio Para automatizar la personalización de sus entornos de Studio y usar Data Wrangler para la preparación de datos, puede aplicar la configuración de ciclo de vida de Kernel Gateway predeterminada en el perfil de usuario o nivel de dominio de Studio con el bloque de código adecuado incluido en su configuración de ciclo de vida para que la configuración de ciclo de vida predeterminado lo verifique. y omite la aplicación Data Wrangler Kernel Gateway.
Para obtener más información, consulte los siguientes recursos:
- Documentación de configuración del ciclo de vida de Amazon SageMaker Studio
- Estudio Amazon SageMaker
- Repositorio de ejemplos de scripts de configuración del ciclo de vida
- Depuración de configuraciones del ciclo de vida
Acerca de los autores
Rajakumar Sampathkumar es Gerente Técnico Principal de Cuentas en AWS, brinda orientación a los clientes sobre la alineación de la tecnología comercial y apoya la reinvención de sus modelos y procesos de operación en la nube. Le apasiona la nube y el aprendizaje automático. Raj también es especialista en aprendizaje automático y trabaja con clientes de AWS para diseñar, implementar y administrar sus cargas de trabajo y arquitecturas de AWS.
Vicky Zhang es ingeniero de desarrollo de software en Amazon SageMaker. Le apasiona la resolución de problemas. En su tiempo libre, disfruta viendo películas de detectives y jugando bádminton.
Raúl Nabera es consultor de análisis de datos en los servicios profesionales de AWS. Su trabajo actual se centra en permitir que los clientes creen sus cargas de trabajo de datos y aprendizaje automático en AWS. En su tiempo libre, le gusta jugar al cricket y al voleibol.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Nuestra Empresa
- de la máquina
- Mi Cuenta
- acciones
- adicional
- Todos
- Amazon
- Analytics
- abejas
- applicación
- aplicable
- Aplicación
- aplicaciones
- aplicada
- Aplicá
- La aplicación de
- adecuado
- aplicaciones
- Consejos
- asociado
- automatizado
- automáticamente
- AWS
- porque
- a continuación
- Bloquear
- frontera
- rompe
- build
- llamar al
- Causar
- el cambio
- Cheques
- Elige
- Soluciones
- código
- completar
- componentes
- Calcular
- Configuración
- Contacto
- consultor
- contiene
- control
- Para crear
- creado
- crea
- Creamos
- cricket
- crucial
- Current
- Clientes
- datos
- Data Analytics
- demostrar
- depende
- desplegar
- Diseño
- Developer
- Desarrollo
- una experiencia diferente
- dominio
- cada una
- pasan fácilmente
- echo
- habilitar
- permite
- permitiendo
- de extremo a extremo
- ingeniero
- certificados
- Entorno
- Eventos
- ejemplo
- existente
- experience
- explorar
- extensiones
- Fracaso
- más rápida
- Nombre
- primer vez
- de tus señales
- se centra
- seguir
- siguiendo
- formato
- en
- puerta
- Git
- GitHub
- suceder
- altura
- esta página
- Inicio
- Cómo
- Como Hacer
- HTTPS
- imagen
- imágenes
- incluir
- incluido
- información
- instalar
- ejemplo
- interactivo
- Interfaz
- cuestiones
- IT
- lanzamiento
- lanzamiento
- aprendizaje
- Nivel
- línea
- Lista
- Mira
- máquina
- máquina de aprendizaje
- HACE
- gestionan
- gerente
- podría
- ML
- modelos
- más,
- Películas
- cuaderno
- habiertos
- Inteligente
- reconocida por
- EL DESARROLLADOR
- panel
- apasionado
- jugando
- Preparar
- Director de la escuela
- Problema
- en costes
- Profesional
- Mi Perfil
- proporciona un
- proporcionando
- con rapidez
- repositorio
- solicita
- Requisitos
- Recurso
- Recursos
- Ejecutar
- correr
- mismo
- Guardar
- Ciencia:
- los científicos
- Serie
- Servicios
- set
- pólipo
- Configure
- Cáscara
- Mostrar
- sencillos
- So
- Software
- Desarrollo de software ad-hoc
- sólido
- a medida
- Resolver
- algo
- código fuente
- especialista
- soluciones y
- estándar
- comienzo
- comienza
- STORAGE
- estudio
- Con éxito
- Apoyar
- soportes
- Técnico
- terminal
- test
- El
- equipo
- Transformar
- desencadenados
- tipos
- bajo
- Actualizar
- utilizan el
- usuarios
- visualización
- ¿
- sean
- dentro de
- sin
- Actividades:
- funciona
- tú