도메인 또는 사용자 프로필에 대한 기본 수명 주기 구성을 사용하는 경우 아마존 세이지 메이커 스튜디오 사용 Amazon SageMaker 데이터 랭글러 데이터 준비를 위해 이 게시물은 당신을 위한 것입니다. 이 게시물에서는 Data Wrangler 흐름을 만들고 기본 수명 주기 구성이 있는 Studio 환경에서 데이터 준비에 사용하는 방법을 보여줍니다.
데이터 랭글러는 아마존 세이지 메이커 이를 통해 데이터 과학자와 엔지니어는 시각적 인터페이스를 통해 머신 러닝(ML) 애플리케이션을 위한 데이터를 더 빠르게 준비할 수 있습니다. 데이터 준비는 ML 수명 주기의 중요한 단계이며 Data Wrangler는 시각적인 로우 코드 환경에서 ML용 데이터를 가져오고, 탐색하고, 변환하고, 기능화하고, 처리하는 엔드 투 엔드 솔루션을 제공합니다. 이를 통해 다음과 같은 AWS 구성 요소에 쉽고 빠르게 연결할 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 아테나, 아마존 레드 시프트및 AWS Lake 형성, Snowflake 및 DataBricks DeltaLake와 같은 외부 소스. Data Wrangler는 CSV, JSON, ORC 및 Parquet과 같은 표준 데이터 유형을 지원합니다.
Studio 앱은 Studio의 시각적 인터페이스, 코드 작성 및 실행 경험을 가능하게 하는 대화형 응용 프로그램입니다. 앱 유형은 Jupyter 서버 또는 커널 게이트웨이일 수 있습니다.
- 주피터 서버 – Studio의 시각적 인터페이스에 대한 액세스를 활성화합니다. Studio의 모든 사용자는 자신의 Jupyter 서버 앱을 받습니다.
- 커널 게이트웨이 – Studio 노트북 및 터미널에 대한 코드 실행 환경 및 커널에 대한 액세스를 활성화합니다. 자세한 내용은 Jupyter 커널 게이트웨이.
수명주기 구성 (LCC)는 JupyterLab 확장 설치, 데이터 세트 사전 로드, 소스 코드 리포지토리 설정과 같은 Studio 환경에 대한 사용자 지정을 자동화하는 셸 스크립트입니다. LCC 스크립트는 새 Studio 노트북 시작과 같은 Studio 수명 주기 이벤트에 의해 트리거됩니다. 프로그래밍 방식으로 수명 주기 구성을 도메인 또는 사용자 프로필의 기본값으로 설정하려면 새 리소스를 생성하거나 기존 리소스를 업데이트하면 됩니다. 수명 주기 구성을 기본값으로 연결하려면 먼저 다음 단계에 따라 수명 주기 구성을 생성해야 합니다. 수명 주기 구성 생성 및 연결
참고: 도메인 수준에서 설정된 기본 수명 주기 구성은 모든 사용자에게 상속되는 반면 사용자 수준에서 설정된 기본 수명 주기 구성은 특정 사용자로 범위가 지정됩니다. 도메인 수준 및 사용자 프로필 수준 수명 주기 구성을 동시에 적용하는 경우 도메인 수준에서 적용되는 수명 주기 구성에 관계없이 사용자 프로필 수준 수명 주기 구성이 우선적으로 적용되며 애플리케이션에 적용됩니다. 자세한 내용은 기본 수명 주기 구성 설정.
Data Wrangler는 기본 커널 게이트웨이 수명 주기 구성을 허용하지만 기본 커널 게이트웨이 수명 주기 구성에 정의된 일부 명령은 Data Wrangler에 적용할 수 없으므로 Data Wrangler가 시작되지 않을 수 있습니다. 다음 스크린샷은 Data Wrangler 흐름을 시작할 때 나타날 수 있는 오류 메시지의 예를 보여줍니다. 이는 기본 수명 주기 구성에서만 발생할 수 있으며 수명 주기 구성에서는 발생할 수 없습니다.
솔루션 개요
Studio에서 기본 수명 주기 구성을 사용하는 고객은 이 게시물을 따르고 수명 주기 구성 스크립트 내에서 제공된 코드 블록을 사용하여 오류 없이 Data Wrangler 앱을 시작할 수 있습니다.
기본 수명 주기 구성 설정
기본 수명 주기 구성을 설정하려면 구성을 추가해야 합니다. DefaultResourceSpec
적절한 앱 유형의 수명 주기 구성의 동작은 구성 요소에 추가되었는지 여부에 따라 다릅니다. DefaultResourceSpec
Jupyter 서버 또는 커널 게이트웨이 앱:
- Jupyter 서버 앱 – 에 추가될 때
DefaultResourceSpec
Jupyter Server 앱의 기본 수명 주기 구성 스크립트는 사용자가 Studio에 처음 로그인하거나 Studio를 다시 시작할 때 자동으로 실행됩니다. 이를 사용하여 노트북 확장 설치 또는 GitHub 리포지토리 설정과 같은 Studio 개발자 환경에 대한 일회성 설정 작업을 자동화할 수 있습니다. 이에 대한 예는 다음을 참조하십시오. 수명 주기 구성을 사용하여 Amazon SageMaker Studio 사용자 지정. - 커널 게이트웨이 앱 – 에 추가될 때
DefaultResourceSpec
Kernel Gateway 앱의 경우 Studio는 기본적으로 Studio 시작 관리자에서 수명 주기 구성 스크립트를 선택합니다. 기본 스크립트로 노트북 또는 터미널을 시작하거나 수명 주기 구성 목록에서 다른 것을 선택할 수 있습니다.
에 지정된 기본 커널 게이트웨이 수명 주기 구성 DefaultResourceSpec
Studio 시작 관리자에 표시된 목록에서 다른 스크립트를 선택하지 않는 한 Studio 도메인의 모든 커널 게이트웨이 이미지에 적용됩니다.
Studio의 수명 주기 구성으로 작업할 때 수명 주기 구성을 생성하고 이를 Studio 도메인 또는 사용자 프로필에 연결합니다. 그런 다음 Jupyter 서버 또는 커널 게이트웨이 애플리케이션을 시작하여 수명 주기 구성을 사용할 수 있습니다.
다음 표에는 기본 수명 주기 구성으로 Data Wrangler 애플리케이션을 시작할 때 발생할 수 있는 이러한 오류가 요약되어 있습니다.
수명 주기 구성 수준 은 적용되다 |
데이터 랭글러 흐름 만들기 작동(또는) 오류 |
해결 방법 |
도메인 | 잘못된 요청 오류 | 스크립트 적용(아래 참조) |
유저 프로필 | 잘못된 요청 오류 | 스크립트 적용(아래 참조) |
어플리케이션 | 작동 - 문제 없음 | 필요하지 않음 |
Studio 및 Data Wrangler(커널 게이트웨이 앱)와 연결된 기본 수명 주기 구성을 사용하는 경우 커널 게이트웨이 앱 오류가 발생할 수 있습니다. 이 게시물에서는 커널 게이트웨이 앱 오류가 발생하지 않도록 Data Wrangler 애플리케이션에서 실행 중인 명령을 제외하도록 기본 수명 주기 구성을 올바르게 설정하는 방법을 보여줍니다.
설치를 원한다고 가정해 보겠습니다. 자식 클론 저장소 스크립트는 Jupyter 서버가 시작될 때 자동으로 사용자의 홈 폴더 아래에 있는 Git 리포지토리를 체크아웃하는 기본 수명 주기 구성입니다. 수명 주기 구성(Studio 도메인, 사용자 프로필 또는 응용 프로그램 수준)을 적용하는 각 시나리오를 살펴보겠습니다.
Studio 도메인 또는 사용자 프로필 수준에서 수명 주기 구성 적용
Studio 도메인 또는 사용자 프로필 수준에서 기본 커널 게이트웨이 수명 주기 구성을 적용하려면 이 섹션의 단계를 완료하십시오. 사용자 프로필 수준에 대한 지침으로 시작합니다.
수명 주기 구성 스크립트에 Data Wrangler Kernel Gateway 앱을 확인하고 건너뛰는 다음 코드 블록을 포함해야 합니다.
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
예를 들어 다음 스크립트 원본으로(리포지토리를 복제할 폴더가 /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
새로 수정된 스크립트는 다음과 같습니다.
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
이 스크립트를 다음과 같이 저장할 수 있습니다. git_command_test.sh
.
이제 터미널 또는 명령 프롬프트에서 일련의 명령을 실행합니다. 구성해야 합니다. AWS 명령 줄 인터페이스 (AWS CLI) AWS와 상호 작용합니다. AWS CLI를 설정하지 않은 경우 다음을 참조하십시오. AWS CLI 구성.
- 당신의 변환
git_command_test.sh
파일을 Base64 형식으로 변환합니다. 이 요구 사항은 공백 및 줄 바꿈 인코딩으로 인한 오류를 방지합니다. - Studio 수명 주기 구성을 만듭니다. 다음 명령은 연결된 커널 게이트웨이 앱을 시작할 때 실행되는 수명 주기 구성을 만듭니다.
- 다음 API 호출을 사용하여 연결된 수명 주기 구성으로 새 사용자 프로필을 만듭니다.
또는 Studio 도메인을 생성하여 도메인 수준에서 수명 주기 구성을 연결하거나 사용자 프로필 또는 도메인을 업데이트하려는 경우 다음 단계를 수행할 수 있습니다. 기본 수명 주기 구성 설정.
- 이제 SageMaker 제어판에서 Studio 앱을 실행할 수 있습니다.
- Studio 환경에서 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 메뉴, 선택 신제품 와 데이터 랭글러 흐름.새 Data Wrangler 흐름은 문제 없이 열립니다.
- Git 클론의 유효성을 검사하려면 Studio에서 새 런처를 열 수 있습니다.
- $XNUMX Million 미만 노트북 및 컴퓨팅 리소스, Python 3 노트북을 선택하고 데이터 과학 SageMaker 이미지를 사용하여 스크립트를 기본 수명 주기 구성 스크립트로 시작합니다.
Git이 복제 된 것을 볼 수 있습니다. /root
다음 스크린샷에서.
사용자 프로필 수준에서 기본 커널 수명 주기 구성을 성공적으로 적용하고 Data Wrangler 흐름을 만들었습니다. Studio 도메인 수준에서 구성하려면 사용자 프로필을 생성하는 대신 수명 주기 구성의 ARN을 도메인 생성 요구.
애플리케이션 수준에서 수명 주기 구성 적용
애플리케이션 수준에서 기본 커널 게이트웨이 수명 주기 구성을 적용하면 Data Wrangler가 애플리케이션 수준에서 적용된 수명 주기 구성을 건너뛰기 때문에 문제가 없습니다.
결론
이 게시물에서는 데이터 준비 및 시각화 요구 사항에 Data Wrangler를 사용할 때 Studio의 기본 수명 주기 구성을 적절하게 구성하는 방법을 보여주었습니다.
요약하면 기본값을 사용해야 하는 경우 Studio의 수명 주기 구성 Studio 환경에 대한 사용자 지정을 자동화하고 데이터 준비를 위해 Data Wrangler를 사용하려면 기본 수명 주기 구성에 포함된 적절한 코드 블록을 사용하여 사용자 프로필 또는 Studio 도메인 수준에서 기본 커널 게이트웨이 수명 주기 구성을 적용하여 기본 수명 주기 구성이 확인하도록 할 수 있습니다. Data Wrangler Kernel Gateway 앱을 건너뜁니다.
자세한 내용은 다음 리소스를 참조하십시오.
저자에 관하여
라자쿠마르 삼파스쿠마르 AWS의 수석 기술 계정 관리자로서 고객에게 비즈니스 기술 조정에 대한 지침을 제공하고 클라우드 운영 모델 및 프로세스의 재창조를 지원합니다. 그는 클라우드와 머신 러닝에 열정적입니다. Raj는 또한 기계 학습 전문가이며 AWS 고객과 협력하여 AWS 워크로드 및 아키텍처를 설계, 배포 및 관리합니다.
비키 장 Amazon SageMaker의 소프트웨어 개발 엔지니어입니다. 그녀는 문제 해결에 열정적입니다. 여가 시간에는 탐정 영화를 보고 배드민턴을 치는 것을 즐깁니다.
라훌 나베라 AWS Professional Services의 데이터 분석 컨설턴트입니다. 그의 현재 작업은 고객이 AWS에서 데이터 및 기계 학습 워크로드를 구축할 수 있도록 하는 데 중점을 두고 있습니다. 여가 시간에는 크리켓과 배구를 즐깁니다.
- "
- 100
- a
- 소개
- ACCESS
- 계정
- 행위
- 추가
- All
- 아마존
- 분석
- API를
- 앱
- 응용할 수 있는
- 어플리케이션
- 어플리케이션
- 적용된
- 신청
- 적용
- 적당한
- 앱
- 준
- 관련
- 자동화
- 자동적으로
- AWS
- 때문에
- 이하
- 블록
- 경계
- 휴식
- 빌드
- 전화
- 원인
- 이전 단계로 돌아가기
- 확인하는 것이 좋다.
- 왼쪽 메뉴에서
- 클라우드
- 암호
- 완전한
- 구성 요소들
- 계산
- 구성
- 연결하기
- 컨설턴트
- 이 포함되어 있습니다
- 제어
- 만들
- 만든
- 생성
- 만들기
- 크리켓
- 결정적인
- Current
- 고객
- 데이터
- 데이터 분석
- 보여
- 따라
- 배포
- 디자인
- 개발자
- 개발
- 다른
- 도메인
- 마다
- 용이하게
- 에코
- 가능
- 수
- 가능
- 끝으로 종료
- 기사
- 엔지니어
- 환경
- 이벤트
- 예
- 현존하는
- 경험
- 탐험
- 확장
- 고장
- 빠른
- 먼저,
- 처음으로
- 흐름
- 집중
- 따라
- 수행원
- 체재
- 에
- 게이트웨이
- 힘내
- GitHub의
- 발생
- 신장
- 여기에서 지금 확인해 보세요.
- 홈
- 방법
- How To
- HTTPS
- 영상
- 형상
- 포함
- 포함
- 정보
- 설치
- 예
- 대화형
- 인터페이스
- 문제
- IT
- 시작
- 진수
- 배우기
- 레벨
- 라인
- 명부
- 보기
- 기계
- 기계 학습
- 제작
- 관리
- 매니저
- 수도
- ML
- 모델
- 배우기
- 영화 산업
- 수첩
- 열 수
- 조작
- 실물
- 자신의
- 패널
- 열렬한
- 연주
- Prepare
- 교장
- 문제
- 방법
- 프로세스
- 링크를
- 프로필
- 제공
- 제공
- 빨리
- 저장소
- 의뢰
- 요구조건 니즈
- 의지
- 자료
- 달리기
- 달리는
- 같은
- 찜하기
- 과학
- 과학자
- 연속
- 서비스
- 세트
- 설정
- 설치
- 껍질
- 표시
- 단순, 간단, 편리
- So
- 소프트웨어
- 소프트웨어 개발
- 고체
- 해결책
- 해결
- 일부
- 소스 코드
- 전문가
- 구체적인
- 표준
- 스타트
- 시작
- 저장
- 스튜디오
- 성공적으로
- 지원
- 지원
- 테크니컬
- 단말기
- test
- XNUMXD덴탈의
- 시간
- 변환
- 방아쇠를 당긴
- 유형
- 아래에
- 업데이트
- 사용
- 사용자
- 심상
- 뭐
- 여부
- 이내
- 없이
- 작업
- 일
- 너의