오늘 우리는 Amazon SageMaker 프로파일러, 능력 아마존 세이지 메이커 SageMaker에서 딥 러닝 모델을 훈련하는 동안 프로비저닝된 AWS 컴퓨팅 리소스에 대한 자세한 보기를 제공합니다. SageMaker 프로파일러를 사용하면 CPU 및 GPU 사용률, GPU에서 커널 실행, CPU에서 커널 실행, 동기화 작업, GPU 전반의 메모리 작업, 커널 시작과 해당 실행 간의 지연 시간, 데이터 전송 등 CPU 및 GPU의 모든 활동을 추적할 수 있습니다. CPU와 GPU 사이. 이 게시물에서는 SageMaker Profiler의 기능을 안내합니다.
SageMaker Profiler는 PyTorch 또는 TensorFlow 교육 스크립트에 주석을 달고 SageMaker Profiler를 활성화하기 위한 Python 모듈을 제공합니다. 또한 시각화된 사용자 인터페이스(UI)도 제공합니다. 윤곽, 프로파일링된 이벤트의 통계 요약, GPU와 CPU 간 이벤트의 시간 관계를 추적하고 이해하기 위한 훈련 작업의 타임라인입니다.
훈련 작업 프로파일링의 필요성
딥 러닝(DL)이 부상하면서 머신 러닝(ML)은 컴퓨팅 및 데이터 집약적이 되었으며 일반적으로 다중 노드, 다중 GPU 클러스터가 필요합니다. 최첨단 모델의 크기가 수조 개의 매개변수로 증가함에 따라 계산 복잡성과 비용도 급격히 증가합니다. ML 실무자는 이러한 대규모 모델을 교육할 때 효율적인 리소스 활용이라는 일반적인 문제에 대처해야 합니다. 이는 일반적으로 수십억 개의 매개변수가 있으므로 효율적으로 훈련하기 위해 대규모 다중 노드 GPU 클러스터가 필요한 대규모 언어 모델(LLM)에서 특히 두드러집니다.
대규모 컴퓨팅 클러스터에서 이러한 모델을 훈련할 때 I/O 병목 현상, 커널 실행 대기 시간, 메모리 제한, 낮은 리소스 활용도와 같은 컴퓨팅 리소스 최적화 문제에 직면할 수 있습니다. 훈련 작업 구성이 최적화되지 않으면 이러한 문제로 인해 하드웨어 활용이 비효율적이고 훈련 시간이 길어지거나 훈련 실행이 불완전해져서 프로젝트의 전체 비용과 일정이 늘어날 수 있습니다.
사전 조건
다음은 SageMaker 프로파일러 사용을 시작하기 위한 전제 조건입니다.
- AWS 계정의 SageMaker 도메인 – 도메인 설정에 대한 지침은 다음을 참조하세요. 빠른 설정을 사용하여 Amazon SageMaker 도메인에 온보딩. 또한 개별 사용자가 SageMaker Profiler UI 애플리케이션에 액세스하려면 도메인 사용자 프로필을 추가해야 합니다. 자세한 내용은 다음을 참조하세요. SageMaker 도메인 사용자 프로필 추가 및 제거.
- 권한 – 다음 목록은 SageMaker Profiler UI 애플리케이션을 사용하기 위해 실행 역할에 할당되어야 하는 최소 권한 집합입니다.
sagemaker:CreateApp
sagemaker:DeleteApp
sagemaker:DescribeTrainingJob
sagemaker:SearchTrainingJobs
s3:GetObject
s3:ListBucket
SageMaker Profiler를 사용하여 훈련 작업 준비 및 실행
훈련 작업이 실행되는 동안 GPU에서 커널 실행 캡처를 시작하려면 SageMaker Profiler Python 모듈을 사용하여 훈련 스크립트를 수정하십시오. 라이브러리를 가져오고 추가하십시오. start_profiling()
및 stop_profiling()
프로파일링의 시작과 끝을 정의하는 방법. 또한 선택적 사용자 정의 주석을 사용하여 교육 스크립트에 마커를 추가하여 각 단계의 특정 작업 중에 하드웨어 활동을 시각화할 수 있습니다.
SageMaker Profiler를 사용하여 훈련 스크립트를 프로파일링하기 위해 취할 수 있는 두 가지 접근 방식이 있습니다. 첫 번째 접근 방식은 전체 기능의 프로파일링을 기반으로 합니다. 두 번째 접근 방식은 함수의 특정 코드 줄을 프로파일링하는 것을 기반으로 합니다.
기능별로 프로파일링하려면 컨텍스트 관리자를 사용하세요. smppy.annotate
전체 기능에 주석을 달기 위해. 다음 예제 스크립트는 컨텍스트 관리자를 구현하여 각 반복에서 훈련 루프와 전체 기능을 래핑하는 방법을 보여줍니다.
VOUS pouvez의 aussi 사용 smppy.annotation_begin()
및 smppy.annotation_end()
함수의 특정 코드 줄에 주석을 추가합니다. 자세한 내용은 다음을 참조하십시오. 선적 서류 비치.
SageMaker 훈련 작업 실행 프로그램 구성
프로파일러 시작 모듈에 주석을 달고 설정한 후에는 교육 스크립트를 저장하고 SageMaker Python SDK를 사용하여 교육용 SageMaker 프레임워크 추정기를 준비합니다.
- 설정
profiler_config
객체를 사용하여ProfilerConfig
및Profiler
모듈은 다음과 같습니다: - 다음을 사용하여 SageMaker 추정기를 생성합니다.
profiler_config
이전 단계에서 생성된 개체입니다. 다음 코드는 PyTorch 추정기를 생성하는 예를 보여줍니다.
TensorFlow 추정기를 생성하려면 다음을 가져오세요. sagemaker.tensorflow.TensorFlow
대신 SageMaker Profiler에서 지원하는 TensorFlow 버전 중 하나를 지정하세요. 지원되는 프레임워크 및 인스턴스 유형에 대한 자세한 내용은 다음을 참조하세요. 지원되는 프레임워크.
- fit 메서드를 실행하여 훈련 작업을 시작합니다.
SageMaker 프로파일러 UI 실행
훈련 작업이 완료되면 SageMaker Profiler UI를 시작하여 훈련 작업의 프로필을 시각화하고 탐색할 수 있습니다. SageMaker 콘솔의 SageMaker 프로파일러 랜딩 페이지 또는 SageMaker 도메인을 통해 SageMaker 프로파일러 UI 애플리케이션에 액세스할 수 있습니다.
SageMaker 콘솔에서 SageMaker Profiler UI 애플리케이션을 시작하려면 다음 단계를 완료하십시오.
- SageMaker 콘솔에서 프로파일 탐색 창에서
- $XNUMX Million 미만 시작하기에서 SageMaker Profiler UI 애플리케이션을 시작하려는 도메인을 선택합니다.
사용자 프로필이 하나의 도메인에만 속하는 경우 도메인 선택 옵션이 표시되지 않습니다.
- SageMaker Profiler UI 애플리케이션을 시작하려는 사용자 프로필을 선택합니다.
도메인에 사용자 프로필이 없으면 다음을 선택합니다. 사용자 프로필 만들기. 새 사용자 프로필 만들기에 대한 자세한 내용은 다음을 참조하세요. 사용자 프로필 추가 및 제거.
- 왼쪽 메뉴에서 프로파일러 열기.
당신은 또한 수 도메인 세부 정보 페이지에서 SageMaker Profiler UI를 시작합니다..
SageMaker 프로파일러에서 통찰력을 얻으세요
SageMaker 프로파일러 UI를 열면 프로필 선택 및 로드 다음 스크린샷과 같이 페이지가 열립니다.
SageMaker 프로파일러에 제출된 모든 훈련 작업 목록을 보고 이름, 생성 시간 및 실행 상태(진행 중, 완료됨, 실패함, 중지됨 또는 중지 중)를 기준으로 특정 훈련 작업을 검색할 수 있습니다. 프로필을 로드하려면 보려는 훈련 작업을 선택하고 하중. 작업 이름이 로드된 프로필 섹션.
대시보드와 타임라인을 생성하려면 작업 이름을 선택하세요. 작업을 선택하면 UI가 자동으로 대시보드를 엽니다. 한 번에 하나의 프로필을 로드하고 시각화할 수 있습니다. 다른 프로필을 로드하려면 먼저 이전에 로드한 프로필을 언로드해야 합니다. 프로필을 언로드하려면 다음에서 휴지통 아이콘을 선택합니다. 로드된 프로필 안내
이번 포스팅에서는 프로필을 살펴보겠습니다. 알베프 두 개의 ml.p4d.24xlarge 인스턴스에 대한 훈련 작업입니다.
훈련 작업 로드 및 선택을 마치면 UI에서 대시보드 다음 스크린샷과 같이 페이지.
주요 지표, 즉 GPU 활성 시간, 시간 경과에 따른 GPU 활용도, CPU 활성 시간, 시간 경과에 따른 CPU 활용도에 대한 도표를 볼 수 있습니다. GPU 활성 시간 파이 차트는 GPU 활성 시간과 GPU 유휴 시간의 비율을 보여줍니다. 이를 통해 전체 훈련 작업에서 GPU가 유휴 시간보다 더 활동적인지 확인할 수 있습니다.. 시간 경과에 따른 GPU 사용률 타임라인 그래프는 노드당 시간에 따른 평균 GPU 사용률을 표시하여 모든 노드를 단일 차트에 집계합니다. 특정 시간 간격 동안 GPU에 워크로드 불균형, 활용도 부족 문제, 병목 현상 또는 유휴 문제가 있는지 확인할 수 있습니다.. 이러한 측정항목 해석에 대한 자세한 내용은 다음을 참조하세요. 선적 서류 비치.
대시보드는 다음 스크린샷과 같이 모든 GPU 커널이 소비한 시간, 상위 15개 GPU 커널이 소비한 시간, 모든 GPU 커널의 실행 횟수, 상위 15개 GPU 커널의 실행 횟수를 포함한 추가 플롯을 제공합니다.
마지막으로 대시보드를 사용하면 GPU의 단계 지속 시간 분포를 보여주는 히스토그램인 단계 시간 분포와 커널 실행에 소요된 시간의 백분율을 보여주는 커널 정밀도 분포 원형 차트와 같은 추가 측정항목을 시각화할 수 있습니다. FP32, FP16, INT32 및 INT8과 같은 다양한 데이터 유형.
커널 실행, 메모리(memcpy
및 memset
) 및 동기화(sync
). GPU 메모리 작업 분포 원형 차트에서 GPU 메모리 작업에 소요된 시간 비율을 시각화할 수 있습니다.
이 게시물의 앞부분에서 설명한 대로 수동으로 주석을 추가한 사용자 정의 측정항목을 기반으로 자신만의 히스토그램을 만들 수도 있습니다. 새 히스토그램에 사용자 정의 주석을 추가할 때 훈련 스크립트에 추가한 주석의 이름을 선택하거나 입력하십시오.
타임라인 인터페이스
SageMaker 프로파일러 UI에는 CPU에서 예약되고 GPU에서 실행되는 작업 및 커널 수준의 컴퓨팅 리소스에 대한 자세한 보기를 제공하는 타임라인 인터페이스도 포함되어 있습니다. 타임라인은 트리 구조로 구성되어 다음 스크린샷과 같이 호스트 수준에서 장치 수준까지 정보를 제공합니다.
각 CPU에 대해 다음과 같은 CPU 성능 카운터를 추적할 수 있습니다. clk_unhalted_ref.tsc
및 itlb_misses.miss_causes_a_walk
. 2x p4d.24xlarge 인스턴스의 각 GPU에 대해 호스트 타임라인과 디바이스 타임라인을 볼 수 있습니다. 커널 실행은 호스트 타임라인에 있고 커널 실행은 장치 타임라인에 있습니다.
개별 단계를 확대할 수도 있습니다. 다음 스크린샷에서는 step_41을 확대했습니다. 다음 스크린샷에서 선택한 타임라인 스트립은 AllReduce
분산 훈련의 필수 통신 및 동기화 단계인 작업은 GPU-0에서 실행됩니다. 스크린샷에서 GPU-0 호스트의 커널 실행은 하늘색 화살표로 표시된 GPU-0 장치 스트림 1의 커널 실행에 연결됩니다.
가용성 및 고려 사항
SageMaker 프로파일러는 PyTorch(버전 2.0.0 및 1.13.1) 및 TensorFlow(버전 2.12.0 및 2.11.1)에서 사용할 수 있습니다. 다음 표에는 지원되는 링크가 나와 있습니다. SageMaker용 AWS 딥 러닝 컨테이너.
뼈대 | 버전 | AWS DLC 이미지 URI |
파이 토치 | 2.0.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker |
파이 토치 | 1.13.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker |
TensorFlow | 2.12.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.12.0-gpu-py310-cu118-ubuntu20.04-sagemaker |
TensorFlow | 2.11.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.1-gpu-py39-cu112-ubuntu20.04-sagemaker |
SageMaker 프로파일러는 현재 미국 동부(오하이오, 버지니아 북부), 미국 서부(오레곤) 및 유럽(아일랜드 프랑크푸르트) 리전에서 사용할 수 있습니다.
SageMaker 프로파일러는 훈련 인스턴스 유형 ml.p4d.24xlarge, ml.p3dn.24xlarge 및 ml.g4dn.12xlarge에서 사용할 수 있습니다.
지원되는 프레임워크 및 버전의 전체 목록은 다음을 참조하세요. 선적 서류 비치.
SageMaker Profiler에는 SageMaker 프리 티어 또는 해당 기능의 무료 평가판 기간이 종료된 후 요금이 부과됩니다. 자세한 내용은 다음을 참조하십시오. Amazon SageMaker 요금.
SageMaker 프로파일러의 성능
SageMaker 프로파일러의 오버헤드를 다양한 오픈 소스 프로파일러와 비교했습니다. 비교에 사용된 기준은 프로파일러 없이 훈련 작업을 실행하여 얻은 것입니다.
우리의 주요 조사 결과에 따르면 SageMaker Profiler는 종단 간 훈련 실행에서 오버헤드 시간이 적기 때문에 일반적으로 청구 가능한 훈련 기간이 더 짧아졌습니다. 또한 오픈 소스 대안과 비교할 때 더 적은 프로파일링 데이터(최대 10배 더 적음)를 생성했습니다. SageMaker Profiler에서 생성된 더 작은 프로파일링 아티팩트에는 더 적은 스토리지가 필요하므로 비용도 절약됩니다.
결론
SageMaker 프로파일러를 사용하면 딥 러닝 모델을 교육할 때 컴퓨팅 리소스 활용에 대한 자세한 통찰력을 얻을 수 있습니다. 이를 통해 성능 핫스팟과 병목 현상을 해결하여 효율적인 리소스 활용을 보장하여 궁극적으로 교육 비용을 절감하고 전체 교육 기간을 단축할 수 있습니다.
SageMaker 프로파일러를 시작하려면 다음을 참조하십시오. 선적 서류 비치.
저자에 관하여
로이 알렐라 독일 뮌헨에 본사를 둔 AWS의 선임 AI/ML 전문가 솔루션 아키텍트입니다. Roy는 소규모 스타트업에서 대기업에 이르기까지 AWS 고객이 AWS에서 대규모 언어 모델을 효율적으로 교육하고 배포할 수 있도록 지원합니다. Roy는 컴퓨팅 최적화 문제와 AI 워크로드의 성능 개선에 열정적입니다.
수샨트 문 그는 인도 AWS의 데이터 과학자로 AI/ML 노력을 통해 고객을 안내하는 전문 분야입니다. 소매, 금융, 보험 분야에 걸친 다양한 배경을 바탕으로 그는 혁신적이고 맞춤형 솔루션을 제공합니다. Sushant는 직업 생활 외에도 수영에서 활력을 찾고 다양한 지역을 여행하면서 영감을 얻습니다.
딕샤 샤르마 Worldwide Specialist Organization의 AI/ML 전문 솔루션 설계자입니다. 그녀는 공공 부문 고객과 협력하여 AWS에서 생성적 AI 솔루션을 포함하여 효율적이고 안전하며 확장 가능한 기계 학습 애플리케이션을 설계하도록 돕습니다. 여가 시간에 Diksha는 책을 읽고, 그림을 그리고, 가족과 함께 시간을 보내는 것을 좋아합니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 자동차 / EV, 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 차트프라임. ChartPrime으로 트레이딩 게임을 향상시키십시오. 여기에서 액세스하십시오.
- BlockOffsets. 환경 오프셋 소유권 현대화. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/announcing-the-preview-of-amazon-sagemaker-profiler-track-and-visualize-detailed-hardware-performance-data-for-your-model-training-workloads/
- :있다
- :이다
- :아니
- $UP
- 1
- 10
- 100
- 11
- 12
- 125
- 13
- 15%
- 17
- 20
- 7
- 9
- a
- 소개
- ACCESS
- 가로질러
- 활성화
- 활동적인
- 방과 후 액티비티
- 활동
- 더하다
- 추가
- 첨가
- 추가
- 후
- 반대
- 집합
- AI
- AI / ML
- All
- 또한
- 대안
- 아마존
- 아마존 세이지 메이커
- Amazon Web Services
- an
- 및
- 알리다
- 발표
- 다른
- 어떤
- 표시
- 어플리케이션
- 어플리케이션
- 접근
- 구혼
- 있군요
- AS
- 할당 된
- At
- 자동적으로
- 가능
- 평균
- AWS
- 배경
- 기반으로
- 기준
- BE
- 때문에
- 가
- 된
- 처음
- 속
- 사이에
- 그 너머
- 수십억
- BIN
- by
- CAN
- 기능
- 능력
- 캡처
- 어떤
- 과제
- 요금
- 거래차트
- 검사
- 왼쪽 메뉴에서
- 암호
- 공통의
- 의사 소통
- 비교
- 비교
- 완전한
- 진행완료
- 복잡성
- 계산
- 구성
- 커넥트
- 콘솔에서
- 용기
- 문맥
- 동
- 비용
- 비용
- 카운터
- 만들
- 만든
- 만들기
- 창조
- 현재
- 관습
- 고객
- 청록색
- 계기반
- 데이터
- 데이터 과학자
- 깊은
- 깊은 학습
- 밝히다
- 제공
- 배포
- 기술 된
- 상세한
- 세부설명
- 장치
- 다른
- 분산
- 분산 교육
- 분포
- 몇몇의
- 도메인
- 도메인
- 한
- 아래 (down)
- 드라이브
- 지속
- ...동안
- 마다
- 이전
- 동쪽
- 효율적인
- 효율적으로
- 가능
- 수
- end
- 끝으로 종료
- 노력
- 종료
- 확인
- 엔터 버튼
- 전체의
- 항목
- 시대
- 신기원
- 필수
- 유럽
- 이벤트
- 분명한
- 예
- 실행
- 탐험
- 실패한
- 가족
- 특색
- 재원
- 발견
- finds
- 마무리
- 먼저,
- 맞게
- 수행원
- 다음
- 럭셔리
- 앞으로
- 뼈대
- 프레임 워크
- 무료
- 무료 시험판
- 에
- 가득 찬
- 기능
- 일반적으로
- 생성
- 생성
- 생성적인
- 제너레이티브 AI
- 독일
- 얻을
- 기부
- GPU
- GPU
- 그래프
- 성장
- 했다
- 하드웨어
- 있다
- he
- 도움
- 도움이
- 그녀의
- 그의
- 주인
- 방법
- How To
- HTML
- HTTP
- HTTPS
- i
- ICON
- 유휴
- if
- 영상
- 구현
- import
- 개선
- in
- 포함
- 포함
- 증가
- 인도
- 표시된
- 개인
- 비효율적
- 정보
- 혁신적인
- 입력
- 통찰력
- 영감
- 예
- 를 받아야 하는 미국 여행자
- 명령
- 보험
- 인터페이스
- 으로
- 아일랜드
- 문제
- IT
- 되풀이
- 그
- 일
- 작업
- JPG
- 키
- 레이블
- 상륙
- 언어
- 넓은
- 시작
- 시작
- 배우기
- 적게
- 레벨
- 도서관
- 생활
- 제한
- 라인
- 모래밭
- 명부
- 하중
- 로드
- 이상
- 오프
- loves
- 낮은
- 기계
- 기계 학습
- 매니저
- 수동으로
- 메모리
- 방법
- 방법
- 메트릭
- 통계
- 최저한의
- ML
- 모델
- 모델
- 수정
- 모듈
- 배우기
- 절대로 필요한 것
- name
- 즉
- 카테고리
- 필요
- 신제품
- 아니
- 노드
- 노드
- 대상
- 획득
- 획득
- of
- 제공
- 오하이오
- on
- ONE
- 만
- 열 수
- 오픈 소스
- 열립니다
- 조작
- 행정부
- 최적화
- 최적화
- 선택권
- or
- 주문
- 오레곤
- 조직
- 최
- 위에
- 전체
- 자신의
- 페이지
- 빵
- 매개 변수
- 특별한
- 특별히
- 열렬한
- 용
- tỷ lệ phần trăm
- 성능
- 기간
- 권한
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 기쁘게 생각한
- 포인트 적립
- 게시하다
- Precision
- Prepare
- 전제 조건
- 시사
- 너무 이른
- 이전에
- 문제
- 링크를
- 프로필
- 프로필
- 프로파일 링
- 진행
- 프로젝트
- 제공
- 공개
- Python
- 파이 토치
- 빠른
- 빠르게
- 율
- 읽기
- 감소
- 지역
- 회춘
- 관계
- 제거
- 필요
- 의지
- 제품 자료
- 결과
- 소매
- 공개
- 상승
- 직위별
- 로이
- 달리기
- 달리는
- 실행
- 현자
- 찜하기
- 절약
- 확장성
- 예약
- 과학자
- 스크립트
- SDK
- 검색
- 둘째
- 섹션
- 부문
- 안전해야합니다.
- 참조
- 탐색
- 선택된
- 선택
- 연장자
- 서비스
- 세트
- 설정
- 그녀
- 영상을
- 표시
- 쇼
- 단일
- 크기
- 작은
- 작은
- 솔루션
- 출처
- 스패닝
- 전문가
- 전문
- 구체적인
- 지출
- 지출
- 스타트
- 시작
- 신생
- 최첨단
- 통계적인
- Status
- 단계
- 단계
- 정지
- 멎는
- 저장
- 흐름
- 구조
- 제출
- 이러한
- 개요
- 지원
- 동기화
- 테이블
- 맞춤형
- 받아
- 텐서 흐름
- 보다
- 그
- XNUMXD덴탈의
- 그들의
- 그들
- 그곳에.
- 그것에 의하여
- 따라서
- Bowman의
- 이
- 을 통하여
- 도처에
- 층
- 시간
- 타임 라인
- 타임 라인
- 시대
- 에
- 상단
- 선로
- 추적
- Train
- 트레이닝
- 이전
- 여행기
- 나무
- 시도
- 수조
- 두
- 유형
- 일반적으로
- ui
- 궁극적으로
- 이해
- us
- 사용
- 익숙한
- 사용자
- 시간을 아껴주는 인터페이스
- 사용자
- 사용
- 여러
- 버전
- 버전
- 관측
- 버지니아의
- vs
- 필요
- 였다
- we
- 웹
- 웹 서비스
- West
- 언제
- 어느
- 동안
- 의지
- 과
- 없이
- 일
- 전세계적인
- 겠지
- 싸다
- 자신의
- 너의
- 제퍼 넷
- 줌