Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

Amazon SageMaker JumpStart의 예시 노트북

Amazon SageMaker 점프스타트 SageMaker의 기계 학습(ML) 허브는 기계 학습을 시작하는 데 도움이 되는 광범위한 문제 유형에 대해 사전 훈련되고 공개적으로 사용 가능한 모델을 제공합니다.

JumpStart는 다음을 사용하는 예제 노트북도 제공합니다. 아마존 세이지 메이커 다양한 모델 유형 및 사용 사례에 대한 스팟 인스턴스 교육 및 실험과 같은 기능. 이러한 예제 노트북에는 SageMaker 및 JumpStart를 사용하여 ML 솔루션을 적용하는 방법을 보여주는 코드가 포함되어 있습니다. 자신의 필요에 맞게 조정할 수 있으므로 애플리케이션 개발 속도를 높일 수 있습니다.

최근에 우리는 10개의 새로운 노트북을 JumpStart에 추가했습니다. 아마존 세이지 메이커 스튜디오. 이 게시물은 이러한 새 노트북에 중점을 둡니다. 이 글을 쓰는 시점에서 JumpStart는 최신 자연어 처리(NLP) 모델 사용부터 모델 훈련 시 데이터 세트의 편향 수정에 이르기까지 56개의 노트북을 제공합니다.

10개의 새로운 노트북은 다음과 같은 방식으로 도움이 될 수 있습니다.

  • Studio의 JumpStart UI에서 있는 그대로 실행할 수 있는 예제 코드를 제공하고 코드 작동 방식을 확인합니다.
  • 다양한 SageMaker 및 JumpStart API의 사용법을 보여줍니다.
  • 필요에 따라 추가로 맞춤화할 수 있는 기술 솔루션을 제공합니다.

JumpStart를 통해 제공되는 노트북의 수는 더 많은 노트북이 추가됨에 따라 정기적으로 증가합니다. 이 노트북은 다음에서도 사용할 수 있습니다. github.

노트북 개요

10개의 새로운 노트북은 다음과 같습니다.

  • AlexaTM 20B를 통한 상황에 맞는 학습 – 텍스트 요약, 자연어 생성, 기계 번역, 추출적 질문 응답, 자연어 추론 및 분류와 같은 20가지 예제 작업에서 제로샷 및 퓨샷 학습을 통해 상황 내 학습에 AlexaTM XNUMXB를 사용하는 방법을 보여줍니다.
  • SageMaker의 공정성 선형 학습기 – 최근 인간의 기존 편견을 모방한 결과로 ML 알고리즘의 편향에 대한 우려가 있었습니다. 이 노트북은 공정성 개념을 적용하여 모델 예측을 적절하게 조정합니다.
  • SageMaker Search를 사용하여 ML 실험 관리 – Amazon SageMaker 검색을 사용하면 잠재적으로 수백, 수천 개의 SageMaker 모델 교육 작업에서 가장 관련성이 높은 모델 교육 실행을 빠르게 찾고 평가할 수 있습니다.
  • SageMaker 신경 주제 모델 – SageMaker Neural Topic Model(NTM)은 일련의 관찰을 개별 범주의 혼합으로 설명하려고 시도하는 비지도 학습 알고리즘입니다.
  • 운전 속도 위반 예측 – SageMaker DeepAR 알고리즘을 사용하여 여러 거리에 대한 모델을 동시에 교육하고 여러 거리 카메라의 위반을 예측할 수 있습니다.
  • 유방암 예측 – 이 노트북은 UCI의 유방암 진단 데이터 세트를 사용하여 유방 덩어리 이미지가 양성 또는 악성 종양을 나타내는지 예측 모델을 구축합니다.
  • 여러 모델의 앙상블 예측 – 여러 소스 및 모델의 예측을 결합하거나 평균화하면 일반적으로 향상된 예측을 얻을 수 있습니다. 이 노트북은 이러한 개념을 보여줍니다.
  • SageMaker 비동기식 추론 – 비동기 추론은 실시간에 가까운 추론 요구를 위한 새로운 추론 옵션입니다. 요청을 처리하는 데 최대 15분이 걸릴 수 있으며 페이로드 크기는 최대 1GB입니다.
  • TensorFlow는 자신만의 모델을 가져옵니다 – TensorFlow 모델을 로컬에서 교육하고 이 노트북을 사용하여 SageMaker에 배포하는 방법을 알아보세요.
  • Scikit-learn 가져오기 모델 – 이 노트북은 사전 훈련된 Scikit-learn 모델을 SageMaker Scikit-learn 컨테이너와 함께 사용하여 해당 모델에 대해 호스팅된 엔드포인트를 빠르게 생성하는 방법을 보여줍니다.

사전 조건

이러한 노트북을 사용하려면 SageMaker 기능을 실행할 수 있는 실행 역할로 Studio에 액세스할 수 있는지 확인하십시오. 아래의 짧은 비디오는 JumpStart 노트북으로 이동하는 데 도움이 됩니다.

다음 섹션에서는 10가지 새로운 솔루션을 각각 살펴보고 흥미로운 세부 정보에 대해 논의합니다.

AlexaTM 20B를 통한 상황에 맞는 학습

AlexaTM 20B는 노이즈 제거 및 CLM(Causal Language Modeling) 작업을 사용하여 2개 언어에 걸쳐 Common Crawl(mC4) 및 Wikipedia 데이터의 혼합에 대해 훈련된 멀티태스킹, 다국어, 대규모 시퀀스-투-시퀀스(seq12seq) 모델입니다. 3배 이상 큰 Open AI의 GPTXNUMX 및 Google의 PaLM과 같은 디코더 전용 모델을 능가하는 원샷 요약 및 원샷 기계 번역과 같은 일반적인 상황 내 언어 작업에서 최첨단 성능을 달성합니다.

상황에 맞는 학습이라고도 함 격려, 미세 조정하지 않고 새로운 작업에 NLP 모델을 사용하는 방법을 말합니다. 몇 가지 작업 예제는 추론 입력의 일부로만 모델에 제공됩니다. 상황에 맞는 학습. 경우에 따라 모델은 예측해야 하는 항목에 대한 설명만 있으면 학습 데이터 없이 잘 수행할 수 있습니다. 이것은 ... 불리운다 제로 샷 상황 내 학습.

이 노트북은 JumpStart API를 통해 AlexaTM 20B를 배포하고 추론을 실행하는 방법을 보여줍니다. 또한 텍스트 요약, 자연어 생성, 기계 번역, 추출적 질문 응답, 자연어 추론 및 분류와 같은 20가지 예제 작업을 통해 AlexaTM XNUMXB를 상황 내 학습에 사용할 수 있는 방법을 보여줍니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • 이러한 각 작업에 대해 단일 학습 예제를 사용한 원샷 텍스트 요약, 자연어 생성 및 기계 번역
  • 교육 예제를 제공할 필요 없이 모델을 있는 그대로 사용하여 제로 샷 질문 응답 및 자연어 추론과 분류.

이 모델에 대해 자신의 텍스트를 실행하고 텍스트를 요약하고 Q&A를 추출하거나 한 언어에서 다른 언어로 번역하는 방법을 확인하십시오.

SageMaker의 공정성 선형 학습기

최근 인간의 기존 편견을 모방한 결과로 ML 알고리즘의 편향에 대한 우려가 있었습니다. 오늘날 여러 ML 방법은 강력한 사회적 영향을 미칩니다. 예를 들어 은행 대출, 보험료 또는 광고를 예측하는 데 사용됩니다. 불행히도 과거 데이터에서 학습하는 알고리즘은 자연스럽게 과거의 편향을 물려받습니다. 이 노트북은 선형 학습자의 맥락에서 SageMaker 및 공정한 알고리즘을 사용하여 이 문제를 극복하는 방법을 제시합니다.

공정성의 일부 개념과 수학을 소개하는 것으로 시작한 다음, 데이터를 다운로드하고, 모델을 교육하고, 마지막으로 공정성 개념을 적용하여 모델 예측을 적절하게 조정합니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • UCI의 성인 데이터 세트에서 표준 선형 모델을 실행합니다.
  • 모델 예측의 불공정성 표시
  • 편향을 제거하기 위해 데이터 수정
  • 모델 재교육

이 예제 코드를 사용하여 자신의 데이터를 실행해보고 편향이 있는지 감지하십시오. 그런 다음 이 예제 노트북에서 제공된 함수를 사용하여 데이터 세트에서 편향이 있는 경우 이를 제거해 보십시오.

SageMaker Search를 사용하여 ML 실험 관리

SageMaker 검색을 사용하면 잠재적으로 수백, 수천 개의 SageMaker 모델 교육 작업에서 가장 관련성이 높은 모델 교육 실행을 빠르게 찾고 평가할 수 있습니다. ML 모델을 개발하려면 이러한 변화가 모델 성능과 정확도에 미치는 영향을 관찰하면서 지속적인 실험, 새로운 학습 알고리즘 시도, 하이퍼파라미터 조정이 필요합니다. 이 반복적인 연습은 종종 수백 건의 모델 교육 실험 및 모델 버전의 폭발로 이어져 성공적인 모델의 수렴 및 발견 속도를 늦춥니다. 또한 정보의 폭발적 증가로 인해 모델 버전의 계보(처음에 해당 모델을 생성한 데이터 세트, 알고리즘 및 매개 변수의 고유한 조합)를 역추적하기가 매우 어렵습니다.

이 노트북은 SageMaker Search를 사용하여 SageMaker에서 모델 교육 작업을 쉽고 빠르게 구성, 추적 및 평가하는 방법을 보여줍니다. 사용된 학습 알고리즘, 하이퍼파라미터 설정, 사용된 교육 데이터 세트 및 모델 교육 작업에 추가한 태그의 모든 정의 속성을 검색할 수 있습니다. 또한 교육 손실 및 유효성 검사 정확도와 같은 성능 메트릭을 기반으로 교육 실행을 빠르게 비교하고 순위를 매길 수 있으므로 프로덕션 환경에 배포할 수 있는 우승 모델을 식별하기 위한 순위표를 만들 수 있습니다. SageMaker Search는 모델 교육 및 검증에 사용된 데이터 세트까지 실제 환경에 배포된 모델 버전의 전체 계보를 신속하게 역추적할 수 있습니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • 선형 모델을 세 번 훈련
  • SageMaker Search를 사용하여 이러한 실험 구성 및 평가
  • 리더보드에서 결과 시각화
  • 엔드포인트에 모델 배포
  • 끝점에서 시작하는 모델의 계보 추적

자체적으로 예측 모델을 개발할 때 여러 실험을 실행할 수 있습니다. 이러한 실험에서 SageMaker Search를 사용해 보고 여러 가지 방법으로 어떻게 도움이 되는지 경험하십시오.

SageMaker 신경 주제 모델

SageMaker Neural Topic Model(NTM)은 일련의 관찰을 개별 범주의 혼합으로 설명하려고 시도하는 비지도 학습 알고리즘입니다. NTM은 텍스트 말뭉치 내에서 문서가 공유하는 사용자 지정 주제 수를 검색하는 데 가장 일반적으로 사용됩니다. 여기서 각 관찰은 문서이고 특징은 각 단어의 존재(또는 발생 횟수)이며 범주는 주제입니다. 이 방법은 감독되지 않기 때문에 항목이 미리 지정되지 않으며 사람이 자연스럽게 문서를 분류하는 방법과 일치한다고 보장되지 않습니다. 주제는 각 문서에 나오는 단어에 대한 확률 분포로 학습됩니다. 차례로 각 문서는 주제의 혼합으로 설명됩니다.

이 노트북은 SageMaker NTM 알고리즘을 사용하여 20NewsGroups 데이터 세트에서 모델을 교육합니다. 이 데이터 세트는 주제 모델링 벤치마크로 널리 사용되었습니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • NTM 모델을 생성하기 위해 데이터 세트에서 SageMaker 교육 작업 생성
  • 모델을 사용하여 SageMaker 엔드포인트로 추론 수행
  • 학습된 모델 탐색 및 학습된 주제 시각화

이 노트북을 쉽게 수정하여 텍스트 문서에서 실행하고 다양한 주제로 나눌 수 있습니다.

운전 속도 위반 예측

이 노트북은 시카고 시의 과속 단속 카메라 위반 데이터 세트를 분석하여 SageMaker DeepAR 알고리즘을 사용하여 시계열 예측을 시연합니다. 데이터 세트는 Data.gov에서 호스팅하고 US General Services Administration, Technology Transformation Service에서 관리합니다.

이러한 위반 사항은 카메라 시스템에 의해 캡처되며 시카고 데이터 포털을 통해 대중의 삶을 개선하는 데 사용할 수 있습니다. 과속 단속 카메라 위반 데이터 세트를 사용하여 데이터의 패턴을 식별하고 의미 있는 통찰력을 얻을 수 있습니다.

데이터 세트에는 여러 카메라 위치와 일일 위반 횟수가 포함되어 있습니다. 카메라에 대한 각 일일 위반 횟수는 별도의 시계열로 간주할 수 있습니다. SageMaker DeepAR 알고리즘을 사용하여 여러 거리에 대한 모델을 동시에 교육하고 여러 거리 카메라의 위반을 예측할 수 있습니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • 스팟 인스턴스를 사용하여 시계열 데이터 세트에서 SageMaker DeepAR 알고리즘 교육
  • 교통 위반 예측을 위해 훈련된 모델에 대한 추론

이 노트북을 사용하면 SageMaker의 DeepAR 알고리즘을 사용하여 시계열 문제를 해결하는 방법을 배우고 자신의 시계열 데이터 세트에 적용해 볼 수 있습니다.

유방암 예측

이 노트북은 UCI의 유방암 진단 데이터 세트를 사용하여 유방암 예측에 대한 예를 들었습니다. 이 데이터 세트를 사용하여 유방 덩어리 이미지가 양성 또는 악성 종양을 나타내는지 예측 모델을 구축합니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • SageMaker 사용을 위한 기본 설정
  • 데이터 세트를 SageMaker 알고리즘에서 사용하는 Protobuf 형식으로 변환하고 아마존 단순 스토리지 서비스 (아마존 S3)
  • 데이터 세트에서 SageMaker 선형 학습자 모델 교육
  • 훈련된 모델 호스팅
  • 훈련된 모델을 사용한 스코어링

이 노트북을 통해 SageMaker를 사용하여 비즈니스 문제를 해결하는 방법을 배우고 모델 교육 및 호스팅과 관련된 단계를 이해할 수 있습니다.

여러 모델의 앙상블 예측

예측 작업에 대한 ML의 실제 적용에서 하나의 모델로는 충분하지 않은 경우가 많습니다. 대부분의 예측 경쟁에서는 일반적으로 향상된 예측을 얻기 위해 여러 소스의 예측을 결합해야 합니다. 여러 소스 또는 모델의 예측을 결합하거나 평균화하여 일반적으로 향상된 예측을 얻습니다. 이것은 모델 선택에 상당한 불확실성이 있고 많은 실제 응용 프로그램에서 하나의 진정한 모델이 없기 때문에 발생합니다. 따라서 서로 다른 모델의 예측을 결합하는 것이 좋습니다. 베이지안 문헌에서는 이 아이디어를 베이지안 모델 평균화라고 하며 하나의 모델을 선택하는 것보다 훨씬 더 잘 작동하는 것으로 나타났습니다.

이 노트북은 교육, 업무 경험, 성별 등에 대한 정보를 기반으로 한 사람이 연간 $50,000 이상을 벌는지 예측하는 예시를 보여줍니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • SageMaker 노트북 준비
  • SageMaker를 사용하여 Amazon S3에서 데이터 세트 로드
  • SageMaker 알고리즘에 공급할 수 있도록 데이터 조사 및 변환
  • SageMaker XGBoost(Extreme Gradient Boosting) 알고리즘을 사용하여 모델 추정
  • 지속적인 예측을 위해 SageMaker에서 모델 호스팅
  • SageMaker 선형 학습자 방법을 사용하여 두 번째 모델 추정
  • 두 모델의 예측을 결합하고 결합된 예측 평가
  • 테스트 데이터 세트에 대한 최종 예측 생성

데이터세트에서 이 노트북을 실행하고 여러 알고리즘을 사용해 보세요. SageMaker 및 JumpStart에서 제공하는 다양한 모델 조합을 실험해보고 자신의 데이터에 대해 최상의 결과를 제공하는 모델 앙상블 조합을 확인하십시오.

SageMaker 비동기 추론

SageMaker 비동기 추론은 들어오는 요청을 대기열에 넣고 비동기식으로 처리하는 SageMaker의 새로운 기능입니다. SageMaker는 현재 고객이 ML 모델을 배포할 수 있도록 두 가지 추론 옵션, 즉 대기 시간이 짧은 워크로드를 위한 실시간 옵션과 미리 사용 가능한 데이터 배치에 대한 추론 요청을 처리하는 오프라인 옵션인 배치 변환을 제공합니다. 실시간 추론은 페이로드 크기가 6MB 미만인 워크로드에 적합하며 추론 요청을 60초 이내에 처리해야 합니다. 배치 변환은 데이터 배치에 대한 오프라인 추론에 적합합니다.

비동기 추론은 실시간에 가까운 추론 요구를 위한 새로운 추론 옵션입니다. 요청을 처리하는 데 최대 15분이 걸릴 수 있으며 페이로드 크기는 최대 1GB입니다. 비동기 추론은 5초 미만의 대기 시간 요구 사항이 없고 완화된 대기 시간 요구 사항이 있는 워크로드에 적합합니다. 예를 들어 XNUMX분 이내에 몇 MB의 큰 이미지에 대한 추론을 처리해야 할 수 있습니다. 또한 비동기 추론 엔드포인트를 사용하면 유휴 상태일 때 엔드포인트 인스턴스 수를 XNUMX으로 축소하여 비용을 제어할 수 있으므로 엔드포인트가 요청을 처리할 때만 비용을 지불하면 됩니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • SageMaker 모델 생성
  • 이 모델과 비동기 추론 구성을 사용하여 엔드포인트 생성
  • 이 비동기 엔드포인트에 대한 예측

이 노트북은 SageMaker 모델에 대한 비동기 엔드포인트를 구성하는 작업 예제를 보여줍니다.

TensorFlow는 자신만의 모델을 가져옵니다.

TensorFlow 모델은 이 노트북이 실행되는 분류 작업에 대해 로컬에서 학습됩니다. 그런 다음 SageMaker 엔드포인트에 배포됩니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함. Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • IRIS 데이터세트에서 로컬로 TensorFlow 모델 교육
  • 해당 모델을 SageMaker로 가져오기
  • 엔드포인트에서 호스팅

직접 개발한 TensorFlow 모델이 있는 경우 이 예제 노트북은 SageMaker 관리 엔드포인트에서 모델을 호스팅하는 데 도움이 될 수 있습니다.

Scikit-learn 가져오기 모델

SageMaker에는 호스팅된 노트북 환경, 분산형 서버리스 교육 및 실시간 호스팅을 지원하는 기능이 포함되어 있습니다. 이 세 가지 서비스를 모두 함께 사용할 때 가장 잘 작동하지만 독립적으로 사용할 수도 있습니다. 일부 사용 사례에는 호스팅만 필요할 수 있습니다. 모델이 SageMaker가 존재하기 전에 다른 서비스에서 훈련되었을 수 있습니다.

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.

노트북은 다음을 보여줍니다.

  • 사전 훈련된 Scikit-learn 모델을 SageMaker Scikit-learn 컨테이너와 함께 사용하여 해당 모델에 대해 호스팅된 엔드포인트를 신속하게 생성

직접 개발한 Scikit-learn 모델이 있는 경우 이 예제 노트북은 SageMaker 관리 엔드포인트에서 모델을 호스팅하는 데 도움이 될 수 있습니다.

자원 정리

JumpStart에서 노트북 실행을 완료한 후 다음을 확인하십시오. 모든 리소스 삭제 프로세스에서 생성한 모든 리소스가 삭제되고 청구가 중지됩니다. 이러한 노트북의 마지막 셀은 일반적으로 생성된 엔드포인트를 삭제합니다.

요약

이 게시물은 최근에 JumpStart에 추가된 10개의 새로운 예제 노트북을 안내했습니다. 이 게시물은 이러한 10개의 새로운 노트북에 초점을 맞추었지만 이 글을 쓰는 시점에서 총 56개의 노트북을 사용할 수 있습니다. Studio에 로그인하여 직접 JumpStart 노트북을 탐색하고 여기에서 즉각적인 가치 창출을 시작하는 것이 좋습니다. 자세한 내용은 다음을 참조하십시오. 아마존 세이지 메이커 스튜디오세이지메이커 점프스타트.


저자에 관하여

Amazon SageMaker JumpStart PlatoBlockchain 데이터 인텔리전스의 예시 노트북입니다. 수직 검색. 일체 포함.라주 펜마차 박사 AWS AI 플랫폼 분야의 AI/ML 전문가 솔루션 아키텍트입니다. 스탠포드 대학에서 박사 학위를 받았습니다. 그는 고객이 기계 학습 모델 및 솔루션을 쉽게 구축하고 배포할 수 있도록 지원하는 SageMaker의 로우/노코드 제품군 서비스에 대해 긴밀히 협력하고 있습니다.

타임 스탬프 :

더보기 AWS 기계 학습