Amazon SageMaker 파이프라인을 사용하여 컴퓨터 비전 피부 병변 분류기를 위한 솔루션 구축

플라톤에 의해 재발행

팔로워 : 0

Amazon SageMaker 파이프 라인 머신 러닝(ML) 사용 사례를 위해 설계된 지속적 통합 및 지속적 전달(CI/CD) 서비스입니다. 이를 사용하여 종단 간 ML 워크플로를 생성, 자동화 및 관리할 수 있습니다. 시간, 노력 및 리소스가 필요한 ML 프로세스의 각 단계를 조정하는 문제를 해결합니다. 사용을 용이하게 하기 위해 필요에 따라 사용자 정의할 수 있는 여러 템플릿을 사용할 수 있습니다.

완전 관리형 이미지 및 비디오 분석 서비스도 컴퓨터 비전 솔루션의 채택을 가속화했습니다. AWS는 사전 교육 및 완전 관리형 AWS AI 서비스를 제공합니다. 아마존 인식 API 호출을 사용하여 컴퓨터 비전 애플리케이션에 통합할 수 있으며 ML 경험이 필요하지 않습니다. 이미지를 제공하기만 하면 됩니다. Amazon Rekognition API 미리 정의된 레이블에 따라 필요한 객체를 식별할 수 있습니다. 사용 사례에 맞는 맞춤형 레이블을 제공하고 ML 전문 지식에 대한 오버헤드가 거의 또는 전혀 필요 없이 맞춤형 컴퓨터 비전 모델을 구축하는 것도 가능합니다.

이 게시물에서는 특정 컴퓨터 비전 문제인 피부 병변 분류를 다루고 기존 템플릿을 사용자 지정하고 이 작업에 맞게 조정하여 파이프라인을 사용합니다. 정확한 피부 병변 분류는 암 질환의 조기 진단에 도움이 될 수 있습니다. 그러나 피부 병변의 종류에 따라 유사도가 높기 때문에 의료계에서는 어려운 과제입니다. 파이프라인을 통해 우리는 다양한 기존 모델과 알고리즘을 활용하고 최소한의 노력과 시간으로 종단 간 생산 파이프라인을 구축할 수 있습니다.

솔루션 개요

이 게시물에서는 파이프라인을 사용하여 일반적인 색소 침착 피부 병변의 피부경 이미지를 분류하는 종단 간 파이프라인을 구축합니다. 우리는 사용 아마존 세이지 메이커 스튜디오 프로젝트 템플릿 모델 구축, 교육 및 배포를위한 MLOps 템플릿 그리고 다음의 코드 GitHub 저장소. 결과 아키텍처는 다음 그림에 나와 있습니다.

이 파이프라인의 경우 10000개의 피부경 이미지로 구성된 HAM10000("Human Against Machine with 10,015 training images") 데이터 세트를 사용합니다. 당면한 작업은 컴퓨터 비전 분야에서 다중 클래스 분류입니다. 이 데이터 세트는 색소 병변의 영역에서 가장 중요한 진단 범주 중 XNUMX가지를 설명합니다: 광선각화증 및 상피내 암종 또는 보웬병(akiec), 기저 세포 암 (bcc), 양성 각화증 유사 병변(일광 흑색점 또는 지루성 각화증 및 편평 태선 유사 각화증, bkl), 피부 섬유종(df), 흑색종(mel), 멜라닌 세포 모반(nv) 및 혈관 병변(혈관종, 혈관각화종, 화농성 육아종 및 출혈, vasc).

모델 입력 형식의 경우 다음을 사용합니다. RecordIO 체재. 이것은 연속 읽기를 위해 이미지 데이터를 함께 저장하므로 더 빠르고 효율적인 훈련을 위한 컴팩트 형식입니다. 또한 HAM10000 데이터 세트를 사용하는 데 따른 문제 중 하나는 클래스 불균형입니다. 다음 표는 클래스 분포를 보여줍니다.

클래스	아키엑	숨은 참조	bkl	df	멜	nv	바스크
이미지 수	327	514	1099	115	1113	6705	142
금액	10015

이 문제를 해결하기 위해 무작위 변환(예: 자르기, 뒤집기, 미러링 및 회전)을 사용하여 모든 클래스가 거의 동일한 수의 이미지를 갖도록 데이터 세트를 보강합니다.

이 전처리 단계는 MXNet 및 OpenCV를 사용하므로 사전 빌드된 MXNet 컨테이너 이미지를 사용합니다. 나머지 종속성은 다음을 사용하여 설치됩니다. requirements.txt 파일. 사용자 지정 이미지를 생성하여 사용하려면 다음을 참조하세요. 이미지 구축 CI/CD 파이프라인으로 Amazon SageMaker 프로젝트 생성.

교육 단계의 경우 이미지 분류를 위해 SageMaker 내장 Scikit Docker 이미지에서 사용할 수 있는 추정기를 사용하고 다음과 같이 매개변수를 설정합니다.

hyperparameters = {
        "num_layers": 18,
        "use_pretrained_model": 1,
        "augmentation_type": 'crop_color_transform',
        "image_shape": '3,224,224', 
        "num_classes": 7,
        "num_training_samples": 29311, 
        "mini_batch_size": 8,
        "epochs": 5, 
        "learning_rate": 0.00001,
        "precision_dtype": 'float32'
    }

    estimator_config = {
        "hyperparameters": hyperparameters,
        "image_uri": training_image,
        "role": role,
        "instance_count": 1,
        "instance_type": "ml.p3.2xlarge",
        "volume_size": 100,
        "max_run": 360000,
        "output_path": "s3://{bucket}/{base_job_prefix}/training_jobs",
    }
    
    image_classifier = sagemaker.estimator.Estimator(**estimator_config)

컨테이너 이미지에 대한 자세한 내용은 이미지 분류 알고리즘.

스튜디오 프로젝트 만들기

Studio 설정 방법에 대한 자세한 지침은 빠른 설정을 사용하여 Amazon SageMaker 도메인에 온보딩. 프로젝트를 생성하려면 다음 단계를 완료하십시오.

Studio에서 다음을 선택합니다. 프로젝트 메뉴에 SageMaker 리소스 메뉴를 선택합니다.

프로젝트 페이지에서 사전 구성된 SageMaker MLOps 템플릿을 실행할 수 있습니다.
왼쪽 메뉴에서 모델 구축, 교육 및 배포를위한 MLOps 템플릿.
왼쪽 메뉴에서 프로젝트 템플릿 선택.
프로젝트 이름과 간단한 설명을 입력합니다.
왼쪽 메뉴에서 프로젝트 만들기.

프로젝트를 만드는 데 몇 분 정도 걸립니다.

데이터세트 준비

데이터세트를 준비하려면 다음 단계를 완료하세요.

We Buy Orders 신청서를 클릭하세요. 하버드 데이터버스.
왼쪽 메뉴에서 데이터 세트 액세스, Creative Commons Attribution-NonCommercial 4.0 International Public License 라이선스를 검토하십시오.
라이센스에 동의하면 다음을 선택하십시오. 원본 형식 Zip ZIP 파일을 다운로드합니다.
를 생성 아마존 단순 스토리지 서비스 (Amazon S3) 버킷을 선택하고 다음으로 시작하는 이름을 선택합니다. sagemaker (이렇게 하면 SageMaker가 추가 권한 없이 버킷에 액세스할 수 있습니다).
보안 모범 사례를 위해 액세스 로깅 및 암호화를 활성화할 수 있습니다.
가이드라가 dataverse_files.zip 양동이에.
나중에 사용할 수 있도록 S3 버킷 경로를 저장합니다.
데이터를 저장한 버킷의 이름과 나중에 사용할 수 있도록 후속 폴더의 이름을 기록해 두십시오.

데이터 전처리 준비

전처리 단계에서 MXNet 및 OpenCV를 사용하기 때문에 사전 빌드된 MXNet Docker 이미지를 사용하고 다음을 사용하여 나머지 종속성을 설치합니다. requirements.txt 파일. 이렇게하려면 복사하여 아래에 붙여 넣어야합니다. pipelines/skin FBI 증오 범죄 보고서 sagemaker--modelbuild 저장소. 또한, 추가 MANIFEST.in 같은 수준의 파일 setup.py, Python에 포함하도록 지시 requirements.txt 파일. 에 대한 자세한 내용은 매니페스트.in, 인용하다 MANIFEST.in을 사용하여 소스 배포에 파일 포함. 두 파일 모두 다음에서 찾을 수 있습니다. GitHub 저장소.

파이프라인 템플릿 변경

파이프라인 템플릿을 업데이트하려면 다음 단계를 완료하십시오.

기본 버킷 내에 폴더를 생성합니다.
Studio 실행 역할에 기본 버킷과 데이터세트가 포함된 버킷에 대한 액세스 권한이 있는지 확인합니다.
프로젝트 목록에서 방금 생성한 프로젝트를 선택합니다.
에 저장소 탭에서 로컬로 복제할 하이퍼링크를 선택합니다. AWS 코드 커밋 로컬 Studio 인스턴스에 대한 리포지토리.
로 이동 pipelines 내부 디렉토리 sagemaker--modelbuild 디렉토리 이름을 바꾸고 abalone ~에 디렉토리 skin.
열기 codebuild-buildspec.yml 에 파일을 sagemaker--modelbuild 디렉토리에서 실행 파이프라인 경로를 수정합니다. run-pipeline —module-name pipelines.abalone.pipeline (15행) 다음으로:
```
run-pipeline --module-name pipelines.skin.pipeline 
```
파일을 저장합니다.
파일 교체 pipelines.py, preprocess.py, 및 evaluate.py 의 파일이 있는 파이프라인 디렉터리에 GitHub 저장소.
업데이트 preprocess.py 파일(183-186행)을 S3 위치(SKIN_CANCER_BUCKET) 및 폴더 이름(SKIN_CANCER_BUCKET_PATH) 업로드한 위치 dataverse_files.zip 보관소:
1. skin_cancer_bucket=””
2. skin_cancer_bucket_path=””
3. skin_cancer_files=””
4. skin_cancer_files_ext=””

앞의 예에서 데이터세트는 다음 위치에 저장됩니다. s3://monai-bucket-skin-cancer/skin_cancer_bucket_prefix/dataverse_files.zip.

파이프라인 실행 트리거

커밋된 변경 사항을 CodeCommit 리포지토리에 푸시하면(Studio 소스 제어 탭에서 수행) 새 파이프라인 실행이 트리거됩니다. 아마존 이벤트 브리지 커밋에 대한 이벤트 모니터. SageMaker 프로젝트 내에서 파이프라인을 선택하여 실행을 모니터링할 수 있습니다. 다음 스크린샷은 성공적으로 실행된 파이프라인의 예를 보여줍니다.

변경 사항을 커밋하려면 왼쪽 창에서 Git 섹션으로 이동합니다.
모든 관련 변경을 준비합니다. 당신은 추적 할 필요가 없습니다 -checkpoint 파일. 항목을 추가할 수 있습니다. .gitignore ~와 함께 파일 *checkpoint.* 그들을 무시합니다.
요약, 이름 및 이메일 주소를 제공하여 변경 사항을 커밋합니다.
변경 사항을 푸시합니다.
프로젝트로 돌아가서 선택하십시오. 파이프 라인 안내
진행 중인 파이프라인을 선택하면 파이프라인의 단계가 나타납니다.
이를 통해 현재 실행 중인 단계를 모니터링할 수 있습니다. 파이프라인이 표시되는 데 몇 분 정도 걸릴 수 있습니다. 파이프라인 실행을 시작하려면 CI/CD에 정의된 단계 codebuild-buildspec.yml 성공적으로 실행해야 합니다. 이 단계의 상태를 확인하려면 다음을 사용할 수 있습니다. AWS 코드빌드. 자세한 내용은 다음을 참조하십시오. AWS CodeBuild(AMS SSPS).
파이프라인이 완료되면 프로젝트 페이지로 돌아가서 모델 그룹 탭을 클릭하여 모델 아티팩트에 연결된 메타데이터를 검사합니다.
모든 것이 좋아 보이면 선택하십시오. 상태 업데이트 탭하고 수동으로 모델을 승인합니다.기본값 ModelApprovalStatus 가 PendingManualApproval. 모델의 정확도가 60 % 이상이면 모델 레지스트리에 추가되지만 수동 승인이 완료 될 때까지 배포되지 않습니다.
로 이동 종점 SageMaker 콘솔의 페이지에서 스테이징 엔드포인트가 생성되는 것을 볼 수 있습니다. 몇 분 후 엔드포인트가 다음과 함께 나열됩니다. InService 상태.
엔드포인트를 프로덕션에 배포하려면 CodePipeline 콘솔, 선택 sagemaker--modeldeploy 현재 진행중인 파이프라인.
의 끝에서 DeployStaging 단계에서 배포를 수동으로 승인해야 합니다.

이 단계가 끝나면 SageMaker에 배포되는 프로덕션 엔드포인트를 볼 수 있습니다. 종점 페이지. 잠시 후 끝점은 다음과 같이 표시됩니다. InService.

정리

SageMaker 프로젝트에서 생성된 모든 리소스를 쉽게 정리할 수 있습니다.

Studio의 탐색 창에서 다음을 선택합니다. SageMaker 리소스.
왼쪽 메뉴에서 프로젝트 드롭다운 메뉴에서 프로젝트를 선택합니다.
에 행위 메뉴, 선택 . 모든 관련 리소스를 삭제합니다.

결과 및 다음 단계

파이프라인을 사용하여 HAM10000 데이터 세트의 기본 제공 모델을 사용하여 피부 병변 분류를 위한 종단 간 MLOps 프레임워크를 성공적으로 생성했습니다. 리포지토리에 제공된 매개변수에 대해 테스트 세트에서 다음과 같은 결과를 얻었습니다.

메트릭	Precision	소환	F1 점수
가치관	0.643	0.8	0.713

하이퍼파라미터를 미세 조정하거나, 데이터 증대를 위해 더 많은 변환을 추가하거나, SMOTE(Synthetic Minority Oversampling Technique) 또는 GAN(Generative Adversarial Networks)과 같은 다른 방법을 사용하여 모델의 성능을 개선하는 데 추가 작업을 할 수 있습니다. 또한 내장된 SageMaker Docker 이미지를 사용하거나 자체 컨테이너를 SageMaker에서 작동하도록 조정하여 교육을 위해 자체 모델 또는 알고리즘을 사용할 수 있습니다. 자세한 내용은 SageMaker에서 Docker 컨테이너 사용.

파이프라인에 기능을 추가할 수도 있습니다. 모니터링을 포함하려면 다음을 선택할 수 있습니다. 모델 구축, 교육, 배포 및 모니터링을 위한 MLOps 템플릿 SageMaker 프로젝트를 생성할 때 템플릿. 결과 아키텍처에는 추가 모니터링 단계가 있습니다. 또는 기존 타사 Git 리포지토리가 있는 경우 선택하여 사용할 수 있습니다. Jenkins를 사용하는 타사 Git 리포지토리로 모델 구축, 교육 및 배포를 위한 MLOps 템플릿 프로젝트를 수행하고 모델 구축 및 모델 배포 저장소에 대한 정보를 제공합니다. 이를 통해 기존 코드를 활용할 수 있으며 SageMaker와 Git 간의 통합에 드는 시간이나 노력을 절약할 수 있습니다. 그러나 이 옵션의 경우 AWS 코드스타 연결이 필요합니다.

결론

이 게시물에서는 Studio 및 자동화된 파이프라인을 사용하여 종단 간 ML 워크플로를 만드는 방법을 보여주었습니다. 워크플로에는 데이터 세트 가져오기, ML 모델에 액세스할 수 있는 위치에 저장, 사전 처리를 위해 컨테이너 이미지 구성, 그런 다음 이러한 이미지를 수용하도록 상용구 코드 수정이 포함됩니다. 그런 다음 파이프라인을 트리거하는 방법, 파이프라인이 따르는 단계 및 작동 방식을 보여주었습니다. 또한 모델 성능을 모니터링하고 모델을 엔드포인트에 배포하는 방법에 대해서도 논의했습니다.

우리는 이러한 작업의 대부분을 모든 것을 포괄하는 ML IDE로 작동하고 이러한 모델의 개발 및 배포를 가속화하는 Studio 내에서 수행했습니다.

이 솔루션은 피부 분류 작업에 국한되지 않습니다. SageMaker 내장 알고리즘 또는 사전 훈련된 모델을 사용하여 분류 또는 회귀 작업으로 확장할 수 있습니다.

저자 소개

마리엠 크티리 AWS Professional Services Globals의 AI/ML 컨설턴트이며 HCLS(Health Care and Life Science) 팀의 일원입니다. 그녀는 다양한 문제에 대한 ML 솔루션 구축에 열정적이며 항상 새로운 기회와 이니셔티브에 뛰어들기를 열망합니다. 그녀는 독일 뮌헨에 살고 있으며 여행과 세계의 다른 지역 발견에 열심입니다.

야신 자푸리 AWS Professional Services의 AI/ML 컨설턴트입니다. 그는 글로벌 기업 고객이 클라우드에서 AI/ML 솔루션을 구축 및 배포하여 비즈니스 과제를 극복할 수 있도록 지원합니다. 여가 시간에는 스포츠 경기를 관람하고 전 세계를 여행하는 것을 즐깁니다.

포티노스 키리아키데스 AWS의 Professional Services 소속 AI/ML 엔지니어입니다. 그는 기술을 사용하여 고객에게 가치를 제공하고 비즈니스 성과를 달성하는 데 열정적입니다. 런던에 기반을 두고 있으며 여가 시간에는 달리기와 탐험을 즐깁니다.

안나 자파이치코바 AI/ML의 ProServe 컨설턴트이자 Amazon Healthcare TFC의 회원이었습니다. 그녀는 기술과 기술이 의료에 미칠 수 있는 영향에 대해 열정적입니다. 그녀의 배경은 보험, 자동차 및 의료와 같은 다양한 영역에서 고객 문제에 대한 MLOps 및 AI 기반 솔루션을 구축하는 데 있습니다.