Amazon SageMaker 파이프라인으로 혁신 패키징 혁신에서 ML 파이프라인의 안정성 및 유연성 개선

플라톤에 의해 재발행

팔로워 : 0

고객을 기쁘게 하고 포장 폐기물을 최소화하기 위해 Amazon은 매년 배송되는 수십억 개의 패키지에 대해 최적의 포장 유형을 선택해야 합니다. 커피 머그와 같이 깨지기 쉬운 품목에 너무 작은 보호 장치를 사용하는 경우 품목이 손상된 상태로 도착하고 아마존은 고객의 신뢰를 위험에 빠뜨립니다. 보호 장치를 너무 많이 사용하면 비용이 증가하고 재활용 쓰레기통이 가득 차게 됩니다. 수억 개의 제품을 사용할 수 있으므로 제품 테스트 및 고객 피드백을 통해 지속적으로 학습하려면 확장 가능한 의사 결정 메커니즘이 필요합니다.

이러한 문제를 해결하기 위해 Amazon Packaging Innovation 팀은 제품이 우편물, 가방 또는 상자와 같은 Amazon 포장 유형에 적합한지 또는 추가 포장 없이 배송될 수 있는지 여부를 분류하는 기계 학습(ML) 모델을 개발했습니다. 이전에 팀은 다음을 기반으로 사용자 지정 파이프라인을 개발했습니다. AWS 단계 함수 주간 교육 및 일일 또는 월간 추론 작업을 수행합니다. 그러나 시간이 지남에 따라 파이프라인은 새로운 아키텍처로 모델을 출시하기에 충분한 유연성을 제공하지 못했습니다. 새로운 파이프라인을 위한 개발은 데이터 과학자와 개발자 간의 오버헤드와 필요한 조정을 제시했습니다. 이러한 어려움을 극복하고 새로운 모델 및 아키텍처 배포 속도를 개선하기 위해 팀은 Amazon SageMaker 파이프 라인.

이 게시물에서는 Step Functions를 기반으로 하는 이전 오케스트레이션 아키텍처에 대해 논의하고, 파이프라인을 사용한 교육 및 추론 아키텍처를 간략하게 설명하고, Amazon Packaging Innovation 팀이 달성한 유연성을 강조합니다.

Amazon Packaging Innovation의 이전 ML 파이프라인의 과제

패키지 성능에 대한 지속적인 피드백을 통합하기 위해 점점 더 많은 레이블을 사용하여 매주 새 모델을 학습합니다. 제품의 전체 재고에 대한 추론은 매월 수행되며 매일 추론을 수행하여 새로 추가된 인벤토리에 대한 적시 예측을 제공합니다.

여러 모델을 교육하는 프로세스를 자동화하고 예측을 제공하기 위해 팀은 다음 단계를 조정하는 Step Functions를 기반으로 하는 사용자 지정 파이프라인을 개발했습니다.

훈련 및 추론 작업을 위한 데이터 준비 및 데이터베이스에 예측 로드(아마존 레드 시프트)와 AWS 접착제.
모델 훈련 및 추론 아마존 세이지 메이커.
다음을 사용하여 검증 세트에 대한 모델 성능 메트릭 계산 AWS 배치.
사용 아마존 DynamoDB 모델 구성(예: 훈련 및 검증을 위한 데이터 분할 비율, 모델 아티팩트 위치, 모델 유형, 훈련 및 추론을 위한 인스턴스 수), 모델 성능 메트릭 및 성공적으로 훈련된 최신 모델 버전을 저장합니다.
모델 성능 점수의 차이 계산, 훈련 레이블 분포의 변화, 이전 모델 버전과 새 모델 버전 간의 입력 데이터 크기 비교 AWS 람다 기능.
많은 단계를 감안할 때 파이프라인에는 각 단계에서 이해 관계자에게 모든 문제를 경고할 수 있는 안정적인 경보 시스템이 필요했습니다. 이것은 다음의 조합을 통해 달성되었습니다. 아마존 단순 대기열 서비스 (Amazon SQS) 및 아마존 단순 알림 서비스 (아마존 SNS). 비즈니스 이해 관계자, 데이터 과학자 및 개발자에게 실패한 단계와 모델 및 데이터 메트릭의 큰 편차에 대해 알리기 위해 경보가 생성되었습니다.

이 솔루션을 거의 2년 동안 사용한 후 팀은 이 구현이 검증 데이터 세트에서 단일 모델을 훈련하고 점수를 매기는 일반적인 ML 워크플로에서만 잘 작동한다는 것을 깨달았습니다. 그러나 솔루션은 복잡한 모델에 대해 충분히 유연하지 않았고 실패에 대한 탄력성이 없었습니다. 예를 들어 아키텍처는 순차 모델 교육을 쉽게 수용하지 못했습니다. 전체 파이프라인을 복제하고 인프라를 수정하지 않고 단계를 추가하거나 제거하기가 어려웠습니다. 데이터 분할 비율을 조정하거나 다른 기능 세트를 선택하는 것과 같은 데이터 처리 단계의 간단한 변경에도 데이터 과학자와 개발자 모두의 조정이 필요했습니다. 어떤 단계에서든 파이프라인이 실패하면 처음부터 다시 시작해야 했고, 그 결과 반복 실행과 비용 증가가 발생했습니다. 반복되는 실행을 피하고 실패한 단계에서 다시 시작해야 하는 것을 피하기 위해 팀은 요약된 상태 시스템의 새 복사본을 만듭니다. 이 문제 해결은 일반적으로 실패하는 단계에서 시작하는 상태 시스템의 확산으로 이어졌습니다. 마지막으로 훈련 작업에서 레이블, 모델 점수 또는 레이블 수의 분포에서 편차가 발생하는 경우 데이터 과학자는 모델과 해당 메트릭을 수동으로 검토해야 했습니다. 그런 다음 데이터 과학자는 모델 버전이 있는 DynamoDB 테이블에 액세스하고 테이블을 업데이트하여 다음 추론 작업에 올바른 모델이 사용되었는지 확인합니다.

이 아키텍처를 유지하려면 최소한 하나의 전용 리소스와 개발을 위한 추가 풀타임 리소스가 필요했습니다. 새로운 사용 사례를 수용하기 위해 파이프라인을 확장하는 것이 어렵다는 점을 감안할 때, 데이터 과학자들은 자체 워크플로를 개발하기 시작했고, 이는 차례로 코드 기반, 유사한 데이터 체계를 가진 여러 데이터 테이블 및 분산된 모델 모니터링으로 이어졌습니다. 이러한 문제가 누적되면서 팀 생산성이 저하되고 오버헤드가 증가했습니다.

이러한 문제를 해결하기 위해 Amazon Packaging Innovation 팀은 SageMaker Pipelines(2020년 XNUMX월 출시 발표). 파이프라인은 종단 간 ML 워크플로를 구축, 관리, 자동화 및 확장하기 위한 SageMaker의 기능입니다. 파이프라인을 사용하면 전체 ML 워크플로에서 단계 수를 줄일 수 있으며 데이터 과학자가 사용자 지정 ML 워크플로를 정의할 수 있을 만큼 충분히 유연합니다. 단계 모니터링 및 로깅을 처리합니다. 또한 자동으로 새 모델의 버전을 지정하는 모델 레지스트리와 함께 제공됩니다. 모델 레지스트리에는 프로덕션에서 추론할 모델을 선택하기 위한 승인 워크플로가 내장되어 있습니다. 파이프라인은 또한 동일한 인수로 호출되는 캐싱 단계를 허용합니다. 이전 실행이 발견되면 성공적으로 완료된 단계를 다시 계산하는 대신 쉽게 다시 시작할 수 있는 캐시가 생성됩니다.

평가 프로세스에서 Pipelines는 현재 및 미래의 워크플로를 지원하고 확장하기 위한 기능의 유연성과 가용성으로 인해 다른 솔루션과 차별화되었습니다. 파이프라인으로 전환함으로써 개발자는 플랫폼 유지 관리 및 문제 해결에서 시간을 절약할 수 있었고 새로운 기능 추가에 주의를 기울였습니다. 이 게시물에서는 파이프라인을 사용하는 Amazon Packaging Innovation 팀의 교육 및 추론 워크플로 설계를 제시합니다. 또한 파이프라인으로 전환하여 팀이 실현한 이점과 비용 절감에 대해서도 논의합니다.

교육 파이프라인

Amazon Packaging Innovation 팀은 점점 더 많은 레이블을 사용하여 모든 패키지 유형에 대한 모델을 교육합니다. 다음 다이어그램은 전체 프로세스를 간략하게 보여줍니다.

워크플로는 Amazon Redshift 데이터베이스에서 레이블과 기능을 추출하고 데이터를 언로드하는 것으로 시작됩니다. 아마존 단순 스토리지 서비스 (Amazon S3) 예약된 추출, 변환 및 로드(ETL) 작업을 통해. 입력 데이터와 함께 모델 유형 및 매개변수가 있는 파일 객체가 S3 버킷에 배치됩니다. 이 파일은 Lambda 함수를 통해 파이프라인 트리거 역할을 합니다.

다음 단계는 SageMaker Python SDK for Pipelines를 사용하여 데이터 과학자가 완전히 사용자 정의하고 완전히 정의합니다. 이 게시물에서 제시하는 시나리오에서 입력 데이터는 교육 및 검증 세트로 분할되고 SageMaker Processing 작업을 시작하여 S3 버킷에 다시 저장됩니다.

Amazon S3에서 데이터가 준비되면 SageMaker 교육 작업이 시작됩니다. 모델이 성공적으로 훈련되고 생성된 후 SageMaker 배치 변환 작업을 통해 검증 데이터에 대해 모델 평가 단계가 수행됩니다. 그런 다음 SageMaker Processing 작업을 사용하여 모델 메트릭을 이전 주의 모델 메트릭과 비교합니다. 팀은 모델 성능의 편차를 평가하기 위해 여러 사용자 지정 기준을 정의했습니다. 모델은 이러한 기준에 따라 거부되거나 승인됩니다. 모델이 거부되면 이전에 승인된 모델이 다음 추론 작업에 사용됩니다. 모델이 승인되면 해당 버전이 등록되고 해당 모델이 추론 작업에 사용됩니다. 이해 관계자는 다음을 통해 결과에 대한 알림을 받습니다. 아마존 클라우드 워치 경보.

다음 스크린샷 아마존 세이지 메이커 스튜디오 훈련 파이프라인의 단계를 보여줍니다.

파이프라인은 Studio에서 모니터링할 수 있는 각 파이프라인 실행을 추적합니다. 또는 다음을 사용하여 실행 진행률을 쿼리할 수 있습니다. 보토3 또는 AWS 명령 줄 인터페이스 (AWS CLI). Studio에서 모델 메트릭을 시각화하고 다른 모델 버전을 비교할 수 있습니다.

추론 파이프라인

Amazon Packaging Innovation 팀은 매달 전체 제품 재고에 대한 예측을 새로 고칩니다. 최신 학습 모델을 사용하여 새로 추가된 인벤토리에 대한 적시 패키징 권장 사항을 제공하기 위해 일일 예측이 생성됩니다. 이를 위해서는 다양한 데이터 볼륨으로 매일 실행되는 추론 파이프라인이 필요합니다. 다음 다이어그램은 이 워크플로를 보여줍니다.

훈련 파이프라인과 마찬가지로 추론은 Amazon Redshift에서 S3 버킷으로 데이터를 언로드하는 것으로 시작됩니다. Amazon S3에 배치된 파일 객체는 추론 파이프라인을 시작하는 Lambda 함수를 트리거합니다. 기능은 추론을 위해 준비되고 데이터는 SageMaker Processing 작업을 사용하여 적절한 크기의 파일로 분할됩니다. 다음으로 파이프라인은 예측을 실행하고 S3 버킷에 로드하기 위해 승인된 최신 모델을 식별합니다. 마지막으로 예측은 SageMaker Processing 작업 내에서 boto3-data API를 사용하여 Amazon Redshift로 다시 로드됩니다.

Studio의 다음 스크린샷은 추론 파이프라인 세부 정보를 보여줍니다.

SageMaker Pipelines를 사용하여 ML 워크플로를 설계할 때의 이점

이 섹션에서는 Amazon Packaging Innovation 팀이 모델 교육 및 추론을 위해 파이프라인으로 전환하여 실현한 이점에 대해 논의합니다.

즉시 사용 가능한 프로덕션 수준 MLOps 기능

차세대 ML 파이프라인 솔루션에 대해 서로 다른 내부 및 외부 솔루션을 비교하는 동안 단일 데이터 과학자는 3주 이내에 Studio Jupyter 환경에서 Pipelines를 사용하여 ML 워크플로의 전체 버전을 프로토타입하고 개발할 수 있었습니다. 프로토타입 단계에서도 파이프라인이 모델 버전 관리, 캐싱 및 경보와 같은 프로덕션 수준 워크플로에 필요한 모든 필수 인프라 구성 요소를 제공한다는 것이 분명해졌습니다. 이러한 기능을 즉시 사용할 수 있으므로 해당 기능을 개발하고 사용자 지정하는 데 추가 시간을 할애할 필요가 없습니다. 이것은 Amazon Packaging Innovation 팀에게 Pipelines가 올바른 솔루션이라는 확신을 심어준 가치의 분명한 시연이었습니다.

ML 모델 개발의 유연성

팀의 데이터 과학자에게 가장 큰 이점은 쉽게 실험하고 다양한 모델을 반복할 수 있는 능력이었습니다. ML 작업에 선호하는 프레임워크와 관련된 단계 및 기능의 수에 관계없이 Pipelines는 그들의 요구를 수용했습니다. 데이터 과학자들은 추가 기능이나 단계를 추가하기 위해 소프트웨어 개발 스프린트를 시작할 때까지 기다릴 필요 없이 실험할 수 있는 권한이 부여되었습니다.

비용 절감

SageMaker의 파이프라인 기능은 비어 있는: 교육 및 추론과 관련된 컴퓨팅 리소스 및 스토리지에 대해서만 비용을 지불합니다. 그러나 비용을 생각할 때 사용하는 서비스 비용뿐만 아니라 워크플로를 유지 관리하고 디버그하고 패치하는 데 필요한 개발자 시간도 고려해야 합니다. 파이프라인으로 오케스트레이션하는 것은 더 적은 수의 부품과 친숙한 인프라로 구성되어 있기 때문에 더 간단합니다. 이전에는 새로운 기능을 추가하기 위해 Amazon Packaging Innovation 팀에서 최소 XNUMX명(데이터 과학자 및 소프트웨어 엔지니어)이 필요했습니다. 재설계된 파이프라인을 통해 엔지니어링 노력은 이제 기계 학습 코드 추적을 위한 단일 리포지토리 생성, AWS 계정 전반에 걸친 모델 배포 단순화, 통합 ETL 작업 및 일반 재사용 가능한 기능.

팀이 전체 파이프라인을 다시 실행할 가능성이 적었기 때문에 유사한 입력으로 단계를 캐시하는 기능도 비용 절감에 기여했습니다. 대신 실패 지점에서 쉽게 시작할 수 있습니다.

결론

Amazon Packaging Innovation 팀은 매월 ML 모델을 교육하고 권장 제품 포장 유형에 대한 예측을 정기적으로 업데이트합니다. 이러한 권장 사항은 낭비를 줄이고 주문할 때마다 고객을 만족시켜 여러 팀 및 회사 차원의 목표를 달성하는 데 도움이 되었습니다. 훈련 및 추론 파이프라인은 정기적으로 안정적으로 실행되지만 모델의 지속적인 개선을 허용해야 합니다.

파이프라인으로의 전환을 통해 팀은 2개의 새로운 다중 모드 모델 아키텍처를 5개월 이내에 프로덕션에 배포할 수 있었습니다. 이전 아키텍처를 사용하여 새 모델을 배포하려면 1일(동일한 모델 아키텍처의 경우)에서 4개월(새 모델 아키텍처의 경우)이 필요했습니다. Pipelines를 사용하여 동일한 모델을 배포함으로써 팀은 개발 시간을 동일한 모델 아키텍처로 5시간, 새로운 모델 아키텍처로 80일로 단축할 수 있었습니다. 이는 근무 시간의 거의 XNUMX%를 절약한 것으로 평가됩니다.

추가 리소스

자세한 내용은 다음 리소스를 참조하십시오.

저자에 관하여

안쿠르 슈클라 팔로 알토에 기반을 둔 AWS-ProServe의 수석 데이터 과학자입니다. Ankur는 15년 이상의 컨설팅 경험을 보유하고 있으며 고객과 직접 협력하여 기술로 비즈니스 문제를 해결하도록 돕습니다. 그는 AWS 내에서 여러 글로벌 응용 과학 및 ML-Ops 이니셔티브를 이끌고 있습니다. 여가 시간에는 책을 읽고 가족과 함께 시간을 보내는 것을 즐깁니다.

아카시 싱라 Amazon Packaging Innovation 팀의 선임 시스템 개발 엔지니어입니다. 그는 여러 비즈니스 분야의 기술을 통해 중요한 비즈니스 문제를 해결한 17년 이상의 경험을 가지고 있습니다. 그는 현재 더 나은 확장을 위해 다양한 패키징 중심 애플리케이션에 대한 NAWS 인프라를 업그레이드하는 데 중점을 두고 있습니다.

비탈리나 코마시코 AWS Professional Services의 데이터 과학자입니다. 그녀는 약리학 및 독성학 박사 학위를 보유하고 있지만 "데이터 생성 및 결과 해석을 소유하기"를 원했기 때문에 실험 작업에서 데이터 과학으로 전환했습니다. 경력 초기에 그녀는 생명 공학 및 제약 회사에서 일했습니다. AWS에서 그녀는 다양한 산업 분야의 고객을 위해 문제를 해결하고 고객의 고유한 과제에 대해 배우는 것을 즐깁니다.

프라산트 메이야판 4년 이상 Amazon Packaging Innovation의 수석 응용 과학자입니다. 그는 기계 학습 분야에서 6년 이상의 경력을 보유하고 있으며 검색 고객 경험을 개선하고 고객 패키징 경험을 개선하기 위해 제품을 출시했습니다. Prasanth는 지속 가능성에 대한 열정을 갖고 있으며 기후 변화의 통계 모델링에서 박사 학위를 받았습니다.

매튜 베일스 고객 피드백과 기계 학습을 사용하여 패키지 유형 선택을 최적화하기 위해 노력하는 선임 연구 과학자입니다. Amazon에 합류하기 전에 Matt는 독일에서 입자 물리학 시뮬레이션을 수행하는 박사후 연구원으로 일했으며 전생에는 스타트업에서 방사성 의료 임플란트 장치의 생산 관리자로 일했습니다. 그는 박사 학위를 보유하고 있습니다. 미시간 대학에서 물리학 박사.

타임 스탬프 : 2022 년 11 월 3 일2022 년 11 월 5 일

타임 스탬프 : 30년 2022월 XNUMX일

Amazon SageMaker Pipelines로 Amazon Packaging Innovation에서 ML 파이프라인의 안정성 및 유연성 개선

플라톤에 의해 재발행

Amazon Packaging Innovation의 이전 ML 파이프라인의 과제

교육 파이프라인

추론 파이프라인

SageMaker Pipelines를 사용하여 ML 워크플로를 설계할 때의 이점

즉시 사용 가능한 프로덕션 수준 MLOps 기능

ML 모델 개발의 유연성

비용 절감

결론

추가 리소스

저자에 관하여

더보기 AWS 기계 학습

신규 – 이제 Amazon SageMaker Canvas에서 코드 없는 생성 AI 기능을 사용할 수 있습니다 | 아마존 웹 서비스

Renate로 신경망 자동 재훈련

코드 없이 Amazon Personalize를 사용하여 배치 권장 사항 파이프라인 생성

Amazon Transcribe | 아마존 웹 서비스

원클릭 Kubeflow on AWS 배포로 Amazon EKS 및 Amazon SageMaker에서 하이브리드 ML 워크플로 활성화

Amazon SageMaker |를 사용하여 멀티클라우드 환경에서 ML 모델을 훈련하고 배포합니다. 아마존 웹 서비스

Amazon Forecast 및 Amazon SageMaker 사용자 지정 모델을 사용한 Bosch의 대규모 수익 예측

Amazon Comprehend를 위한 PDF 사전 라벨링 자동화 | 아마존 웹 서비스

Bundesliga Match Fact Pressure Handling: AWS에서 압박이 심한 상황에서 플레이어의 성과 평가

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정