Kustomer가 사용자 지정 Docker 이미지 및 Amazon SageMaker를 활용하여 텍스트 분류 파이프라인을 구축하는 방법

플라톤에 의해 재발행

팔로워 : 0

Kustomer의 선임 소프트웨어 및 기계 학습 엔지니어 Ian Lantzy와 AWS 팀 Umesh Kalaspurkar, Prasad Shetty, Jonathan Greifenberger가 게스트로 작성한 게시물입니다.

Kustomer 자신의 말에 따르면, “Kustomer는 탁월한 경험을 제공하기 위해 엔터프라이즈 고객 서비스를 재구상하는 옴니채널 SaaS CRM 플랫폼입니다. 지능형 자동화로 구축된 우리는 여러 소스의 데이터를 통합하고 기업이 단일 타임라인 보기를 통해 수월하고 일관되며 개인화된 서비스와 지원을 제공할 수 있도록 지원함으로써 모든 컨택 센터 및 비즈니스의 요구 사항을 충족하도록 확장됩니다."

Kustomer는 비즈니스 고객(고객 경험 및 서비스 조직)을 위한 대량의 지원 커뮤니케이션을 신속하게 분석하고 최종 고객의 의도, 고객 서비스 문제 및 소비자와 관련된 기타 관련 통찰력과 같은 정보 검색을 자동화할 수 있는 기능을 원했습니다. 이러한 특성을 이해하면 CX 조직이 콘텐츠를 자동으로 분류 및 분류하여 수천 개의 인바운드 지원 이메일을 관리하는 데 도움이 될 수 있습니다. 고객 활용 아마존 세이지 메이커 AI 기반을 통해 들어오는 지원 커뮤니케이션의 분석을 관리하기 위해 고객 IQ 플랫폼. Kustomer IQ의 대화 분류 서비스는 대화를 맥락화하고 지루하고 반복적인 작업을 자동화하여 상담원의 주의를 산만하게 하고 컨택당 전체 비용을 줄일 수 있습니다. 이 서비스와 Kustomer의 다른 IQ 서비스는 비즈니스 고객의 생산성과 자동화를 향상시켰습니다.

이 게시물에서는 Kustomer가 SageMaker 교육 및 추론을 위해 사용자 지정 Docker 이미지를 사용하여 통합을 용이하게 하고 프로세스를 간소화하는 방법에 대해 설명합니다. 이 접근 방식을 통해 Kustomer의 비즈니스 고객은 최대 50%의 정확도로 매월 70개 이상의 지원 이메일을 자동으로 분류합니다.

배경 및 과제

Kustomer는 대화 분류 서비스에 사용자 지정 텍스트 분류 파이프라인을 사용합니다. 이를 통해 SageMaker의 교육 및 추론 조정을 활용하는 자동 분류 및 분류를 통해 하루에 수천 건의 요청을 관리할 수 있습니다. 대화 분류 교육 엔진은 사용자 지정 Docker 이미지를 사용하여 과거 대화를 사용하여 데이터를 처리하고 모델을 교육한 다음 대화를 분류하기 위해 특정 에이전트가 필요로 하는 주제, 범주 또는 기타 사용자 지정 레이블을 예측합니다. 그런 다음 예측 엔진은 다른 사용자 지정 도커 이미지와 함께 훈련된 모델을 활용하여 조직이 보고를 자동화하거나 주제에 따라 특정 팀으로 대화를 라우팅하는 데 사용하는 대화를 분류합니다.

SageMaker 분류 프로세스는 텍스트 분류 및 컨텍스트 권장 사항을 제공할 수 있는 학습 및 추론 파이프라인을 설정하는 것으로 시작됩니다. 일반적인 설정은 다음과 같은 서버리스 접근 방식으로 구현됩니다. AWS 람다 효과적인 주문형 가격 책정 모델로 최소한의 프로비저닝 요구 사항이 있기 때문에 데이터 사전 처리 및 사후 처리에 적합합니다. 그러나 TensorFlow, NumPy 및 Pandas와 같은 종속성과 함께 SageMaker를 사용하면 모델 패키지 크기가 빠르게 증가하여 전체 배포 프로세스가 번거롭고 관리하기 어려워질 수 있습니다. Kustomer는 사용자 지정 Docker 이미지를 사용하여 이러한 문제를 극복했습니다.

사용자 지정 Docker 이미지는 다음과 같은 상당한 이점을 제공합니다.

TensorFlow, MXNet, PyTorch 등과 같은 널리 사용되는 기계 학습(ML) 프레임워크를 포함할 수 있는 더 큰 압축 패키지 크기(10GB 이상)를 허용합니다.
로컬에서 개발된 사용자 정의 코드 또는 알고리즘을 아마존 세이지 메이커 스튜디오 빠른 반복 및 모델 교육을 위한 노트북.
배포 패키지의 압축을 푸는 동안 Lambda에서 발생하는 사전 처리 지연을 방지합니다.
내부 시스템과 원활하게 통합할 수 있는 유연성을 제공합니다.
미래의 호환성과 확장성은 .zip 파일을 Lambda 함수로 패키징할 필요 없이 Docker를 사용하여 서비스를 더 쉽게 변환할 수 있도록 합니다.
CI/CD 배포 파이프라인의 처리 시간을 줄입니다.
팀 내에서 Docker 친숙성과 사용 용이성을 제공합니다.
API 및 백엔드 런타임을 통해 데이터 저장소에 대한 액세스를 제공합니다.
Lambda가 각 프로세스(예: 교육 또는 배포)에 대해 별도의 컴퓨팅 서비스를 필요로 하는 사전 처리 또는 사후 처리에 대한 개입에 대한 더 나은 지원을 제공합니다.

솔루션 개요

지원 이메일의 분류 및 레이블 지정은 고객 지원 프로세스에서 중요한 단계입니다. 이를 통해 기업은 대화를 적절한 팀으로 라우팅하고 고객이 연락하는 내용을 상위 수준에서 이해할 수 있습니다. Kustomer의 비즈니스 고객은 매일 수천 개의 대화를 처리하므로 대규모로 분류하는 것은 어려운 일입니다. 이 프로세스를 자동화하면 상담원이 더 효율적이고 응집력 있는 지원을 제공할 수 있으며 고객을 적합한 사람과 더 빨리 연결하여 고객을 돕습니다.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

대화 분류 프로세스는 비즈니스 고객이 텍스트 분류 및 상황에 맞는 권장 사항을 지원하는 교육 및 추론 파이프라인을 설정할 수 있는 권한을 Kustomer에 부여하는 것으로 시작됩니다. Kustomer는 TensorFlow 모델 및 사용자 지정 Docker 이미지와 함께 SageMaker를 사용하여 구현되는 교육 및 추론 프로세스를 모니터링하기 위해 고객에게 사용자 인터페이스를 노출합니다. 분류기를 구축하고 활용하는 프로세스는 XNUMX개의 주요 워크플로로 나뉘며, 이는 에서 실행되는 작업자 서비스에 의해 조정됩니다. 아마존 ECS. 파이프라인 이벤트를 조정하고 모델의 교육 및 배포를 트리거하기 위해 작업자는 다음을 사용합니다. 아마존 SQS 큐에 추가하고 AWS에서 제공하는 Node.js SDK를 사용하여 SageMaker와 직접 통합합니다. 워크플로는 다음과 같습니다.

데이터 내보내기
데이터 전처리
트레이닝
전개
추론

데이터 내보내기

데이터 내보내기 프로세스는 요청 시 실행되며 Kustomer의 비즈니스 고객이 분석을 위한 이메일 데이터 사용을 확인하는 승인 프로세스로 시작됩니다. 분류 프로세스와 관련된 데이터는 최종 고객으로부터 받은 초기 이메일을 통해 캡처됩니다. 예를 들어 지원 이메일에는 일반적으로 문제에 대한 세부 정보와 함께 문제에 대한 완전하고 일관된 생각이 포함되어 있습니다. 내보내기 프로세스의 일부로 이메일은 데이터 저장소(MongoDB 및 아마존 오픈서치) 및 저장 아마존 단순 스토리지 서비스 (아마존 S3).

데이터 전처리

데이터 사전 처리 단계에서는 고객 이메일에서 HTML 태그를 제거하고 잘못된 형식의 HTML을 감지하기 위해 여러 정리 및 삭제 단계를 통해 제공하여 교육 및 추론 워크플로를 위해 데이터세트를 정리합니다. 이 프로세스에는 다음을 사용하는 것이 포함됩니다. 허깅페이스 토크나이저 및 트랜스포머. 정리 프로세스가 완료되면 훈련에 필요한 추가 사용자 지정 토큰이 출력 데이터 세트에 추가됩니다.

전처리 단계에서 Lambda 함수는 사용자 지정 Docker 이미지를 호출합니다. 이 이미지는 Python 3.8 슬림 베이스로 구성되어 있으며, AWS Lambda Python 런타임 인터페이스 클라이언트및 다음과 같은 종속성 눔 파이 과 판다. 사용자 지정 Docker 이미지는 다음 위치에 저장됩니다. Amazon Elastic Container Registry (Amazon ECR) 그런 다음 배포를 위해 CI/CD 파이프라인을 통해 공급됩니다. 배포된 Lambda 함수는 분류자당 XNUMX개의 개별 데이터 세트를 생성하기 위해 데이터를 샘플링합니다.

트레이닝 – 실제 교육 과정에 사용
검증 – TensorFlow 교육 과정 중 유효성 검사에 사용
Test – 메트릭 모델 비교를 위한 교육 프로세스의 끝 부분에 사용됩니다.

생성된 출력 데이터 세트는 Pandas 피클 파일로 Amazon S3에 저장되어 훈련 단계에서 사용됩니다.

트레이닝

Kustomer의 맞춤형 훈련 이미지는 TensorFlow 2.7 GPU 최적화 도커를 활용합니다. 영상 베이스로. 사용자 지정 도커 교육 이미지가 ECR에 업로드되기 전에 사용자 지정 코드, 종속성 및 기본 모델이 포함됩니다. P3 인스턴스 유형은 학습 프로세스에 사용되며 GPU 최적화 기본 이미지를 사용하면 학습 프로세스를 최대한 효율적으로 만드는 데 도움이 됩니다. Amazon SageMaker는 이 사용자 지정 도커 이미지와 함께 사용되어 S3에 저장되는 TensorFlow 모델을 교육합니다. 모델 비교 및 자동 재교육과 같은 추가 기능을 지원하기 위해 사용자 지정 메트릭도 계산 및 저장됩니다. 교육 단계가 완료되면 AI 작업자에게 알림이 전송되고 비즈니스 고객은 배포 워크플로를 시작할 수 있습니다.

전개

배포 워크플로의 경우 TensorFlow 제공 기본 이미지(빠른 추론을 위해 특별히 구축됨)를 사용하여 사용자 지정 도커 추론 이미지가 생성됩니다. numPy, Pandas, 사용자 지정 NL 등과 같은 추가 코드 및 종속성이 포함되어 추론 전에 입력 형식 지정 및 정리와 같은 추가 기능을 제공합니다. FastAPI도 사용자 지정 이미지의 일부로 포함되며 추론 및 상태 확인을 위한 REST API 끝점을 제공하는 데 사용됩니다. 그런 다음 SageMaker는 추론 이미지와 함께 S3에 저장된 TensorFlow 모델을 컴퓨팅 최적화 ml.c5 AWS 인스턴스에 배포하여 고성능 추론 엔드포인트를 생성하도록 구성됩니다. 각 끝점은 단일 고객이 모델과 데이터를 분리하는 데 사용할 수 있도록 생성됩니다.

추론

배포 워크플로가 완료되면 추론 워크플로가 이어집니다. 모든 첫 번째 인바운드 지원 이메일은 해당 고객에 대해 배포된 분류자에 대한 추론 API를 통해 전달됩니다. 그런 다음 배포된 분류자는 이러한 각 이메일에 대해 텍스트 분류를 수행하여 각각 고객에 대한 분류 레이블을 생성합니다.

가능한 개선 사항 및 사용자 지정

Kustomer는 다음과 같은 개선 사항으로 솔루션 확장을 고려하고 있습니다.

허깅페이스 DLC – Kustomer는 현재 데이터 사전 처리 단계에 TensorFlow의 기본 Docker 이미지를 사용하고 있으며 다음으로 마이그레이션할 계획입니다. 포옹 얼굴 딥 러닝 컨테이너(DLC). 이렇게 하면 훈련 환경을 처음부터 구축하고 최적화하는 복잡한 프로세스를 건너뛰고 즉시 훈련 모델을 시작할 수 있습니다. 자세한 내용은 Amazon SageMaker에서 포옹하는 얼굴.
피드백 루프 – 능동 학습 또는 강화 학습 기술을 사용하여 피드백 루프를 구현하여 모델의 전체 효율성을 높일 수 있습니다.
다른 내부 시스템과의 통합 – Kustomer는 수백 개의 바로 가기를 살펴보고 고객 쿼리와 가장 관련이 있는 바로 가기를 제안하여 상담원 응답 시간과 성능을 개선하는 또 다른 Kustomer IQ 서비스인 Smart Suggestions와 같은 다른 시스템과 텍스트 분류를 통합하는 기능을 원합니다.

결론

이 게시물에서는 Kustomer가 SageMaker 교육 및 추론을 위해 사용자 지정 Docker 이미지를 사용하여 통합을 용이하게 하고 프로세스를 간소화하는 방법에 대해 논의했습니다. Kustomer가 전처리 및 후처리 워크플로로 텍스트 분류 프로세스를 구현하는 데 도움이 되는 사용자 지정 Docker 이미지와 함께 Lambda 및 SageMaker를 활용하는 방법을 시연했습니다. 이는 모델 생성, 훈련 및 추론을 위해 더 큰 이미지를 사용할 수 있는 유연성을 제공합니다. Lambda에 대한 컨테이너 이미지 지원을 통해 함수를 훨씬 더 사용자 지정할 수 있으므로 서버리스 ML에 대한 많은 새로운 사용 사례가 열립니다. 이 솔루션은 SageMaker, Lambda, Docker 이미지, Amazon ECR, Amazon ECS, Amazon SQS 및 Amazon S3를 비롯한 여러 AWS 서비스를 활용합니다.

Kustomer에 대해 자세히 알아보려면 다음을 방문하는 것이 좋습니다. 고객 웹사이트 그리고 그들의 탐구 사례 연구.

여기에서 지금 확인해 보세요. Amazon SageMaker로 여정을 시작하십시오. 실습 경험을 위해 Amazon SageMaker를 참조할 수 있습니다. 워크샵.

저자에 관하여

우메시 칼라스푸르카르 뉴욕에 기반을 둔 AWS용 솔루션 아키텍트입니다. 그는 기업과 신생 기업 전반에 걸쳐 디지털 혁신 및 혁신 프로젝트의 설계 및 제공 분야에서 20년 이상의 경험을 가지고 있습니다. 그는 고객이 문제를 식별하고 극복할 수 있도록 지원함으로써 동기를 부여받습니다. 일 외에 Umesh는 아버지가 되는 것과 스키, 여행을 즐깁니다.

이안 란지 Kustomer의 선임 소프트웨어 및 기계 학습 엔지니어이며 기계 학습 연구 작업을 수행하고 이를 프로덕션 서비스로 전환하는 것을 전문으로 합니다.

프라사드 셰티 보스턴에 기반을 둔 AWS용 솔루션 아키텍트입니다. 그는 소프트웨어 제품을 구축했으며 20년 넘게 기업 전반에 걸쳐 제품 및 서비스의 현대화 및 디지털 혁신을 주도해 왔습니다. 그는 클라우드 전략 및 채택을 주도하고 기술을 활용하여 훌륭한 고객 경험을 만드는 데 열정을 가지고 있습니다. 여가 시간에 Prasad는 자전거 타기와 여행을 즐깁니다.