Cách Kustomer sử dụng hình ảnh Docker tùy chỉnh & Amazon SageMaker để xây dựng quy trình phân loại văn bản

Được xuất bản lại bởi Plato

Người theo dõi: 0

Đây là bài đăng của khách mời bởi Kỹ sư phần mềm & máy học cấp cao của Kustomer, Ian Lantzy và nhóm AWS Umesh Kalaspurkar, Prasad Shetty và Jonathan Greifenberger.

Nói theo cách riêng của Kustomer, “Kustomer là nền tảng SaaS CRM đa kênh mô phỏng lại dịch vụ khách hàng doanh nghiệp để mang đến những trải nghiệm nổi bật. Được xây dựng với tính năng tự động hóa thông minh, chúng tôi mở rộng quy mô để đáp ứng nhu cầu của bất kỳ trung tâm liên lạc và doanh nghiệp nào bằng cách thống nhất dữ liệu từ nhiều nguồn và cho phép các công ty cung cấp dịch vụ và hỗ trợ dễ dàng, nhất quán và được cá nhân hóa thông qua một chế độ xem dòng thời gian duy nhất. ”

Kustomer muốn có khả năng phân tích nhanh chóng khối lượng lớn thông tin liên lạc hỗ trợ cho khách hàng doanh nghiệp của họ - trải nghiệm khách hàng và các tổ chức dịch vụ - và tự động hóa việc khám phá thông tin như ý định của khách hàng cuối, vấn đề về dịch vụ khách hàng và các thông tin chi tiết liên quan khác liên quan đến người tiêu dùng. Hiểu được những đặc điểm này có thể giúp các tổ chức CX quản lý hàng nghìn email hỗ trợ liên kết bằng cách tự động phân loại và phân loại nội dung. Kustomer đòn bẩy Amazon SageMaker để quản lý việc phân tích các thông tin liên lạc hỗ trợ đến thông qua AI của họ chỉ số IQ của khách hàng nền tảng. Dịch vụ Phân loại cuộc trò chuyện của Kustomer IQ có thể ngữ cảnh hóa các cuộc trò chuyện và tự động hóa các tác vụ lặp đi lặp lại và tẻ nhạt, giảm thiểu sự phân tâm của tác nhân và chi phí tổng thể cho mỗi lần tiếp xúc. Điều này và các dịch vụ IQ khác của Kustomer đã tăng năng suất và tự động hóa cho các khách hàng doanh nghiệp của mình.

Trong bài đăng này, chúng tôi nói về cách Kustomer sử dụng hình ảnh Docker tùy chỉnh để đào tạo và suy luận SageMaker, giúp giảm bớt tích hợp và hợp lý hóa quy trình. Với cách tiếp cận này, khách hàng doanh nghiệp của Kustomer sẽ tự động phân loại hơn 50 nghìn email hỗ trợ mỗi tháng với độ chính xác lên đến 70%.

Bối cảnh và thách thức

Kustomer sử dụng quy trình phân loại văn bản tùy chỉnh cho dịch vụ Phân loại hội thoại của họ. Điều này giúp họ quản lý hàng nghìn yêu cầu mỗi ngày thông qua phân loại và phân loại tự động bằng cách sử dụng điều phối đào tạo và suy luận của SageMaker. Công cụ đào tạo Phân loại hội thoại sử dụng hình ảnh Docker tùy chỉnh để xử lý dữ liệu và đào tạo mô hình bằng cách sử dụng các cuộc hội thoại lịch sử, sau đó dự đoán các chủ đề, danh mục hoặc các nhãn tùy chỉnh khác mà một tác nhân cụ thể cần để phân loại các cuộc hội thoại. Sau đó, công cụ dự đoán sử dụng các mô hình được đào tạo với hình ảnh docker tùy chỉnh khác để phân loại các cuộc hội thoại, tổ chức sử dụng để tự động báo cáo hoặc định tuyến các cuộc trò chuyện đến một nhóm cụ thể dựa trên chủ đề của nó.

Quá trình phân loại SageMaker bắt đầu bằng cách thiết lập một đường dẫn đào tạo và suy luận có thể cung cấp phân loại văn bản và các khuyến nghị theo ngữ cảnh. Một thiết lập điển hình sẽ được thực hiện với các phương pháp tiếp cận không máy chủ như AWS Lambda để xử lý trước và xử lý dữ liệu vì nó có yêu cầu cung cấp tối thiểu với mô hình định giá theo yêu cầu hiệu quả. Tuy nhiên, việc sử dụng SageMaker với các phụ thuộc như TensorFlow, NumPy và Pandas có thể nhanh chóng tăng kích thước gói mô hình, làm cho quá trình triển khai tổng thể trở nên cồng kềnh và khó quản lý. Kustomer đã sử dụng hình ảnh Docker tùy chỉnh để vượt qua những thách thức này.

Hình ảnh Docker tùy chỉnh cung cấp những lợi thế đáng kể:

Cho phép kích thước gói nén lớn hơn (trên 10 GB), có thể chứa các khuôn khổ máy học (ML) phổ biến như TensorFlow, MXNet, PyTorch hoặc các khuôn khổ khác.
Cho phép bạn mang mã tùy chỉnh hoặc thuật toán được phát triển cục bộ đến Xưởng sản xuất Amazon SageMaker sổ ghi chép để lặp lại nhanh chóng và đào tạo mô hình.
Tránh chậm trễ tiền xử lý gây ra trong Lambda khi giải nén các gói triển khai.
Cung cấp tính linh hoạt để tích hợp liền mạch với các hệ thống nội bộ.
Khả năng tương thích và khả năng mở rộng trong tương lai giúp việc chuyển đổi dịch vụ bằng Docker dễ dàng hơn thay vì phải đóng gói các tệp .zip trong một hàm Lambda.
Giảm thời gian quay vòng cho một kênh triển khai CI / CD.
Cung cấp cho Docker sự quen thuộc trong nhóm và dễ sử dụng.
Cung cấp quyền truy cập vào kho dữ liệu thông qua API và thời gian chạy chương trình phụ trợ.
Cung cấp hỗ trợ tốt hơn để can thiệp cho bất kỳ quá trình tiền xử lý hoặc hậu xử lý nào mà Lambda sẽ yêu cầu một dịch vụ tính toán riêng biệt cho từng quy trình (chẳng hạn như đào tạo hoặc triển khai).

Tổng quan về giải pháp

Phân loại và gắn nhãn các email hỗ trợ là một bước quan trọng trong quy trình hỗ trợ khách hàng. Nó cho phép các công ty định tuyến các cuộc trò chuyện đến đúng nhóm và hiểu ở cấp độ cao những gì khách hàng của họ đang liên hệ với họ. Khách hàng doanh nghiệp của Kustomer xử lý hàng nghìn cuộc trò chuyện mỗi ngày, vì vậy việc phân loại theo quy mô là một thách thức. Tự động hóa quy trình này giúp các đại lý hiệu quả hơn và cung cấp hỗ trợ gắn kết hơn, đồng thời giúp khách hàng của họ bằng cách kết nối họ với đúng người nhanh hơn.

Sơ đồ sau minh họa kiến trúc giải pháp:

Quy trình Phân loại hội thoại bắt đầu với việc khách hàng doanh nghiệp cấp quyền cho Kustomer thiết lập một hệ thống đào tạo và suy luận có thể giúp họ phân loại văn bản và đề xuất theo ngữ cảnh. Kustomer hiển thị giao diện người dùng cho khách hàng của họ để theo dõi quá trình đào tạo và suy luận, được thực hiện bằng SageMaker cùng với các mô hình TensorFlow và hình ảnh Docker tùy chỉnh. Quá trình xây dựng và sử dụng bộ phân loại được chia thành năm quy trình công việc chính, được điều phối bởi một dịch vụ công nhân đang chạy trên Amazon ECS. Để điều phối các sự kiện đường ống và kích hoạt đào tạo và triển khai mô hình, nhân viên sử dụng SQS của Amazon xếp hàng và tích hợp trực tiếp với SageMaker bằng SDK Node.js do AWS cung cấp. Quy trình làm việc là:

Xuất dữ liệu
Tiền xử lý dữ liệu
Hội thảo
Triển khai
Sự suy luận

Xuất dữ liệu

Quy trình xuất dữ liệu được chạy theo yêu cầu và bắt đầu với quy trình phê duyệt từ khách hàng doanh nghiệp của Kustomer để xác nhận việc sử dụng dữ liệu email để phân tích. Dữ liệu liên quan đến quá trình phân loại được thu thập thông qua email ban đầu nhận được từ khách hàng cuối cùng. Ví dụ: một email hỗ trợ thường chứa ý tưởng mạch lạc hoàn chỉnh về vấn đề với các chi tiết về vấn đề. Là một phần của quá trình xuất, các email được đối chiếu từ kho dữ liệu (MongoDB và Tìm kiếm mở của Amazon) và được lưu trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).

Tiền xử lý dữ liệu

Giai đoạn tiền xử lý dữ liệu dọn dẹp tập dữ liệu cho quy trình đào tạo và suy luận bằng cách tách bất kỳ thẻ HTML nào khỏi email của khách hàng và cung cấp cho chúng qua nhiều bước làm sạch và vệ sinh để phát hiện bất kỳ HTML nào không đúng định dạng. Quá trình này bao gồm việc sử dụng Ôm khuôn mặt tokenizers và máy biến áp. Khi quá trình làm sạch hoàn tất, bất kỳ mã thông báo tùy chỉnh bổ sung nào cần thiết để đào tạo sẽ được thêm vào tập dữ liệu đầu ra.

Trong giai đoạn tiền xử lý, một hàm Lambda gọi một hình ảnh Docker tùy chỉnh. Hình ảnh này bao gồm một đế mỏng Python 3.8, Ứng dụng khách giao diện thời gian chạy AWS Lambda Pythonvà các phụ thuộc như numpy và Gấu trúc. Hình ảnh Docker tùy chỉnh được lưu trữ trên Đăng ký container đàn hồi Amazon (Amazon ECR) và sau đó được cung cấp thông qua đường ống CI / CD để triển khai. Hàm Lambda đã triển khai lấy mẫu dữ liệu để tạo ra ba bộ dữ liệu riêng biệt cho mỗi bộ phân loại:

Hội thảo - Được sử dụng cho quá trình đào tạo thực tế
THẨM ĐỊNH - Được sử dụng để xác nhận trong quá trình đào tạo TensorFlow
Thử nghiệm - Được sử dụng vào cuối quá trình đào tạo để so sánh mô hình số liệu

Tập dữ liệu đầu ra được tạo là các tệp Pandas pickle, được lưu trữ trong Amazon S3 để sử dụng trong giai đoạn đào tạo.

Hội thảo

Hình ảnh đào tạo tùy chỉnh của Kustomer sử dụng docker tối ưu hóa GPU TensorFlow 2.7 hình ảnh làm cơ sở. Mã tùy chỉnh, phụ thuộc và mô hình cơ sở được đưa vào trước khi hình ảnh đào tạo về docker tùy chỉnh được tải lên ECR. Các loại phiên bản P3 được sử dụng cho quá trình đào tạo và việc sử dụng hình ảnh cơ sở được tối ưu hóa bằng GPU giúp quy trình đào tạo hiệu quả nhất có thể. Amazon SageMaker được sử dụng với hình ảnh docker tùy chỉnh này để đào tạo các mô hình TensorFlow sau đó được lưu trữ trong S3. Các chỉ số tùy chỉnh cũng được tính toán và lưu để trợ giúp với các khả năng bổ sung như so sánh mô hình và tự động đào tạo lại. Sau khi giai đoạn đào tạo hoàn thành, nhân viên AI sẽ được thông báo và khách hàng doanh nghiệp có thể bắt đầu quy trình triển khai.

Triển khai

Đối với quy trình triển khai, hình ảnh suy luận do docker tùy chỉnh được tạo bằng cách sử dụng hình ảnh cơ sở phục vụ TensorFlow (được xây dựng đặc biệt để suy luận nhanh). Mã bổ sung và các phần phụ thuộc như numPy, Pandas, NL tùy chỉnh, v.v. được bao gồm để cung cấp chức năng bổ sung, chẳng hạn như định dạng và làm sạch đầu vào trước khi suy luận. FastAPI cũng được bao gồm như một phần của hình ảnh tùy chỉnh và được sử dụng để cung cấp các điểm cuối API REST để kiểm tra sức khỏe và suy luận. Sau đó, SageMaker được định cấu hình để triển khai các mô hình TensorFlow được lưu trong S3 với hình ảnh suy luận trên tính toán các cá thể ml.c5 AWS được tối ưu hóa để tạo ra các điểm cuối suy luận hiệu suất cao. Mỗi điểm cuối được tạo ra để một khách hàng sử dụng nhằm tách biệt các mô hình và dữ liệu của họ.

Sự suy luận

Sau khi hoàn thành quy trình triển khai, quy trình suy luận sẽ tiếp tục. Tất cả các email hỗ trợ gửi đến đầu tiên đều được chuyển qua API suy luận cho các bộ phân loại được triển khai dành riêng cho khách hàng đó. Sau đó, các bộ phân loại được triển khai sẽ thực hiện phân loại văn bản trên mỗi email này, mỗi email sẽ tạo ra các nhãn phân loại cho khách hàng.

Các cải tiến và tùy chỉnh có thể có

Kustomer đang xem xét mở rộng giải pháp với những cải tiến sau:

Ôm khuôn mặt DLC - Kustomer hiện đang sử dụng hình ảnh Docker cơ sở của TensorFlow cho giai đoạn tiền xử lý dữ liệu và có kế hoạch chuyển sang Ôm mặt Hộp chứa học tập sâu (DLC). Điều này giúp bạn bắt đầu các mô hình đào tạo ngay lập tức, bỏ qua quá trình phức tạp trong việc xây dựng và tối ưu hóa môi trường đào tạo của bạn từ đầu. Để biết thêm thông tin, hãy xem Ôm mặt trên Amazon SageMaker.
Vòng lặp thông tin phản hồi - Bạn có thể thực hiện một vòng phản hồi bằng cách sử dụng các kỹ thuật học tập tích cực hoặc học tập củng cố để tăng hiệu quả tổng thể của mô hình.
Tích hợp với các hệ thống nội bộ khác - Kustomer muốn khả năng tích hợp phân loại văn bản với các hệ thống khác như Gợi ý thông minh, một dịch vụ khác của Kustomer IQ giúp xem xét hàng trăm phím tắt và đề xuất các phím tắt phù hợp nhất với truy vấn của khách hàng, cải thiện thời gian và hiệu suất phản hồi của đại lý.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về cách Kustomer sử dụng hình ảnh Docker tùy chỉnh để đào tạo và suy luận SageMaker, giúp giảm bớt sự tích hợp và hợp lý hóa quy trình. Chúng tôi đã chứng minh cách Kustomer thúc đẩy Lambda và SageMaker bằng các hình ảnh Docker tùy chỉnh giúp triển khai quy trình phân loại văn bản với quy trình xử lý trước và xử lý sau. Điều này mang lại sự linh hoạt cho việc sử dụng các hình ảnh lớn hơn để tạo mô hình, đào tạo và suy luận. Hỗ trợ hình ảnh vùng chứa cho Lambda cho phép bạn tùy chỉnh chức năng của mình nhiều hơn, mở ra nhiều trường hợp sử dụng mới cho ML không máy chủ. Giải pháp tận dụng lợi thế của một số dịch vụ AWS, bao gồm SageMaker, Lambda, hình ảnh Docker, Amazon ECR, Amazon ECS, Amazon SQS và Amazon S3.

Nếu bạn muốn tìm hiểu thêm về Kustomer, chúng tôi khuyến khích bạn truy cập Trang web Kustomer và khám phá họ nghiên cứu điển hình.

Nhấp chuột tại đây để bắt đầu hành trình của bạn với Amazon SageMaker. Để có kinh nghiệm thực tế, bạn có thể tham khảo Amazon SageMaker hội thảo.

Về các tác giả

Umesh Kalaspurkar là một Kiến trúc sư Giải pháp có trụ sở tại New York cho AWS. Ông có hơn 20 năm kinh nghiệm trong việc thiết kế và cung cấp các dự án Đổi mới và Chuyển đổi Kỹ thuật số, trên khắp các doanh nghiệp và công ty khởi nghiệp. Anh ấy được thúc đẩy bằng cách giúp khách hàng xác định và vượt qua những thách thức. Ngoài công việc, Umesh thích làm cha, trượt tuyết và đi du lịch.

Ian Lantzy là kỹ sư Phần mềm & Máy học cấp cao cho Kustomer và chuyên nhận các nhiệm vụ nghiên cứu máy học và biến chúng thành các dịch vụ sản xuất.

Prasad Shetty là một Kiến trúc sư Giải pháp có trụ sở tại Boston cho AWS. Ông đã xây dựng các sản phẩm phần mềm và dẫn đầu quá trình đổi mới kỹ thuật số và hiện đại hóa sản phẩm và dịch vụ trong các doanh nghiệp trong hơn 20 năm. Anh ấy đam mê thúc đẩy chiến lược và áp dụng đám mây, đồng thời tận dụng công nghệ để tạo ra những trải nghiệm tuyệt vời cho khách hàng. Trong thời gian rảnh rỗi, Prasad thích đi xe đạp và đi du lịch.

Jonathan Greifenberger là Giám đốc Tài khoản Cấp cao của AWS có trụ sở tại New York với 25 năm kinh nghiệm trong ngành CNTT. Jonathan lãnh đạo một nhóm hỗ trợ khách hàng từ nhiều ngành và lĩnh vực khác nhau trong hành trình hiện đại hóa và áp dụng đám mây của họ.

Dấu thời gian: 23 Tháng hai, 2022

Dấu thời gian: Tháng Tư 18, 2023

Cách Kustomer sử dụng hình ảnh Docker tùy chỉnh và Amazon SageMaker để xây dựng đường dẫn phân loại văn bản

Được xuất bản lại bởi Plato

Bối cảnh và thách thức

Tổng quan về giải pháp

Xuất dữ liệu

Tiền xử lý dữ liệu

Hội thảo

Triển khai

Sự suy luận

Các cải tiến và tùy chỉnh có thể có

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Tối ưu hóa siêu đường kính với Amazon SageMaker Automatic Model Tuning

Chạy điều chỉnh mô hình tự động với Amazon SageMaker JumpStart

Dịch nhiều tài liệu ngôn ngữ nguồn sang nhiều ngôn ngữ đích bằng Amazon Translate

Tìm hiểu cách Amazon SageMaker làm rõ giúp phát hiện sai lệch

Các tính năng mới dành cho Amazon SageMaker Pipelines và Amazon SageMaker SDK

Amazon Rekognition giới thiệu Sự kiện phát trực tuyến video để cung cấp cảnh báo thời gian thực về các luồng video trực tiếp

Các mẫu thiết kế cho suy luận nối tiếp trên Amazon SageMaker

Thông báo về trình kết nối Microsoft OneDrive (V2) được cập nhật cho Amazon Kendra

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản