Cải thiện tính ổn định và tính linh hoạt của quy trình ML khi đổi mới bao bì của Amazon với quy trình Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Để làm hài lòng khách hàng và giảm thiểu lãng phí bao bì, Amazon phải chọn loại bao bì tối ưu cho hàng tỷ gói hàng được vận chuyển mỗi năm. Nếu sử dụng quá ít biện pháp bảo vệ đối với một vật dễ vỡ như cốc cà phê, mặt hàng đó sẽ bị hư hỏng và Amazon sẽ đánh mất lòng tin của khách hàng. Sử dụng quá nhiều bảo vệ sẽ làm tăng chi phí và các thùng tái chế quá đầy. Với hàng trăm triệu sản phẩm có sẵn, cần có một cơ chế quyết định có thể mở rộng để liên tục học hỏi từ quá trình thử nghiệm sản phẩm và phản hồi của khách hàng.

Để giải quyết những vấn đề này, nhóm Đổi mới Bao bì của Amazon đã phát triển các mô hình máy học (ML) để phân loại liệu sản phẩm có phù hợp với các loại bao bì của Amazon như bưu phẩm, túi hoặc hộp hay thậm chí có thể được vận chuyển mà không cần đóng gói bổ sung hay không. Trước đây, nhóm đã phát triển một quy trình tùy chỉnh dựa trên Chức năng bước AWS để thực hiện đào tạo hàng tuần và các công việc suy luận hàng ngày hoặc hàng tháng. Tuy nhiên, theo thời gian, đường ống không cung cấp đủ tính linh hoạt để khởi chạy các mô hình với kiến trúc mới. Việc phát triển các đường ống mới thể hiện sự phối hợp giữa các nhà khoa học dữ liệu và nhà phát triển. Để khắc phục những khó khăn này và cải thiện tốc độ triển khai các mô hình và kiến trúc mới, nhóm đã chọn tổ chức đào tạo mô hình và suy luận với Đường ống Amazon SageMaker.

Trong bài đăng này, chúng ta sẽ thảo luận về kiến trúc điều phối trước đây dựa trên Hàm bước, phác thảo kiến trúc đào tạo và suy luận bằng cách sử dụng Đường ống, đồng thời nêu bật tính linh hoạt mà nhóm Đổi mới bao bì của Amazon đã đạt được.

Những thách thức của đường ống ML trước đây tại Amazon Bao bì Đổi mới

Để kết hợp phản hồi liên tục về hiệu suất của các gói, một mô hình mới được đào tạo hàng tuần bằng cách sử dụng ngày càng nhiều nhãn. Suy luận cho toàn bộ khoảng không quảng cáo sản phẩm được thực hiện hàng tháng và suy luận hàng ngày được thực hiện để đưa ra các dự đoán đúng lúc cho khoảng không quảng cáo mới được thêm vào.

Để tự động hóa quá trình đào tạo nhiều mô hình và cung cấp các dự đoán, nhóm đã phát triển một quy trình tùy chỉnh dựa trên Hàm bước để sắp xếp các bước sau:

Chuẩn bị dữ liệu cho các công việc đào tạo và suy luận và tải các dự đoán vào cơ sở dữ liệu (Amazon RedShift) với Keo AWS.
Đào tạo mô hình và suy luận với Amazon SageMaker.
Tính toán các chỉ số hiệu suất của mô hình trên bộ xác thực với Hàng loạt AWS.
Sử dụng Máy phát điện Amazon để lưu trữ cấu hình mô hình (chẳng hạn như tỷ lệ phân chia dữ liệu để đào tạo và xác thực, vị trí tạo tác mô hình, loại mô hình và số lượng phiên bản để đào tạo và suy luận), số liệu hiệu suất mô hình và phiên bản mô hình được đào tạo thành công mới nhất.
Tính toán sự khác biệt trong điểm hiệu suất của mô hình, thay đổi trong phân phối nhãn đào tạo và so sánh kích thước của dữ liệu đầu vào giữa phiên bản mô hình trước và phiên bản mới với AWS Lambda chức năng.
Với số lượng lớn các bước, quy trình cũng yêu cầu một hệ thống báo động đáng tin cậy ở mỗi bước để cảnh báo các bên liên quan về bất kỳ vấn đề nào. Điều này đã được thực hiện thông qua sự kết hợp của Dịch vụ xếp hàng đơn giản trên Amazon (Amazon SQS) và Dịch vụ thông báo đơn giản của Amazon (Amazon SNS). Các cảnh báo được tạo ra để thông báo cho các bên liên quan của doanh nghiệp, nhà khoa học dữ liệu và nhà phát triển về bất kỳ bước thất bại nào cũng như sai lệch lớn trong mô hình và số liệu dữ liệu.

Sau khi sử dụng giải pháp này trong gần 2 năm, nhóm nhận thấy rằng việc triển khai này chỉ hoạt động tốt đối với quy trình làm việc ML điển hình trong đó một mô hình duy nhất được đào tạo và cho điểm trên tập dữ liệu xác thực. Tuy nhiên, giải pháp này không đủ linh hoạt đối với các mô hình phức tạp và không đủ khả năng chống lại các lỗi. Ví dụ, kiến trúc không dễ dàng phù hợp với đào tạo mô hình tuần tự. Rất khó để thêm hoặc bớt một bước mà không sao chép toàn bộ đường ống và sửa đổi cơ sở hạ tầng. Ngay cả những thay đổi đơn giản trong các bước xử lý dữ liệu, chẳng hạn như điều chỉnh tỷ lệ phân chia dữ liệu hoặc chọn một tập hợp các tính năng khác cũng cần có sự phối hợp của cả nhà khoa học dữ liệu và nhà phát triển. Khi đường ống bị lỗi ở bất kỳ bước nào, nó phải được khởi động lại từ đầu, dẫn đến việc chạy nhiều lần và tăng chi phí. Để tránh chạy lặp lại và phải khởi động lại từ bước không thành công, nhóm sẽ tạo một bản sao mới của máy trạng thái rút gọn. Việc khắc phục sự cố này dẫn đến sự gia tăng của các máy trạng thái, mỗi máy bắt đầu từ các bước thường bị lỗi. Cuối cùng, nếu một công việc đào tạo gặp phải sự sai lệch trong phân phối nhãn, điểm mô hình hoặc số lượng nhãn, nhà khoa học dữ liệu phải xem xét mô hình và các chỉ số của nó theo cách thủ công. Sau đó, một nhà khoa học dữ liệu sẽ truy cập bảng DynamoDB với các phiên bản mô hình và cập nhật bảng để đảm bảo rằng mô hình chính xác được sử dụng cho công việc suy luận tiếp theo.

Việc duy trì kiến trúc này yêu cầu ít nhất một tài nguyên chuyên dụng và một tài nguyên bổ sung toàn thời gian để phát triển. Do những khó khăn trong việc mở rộng đường ống để đáp ứng các trường hợp sử dụng mới, các nhà khoa học dữ liệu đã bắt đầu phát triển quy trình làm việc của riêng họ, do đó đã dẫn đến cơ sở mã ngày càng tăng, nhiều bảng dữ liệu với các sơ đồ dữ liệu tương tự và giám sát mô hình phi tập trung. Tích lũy những vấn đề này đã dẫn đến năng suất của nhóm thấp hơn và tăng chi phí.

Để giải quyết những thách thức này, nhóm Đổi mới bao bì của Amazon đã đánh giá các giải pháp hiện có khác cho MLOps, bao gồm SageMaker Pipelines (Thông báo phát hành tháng 2020 năm XNUMX). Pipelines là một khả năng của SageMaker để xây dựng, quản lý, tự động hóa và mở rộng quy trình làm việc ML từ đầu đến cuối. Đường ống cho phép bạn giảm số bước trong toàn bộ quy trình ML và đủ linh hoạt để cho phép các nhà khoa học dữ liệu xác định quy trình làm việc ML tùy chỉnh. Nó sẽ chăm sóc theo dõi và ghi nhật ký các bước. Nó cũng đi kèm với một sổ đăng ký mô hình tự động tạo phiên bản cho các mô hình mới. Cơ quan đăng ký mô hình có quy trình công việc phê duyệt được tích hợp sẵn để chọn mô hình để suy luận trong quá trình sản xuất. Pipelines cũng cho phép các bước trong bộ nhớ đệm được gọi với các đối số giống nhau. Nếu một lần chạy trước đó được tìm thấy, một bộ đệm sẽ được tạo, cho phép khởi động lại dễ dàng thay vì tính toán lại các bước đã hoàn thành thành công.

Trong quá trình đánh giá, Pipelines nổi bật so với các giải pháp khác về tính linh hoạt và tính sẵn có của các tính năng hỗ trợ và mở rộng quy trình công việc hiện tại và tương lai. Việc chuyển sang Pipelines giúp giải phóng thời gian của các nhà phát triển khỏi việc bảo trì và khắc phục sự cố nền tảng và chuyển hướng sự chú ý đến việc bổ sung các tính năng mới. Trong bài đăng này, chúng tôi trình bày thiết kế cho quy trình đào tạo và suy luận tại nhóm Đổi mới bao bì của Amazon sử dụng Đường ống. Chúng tôi cũng thảo luận về những lợi ích và việc giảm chi phí mà nhóm thực hiện được bằng cách chuyển sang Đường ống.

Quy trình đào tạo

Nhóm Đổi mới Bao bì của Amazon đào tạo các mô hình cho mọi loại gói hàng bằng cách sử dụng ngày càng nhiều nhãn. Sơ đồ sau đây phác thảo toàn bộ quy trình.

Quy trình làm việc bắt đầu bằng cách trích xuất các nhãn và tính năng từ cơ sở dữ liệu Amazon Redshift và tải dữ liệu xuống Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) thông qua công việc trích xuất, chuyển đổi và tải (ETL) theo lịch trình. Cùng với dữ liệu đầu vào, một đối tượng tệp với kiểu mô hình và các tham số được đặt trong nhóm S3. Tệp này đóng vai trò là trình kích hoạt đường ống thông qua một hàm Lambda.

Các bước tiếp theo hoàn toàn có thể tùy chỉnh và được xác định hoàn toàn bởi một nhà khoa học dữ liệu bằng cách sử dụng SageMaker Python SDK cho Pipelines. Trong tình huống mà chúng tôi trình bày trong bài đăng này, dữ liệu đầu vào được chia thành các bộ đào tạo và xác nhận và được lưu trở lại trong nhóm S3 bằng cách khởi chạy công việc Xử lý SageMaker.

Khi dữ liệu đã sẵn sàng trong Amazon S3, công việc đào tạo SageMaker sẽ bắt đầu. Sau khi mô hình được đào tạo và tạo thành công, bước đánh giá mô hình được thực hiện trên dữ liệu xác nhận thông qua công việc chuyển đổi hàng loạt SageMaker. Các chỉ số mô hình sau đó được so sánh với các chỉ số mô hình của tuần trước bằng cách sử dụng công việc Xử lý SageMaker. Nhóm đã xác định nhiều tiêu chí tùy chỉnh để đánh giá độ lệch trong hiệu suất mô hình. Mô hình bị từ chối hoặc được chấp thuận dựa trên các tiêu chí này. Nếu mô hình bị từ chối, mô hình đã được phê duyệt trước đó được sử dụng cho các công việc suy luận tiếp theo. Nếu mô hình được chấp thuận, phiên bản của nó được đăng ký và mô hình đó được sử dụng cho các công việc suy luận. Các bên liên quan nhận được thông báo về kết quả qua amazoncloudwatch báo động.

Ảnh chụp màn hình sau từ Xưởng sản xuất Amazon SageMaker hiển thị các bước của quy trình đào tạo.

Đường ống theo dõi từng lần chạy đường ống mà bạn có thể theo dõi trong Studio. Ngoài ra, bạn có thể truy vấn tiến trình chạy bằng cách sử dụng boto3 hoặc là Giao diện dòng lệnh AWS (AWS CLI). Bạn có thể hình dung các chỉ số mô hình trong Studio và so sánh các phiên bản mô hình khác nhau.

Đường dẫn suy luận

Nhóm Đổi mới Bao bì của Amazon làm mới các dự đoán cho toàn bộ kho sản phẩm hàng tháng. Dự đoán hàng ngày được tạo để cung cấp các đề xuất đóng gói đúng lúc cho khoảng không quảng cáo mới được thêm vào bằng cách sử dụng mô hình được đào tạo mới nhất. Điều này yêu cầu đường dẫn suy luận phải chạy hàng ngày với các khối lượng dữ liệu khác nhau. Sơ đồ sau minh họa quy trình làm việc này.

Tương tự như quy trình đào tạo, suy luận bắt đầu bằng việc dỡ dữ liệu từ Amazon Redshift sang thùng S3. Một đối tượng tệp được đặt trong Amazon S3 sẽ kích hoạt hàm Lambda khởi tạo đường dẫn suy luận. Các tính năng được chuẩn bị để suy luận và dữ liệu được chia thành các tệp có kích thước phù hợp bằng công việc Xử lý SageMaker. Tiếp theo, đường dẫn xác định mô hình được phê duyệt mới nhất để chạy các dự đoán và tải chúng vào nhóm S3. Cuối cùng, các dự đoán được tải trở lại Amazon Redshift bằng cách sử dụng API boto3-data trong công việc Xử lý SageMaker.

Ảnh chụp màn hình sau đây từ Studio hiển thị chi tiết đường dẫn suy luận.

Lợi ích của việc chọn kiến trúc quy trình làm việc ML với SageMaker Pipelines

Trong phần này, chúng ta thảo luận về những lợi ích mà nhóm Đổi mới bao bì của Amazon nhận ra bằng cách chuyển sang Đường ống để đào tạo và suy luận mô hình.

Các tính năng MLOps cấp sản xuất mới ra mắt

Trong khi so sánh các giải pháp bên trong và bên ngoài khác nhau cho giải pháp đường ống ML tiếp theo, một nhà khoa học dữ liệu duy nhất đã có thể tạo mẫu và phát triển phiên bản đầy đủ của quy trình làm việc ML với Pipelines trong môi trường Studio Jupyter trong vòng chưa đầy 3 tuần. Ngay cả ở giai đoạn tạo mẫu, rõ ràng là Pipelines đã cung cấp tất cả các thành phần cơ sở hạ tầng cần thiết cần thiết cho quy trình làm việc ở cấp độ sản xuất: lập phiên bản mô hình, bộ nhớ đệm và cảnh báo. Tính khả dụng ngay lập tức của các tính năng này có nghĩa là sẽ không mất thêm thời gian để phát triển và tùy chỉnh chúng. Đây là một minh chứng rõ ràng về giá trị, đã thuyết phục nhóm Đổi mới bao bì của Amazon rằng Pipelines là giải pháp phù hợp.

Tính linh hoạt trong việc phát triển các mô hình ML

Lợi ích lớn nhất đối với các nhà khoa học dữ liệu trong nhóm là khả năng thử nghiệm dễ dàng và lặp lại qua các mô hình khác nhau. Bất kể họ ưa thích khuôn khổ nào cho công việc ML của mình và số lượng các bước và tính năng mà nó liên quan, Pipelines đều đáp ứng nhu cầu của họ. Các nhà khoa học dữ liệu đã được trao quyền để thử nghiệm mà không cần phải chờ đợi để bắt đầu nước rút phát triển phần mềm để thêm một tính năng hoặc bước bổ sung.

Giam gia

Khả năng của Pipelines của SageMaker là tự do: bạn chỉ trả tiền cho các tài nguyên máy tính và lưu trữ liên quan đến đào tạo và suy luận. Tuy nhiên, khi nghĩ về chi phí, bạn không chỉ cần tính đến chi phí của các dịch vụ được sử dụng mà còn cả số giờ dành cho nhà phát triển cần thiết để duy trì quy trình làm việc, gỡ lỗi và vá nó. Điều phối với Pipelines đơn giản hơn vì nó bao gồm ít phần hơn và cơ sở hạ tầng quen thuộc. Trước đây, việc thêm một tính năng mới cần ít nhất hai người (nhà khoa học dữ liệu và kỹ sư phần mềm) tại nhóm Đổi mới bao bì của Amazon để thực hiện. Với đường ống được thiết kế lại, các nỗ lực kỹ thuật hiện đang hướng tới cơ sở hạ tầng tùy chỉnh bổ sung xung quanh đường ống, chẳng hạn như tạo một kho lưu trữ duy nhất để theo dõi mã học máy, đơn giản hóa việc triển khai mô hình trên các tài khoản AWS, phát triển các công việc ETL tích hợp và các chức năng có thể tái sử dụng.

Khả năng lưu vào bộ nhớ cache các bước với đầu vào tương tự cũng góp phần giảm chi phí, vì các nhóm ít có khả năng chạy lại toàn bộ đường ống. Thay vào đó, họ có thể dễ dàng bắt đầu nó từ điểm thất bại.

Kết luận

Nhóm Đổi mới Bao bì của Amazon đào tạo các mô hình ML hàng tháng và thường xuyên cập nhật các dự đoán cho các loại bao bì sản phẩm được đề xuất. Những đề xuất này đã giúp họ đạt được nhiều mục tiêu trong toàn đội và toàn công ty bằng cách giảm lãng phí và làm hài lòng khách hàng với mỗi đơn đặt hàng. Các đường ống đào tạo và suy luận phải chạy một cách đáng tin cậy một cách thường xuyên nhưng vẫn cho phép các mô hình được cải tiến liên tục.

Việc chuyển đổi sang Pipelines cho phép nhóm triển khai bốn kiến trúc mô hình đa phương thức mới để sản xuất trong vòng 2 tháng. Việc triển khai một mô hình mới sử dụng kiến trúc trước đó sẽ cần từ 5 ngày (với kiến trúc mô hình tương tự) đến 1 tháng (với kiến trúc mô hình mới). Việc triển khai cùng một mô hình bằng cách sử dụng Pipelines cho phép nhóm giảm thời gian phát triển xuống còn 4 giờ với cùng một kiến trúc mô hình và còn 5 ngày với một kiến trúc mô hình mới. Điều đó đánh giá mức tiết kiệm gần 80% thời gian làm việc.

Tài nguyên bổ sung

Để biết thêm thông tin, hãy xem các tài nguyên sau:

Về các tác giả

Ankur Shukla là Nhà khoa học dữ liệu chính tại AWS-ProServe có trụ sở tại Palo Alto. Ankur có hơn 15 năm kinh nghiệm tư vấn làm việc trực tiếp với khách hàng và giúp họ giải quyết vấn đề kinh doanh bằng công nghệ. Ông lãnh đạo nhiều sáng kiến về khoa học ứng dụng toàn cầu và ML-Ops trong AWS. Khi rảnh rỗi, anh thích đọc sách và dành thời gian cho gia đình.

Akash Singla là Kỹ sư phát triển hệ thống Sr. với nhóm Đổi mới bao bì của Amazon. Ông có hơn 17 năm kinh nghiệm giải quyết các vấn đề kinh doanh quan trọng thông qua công nghệ cho một số ngành dọc kinh doanh. Ông hiện đang tập trung vào việc nâng cấp cơ sở hạ tầng NAWS cho nhiều ứng dụng tập trung vào đóng gói để mở rộng quy mô chúng tốt hơn.

Vitalina Komashko là Nhà khoa học dữ liệu với Dịch vụ Chuyên nghiệp của AWS. Cô ấy có bằng Tiến sĩ Dược học và Độc chất học nhưng chuyển sang khoa học dữ liệu từ công việc thực nghiệm vì cô ấy muốn “sở hữu việc tạo ra dữ liệu và giải thích các kết quả”. Trước đó trong sự nghiệp của mình, cô đã làm việc với các công ty công nghệ sinh học và dược phẩm. Tại AWS, cô ấy thích giải quyết các vấn đề cho khách hàng từ nhiều ngành khác nhau và tìm hiểu về những thách thức độc đáo của họ.

Prasanth Meiyappan là một nhà khoa học ứng dụng của Sr. với Sự đổi mới bao bì của Amazon trong hơn 4 năm. Anh ấy có hơn 6 năm kinh nghiệm trong ngành về máy học và đã vận chuyển các sản phẩm để cải thiện trải nghiệm của khách hàng tìm kiếm và cải thiện trải nghiệm đóng gói của khách hàng. Prasanth đam mê tính bền vững và có bằng tiến sĩ về mô hình thống kê về biến đổi khí hậu.

Matthew kiện là một Nhà khoa học nghiên cứu của Sr. đang làm việc để tối ưu hóa lựa chọn loại gói bằng cách sử dụng phản hồi của khách hàng và máy học. Trước khi làm việc cho Amazon, Matt làm việc với tư cách là một post doc thực hiện các mô phỏng vật lý hạt ở Đức và ở kiếp trước, một giám đốc sản xuất các thiết bị cấy ghép y tế phóng xạ trong một công ty khởi nghiệp. Ông có bằng Tiến sĩ trong Vật lý của Đại học Michigan.

Dấu thời gian: Tháng Mười Một 3, 2022Tháng Mười Một 5, 2022

Dấu thời gian: Tháng Chín 30, 2022

Cải thiện độ ổn định và tính linh hoạt của đường ống ML tại Amazon Đổi mới bao bì với Đường ống Amazon SageMaker

Được xuất bản lại bởi Plato

Những thách thức của đường ống ML trước đây tại Amazon Bao bì Đổi mới

Quy trình đào tạo

Đường dẫn suy luận

Lợi ích của việc chọn kiến trúc quy trình làm việc ML với SageMaker Pipelines

Các tính năng MLOps cấp sản xuất mới ra mắt

Tính linh hoạt trong việc phát triển các mô hình ML

Giam gia

Kết luận

Tài nguyên bổ sung

Về các tác giả

Thêm từ Học máy AWS

Mới – Khả năng AI tạo ra không cần mã hiện có sẵn trong Amazon SageMaker Canvas | Dịch vụ web của Amazon

Tự động đào tạo lại mạng lưới thần kinh với Renate

Tạo đường dẫn đề xuất hàng loạt bằng Amazon Personalize mà không cần mã

Sắp xếp bản chép lời của bạn thành các đoạn văn với Amazon Transcribe | Dịch vụ web của Amazon

Kích hoạt quy trình công việc ML kết hợp trên Amazon EKS và Amazon SageMaker bằng triển khai Kubeflow trên AWS chỉ bằng một cú nhấp chuột

Đào tạo và triển khai các mô hình ML trong môi trường nhiều đám mây bằng Amazon SageMaker | Dịch vụ web của Amazon

Dự báo doanh thu quy mô lớn tại Bosch với các mô hình tùy chỉnh Amazon Forecast và Amazon SageMaker

Tự động hóa việc gắn nhãn trước PDF cho Amazon Comprehend | Dịch vụ web của Amazon

Xử lý áp lực thực tế trận đấu Bundesliga: Đánh giá màn trình diễn của các cầu thủ trong các tình huống áp lực cao trên AWS

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản

Những thách thức của đường ống ML trước đây tại Amazon Bao bì Đổi mới

Quy trình đào tạo

Đường dẫn suy luận

Lợi ích của việc chọn kiến ​​trúc quy trình làm việc ML với SageMaker Pipelines

Các tính năng MLOps cấp sản xuất mới ra mắt

Tính linh hoạt trong việc phát triển các mô hình ML

Giam gia

Kết luận

Tài nguyên bổ sung

Về các tác giả

Thêm từ Học máy AWS

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản

Lợi ích của việc chọn kiến trúc quy trình làm việc ML với SageMaker Pipelines