Cách Getir giảm 90% thời lượng đào tạo mô hình bằng Amazon SageMaker và AWS Batch | Dịch vụ web của Amazon

Cách Getir giảm 90% thời lượng đào tạo mô hình bằng Amazon SageMaker và AWS Batch | Dịch vụ web của Amazon

Đây là bài đăng của khách được đồng tác giả bởi Nafi Ahmet Turgut, Hasan Burak Yel và Damla Şentürk từ Getir.

Được thành lập vào 2015, mang đã định vị mình là người tiên phong trong lĩnh vực giao hàng tạp hóa cực nhanh. Công ty công nghệ tiên tiến này đã cách mạng hóa phân khúc giao hàng chặng cuối với việc cung cấp “hàng tạp hóa trong vài phút” hấp dẫn. Với sự hiện diện trên khắp Thổ Nhĩ Kỳ, Vương quốc Anh, Hà Lan, Đức và Hoa Kỳ, Getir đã trở thành một lực lượng đa quốc gia đáng tin cậy. Ngày nay, thương hiệu Getir đại diện cho một tập đoàn đa dạng bao gồm chín ngành dọc khác nhau, tất cả đều hoạt động phối hợp dưới một chiếc ô duy nhất.

Trong bài đăng này, chúng tôi giải thích cách chúng tôi xây dựng quy trình dự đoán danh mục sản phẩm từ đầu đến cuối để trợ giúp các nhóm thương mại bằng cách sử dụng Amazon SageMakerHàng loạt AWS, giảm 90% thời gian đào tạo mô hình.

Hiểu rõ các loại sản phẩm hiện có của chúng tôi một cách chi tiết là một thách thức quan trọng mà chúng tôi cùng với nhiều doanh nghiệp phải đối mặt trong thị trường cạnh tranh và nhịp độ nhanh ngày nay. Một giải pháp hữu hiệu cho vấn đề này là dự đoán chủng loại sản phẩm. Mô hình tạo ra cây danh mục toàn diện cho phép nhóm thương mại của chúng tôi đánh giá danh mục sản phẩm hiện tại của chúng tôi so với danh mục sản phẩm của đối thủ cạnh tranh, mang lại lợi thế chiến lược. Do đó, thách thức trọng tâm của chúng tôi là tạo ra và triển khai mô hình dự đoán danh mục sản phẩm chính xác.

Chúng tôi đã tận dụng các công cụ mạnh mẽ do AWS cung cấp để giải quyết thách thức này và điều hướng một cách hiệu quả lĩnh vực machine learning (ML) và phân tích dự đoán phức tạp. Những nỗ lực của chúng tôi đã dẫn đến việc tạo thành công quy trình dự đoán danh mục sản phẩm từ đầu đến cuối, kết hợp các điểm mạnh của SageMaker và AWS Batch.

Khả năng phân tích dự đoán này, đặc biệt là dự báo chính xác về danh mục sản phẩm, đã được chứng minh là vô giá. Nó cung cấp cho nhóm của chúng tôi những hiểu biết quan trọng dựa trên dữ liệu giúp tối ưu hóa việc quản lý hàng tồn kho, tăng cường tương tác với khách hàng và tăng cường sự hiện diện trên thị trường của chúng tôi.

Phương pháp mà chúng tôi giải thích trong bài đăng này bao gồm từ giai đoạn đầu của việc thu thập tập hợp tính năng cho đến giai đoạn triển khai cuối cùng của quy trình dự đoán. Một khía cạnh quan trọng trong chiến lược của chúng tôi là việc sử dụng SageMaker và AWS Batch để tinh chỉnh các mô hình BERT được đào tạo trước cho bảy ngôn ngữ khác nhau. Ngoài ra, khả năng tích hợp liền mạch của chúng tôi với dịch vụ lưu trữ đối tượng của AWS Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) là chìa khóa để lưu trữ và truy cập hiệu quả các mô hình tinh tế này.

SageMaker là dịch vụ ML được quản lý hoàn toàn. Với SageMaker, các nhà khoa học và nhà phát triển dữ liệu có thể xây dựng và huấn luyện các mô hình ML một cách nhanh chóng và dễ dàng, sau đó trực tiếp triển khai chúng vào môi trường lưu trữ sẵn sàng cho sản xuất.

Là một dịch vụ được quản lý toàn phần, AWS Batch giúp bạn chạy khối lượng công việc điện toán hàng loạt ở mọi quy mô. AWS Batch tự động cung cấp tài nguyên điện toán và tối ưu hóa việc phân bổ khối lượng công việc dựa trên số lượng và quy mô của khối lượng công việc. Với AWS Batch, không cần cài đặt hay quản lý phần mềm tính toán hàng loạt, do đó bạn có thể tập trung thời gian vào việc phân tích kết quả và giải quyết vấn đề. Chúng tôi đã sử dụng các tác vụ GPU giúp chúng tôi chạy các tác vụ sử dụng GPU của phiên bản.

Tổng quan về giải pháp

Năm người từ nhóm khoa học dữ liệu và nhóm cơ sở hạ tầng của Getir đã làm việc cùng nhau trong dự án này. Dự án được hoàn thành trong một tháng và triển khai sản xuất sau một tuần thử nghiệm.

Sơ đồ sau đây cho thấy kiến ​​trúc của giải pháp.

Cách Getir giảm 90% thời gian đào tạo mô hình bằng Amazon SageMaker và AWS Batch | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Đường dẫn mô hình được chạy riêng cho từng quốc gia. Kiến trúc bao gồm hai công việc định kỳ GPU AWS Batch cho mỗi quốc gia, chạy theo lịch trình xác định.

Chúng tôi đã vượt qua một số thách thức bằng cách triển khai chiến lược các tài nguyên GPU SageMaker và AWS Batch. Quá trình được sử dụng để giải quyết từng khó khăn được trình bày chi tiết trong các phần sau.

Tinh chỉnh các mô hình BERT đa ngôn ngữ với các tác vụ GPU AWS Batch

Chúng tôi đã tìm kiếm giải pháp hỗ trợ nhiều ngôn ngữ cho cơ sở người dùng đa dạng của mình. Các mô hình BERT là một lựa chọn hiển nhiên do khả năng xử lý các tác vụ ngôn ngữ tự nhiên phức tạp một cách hiệu quả. Để điều chỉnh các mô hình này cho phù hợp với nhu cầu của mình, chúng tôi đã khai thác sức mạnh của AWS bằng cách sử dụng các tác vụ phiên bản GPU một nút. Điều này cho phép chúng tôi tinh chỉnh các mô hình BERT được đào tạo trước cho từng ngôn ngữ trong số bảy ngôn ngữ mà chúng tôi yêu cầu hỗ trợ. Thông qua phương pháp này, chúng tôi đảm bảo độ chính xác cao trong việc dự đoán danh mục sản phẩm, vượt qua mọi rào cản ngôn ngữ tiềm ẩn.

Lưu trữ mô hình hiệu quả bằng Amazon S3

Bước tiếp theo của chúng tôi là giải quyết vấn đề lưu trữ và quản lý mô hình. Để làm được điều này, chúng tôi đã chọn Amazon S3, nổi tiếng với khả năng mở rộng và bảo mật. Việc lưu trữ các mô hình BERT đã tinh chỉnh trên Amazon S3 cho phép chúng tôi cung cấp quyền truy cập dễ dàng cho các nhóm khác nhau trong tổ chức của mình, từ đó hợp lý hóa đáng kể quy trình triển khai của chúng tôi. Đây là một khía cạnh quan trọng trong việc đạt được sự linh hoạt trong hoạt động của chúng tôi và tích hợp liền mạch các nỗ lực ML của chúng tôi.

Tạo một đường dẫn dự đoán từ đầu đến cuối

Cần có một quy trình hiệu quả để tận dụng tốt nhất các mô hình được đào tạo trước của chúng tôi. Lần đầu tiên chúng tôi triển khai các mô hình này trên SageMaker, một hành động cho phép dự đoán theo thời gian thực với độ trễ thấp, từ đó nâng cao trải nghiệm người dùng của chúng tôi. Để dự đoán hàng loạt quy mô lớn hơn, vốn có tầm quan trọng không kém đối với hoạt động của chúng tôi, chúng tôi đã sử dụng các tác vụ GPU AWS Batch. Điều này đảm bảo việc sử dụng tối ưu các nguồn lực của chúng tôi, mang lại cho chúng tôi sự cân bằng hoàn hảo giữa hiệu suất và hiệu quả.

Khám phá các khả năng trong tương lai với MME SageMaker

Khi chúng tôi tiếp tục phát triển và tìm kiếm tính hiệu quả trong quy trình ML của mình, một con đường mà chúng tôi muốn khám phá là sử dụng điểm cuối đa mô hình (MME) của SageMaker để triển khai các mô hình tinh chỉnh của chúng tôi. Với MME, chúng tôi có thể hợp lý hóa việc triển khai nhiều mô hình tinh chỉnh khác nhau, đảm bảo quản lý mô hình hiệu quả đồng thời hưởng lợi từ các khả năng gốc của SageMaker như các biến thể bóng, tự động chia tỷ lệ và amazoncloudwatch hội nhập. Việc khám phá này phù hợp với việc chúng tôi không ngừng theo đuổi việc nâng cao khả năng phân tích dự đoán và cung cấp trải nghiệm vượt trội cho khách hàng.

Kết luận

Việc tích hợp thành công SageMaker và AWS Batch của chúng tôi không chỉ giải quyết được những thách thức cụ thể mà còn tăng cường đáng kể hiệu quả hoạt động của chúng tôi. Thông qua việc triển khai quy trình dự đoán danh mục sản phẩm phức tạp, chúng tôi có thể trao quyền cho các nhóm thương mại của mình những hiểu biết dựa trên dữ liệu, từ đó tạo điều kiện cho việc ra quyết định hiệu quả hơn.

Kết quả của chúng tôi nói lên rất nhiều về hiệu quả của phương pháp tiếp cận của chúng tôi. Chúng tôi đã đạt được độ chính xác dự đoán 80% trên cả bốn cấp độ chi tiết về danh mục, điều này đóng vai trò quan trọng trong việc định hình các loại sản phẩm cho từng quốc gia mà chúng tôi phục vụ. Mức độ chính xác này mở rộng phạm vi tiếp cận của chúng tôi vượt ra ngoài rào cản ngôn ngữ và đảm bảo chúng tôi phục vụ cơ sở người dùng đa dạng của mình với độ chính xác tối đa.

Hơn nữa, bằng cách sử dụng các tác vụ GPU AWS Batch theo lịch trình một cách chiến lược, chúng tôi đã có thể giảm 90% thời lượng đào tạo mô hình. Hiệu quả này đã tiếp tục hợp lý hóa các quy trình của chúng tôi và củng cố tính linh hoạt trong hoạt động của chúng tôi. Việc lưu trữ mô hình hiệu quả bằng cách sử dụng Amazon S3 đã đóng một vai trò quan trọng trong thành tựu này, giúp cân bằng cả dự đoán theo lô và theo thời gian thực.

Để biết thêm thông tin về cách bắt đầu xây dựng quy trình ML của riêng bạn với SageMaker, hãy xem Tài nguyên của Amazon SageMaker. AWS Batch là một lựa chọn tuyệt vời nếu bạn đang tìm kiếm giải pháp chi phí thấp, có thể mở rộng để chạy các tác vụ hàng loạt với chi phí vận hành thấp. Để bắt đầu, hãy xem Bắt đầu với AWS Batch.


Về các tác giả

Cách Getir giảm 90% thời gian đào tạo mô hình bằng Amazon SageMaker và AWS Batch | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Nafi Ahmet Turgut đã hoàn thành bằng thạc sĩ về Kỹ thuật Điện & Điện tử và làm nhà khoa học nghiên cứu sau đại học. Trọng tâm của ông là xây dựng các thuật toán học máy để mô phỏng các điểm bất thường của mạng lưới thần kinh. Anh gia nhập Getir vào năm 2019 và hiện đang làm Giám đốc phân tích & khoa học dữ liệu cấp cao. Nhóm của ông chịu trách nhiệm thiết kế, triển khai và duy trì các thuật toán học máy toàn diện cũng như các giải pháp dựa trên dữ liệu cho Getir.

Cách Getir giảm 90% thời gian đào tạo mô hình bằng Amazon SageMaker và AWS Batch | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Hasan Burak Yel nhận bằng cử nhân Kỹ thuật Điện & Điện tử tại Đại học Boğaziçi. Anh ấy làm việc tại Turkcell, chủ yếu tập trung vào dự báo chuỗi thời gian, trực quan hóa dữ liệu và tự động hóa mạng. Anh gia nhập Getir vào năm 2021 và hiện đang làm Giám đốc phân tích & khoa học dữ liệu với trách nhiệm về các lĩnh vực Tìm kiếm, Đề xuất và Phát triển.

Cách Getir giảm 90% thời gian đào tạo mô hình bằng Amazon SageMaker và AWS Batch | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Damla Şentürk nhận bằng cử nhân Kỹ thuật Máy tính tại Đại học Galatasaray. Cô tiếp tục lấy bằng thạc sĩ Kỹ thuật Máy tính tại Đại học Boğaziçi. Cô gia nhập Getir vào năm 2022 và đang làm Nhà khoa học dữ liệu. Cô đã làm việc trong các dự án liên quan đến thương mại, chuỗi cung ứng và khám phá.

Cách Getir giảm 90% thời gian đào tạo mô hình bằng Amazon SageMaker và AWS Batch | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Esra Kayabalı là Kiến trúc sư giải pháp cấp cao tại AWS, chuyên về lĩnh vực phân tích, bao gồm kho dữ liệu, hồ dữ liệu, phân tích dữ liệu lớn, truyền dữ liệu hàng loạt và thời gian thực cũng như tích hợp dữ liệu. Cô có 12 năm kinh nghiệm phát triển phần mềm và kiến ​​trúc. Cô đam mê học tập và giảng dạy công nghệ đám mây.

Dấu thời gian:

Thêm từ Học máy AWS