Phân tích mức chi tiêu của Amazon SageMaker và xác định các cơ hội tối ưu hóa chi phí dựa trên mức sử dụng, Phần 3: Công việc xử lý và sắp xếp dữ liệu

Được xuất bản lại bởi Plato

Người theo dõi: 0

Năm 2021, chúng tôi ra mắt Dịch vụ chủ động hỗ trợ AWS như là một phần của Hỗ trợ doanh nghiệp AWS kế hoạch. Kể từ khi được giới thiệu, chúng tôi đã giúp hàng trăm khách hàng tối ưu hóa khối lượng công việc của họ, đặt lan can bảo vệ và cải thiện khả năng hiển thị chi phí và mức sử dụng khối lượng công việc học máy (ML) của họ.

Trong loạt bài viết này, chúng tôi chia sẻ các bài học kinh nghiệm về tối ưu hóa chi phí trong Amazon SageMaker. Trong bài đăng này, chúng tôi tập trung vào tiền xử lý dữ liệu bằng cách sử dụng Chế biến Amazon SageMaker và Trình sắp xếp dữ liệu Amazon SageMaker việc làm.

Tiền xử lý dữ liệu đóng vai trò then chốt trong cách tiếp cận AI lấy dữ liệu làm trung tâm. Tuy nhiên, việc chuẩn bị dữ liệu thô để đào tạo và đánh giá ML thường là một nhiệm vụ tẻ nhạt và đòi hỏi nhiều tài nguyên tính toán, thời gian và nỗ lực của con người. Việc chuẩn bị dữ liệu thường cần được tích hợp từ các nguồn khác nhau và xử lý các giá trị bị thiếu hoặc nhiễu, các giá trị ngoại lệ, v.v.

Ngoài ra, ngoài các tác vụ trích xuất, chuyển đổi và tải (ETL) phổ biến, các nhóm ML đôi khi yêu cầu các khả năng nâng cao hơn như tạo mô hình nhanh để đánh giá dữ liệu và tạo ra điểm quan trọng của tính năng hoặc đánh giá mô hình sau đào tạo như một phần của quy trình MLOps.

SageMaker cung cấp hai tính năng được thiết kế đặc biệt để trợ giúp những vấn đề đó: Xử lý SageMaker và Trình sắp xếp dữ liệu. Xử lý SageMaker cho phép bạn dễ dàng chạy tiền xử lý, hậu xử lý và đánh giá mô hình trên cơ sở hạ tầng được quản lý hoàn toàn. Data Wrangler giảm thời gian cần thiết để tổng hợp và chuẩn bị dữ liệu bằng cách đơn giản hóa quy trình tích hợp nguồn dữ liệu và kỹ thuật tính năng bằng một giao diện trực quan duy nhất và môi trường xử lý dữ liệu phân tán đầy đủ.

Cả hai tính năng của SageMaker đều cung cấp tính linh hoạt cao với một số tùy chọn cho I/O, lưu trữ và tính toán. Tuy nhiên, việc đặt các tùy chọn đó không chính xác có thể dẫn đến chi phí không cần thiết, đặc biệt là khi xử lý các tập dữ liệu lớn.

Trong bài đăng này, chúng tôi phân tích các yếu tố định giá và cung cấp hướng dẫn tối ưu hóa chi phí cho các công việc Xử lý SageMaker và Trình sắp xếp dữ liệu.

Xử lý SageMaker

Xử lý SageMaker là một giải pháp được quản lý để chạy khối lượng công việc xử lý dữ liệu và đánh giá mô hình. Bạn có thể sử dụng nó trong các bước xử lý dữ liệu, chẳng hạn như kỹ thuật tính năng, xác thực dữ liệu, đánh giá mô hình và diễn giải mô hình trong quy trình công việc ML. Với Xử lý SageMaker, bạn có thể mang tập lệnh xử lý tùy chỉnh của riêng mình và chọn tạo vùng chứa tùy chỉnh hoặc sử dụng vùng chứa do SageMaker quản lý với các khung phổ biến như scikit-learning, Lime, Spark, v.v.

SageMaker Xử lý tính phí cho loại phiên bản bạn chọn, dựa trên thời lượng sử dụng và dung lượng lưu trữ được cung cấp đi kèm với phiên bản đó. Trong Phần 1, chúng tôi đã chỉ ra cách bắt đầu sử dụng Trình khám phá chi phí AWS để xác định các cơ hội tối ưu hóa chi phí trong SageMaker.

Bạn có thể lọc chi phí xử lý bằng cách áp dụng bộ lọc theo loại sử dụng. Tên của các kiểu sử dụng này như sau:

REGION-Processing:instanceType (ví dụ, USE1-Processing:ml.m5.large)
REGION-Processing:VolumeUsage.gp2 (ví dụ, USE1-Processing:VolumeUsage.gp2)

Để xem lại chi phí Xử lý SageMaker của bạn trong Cost Explorer, hãy bắt đầu bằng cách lọc với SageMaker cho Dịch vụ, Và cho Loại sử dụng, bạn có thể chọn tất cả các phiên bản xử lý số giờ chạy bằng cách nhập processing:ml tiền tố và chọn danh sách trên menu.

Tránh chi phí xử lý và phát triển đường ống

Trước khi định cỡ phù hợp và tối ưu hóa thời lượng chạy của công việc Xử lý SageMaker, chúng tôi kiểm tra các số liệu cấp cao về các lần chạy công việc lịch sử. Bạn có thể chọn từ hai phương pháp để làm điều này.

Đầu tiên, bạn có thể truy cập vào Chế biến trên bảng điều khiển SageMaker.

Ngoài ra, bạn có thể sử dụng API list_processing_jobs.

Trạng thái công việc Đang xử lý có thể là InProgress, Completed, Failed, Stopping, hoặc là Stopped.

Một số lượng lớn các công việc không thành công là phổ biến khi phát triển các đường ống MLOps mới. Tuy nhiên, bạn phải luôn kiểm tra và thực hiện mọi nỗ lực để xác thực công việc trước khi khởi chạy chúng trên SageMaker vì tài nguyên được sử dụng phải trả phí. Với mục đích đó, bạn có thể sử dụng Xử lý SageMaker trong chế độ cục bộ. Chế độ cục bộ là một tính năng SDK của SageMaker cho phép bạn tạo công cụ ước tính, bộ xử lý và đường ống, đồng thời triển khai chúng vào môi trường phát triển cục bộ của bạn. Đây là một cách tuyệt vời để kiểm tra tập lệnh của bạn trước khi chạy chúng trong môi trường do SageMaker quản lý. Chế độ cục bộ được hỗ trợ bởi các vùng chứa do SageMaker quản lý và các vùng chứa do bạn tự cung cấp. Để tìm hiểu thêm về cách sử dụng chế độ cục bộ với Đường ống Amazon SageMaker, tham khảo Chế độ cục bộ.

Tối ưu hóa chi phí liên quan đến I/O

Công việc xử lý SageMaker cung cấp quyền truy cập vào ba nguồn dữ liệu như một phần của quản lý xử lý đầu vào: Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athenavà Amazon RedShift. Để biết thêm thông tin, hãy tham khảo Đang xử lýS3Đầu vào, AthenaDatasetĐịnh nghĩavà RedshiftDatasetĐịnh nghĩa, Tương ứng.

Trước khi xem xét tối ưu hóa, điều quan trọng cần lưu ý là mặc dù các công việc Xử lý SageMaker hỗ trợ các nguồn dữ liệu này nhưng chúng không bắt buộc. Trong mã xử lý của mình, bạn có thể triển khai bất kỳ phương thức nào để tải xuống dữ liệu truy cập từ bất kỳ nguồn nào (miễn là phiên bản xử lý có thể truy cập dữ liệu đó).

Để hiểu rõ hơn về hiệu suất xử lý và phát hiện các cơ hội tối ưu hóa, chúng tôi khuyên bạn nên làm theo ghi nhật ký các phương pháp hay nhất trong tập lệnh xử lý của bạn. SageMaker xuất bản nhật ký xử lý của bạn tới amazoncloudwatch.

Trong nhật ký công việc ví dụ sau, chúng tôi thấy rằng quá trình xử lý tập lệnh mất 15 phút (giữa Start custom script và End custom script).

Tuy nhiên, trên bảng điều khiển SageMaker, chúng tôi thấy rằng công việc mất thêm 4 phút (gần 25% tổng thời gian chạy của công việc).

Điều này là do ngoài thời gian xử lý tập lệnh của chúng tôi, việc tải xuống và tải lên dữ liệu do SageMaker quản lý cũng mất thời gian (4 phút). Nếu đây là một phần lớn trong chi phí, hãy xem xét các cách khác để tăng tốc thời gian tải xuống, chẳng hạn như sử dụng API Boto3 với tính năng đa xử lý để tải xuống tệp đồng thời hoặc sử dụng thư viện của bên thứ ba như WebDataset hoặc s5cmd để tải xuống nhanh hơn từ Amazon S3 . Để biết thêm thông tin, hãy tham khảo Song song hóa khối lượng công việc S3 với s5cmd. Lưu ý rằng các phương pháp như vậy có thể gây ra phí trong Amazon S3 do truyền dữ liệu.

Công việc xử lý cũng hỗ trợ Chế độ ống. Với phương pháp này, SageMaker truyền trực tiếp dữ liệu đầu vào từ nguồn đến vùng chứa xử lý của bạn thành các đường dẫn có tên mà không cần sử dụng dung lượng lưu trữ ML, do đó loại bỏ thời gian tải xuống dữ liệu và dung lượng ổ đĩa nhỏ hơn. Tuy nhiên, điều này đòi hỏi một mô hình lập trình phức tạp hơn là chỉ đọc từ các tệp trên đĩa.

Như đã đề cập trước đó, SageMaker Xử lý cũng hỗ trợ Athena và Amazon Redshift làm nguồn dữ liệu. Khi thiết lập tác vụ Xử lý với các nguồn này, SageMaker sẽ tự động sao chép dữ liệu sang Amazon S3 và phiên bản xử lý sẽ tìm nạp dữ liệu từ vị trí Amazon S3. Tuy nhiên, khi công việc kết thúc, sẽ không có quy trình dọn dẹp được quản lý nào và dữ liệu được sao chép sẽ vẫn còn trên Amazon S3 và có thể phát sinh phí lưu trữ không mong muốn. Do đó, khi sử dụng nguồn dữ liệu Athena và Amazon Redshift, hãy đảm bảo triển khai quy trình dọn dẹp, chẳng hạn như hàm Lambda chạy theo lịch trình hoặc trong một Bước Lambda như một phần của đường dẫn SageMaker.

Giống như tải xuống, tải lên các tạo phẩm xử lý cũng có thể là một cơ hội để tối ưu hóa. Khi đầu ra của công việc Đang xử lý được định cấu hình bằng cách sử dụng ProcessingS3Output tham số, bạn có thể chỉ định cái nào S3UploadMode để sử dụng. Các S3UploadMode giá trị mặc định của tham số là EndOfJob, sẽ yêu cầu SageMaker tải kết quả lên sau khi công việc hoàn thành. Tuy nhiên, nếu công việc Xử lý của bạn tạo ra nhiều tệp, bạn có thể đặt S3UploadMode đến Continuous, do đó cho phép tải lên các thành phần lạ đồng thời khi quá trình xử lý tiếp tục và giảm thời gian chạy công việc.

Các phiên bản công việc xử lý kích thước phù hợp

Việc chọn đúng loại và kích thước phiên bản là yếu tố chính giúp tối ưu hóa chi phí cho các công việc Xử lý SageMaker. Bạn có thể điều chỉnh kích thước phù hợp của một phiên bản bằng cách di chuyển sang một phiên bản khác trong cùng một dòng phiên bản hoặc bằng cách di chuyển sang một dòng phiên bản khác. Khi di chuyển trong cùng một dòng phiên bản, bạn chỉ cần xem xét CPU/GPU và bộ nhớ. Để biết thêm thông tin và hướng dẫn chung về cách chọn tài nguyên xử lý phù hợp, hãy tham khảo Đảm bảo tài nguyên điện toán hiệu quả trên Amazon SageMaker.

Để tinh chỉnh lựa chọn phiên bản, chúng tôi bắt đầu bằng cách phân tích các chỉ số về công việc Xử lý trong CloudWatch. Để biết thêm thông tin, hãy tham khảo Giám sát Amazon SageMaker với Amazon CloudWatch.

CloudWatch thu thập dữ liệu thô từ SageMaker và xử lý dữ liệu đó thành các chỉ số gần thời gian thực có thể đọc được. Mặc dù các số liệu thống kê này được lưu giữ trong 15 tháng, nhưng bảng điều khiển CloudWatch giới hạn tìm kiếm ở các số liệu được cập nhật trong 2 tuần qua (điều này đảm bảo rằng chỉ các công việc hiện tại mới được hiển thị). Bạn có thể tìm thấy các chỉ số về công việc xử lý trong không gian tên /aws/sagemaker/ProcessingJobs và các chỉ số được thu thập là CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilizationvà DiskUtilization.

Ảnh chụp màn hình sau đây hiển thị một ví dụ trong CloudWatch về công việc Đang xử lý mà chúng ta đã thấy trước đó.

Trong ví dụ này, chúng ta thấy các giá trị CPU và bộ nhớ trung bình (là giá trị mặc định trong CloudWatch): mức sử dụng CPU trung bình là 0.04%, bộ nhớ 1.84% và mức sử dụng ổ đĩa 13.7%. Để có kích thước phù hợp, hãy luôn xem xét mức sử dụng CPU và bộ nhớ tối đa (trong ví dụ này, mức sử dụng CPU tối đa là 98% trong 3 phút đầu tiên). Theo nguyên tắc chung, nếu mức sử dụng CPU và bộ nhớ tối đa của bạn luôn thấp hơn 40%, bạn có thể cắt đôi máy một cách an toàn. Ví dụ: nếu đang sử dụng phiên bản ml.c5.4xlarge, bạn có thể chuyển sang phiên bản ml.c5.2xlarge, điều này có thể giảm 50% chi phí của bạn.

Việc làm Data Wrangler

Data Wrangler là một tính năng của Xưởng sản xuất Amazon SageMaker cung cấp một giải pháp có thể lặp lại và có thể mở rộng để khám phá và xử lý dữ liệu. Bạn sử dụng giao diện Trình sắp xếp dữ liệu để nhập, phân tích, chuyển đổi và làm nổi bật dữ liệu của mình một cách tương tác. Các bước đó được ghi lại trong một công thức (tệp .flow) mà sau đó bạn có thể sử dụng trong công việc Trình sắp xếp dữ liệu. Điều này giúp bạn áp dụng lại các chuyển đổi dữ liệu tương tự trên dữ liệu của mình và cũng mở rộng quy mô thành công việc xử lý dữ liệu hàng loạt được phân phối, như một phần của quy trình ML hoặc độc lập.

Để biết hướng dẫn về cách tối ưu hóa ứng dụng Data Wrangler của bạn trong Studio, hãy tham khảo Phần 2 trong loạt bài này.

Trong phần này, chúng tôi tập trung vào việc tối ưu hóa các công việc Data Wrangler.

Data Wrangler sử dụng SageMaker Spark xử lý công việc với vùng chứa do Data Wrangler quản lý. Bộ chứa này chạy các chỉ dẫn từ tệp .flow trong công việc. Giống như bất kỳ công việc xử lý nào, Data Wrangler tính phí cho các phiên bản bạn chọn, dựa trên thời lượng sử dụng và dung lượng lưu trữ được cung cấp đi kèm với phiên bản đó.

Trong Cost Explorer, bạn có thể lọc chi phí công việc Data Wrangler bằng cách áp dụng bộ lọc cho loại sử dụng. Tên của các kiểu sử dụng này là:

REGION-processing_DW:instanceType (ví dụ, USE1-processing_DW:ml.m5.large)
REGION-processing_DW:VolumeUsage.gp2 (ví dụ, USE1-processing_DW:VolumeUsage.gp2)

Để xem chi phí Data Wrangler của bạn trong Cost Explorer, hãy lọc dịch vụ để sử dụng SageMaker và để Loại sử dụng, chọn processing_DW tiền tố và chọn danh sách trên menu. Điều này sẽ cho bạn thấy cả chi phí liên quan đến mức sử dụng phiên bản (giờ) và dung lượng lưu trữ (GB). (Nếu muốn xem chi phí Studio Data Wrangler, bạn có thể lọc loại sử dụng theo Studio_DW tiếp đầu ngữ.)

Các phiên bản công việc Data Wrangler đúng kích cỡ và lên lịch

Hiện tại, Data Wrangler chỉ hỗ trợ phiên bản m5 với các kích thước phiên bản sau: ml.m5.4xlarge, ml.m5.12xlarge và ml.m5.24xlarge. Bạn có thể sử dụng tính năng công việc phân tán để tinh chỉnh chi phí công việc của mình. Ví dụ: giả sử bạn cần xử lý tập dữ liệu yêu cầu 350 GiB RAM. Phiên bản 4xlarge (128 GiB) và 12xlarge (256 GiB) có thể không xử lý được và sẽ khiến bạn phải sử dụng phiên bản m5.24xlarge (768 GiB). Tuy nhiên, bạn có thể sử dụng hai phiên bản m5.12xlarge (2 * 256 GiB = 512 GiB) và giảm 40% chi phí hoặc ba phiên bản m5.4xlarge (3 * 128 GiB = 384 GiB) và tiết kiệm 50% m5.24xlarge chi phí ví dụ. Bạn nên lưu ý rằng đây là những ước tính và việc xử lý phân tán có thể đưa ra một số chi phí hoạt động sẽ ảnh hưởng đến thời gian chạy tổng thể.

Khi thay đổi loại phiên bản, hãy đảm bảo bạn cập nhật cấu hình tia lửa cho phù hợp. Ví dụ: nếu bạn có một tác vụ phiên bản ml.m5.4xlarge ban đầu được định cấu hình với các thuộc tính spark.driver.memory đặt thành 2048 và spark.executor.memory được đặt thành 55742 và sau đó mở rộng thành ml.m5.12xlarge, các giá trị cấu hình đó cần được tăng lên, nếu không chúng sẽ là nút cổ chai trong công việc xử lý. Bạn có thể cập nhật các biến này trong GUI Trình sắp xếp dữ liệu hoặc trong tệp cấu hình được nối vào đường dẫn cấu hình (xem các ví dụ sau).

Một tính năng hấp dẫn khác trong Data Wrangler là khả năng thiết lập một công việc theo lịch trình. Nếu bạn đang xử lý dữ liệu định kỳ, bạn có thể tạo một lịch biểu để chạy công việc xử lý một cách tự động. Ví dụ: bạn có thể tạo một lịch trình tự động chạy một công việc xử lý khi bạn nhận được dữ liệu mới (ví dụ: xem Xuất sang Amazon S3 or Xuất sang Cửa hàng tính năng Amazon SageMaker). Tuy nhiên, bạn nên lưu ý rằng khi bạn tạo một lịch biểu, Data Wrangler sẽ tạo một eventRule trong EventBridge. Điều này có nghĩa là bạn cũng bị tính phí cho các quy tắc sự kiện mà bạn tạo (cũng như các phiên bản được sử dụng để chạy tác vụ xử lý). Để biết thêm thông tin, xem Giá Amazon EventBridge.

Kết luận

Trong bài đăng này, chúng tôi đã cung cấp hướng dẫn về phân tích chi phí và các phương pháp hay nhất khi tiền xử lý

dữ liệu bằng cách sử dụng các công việc Xử lý SageMaker và Data Wrangler. Tương tự như tiền xử lý, có nhiều tùy chọn và cài đặt cấu hình trong quá trình xây dựng, đào tạo và chạy các mô hình ML có thể dẫn đến chi phí không cần thiết. Do đó, khi máy học tự khẳng định mình là một công cụ mạnh mẽ trong các ngành, khối lượng công việc ML cần phải duy trì hiệu quả về chi phí.

SageMaker cung cấp một bộ tính năng rộng và sâu để hỗ trợ từng bước trong quy trình ML.

Sự mạnh mẽ này cũng cung cấp các cơ hội tối ưu hóa chi phí liên tục mà không ảnh hưởng đến hiệu suất hoặc sự linh hoạt.

Về các tác giả

Phân tích mức chi tiêu của Amazon SageMaker và xác định các cơ hội tối ưu hóa chi phí dựa trên mức sử dụng, Phần 3: Công việc xử lý và sắp xếp dữ liệu | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Deepali Rajale là Chuyên gia cao cấp về AI/ML tại AWS. Cô làm việc với các khách hàng doanh nghiệp để cung cấp hướng dẫn kỹ thuật với các phương pháp hay nhất để triển khai và duy trì các giải pháp AI/ML trong hệ sinh thái AWS. Cô ấy đã làm việc với nhiều tổ chức trong nhiều trường hợp sử dụng học sâu khác nhau liên quan đến NLP và thị giác máy tính. Cô ấy đam mê trao quyền cho các tổ chức tận dụng AI tổng quát để nâng cao trải nghiệm sử dụng của họ. Trong thời gian rảnh rỗi, cô ấy thích xem phim, âm nhạc và văn học.

Uri Rosenberg là Giám đốc Kỹ thuật Chuyên gia AI & ML cho Châu Âu, Trung Đông và Châu Phi. Có trụ sở tại Israel, Uri hoạt động để trao quyền cho khách hàng doanh nghiệp về tất cả mọi thứ ML để thiết kế, xây dựng và vận hành trên quy mô lớn. Khi rảnh rỗi, anh ấy thích đạp xe, đi bộ đường dài và ngắm hoàng hôn (ít nhất một lần một ngày).