Xử lý các tập dữ liệu lớn hơn và rộng hơn với Trình sắp xếp dữ liệu của Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trình sắp xếp dữ liệu Amazon SageMaker giảm thời gian tổng hợp và chuẩn bị dữ liệu cho máy học (ML) từ vài tuần xuống còn vài phút sau Xưởng sản xuất Amazon SageMaker. Data Wrangler có thể đơn giản hóa quá trình chuẩn bị dữ liệu và kỹ thuật tính năng của bạn, đồng thời giúp bạn lựa chọn, làm sạch, thăm dò và trực quan hóa dữ liệu. Data Wrangler có hơn 300 biến đổi tích hợp được viết bằng PySpark, vì vậy bạn có thể xử lý tập dữ liệu lên đến hàng trăm gigabyte một cách hiệu quả trên phiên bản mặc định, ml.m5.4xlarge.

Tuy nhiên, khi bạn làm việc với bộ dữ liệu có dung lượng lên đến hàng terabyte dữ liệu bằng cách sử dụng các phép biến đổi tích hợp sẵn, bạn có thể gặp phải thời gian xử lý lâu hơn hoặc có thể xảy ra lỗi hết bộ nhớ. Dựa trên yêu cầu dữ liệu của bạn, bây giờ bạn có thể sử dụng Đám mây điện toán đàn hồi Amazon (Amazon EC2) Phiên bản M5 và Phiên bản R5. Ví dụ: bạn có thể bắt đầu với một phiên bản mặc định (ml.m5.4xlarge) và sau đó chuyển sang ml.m5.24xlarge hoặc ml.r5.24xlarge. Bạn có tùy chọn chọn các loại phiên bản khác nhau và tìm cách cân bằng tốt nhất giữa chi phí chạy và thời gian xử lý. Vào lần tiếp theo khi bạn đang làm việc về chuyển đổi chuỗi thời gian và chạy các máy biến áp nặng để cân bằng dữ liệu của mình, bạn có thể định kích thước phù hợp đối tượng Data Wrangler của mình để chạy các quy trình này nhanh hơn.

Khi xử lý hàng chục gigabyte hoặc thậm chí nhiều hơn với biến đổi Pandas tùy chỉnh, bạn có thể gặp phải lỗi hết bộ nhớ. Bạn có thể chuyển từ phiên bản mặc định (ml.m5.4xlarge) sang ml.m5.24xlarge và quá trình chuyển đổi sẽ kết thúc mà không có bất kỳ lỗi nào. Chúng tôi đã đánh giá kỹ lưỡng và quan sát tốc độ tuyến tính khi chúng tôi tăng kích thước phiên bản trên một danh mục tập dữ liệu.

Trong bài đăng này, chúng tôi chia sẻ những phát hiện của mình từ hai bài kiểm tra điểm chuẩn để chứng minh cách bạn có thể xử lý tập dữ liệu lớn hơn và rộng hơn với Data Wrangler.

Các bài kiểm tra điểm chuẩn của Data Wrangler

Hãy xem lại hai bài kiểm tra chúng tôi đã chạy, truy vấn tổng hợp và mã hóa một lần, với các loại phiên bản khác nhau bằng cách sử dụng máy biến áp tích hợp sẵn PySpark và biến đổi Pandas tùy chỉnh. Các phép biến đổi không yêu cầu tổng hợp kết thúc nhanh chóng và hoạt động tốt với kiểu phiên bản mặc định, vì vậy chúng tôi tập trung vào các truy vấn tổng hợp và các phép biến đổi với phép tổng hợp. Chúng tôi đã lưu trữ tập dữ liệu thử nghiệm của mình trên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Kích thước mở rộng của tập dữ liệu này là khoảng 100 GB với 80 triệu hàng và 300 cột. Chúng tôi đã sử dụng các chỉ số giao diện người dùng để kiểm tra điểm chuẩn thời gian và đo lường độ trễ đối mặt với khách hàng từ đầu đến cuối. Khi nhập tập dữ liệu thử nghiệm của chúng tôi, chúng tôi đã vô hiệu hóa việc lấy mẫu. Lấy mẫu được bật theo mặc định và Data Wrangler chỉ xử lý 100 hàng đầu tiên khi được bật. X

Khi chúng tôi tăng kích thước phiên bản Data Wrangler, chúng tôi đã quan sát thấy tốc độ tăng tốc gần như tuyến tính của các phép biến đổi tích hợp sẵn trong Data Wrangler và Spark SQL tùy chỉnh. Kiểm tra truy vấn tổng hợp gấu trúc chỉ hoàn thành khi chúng tôi sử dụng các phiên bản lớn hơn ml.m5.16xl và Pandas cần 180 GB bộ nhớ để xử lý các truy vấn tổng hợp cho tập dữ liệu này.

Bảng sau đây tóm tắt kết quả kiểm tra truy vấn tổng hợp.

Sơ thẩm	vCPU	Bộ nhớ (GiB)	Thời gian biến đổi Spark tích hợp Data Wrangler	Giờ gấu trúc (Biến đổi tùy chỉnh)
ml.m5.4xl	16	64	229 giây	Hết bộ nhớ
ml.m5.8xl	32	128	130 giây	Hết bộ nhớ
ml.m5.16xl	64	256	52 giây	30 phút

Bảng sau đây tóm tắt các kết quả kiểm tra mã hóa một nóng.

Sơ thẩm	vCPU	Bộ nhớ (GiB)	Thời gian biến đổi Spark tích hợp Data Wrangler	Giờ gấu trúc (Biến đổi tùy chỉnh)
ml.m5.4xl	16	64	228 giây	Hết bộ nhớ
ml.m5.8xl	32	128	130 giây	Hết bộ nhớ
ml.m5.16xl	64	256	52 giây	Hết bộ nhớ

Chuyển đổi kiểu phiên bản của luồng dữ liệu

Để chuyển đổi kiểu phiên bản của luồng, hãy hoàn thành các bước sau:

Trên bảng điều khiển Amazon SageMaker Data Wrangler, điều hướng đến luồng dữ liệu mà bạn hiện đang sử dụng.
Chọn loại phiên bản trên thanh điều hướng.
Chọn loại phiên bản mà bạn muốn sử dụng.
Chọn Lưu.

Một thông báo tiến trình xuất hiện.

Khi quá trình chuyển đổi hoàn tất, một thông báo thành công sẽ xuất hiện.

Data Wrangler sử dụng kiểu phiên bản đã chọn để phân tích dữ liệu và biến đổi dữ liệu. Phiên bản mặc định và phiên bản bạn chuyển sang (ml.m5.16xlarge) đều đang chạy. Bạn có thể thay đổi loại phiên bản hoặc chuyển về phiên bản mặc định trước khi chạy một chuyển đổi cụ thể.

Tắt các phiên bản không sử dụng

Bạn bị tính phí cho tất cả các phiên bản đang chạy. Để tránh phát sinh các khoản phí bổ sung, hãy tắt các phiên bản mà bạn không sử dụng theo cách thủ công. Để tắt một phiên bản đang chạy, hãy hoàn thành các bước sau:

Trên trang luồng dữ liệu của bạn, hãy chọn biểu tượng phiên bản trong ngăn bên trái của giao diện người dùng bên dưới Phiên bản đang chạy.
Chọn Đóng cửa.

Nếu bạn tắt một phiên bản được sử dụng để chạy một luồng, thì bạn tạm thời không thể truy cập luồng đó. Nếu bạn gặp lỗi khi mở luồng đang chạy phiên bản mà bạn đã tắt trước đó, hãy đợi khoảng 5 phút và thử mở lại.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cách xử lý các tập dữ liệu lớn hơn và rộng hơn với Data Wrangler bằng cách chuyển các phiên bản sang loại phiên bản M5 hoặc R5 lớn hơn. Phiên bản M5 cung cấp sự cân bằng về tài nguyên máy tính, bộ nhớ và mạng. Phiên bản R5 là các phiên bản được tối ưu hóa bộ nhớ. Cả M5 và R5 đều cung cấp các loại phiên bản để tối ưu hóa chi phí và hiệu suất cho khối lượng công việc của bạn.

Để tìm hiểu thêm về cách sử dụng luồng dữ liệu với Data Wrangler, hãy tham khảo Tạo và sử dụng Luồng trình xử lý dữ liệu và Amazon SageMaker Giá. Để bắt đầu với Data Wrangler, hãy xem Chuẩn bị dữ liệu ML với Amazon SageMaker Data Wrangler.

Về các tác giả

Haider Naqvi là Kiến trúc sư Giải pháp tại AWS. Ông có nhiều kinh nghiệm phát triển phần mềm và kiến trúc doanh nghiệp. Anh ấy tập trung vào việc cho phép khách hàng đạt được kết quả kinh doanh với AWS. Anh ấy sống ở New York.

Hương Nguyễn là Giám đốc Sản phẩm của Sr. tại AWS. Cô đang dẫn đầu việc tích hợp hệ sinh thái dữ liệu cho SageMaker, với 14 năm kinh nghiệm xây dựng các sản phẩm lấy khách hàng làm trung tâm và hướng vào dữ liệu cho cả không gian doanh nghiệp và người tiêu dùng.

Meenakshisundaram Thandavarayan là chuyên gia cao cấp về AI / ML của AWS. Anh ấy giúp các tài khoản chiến lược công nghệ cao trên hành trình AI và ML của họ. Anh ấy rất đam mê về AI theo hướng dữ liệu.

Sriharsha M Sr là Kiến trúc sư Giải pháp Chuyên gia về AI / ML trong nhóm Chuyên gia Chiến lược tại Amazon Web Services. Anh ấy làm việc với các khách hàng AWS chiến lược, những người đang tận dụng AI / ML để giải quyết các vấn đề kinh doanh phức tạp. Ông cung cấp hướng dẫn kỹ thuật và tư vấn thiết kế để triển khai các ứng dụng AI / ML trên quy mô lớn. Chuyên môn của anh ấy bao gồm kiến trúc ứng dụng, dữ liệu lớn, phân tích và học máy.

Nikita Ivkin là một Nhà Khoa học Ứng dụng, Amazon SageMaker Data Wrangler.

Dấu thời gian: 6 Tháng Năm, 2022

Dấu thời gian: Tháng Mười Hai 16, 2022

Giới thiệu Thẻ dịch vụ AWS AI: Tài nguyên mới để nâng cao tính minh bạch và nâng cao AI có trách nhiệm

Cụm nguồn:

Học máy AWS

Nút nguồn: 1766345

Dấu thời gian: Tháng Mười Một 30, 2022

Được xuất bản lại bởi Plato

Amazon SageMaker Autopilot nhanh hơn tới tám lần với chế độ đào tạo theo nhóm mới được cung cấp bởi AutoGluon

Đào tạo phân tán và mở rộng quy mô hiệu quả với Thư viện song song dữ liệu và song song mô hình Amazon SageMaker | Dịch vụ web của Amazon

Xác định nguyên nhân gốc rễ tiềm ẩn trong các bất thường nghiêm trọng trong kinh doanh bằng cách sử dụng Amazon Lookout for Metrics

Gia tăng các giao dịch gian lận bằng cách sử dụng dữ liệu tổng hợp trong Amazon SageMaker

Giới thiệu Thẻ dịch vụ AWS AI: Tài nguyên mới để nâng cao tính minh bạch và nâng cao AI có trách nhiệm

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản