Trình sắp xếp dữ liệu Amazon SageMaker giảm thời gian tổng hợp và chuẩn bị dữ liệu cho máy học (ML) từ vài tuần xuống còn vài phút sau Xưởng sản xuất Amazon SageMaker. Data Wrangler có thể đơn giản hóa quá trình chuẩn bị dữ liệu và kỹ thuật tính năng của bạn, đồng thời giúp bạn lựa chọn, làm sạch, thăm dò và trực quan hóa dữ liệu. Data Wrangler có hơn 300 biến đổi tích hợp được viết bằng PySpark, vì vậy bạn có thể xử lý tập dữ liệu lên đến hàng trăm gigabyte một cách hiệu quả trên phiên bản mặc định, ml.m5.4xlarge.
Tuy nhiên, khi bạn làm việc với bộ dữ liệu có dung lượng lên đến hàng terabyte dữ liệu bằng cách sử dụng các phép biến đổi tích hợp sẵn, bạn có thể gặp phải thời gian xử lý lâu hơn hoặc có thể xảy ra lỗi hết bộ nhớ. Dựa trên yêu cầu dữ liệu của bạn, bây giờ bạn có thể sử dụng Đám mây điện toán đàn hồi Amazon (Amazon EC2) Phiên bản M5 và Phiên bản R5. Ví dụ: bạn có thể bắt đầu với một phiên bản mặc định (ml.m5.4xlarge) và sau đó chuyển sang ml.m5.24xlarge hoặc ml.r5.24xlarge. Bạn có tùy chọn chọn các loại phiên bản khác nhau và tìm cách cân bằng tốt nhất giữa chi phí chạy và thời gian xử lý. Vào lần tiếp theo khi bạn đang làm việc về chuyển đổi chuỗi thời gian và chạy các máy biến áp nặng để cân bằng dữ liệu của mình, bạn có thể định kích thước phù hợp đối tượng Data Wrangler của mình để chạy các quy trình này nhanh hơn.
Khi xử lý hàng chục gigabyte hoặc thậm chí nhiều hơn với biến đổi Pandas tùy chỉnh, bạn có thể gặp phải lỗi hết bộ nhớ. Bạn có thể chuyển từ phiên bản mặc định (ml.m5.4xlarge) sang ml.m5.24xlarge và quá trình chuyển đổi sẽ kết thúc mà không có bất kỳ lỗi nào. Chúng tôi đã đánh giá kỹ lưỡng và quan sát tốc độ tuyến tính khi chúng tôi tăng kích thước phiên bản trên một danh mục tập dữ liệu.
Trong bài đăng này, chúng tôi chia sẻ những phát hiện của mình từ hai bài kiểm tra điểm chuẩn để chứng minh cách bạn có thể xử lý tập dữ liệu lớn hơn và rộng hơn với Data Wrangler.
Các bài kiểm tra điểm chuẩn của Data Wrangler
Hãy xem lại hai bài kiểm tra chúng tôi đã chạy, truy vấn tổng hợp và mã hóa một lần, với các loại phiên bản khác nhau bằng cách sử dụng máy biến áp tích hợp sẵn PySpark và biến đổi Pandas tùy chỉnh. Các phép biến đổi không yêu cầu tổng hợp kết thúc nhanh chóng và hoạt động tốt với kiểu phiên bản mặc định, vì vậy chúng tôi tập trung vào các truy vấn tổng hợp và các phép biến đổi với phép tổng hợp. Chúng tôi đã lưu trữ tập dữ liệu thử nghiệm của mình trên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Kích thước mở rộng của tập dữ liệu này là khoảng 100 GB với 80 triệu hàng và 300 cột. Chúng tôi đã sử dụng các chỉ số giao diện người dùng để kiểm tra điểm chuẩn thời gian và đo lường độ trễ đối mặt với khách hàng từ đầu đến cuối. Khi nhập tập dữ liệu thử nghiệm của chúng tôi, chúng tôi đã vô hiệu hóa việc lấy mẫu. Lấy mẫu được bật theo mặc định và Data Wrangler chỉ xử lý 100 hàng đầu tiên khi được bật. X
Khi chúng tôi tăng kích thước phiên bản Data Wrangler, chúng tôi đã quan sát thấy tốc độ tăng tốc gần như tuyến tính của các phép biến đổi tích hợp sẵn trong Data Wrangler và Spark SQL tùy chỉnh. Kiểm tra truy vấn tổng hợp gấu trúc chỉ hoàn thành khi chúng tôi sử dụng các phiên bản lớn hơn ml.m5.16xl và Pandas cần 180 GB bộ nhớ để xử lý các truy vấn tổng hợp cho tập dữ liệu này.
Bảng sau đây tóm tắt kết quả kiểm tra truy vấn tổng hợp.
Sơ thẩm | vCPU | Bộ nhớ (GiB) | Thời gian biến đổi Spark tích hợp Data Wrangler | Giờ gấu trúc (Biến đổi tùy chỉnh) |
ml.m5.4xl | 16 | 64 | 229 giây | Hết bộ nhớ |
ml.m5.8xl | 32 | 128 | 130 giây | Hết bộ nhớ |
ml.m5.16xl | 64 | 256 | 52 giây | 30 phút |
Bảng sau đây tóm tắt các kết quả kiểm tra mã hóa một nóng.
Sơ thẩm | vCPU | Bộ nhớ (GiB) | Thời gian biến đổi Spark tích hợp Data Wrangler | Giờ gấu trúc (Biến đổi tùy chỉnh) |
ml.m5.4xl | 16 | 64 | 228 giây | Hết bộ nhớ |
ml.m5.8xl | 32 | 128 | 130 giây | Hết bộ nhớ |
ml.m5.16xl | 64 | 256 | 52 giây | Hết bộ nhớ |
Chuyển đổi kiểu phiên bản của luồng dữ liệu
Để chuyển đổi kiểu phiên bản của luồng, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Amazon SageMaker Data Wrangler, điều hướng đến luồng dữ liệu mà bạn hiện đang sử dụng.
- Chọn loại phiên bản trên thanh điều hướng.
- Chọn loại phiên bản mà bạn muốn sử dụng.
- Chọn Lưu.
Một thông báo tiến trình xuất hiện.
Khi quá trình chuyển đổi hoàn tất, một thông báo thành công sẽ xuất hiện.
Data Wrangler sử dụng kiểu phiên bản đã chọn để phân tích dữ liệu và biến đổi dữ liệu. Phiên bản mặc định và phiên bản bạn chuyển sang (ml.m5.16xlarge) đều đang chạy. Bạn có thể thay đổi loại phiên bản hoặc chuyển về phiên bản mặc định trước khi chạy một chuyển đổi cụ thể.
Tắt các phiên bản không sử dụng
Bạn bị tính phí cho tất cả các phiên bản đang chạy. Để tránh phát sinh các khoản phí bổ sung, hãy tắt các phiên bản mà bạn không sử dụng theo cách thủ công. Để tắt một phiên bản đang chạy, hãy hoàn thành các bước sau:
- Trên trang luồng dữ liệu của bạn, hãy chọn biểu tượng phiên bản trong ngăn bên trái của giao diện người dùng bên dưới Phiên bản đang chạy.
- Chọn Đóng cửa.
Nếu bạn tắt một phiên bản được sử dụng để chạy một luồng, thì bạn tạm thời không thể truy cập luồng đó. Nếu bạn gặp lỗi khi mở luồng đang chạy phiên bản mà bạn đã tắt trước đó, hãy đợi khoảng 5 phút và thử mở lại.
Kết luận
Trong bài đăng này, chúng tôi đã trình bày cách xử lý các tập dữ liệu lớn hơn và rộng hơn với Data Wrangler bằng cách chuyển các phiên bản sang loại phiên bản M5 hoặc R5 lớn hơn. Phiên bản M5 cung cấp sự cân bằng về tài nguyên máy tính, bộ nhớ và mạng. Phiên bản R5 là các phiên bản được tối ưu hóa bộ nhớ. Cả M5 và R5 đều cung cấp các loại phiên bản để tối ưu hóa chi phí và hiệu suất cho khối lượng công việc của bạn.
Để tìm hiểu thêm về cách sử dụng luồng dữ liệu với Data Wrangler, hãy tham khảo Tạo và sử dụng Luồng trình xử lý dữ liệu và Amazon SageMaker Giá. Để bắt đầu với Data Wrangler, hãy xem Chuẩn bị dữ liệu ML với Amazon SageMaker Data Wrangler.
Về các tác giả
Haider Naqvi là Kiến trúc sư Giải pháp tại AWS. Ông có nhiều kinh nghiệm phát triển phần mềm và kiến trúc doanh nghiệp. Anh ấy tập trung vào việc cho phép khách hàng đạt được kết quả kinh doanh với AWS. Anh ấy sống ở New York.
Hương Nguyễn là Giám đốc Sản phẩm của Sr. tại AWS. Cô đang dẫn đầu việc tích hợp hệ sinh thái dữ liệu cho SageMaker, với 14 năm kinh nghiệm xây dựng các sản phẩm lấy khách hàng làm trung tâm và hướng vào dữ liệu cho cả không gian doanh nghiệp và người tiêu dùng.
Meenakshisundaram Thandavarayan là chuyên gia cao cấp về AI / ML của AWS. Anh ấy giúp các tài khoản chiến lược công nghệ cao trên hành trình AI và ML của họ. Anh ấy rất đam mê về AI theo hướng dữ liệu.
Sriharsha M Sr là Kiến trúc sư Giải pháp Chuyên gia về AI / ML trong nhóm Chuyên gia Chiến lược tại Amazon Web Services. Anh ấy làm việc với các khách hàng AWS chiến lược, những người đang tận dụng AI / ML để giải quyết các vấn đề kinh doanh phức tạp. Ông cung cấp hướng dẫn kỹ thuật và tư vấn thiết kế để triển khai các ứng dụng AI / ML trên quy mô lớn. Chuyên môn của anh ấy bao gồm kiến trúc ứng dụng, dữ liệu lớn, phân tích và học máy.
Nikita Ivkin là một Nhà Khoa học Ứng dụng, Amazon SageMaker Data Wrangler.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/process-larger-and-wider-datasets-with-amazon-sagemaker-data-wrangler/
- "
- 100
- Giới thiệu
- truy cập
- ngang qua
- thêm vào
- Lợi thế
- tư vấn
- AI
- Tất cả
- đàn bà gan dạ
- Amazon Web Services
- phân tích
- phân tích
- Các Ứng Dụng
- các ứng dụng
- khoảng
- kiến trúc
- xung quanh
- AWS
- điểm chuẩn
- BEST
- Dữ Liệu Lớn.
- Xây dựng
- được xây dựng trong
- kinh doanh
- thay đổi
- tính phí
- tải
- Chọn
- Làm sạch
- phức tạp
- Tính
- An ủi
- người tiêu dùng
- Hiện nay
- khách hàng
- khách hàng
- dữ liệu
- phân tích dữ liệu
- chứng minh
- chứng minh
- Thiết kế
- Phát triển
- khác nhau
- xuống
- hệ sinh thái
- hiệu quả
- cho phép
- Kỹ Sư
- Doanh nghiệp
- ví dụ
- kinh nghiệm
- chuyên môn
- thăm dò
- mở rộng
- nhanh hơn
- Đặc tính
- tìm kiếm
- Tên
- dòng chảy
- tập trung
- tập trung
- tiếp theo
- cao
- giúp đỡ
- giúp
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- Hàng trăm
- ICON
- thực hiện
- nhập khẩu
- tăng
- hội nhập
- IT
- lớn hơn
- hàng đầu
- LEARN
- học tập
- máy
- học máy
- giám đốc
- thủ công
- đo
- Bộ nhớ
- Metrics
- triệu
- ML
- chi tiết
- THÔNG TIN
- mạng lưới
- Newyork
- cung cấp
- mở
- Tối ưu hóa
- Tùy chọn
- đam mê
- hiệu suất
- danh mục đầu tư
- tiềm năng
- Chuẩn bị
- vấn đề
- quá trình
- Quy trình
- xử lý
- Sản phẩm
- Sản phẩm
- cho
- cung cấp
- Mau
- yêu cầu
- Yêu cầu
- Thông tin
- Kết quả
- xem xét
- chạy
- chạy
- Quy mô
- Nhà khoa học
- chọn
- Loạt Sách
- DỊCH VỤ
- Chia sẻ
- Đơn giản
- Kích thước máy
- So
- Phần mềm
- phát triển phần mềm
- Giải pháp
- động SOLVE
- không gian
- chuyên gia
- Bắt đầu
- bắt đầu
- là gắn
- Chiến lược
- thành công
- Công tắc điện
- dùng
- nhóm
- Kỹ thuật
- thử nghiệm
- kiểm tra
- triệt để
- thời gian
- Chuyển đổi
- Chuyển đổi
- ui
- sử dụng
- hình dung
- chờ đợi
- web
- các dịch vụ web
- CHÚNG TÔI LÀ
- không có
- Công việc
- đang làm việc
- công trinh
- năm