Chuẩn bị dữ liệu từ Amazon EMR cho Machine Learning bằng cách sử dụng Trình sắp xếp dữ liệu của Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Chuẩn bị dữ liệu là một thành phần chính của quy trình học máy (ML). Trên thực tế, người ta ước tính rằng các chuyên gia dữ liệu dành khoảng 80% thời gian của họ cho việc chuẩn bị dữ liệu. Trong thị trường cạnh tranh gay gắt này, các nhóm muốn phân tích dữ liệu và rút ra những hiểu biết có ý nghĩa hơn một cách nhanh chóng. Khách hàng đang áp dụng các cách hiệu quả và trực quan hơn để xây dựng hệ thống xử lý dữ liệu.

Trình sắp xếp dữ liệu Amazon SageMaker đơn giản hóa quy trình chuẩn bị dữ liệu và kỹ thuật tính năng, giảm thời gian từ vài tuần xuống còn vài phút bằng cách cung cấp một giao diện trực quan duy nhất để các nhà khoa học dữ liệu chọn, làm sạch dữ liệu, tạo tính năng và tự động hóa việc chuẩn bị dữ liệu trong quy trình ML mà không cần viết bất kỳ mã nào. Bạn có thể nhập dữ liệu từ nhiều nguồn dữ liệu, chẳng hạn như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athena, Amazon RedShift, và Bông tuyết. Bây giờ bạn cũng có thể sử dụng Amazon EMR làm nguồn dữ liệu trong Data Wrangler để dễ dàng chuẩn bị dữ liệu cho ML.

Phân tích, chuyển đổi và chuẩn bị một lượng lớn dữ liệu là bước cơ bản của mọi quy trình khoa học dữ liệu và ML. Các chuyên gia dữ liệu như nhà khoa học dữ liệu muốn tận dụng sức mạnh của Apache Spark, Tổ ongvà Mau chạy trên Amazon EMR để chuẩn bị dữ liệu nhanh, nhưng đường cong học tập rất dốc. Khách hàng của chúng tôi muốn có khả năng kết nối với Amazon EMR để chạy các truy vấn SQL đặc biệt trên Hive hoặc Presto nhằm truy vấn dữ liệu trong kho lưu trữ nội bộ hoặc kho lưu trữ dữ liệu bên ngoài (ví dụ: AWS Glue Data Catalog) và chuẩn bị dữ liệu chỉ trong vài cú nhấp chuột.

Bài viết trên blog này sẽ thảo luận về cách khách hàng hiện có thể tìm và kết nối với các cụm Amazon EMR hiện có bằng cách sử dụng trải nghiệm trực quan trong SageMaker Data Wrangler. Họ có thể kiểm tra trực quan cơ sở dữ liệu, bảng, lược đồ và truy vấn Presto để chuẩn bị cho việc lập mô hình hoặc báo cáo. Sau đó, họ có thể nhanh chóng lập hồ sơ dữ liệu bằng giao diện trực quan để đánh giá chất lượng dữ liệu, xác định các bất thường hoặc dữ liệu bị thiếu hoặc sai, đồng thời nhận thông tin và đề xuất về cách giải quyết các vấn đề này. Ngoài ra, họ có thể phân tích, làm sạch và thiết kế các tính năng với sự trợ giúp của hơn chục phân tích tích hợp bổ sung và hơn 300 phép biến đổi tích hợp bổ sung do Spark hỗ trợ mà không cần viết một dòng mã nào.

Tổng quan về giải pháp

Các chuyên gia dữ liệu có thể nhanh chóng tìm và kết nối với các cụm EMR hiện có bằng cấu hình SageMaker Studio. Ngoài ra, các chuyên gia dữ liệu có thể chấm dứt các cụm EMR chỉ bằng một vài cú nhấp chuột từ SageMaker Studio sử dụng các mẫu được xác định trước và tạo các cụm EMR theo yêu cầu. Với sự trợ giúp của các công cụ này, khách hàng có thể truy cập ngay vào sổ ghi chép chung của SageMaker Studio và viết mã trong Apache Spark, Hive, Presto hoặc PySpark để thực hiện chuẩn bị dữ liệu trên quy mô lớn. Do quá trình tạo mã Spark để chuẩn bị dữ liệu có đường cong học tập dốc nên không phải tất cả các chuyên gia dữ liệu đều cảm thấy thoải mái với quy trình này. Với Amazon EMR làm nguồn dữ liệu cho Amazon SageMaker Data Wrangler, giờ đây bạn có thể kết nối nhanh chóng và dễ dàng với Amazon EMR mà không cần viết một dòng mã nào.

Sơ đồ sau đại diện cho các thành phần khác nhau được sử dụng trong giải pháp này.

Chúng tôi trình bày hai tùy chọn xác thực có thể được sử dụng để thiết lập kết nối với cụm EMR. Đối với mỗi tùy chọn, chúng tôi triển khai một ngăn xếp duy nhất của Hình thành đám mây AWS mẫu.

Mẫu CloudFormation thực hiện các hành động sau khi mỗi tùy chọn được chọn:

Tạo miền Studio ở chế độ chỉ dành cho VPC, cùng với hồ sơ người dùng có tên studio-user.
Tạo các khối xây dựng, bao gồm VPC, điểm cuối, mạng con, nhóm bảo mật, cụm EMR và các tài nguyên cần thiết khác để chạy thành công các ví dụ.
Đối với cụm EMR, hãy kết nối Danh mục dữ liệu AWS Glue dưới dạng kho dữ liệu di động cho EMR Hive và Presto, tạo bảng Hive trong EMR và điền vào đó dữ liệu từ bộ dữ liệu sân bay Hoa Kỳ.
Đối với mẫu LDAP CloudFormation, hãy tạo một Đám mây điện toán đàn hồi Amazon (Amazon EC2) để lưu trữ máy chủ LDAP nhằm xác thực người dùng Hive và Presto LDAP.

Tùy chọn 1: Giao thức thư mục truy cập nhẹ

Đối với mẫu CloudFormation xác thực LDAP, chúng tôi cung cấp một phiên bản Amazon EC2 với máy chủ LDAP và định cấu hình cụm EMR để sử dụng máy chủ này để xác thực. Đây là TLS được kích hoạt.

Tùy chọn 2: Không xác thực

Trong mẫu CloudFormation xác thực No-Auth, chúng tôi sử dụng cụm EMR tiêu chuẩn không kích hoạt xác thực.

Triển khai tài nguyên với AWS CloudFormation

Hoàn thành các bước sau để triển khai môi trường:

Đăng nhập vào Bảng điều khiển quản lý AWS như một Quản lý truy cập và nhận dạng AWS (IAM) người dùng, tốt nhất là người dùng quản trị.
Chọn Khởi chạy Stack để khởi chạy mẫu CloudFormation cho kịch bản xác thực phù hợp. Đảm bảo Khu vực được sử dụng để triển khai ngăn xếp CloudFormation không có Miền Studio hiện có. Nếu bạn đã có Miền studio trong một Khu vực, thì bạn có thể chọn một Khu vực khác.
- Ngăn xếp khởi chạy LDAP
- Không có ngăn xếp khởi chạy xác thực
Chọn Sau.
Trong Tên ngăn xếp, nhập tên cho ngăn xếp (ví dụ: dw-emr-blog).
Để các giá trị khác làm mặc định.
Để tiếp tục, hãy chọn Sau từ trang chi tiết ngăn xếp và tùy chọn ngăn xếp. Ngăn xếp LDAP sử dụng thông tin xác thực sau:
- tên người dùng: david
- mật khẩu: welcome123
Trên trang đánh giá, hãy chọn hộp kiểm để xác nhận rằng AWS CloudFormation có thể tạo tài nguyên.
Chọn Tạo ngăn xếp. Đợi cho đến khi trạng thái của ngăn xếp thay đổi từ CREATE_IN_PROGRESS đến CREATE_COMPLETE. Quá trình này thường mất 10-15 phút.

Lưu ý: Nếu bạn muốn thử nhiều ngăn xếp, vui lòng làm theo các bước trong phần Dọn dẹp. Hãy nhớ rằng bạn phải xóa miền SageMaker Studio trước khi ngăn xếp tiếp theo có thể được khởi chạy thành công.

Thiết lập Amazon EMR làm nguồn dữ liệu trong Data Wrangler

Trong phần này, chúng tôi đề cập đến việc kết nối với cụm Amazon EMR hiện có được tạo thông qua mẫu CloudFormation dưới dạng nguồn dữ liệu trong Data Wrangler.

Tạo luồng dữ liệu mới

Để tạo luồng dữ liệu của bạn, hãy hoàn thành các bước sau:

Trên bảng điều khiển SageMaker, chọn Xưởng sản xuất Amazon SageMaker trong khung điều hướng.
Chọn mở studio.
Trong Trình khởi chạy, hãy chọn Luồng dữ liệu mới. Ngoài ra, trên Tập tin menu thả xuống, chọn Mới, sau đó chọn quy trình Trình sắp xếp dữ liệu.
Việc tạo một luồng mới có thể mất vài phút. Sau khi dòng đã được tạo, bạn sẽ thấy Nhập dữ liệu .

Thêm Amazon EMR làm nguồn dữ liệu trong Data Wrangler

Trên menu Thêm nguồn dữ liệu, hãy chọn Amazon EMR.

Bạn có thể duyệt qua tất cả các cụm EMR mà vai trò thực thi Studio của bạn có quyền xem. Bạn có hai tùy chọn để kết nối với một cụm; một là thông qua giao diện người dùng tương tác và hai là trước tiên tạo bí mật bằng AWS Secrets Manager với URL JDBC, bao gồm thông tin cụm EMR, sau đó cung cấp ARN bí mật AWS được lưu trữ trong giao diện người dùng để kết nối với Presto. Trong blog này, chúng tôi làm theo tùy chọn đầu tiên. Chọn một trong các cụm sau mà bạn muốn sử dụng. Bấm vào Sau, Và chọn thiết bị đầu cuối.

Chọn Mau, kết nối với đàn bà gan dạ điện tử, tạo một tên để xác định kết nối của bạn và nhấp vào Tiếp theo.

Chọn Xác thực nhập LDAP hoặc No Authentication và nhấp vào Kết nối.

Đối với Giao thức truy cập thư mục nhẹ (LDAP), hãy cung cấp tên người dùng và mật khẩu để được xác thực.

Đối với Không xác thực, bạn sẽ được kết nối với EMR Presto mà không cung cấp thông tin xác thực người dùng trong VPC. Nhập trang trình khám phá SQL của Data Wrangler cho EMR.

Sau khi kết nối, bạn có thể xem một cây cơ sở dữ liệu và xem trước bảng hoặc lược đồ một cách tương tác. Bạn cũng có thể truy vấn, khám phá và trực quan hóa dữ liệu từ EMR. Để xem trước, bạn sẽ thấy giới hạn 100 bản ghi theo mặc định. Đối với truy vấn tùy chỉnh, bạn có thể cung cấp các câu lệnh SQL trong hộp trình soạn thảo truy vấn và sau khi bạn nhấp vào chạy nút, truy vấn sẽ được thực hiện trên công cụ Presto của EMR.

Sản phẩm Hủy truy vấn nút cho phép hủy các truy vấn đang diễn ra nếu chúng mất nhiều thời gian bất thường.

Bước cuối cùng là nhập khẩu. Khi bạn đã sẵn sàng với dữ liệu được truy vấn, bạn có các tùy chọn để cập nhật cài đặt lấy mẫu cho lựa chọn dữ liệu theo loại lấy mẫu (FirstK, Ngẫu nhiên hoặc Phân tầng) và kích thước lấy mẫu để nhập dữ liệu vào Data Wrangler.

Nhấp chuột Nhập khẩu. Trang chuẩn bị sẽ được tải, cho phép bạn thêm các phép biến đổi khác nhau và phân tích cơ bản vào tập dữ liệu.

Điều hướng đến DataFlow từ màn hình trên cùng và thêm các bước khác vào quy trình nếu cần để chuyển đổi và phân tích. Bạn có thể chạy báo cáo thông tin chuyên sâu về dữ liệu để xác định các vấn đề về chất lượng dữ liệu và nhận các đề xuất để khắc phục những vấn đề đó. Hãy xem xét một số biến đổi ví dụ.

Chuyển đến luồng dữ liệu của bạn và đây là màn hình mà bạn sẽ thấy. Nó cho chúng tôi thấy rằng chúng tôi đang sử dụng EMR làm nguồn dữ liệu bằng trình kết nối Presto.

Hãy nhấp vào nút + ở bên phải Loại dữ liệu và chọn Thêm biến đổi. Khi bạn làm điều đó, màn hình sau sẽ bật lên:

Hãy khám phá dữ liệu. Chúng tôi thấy rằng nó có nhiều tính năng như iata_code, sân bay, thành phố, nhà nước, đất nước, vĩ độvà kinh độ. Chúng ta có thể thấy rằng toàn bộ tập dữ liệu dựa trên một quốc gia, đó là Hoa Kỳ và có các giá trị bị thiếu trong Vĩ độ và Kinh độ. Dữ liệu bị thiếu có thể gây sai lệch trong ước lượng các tham số và có thể làm giảm tính đại diện của các mẫu, vì vậy chúng ta cần thực hiện một số sự áp đặt và xử lý các giá trị còn thiếu trong tập dữ liệu của chúng tôi.

Hãy bấm vào Thêm bước trên thanh điều hướng ở bên phải. Lựa chọn Xử lý thiếu. Các cấu hình có thể được nhìn thấy trong các ảnh chụp màn hình sau. Dưới Biến đổi, chọn quy tội. Chọn loại cột là Numeric và tên cột vĩ độ và Kinh độ. Chúng tôi sẽ quy các giá trị còn thiếu bằng cách sử dụng giá trị trung bình gần đúng. Xem trước và thêm biến đổi.

Bây giờ chúng ta hãy xem xét một ví dụ biến đổi khác. Khi xây dựng mô hình máy học, các cột sẽ bị xóa nếu chúng dư thừa hoặc không giúp ích gì cho mô hình của bạn. Cách phổ biến nhất để loại bỏ một cột là bỏ nó. Trong tập dữ liệu của chúng tôi, tính năng đất nước có thể bị loại bỏ do tập dữ liệu dành riêng cho dữ liệu sân bay của Hoa Kỳ. Hãy xem cách chúng ta có thể quản lý các cột. Hãy bấm vào Thêm bước trên thanh điều hướng ở bên phải. Lựa chọn Quản lý các cột. Các cấu hình có thể được nhìn thấy trong các ảnh chụp màn hình sau. Dưới Chuyển đổi, lựa chọn Thả cột, và dưới Các cột để thả, lựa chọn Quốc gia.

Bạn có thể tiếp tục thêm các bước dựa trên các phép biến đổi khác nhau cần thiết cho tập dữ liệu của mình. Hãy để chúng tôi quay trở lại luồng dữ liệu của chúng tôi. Bây giờ bạn sẽ thấy thêm hai khối hiển thị các phép biến đổi mà chúng ta đã thực hiện. Trong kịch bản của chúng tôi, bạn có thể thấy quy tội và Thả cột.

Các học viên ML dành nhiều thời gian để tạo mã kỹ thuật tính năng, áp dụng mã đó vào tập dữ liệu ban đầu của họ, đào tạo mô hình trên tập dữ liệu đã thiết kế và đánh giá độ chính xác của mô hình. Do tính chất thử nghiệm của công việc này, ngay cả dự án nhỏ nhất cũng sẽ dẫn đến nhiều lần lặp lại. Cùng một mã kỹ thuật tính năng thường được chạy đi chạy lại, gây lãng phí thời gian và tài nguyên tính toán khi lặp lại các thao tác giống nhau. Trong các tổ chức lớn, điều này có thể gây ra sự sụt giảm năng suất thậm chí còn lớn hơn vì các nhóm khác nhau thường chạy các công việc giống hệt nhau hoặc thậm chí viết mã kỹ thuật tính năng trùng lặp vì họ không có kiến thức về công việc trước đó. Để tránh xử lý lại các tính năng, bây giờ chúng tôi sẽ xuất các tính năng đã chuyển đổi của mình sang Cửa hàng tính năng Amazon. Hãy bấm vào + nút bên phải Thả cột. Chọn Xuất khẩu sang Và chọn Cửa hàng tính năng Sagemaker (thông qua máy tính xách tay Jupyter).

Bạn có thể dễ dàng xuất các tính năng đã tạo của mình sang Cửa hàng tính năng SageMaker bằng cách chọn nó làm điểm đến. Bạn có thể lưu các tính năng vào một nhóm tính năng hiện có hoặc tạo một nhóm tính năng mới.

Hiện chúng tôi đã tạo các tính năng bằng Data Wrangler và dễ dàng lưu trữ các tính năng đó trong Cửa hàng tính năng. Chúng tôi đã trình bày một quy trình làm việc mẫu cho kỹ thuật tính năng trong giao diện người dùng Data Wrangler. Sau đó, chúng tôi đã lưu các tính năng đó vào Cửa hàng tính năng trực tiếp từ Data Wrangler bằng cách tạo một nhóm tính năng mới. Cuối cùng, chúng tôi đã chạy một công việc xử lý để nhập các tính năng đó vào Cửa hàng tính năng. Data Wrangler và Feature Store đã cùng nhau giúp chúng tôi xây dựng các quy trình tự động và có thể lặp lại để hợp lý hóa các tác vụ chuẩn bị dữ liệu của chúng tôi với yêu cầu mã hóa tối thiểu. Data Wrangler cũng cung cấp cho chúng tôi tính linh hoạt để tự động hóa quy trình chuẩn bị dữ liệu tương tự bằng cách sử dụng công việc theo lịch trình. Chúng tôi cũng có thể tự động hóa hoạt động đào tạo hoặc kỹ thuật tính năng với SageMaker Pipelines (thông qua Jupyter Notebook) và triển khai đến điểm cuối Inference với đường dẫn suy luận SageMaker (thông qua Jupyter Notebook).

Làm sạch

Nếu công việc của bạn với Data Wrangler đã hoàn tất, hãy chọn ngăn xếp được tạo từ trang CloudFormation và xóa ngăn xếp đó để tránh phát sinh thêm phí.

Kết luận

Trong bài đăng này, chúng tôi đã giới thiệu cách thiết lập Amazon EMR làm nguồn dữ liệu trong Data Wrangler, cách chuyển đổi và phân tích tập dữ liệu cũng như cách xuất kết quả sang luồng dữ liệu để sử dụng trong sổ ghi chép Jupyter. Sau khi trực quan hóa tập dữ liệu của mình bằng các tính năng phân tích tích hợp sẵn của Data Wrangler, chúng tôi đã nâng cao hơn nữa luồng dữ liệu của mình. Việc chúng tôi tạo ra một quy trình chuẩn bị dữ liệu mà không cần viết một dòng mã nào là rất quan trọng.

Để bắt đầu với Data Wrangler, hãy xem Chuẩn bị dữ liệu ML với Amazon SageMaker Data Wrangler, và xem thông tin mới nhất về Trang sản phẩm Data Wrangler.

Giới thiệu về tác giả

Ajjay Govindaram là Kiến trúc sư giải pháp cấp cao tại AWS. Anh ấy làm việc với các khách hàng chiến lược đang sử dụng AI/ML để giải quyết các vấn đề kinh doanh phức tạp. Kinh nghiệm của anh ấy là cung cấp định hướng kỹ thuật cũng như hỗ trợ thiết kế cho các triển khai ứng dụng AI/ML quy mô nhỏ đến quy mô lớn. Kiến thức của anh bao gồm từ kiến trúc ứng dụng đến dữ liệu lớn, phân tích và máy học. Anh ấy thích nghe nhạc khi nghỉ ngơi, trải nghiệm ngoài trời và dành thời gian cho những người thân yêu của mình.

Isha Dua là Kiến trúc sư Giải pháp Cấp cao có trụ sở tại Khu vực Vịnh San Francisco. Cô ấy giúp các khách hàng doanh nghiệp của AWS phát triển bằng cách hiểu rõ các mục tiêu và thách thức của họ, đồng thời hướng dẫn họ cách có thể kiến trúc các ứng dụng của mình theo cách gốc trên đám mây đồng thời đảm bảo chúng có khả năng linh hoạt và có thể mở rộng. Cô ấy đam mê công nghệ máy học và tính bền vững của môi trường.

Thụy Giang là Kỹ sư phát triển phần mềm tại AWS có trụ sở tại khu vực Thành phố New York. Cô là thành viên của nhóm SageMaker Data Wrangler giúp phát triển các giải pháp kỹ thuật cho khách hàng doanh nghiệp AWS để đạt được nhu cầu kinh doanh của họ. Ngoài công việc, cô ấy thích khám phá những món ăn mới, rèn luyện sức khỏe, hoạt động ngoài trời và đi du lịch.

Dấu thời gian: 8 Tháng mười hai, 20228 Tháng mười hai, 2022

Dấu thời gian: 30 Tháng Năm, 2023

Xử lý dữ liệu song song với RStudio trên Amazon SageMaker

Cụm nguồn:

Học máy AWS

Nút nguồn: 1671065

Dấu thời gian: Tháng Chín 19, 2022

Chuẩn bị dữ liệu từ Databricks cho machine learning bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chuẩn bị dữ liệu từ Databricks để học máy bằng Amazon SageMaker Data Wrangler

Cụm nguồn:

Học máy AWS

Nút nguồn: 1243552

Dấu thời gian: Tháng 31, 2022

Tăng tốc khả năng suy luận của Amazon SageMaker với các phiên bản Amazon EC6 dựa trên C2i của Intel

Cụm nguồn:

Học máy AWS

Nút nguồn: 1816297

Dấu thời gian: Tháng 20, 2023

Chuẩn bị dữ liệu từ Amazon EMR cho machine learning bằng Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Tùy chọn 1: Giao thức thư mục truy cập nhẹ

Tùy chọn 2: Không xác thực

Triển khai tài nguyên với AWS CloudFormation

Thiết lập Amazon EMR làm nguồn dữ liệu trong Data Wrangler

Tạo luồng dữ liệu mới

Thêm Amazon EMR làm nguồn dữ liệu trong Data Wrangler

Làm sạch

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Kết nối Amazon EMR và RStudio trên Amazon SageMaker

Kết nối liền mạch Amazon Athena với Amazon Lookout for Metrics để phát hiện các điểm bất thường

Cách VistaPrint đưa ra đề xuất sản phẩm được cá nhân hóa với Amazon Personalize | Dịch vụ web của Amazon

Phát hiện bất thường với Amazon SageMaker Edge Manager bằng AWS IoT Greengrass V2

Tìm kiếm thông minh nội dung Adobe Experience Manager bằng Amazon Kendra | Dịch vụ web của Amazon

Sử dụng URL được ký trước để cung cấp cho các nhà phân tích kinh doanh của bạn quyền truy cập an toàn vào Amazon SageMaker Canvas

Xử lý dữ liệu song song với RStudio trên Amazon SageMaker

Chuẩn bị dữ liệu từ Databricks để học máy bằng Amazon SageMaker Data Wrangler

Tăng tốc khả năng suy luận của Amazon SageMaker với các phiên bản Amazon EC6 dựa trên C2i của Intel

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản