Định cấu hình Chính sách lưu giữ dữ liệu và vị trí đầu ra truy vấn Amazon S3 tùy chỉnh cho nguồn dữ liệu Amazon Athena trong Trình sắp xếp dữ liệu của Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trình sắp xếp dữ liệu Amazon SageMaker giảm thời gian cần thiết để tổng hợp và chuẩn bị dữ liệu cho máy học (ML) từ vài tuần xuống còn vài phút Xưởng sản xuất Amazon SageMaker, môi trường phát triển tích hợp đầy đủ (IDE) đầu tiên cho ML. Với Data Wrangler, bạn có thể đơn giản hóa quy trình chuẩn bị dữ liệu và kỹ thuật tính năng, đồng thời hoàn thành từng bước của quy trình chuẩn bị dữ liệu, bao gồm chọn, làm sạch, khám phá và trực quan hóa dữ liệu từ một giao diện trực quan duy nhất. Bạn có thể nhập dữ liệu từ nhiều nguồn dữ liệu như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), Amazon RedShift, Snowflakevà 26 nguồn dữ liệu truy vấn liên kết được hỗ trợ bởi amazon Athena.

Bắt đầu từ hôm nay, khi nhập dữ liệu từ nguồn dữ liệu Athena, bạn có thể định cấu hình vị trí đầu ra truy vấn S3 và khoảng thời gian lưu giữ dữ liệu để nhập dữ liệu trong Data Wrangler nhằm kiểm soát vị trí và thời gian Athena lưu trữ dữ liệu trung gian. Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn về tính năng mới này.

Tổng quan về giải pháp

Athena là một dịch vụ truy vấn tương tác giúp bạn dễ dàng duyệt qua Keo AWS Danh mục dữ liệu và phân tích dữ liệu trong Amazon S3 và 26 nguồn dữ liệu truy vấn liên kết sử dụng SQL tiêu chuẩn. Khi sử dụng Athena để nhập dữ liệu, bạn có thể sử dụng vị trí S3 mặc định của Data Wrangler cho đầu ra truy vấn Athena hoặc chỉ định nhóm làm việc Athena để thực thi vị trí S3 tùy chỉnh. Trước đây, bạn phải triển khai quy trình dọn dẹp để xóa dữ liệu trung gian này hoặc thiết lập cấu hình vòng đời S3 theo cách thủ công để kiểm soát chi phí lưu trữ và đáp ứng các yêu cầu bảo mật dữ liệu của tổ chức bạn. Đây là chi phí hoạt động lớn và không thể mở rộng được.

Data Wrangler hiện hỗ trợ các vị trí S3 tùy chỉnh và thời gian lưu giữ dữ liệu cho đầu ra truy vấn Athena của bạn. Với tính năng mới này, bạn có thể thay đổi vị trí đầu ra truy vấn Athena thành vùng lưu trữ S3 tùy chỉnh. Giờ đây, bạn có chính sách lưu giữ dữ liệu mặc định là 5 ngày đối với đầu ra truy vấn Athena và bạn có thể thay đổi chính sách này để đáp ứng các yêu cầu bảo mật dữ liệu của tổ chức bạn. Dựa trên khoảng thời gian lưu giữ, đầu ra truy vấn Athena trong nhóm S3 sẽ tự động được dọn sạch. Sau khi nhập dữ liệu, bạn có thể thực hiện phân tích dữ liệu khám phá trên tập dữ liệu này và lưu trữ dữ liệu sạch trở lại Amazon S3.

Sơ đồ sau minh họa kiến trúc này.

Đối với trường hợp sử dụng của chúng tôi, chúng tôi sử dụng tập dữ liệu ngân hàng mẫu để tìm hiểu giải pháp. Quy trình làm việc bao gồm các bước sau:

Tải về tập dữ liệu mẫu và tải nó lên vùng lưu trữ S3.
Thiết lập keo AWS thu thập thông tin để thu thập dữ liệu sơ đồ và lưu trữ sơ đồ siêu dữ liệu trong Danh mục dữ liệu AWS Glue.
Sử dụng Athena để truy cập Danh mục dữ liệu để truy vấn dữ liệu từ bộ chứa S3.
Tạo luồng Data Wrangler mới để kết nối với Athena.
Khi tạo kết nối, hãy đặt TTL lưu giữ cho tập dữ liệu.
Sử dụng kết nối này trong quy trình làm việc và lưu trữ dữ liệu sạch trong một bộ chứa S3 khác.

Để đơn giản, chúng tôi giả định rằng bạn đã thiết lập môi trường Athena (bước 1–3). Chúng tôi trình bày chi tiết các bước tiếp theo trong bài viết này.

Điều kiện tiên quyết

Để thiết lập môi trường Athena, hãy tham khảo phần Hướng dẫn sử dụng để biết hướng dẫn từng bước và hoàn thành các bước 1–3 như đã nêu trong phần trước.

Nhập dữ liệu của bạn từ Athena sang Data Wrangler

Để nhập dữ liệu của bạn, hãy hoàn thành các bước sau:

Trên bảng điều khiển Studio, chọn Thông tin biểu tượng trong ngăn điều hướng.
Chọn Trình sắp xếp dữ liệu trên menu thả xuống.
Chọn Luồng mới.
trên Nhập khẩu tab, chọn amazon Athena.

Một trang chi tiết mở ra nơi bạn có thể kết nối với Athena và viết truy vấn SQL để nhập từ cơ sở dữ liệu.
Nhập tên cho kết nối của bạn.
Mở rộng Cấu hình nâng cao.
Khi kết nối với Athena, Data Wrangler sử dụng Amazon S3 để xử lý dữ liệu được truy vấn. Theo mặc định, dữ liệu này được lưu trữ tại vị trí S3 s3://sagemaker-{region}-{account_id}/athena/ với thời gian lưu giữ là 5 ngày.
Trong Vị trí kết quả truy vấn của Amazon S3, nhập vị trí S3 của bạn.
Chọn Thời gian lưu giữ dữ liệu và đặt thời gian lưu giữ dữ liệu (đối với bài đăng này là 1 ngày).
Nếu bạn bỏ chọn tùy chọn này, dữ liệu sẽ tồn tại vô thời hạn.Phía sau, Data Wrangler đính kèm chính sách cấu hình vòng đời S3 vào vị trí S3 đó để tự động dọn dẹp. Xem chính sách ví dụ sau:
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
Bạn cần s3:GetLifecycleConfiguration và s3:PutLifecycleConfiguration để vai trò thực thi SageMaker của bạn áp dụng chính xác các chính sách cấu hình vòng đời. Nếu không có các quyền này, bạn sẽ nhận được thông báo lỗi khi cố gắng nhập dữ liệu.

Thông báo lỗi sau đây là một ví dụ về việc thiếu GetLifecycleConfiguration sự cho phép.

Thông báo lỗi sau đây là một ví dụ về việc thiếu PutLifecycleConfiguration sự cho phép.
Tùy chọn, cho Nhóm làm việc, bạn có thể chỉ định một nhóm làm việc Athena.
Nhóm làm việc Athena tách biệt người dùng, nhóm, ứng dụng hoặc khối lượng công việc thành các nhóm, mỗi nhóm có quyền và cài đặt cấu hình riêng. Khi bạn chỉ định một nhóm làm việc, Data Wrangler sẽ kế thừa cài đặt nhóm làm việc được xác định trong Athena. Ví dụ: nếu một nhóm làm việc có vị trí S3 được xác định để lưu trữ kết quả truy vấn và cho phép Ghi đè phía khách hàng settings, bạn không thể chỉnh sửa vị trí kết quả truy vấn S3.Theo mặc định, Data Wrangler cũng lưu kết nối Athena cho bạn. Điều này được hiển thị dưới dạng ô Athena mới trong Nhập khẩu chuyển hướng. Bạn luôn có thể mở lại kết nối đó để truy vấn và đưa dữ liệu khác vào Data Wrangler.
Bỏ chọn Lưu kết nối nếu bạn không muốn lưu kết nối.
Để định cấu hình kết nối Athena, hãy chọn Không áp dụng cho Lấy mẫu để nhập toàn bộ tập dữ liệu.

Đối với các tập dữ liệu lớn, Data Wrangler cho phép bạn nhập một tập hợp con dữ liệu để xây dựng quy trình chuyển đổi và chỉ xử lý toàn bộ tập dữ liệu khi bạn sẵn sàng. Điều này tăng tốc chu kỳ lặp lại và tiết kiệm thời gian và chi phí xử lý. Để tìm hiểu thêm về các tùy chọn lấy mẫu dữ liệu khác nhau có sẵn, hãy truy cập Amazon SageMaker Data Wrangler hiện hỗ trợ lấy mẫu ngẫu nhiên và lấy mẫu phân tầng.
Trong Danh mục dữ liệuchọn Danh mục dữ liệu Aws.
Trong Cơ sở dữ liệu, chọn cơ sở dữ liệu của bạn.

Data Wrangler hiển thị các bảng có sẵn. Bạn có thể chọn từng bảng để kiểm tra lược đồ và xem trước dữ liệu.
Nhập mã sau vào trường truy vấn:
```
Select *
From bank_additional_full
```
Chọn chạy để xem trước dữ liệu.
Nếu mọi thứ đều ổn, hãy chọn Nhập khẩu.
Nhập tên tập dữ liệu và chọn Thêm để nhập dữ liệu vào không gian làm việc Data Wrangler của bạn.

Phân tích và xử lý dữ liệu với Data Wrangler

Sau khi tải dữ liệu vào Data Wrangler, bạn có thể thực hiện phân tích dữ liệu khám phá (EDA) và chuẩn bị dữ liệu cho machine learning.

Chọn dấu cộng bên cạnh bank-data tập dữ liệu trong luồng dữ liệu và chọn Thêm phân tích.
Data Wrangler cung cấp các phân tích tích hợp, bao gồm Báo cáo thông tin chuyên sâu và chất lượng dữ liệu, mối tương quan dữ liệu, báo cáo sai lệch trước khi đào tạo, bản tóm tắt về tập dữ liệu của bạn và hình ảnh trực quan hóa (chẳng hạn như biểu đồ và biểu đồ phân tán). Ngoài ra, bạn có thể tạo hình ảnh tùy chỉnh của riêng mình.
Trong Loại phân tíchchọn Báo cáo chuyên sâu và chất lượng dữ liệu.
Điều này tự động tạo ra các hình ảnh trực quan, phân tích để xác định các vấn đề về chất lượng dữ liệu và đề xuất các chuyển đổi phù hợp cần thiết cho tập dữ liệu của bạn.
Trong Cột mục tiêu, chọn Y.
Bởi vì đây là một tuyên bố vấn đề phân loại, cho Loại vấn đề, lựa chọn phân loại.
Chọn Tạo.

Data Wrangler tạo một báo cáo chi tiết về tập dữ liệu của bạn. Bạn cũng có thể tải báo cáo xuống máy cục bộ của mình.
Để chuẩn bị dữ liệu, hãy chọn dấu cộng bên cạnh tập dữ liệu ngân hàng trong luồng dữ liệu và chọn Thêm biến đổi.
Chọn Thêm bước để bắt đầu xây dựng các chuyển đổi của bạn.

Tại thời điểm viết bài này, Data Wrangler cung cấp hơn 300 phép biến đổi cài sẵn. Bạn cũng có thể viết các phép biến đổi của riêng mình bằng cách sử dụng Pandas hoặc PySpark.

Bây giờ bạn có thể bắt đầu xây dựng các biến đổi và phân tích dựa trên yêu cầu kinh doanh của mình.

Làm sạch

Để tránh chi phí liên tục, hãy xóa tài nguyên Data Wrangler bằng cách sử dụng các bước bên dưới khi bạn hoàn tất.

Chọn biểu tượng Phiên bản đang chạy và Hạt nhân.
Trong ỨNG DỤNG ĐANG CHẠY, hãy nhấp vào biểu tượng tắt máy bên cạnh sagemaker-data-wrangler-1.0 app.
Chọn Tắt tất cả để xác nhận.

Kết luận

Trong bài đăng này, chúng tôi đã cung cấp thông tin tổng quan về cách tùy chỉnh vị trí S3 của bạn và bật cấu hình vòng đời S3 để nhập dữ liệu từ Athena sang Data Wrangler. Với tính năng này, bạn có thể lưu trữ dữ liệu trung gian ở vị trí S3 được bảo mật và tự động xóa bản sao dữ liệu sau thời gian lưu giữ để giảm nguy cơ truy cập trái phép vào dữ liệu. Chúng tôi khuyến khích bạn thử tính năng mới này. Chúc tòa nhà vui vẻ!

Để tìm hiểu thêm về Athena và SageMaker, hãy truy cập Hướng dẫn sử dụng Athena và Tài liệu về Amazon SageMaker.

Giới thiệu về tác giả

Định cấu hình chính sách lưu giữ dữ liệu và vị trí đầu ra truy vấn Amazon S3 tùy chỉnh cho các nguồn dữ liệu Amazon Athena trong Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Meenakshisundaram Thandavarayan là chuyên gia cao cấp về AI / ML của AWS. Anh ấy giúp các tài khoản chiến lược công nghệ cao trên hành trình AI và ML của họ. Anh ấy rất đam mê về AI theo hướng dữ liệu.

Harish Rajagopalan là Kiến trúc sư giải pháp cao cấp tại Amazon Web Services. Harish làm việc với khách hàng doanh nghiệp và giúp họ trong hành trình trên đám mây.

James Wu là Kiến trúc sư Giải pháp Chuyên gia về AI / ML Cấp cao tại AWS. giúp khách hàng thiết kế và xây dựng các giải pháp AI / ML. Công việc của James bao gồm một loạt các trường hợp sử dụng ML, với mối quan tâm chính là tầm nhìn máy tính, học sâu và mở rộng ML trong toàn doanh nghiệp. Trước khi gia nhập AWS, James là kiến trúc sư, nhà phát triển và nhà lãnh đạo công nghệ trong hơn 10 năm, bao gồm 6 năm trong lĩnh vực kỹ thuật và 4 năm trong ngành tiếp thị & quảng cáo.

Dấu thời gian: Ngày 20 tháng 2022 năm XNUMXNgày 21 tháng 2022 năm XNUMX

Dấu thời gian: Tháng 10, 2023

Bảo vệ người tiêu dùng và thúc đẩy đổi mới – Quy định AI và xây dựng niềm tin vào AI có trách nhiệm

Cụm nguồn:

Học máy AWS

Nút nguồn: 1765573

Dấu thời gian: Tháng Mười Hai 1, 2022

Amazon SageMaker JumpStart hiện cung cấp sổ ghi chép Amazon Comprehend để phân loại tùy chỉnh và phát hiện thực thể tùy chỉnh

Cụm nguồn:

Học máy AWS

Nút nguồn: 1771393

Dấu thời gian: Tháng Mười Hai 12, 2022

Amazon Personalize ra mắt công thức mới hỗ trợ danh mục mặt hàng lớn hơn với độ trễ thấp hơn | Dịch vụ web của Amazon

Cụm nguồn:

Học máy AWS

Nút nguồn: 1970709

Dấu thời gian: 2 Tháng Năm, 2024

Định cấu hình vị trí đầu ra truy vấn Amazon S3 tùy chỉnh và chính sách lưu giữ dữ liệu cho các nguồn dữ liệu Amazon Athena trong Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Nhập dữ liệu của bạn từ Athena sang Data Wrangler

Phân tích và xử lý dữ liệu với Data Wrangler

Làm sạch

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

MLOps để suy luận hàng loạt với chức năng giám sát và đào tạo lại mô hình bằng Amazon SageMaker, HashiCorp Terraform và GitLab CI/CD | Dịch vụ web của Amazon

Đào tạo và triển khai các mô hình ML trong môi trường nhiều đám mây bằng Amazon SageMaker | Dịch vụ web của Amazon

Cho phép đào tạo nhanh hơn với thư viện song song dữ liệu Amazon SageMaker | Dịch vụ web của Amazon

Bản địa hóa nội dung sang nhiều ngôn ngữ bằng các dịch vụ máy học AWS

Bảo vệ người tiêu dùng và thúc đẩy đổi mới – Quy định AI và xây dựng niềm tin vào AI có trách nhiệm

Amazon SageMaker JumpStart hiện cung cấp sổ ghi chép Amazon Comprehend để phân loại tùy chỉnh và phát hiện thực thể tùy chỉnh

Amazon Personalize ra mắt công thức mới hỗ trợ danh mục mặt hàng lớn hơn với độ trễ thấp hơn | Dịch vụ web của Amazon

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản