Các tổ chức hướng tới văn hóa hướng dữ liệu chấp nhận việc sử dụng dữ liệu và máy học (ML) trong việc ra quyết định. Để đưa ra các quyết định dựa trên ML từ dữ liệu, bạn cần dữ liệu của mình có sẵn, có thể truy cập, sạch và ở định dạng phù hợp để đào tạo các mô hình ML. Các tổ chức có kiến trúc nhiều tài khoản muốn tránh các trường hợp họ phải trích xuất dữ liệu từ một tài khoản và tải nó vào một tài khoản khác cho các hoạt động chuẩn bị dữ liệu. Việc xây dựng và duy trì các công việc trích xuất, chuyển đổi và tải (ETL) khác nhau trong các tài khoản khác nhau theo cách thủ công sẽ làm tăng thêm độ phức tạp và chi phí, đồng thời gây khó khăn hơn trong việc duy trì các phương pháp hay nhất về quản trị, tuân thủ và bảo mật để giữ an toàn cho dữ liệu của bạn.
Amazon RedShift là một kho dữ liệu đám mây được quản lý đầy đủ, nhanh chóng. Tính năng chia sẻ dữ liệu nhiều tài khoản Amazon Redshift cung cấp một cách đơn giản và an toàn để chia sẻ dữ liệu mới, đầy đủ và nhất quán trong kho dữ liệu Amazon Redshift của bạn với bất kỳ số lượng bên liên quan nào trong các tài khoản AWS khác nhau. Trình sắp xếp dữ liệu Amazon SageMaker là một khả năng của Amazon SageMaker điều đó giúp các nhà khoa học dữ liệu và kỹ sư chuẩn bị dữ liệu cho các ứng dụng ML nhanh hơn bằng cách sử dụng giao diện trực quan. Data Wrangler cho phép bạn khám phá và chuyển đổi dữ liệu cho ML bằng cách kết nối với Amazon Redshift datashares.
Trong bài đăng này, chúng tôi hướng dẫn cách thiết lập tích hợp nhiều tài khoản bằng cách sử dụng bộ dữ liệu Amazon Redshift và chuẩn bị dữ liệu bằng Data Wrangler.
Tổng quan về giải pháp
Chúng tôi bắt đầu với hai tài khoản AWS: tài khoản nhà sản xuất với kho dữ liệu Amazon Redshift và tài khoản người tiêu dùng cho các trường hợp sử dụng SageMaker ML. Đối với bài đăng này, chúng tôi sử dụng tập dữ liệu ngân hàng. Để làm theo, hãy tải tập dữ liệu xuống máy cục bộ của bạn. Sau đây là tổng quan cấp cao về quy trình làm việc:
- Khởi tạo cụm Amazon Redshift RA3 trong tài khoản nhà sản xuất và tải tập dữ liệu.
- Tạo dữ liệu Amazon Redshift trong tài khoản nhà sản xuất và cho phép tài khoản người tiêu dùng truy cập dữ liệu.
- Truy cập dữ liệu Amazon Redshift trong tài khoản người tiêu dùng.
- Phân tích và xử lý dữ liệu với Data Wrangler trong tài khoản người tiêu dùng và xây dựng quy trình chuẩn bị dữ liệu của bạn.
Hãy nhận biết về sự cân nhắc để làm việc với chia sẻ dữ liệu Amazon Redshift:
- Nhiều tài khoản AWS - Bạn cần có ít nhất hai tài khoản AWS: tài khoản nhà sản xuất và tài khoản người tiêu dùng.
- Loại cụm - Chia sẻ dữ liệu được hỗ trợ trong kiểu cụm RA3. Khi khởi tạo một cụm Amazon Redshift, hãy đảm bảo chọn loại cụm RA3.
- Encryption - Để chia sẻ dữ liệu hoạt động, cả cụm nhà sản xuất và người tiêu dùng phải được mã hóa và phải ở trong cùng Khu vực AWS.
- Vùng - Chia sẻ dữ liệu nhiều tài khoản khả dụng cho tất cả Amazon Redshift Các loại nút RA3 ở Đông Hoa Kỳ (N. Virginia), Đông Hoa Kỳ (Ohio), Tây Hoa Kỳ (N. California), Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Mumbai), Châu Á Thái Bình Dương (Seoul), Châu Á Thái Bình Dương (Singapore), Châu Á Thái Bình Dương ( Sydney), Châu Á Thái Bình Dương (Tokyo), Canada (Trung tâm), Châu Âu (Frankfurt), Châu Âu (Ireland), Châu Âu (London), Châu Âu (Paris), Châu Âu (Stockholm) và Nam Mỹ (São Paulo).
- GIÁ CẢ - Chia sẻ dữ liệu nhiều tài khoản có sẵn trên các cụm trong cùng một Khu vực. Không có chi phí để chia sẻ dữ liệu. Bạn chỉ cần trả tiền cho các cụm Amazon Redshift tham gia chia sẻ.
Chia sẻ dữ liệu nhiều tài khoản là một quá trình gồm hai bước. Đầu tiên, quản trị viên cụm nhà sản xuất tạo một kho dữ liệu, thêm các đối tượng và cấp quyền truy cập vào tài khoản người tiêu dùng. Sau đó, quản trị viên tài khoản nhà sản xuất ủy quyền chia sẻ dữ liệu cho người tiêu dùng được chỉ định. Bạn có thể thực hiện việc này từ bảng điều khiển Amazon Redshift.
Tạo dữ liệu Amazon Redshift trong tài khoản nhà sản xuất
Để tạo datashare của bạn, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Amazon Redshift, hãy tạo một cụm Amazon Redshift.
- Chỉ định Sản lượng và chọn loại nút RA3.
- Theo Cấu hình bổ sung, bỏ chọn Mặc định sử dụng.
- Theo Cấu hình cơ sở dữ liệu, thiết lập mã hóa cho cụm của bạn.
- Sau khi bạn tạo cụm, hãy nhập tập dữ liệu ngân hàng tiếp thị trực tiếp. Bạn có thể tải xuống từ URL sau: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Tải lên
bank-additional-full.csv
đến một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) nhóm của bạn có quyền truy cập. - Sử dụng trình chỉnh sửa truy vấn Amazon Redshift và chạy truy vấn SQL sau để sao chép dữ liệu vào Amazon Redshift:
- Điều hướng đến trang chi tiết cụm và trên Chia sẻ dữ liệu tab, chọn Tạo datashare.
- Trong Tên Datashare, nhập tên.
- Trong Tên cơ sở dữ liệu, chọn một cơ sở dữ liệu.
- Trong tạp chí Thêm đối tượng datashare , chọn các đối tượng từ cơ sở dữ liệu bạn muốn đưa vào datashare.
Bạn có quyền kiểm soát chi tiết những gì bạn chọn để chia sẻ với người khác. Để đơn giản, chúng tôi chia sẻ tất cả các bảng. Trên thực tế, bạn có thể chọn một hoặc nhiều bảng, dạng xem hoặc các hàm do người dùng xác định. - Chọn Thêm.
- Để thêm người tiêu dùng dữ liệu, hãy chọn Thêm tài khoản AWS vào datashare và thêm ID tài khoản AWS phụ của bạn.
- Chọn Tạo datashare.
- Để ủy quyền cho người tiêu dùng dữ liệu bạn vừa tạo, hãy chuyển đến Chia sẻ dữ liệu trên bảng điều khiển Amazon Redshift và chọn datashare mới.
- Chọn người tiêu dùng dữ liệu và chọn Ủy quyền.
Trạng thái của người tiêu dùng thay đổi từ Pending authorization
đến Authorized
.
Truy cập kho dữ liệu nhiều tài khoản Amazon Redshift trong tài khoản AWS của người tiêu dùng
Bây giờ, datashare đã được thiết lập, hãy chuyển sang tài khoản AWS dành cho người tiêu dùng của bạn để sử dụng datashare. Đảm bảo rằng bạn đã tạo ít nhất một cụm Amazon Redshift trong tài khoản người tiêu dùng của mình. Cụm phải được mã hóa và nằm trong cùng Vùng với nguồn.
- Trên bảng điều khiển Amazon Redshift, hãy chọn Chia sẻ dữ liệu trong khung điều hướng.
- trên Từ các tài khoản khác tab, chọn datashare bạn đã tạo và chọn Liên kết.
- Bạn có thể liên kết datashare với một hoặc nhiều cụm trong tài khoản này hoặc liên kết datashare với toàn bộ tài khoản để các cụm hiện tại và tương lai trong tài khoản người tiêu dùng có quyền truy cập vào phần chia sẻ này.
- Chỉ định chi tiết kết nối của bạn và chọn Kết nối.
- Chọn Tạo cơ sở dữ liệu từ datashare và nhập tên cho cơ sở dữ liệu mới của bạn.
- Để kiểm tra datashare, hãy truy cập trình soạn thảo truy vấn và chạy các truy vấn đối với cơ sở dữ liệu mới để đảm bảo rằng tất cả các đối tượng đều có sẵn như một phần của datashare.
Phân tích và xử lý dữ liệu với Data Wrangler
Giờ đây, bạn có thể sử dụng Data Wrangler để truy cập dữ liệu nhiều tài khoản được tạo dưới dạng datashare trong Amazon Redshift.
- Mở Xưởng sản xuất Amazon SageMaker.
- trên Tập tin menu, chọn Mới và Luồng trình xử lý dữ liệu.
- trên Nhập khẩu tab, chọn Thêm nguồn dữ liệu và Amazon RedShift.
- Nhập chi tiết kết nối của cụm Amazon Redshift mà bạn vừa tạo trong tài khoản người tiêu dùng cho datashare.
- Chọn Kết nối.
- Sử dụng Quản lý truy cập và nhận dạng AWS (IAM) vai trò mà bạn đã sử dụng cho cụm Amazon Redshift của mình.
Lưu ý rằng mặc dù datashare là một cơ sở dữ liệu mới trong cụm Amazon Redshift, bạn không thể kết nối trực tiếp với nó từ Data Wrangler.
Cách đúng là kết nối với cơ sở dữ liệu cụm mặc định trước, sau đó sử dụng SQL để truy vấn cơ sở dữ liệu datashare. Cung cấp thông tin cần thiết để kết nối với cơ sở dữ liệu cụm mặc định. Lưu ý rằng một Dịch vụ quản lý khóa AWS ID khóa (AWS KMS) không cần thiết để kết nối.
Data Wrangler hiện được kết nối với phiên bản Amazon Redshift.
- Truy vấn dữ liệu trong cơ sở dữ liệu Amazon Redshift datashare bằng trình soạn thảo SQL.
- Chọn Nhập khẩu để nhập tập dữ liệu vào Data Wrangler.
- Nhập tên cho tập dữ liệu và chọn Thêm.
Bây giờ bạn có thể thấy quy trình trên Dòng dữ liệu tab của Data Wrangler.
Sau khi bạn đã tải dữ liệu vào Data Wrangler, bạn có thể thực hiện phân tích dữ liệu khám phá và chuẩn bị dữ liệu cho ML.
- Chọn dấu cộng và chọn Thêm phân tích.
Data Wrangler cung cấp các phân tích tích hợp sẵn. Chúng bao gồm nhưng không giới hạn ở báo cáo thông tin chi tiết và chất lượng dữ liệu, tương quan dữ liệu, báo cáo thiên vị trước khi đào tạo, bản tóm tắt về tập dữ liệu của bạn và hình ảnh hóa (chẳng hạn như biểu đồ và biểu đồ phân tán). Bạn cũng có thể tạo hình ảnh trực quan tùy chỉnh của riêng mình.
Bạn có thể sử dụng Báo cáo thông tin chi tiết và chất lượng dữ liệu để tự động tạo hình ảnh trực quan và phân tích nhằm xác định các vấn đề về chất lượng dữ liệu, đồng thời đề xuất chuyển đổi phù hợp cần thiết cho tập dữ liệu của bạn.
- Chọn Báo cáo chất lượng dữ liệu và thông tin chi tiếtvà chọn Cột mục tiêu as y.
- Bởi vì đây là một tuyên bố vấn đề phân loại, cho Loại vấn đề, lựa chọn phân loại.
- Chọn Tạo.
Data Wrangler tạo một báo cáo chi tiết về tập dữ liệu của bạn. Bạn cũng có thể tải báo cáo xuống máy cục bộ của mình.
- Để chuẩn bị dữ liệu, hãy chọn dấu cộng và chọn Thêm phân tích.
- Chọn Thêm bước để bắt đầu xây dựng các chuyển đổi của bạn.
Tại thời điểm viết bài này, Data Wrangler cung cấp hơn 300 phép biến đổi cài sẵn. Bạn cũng có thể viết các phép biến đổi của riêng mình bằng cách sử dụng Pandas hoặc PySpark.
Bây giờ bạn có thể bắt đầu xây dựng các chuyển đổi và phân tích của mình dựa trên yêu cầu kinh doanh của bạn.
Kết luận
Trong bài đăng này, chúng tôi đã khám phá việc chia sẻ dữ liệu giữa các tài khoản bằng cách sử dụng Amazon Redshift datashares mà không cần phải tải xuống và tải lên dữ liệu theo cách thủ công. Chúng tôi đã hướng dẫn cách truy cập dữ liệu được chia sẻ bằng Data Wrangler và chuẩn bị dữ liệu cho các trường hợp sử dụng ML của bạn. Khả năng không mã / mã thấp này của Amazon Redshift datashares và Data Wrangler giúp tăng tốc quá trình chuẩn bị dữ liệu đào tạo và tăng sự nhanh nhẹn của các kỹ sư dữ liệu và nhà khoa học dữ liệu với việc chuẩn bị dữ liệu lặp lại nhanh hơn.
Để tìm hiểu thêm về Amazon Redshift và SageMaker, hãy tham khảo Hướng dẫn dành cho nhà phát triển cơ sở dữ liệu Amazon Redshift và Tài liệu về Amazon SageMaker.
Về các tác giả
Meenakshisundaram Thandavarayan là chuyên gia cao cấp về AI / ML của AWS. Anh ấy giúp các tài khoản chiến lược công nghệ cao trên hành trình AI và ML của họ. Anh ấy rất đam mê về AI theo hướng dữ liệu.
James Wu là Kiến trúc sư Giải pháp Chuyên gia về AI / ML Cấp cao tại AWS. giúp khách hàng thiết kế và xây dựng các giải pháp AI / ML. Công việc của James bao gồm một loạt các trường hợp sử dụng ML, với mối quan tâm chính là tầm nhìn máy tính, học sâu và mở rộng ML trong toàn doanh nghiệp. Trước khi gia nhập AWS, James là kiến trúc sư, nhà phát triển và nhà lãnh đạo công nghệ trong hơn 10 năm, bao gồm 6 năm trong lĩnh vực kỹ thuật và 4 năm trong ngành tiếp thị & quảng cáo.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- và-dữ liệu-chuẩn bị /
- "
- &
- 10
- 100
- 11
- 7
- a
- Giới thiệu
- truy cập
- có thể truy cập
- Tài khoản
- ngang qua
- hoạt động
- Quảng cáo
- chống lại
- AI
- Tất cả
- cho phép
- đàn bà gan dạ
- Mỹ
- phân tích
- Một
- các ứng dụng
- kiến trúc
- Á
- Châu á Thái Bình Dương
- Liên kết
- tự động
- có sẵn
- AWS
- Ngân hàng
- BEST
- thực hành tốt nhất
- biên giới
- xây dựng
- Xây dựng
- được xây dựng trong
- kinh doanh
- california
- Chiến dịch
- Canada
- trường hợp
- trung tâm
- Chọn
- phân loại
- đám mây
- hoàn thành
- tuân thủ
- máy tính
- Kết nối
- kết nối
- Kết nối
- liên quan
- thích hợp
- An ủi
- ăn
- người tiêu dùng
- Người tiêu dùng
- liên lạc
- điều khiển
- tạo
- tạo ra
- tạo ra
- Credentials
- văn hóa
- Current
- khách hàng
- khách hàng
- dữ liệu
- phân tích dữ liệu
- chia sẻ dữ liệu
- Cơ sở dữ liệu
- quyết định
- sâu
- Thiết kế
- chi tiết
- chi tiết
- Nhà phát triển
- khác nhau
- khó khăn
- trực tiếp
- trực tiếp
- tải về
- biên tập viên
- Đào tạo
- ôm hôn
- mã hóa
- Kỹ Sư
- Kỹ sư
- đăng ký hạng mục thi
- Doanh nghiệp
- Châu Âu
- khám phá
- NHANH
- nhanh hơn
- Đặc tính
- Tên
- dòng chảy
- theo
- tiếp theo
- định dạng
- tươi
- từ
- chức năng
- tương lai
- tạo ra
- quản trị
- có
- giúp đỡ
- giúp
- nhà ở
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- xác định
- Bản sắc
- bao gồm
- Bao gồm
- các ngành công nghiệp
- thông tin
- những hiểu biết
- ví dụ
- hội nhập
- quan tâm
- Giao thức
- ireland
- các vấn đề
- IT
- Việc làm
- việc làm
- tham gia
- cuộc hành trình
- Giữ
- Key
- lãnh đạo
- LEARN
- học tập
- Hạn chế
- tải
- địa phương
- địa điểm thư viện nào
- London
- máy
- học máy
- duy trì
- làm cho
- LÀM CHO
- quản lý
- quản lý
- thủ công
- Marketing
- Might
- ML
- mô hình
- tháng
- chi tiết
- di chuyển
- Mumbai
- THÔNG TIN
- con số
- Ohio
- gọi món
- Oregon
- tổ chức
- Nền tảng khác
- riêng
- Hòa bình
- paris
- một phần
- tham gia
- đam mê
- Trả
- thực hành
- Chuẩn bị
- trước
- chính
- Vấn đề
- quá trình
- sản xuất
- cho
- cung cấp
- chất lượng
- phạm vi
- giới thiệu
- khu
- báo cáo
- cần phải
- Vai trò
- chạy
- an toàn
- tương tự
- mở rộng quy mô
- các nhà khoa học
- trung học
- an toàn
- an ninh
- Seoul
- định
- thiết lập
- Chia sẻ
- chia sẻ
- chia sẻ
- đăng ký
- Đơn giản
- Singapore
- So
- rắn
- giải pháp
- Giải pháp
- miền Nam
- chuyên gia
- Bắt đầu
- Tuyên bố
- Trạng thái
- là gắn
- Chiến lược
- Hỗ trợ
- Công tắc điện
- sydney
- Công nghệ
- thử nghiệm
- Sản phẩm
- Nguồn
- Thông qua
- thời gian
- tokyo
- đối với
- Hội thảo
- Chuyển đổi
- Chuyển đổi
- biến đổi
- us
- sử dụng
- virginia
- tầm nhìn
- hình dung
- hướng Tây
- Điều gì
- không có
- Công việc
- Luồng công việc
- đang làm việc
- viết
- năm
- trên màn hình