RStudio trên Amazon SageMaker là môi trường phát triển tích hợp (IDE) RStudio Workbench được quản lý hoàn toàn đầu tiên trong ngành trên đám mây. Bạn có thể nhanh chóng khởi chạy RStudio IDE quen thuộc và quay số lên và xuống các tài nguyên điện toán cơ bản mà không làm gián đoạn công việc của mình, giúp dễ dàng xây dựng các giải pháp phân tích và máy học (ML) trong R trên quy mô lớn.
Cùng với các công cụ như RStudio trên SageMaker, người dùng đang phân tích, chuyển đổi và chuẩn bị một lượng lớn dữ liệu như một phần của quy trình làm việc ML và khoa học dữ liệu. Các nhà khoa học dữ liệu và kỹ sư dữ liệu sử dụng Apache Spark, Hive và Presto chạy trên Amazon EMR để xử lý dữ liệu quy mô lớn. Khi sử dụng RStudio trên SageMaker và Amazon EMR cùng nhau, bạn có thể tiếp tục sử dụng RStudio IDE để phân tích và phát triển, đồng thời sử dụng các cụm được quản lý của Amazon EMR để xử lý dữ liệu lớn hơn.
Trong bài đăng này, chúng tôi trình bày cách bạn có thể kết nối RStudio của mình trên miền SageMaker với cụm EMR.
Tổng quan về giải pháp
Chúng tôi sử dụng một Apache Livy kết nối để gửi một tia lửa điện công việc từ RStudio trên SageMaker sang cụm EMR. Điều này được thể hiện trong sơ đồ sau.
Tất cả mã được trình bày trong bài đăng đều có sẵn trong Kho GitHub. Chúng tôi triển khai kiến trúc giải pháp sau.
Điều kiện tiên quyết
Trước khi triển khai bất kỳ tài nguyên nào, hãy đảm bảo rằng bạn có tất cả các yêu cầu để thiết lập và sử dụng RStudio trên SageMaker và Amazon EMR:
Chúng tôi cũng sẽ xây dựng một RStudio tùy chỉnh trên hình ảnh SageMaker, vì vậy hãy đảm bảo rằng bạn đang chạy Docker và có tất cả các quyền cần thiết. Để biết thêm thông tin, hãy tham khảo Sử dụng hình ảnh tùy chỉnh để đưa môi trường phát triển của riêng bạn lên RStudio trên Amazon SageMaker.
Tạo tài nguyên với AWS CloudFormation
Chúng tôi sử dụng một Hình thành đám mây AWS stack để tạo cơ sở hạ tầng cần thiết.
Nếu bạn đã có miền RStudio và cụm EMR hiện có, thì bạn có thể bỏ qua bước này và bắt đầu xây dựng RStudio tùy chỉnh của mình trên hình ảnh SageMaker. Thay thế thông tin của cụm EMR và miền RStudio của bạn thay cho cụm EMR và miền RStudio được tạo trong phần này.
Khởi chạy ngăn xếp này sẽ tạo ra các tài nguyên sau:
- Hai mạng con riêng
- Cụm EMR Spark
- Keo AWS cơ sở dữ liệu và bảng
- Miền SageMaker với RStudio
- Hồ sơ người dùng SageMaker RStudio
- Vai trò dịch vụ IAM cho miền SageMaker RStudio
- Vai trò dịch vụ IAM cho hồ sơ người dùng SageMaker RStudio
Hoàn thành các bước sau để tạo tài nguyên của bạn:
Chọn Khởi chạy Stack để tạo ngăn xếp.
- trên Tạo ngăn xếp trang, chọn Sau.
- trên Chỉ định chi tiết ngăn xếp trang, cung cấp tên cho ngăn xếp của bạn và để các tùy chọn còn lại làm mặc định, sau đó chọn Sau.
- trên Cấu hình tùy chọn ngăn xếp trang, để các tùy chọn như mặc định và chọn Sau.
- trên Trang đánh giá, lựa chọn
- Tôi xác nhận rằng AWS CloudFormation có thể tạo tài nguyên IAM với tên tùy chỉnh và
- Tôi xác nhận rằng AWS CloudFormation có thể yêu cầu khả năng sau: CAPABILITY_AUTO_EXPAND.
- Chọn Tạo ngăn xếp.
Mẫu tạo ra năm ngăn xếp.
Để xem cụm EMR Spark đã được tạo, hãy điều hướng đến bảng điều khiển Amazon EMR. Bạn sẽ thấy một cụm được tạo cho bạn có tên là sagemaker
. Đây là cụm chúng tôi kết nối thông qua RStudio trên SageMaker.
Xây dựng RStudio tùy chỉnh trên hình ảnh SageMaker
Chúng tôi đã tạo một hình ảnh tùy chỉnh sẽ cài đặt tất cả các phụ thuộc của sparklyr và sẽ thiết lập kết nối với cụm EMR mà chúng tôi đã tạo.
Nếu bạn đang sử dụng cụm EMR và miền RStudio của riêng mình, hãy sửa đổi tập lệnh cho phù hợp.
Đảm bảo Docker đang chạy. Bắt đầu bằng cách vào kho lưu trữ dự án của chúng tôi:
Bây giờ chúng ta sẽ xây dựng hình ảnh Docker và đăng ký nó vào RStudio của chúng ta trên miền SageMaker.
- Trên bảng điều khiển SageMaker, chọn Tên miền trong khung điều hướng.
- Chọn miền
select rstudio-domain
. - trên Môi trường tab, chọn Đính kèm hình ảnh.
Bây giờ chúng tôi đính kèm hình ảnh sparklyr mà chúng tôi đã tạo trước đó vào miền. - Trong Chọn nguồn ảnh, lựa chọn hình ảnh hiện có.
- Chọn hình ảnh sparklyr mà chúng tôi đã tạo.
- Trong Thuộc tính hình ảnh, hãy để các tùy chọn như mặc định.
- Trong Lọai hình ảnh, lựa chọn Hình ảnh RStudio.
- Chọn Gửi.
Xác thực hình ảnh đã được thêm vào miền. Có thể mất vài phút để hình ảnh được đính kèm đầy đủ. - Khi có sẵn, hãy đăng nhập vào RStudio trên bảng điều khiển SageMaker bằng cách sử dụng
rstudio-user
hồ sơ đã được tạo. - Từ đây, hãy tạo một phiên với hình ảnh lấp lánh mà chúng tôi đã tạo trước đó.
Trước tiên, chúng tôi phải kết nối với cụm EMR của mình. - Trong ngăn kết nối, chọn Kết nối mới.
- Chọn đoạn mã kết nối cụm EMR và chọn Kết nối với cụm Amazon EMR.
Sau khi mã kết nối chạy xong, bạn sẽ thấy kết nối Spark thông qua Livy, nhưng không có bảng. - Thay đổi cơ sở dữ liệu thành
credit_card
:tbl_change_db(sc, “credit_card”)
- Chọn Làm mới dữ liệu kết nối.
Bây giờ bạn có thể xem các bảng. - Bây giờ điều hướng đến
rstudio-sparklyr-code-walkthrough.md
tập tin.
Điều này có một tập hợp các phép biến đổi Spark mà chúng tôi có thể sử dụng trên tập dữ liệu thẻ tín dụng của mình để chuẩn bị cho việc lập mô hình. Đoạn mã sau đây là một đoạn trích:
Hãy count()
có bao nhiêu giao dịch trong bảng giao dịch. Nhưng trước tiên chúng ta cần cache Sử dụng tbl()
chức năng.
Hãy đếm số lượng hàng cho mỗi bảng.
Bây giờ, hãy đăng ký các bảng của chúng tôi dưới dạng Khung dữ liệu Spark và kéo chúng vào bộ đệm bộ nhớ trên toàn cụm để có hiệu suất tốt hơn. Chúng tôi cũng sẽ lọc tiêu đề được đặt ở hàng đầu tiên cho mỗi bảng.
Để xem danh sách đầy đủ các lệnh, hãy tham khảo rstudio-sparklyr-code-walkthrough.md
tập tin.
Làm sạch
Để dọn sạch mọi tài nguyên nhằm tránh phát sinh chi phí định kỳ, hãy xóa mẫu CloudFormation gốc. Đồng thời xóa tất cả Dịch vụ tệp đàn hồi của Amazon (Amazon EFS) gắn kết được tạo và bất kỳ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) nhóm và đối tượng được tạo.
Kết luận
Việc tích hợp RStudio trên SageMaker với Amazon EMR cung cấp một giải pháp mạnh mẽ cho các nhiệm vụ lập mô hình và phân tích dữ liệu trên đám mây. Bằng cách kết nối RStudio trên SageMaker và thiết lập kết nối Livy với Spark trên EMR, bạn có thể tận dụng tài nguyên điện toán của cả hai nền tảng để xử lý hiệu quả các bộ dữ liệu lớn. RStudio, một trong những IDE được sử dụng rộng rãi nhất để phân tích dữ liệu, cho phép bạn tận dụng cơ sở hạ tầng được quản lý hoàn toàn, khả năng kiểm soát truy cập, kết nối mạng và bảo mật của SageMaker. Trong khi đó, kết nối Livy với Spark trên Amazon EMR cung cấp một cách để thực hiện xử lý phân tán và thay đổi quy mô các tác vụ xử lý dữ liệu.
Nếu bạn quan tâm đến việc tìm hiểu thêm về cách sử dụng các công cụ này cùng nhau, thì bài đăng này sẽ là điểm khởi đầu. Để biết thêm thông tin, hãy tham khảo RStudio trên Amazon SageMaker. Nếu bạn có bất kỳ đề xuất hoặc cải tiến tính năng nào, vui lòng tạo yêu cầu kéo trên repo GitHub của chúng tôi hoặc để lại nhận xét về bài đăng này!
Về các tác giả
Ryan Garner là Nhà khoa học dữ liệu với AWS Professional Services. Anh ấy đam mê giúp khách hàng AWS sử dụng R để giải quyết các vấn đề về Khoa học dữ liệu và Máy học của họ.
Raj Pathak là Kiến trúc sư giải pháp cao cấp và Nhà công nghệ chuyên về Dịch vụ tài chính (Bảo hiểm, Ngân hàng, Thị trường vốn) và Học máy. Ông chuyên về Xử lý ngôn ngữ tự nhiên (NLP), Mô hình ngôn ngữ lớn (LLM) và các dự án vận hành và cơ sở hạ tầng học máy (MLOps).
Saiteja Pudi là Kiến trúc sư giải pháp tại AWS, có trụ sở tại Dallas, Tx. Anh ấy đã làm việc với AWS hơn 3 năm nay, giúp khách hàng khai thác tiềm năng thực sự của AWS bằng cách trở thành cố vấn đáng tin cậy của họ. Anh ấy xuất thân từ nền tảng phát triển ứng dụng, quan tâm đến Khoa học dữ liệu và Học máy.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- Đúc kết tương lai với Adryenn Ashley. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/connect-amazon-emr-and-rstudio-on-amazon-sagemaker/
- : có
- :là
- $ LÊN
- 100
- 11
- 20
- 22
- 7
- a
- Giới thiệu
- truy cập
- cho phù hợp
- công nhận
- thêm
- Lợi thế
- cố vấn
- Tất cả
- cho phép
- Đã
- Ngoài ra
- đàn bà gan dạ
- Amazon EMR
- Amazon SageMaker
- số lượng
- số lượng
- amp
- an
- phân tích
- phân tích
- phân tích
- và
- bất kì
- Apache
- kiến trúc
- LÀ
- AS
- At
- đính kèm
- có sẵn
- AWS
- Hình thành đám mây AWS
- Dịch vụ chuyên nghiệp của AWS
- lý lịch
- Ngân hàng
- dựa
- được
- được
- Hơn
- cả hai
- mang lại
- xây dựng
- Xây dựng
- xây dựng
- nhưng
- by
- Bộ nhớ cache
- gọi là
- CAN
- khả năng
- vốn
- Thị trường vốn
- thẻ
- Thẻ
- Chọn
- đám mây
- cụm
- mã
- bình luận
- Tính
- máy tính
- Kết nối
- Kết nối
- liên quan
- Kết nối
- An ủi
- tiếp tục
- điều khiển
- Chi phí
- tạo
- tạo ra
- tạo ra
- tín dụng
- thẻ tín dụng
- khách hàng
- khách hàng
- Dallas
- dữ liệu
- phân tích dữ liệu
- xử lý dữ liệu
- khoa học dữ liệu
- nhà khoa học dữ liệu
- Cơ sở dữ liệu
- bộ dữ liệu
- Mặc định
- chứng minh
- chứng minh
- triển khai
- Phát triển
- phân phối
- phu bến tàu
- miền
- xuống
- mỗi
- Sớm hơn
- hiệu quả
- Kỹ sư
- đảm bảo
- Môi trường
- thành lập
- thành lập
- hiện tại
- quen
- Đặc tính
- vài
- Tập tin
- lọc
- tài chính
- dịch vụ tài chính
- Tên
- tiếp theo
- Trong
- từ
- Full
- đầy đủ
- chức năng
- Giới Tính
- tạo ra
- tạo
- nhận được
- GitHub
- Có
- he
- giúp đỡ
- tại đây
- Tổ ong
- Độ đáng tin của
- HTML
- http
- HTTPS
- hình ảnh
- thực hiện
- cải tiến
- in
- của ngành
- thông tin
- Cơ sở hạ tầng
- cài đặt, dựng lên
- bảo hiểm
- tích hợp
- hội nhập
- quan tâm
- trong
- IT
- Việc làm
- jpg
- Ngôn ngữ
- lớn
- quy mô lớn
- lớn hơn
- phóng
- học tập
- Rời bỏ
- Lượt thích
- Danh sách
- LLM
- máy
- học máy
- làm cho
- Làm
- quản lý
- nhiều
- thị trường
- Có thể..
- Trong khi đó
- Bộ nhớ
- Might
- Phút
- ML
- MLOps
- mô hình
- sửa đổi
- chi tiết
- hầu hết
- tên
- tên
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- Điều hướng
- THÔNG TIN
- Cần
- mạng lưới
- nlp
- tại
- con số
- đối tượng
- of
- on
- ONE
- Hoạt động
- Các lựa chọn
- or
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- riêng
- trang
- cửa sổ
- một phần
- đam mê
- Thực hiện
- hiệu suất
- quyền
- Nơi
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- xin vui lòng
- Điểm
- Bài đăng
- tiềm năng
- mạnh mẽ
- Chuẩn bị
- chuẩn bị
- riêng
- vấn đề
- xử lý
- chuyên nghiệp
- Hồ sơ
- dự án
- dự án
- cho
- cung cấp
- Mau
- định kỳ
- ghi danh
- còn lại
- kho
- yêu cầu
- yêu cầu
- cần phải
- Yêu cầu
- Thông tin
- Vai trò
- nguồn gốc
- HÀNG
- chạy
- chạy
- nhà làm hiền triết
- SC
- Quy mô
- mở rộng quy mô
- Khoa học
- Nhà khoa học
- các nhà khoa học
- phạm vi
- kịch bản
- Phần
- an ninh
- cao cấp
- phục vụ
- dịch vụ
- DỊCH VỤ
- Phiên
- định
- thiết lập
- Đơn giản
- So
- giải pháp
- Giải pháp
- động SOLVE
- Spark
- chuyên
- chuyên
- ngăn xếp
- Stacks
- Bắt đầu
- Bắt đầu
- Bước
- Các bước
- là gắn
- trình
- bàn
- Hãy
- nhiệm vụ
- nhà công nghệ
- mẫu
- hơn
- việc này
- Sản phẩm
- thông tin
- cung cấp their dịch
- Them
- Kia là
- điều này
- Thông qua
- đến
- bên nhau
- công cụ
- Giao dịch
- biến đổi
- biến đổi
- đúng
- đáng tin cậy
- TX
- cơ bản
- sử dụng
- đã sử dụng
- người sử dang
- Người sử dụng
- sử dụng
- là
- Đường..
- we
- trong khi
- rộng rãi
- sẽ
- với
- không có
- Công việc
- khoai mỡ
- năm
- Bạn
- trên màn hình
- zephyrnet