Amazon SageMaker cung cấp một số cách để chạy các công việc xử lý dữ liệu phân tán với Apache Spark, một khung điện toán phân tán phổ biến để xử lý dữ liệu lớn.
Bạn có thể chạy các ứng dụng Spark một cách tương tác từ Xưởng sản xuất Amazon SageMaker bằng cách kết nối Sổ ghi chép SageMaker Studio và Phiên tương tác AWS Glue để chạy các công việc Spark với cụm không có máy chủ. Với các phiên tương tác, bạn có thể chọn Apache Spark hoặc Ray để dễ dàng xử lý các tập dữ liệu lớn mà không phải lo lắng về việc quản lý cụm.
Ngoài ra, nếu bạn cần kiểm soát nhiều hơn đối với môi trường, bạn có thể sử dụng bộ chứa SageMaker Spark dựng sẵn để chạy các ứng dụng Spark dưới dạng công việc hàng loạt trên một cụm phân tán được quản lý hoàn toàn với Chế biến Amazon SageMaker. Tùy chọn này cho phép bạn chọn một số loại phiên bản (tối ưu hóa điện toán, tối ưu hóa bộ nhớ, v.v.), số lượng nút trong cụm và cấu hình cụm, từ đó cho phép xử lý dữ liệu và đào tạo mô hình linh hoạt hơn.
Cuối cùng, bạn có thể chạy các ứng dụng Spark bằng cách kết nối sổ ghi chép Studio với Amazon EMR cụmhoặc bằng cách chạy cụm Spark của bạn trên Đám mây điện toán đàn hồi Amazon (Amazon EC2).
Tất cả các tùy chọn này cho phép bạn tạo và lưu trữ nhật ký sự kiện Spark để phân tích chúng thông qua giao diện người dùng dựa trên web thường được đặt tên là Giao diện người dùng tia lửa, chạy Máy chủ lịch sử Spark để theo dõi tiến trình của các ứng dụng Spark, theo dõi việc sử dụng tài nguyên và gỡ lỗi.
Trong bài đăng này, chúng tôi chia sẻ một giải pháp để cài đặt và chạy Máy chủ lịch sử Spark trên SageMaker Studio và truy cập giao diện người dùng Spark trực tiếp từ SageMaker Studio IDE, để phân tích nhật ký Spark do các dịch vụ AWS khác nhau tạo ra (Phiên tương tác AWS Glue, Công việc xử lý SageMaker và Amazon EMR) và được lưu trữ trong một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) xô.
Tổng quan về giải pháp
Giải pháp tích hợp Spark History Server vào ứng dụng Jupyter Server trong SageMaker Studio. Điều này cho phép người dùng truy cập nhật ký Spark trực tiếp từ SageMaker Studio IDE. Máy chủ Lịch sử Spark tích hợp hỗ trợ như sau:
- Truy cập nhật ký được tạo bởi SageMaker Đang xử lý công việc Spark
- Truy cập nhật ký do ứng dụng AWS Glue Spark tạo ra
- Truy cập nhật ký do các cụm Spark tự quản lý và Amazon EMR tạo ra
Giao diện dòng lệnh tiện ích (CLI) được gọi là sm-spark-cli
cũng được cung cấp để tương tác với Spark UI từ thiết bị đầu cuối hệ thống SageMaker Studio. Các sm-spark-cli
cho phép quản lý Máy chủ lịch sử Spark mà không cần rời khỏi SageMaker Studio.
Giải pháp bao gồm các tập lệnh shell thực hiện các hành động sau:
- Cài đặt Spark trên Máy chủ Jupyter cho hồ sơ người dùng SageMaker Studio hoặc cho không gian dùng chung của SageMaker Studio
- cài đặt
sm-spark-cli
cho một hồ sơ người dùng hoặc không gian chia sẻ
Cài đặt giao diện người dùng Spark theo cách thủ công trong miền SageMaker Studio
Để lưu trữ Spark UI trên SageMaker Studio, hãy hoàn thành các bước sau:
- Chọn Thiết bị đầu cuối hệ thống từ trình khởi chạy SageMaker Studio.
- Chạy các lệnh sau trong thiết bị đầu cuối hệ thống:
Các lệnh sẽ mất vài giây để hoàn thành.
- Khi quá trình cài đặt hoàn tất, bạn có thể khởi động Spark UI bằng cách sử dụng được cung cấp
sm-spark-cli
và truy cập nó từ trình duyệt web bằng cách chạy đoạn mã sau:
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
Vị trí S3 nơi lưu trữ nhật ký sự kiện do SageMaker Xử lý, AWS Glue hoặc Amazon EMR tạo ra có thể được định cấu hình khi chạy các ứng dụng Spark.
Đối với sổ ghi chép SageMaker Studio và Phiên tương tác AWS Glue, bạn có thể thiết lập vị trí nhật ký sự kiện Spark trực tiếp từ sổ ghi chép bằng cách sử dụng sparkmagic
nhân.
Sản phẩm sparkmagic
kernel chứa một bộ công cụ để tương tác với các cụm Spark từ xa thông qua sổ ghi chép. Nó cung cấp phép thuật (%spark
, %sql
) để chạy mã Spark, thực hiện truy vấn SQL và định cấu hình cài đặt Spark như bộ nhớ thực thi và lõi.
Đối với công việc Xử lý SageMaker, bạn có thể định cấu hình vị trí nhật ký sự kiện Spark trực tiếp từ SDK Python của SageMaker.
Tham khảo tài liệu AWS để biết thêm thông tin:
Bạn có thể chọn URL được tạo để truy cập Spark UI.
Ảnh chụp màn hình sau đây cho thấy một ví dụ về giao diện người dùng Spark.
Bạn có thể kiểm tra trạng thái của Máy chủ lịch sử Spark bằng cách sử dụng sm-spark-cli status
lệnh trong thiết bị đầu cuối Hệ thống Studio.
Bạn cũng có thể dừng Máy chủ lịch sử Spark khi cần.
Tự động cài đặt Spark UI cho người dùng trong miền SageMaker Studio
Là quản trị viên CNTT, bạn có thể tự động cài đặt cho người dùng SageMaker Studio bằng cách sử dụng cấu hình vòng đời. Điều này có thể được thực hiện cho tất cả hồ sơ người dùng trong miền SageMaker Studio hoặc cho những hồ sơ cụ thể. Nhìn thấy Tùy chỉnh Amazon SageMaker Studio bằng cách sử dụng Cấu hình vòng đời để biết thêm chi tiết.
Bạn có thể tạo cấu hình vòng đời từ cài đặt-history-server.sh tập lệnh và đính kèm nó vào miền SageMaker Studio hiện có. Quá trình cài đặt được chạy cho tất cả các hồ sơ người dùng trong miền.
Từ một thiết bị đầu cuối được cấu hình với Giao diện dòng lệnh AWS (AWS CLI) và các quyền thích hợp, hãy chạy các lệnh sau:
Sau khi Máy chủ Jupyter khởi động lại, Giao diện người dùng Spark và sm-spark-cli
sẽ có sẵn trong môi trường SageMaker Studio của bạn.
Làm sạch
Trong phần này, chúng tôi chỉ cho bạn cách dọn sạch Giao diện người dùng Spark trong miền SageMaker Studio, theo cách thủ công hoặc tự động.
Gỡ cài đặt Spark UI theo cách thủ công
Để gỡ cài đặt Spark UI theo cách thủ công trong SageMaker Studio, hãy hoàn tất các bước sau:
- Chọn Thiết bị đầu cuối hệ thống trong trình khởi chạy SageMaker Studio.
- Chạy các lệnh sau trong thiết bị đầu cuối hệ thống:
Tự động gỡ cài đặt Spark UI cho tất cả hồ sơ người dùng SageMaker Studio
Để tự động gỡ cài đặt Spark UI trong SageMaker Studio cho tất cả hồ sơ người dùng, hãy hoàn tất các bước sau:
- Trên bảng điều khiển SageMaker, chọn Tên miền trong ngăn điều hướng, sau đó chọn miền SageMaker Studio.
- Trên trang chi tiết tên miền, điều hướng đến Môi trường tab.
- Chọn cấu hình vòng đời cho Spark UI trên SageMaker Studio.
- Chọn Để riêng ra.
- Xóa và khởi động lại các ứng dụng Máy chủ Jupyter cho hồ sơ người dùng SageMaker Studio.
Kết luận
Trong bài đăng này, chúng tôi đã chia sẻ một giải pháp mà bạn có thể sử dụng để cài đặt nhanh giao diện người dùng Spark trên SageMaker Studio. Với giao diện người dùng Spark được lưu trữ trên SageMaker, các nhóm kỹ thuật dữ liệu và máy học (ML) có thể sử dụng điện toán đám mây có thể mở rộng để truy cập và phân tích nhật ký Spark từ mọi nơi và tăng tốc độ phân phối dự án của họ. Quản trị viên CNTT có thể chuẩn hóa và xúc tiến việc cung cấp giải pháp trên đám mây, đồng thời tránh phổ biến môi trường phát triển tùy chỉnh cho các dự án ML.
Tất cả mã được hiển thị như một phần của bài đăng này đều có sẵn trong Kho GitHub.
Về các tác giả
Giuseppe Angelo Porcelli là Kiến trúc sư giải pháp chuyên gia học máy chính cho Amazon Web Services. Với nhiều năm kỹ thuật phần mềm và nền tảng ML, anh ấy làm việc với các khách hàng thuộc mọi quy mô để hiểu nhu cầu kinh doanh và kỹ thuật của họ, đồng thời thiết kế các giải pháp AI và ML để tận dụng tốt nhất Đám mây AWS và ngăn xếp Amazon Machine Learning. Anh ấy đã làm việc trên các dự án thuộc nhiều lĩnh vực khác nhau, bao gồm MLOps, thị giác máy tính và NLP, liên quan đến nhiều loại dịch vụ AWS. Khi rảnh rỗi, Giuseppe thích chơi bóng đá.
Bruno Pistone là Chuyên gia kiến trúc giải pháp AI/ML cho AWS có trụ sở tại Milan. Anh ấy làm việc với khách hàng ở mọi quy mô, giúp họ hiểu nhu cầu kỹ thuật của mình và thiết kế các giải pháp AI và ML để tận dụng tốt nhất Đám mây AWS và ngăn xếp Amazon Machine Learning. Lĩnh vực chuyên môn của ông bao gồm máy học từ đầu đến cuối, công nghiệp hóa máy học và trí tuệ nhân tạo. Anh ấy thích dành thời gian với bạn bè và khám phá những địa điểm mới, cũng như đi du lịch đến những điểm đến mới.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- : có
- :là
- :Ở đâu
- $ LÊN
- 1
- 100
- 12
- 7
- 8
- 9
- a
- Giới thiệu
- truy cập
- truy cập
- hành động
- thêm vào
- thông tin bổ sung
- quản trị viên
- AI
- AI / ML
- Tất cả
- cho phép
- cho phép
- Ngoài ra
- đàn bà gan dạ
- Amazon EC2
- Amazon EMR
- Học máy Amazon
- Amazon SageMaker
- Xưởng sản xuất Amazon SageMaker
- Amazon Web Services
- an
- phân tích
- phân tích
- và
- bất kì
- bất cứ nơi nào
- Apache
- ứng dụng
- các ứng dụng
- thích hợp
- ứng dụng
- LÀ
- AS
- đính kèm
- tự động hóa
- tự động
- có sẵn
- tránh
- AWS
- Keo AWS
- lý lịch
- dựa
- BE
- BEST
- lớn
- Dữ Liệu Lớn.
- rộng
- trình duyệt
- kinh doanh
- by
- gọi là
- CAN
- CD
- kiểm tra
- Chọn
- đám mây
- cụm
- mã
- thông thường
- hoàn thành
- Tính
- máy tính
- Tầm nhìn máy tính
- máy tính
- Cấu hình
- cấu hình
- Kết nối
- bao gồm
- An ủi
- Container
- chứa
- điều khiển
- tạo
- khách hàng
- khách hàng
- dữ liệu
- xử lý dữ liệu
- bộ dữ liệu
- giao hàng
- Thiết kế
- khu
- chi tiết
- Phát triển
- khác nhau
- trực tiếp
- phân phối
- phân phối máy tính
- tài liệu hướng dẫn
- miền
- lĩnh vực
- thực hiện
- dễ dàng
- hay
- cho phép
- cho phép
- cuối
- Kỹ Sư
- Môi trường
- môi trường
- lỗi
- Sự kiện
- ví dụ
- hiện tại
- giục
- Khám phá
- vài
- lĩnh vực
- Linh hoạt
- tiếp theo
- Bóng đá
- Trong
- Khung
- Miễn phí
- bạn bè
- từ
- đầy đủ
- tạo ra
- tạo ra
- thế hệ
- Trí tuệ nhân tạo
- lớn hơn
- he
- giúp đỡ
- của mình
- lịch sử
- chủ nhà
- tổ chức
- Độ đáng tin của
- Hướng dẫn
- HTML
- http
- HTTPS
- if
- in
- bao gồm
- Bao gồm
- thông tin
- cài đặt, dựng lên
- cài đặt
- Cài đặt
- tích hợp
- Tích hợp
- tương tác
- tương tác
- Giao thức
- trong
- liên quan đến
- IT
- Việc làm
- việc làm
- jpg
- lớn
- học tập
- để lại
- vòng đời
- Lượt thích
- Dòng
- địa điểm thư viện nào
- đăng nhập
- máy
- học máy
- ma thuật
- làm cho
- quản lý
- quản lý
- quản lý
- thủ công
- Bộ nhớ
- MILAN
- ML
- MLOps
- kiểu mẫu
- Màn Hình
- chi tiết
- Được đặt theo tên
- Điều hướng
- THÔNG TIN
- Cần
- cần thiết
- nhu cầu
- Mới
- nlp
- các nút
- máy tính xách tay
- con số
- of
- Cung cấp
- on
- những
- tối ưu hóa
- Tùy chọn
- Các lựa chọn
- or
- kết thúc
- trang
- cửa sổ
- một phần
- Thực hiện
- quyền
- Nơi
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- chơi
- Phổ biến
- Bài đăng
- Hiệu trưởng
- quá trình
- xử lý
- Sản xuất
- Hồ sơ
- Profiles
- Tiến độ
- dự án
- dự án
- cung cấp
- Python
- truy vấn
- Mau
- RAY
- xa
- tài nguyên
- chạy
- chạy
- chạy
- nhà làm hiền triết
- khả năng mở rộng
- kịch bản
- sdk
- giây
- Phần
- xem
- Không có máy chủ
- DỊCH VỤ
- phiên
- định
- thiết lập
- một số
- Chia sẻ
- chia sẻ
- Shell
- hiển thị
- thể hiện
- Chương trình
- Đơn giản
- Kích thước máy
- Phần mềm
- kỹ thuật phần mềm
- giải pháp
- Giải pháp
- Spark
- chuyên gia
- riêng
- tốc độ
- Chi
- ngăn xếp
- Bắt đầu
- Trạng thái
- Các bước
- Dừng
- là gắn
- hàng
- lưu trữ
- phòng thu
- Hỗ trợ
- hệ thống
- Hãy
- đội
- Kỹ thuật
- Thiết bị đầu cuối
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- sau đó
- bằng cách ấy
- Kia là
- điều này
- Thông qua
- thời gian
- đến
- công cụ
- theo dõi
- Hội thảo
- Đi du lịch
- loại
- ui
- Dưới
- hiểu
- URL
- Sử dụng
- sử dụng
- người sử dang
- Giao diện người dùng
- Người sử dụng
- sử dụng
- tiện ích
- tầm nhìn
- cách
- we
- web
- trình duyệt web
- các dịch vụ web
- Dựa trên web
- TỐT
- khi nào
- cái nào
- sẽ
- với
- không có
- làm việc
- công trinh
- năm
- Bạn
- trên màn hình
- zephyrnet