Các nhà khoa học dữ liệu cần một môi trường nhất quán và có thể tái tạo cho khối lượng công việc học máy (ML) và khoa học dữ liệu cho phép quản lý các thành phần phụ thuộc và được bảo mật. AWS Deep Learning Container đã cung cấp hình ảnh Docker dựng sẵn để đào tạo và phục vụ các mô hình trong các khung phổ biến như TensorFlow, PyTorch và MXNet. Để cải thiện trải nghiệm này, chúng tôi đã công bố bản beta công khai của bản phân phối nguồn mở SageMaker tại JupyterCon 2023. Điều này cung cấp trải nghiệm ML từ đầu đến cuối thống nhất giữa các nhà phát triển ML ở các cấp độ chuyên môn khác nhau. Các nhà phát triển không còn cần phải chuyển đổi giữa các bộ chứa khung khác nhau để thử nghiệm hoặc khi họ chuyển từ môi trường JupyterLab cục bộ và sổ ghi chép SageMaker sang công việc sản xuất trên SageMaker. Bản phân phối SageMaker nguồn mở hỗ trợ các gói và thư viện phổ biến nhất cho khoa học dữ liệu, ML và trực quan hóa, chẳng hạn như TensorFlow, PyTorch, Scikit-learn, Pandas và Matplotlib. Bạn có thể bắt đầu sử dụng vùng chứa từ Thư viện công cộng Amazon ECR bắt đầu hôm nay.
Trong bài đăng này, chúng tôi chỉ cho bạn cách bạn có thể sử dụng phân phối nguồn mở SageMaker để nhanh chóng thử nghiệm trên môi trường địa phương của mình và dễ dàng thăng chức cho họ vào các công việc trên SageMaker.
Tổng quan về giải pháp
Ví dụ của chúng tôi, chúng tôi giới thiệu việc đào tạo một mô hình phân loại hình ảnh bằng PyTorch. chúng tôi sử dụng KMNIST bộ dữ liệu có sẵn công khai trên PyTorch. Chúng tôi đào tạo một mô hình mạng thần kinh, kiểm tra hiệu suất của mô hình và cuối cùng là in quá trình đào tạo và kiểm tra tổn thất. Sổ ghi chép đầy đủ cho ví dụ này có sẵn trong Kho ví dụ SageMaker Studio Lab. Chúng tôi bắt đầu thử nghiệm trên máy tính xách tay cục bộ bằng bản phân phối nguồn mở, chuyển nó sang Xưởng sản xuất Amazon SageMaker để sử dụng phiên bản lớn hơn, sau đó lên lịch cho sổ ghi chép dưới dạng công việc sổ ghi chép.
Điều kiện tiên quyết
Bạn cần các điều kiện tiên quyết sau:
Thiết lập môi trường địa phương của bạn
Bạn có thể trực tiếp bắt đầu sử dụng bản phân phối nguồn mở trên máy tính xách tay cục bộ của mình. Để khởi động JupyterLab, hãy chạy các lệnh sau trên thiết bị đầu cuối của bạn:
Bạn có thể thay thế ECR_IMAGE_ID
với bất kỳ thẻ hình ảnh nào có sẵn trong Thư viện công cộng Amazon ECRhoặc chọn latest-gpu
gắn thẻ nếu bạn đang sử dụng máy hỗ trợ GPU.
Lệnh này sẽ khởi động JupyterLab và cung cấp một URL trên thiết bị đầu cuối, như http://127.0.0.1:8888/lab?token=<token>
. Sao chép liên kết và nhập nó vào trình duyệt ưa thích của bạn để bắt đầu JupyterLab.
Thiết lập Studio
Studio là môi trường phát triển tích hợp đầu cuối (IDE) dành cho ML, cho phép các nhà phát triển và nhà khoa học dữ liệu xây dựng, đào tạo, triển khai và giám sát các mô hình ML trên quy mô lớn. Studio cung cấp một danh sách đầy đủ các hình ảnh của bên thứ nhất với các khung và gói phổ biến, chẳng hạn như Khoa học dữ liệu, TensorFlow, PyTorch và Spark. Những hình ảnh này giúp các nhà khoa học dữ liệu dễ dàng bắt đầu với ML bằng cách chỉ cần chọn một khung và loại phiên bản mà họ chọn để điện toán.
Giờ đây, bạn có thể sử dụng bản phân phối mã nguồn mở SageMaker trên Studio bằng Studio's mang theo hình ảnh của chính bạn tính năng. Để thêm bản phân phối nguồn mở vào miền SageMaker của bạn, hãy hoàn thành các bước sau:
- Thêm phân phối nguồn mở vào tài khoản của bạn Đăng ký container đàn hồi Amazon (Amazon ECR) bằng cách chạy các lệnh sau trên thiết bị đầu cuối của bạn:
- Tạo hình ảnh SageMaker và đính kèm hình ảnh vào miền Studio:
- Trên bảng điều khiển SageMaker, hãy khởi chạy Studio bằng cách chọn miền và hồ sơ người dùng hiện tại của bạn.
- Nếu muốn, hãy khởi động lại Studio bằng cách làm theo các bước trong Tắt và cập nhật SageMaker Studio.
Tải xuống sổ ghi chép
Tải xuống sổ ghi chép mẫu cục bộ từ Repo GitHub.
Mở sổ ghi chép trong lựa chọn IDE của bạn và thêm một ô vào đầu sổ ghi chép để cài đặt torchsummary
. Các torchsummary
gói không phải là một phần của bản phân phối và việc cài đặt gói này trên sổ ghi chép sẽ đảm bảo sổ ghi chép chạy từ đầu đến cuối. Chúng tôi khuyên bạn nên sử dụng conda
or micromamba
để quản lý môi trường và các phụ thuộc. Thêm ô sau vào sổ ghi chép và lưu sổ ghi chép:
Thử nghiệm trên sổ ghi chép cục bộ
Tải sổ ghi chép lên giao diện người dùng JupyterLab mà bạn đã khởi chạy bằng cách chọn biểu tượng tải lên như trong ảnh chụp màn hình sau.
Khi nó được tải lên, hãy khởi chạy cv-kmnist.ipynb
sổ tay. Bạn có thể bắt đầu chạy các ô ngay lập tức mà không phải cài đặt bất kỳ phần phụ thuộc nào như torch, matplotlib hoặc ipywidgets.
Nếu bạn đã làm theo các bước trước, bạn có thể thấy rằng bạn có thể sử dụng bản phân phối cục bộ từ máy tính xách tay của mình. Trong bước tiếp theo, chúng tôi sử dụng cùng một bản phân phối trên Studio để tận dụng các tính năng của Studio.
Di chuyển thử nghiệm sang Studio (không bắt buộc)
Nếu muốn, hãy quảng cáo thử nghiệm cho Studio. Một trong những ưu điểm của Studio là các tài nguyên điện toán cơ bản hoàn toàn linh hoạt, vì vậy bạn có thể dễ dàng tăng hoặc giảm các tài nguyên có sẵn và các thay đổi diễn ra tự động trong nền mà không làm gián đoạn công việc của bạn. Nếu bạn muốn chạy cùng một sổ ghi chép từ trước đó trên một phiên bản tính toán và tập dữ liệu lớn hơn, thì bạn có thể di chuyển sang Studio.
Điều hướng đến Giao diện người dùng Studio mà bạn đã khởi chạy trước đó và chọn biểu tượng tải lên để tải sổ ghi chép lên.
Sau khi khởi chạy sổ ghi chép, bạn sẽ được nhắc chọn hình ảnh và loại phiên bản. Trên kernel launcher, chọn sagemaker-runtime
như hình ảnh và một ml.t3.medium
ví dụ, sau đó chọn Chọn.
Giờ đây, bạn có thể chạy sổ ghi chép từ đầu đến cuối mà không cần bất kỳ thay đổi nào trên sổ ghi chép từ môi trường phát triển cục bộ sang sổ ghi chép Studio!
Lên lịch sổ tay như một công việc
Khi bạn hoàn thành thử nghiệm của mình, SageMaker cung cấp nhiều tùy chọn để sản xuất sổ ghi chép của bạn, chẳng hạn như công việc đào tạo và quy trình SageMaker. Một tùy chọn như vậy là trực tiếp chạy sổ ghi chép dưới dạng công việc sổ ghi chép đã lên lịch, không tương tác bằng cách sử dụng Công việc máy tính xách tay SageMaker. Ví dụ: bạn có thể muốn đào tạo lại mô hình của mình theo định kỳ hoặc nhận kết luận về dữ liệu đến theo định kỳ và tạo báo cáo để các bên liên quan của bạn sử dụng.
Từ Studio, chọn biểu tượng công việc sổ ghi chép để khởi chạy công việc sổ ghi chép. Nếu bạn đã cài đặt cục bộ tiện ích mở rộng công việc sổ ghi chép trên máy tính xách tay của mình, bạn cũng có thể lên lịch trực tiếp cho sổ ghi chép từ máy tính xách tay của mình. Nhìn thấy Hướng dẫn cài đặt để thiết lập tiện ích mở rộng công việc sổ ghi chép cục bộ.
Công việc sổ ghi chép tự động sử dụng URI hình ảnh ECR của bản phân phối nguồn mở, vì vậy bạn có thể trực tiếp lên lịch cho công việc sổ ghi chép.
Chọn Chạy theo lịch trình, chọn một lịch trình, ví dụ như mỗi tuần vào Thứ Bảy và chọn Tạo. Bạn cũng có thể chọn Chạy ngay đi nếu bạn muốn xem kết quả ngay lập tức.
Khi công việc sổ ghi chép đầu tiên hoàn tất, bạn có thể xem kết quả đầu ra của sổ ghi chép trực tiếp từ Studio UI bằng cách chọn Sổ tay Dưới Tệp đầu ra.
Xem xét bổ sung
Ngoài việc sử dụng hình ảnh ECR có sẵn công khai trực tiếp cho khối lượng công việc ML, bản phân phối nguồn mở còn mang lại những ưu điểm sau:
- Dockerfile được sử dụng để xây dựng hình ảnh có sẵn công khai để các nhà phát triển khám phá và xây dựng hình ảnh của riêng họ. Bạn cũng có thể kế thừa hình ảnh này làm hình ảnh cơ sở và cài đặt các thư viện tùy chỉnh của mình để có môi trường tái tạo.
- Nếu bạn chưa quen với Docker và thích sử dụng môi trường Conda trên môi trường JupyterLab của mình, chúng tôi sẽ cung cấp
env.out
tệp cho từng phiên bản đã xuất bản. Bạn có thể sử dụng các hướng dẫn trong tệp để tạo môi trường Conda của riêng mình, môi trường này sẽ bắt chước cùng một môi trường. Ví dụ: xem tệp môi trường CPU cpu.env.out. - Bạn có thể sử dụng các phiên bản GPU của hình ảnh để chạy khối lượng công việc tương thích với GPU, chẳng hạn như học sâu và xử lý hình ảnh.
Làm sạch
Hoàn thành các bước sau để dọn sạch tài nguyên của bạn:
- Nếu bạn đã lên lịch cho sổ ghi chép của mình để chạy theo lịch trình, hãy tạm dừng hoặc xóa lịch trình trên Định nghĩa công việc sổ ghi chép tab để tránh phải trả tiền cho các công việc trong tương lai.
- Tắt tất cả các ứng dụng Studio để tránh phải trả tiền cho việc sử dụng điện toán không sử dụng. Nhìn thấy Tắt và cập nhật ứng dụng Studio để được hướng dẫn.
- Bạn có thể tùy ý xóa miền Studio nếu bạn đã tạo.
Kết luận
Duy trì một môi trường có thể tái sản xuất qua các giai đoạn khác nhau của vòng đời ML là một trong những thách thức lớn nhất đối với các nhà khoa học và nhà phát triển dữ liệu. Với bản phân phối nguồn mở SageMaker, chúng tôi cung cấp hình ảnh với các phiên bản tương thích lẫn nhau của các khung và gói ML phổ biến nhất. Bản phân phối cũng là nguồn mở, cung cấp cho các nhà phát triển sự minh bạch về các gói và quy trình xây dựng, giúp dễ dàng tùy chỉnh bản phân phối của riêng họ.
Trong bài đăng này, chúng tôi đã chỉ cho bạn cách sử dụng bản phân phối trên môi trường cục bộ của bạn, trên Studio và dưới dạng vùng chứa cho các công việc đào tạo của bạn. Tính năng này hiện đang ở phiên bản beta công khai. Chúng tôi khuyến khích bạn dùng thử tính năng này và chia sẻ phản hồi cũng như các vấn đề của bạn trên kho lưu trữ GitHub công khai!
Giới thiệu về tác giả
Durga Sury là Kiến trúc sư giải pháp ML trong nhóm Amazon SageMaker Service SA. Cô ấy đam mê làm cho máy học có thể tiếp cận được với mọi người. Trong 4 năm làm việc tại AWS, cô đã giúp thiết lập các nền tảng AI/ML cho khách hàng doanh nghiệp. Khi không làm việc, cô ấy thích cưỡi mô tô, tiểu thuyết trinh thám và đi bộ đường dài với chú chó husky 5 tuổi của mình.
Ketan Vijayvargiya là Kỹ sư phát triển phần mềm cao cấp tại Amazon Web Services (AWS). Lĩnh vực trọng tâm của ông là máy học, hệ thống phân tán và nguồn mở. Ngoài công việc, anh ấy thích dành thời gian tự tổ chức và tận hưởng thiên nhiên.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- EVM tài chính. Giao diện hợp nhất cho tài chính phi tập trung. Truy cập Tại đây.
- Tập đoàn truyền thông lượng tử. Khuếch đại IR/PR. Truy cập Tại đây.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/get-started-with-the-open-source-amazon-sagemaker-distribution/
- : có
- :là
- :không phải
- $ LÊN
- 1
- 10
- 100
- 11
- 2023
- 7
- 9
- a
- Giới thiệu
- có thể truy cập
- ngang qua
- thêm vào
- Ngoài ra
- thêm vào
- Lợi thế
- lợi thế
- AI / ML
- Tất cả
- Đã
- Ngoài ra
- đàn bà gan dạ
- Amazon SageMaker
- Amazon Web Services
- Amazon Web Services (AWS)
- an
- và
- công bố
- bất kì
- ứng dụng
- ứng dụng
- LÀ
- khu vực
- AS
- At
- đính kèm
- tự động
- có sẵn
- tránh
- AWS
- lý lịch
- cơ sở
- dựa
- BE
- Bắt đầu
- beta
- giữa
- lớn nhất
- trình duyệt
- xây dựng
- by
- CAN
- CON MÈO
- Tế bào
- thách thức
- Những thay đổi
- sự lựa chọn
- Chọn
- lựa chọn
- phân loại
- COM
- Chung
- tương thích
- hoàn thành
- Tính
- Cấu hình
- thích hợp
- An ủi
- tiêu thụ
- Container
- Container
- tạo
- tạo ra
- Hiện nay
- khách hàng
- khách hàng
- tùy chỉnh
- dữ liệu
- khoa học dữ liệu
- bộ dữ liệu
- sâu
- học kĩ càng
- Mặc định
- triển khai
- mô tả
- phát triển
- Phát triển
- khác nhau
- trực tiếp
- phân phối
- hệ thống phân phối
- phân phối
- phu bến tàu
- miền
- thực hiện
- xuống
- mỗi
- Sớm hơn
- dễ dàng hơn
- dễ dàng
- cho phép
- khuyến khích
- cuối
- Cuối cùng đến cuối
- ky sư
- đảm bảo
- đăng ký hạng mục thi
- Doanh nghiệp
- Môi trường
- môi trường
- Mỗi
- mọi người
- ví dụ
- ví dụ
- hiện tại
- kinh nghiệm
- thử nghiệm
- chuyên môn
- khám phá
- xuất khẩu
- mở rộng
- mở rộng
- Đặc tính
- Tính năng
- thông tin phản hồi
- Tập tin
- Cuối cùng
- Tên
- Tập trung
- sau
- tiếp theo
- Trong
- Khung
- khung
- từ
- Full
- đầy đủ
- tương lai
- tạo ra
- được
- GitHub
- GPU
- Có
- có
- he
- đã giúp
- cô
- của mình
- Độ đáng tin của
- Hướng dẫn
- HTML
- HTTPS
- ICON
- if
- hình ảnh
- Phân loại hình ảnh
- hình ảnh
- ngay
- nâng cao
- in
- Incoming
- cài đặt, dựng lên
- cài đặt
- Cài đặt
- ví dụ
- hướng dẫn
- tích hợp
- trong
- các vấn đề
- IT
- chính nó
- Việc làm
- việc làm
- jpg
- json
- phòng thí nghiệm
- máy tính xách tay
- lớn hơn
- phóng
- phát động
- học tập
- cho phép
- niveaux
- thư viện
- vòng đời
- Lượt thích
- Lượt thích
- LINK
- Danh sách
- địa phương
- tại địa phương
- đăng nhập
- dài
- còn
- sự mất
- yêu
- máy
- học máy
- làm cho
- Làm
- quản lý
- quản lý
- matplotlib
- Might
- di chuyển
- ML
- kiểu mẫu
- mô hình
- Màn Hình
- hầu hết
- xe mô tô
- di chuyển
- nhiều
- hỗ trợ
- Trinh thám
- tên
- Thiên nhiên
- Cần
- cần
- mạng
- mạng lưới thần kinh
- Mới
- tiếp theo
- Không
- máy tính xách tay
- tại
- of
- Cung cấp
- on
- ONE
- mở
- mã nguồn mở
- Tùy chọn
- Các lựa chọn
- or
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- ra
- bên ngoài
- riêng
- gói
- gói
- gấu trúc
- một phần
- đam mê
- tạm dừng
- trả tiền
- hiệu suất
- Nơi
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Bài đăng
- thích hơn
- ưa thích
- điều kiện tiên quyết
- In
- riêng
- Quy trình
- xử lý
- Sản lượng
- Hồ sơ
- thúc đẩy
- cho
- cung cấp
- cung cấp
- công khai
- công khai
- công bố
- Đẩy
- Python
- ngọn đuốc
- Mau
- giới thiệu
- thay thế
- Báo cáo
- kho
- Yêu cầu
- Thông tin
- Kết quả
- chạy
- chạy
- s
- SA
- nhà làm hiền triết
- Đường ống SageMaker
- tương tự
- ngày thứ bảy
- Lưu
- Quy mô
- lịch trình
- lên kế hoạch
- Khoa học
- các nhà khoa học
- học hỏi
- an toàn
- xem
- cao cấp
- dịch vụ
- DỊCH VỤ
- phục vụ
- định
- thiết lập
- Chia sẻ
- chị ấy
- hiển thị
- giới thiệu
- cho thấy
- thể hiện
- Đơn giản
- đơn giản
- So
- Phần mềm
- phát triển phần mềm
- Giải pháp
- nguồn
- Spark
- tiêu
- giai đoạn
- các bên liên quan
- Bắt đầu
- bắt đầu
- Bắt đầu
- Bước
- Các bước
- phòng thu
- như vậy
- Hỗ trợ
- Công tắc điện
- hệ thống
- TAG
- Hãy
- nhóm
- tensorflow
- Thiết bị đầu cuối
- thử nghiệm
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- sau đó
- Kia là
- họ
- điều này
- thời gian
- đến
- bây giờ
- ngọn đuốc
- Train
- Hội thảo
- Minh bạch
- thử
- kiểu
- ui
- cơ bản
- thống nhât
- không sử dụng
- Cập nhật
- tải lên
- URL
- Sử dụng
- sử dụng
- đã sử dụng
- người sử dang
- sử dụng
- sử dụng
- phiên bản
- Xem
- hình dung
- muốn
- muốn
- we
- web
- các dịch vụ web
- tuần
- khi nào
- sẽ
- với
- không có
- Công việc
- đang làm việc
- năm
- Bạn
- trên màn hình
- zephyrnet