Xây dựng mô hình ML hiệu suất cao bằng PyTorch 2.0 trên AWS – Phần 1

Được xuất bản lại bởi Plato

Người theo dõi: 0

PyTorch là một khung máy học (ML) được khách hàng AWS sử dụng rộng rãi cho nhiều ứng dụng, chẳng hạn như thị giác máy tính, xử lý ngôn ngữ tự nhiên, tạo nội dung, v.v. Với bản phát hành PyTorch 2.0 gần đây, khách hàng AWS giờ đây có thể làm những việc tương tự như họ có thể làm với PyTorch 1.x nhưng nhanh hơn và trên quy mô lớn với tốc độ đào tạo được cải thiện, mức sử dụng bộ nhớ thấp hơn và khả năng phân tán nâng cao. Một số công nghệ mới bao gồm torch.compile, TorchDynamo, AOTAutograd, PrimTorch và TorchInductor đã được đưa vào bản phát hành PyTorch2.0. tham khảo PyTorch 2.0: Bản phát hành thế hệ tiếp theo của chúng tôi nhanh hơn, Pythonic và Dynamic hơn bao giờ hết để biết thêm chi tiết.

Bài đăng này chứng minh hiệu suất và sự dễ dàng của việc triển khai và đào tạo mô hình ML phân tán hiệu suất cao, quy mô lớn bằng cách sử dụng PyTorch 2.0 trên AWS. Bài đăng này sẽ hướng dẫn thêm về cách triển khai từng bước tinh chỉnh mô hình RoBERTa (Phương pháp tiếp cận trước đào tạo BERT được tối ưu hóa mạnh mẽ) để phân tích cảm tính bằng cách sử dụng AMI học sâu AWS (AWS DLAMI) và AWS Deep Learning Container (DLC) bật Đám mây điện toán đàn hồi Amazon (Amazon EC2 p4d.24xlarge) với mức tăng tốc quan sát được là 42% khi được sử dụng với PyTorch 2.0 torch.compile + bf16 + fused AdamW. Mô hình tinh chỉnh sau đó được triển khai trên AWS trọng lực-dựa trên phiên bản C7g EC2 trên Amazon SageMaker với mức tăng tốc 10% quan sát được so với PyTorch 1.13.

Hình dưới đây cho thấy điểm chuẩn hiệu suất của việc tinh chỉnh mô hình RoBERTa trên Amazon EC2 p4d.24xlarge với AWS PyTorch 2.0 DLAMI + DLC.

Build high-performance ML models using PyTorch 2.0 on AWS – Part 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Tham khảo Suy luận PyTorch 2.0 được tối ưu hóa với bộ xử lý AWS Graviton để biết chi tiết về điểm chuẩn hiệu suất suy luận phiên bản dựa trên AWS Graviton cho PyTorch 2.0.

Hỗ trợ cho PyTorch 2.0 trên AWS

Hỗ trợ PyTorch2.0 không giới hạn ở các dịch vụ và tính toán được hiển thị trong ví dụ về trường hợp sử dụng trong bài đăng này; nó mở rộng ra nhiều thứ khác trên AWS mà chúng ta sẽ thảo luận trong phần này.

Yêu cầu kinh doanh

Nhiều khách hàng của AWS, thuộc nhiều ngành khác nhau, đang chuyển đổi doanh nghiệp của họ bằng cách sử dụng trí tuệ nhân tạo (AI), đặc biệt là trong lĩnh vực AI tổng quát và các mô hình ngôn ngữ lớn (LLM) được thiết kế để tạo ra văn bản giống con người. Về cơ bản, đây là những mô hình lớn dựa trên các kỹ thuật học sâu được đào tạo với hàng trăm tỷ tham số. Sự tăng trưởng về kích thước mô hình đang làm tăng thời gian đào tạo từ vài ngày lên vài tuần và thậm chí vài tháng trong một số trường hợp. Điều này đang thúc đẩy chi phí đào tạo và suy luận tăng theo cấp số nhân, hơn bao giờ hết, đòi hỏi phải có một khung như PyTorch 2.0 với sự hỗ trợ tích hợp cho đào tạo mô hình tăng tốc và cơ sở hạ tầng được tối ưu hóa của AWS phù hợp với khối lượng công việc và nhu cầu hiệu suất cụ thể.

Lựa chọn tính toán

AWS cung cấp hỗ trợ PyTorch 2.0 trên nhiều lựa chọn nhất về điện toán mạnh mẽ, kết nối mạng tốc độ cao và các tùy chọn lưu trữ hiệu suất cao có thể mở rộng mà bạn có thể sử dụng cho bất kỳ dự án hoặc ứng dụng ML nào và tùy chỉnh để phù hợp với các yêu cầu về hiệu suất và ngân sách của mình. Điều này được thể hiện trong sơ đồ trong phần tiếp theo; ở tầng dưới cùng, chúng tôi cung cấp nhiều lựa chọn phiên bản điện toán được cung cấp bởi bộ xử lý AWS Graviton, Nvidia, AMD và Intel.

Để triển khai mô hình, bạn có thể sử dụng bộ xử lý dựa trên ARM, chẳng hạn như phiên bản dựa trên AWS Graviton được công bố gần đây, cung cấp hiệu suất suy luận cho PyTorch 2.0 với tốc độ Resnet3.5 lên tới 50 lần so với bản phát hành PyTorch trước đó và gấp tới 1.4 lần tốc độ tốc độ cho BERT, giúp các phiên bản dựa trên AWS Graviton trở thành phiên bản được tối ưu hóa điện toán nhanh nhất trên AWS cho các giải pháp suy luận mô hình dựa trên CPU.

Lựa chọn dịch vụ ML

Để sử dụng điện toán AWS, bạn có thể chọn từ một loạt các dịch vụ dựa trên đám mây toàn cầu để phát triển ML, điện toán và điều phối quy trình làm việc. Lựa chọn này cho phép bạn điều chỉnh các chiến lược kinh doanh và đám mây của mình, đồng thời chạy các công việc PyTorch 2.0 trên nền tảng bạn chọn. Ví dụ: nếu bạn có các hạn chế tại chỗ hoặc các khoản đầu tư hiện tại vào các sản phẩm nguồn mở, thì bạn có thể sử dụng Amazon EC2, Cụm song song AWS, hoặc là Siêu cụm AWS để chạy khối lượng công việc đào tạo phân tán dựa trên cách tiếp cận tự quản lý. Bạn cũng có thể sử dụng một dịch vụ được quản lý hoàn toàn như SageMaker để có cơ sở hạ tầng đào tạo quy mô sản xuất, được tối ưu hóa về chi phí và được quản lý hoàn toàn. SageMaker cũng tích hợp với nhiều công cụ MLOps khác nhau, cho phép bạn mở rộng quy mô triển khai mô hình của mình, giảm chi phí suy luận, quản lý mô hình hiệu quả hơn trong sản xuất và giảm gánh nặng vận hành.

Tương tự, nếu bạn hiện có các khoản đầu tư Kubernetes, bạn cũng có thể sử dụng Dịch vụ Kubernetes đàn hồi của Amazon (Amazon EKS) và Kubeflow trên AWS để triển khai quy trình ML cho hoạt động đào tạo phân tán hoặc sử dụng dịch vụ điều phối bộ chứa gốc AWS như Dịch vụ container đàn hồi Amazon (Amazon ECS) để đào tạo và triển khai mô hình. Các tùy chọn để xây dựng nền tảng ML của bạn không giới hạn ở các dịch vụ này; bạn có thể chọn tùy thuộc vào yêu cầu tổ chức của mình đối với công việc PyTorch 2.0.

ngăn xếp

Kích hoạt PyTorch 2.0 với AWS DLAMI và AWS DLC

Để sử dụng chồng dịch vụ AWS nói trên và khả năng tính toán mạnh mẽ, bạn phải cài đặt phiên bản được biên dịch tối ưu của khung PyTorch2.0 và các thành phần phụ thuộc bắt buộc của nó, nhiều trong số đó là các dự án độc lập và kiểm tra chúng từ đầu đến cuối. Bạn cũng có thể cần các thư viện dành riêng cho CPU cho quy trình toán học tăng tốc, thư viện dành riêng cho GPU dành cho quy trình giao tiếp giữa các GPU và toán học được tăng tốc cũng như trình điều khiển GPU cần được căn chỉnh với trình biên dịch GPU được sử dụng để biên dịch thư viện GPU. Nếu công việc của bạn yêu cầu đào tạo nhiều nút quy mô lớn, thì bạn cần một mạng được tối ưu hóa có thể cung cấp độ trễ thấp nhất và thông lượng cao nhất. Sau khi xây dựng ngăn xếp của mình, bạn cần thường xuyên quét và vá chúng để tìm các lỗ hổng bảo mật, đồng thời xây dựng lại và kiểm tra lại ngăn xếp sau mỗi lần nâng cấp phiên bản khung.

AWS giúp giảm bớt công việc nặng nhọc này bằng cách cung cấp một bộ khung, phần phụ thuộc và công cụ được tuyển chọn và bảo mật để tăng tốc deep learning trên đám mây. AWS DLAMI và AWS DLC. Các hình ảnh và vùng chứa máy được tạo sẵn và thử nghiệm này được tối ưu hóa để học sâu trên các loại Phiên bản điện toán tăng tốc EC2, cho phép bạn mở rộng quy mô ra nhiều nút để phân bổ khối lượng công việc hiệu quả và dễ dàng hơn. Nó bao gồm một bản dựng sẵn Bộ điều hợp vải đàn hồi (EFA), ngăn xếp GPU Nvidia và nhiều khung học sâu (TensorFlow, MXNet và PyTorch với bản phát hành 2.0 mới nhất) để đào tạo học sâu phân tán hiệu suất cao. Bạn không cần dành thời gian cài đặt và khắc phục sự cố trình điều khiển và phần mềm học sâu hoặc xây dựng cơ sở hạ tầng ML, cũng như không phải chịu chi phí định kỳ để vá những hình ảnh này cho các lỗ hổng bảo mật hoặc tạo lại hình ảnh sau mỗi lần nâng cấp phiên bản khung mới. Thay vào đó, bạn có thể tập trung vào nỗ lực mang lại giá trị gia tăng cao hơn cho các công việc đào tạo trên quy mô lớn trong khoảng thời gian ngắn hơn và lặp lại các mô hình ML của bạn nhanh hơn.

Build high-performance ML models using PyTorch 2.0 on AWS – Part 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Tổng quan về giải pháp

Xét rằng việc đào tạo về GPU và suy luận về CPU là một trường hợp sử dụng phổ biến đối với khách hàng AWS, chúng tôi đã đưa vào bài đăng này cách triển khai từng bước một kiến trúc kết hợp (như thể hiện trong sơ đồ sau). Chúng ta sẽ khám phá khả năng tối ưu nhất có thể và sử dụng phiên bản P4 EC2 có hỗ trợ BF16 được khởi tạo với DLAMI GPU cơ sở, bao gồm trình điều khiển NVIDIA, CUDA, NCCL, ngăn xếp EFA và DLC PyTorch2.0 để tinh chỉnh mô hình phân tích tình cảm RoBERTa cho phép bạn kiểm soát và linh hoạt để sử dụng bất kỳ thư viện nguồn mở hoặc độc quyền nào. Sau đó, chúng tôi sử dụng SageMaker cho cơ sở hạ tầng lưu trữ mô hình được quản lý hoàn toàn để lưu trữ mô hình của chúng tôi trên nền tảng AWS Graviton3 phiên bản C7g. Chúng tôi đã chọn C7g trên SageMaker vì nó đã được chứng minh là giảm tới 50% chi phí suy luận so với các phiên bản EC2 tương đương cho suy luận thời gian thực trên SageMaker. Sơ đồ sau minh họa kiến trúc này.

hiền nhân_cuối cùng

Việc đào tạo và lưu trữ mô hình trong trường hợp sử dụng này bao gồm các bước sau:

Khởi chạy phiên bản Ubuntu EC2 dựa trên GPU DLAMI trong VPC của bạn và kết nối với phiên bản của bạn bằng SSH.
Sau khi bạn đăng nhập vào phiên bản EC2, hãy tải xuống AWS PyTorch 2.0 DLC.
Chạy vùng chứa DLC của bạn với tập lệnh đào tạo mô hình để tinh chỉnh mô hình RoBERTa.
Sau khi đào tạo mô hình hoàn tất, hãy đóng gói mô hình đã lưu, tập lệnh suy luận và một vài tệp siêu dữ liệu vào tệp tar mà suy luận SageMaker có thể sử dụng và tải gói mô hình lên một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) xô.
Triển khai mô hình bằng SageMaker và tạo điểm cuối suy luận HTTPS. Điểm cuối suy luận SageMaker giữ bộ cân bằng tải và một hoặc nhiều phiên bản của vùng chứa suy luận của bạn trong các Vùng sẵn sàng khác nhau. Bạn có thể triển khai nhiều phiên bản của cùng một mô hình hoặc các mô hình hoàn toàn khác nhau đằng sau điểm cuối duy nhất này. Trong ví dụ này, chúng tôi lưu trữ một mô hình duy nhất.
Gọi điểm cuối mô hình của bạn bằng cách gửi dữ liệu thử nghiệm và xác minh đầu ra suy luận.

Trong các phần sau, chúng tôi giới thiệu cách tinh chỉnh mô hình RoBERTa để phân tích cảm tính. RoBERTa được phát triển bởi AI của Facebook, cải tiến mô hình BERT phổ biến bằng cách sửa đổi các siêu tham số chính và đào tạo trước trên một kho văn bản lớn hơn. Điều này dẫn đến hiệu suất được cải thiện so với vanilla BERT.

Chúng tôi sử dụng máy biến áp thư viện bằng Hugging Face để đào tạo trước mô hình RoBERTa trên khoảng 124 triệu tweet và chúng tôi tinh chỉnh nó trên bộ dữ liệu Twitter để phân tích cảm tính.

Điều kiện tiên quyết

Đảm bảo bạn đáp ứng các điều kiện tiên quyết sau:

Bạn có một Tài khoản AWS.
Đảm bảo rằng bạn đang ở us-west-2 Vùng để chạy ví dụ này. (Ví dụ này được thử nghiệm trong us-west-2; tuy nhiên, bạn có thể chạy ở bất kỳ Khu vực nào khác.)
Tạo một vai trò với cái tên sagemakerrole. Thêm các chính sách được quản lý AmazonSageMakerFullAccess và AmazonS3FullAccess để cấp cho SageMaker quyền truy cập vào bộ chứa S3.
Tạo vai trò EC2 với cái tên ec2_role. Sử dụng chính sách cấp phép sau:

#Refer - Make sure EC2 role has following policies
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability", "ecr:CompleteLayerUpload", "ecr:GetDownloadUrlForLayer", "ecr:InitiateLayerUpload", "ecr:PutImage", "ecr:UploadLayerPart", "ecr:GetAuthorizationToken", "s3:*", "s3-object-lambda:*", "iam:Get*", "iam:PassRole", "sagemaker:*" ], "Resource": "*" } ]
}

1. Khởi chạy phiên bản phát triển của bạn

Chúng tôi tạo một phiên bản p4d.24xlarge cung cấp 8 GPU NVIDIA A100 Tensor Core trong us-west-2:

Khi chọn AMI, hãy làm theo ghi chú phát hành để chạy lệnh này bằng cách sử dụng Giao diện dòng lệnh AWS (AWS CLI) để tìm ID AMI sẽ sử dụng trong us-west-2:

#STEP 1.2 - This requires AWS CLI credentials to call ec2 describe-images api (ec2:DescribeImages).
aws ec2 describe-images --region us-west-2 --owners amazon --filters 'Name=name,Values=Deep Learning Base GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Đảm bảo kích thước của ổ đĩa gốc gp3 là 200 GiB.

Mã hóa âm lượng EBS không được bật theo mặc định. Cân nhắc thay đổi điều này khi chuyển giải pháp này sang sản xuất.

2. Tải xuống Bộ chứa Deep Learning

AWS DLC có sẵn dưới dạng hình ảnh Docker trong Amazon Elastic Container Registry Công khai, một dịch vụ đăng ký hình ảnh bộ chứa AWS được quản lý an toàn, có thể mở rộng và đáng tin cậy. Mỗi hình ảnh Docker được tạo để đào tạo hoặc suy luận trên một phiên bản khung học sâu cụ thể, phiên bản Python, với sự hỗ trợ của CPU hoặc GPU. Chọn khung PyTorch 2.0 từ danh sách có sẵn Hình ảnh Bộ chứa Deep Learning.

Hoàn thành các bước sau để tải xuống DLC của bạn:

Một. SSH vào ví dụ. Theo mặc định, nhóm bảo mật được sử dụng với EC2 sẽ mở cổng SSH cho tất cả. Vui lòng xem xét điều này nếu bạn đang chuyển giải pháp này sang sản xuất:

#STEP 2.1 - Use Public IP
ssh -i ~/.ssh/<pub_key> ubuntu@<IP_ADDR> #Refer - Output: Notice python3.9 package that we will use to run and install Inference scripts __| __|_ )
_| ( / Deep Learning Base GPU AMI (Ubuntu 20.04)
___|___|___| Welcome to Ubuntu 20.04.6 LTS (GNU/Linux 5.15.0-1035-aws x86_64v) * Please note that Amazon EC2 P2 Instance is not supported on current DLAMI.
* Supported EC2 instances: G3, P3, P3dn, P4d, P4de, G5, G4dn.
NVIDIA driver version: 525.85.12
Default CUDA version: 11.2 Utility libraries are installed in /usr/bin/python3.9.
To access them, use /usr/bin/python3.9.

Theo mặc định, nhóm bảo mật được sử dụng với Amazon EC2 sẽ mở cổng SSH cho tất cả. Cân nhắc thay đổi điều này nếu bạn đang chuyển giải pháp này sang sản xuất.

b. Đặt các biến môi trường cần thiết để chạy các bước còn lại của quá trình triển khai này:

#STEP 2.2
Attach the role “ec2_role” to your EC2 instance from the AWS console. #STEP 2.3
Follow the steps here to create a S3 bucket in us-west-2 region #STEP 2.4 - Set Environment variables
#Bucket created in step 2.3
export S3_BUCKET=<your-s3-bucket>
export PYTHON_V=python3.9
export SAGEMAKER_ROLE=$(aws iam get-role --role-name sagemakerrole --output text --query 'Role.Arn')
aws configure set default.region 'us-west-2'

Amazon ECR hỗ trợ các kho lưu trữ hình ảnh công khai với các quyền dựa trên tài nguyên bằng cách sử dụng Quản lý truy cập và nhận dạng AWS (IAM) để người dùng hoặc dịch vụ cụ thể có thể truy cập hình ảnh.

c. Đăng nhập vào sổ đăng ký DLC:

#STEP 2.5 - login
aws ecr get-login-password --region us-west-2 | docker login --username AWS --password-stdin 763104351884.dkr.ecr.us-west-2.amazonaws.com #Refer - Output
Login Succeeded

d. Kéo bộ chứa PyTorch 2.0 mới nhất có hỗ trợ GPU vào us-west-2

#STEP 2.6 - pull the latest DLC PyTorch image
docker pull 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2 #Refer - Output
7608715873ec: Pull complete
a0bad51e1731: Pull complete
f7778ea3b9cc: Pull complete
.... Digest: sha256:1ab0d477345a11970d811cc252bc461dd70859f15caa19a65198e7941953e6b8
StaRefertus: Downloaded newer image for 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2

Nếu bạn gặp lỗi “không còn dung lượng trống trên thiết bị”, hãy đảm bảo rằng bạn tăng khối lượng EC2 EBS thành 200 GiB và sau đó thêm hệ thống tập tin Linux.

3. Sao chép tập lệnh mới nhất phù hợp với PyTorch 2.0

Sao chép các tập lệnh bằng mã sau:

#STEP 3.1
cd $HOME
git clone https://github.com/aws-samples/aws-deeplearning-labs.git
cd aws-deeplearning-labs/workshop/twitter_lm/scripts/
export ml_working_dir=$PWD

Bởi vì chúng tôi đang sử dụng API máy biến áp Hugging Face với phiên bản 4.28.1 mới nhất nên nó đã kích hoạt hỗ trợ PyTorch 2.0. Chúng tôi đã thêm đối số sau vào API huấn luyện viên trong train_sentiment.py để bật các tính năng mới của PyTorch 2.0:

biên dịch ngọn đuốc – Trải nghiệm tốc độ tăng tốc trung bình 43% trên GPU Nvidia A100 với một dòng thay đổi.
kiểu dữ liệu BF16 – Hỗ trợ kiểu dữ liệu mới (Brain Floating Point) cho Ampere hoặc GPU mới hơn.
Trình tối ưu hóa AdamW hợp nhất – Hợp nhất triển khai AdamW để tăng tốc độ đào tạo hơn nữa. Phương pháp tối ưu hóa ngẫu nhiên này sửa đổi cách triển khai giảm dần trọng số điển hình trong Adam bằng cách tách riêng giảm dần trọng lượng khỏi bản cập nhật độ dốc.

#Refer - updated training config
training_args = TrainingArguments(
do_eval=True,
evaluation_strategy='epoch',
output_dir='test_trainer',
logging_dir='test_trainer',
logging_strategy='epoch',
save_strategy='epoch',
num_train_epochs=10,
learning_rate=1e-05,
# pytorch 2.0.0 specific args
torch_compile=True,
bf16=True,
optim='adamw_torch_fused',
per_device_train_batch_size=16,
per_device_eval_batch_size=16,
load_best_model_at_end=True,
metric_for_best_model='recall',
)

4. Xây dựng hình ảnh Docker mới với các phụ thuộc

Chúng tôi mở rộng hình ảnh DLC PyTorch 2.0 dựng sẵn để cài đặt biến áp Hugging Face và các thư viện khác mà chúng tôi cần để tinh chỉnh mô hình của mình. Điều này cho phép bạn sử dụng các cài đặt và thư viện deep learning đã được thử nghiệm và tối ưu hóa đi kèm mà không phải tạo hình ảnh từ đầu. Xem đoạn mã sau:

#STEP 4.1 - Create Dockerfile with following content
printf 'FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2
RUN pip install scikit-learn evaluate transformers xformers ' > Dockerfile #STEP 4.2 - Build new docker file
docker build -f Dockerfile -t pytorch2.0:roberta-sentiment-analysis .

5. Bắt đầu đào tạo bằng cách sử dụng vùng chứa

Chạy lệnh Docker sau để bắt đầu tinh chỉnh mô hình trên tweet_eval bộ dữ liệu tình cảm. Chúng tôi đang sử dụng các đối số bộ chứa Docker (kích thước bộ nhớ dùng chung, bộ nhớ bị khóa tối đa và kích thước ngăn xếp) đề xuất bởi Nvidia cho khối lượng công việc học tập sâu.

#STEP 5.1 - run docker container for model training
docker run --net=host --uts=host --ipc=host --shm-size=1g --ulimit stack=67108864 --ulimit memlock=-1 --gpus all -v "/home/ubuntu:/workspace" pytorch2.0:roberta-sentiment-analysis python /workspace/aws-deeplearning-labs/workshop/twitter_lm/scripts/train_sentiment.py

Bạn nên mong đợi đầu ra sau đây. Trước tiên, tập lệnh tải xuống tập dữ liệu TweetEval, bao gồm bảy tác vụ không đồng nhất trong Twitter, tất cả được đóng khung dưới dạng phân loại tweet nhiều lớp. Các nhiệm vụ bao gồm mỉa mai, căm ghét, xúc phạm, lập trường, biểu tượng cảm xúc, cảm xúc và tình cảm.

Sau đó, tập lệnh tải xuống mô hình cơ sở và bắt đầu quá trình tinh chỉnh. Các số liệu đào tạo và đánh giá được báo cáo ở cuối mỗi kỷ nguyên.

#Refer - Output
{'loss': 0.6927, 'learning_rate': 9e-06, 'epoch': 1.0}
{'eval_loss': 0.6144512295722961, 'eval_recall': 0.7129473901625799, 'eval_runtime': 3.2694, 'eval_samples_per_second': 611.74, 'eval_steps_per_second': 4.894, 'epoch': 1.0}
{'loss': 0.5554, 'learning_rate': 8.000000000000001e-06, 'epoch': 2.0}
{'eval_loss': 0.5860999822616577, 'eval_recall': 0.7312511094156663, 'eval_runtime': 3.3918, 'eval_samples_per_second': 589.655, 'eval_steps_per_second': 4.717, 'epoch': 2.0}
{'loss': 0.5084, 'learning_rate': 7e-06, 'epoch': 3.0}
{'eval_loss': 0.6119785308837891, 'eval_recall': 0.730757638985487, 'eval_runtime': 3.592, 'eval_samples_per_second': 556.791, 'eval_steps_per_second': 4.454, 'epoch': 3.0}

Thống kê hiệu suất

Với PyTorch 2.0 và thư viện máy biến áp Hugging Face 4.28.1 mới nhất, chúng tôi đã quan sát thấy tốc độ tăng 42% trên một phiên bản p4d.24xlarge duy nhất với 8 GPU A100 40GB. Cải thiện hiệu suất đến từ sự kết hợp của torch.compile, loại dữ liệu BF16 và trình tối ưu hóa AdamW hợp nhất. Đoạn mã sau là kết quả cuối cùng của hai lần đào tạo có và không có các tính năng mới:

#Refer performance statistics
wihtout torch.compile + bf16 + fused adamw:
{'eval_loss': 0.7532123327255249, 'eval_recall': 0.7315191840508296, 'eval_runtime': 3.7641, 'eval_samples_per_second': 531.341, 'eval_steps_per_second': 4.251, 'epoch': 10.0}
{'train_runtime': 1891.5635, 'train_samples_per_second': 241.15, 'train_steps_per_second': 1.887, 'train_loss': 0.4372138784713104, 'epoch': 10.0} with torch.compile + bf16 + fused adamw
{'eval_loss': 0.7548801898956299, 'eval_recall': 0.7251081080195005, 'eval_runtime': 3.5685, 'eval_samples_per_second': 560.453, 'eval_steps_per_second': 4.484, 'epoch': 10.0}
{'train_runtime': 1095.388, 'train_samples_per_second': 416.428, 'train_steps_per_second': 3.259, 'train_loss': 0.44210514314368327, 'epoch': 10.0}

6. Kiểm tra cục bộ mô hình được đào tạo trước khi chuẩn bị cho suy luận SageMaker

Bạn có thể tìm thấy các tập tin sau dưới $ml_working_dir/saved_model/ sau khi đào tạo:

#Refer - model training artifacts
config.json
merges.txt
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json

Hãy đảm bảo rằng chúng ta có thể chạy suy luận cục bộ trước khi chuẩn bị cho suy luận SageMaker. Chúng tôi có thể tải mô hình đã lưu và chạy suy luận cục bộ bằng cách sử dụng test_trained_model.py kịch bản:

#STEP 6.1 - run docker container for test model infernce
docker run --net=host --uts=host --ipc=host --ulimit stack=67108864 --ulimit memlock=-1 --gpus all -v "/home/ubuntu:/workspace" pytorch2.0:roberta-sentiment-analysis python /workspace/aws-deeplearning-labs/workshop/twitter_lm/scripts/test_trained_model.py

Bạn sẽ mong đợi kết quả đầu ra sau với đầu vào “Các trường hợp nhiễm Covid đang gia tăng nhanh chóng!”:

#Refer - Output
[{'label': 'negative', 'score': 0.854185163974762}]

7. Chuẩn bị tarball mô hình cho suy luận SageMaker

Trong thư mục chứa mô hình, hãy tạo một thư mục mới có tên code:

#STEP 7.1 - set permissions
cd $ml_working_dir
sudo chown ubuntu:ubuntu saved_model
cd saved_model
mkdir code

Trong thư mục mới, tạo tập tin inference.py và thêm phần sau vào nó:

#STEP 7.2 - write inference.py
printf 'import json
from transformers import pipeline REQUEST_CONTENT_TYPE = "application/x-text"
STR_DECODE_CODE = "utf-8"
RESULT_CLASS = "sentiment"
RESULT_SCORE = "score" def model_fn(model_dir): sentiment_analysis = pipeline( "sentiment-analysis", model=model_dir, tokenizer=model_dir, return_all_scores=True ) return sentiment_analysis def input_fn(request_body, request_content_type): if request_content_type == REQUEST_CONTENT_TYPE: input_data = request_body.decode(STR_DECODE_CODE) return input_data def predict_fn(input_data, model): return model(input_data) def output_fn(prediction, accept): class_label = None score = -1 for _pred in prediction[0]: if _pred["score"] > score: score = _pred["score"] class_label = _pred["label"] return json.dumps({RESULT_CLASS: class_label, RESULT_SCORE: score})' > code/inference.py

Tạo một tệp khác trong cùng thư mục có tên requirements.txt và đặt máy biến áp trong đó. SageMaker cài đặt các phụ thuộc trong requirements.txt trong vùng chứa suy luận cho bạn.

#STEP 7.3 - write requirements.txt
printf 'transformers' > code/requirements.txt

Cuối cùng, bạn sẽ có cấu trúc thư mục sau:

#Refer - inference package folder structure
code/
code/inference.py
code/requirements.txt
config.json
merges.txt
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json

Mô hình đã sẵn sàng để được đóng gói và tải lên Amazon S3 để sử dụng với suy luận SageMaker:

#STEP 7.4 - Create inference package tar file and upload it to S3
sudo tar -cvpzf ./personal-roberta-base-sentiment.tar.gz -C ./ .
aws s3 cp ./personal-roberta-base-sentiment.tar.gz s3://$S3_BUCKET

8. Triển khai mô hình trên phiên bản SageMaker AWS Graviton

Các thế hệ CPU mới mang đến sự cải thiện hiệu suất đáng kể trong suy luận ML nhờ các hướng dẫn tích hợp chuyên biệt. Trong trường hợp sử dụng này, chúng tôi sử dụng cơ sở hạ tầng lưu trữ được quản lý hoàn toàn của SageMaker với các phiên bản C3g dựa trên AWS Graviton7. AWS cũng đo lường được mức tiết kiệm chi phí lên tới 50% đối với suy luận PyTorch với các phiên bản EC3 C2g dựa trên AWS Graviton7 trên Torch Hub ResNet50 và nhiều mẫu Hugging Face so với các phiên bản EC2 tương đương.

Để triển khai các mô hình cho các phiên bản AWS Graviton, chúng tôi sử dụng AWS DLC cung cấp hỗ trợ cho PyTorch 2.0 và TorchServe 0.8.0 hoặc bạn có thể mang theo thùng chứa của riêng bạn tương thích với kiến trúc ARMv8.2.

Chúng tôi sử dụng mô hình mà chúng tôi đã đào tạo trước đó: s3://<your-s3-bucket>/twitter-roberta-base-sentiment-latest.tar.gz. Nếu bạn chưa sử dụng SageMaker trước đây, hãy xem lại Bắt đầu với Amazon SageMaker.

Để bắt đầu, hãy đảm bảo gói SageMaker được cập nhật:

#STEP 8.1 - Install SageMaker library
cd $ml_working_dir
$PYTHON_V -m pip install -U sagemaker

Vì đây là một ví dụ, hãy tạo một tệp có tên start_endpoint.py và thêm mã sau đây. Đây sẽ là tập lệnh Python để bắt đầu điểm cuối suy luận SageMaker với chế độ:

#STEP 8.2 - write start_endpoint.py
printf '# Import some needed modules
from sagemaker import get_execution_role, Session, image_uris
from sagemaker.model import Model
import boto3
import os model_name = "pytorch-roberta-model" # Setup SageMaker session
region = boto3.Session().region_name
role = os.environ.get("SAGEMAKER_ROLE")
sm_client = boto3.client("sagemaker", region_name=region)
sagemaker_session = Session()
bucket = os.environ.get("S3_BUCKET") # Select container. In our case,its graviton
container_uri = image_uris.retrieve(
region="us-west-2",
framework="pytorch",
version="2.0.0",
image_scope="inference_graviton") # Set model parameters
model = Model(
image_uri=container_uri,
model_data=f"s3://{bucket}/personal-roberta-base-sentiment.tar.gz",
role=role,
name=model_name,
sagemaker_session=sagemaker_session
) # Deploy model
endpoint = model.deploy(
initial_instance_count=1,
instance_type="ml.c7g.4xlarge",
endpoint_name="sm-endpoint-" + model_name
)' > start_endpoint.py

Ví dụ: chúng tôi đang sử dụng ml.c7g.4xlarge và đang truy xuất PT 2.0 với phạm vi hình ảnh inference_graviton. Đây là phiên bản AWS Graviton3 của chúng tôi.

Tiếp theo, chúng tôi tạo tệp chạy dự đoán. Chúng tôi thực hiện những điều này dưới dạng các tập lệnh riêng biệt để có thể chạy các dự đoán bao nhiêu lần tùy ý. Tạo nên predict.py với mã sau:

#STEP 8.3 - write predict.py
printf 'import boto3
from boto3 import Session, client model_name = "pytorch-roberta-model"
data = "Writing data to analyze sentiments and see how the data is viewed" sagemaker_runtime = boto3.client("sagemaker-runtime", region_name="us-west-2")
endpoint_name="sm-endpoint-" + model_name
print("Calling model:" + endpoint_name)
response = sagemaker_runtime.invoke_endpoint(
EndpointName=endpoint_name,
Body=bytes(data, "utf-8"),
ContentType="application/x-text",
)
print(response["Body"].read().decode("utf-8"))' > predict.py

Với các tập lệnh được tạo, giờ đây chúng ta có thể bắt đầu một điểm cuối, thực hiện các dự đoán đối với điểm cuối và dọn dẹp khi chúng ta hoàn thành:

#Step 8.4 - Start the SageMaker Inference endpoint
$PYTHON_V start_endpoint.py #Step 8.5 Do a prediction this can be run as many times as we like
$PYTHON_V predict.py #Refer - Prediction Output
Calling model:sm-endpoint-pytorch-roberta-model
{"sentiment": "neutral", "score": 0.9342969059944153}

9. Dọn dẹp

Cuối cùng, chúng tôi muốn dọn dẹp khỏi ví dụ này. Tạo cleanup.py và thêm đoạn mã sau:

#STEP 9.1 CleanUp Script
printf 'from boto3 import client model_name = "pytorch-roberta-model"
endpoint_name="sm-endpoint-" + model_name sagemaker_client = client("sagemaker", region_name="us-west-2")
sagemaker_client.delete_endpoint(EndpointName=endpoint_name)
sagemaker_client.delete_endpoint_config(EndpointConfigName=endpoint_name)
sagemaker_client.delete_model(ModelName=model_name)' > cleanup.py #Step 9.2 Cleanup
$PYTHON_V cleanup.py

Kết luận

DLAMI và DLC của AWS đã trở thành tiêu chuẩn phù hợp để chạy khối lượng công việc deep learning trên nhiều lựa chọn dịch vụ điện toán và ML trên AWS. Cùng với việc sử dụng các DLC dành riêng cho khung trên các dịch vụ AWS ML, bạn cũng có thể sử dụng một khung duy nhất trên Amazon EC2, loại bỏ các công việc nặng nhọc cần thiết cho nhà phát triển để xây dựng và duy trì các ứng dụng deep learning. tham khảo Ghi chú phát hành cho DLAMI và Hình ảnh các thùng chứa Deep Learning có sẵn để bắt đầu.

Bài đăng này cho thấy một trong nhiều khả năng đào tạo và phục vụ mô hình tiếp theo của bạn trên AWS, đồng thời thảo luận về một số định dạng mà bạn có thể áp dụng để đáp ứng các mục tiêu kinh doanh của mình. Hãy thử ví dụ này hoặc sử dụng các dịch vụ AWS ML khác của chúng tôi để mở rộng năng suất dữ liệu cho doanh nghiệp của bạn. Chúng tôi đã đưa vào một vấn đề phân tích cảm tính đơn giản để những khách hàng mới sử dụng ML có thể hiểu được việc bắt đầu với PyTorch 2.0 trên AWS đơn giản như thế nào. Chúng tôi sẽ đề cập đến các trường hợp sử dụng, mô hình và công nghệ AWS nâng cao hơn trong các bài đăng trên blog sắp tới.

Giới thiệu về tác giả

Kanwaljit Khurmi là Kiến trúc sư giải pháp chính tại Amazon Web Services. Anh ấy làm việc với các khách hàng của AWS để cung cấp hướng dẫn và hỗ trợ kỹ thuật giúp họ cải thiện giá trị của các giải pháp khi sử dụng AWS. Kanwaljit chuyên trợ giúp khách hàng với các ứng dụng machine learning và containerized.

Build high-performance ML models using PyTorch 2.0 on AWS – Part 1 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Mike Schneider là Nhà phát triển hệ thống, có trụ sở tại Phoenix AZ. Anh ấy là thành viên của bộ chứa Deep Learning, hỗ trợ nhiều hình ảnh bộ chứa Framework khác nhau, bao gồm Suy luận Graviton. Ông tận tụy với hiệu quả và sự ổn định của cơ sở hạ tầng.

Lại Vệ là Kỹ sư phần mềm cao cấp tại Amazon Web Services. Anh ấy đang tập trung vào việc xây dựng các khung học sâu dễ sử dụng, hiệu suất cao và có thể mở rộng để tăng tốc đào tạo mô hình phân tán. Ngoài công việc, anh ấy thích dành thời gian cho gia đình, đi bộ đường dài và trượt tuyết.