Giảm tới 90% mức tiêu thụ năng lượng cho khối lượng công việc học máy của bạn với các bộ tăng tốc được xây dựng có mục đích của AWS | Dịch vụ web của Amazon

Giảm tới 90% mức tiêu thụ năng lượng cho khối lượng công việc học máy của bạn với các bộ tăng tốc được xây dựng có mục đích của AWS | Dịch vụ web của Amazon

Các kỹ sư máy học (ML) có truyền thống tập trung vào việc đạt được sự cân bằng giữa đào tạo mô hình và chi phí triển khai so với hiệu suất. Tính bền vững (hiệu quả năng lượng) ngày càng trở thành một mục tiêu bổ sung cho khách hàng. Điều này rất quan trọng vì việc đào tạo các mô hình ML và sau đó sử dụng các mô hình đã đào tạo để đưa ra dự đoán (suy luận) có thể là những nhiệm vụ rất tốn năng lượng. Ngoài ra, ngày càng có nhiều ứng dụng xung quanh chúng ta được tích hợp ML và các ứng dụng hỗ trợ ML mới được hình thành mỗi ngày. Một ví dụ phổ biến là ChatGPT của OpenAI, được cung cấp bởi mô hình ngôn ngữ lớn (LMM) tiên tiến nhất. Để tham khảo, GPT-3, một LLM thế hệ trước có 175 tỷ tham số và yêu cầu nhiều tháng đào tạo không ngừng trên một cụm gồm hàng nghìn bộ xử lý được tăng tốc. Các nghiên cứu carbontracker ước tính rằng việc đào tạo GPT-3 từ đầu có thể thải ra tới 85 tấn CO2 tương đương, bằng cách sử dụng các cụm máy gia tốc phần cứng chuyên dụng.

Có một số cách AWS đang cho phép các học viên ML giảm tác động đến môi trường từ khối lượng công việc của họ. Một cách là thông qua việc cung cấp hướng dẫn theo quy định về kiến ​​trúc khối lượng công việc AI/ML của bạn để đảm bảo tính bền vững. Một cách khác là cung cấp các dịch vụ điều phối và đào tạo ML được quản lý, chẳng hạn như Xưởng sản xuất Amazon SageMaker, tự động loại bỏ và tăng quy mô tài nguyên ML khi không sử dụng, đồng thời cung cấp một loạt công cụ sẵn dùng giúp tiết kiệm chi phí và tài nguyên. Một yếu tố hỗ trợ quan trọng khác là sự phát triển của năng lượng hiệu quả, hiệu suất cao, máy gia tốc xây dựng có mục đích để đào tạo và triển khai các mô hình ML.

Trọng tâm của bài đăng này là phần cứng như một đòn bẩy cho ML bền vững. Chúng tôi trình bày kết quả của các thử nghiệm tiêu thụ năng lượng và hiệu suất gần đây do AWS thực hiện để định lượng các lợi ích về hiệu quả năng lượng mà bạn có thể mong đợi khi di chuyển khối lượng công việc học sâu của mình từ các khối lượng công việc tăng tốc được tối ưu hóa cho đào tạo và suy luận khác Đám mây điện toán đàn hồi Amazon (Amazon EC2) phiên bản thành Suy luận AWSĐào tạo AWS. Inferentia và Trainium là Sự bổ sung gần đây của AWS vào danh mục các máy gia tốc được xây dựng có mục đích được thiết kế đặc biệt bởi Amazon Phòng thí nghiệm Annapurna cho khối lượng công việc đào tạo và suy luận ML.

AWS Inferentia và AWS Trainium cho ML bền vững

Để cung cấp cho bạn những con số thực tế về tiềm năng tiết kiệm năng lượng của AWS Inferentia và AWS Trainium trong ứng dụng trong thế giới thực, chúng tôi đã tiến hành một số thử nghiệm điểm chuẩn tiêu thụ điện năng. Chúng tôi đã thiết kế các điểm chuẩn này với các tiêu chí chính sau đây:

  • Đầu tiên, chúng tôi muốn đảm bảo rằng chúng tôi nắm bắt được mức tiêu thụ năng lượng trực tiếp do khối lượng công việc thử nghiệm, không chỉ bao gồm bộ tăng tốc ML mà còn cả điện toán, bộ nhớ và mạng. Do đó, trong thiết lập thử nghiệm của mình, chúng tôi đã đo mức tiêu thụ điện năng ở mức đó.
  • Thứ hai, khi chạy khối lượng công việc đào tạo và suy luận, chúng tôi đảm bảo rằng tất cả các phiên bản đang hoạt động ở giới hạn phần cứng vật lý tương ứng và chỉ thực hiện các phép đo sau khi đạt đến giới hạn đó để đảm bảo khả năng so sánh.
  • Cuối cùng, chúng tôi muốn chắc chắn rằng mức tiết kiệm năng lượng được báo cáo trong bài đăng này có thể đạt được trong một ứng dụng thực tế trong thế giới thực. Do đó, chúng tôi đã sử dụng các trường hợp sử dụng ML phổ biến lấy cảm hứng từ khách hàng để đo điểm chuẩn và thử nghiệm.

Các kết quả được báo cáo trong các phần sau.

Thử nghiệm suy luận: Hiểu tài liệu theo thời gian thực với LayoutLM

Suy luận, trái ngược với đào tạo, là một khối lượng công việc liên tục, không giới hạn và không có điểm hoàn thành xác định. Do đó, nó chiếm một phần lớn trong mức tiêu thụ tài nguyên trọn đời của khối lượng công việc ML. Suy luận đúng là chìa khóa để đạt được hiệu suất cao, chi phí thấp và tính bền vững (hiệu quả năng lượng tốt hơn) trong toàn bộ vòng đời ML. Với các tác vụ suy luận, khách hàng thường quan tâm đến việc đạt được một tỷ lệ suy luận nhất định để theo kịp nhu cầu nhập liệu.

Thử nghiệm được trình bày trong bài đăng này được lấy cảm hứng từ một trường hợp sử dụng hiểu tài liệu theo thời gian thực, đây là một ứng dụng phổ biến trong các ngành như ngân hàng hoặc bảo hiểm (ví dụ: đối với yêu cầu bồi thường hoặc xử lý biểu mẫu đăng ký). Cụ thể, chúng tôi chọn Bố cụcLM, một mô hình máy biến áp được đào tạo trước được sử dụng để xử lý hình ảnh tài liệu và trích xuất thông tin. Chúng tôi đặt SLA mục tiêu là 1,000,000 lần suy luận mỗi giờ, một giá trị thường được coi là thời gian thực, sau đó chỉ định hai cấu hình phần cứng có khả năng đáp ứng yêu cầu này: một cấu hình sử dụng Phiên bản Amazon EC2 Inf1, có AWS Inferentia và một phiên bản sử dụng các phiên bản EC2 tăng tốc tương đương được tối ưu hóa cho các tác vụ suy luận. Trong suốt quá trình thử nghiệm, chúng tôi theo dõi một số chỉ số để đo lường hiệu suất suy luận, chi phí và hiệu suất năng lượng của cả hai cấu hình phần cứng. Kết quả được trình bày trong hình sau.

Giảm mức tiêu thụ năng lượng của khối lượng công việc machine learning của bạn lên tới 90% bằng các bộ tăng tốc được xây dựng có mục đích của AWS | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Hiệu suất, Chi phí và Hiệu quả Năng lượng Kết quả của Điểm chuẩn Suy luận

AWS Inferentia mang lại thông lượng suy luận cao hơn 6.3 lần. Do đó, với Inferentia, bạn có thể chạy cùng một khối lượng công việc hiểu tài liệu dựa trên LayoutLM theo thời gian thực trên ít phiên bản hơn (6 phiên bản AWS Inferentia so với 33 phiên bản EC2 tăng tốc được tối ưu hóa cho suy luận khác, tương đương với mức giảm 82%), sử dụng ít hơn hơn một phần mười (-92%) năng lượng trong quá trình, đồng thời đạt được chi phí mỗi lần suy luận thấp hơn đáng kể (2 USD so với 25 USD trên một triệu lần suy luận, tương đương với mức giảm 91% chi phí).

Thử nghiệm đào tạo: Đào tạo BERT Lớn từ đầu

Đào tạo, trái ngược với suy luận, là một quá trình hữu hạn được lặp lại ít thường xuyên hơn nhiều. Các kỹ sư ML thường quan tâm đến hiệu suất cụm cao để giảm thời gian đào tạo trong khi vẫn kiểm soát được chi phí. Hiệu quả năng lượng là một mối quan tâm thứ cấp (chưa phát triển). Với AWS Trainium, không có quyết định đánh đổi nào: các kỹ sư ML có thể hưởng lợi từ hiệu suất đào tạo cao đồng thời tối ưu hóa chi phí và giảm tác động đến môi trường.

Để minh họa điều này, chúng tôi chọn BERT lớn, một mô hình ngôn ngữ phổ biến được sử dụng cho các trường hợp sử dụng khả năng hiểu ngôn ngữ tự nhiên, chẳng hạn như trả lời câu hỏi dựa trên chatbot và dự đoán phản hồi trong cuộc trò chuyện. Đào tạo một mô hình BERT Large hoạt động tốt từ đầu thường yêu cầu xử lý 450 triệu trình tự. Chúng tôi so sánh hai cấu hình cụm, mỗi cấu hình có kích thước cố định là 16 phiên bản và có khả năng đào tạo BERT Large từ đầu (450 triệu trình tự được xử lý) trong vòng chưa đầy một ngày. Phiên bản đầu tiên sử dụng các phiên bản EC2 tăng tốc truyền thống. Thiết lập thứ hai sử dụng Phiên bản Amazon EC2 Trn1 có AWS Trainium. Một lần nữa, chúng tôi so sánh cả hai cấu hình về hiệu suất đào tạo, chi phí và tác động môi trường (hiệu quả năng lượng). Các kết quả được hiển thị trong hình dưới đây.

Giảm mức tiêu thụ năng lượng của khối lượng công việc machine learning của bạn lên tới 90% bằng các bộ tăng tốc được xây dựng có mục đích của AWS | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Hiệu suất, chi phí và hiệu quả năng lượng Kết quả của điểm chuẩn đào tạo

Trong các thử nghiệm, các phiên bản dựa trên AWS Trainium hoạt động tốt hơn các phiên bản EC2 tăng tốc được tối ưu hóa cho đào tạo tương đương với hệ số 1.7 về số trình tự được xử lý mỗi giờ, giúp giảm tổng thời gian đào tạo xuống 43% (2.3 giờ so với 4 giờ trên các phiên bản EC2 tăng tốc tương đương) . Do đó, khi sử dụng cụm phiên bản dựa trên Trainium, tổng mức tiêu thụ năng lượng để đào tạo BERT Large từ đầu thấp hơn khoảng 29% so với cụm phiên bản EC2 có cùng kích thước. Một lần nữa, những lợi ích về hiệu suất và hiệu suất năng lượng này cũng đi kèm với những cải tiến đáng kể về chi phí: chi phí đào tạo cho khối lượng công việc BERT ML thấp hơn khoảng 62% trên các phiên bản Trainium (787 USD so với 2091 USD cho mỗi lần đào tạo đầy đủ).

Bắt đầu với các trình tăng tốc được xây dựng có mục đích của AWS dành cho ML

Mặc dù các thử nghiệm được tiến hành ở đây đều sử dụng các mô hình tiêu chuẩn từ miền xử lý ngôn ngữ tự nhiên (NLP), AWS Inferentia và AWS Trainium vượt trội với nhiều kiến ​​trúc mô hình phức tạp khác bao gồm cả LLM và những kiến ​​trúc thách thức nhất. trí tuệ nhân tạo kiến trúc mà người dùng đang xây dựng (chẳng hạn như GPT-3). Các máy gia tốc này hoạt động đặc biệt tốt với các mô hình có hơn 10 tỷ tham số hoặc các mô hình thị giác máy tính như khuếch tán ổn định (xem Hướng dẫn phù hợp với kiến ​​trúc mô hình để biết thêm chi tiết). Thật vậy, nhiều khách hàng của chúng tôi đã sử dụng Inferentia và Trainium cho nhiều loại trường hợp sử dụng ML.

Để chạy khối lượng công việc deep learning toàn diện trên các phiên bản dựa trên AWS Inferentia và AWS Trainium, bạn có thể sử dụng Tế bào thần kinh AWS. Neuron là bộ công cụ phát triển phần mềm (SDK) đầu cuối bao gồm trình biên dịch học sâu, thời gian chạy và các công cụ được tích hợp nguyên bản vào các khung ML phổ biến nhất như TensorFlow và PyTorch. Bạn có thể sử dụng SDK Neuron để dễ dàng chuyển các khối lượng công việc ML học sâu TensorFlow hoặc PyTorch hiện có của mình sang Inferentia và Trainium, đồng thời bắt đầu xây dựng các mô hình mới bằng cách sử dụng cùng các khung ML nổi tiếng. Để thiết lập dễ dàng hơn, hãy sử dụng một trong các Amazon Machine Images (AMI) dành cho deep learning, đi kèm với nhiều gói và phần phụ thuộc bắt buộc. Thậm chí đơn giản hơn: bạn có thể sử dụng Amazon SageMaker Studio vốn hỗ trợ TensorFlow và PyTorch trên Inferentia và Trainium (xem kho lưu trữ aws-samples GitHub Ví dụ).

Một lưu ý cuối cùng: trong khi Inferentia và Trainium được xây dựng nhằm mục đích cho khối lượng công việc học sâu, nhiều thuật toán ML ít phức tạp hơn có thể hoạt động tốt trên các phiên bản dựa trên CPU (ví dụ: XGBoost và LightGBM và thậm chí cả một số CNN). Trong những trường hợp này, việc di chuyển đến AWS Graviton3 có thể giảm đáng kể tác động môi trường của khối lượng công việc ML của bạn. Các phiên bản dựa trên AWS Graviton sử dụng năng lượng ít hơn tới 60% cho cùng một hiệu suất so với các phiên bản EC2 được tăng tốc tương đương.

Kết luận

Có một quan niệm sai lầm phổ biến rằng chạy khối lượng công việc ML theo cách bền vững và tiết kiệm năng lượng có nghĩa là hy sinh hiệu suất hoặc chi phí. Với các bộ tăng tốc được xây dựng có mục đích của AWS dành cho máy học, các kỹ sư ML không cần phải đánh đổi điều đó. Thay vào đó, họ có thể chạy khối lượng công việc deep learning của mình trên phần cứng deep learning chuyên dụng cao, chẳng hạn như AWS Inferentia và AWS Trainium, vượt trội hơn đáng kể so với các loại phiên bản EC2 tăng tốc tương đương, mang lại chi phí thấp hơn, hiệu năng cao hơn và hiệu quả năng lượng tốt hơn—lên đến 90%—tất cả cùng một lúc. Để bắt đầu chạy khối lượng công việc ML của bạn trên Inferentia và Trainium, hãy xem Tài liệu về AWS Neuron hoặc quay lên một trong những sổ tay mẫu. Bạn cũng có thể xem cuộc thảo luận về AWS re:Invent 2022 trên Tính bền vững và AWS silicon (SUS206), bao gồm nhiều chủ đề được thảo luận trong bài viết này.


Về các tác giả

Giảm mức tiêu thụ năng lượng của khối lượng công việc machine learning của bạn lên tới 90% bằng các bộ tăng tốc được xây dựng có mục đích của AWS | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Karsten Schroer là Kiến trúc sư giải pháp tại AWS. Ông hỗ trợ khách hàng tận dụng dữ liệu và công nghệ để thúc đẩy tính bền vững của cơ sở hạ tầng CNTT của họ và xây dựng các giải pháp dựa trên dữ liệu cho phép hoạt động bền vững trong ngành dọc tương ứng của họ. Karsten gia nhập AWS sau khi học tiến sĩ về quản lý vận hành và học máy ứng dụng. Anh ấy thực sự đam mê các giải pháp hỗ trợ công nghệ cho các thách thức xã hội và thích tìm hiểu sâu về các phương pháp và cấu trúc ứng dụng làm nền tảng cho các giải pháp này.

Giảm mức tiêu thụ năng lượng của khối lượng công việc machine learning của bạn lên tới 90% bằng các bộ tăng tốc được xây dựng có mục đích của AWS | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Kamran Khan là Giám đốc sản phẩm kỹ thuật cấp cao tại AWS Annapurna Labs. Anh ấy hợp tác chặt chẽ với các khách hàng AI/ML để định hình lộ trình cho các cải tiến silicon chuyên dụng của AWS từ Phòng thí nghiệm Annapurna của Amazon. Trọng tâm cụ thể của anh ấy là về các chip học sâu tăng tốc bao gồm AWS Trainium và AWS Inferentia. Kamran có 18 năm kinh nghiệm trong ngành bán dẫn. Kamran có hơn một thập kỷ kinh nghiệm giúp các nhà phát triển đạt được các mục tiêu ML của họ.

Dấu thời gian:

Thêm từ Học máy AWS