Cách Mantium đạt được suy luận GPT-J có độ trễ thấp với DeepSpeed trên Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

manti là nhà cung cấp nền tảng đám mây toàn cầu để xây dựng các ứng dụng AI và quản lý chúng trên quy mô lớn. Nền tảng phát triển end-to-end của Mantium cho phép các doanh nghiệp và doanh nghiệp thuộc mọi quy mô xây dựng các ứng dụng AI và tự động hóa nhanh hơn và dễ dàng hơn so với những gì có thể làm theo cách truyền thống. Với Mantium, các nhóm kỹ thuật và phi kỹ thuật có thể tạo mẫu, phát triển, thử nghiệm và triển khai các ứng dụng AI, tất cả đều bằng cách tiếp cận mã thấp. Thông qua các tính năng ghi nhật ký, giám sát và an toàn tự động, Mantium cũng phát hành phần mềm và các kỹ sư DevOps dành thời gian để sáng tạo lại bánh xe. Ở cấp độ cao, Mantium cung cấp:

AI tiên tiến nhất - Thử nghiệm và phát triển với nhiều lựa chọn mô hình ngôn ngữ lớn mã nguồn mở và riêng tư với giao diện người dùng hoặc API đơn giản.
Tự động hóa quy trình AI - Dễ dàng xây dựng các ứng dụng dựa trên AI với thư viện tích hợp ngày càng tăng và Trình tạo AI đồ họa của Mantium.
Triển khai nhanh - Rút ngắn tiến độ sản xuất từ hàng tháng xuống hàng tuần hoặc thậm chí vài ngày với việc triển khai bằng một cú nhấp chuột. Tính năng này biến các ứng dụng AI thành các ứng dụng web có thể chia sẻ chỉ với một cú nhấp chuột.
An toàn và quy định - Đảm bảo an toàn và tuân thủ các chính sách quản trị và hỗ trợ cho các quy trình do con người thực hiện.

Với Mantium AI Builder, bạn có thể phát triển các quy trình làm việc phức tạp tích hợp các API bên ngoài, hoạt động logic và mô hình AI. Ảnh chụp màn hình sau đây cho thấy một ví dụ về ứng dụng Mantium AI, chuỗi này kết hợp đầu vào Twilio, chính sách quản trị, khối AI (có thể dựa trên mô hình mã nguồn mở như GPT-J) và đầu ra Twilio.

Để hỗ trợ ứng dụng này, Mantium cung cấp quyền truy cập toàn diện và thống nhất vào không chỉ các API mô hình từ các nhà cung cấp AI như Open AI, Co: here và AI21, mà còn cả các mô hình mã nguồn mở hiện đại. Tại Mantium, chúng tôi tin rằng bất kỳ ai cũng có thể xây dựng các ứng dụng AI hiện đại mà họ sở hữu, từ đầu đến cuối và chúng tôi hỗ trợ điều này bằng cách cung cấp quyền truy cập không mã và mã thấp vào các mô hình mã nguồn mở được tối ưu hóa hiệu suất.

Ví dụ: một trong những mô hình nguồn mở cốt lõi của Mantium là GPT-J, một mô hình xử lý ngôn ngữ tự nhiên (NLP) tiên tiến nhất được phát triển bởi Eleuther AI. Với 6 tỷ tham số, GPT-J là một trong những mô hình tạo văn bản nguồn mở lớn nhất và hoạt động tốt nhất. Người dùng Mantium có thể tích hợp GPT-J vào các ứng dụng AI của họ thông qua Trình tạo AI của Mantium. Trong trường hợp GPT-J, điều này liên quan đến việc chỉ định nhanh chóng (một biểu diễn ngôn ngữ tự nhiên về những gì mô hình phải làm) và cấu hình một số tham số tùy chọn.

Ví dụ: ảnh chụp màn hình sau đây cho thấy phần minh họa viết tắt của lời nhắc phân tích tình cảm đưa ra lời giải thích và dự đoán cảm xúc. Trong ví dụ này, tác giả viết rằng “thức ăn thật tuyệt vời” và “dịch vụ của họ thật phi thường”. Vì vậy, văn bản này thể hiện tình cảm tích cực.

Tuy nhiên, một thách thức với các mô hình mã nguồn mở là chúng hiếm khi được thiết kế cho hiệu suất cấp sản xuất. Trong trường hợp các mô hình lớn như GPT-J, điều này có thể làm cho việc triển khai sản xuất không thực tế và thậm chí là không khả thi, tùy thuộc vào từng trường hợp sử dụng.

Để đảm bảo rằng người dùng của chúng tôi có quyền truy cập vào hiệu suất tốt nhất trong lớp, chúng tôi luôn tìm cách giảm độ trễ của các mô hình cốt lõi của mình. Trong bài đăng này, chúng tôi mô tả kết quả của một thử nghiệm tối ưu hóa suy luận, trong đó chúng tôi sử dụng công cụ suy luận của DeepSpeed để tăng tốc độ suy luận của GPT-J lên khoảng 116%. Chúng tôi cũng mô tả cách chúng tôi đã triển khai việc triển khai Người biến hình khuôn mặt ôm của GPT-J với DeepSpeed trong Amazon SageMaker điểm cuối suy luận.

Tổng quan về mô hình GPT-J

GPT-J là một mô hình ngôn ngữ tổng hợp trước (GPT) và về mặt kiến trúc, nó có thể so sánh với các mô hình ngôn ngữ lớn, riêng tư, phổ biến như GPT-3 của Open AI. Như đã nói trước đó, nó bao gồm khoảng 6 tỷ tham số và 28 lớp, bao gồm một khối chuyển tiếp và một khối tự chú ý. Khi lần đầu tiên được phát hành, GPT-J là một trong những mô hình ngôn ngữ lớn đầu tiên sử dụng nhúng quay, một chiến lược mã hóa vị trí mới hợp nhất các bộ mã hóa vị trí tương đối và tuyệt đối. Nó cũng sử dụng một chiến lược song song sáng tạo trong đó các lớp dày đặc và lớp truyền tiếp được kết hợp trong một lớp duy nhất, giúp giảm thiểu chi phí giao tiếp.

Mặc dù GPT-J có thể không đủ tiêu chuẩn lớn như các tiêu chuẩn ngày nay — các mô hình lớn thường bao gồm hơn 100 tỷ tham số — nó vẫn hoạt động ấn tượng và với một số kỹ thuật nhanh chóng hoặc tinh chỉnh tối thiểu, bạn có thể sử dụng nó để giải quyết nhiều vấn đề. Hơn nữa, kích thước tương đối khiêm tốn của nó có nghĩa là bạn có thể triển khai nó nhanh hơn và với chi phí thấp hơn nhiều so với các mô hình lớn hơn.

Điều đó nói rằng, GPT-J vẫn còn khá lớn. Ví dụ: đào tạo GPT-J trong FP32 với bản cập nhật trọng lượng đầy đủ và trình tối ưu hóa Adam yêu cầu bộ nhớ trên 200 GB: 24 GB cho các thông số mô hình, 24 GB cho độ dốc, 24 GB cho độ dốc bình phương của Adam, 24 GB cho trạng thái trình tối ưu hóa, và các yêu cầu bộ nhớ bổ sung để tải các lô đào tạo và lưu trữ các kích hoạt. Tất nhiên, đào tạo trong FP16 làm giảm các yêu cầu bộ nhớ này gần một nửa, nhưng dung lượng bộ nhớ trên 100 GB vẫn đòi hỏi các chiến lược đào tạo sáng tạo. Ví dụ: cộng tác với SageMaker, nhóm NLP của Mantium đã phát triển quy trình làm việc để đào tạo (tinh chỉnh) GPT-J bằng cách sử dụng thư viện song song mô hình phân tán SageMaker.

Ngược lại, việc cung cấp GPT-J để suy luận có yêu cầu bộ nhớ thấp hơn nhiều — trong FP16, trọng lượng mô hình chiếm ít hơn 13 GB, có nghĩa là có thể dễ dàng tiến hành suy luận trên một GPU 16 GB. Tuy nhiên, suy luận với các triển khai độc đáo của GPT-J, chẳng hạn như Người biến hình khuôn mặt ôm thực hiện mà chúng tôi sử dụng, tương đối chậm. Để hỗ trợ các trường hợp sử dụng yêu cầu tạo văn bản đáp ứng cao, chúng tôi đã tập trung vào việc giảm độ trễ suy luận của GPT-J.

Các thách thức về độ trễ phản hồi của GPT-J

Độ trễ phản hồi là một trở ngại cốt lõi đối với các máy biến áp tiền xử lý trước (GPT) như GPT-J cung cấp năng lượng cho việc tạo văn bản hiện đại. Mô hình GPT tạo ra văn bản thông qua chuỗi các bước suy luận. Ở mỗi bước suy luận, mô hình được cung cấp văn bản làm đầu vào và, có điều kiện đối với đầu vào này, nó lấy mẫu một từ từ vốn từ vựng của nó để nối vào văn bản. Ví dụ: với chuỗi mã thông báo “Tôi cần một chiếc ô vì nó”, khả năng cao mã thông báo tiếp theo có thể là “mưa”. Tuy nhiên, nó cũng có thể là “nắng” hoặc “ràng buộc”, đây có thể là bước đầu tiên hướng tới một chuỗi văn bản như “Tôi cần một chiếc ô vì trời bắt đầu mưa”.

Các tình huống như thế này đặt ra một số thách thức thú vị cho việc triển khai mô hình GPT vì các trường hợp sử dụng trong thế giới thực có thể liên quan đến hàng chục, hàng trăm hoặc thậm chí hàng nghìn bước suy luận. Ví dụ: tạo phản hồi 1,000 mã thông báo yêu cầu 1,000 bước suy luận! Theo đó, mặc dù một mô hình có thể cung cấp tốc độ suy luận có vẻ đủ nhanh khi tách biệt, nhưng độ trễ rất dễ đạt đến mức không thể kiểm soát được khi các văn bản dài được tạo ra. Chúng tôi đã quan sát thấy độ trễ trung bình là 280 mili giây cho mỗi bước suy luận trên GPU V100. Điều này có vẻ nhanh đối với mô hình 6.7 tỷ thông số, nhưng với độ trễ như vậy, phải mất khoảng 30 giây để tạo phản hồi 500 mã thông báo, điều này không lý tưởng từ góc độ trải nghiệm người dùng.

Tối ưu hóa tốc độ suy luận với DeepSpeed Inference

Tốc độ sâu là một thư viện tối ưu hóa học sâu mã nguồn mở được phát triển bởi Microsoft. Mặc dù chủ yếu tập trung vào việc tối ưu hóa đào tạo các mô hình lớn, DeepSpeed cũng cung cấp một khung tối ưu hóa suy luận hỗ trợ một số mô hình được chọn, bao gồm BERT, Megatron, GPT-Neo, GPT2 và GPT-J. DeepSpeed Inference tạo điều kiện cho suy luận hiệu suất cao với các kiến trúc lớn dựa trên Transformer thông qua sự kết hợp của mô hình song song, nhân CUDA được tối ưu hóa suy luận và lượng tử hóa.

Để tăng tốc độ suy luận với GPT-J, chúng tôi sử dụng công cụ suy luận của DeepSpeed để đưa các nhân CUDA được tối ưu hóa vào quá trình triển khai GPT-J của Hugging Face Transformers.

Để đánh giá lợi ích về tốc độ của công cụ suy luận của DeepSpeed, chúng tôi đã tiến hành một loạt các bài kiểm tra độ trễ, trong đó chúng tôi tính giờ cho GPT-J trong các cấu hình khác nhau. Cụ thể, chúng tôi đã thay đổi xem DeepSpeed có được sử dụng hay không, phần cứng, độ dài trình tự đầu ra và độ dài trình tự đầu vào. Chúng tôi tập trung vào cả đầu ra và độ dài chuỗi đầu vào, vì chúng đều ảnh hưởng đến tốc độ suy luận. Để tạo chuỗi đầu ra gồm 50 mã thông báo, mô hình phải thực hiện 50 bước suy luận. Hơn nữa, thời gian cần thiết để thực hiện một bước suy luận phụ thuộc vào kích thước của chuỗi đầu vào — các đầu vào lớn hơn đòi hỏi nhiều thời gian xử lý hơn. Mặc dù ảnh hưởng của kích thước trình tự đầu ra lớn hơn nhiều so với ảnh hưởng của kích thước trình tự đầu vào, nhưng vẫn cần tính đến cả hai yếu tố.

Trong thử nghiệm của mình, chúng tôi đã sử dụng thiết kế sau:

Công cụ suy luận DeepSpeed - Bật, tắt
phần cứng - T4 (ml.g4dn.2xlarge), V100 (ml.p3.2xlarge)
Độ dài trình tự đầu vào - 50, 200, 500, 1000
Độ dài trình tự đầu ra - 50, 100, 150, 200

Tổng cộng, thiết kế này có 64 sự kết hợp của bốn yếu tố này và đối với mỗi sự kết hợp, chúng tôi đã chạy 20 bài kiểm tra độ trễ. Mỗi bài kiểm tra được chạy trên điểm cuối suy luận SageMaker được khởi tạo trước, đảm bảo rằng các bài kiểm tra độ trễ của chúng tôi phản ánh thời gian sản xuất, bao gồm trao đổi API và tiền xử lý.

Các thử nghiệm của chúng tôi chứng minh rằng công cụ suy luận GPT-J của DeepSpeed về cơ bản nhanh hơn đáng kể so với việc triển khai PyTorch của Transformers ôm mặt. Hình sau minh họa độ trễ tạo văn bản trung bình cho GPT-J có và không có tăng tốc DeepSpeed trên điểm cuối suy luận ml.g4dn.2xlarge và ml.p3.2xlarge SageMaker.

Trên phiên bản ml.g4dn.2xlarge, được trang bị GPU NVIDIA T16 4 GB, chúng tôi đã quan sát thấy mức giảm độ trễ trung bình khoảng 24% [Độ lệch chuẩn (SD) = 0.05]. Điều này tương ứng với sự gia tăng từ trung bình 12.5 (SD = 0.91) mã thông báo mỗi giây lên 16.5 (SD = 2.13) mã thông báo trung bình mỗi giây. Đáng chú ý, hiệu ứng tăng tốc của DeepSpeed thậm chí còn mạnh hơn trên phiên bản ml.p3.2xlarge, được trang bị GPU NVIDIA V100. Trên phần cứng đó, chúng tôi đã quan sát thấy mức giảm độ trễ trung bình 53% (SD = 07). Về mã thông báo mỗi giây, điều này tương ứng với sự gia tăng từ mức trung bình 21.9 (SD = 1.97) mã thông báo mỗi giây lên mức trung bình 47.5 (SD = 5.8) mã thông báo mỗi giây.

Chúng tôi cũng quan sát thấy rằng khả năng tăng tốc do DeepSpeed cung cấp giảm nhẹ trên cả hai cấu hình phần cứng khi kích thước của các chuỗi đầu vào tăng lên. Tuy nhiên, trong tất cả các điều kiện, suy luận với các tối ưu hóa GPT-J của DeepSpeed vẫn nhanh hơn đáng kể so với đường cơ sở. Ví dụ: trên phiên bản g4dn, mức giảm độ trễ tối đa và tối thiểu lần lượt là 31% (kích thước trình tự đầu vào = 50) và 15% (kích thước trình tự đầu vào = 1000). Và trên phiên bản p3, mức giảm độ trễ tối đa và tối thiểu lần lượt là 62% (kích thước trình tự đầu vào = 50) và 40% (kích thước trình tự đầu vào = 1000).

Triển khai GPT-J với DeepSpeed trên điểm cuối suy luận SageMaker

Ngoài việc tăng đáng kể tốc độ tạo văn bản cho GPT-J, công cụ suy luận của DeepSpeed rất đơn giản để tích hợp vào điểm cuối suy luận SageMaker. Trước khi thêm DeepSpeed vào ngăn xếp suy luận của chúng tôi, các điểm cuối của chúng tôi đang chạy trên hình ảnh Docker tùy chỉnh dựa trên hình ảnh PyTorch chính thức. SageMaker giúp việc triển khai các điểm cuối suy luận tùy chỉnh trở nên rất dễ dàng và việc tích hợp DeepSpeed cũng đơn giản như bao gồm phần phụ thuộc và viết một vài dòng mã. Hướng dẫn nguồn mở về quy trình triển khai để triển khai GPT-J với DeepSpeed có sẵn trên GitHub.

Kết luận

Mantium dành riêng cho việc đổi mới hàng đầu để mọi người có thể nhanh chóng xây dựng bằng AI. Từ tự động hóa quy trình do AI điều khiển đến cài đặt tuân thủ và an toàn nghiêm ngặt, nền tảng hoàn chỉnh của chúng tôi cung cấp tất cả các công cụ cần thiết để phát triển và quản lý các ứng dụng AI mạnh mẽ, có trách nhiệm trên quy mô lớn và giảm rào cản gia nhập. SageMaker giúp các công ty như Mantium tiếp cận thị trường nhanh chóng.

Để tìm hiểu cách Mantium có thể giúp bạn xây dựng quy trình làm việc phức tạp dựa trên AI cho tổ chức của bạn, hãy truy cập www.mantiumai.com.

Giới thiệu về tác giả

Joe Hoover là Nhà khoa học ứng dụng cao cấp trong nhóm R&D AI của Mantium. Anh ấy đam mê phát triển các mô hình, phương pháp và cơ sở hạ tầng giúp mọi người giải quyết các vấn đề trong thế giới thực bằng các hệ thống NLP tiên tiến. Khi rảnh rỗi, anh ấy thích đi du lịch bụi, làm vườn, nấu ăn và đi chơi với gia đình.

Dhawal Patel là một Kiến trúc sư chính về Học máy tại AWS. Ông đã làm việc với các tổ chức khác nhau, từ các doanh nghiệp lớn đến các công ty khởi nghiệp quy mô trung bình về các vấn đề liên quan đến máy tính phân tán và Trí tuệ nhân tạo. Ông tập trung vào Học sâu bao gồm các lĩnh vực NLP và Thị giác máy tính. Anh ấy giúp khách hàng đạt được khả năng suy luận mô hình hiệu suất cao trên SageMaker.

Sunil Padmanabhan là Kiến trúc sư Giải pháp Khởi nghiệp tại AWS. Là một cựu người sáng lập và CTO khởi nghiệp, anh ấy đam mê học máy và tập trung vào việc giúp các công ty khởi nghiệp tận dụng AI / ML cho kết quả kinh doanh của họ, đồng thời thiết kế và triển khai các giải pháp ML / AI trên quy mô lớn.

Dấu thời gian: 15 Tháng Sáu, 2022

Dấu thời gian: Tháng Chín 11, 2023

Cách Mantium đạt được suy luận GPT-J có độ trễ thấp với DeepSpeed trên Amazon SageMaker

Được xuất bản lại bởi Plato

Tổng quan về mô hình GPT-J

Các thách thức về độ trễ phản hồi của GPT-J

Tối ưu hóa tốc độ suy luận với DeepSpeed Inference

Triển khai GPT-J với DeepSpeed trên điểm cuối suy luận SageMaker

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

T-Mobile US, Inc. sử dụng trí tuệ nhân tạo thông qua Amazon Transcribe và Amazon Translate để gửi thư thoại bằng ngôn ngữ khách hàng lựa chọn | Dịch vụ web của Amazon

Tăng tốc ứng phó thảm họa với thị giác máy tính cho hình ảnh vệ tinh bằng Amazon SageMaker và Amazon Augmented AI

Tận dụng trí tuệ nhân tạo và máy học tại Parsons với AWS DeepRacer

Cải thiện độ chính xác của phiên âm của các cuộc gọi từ nhân viên khách hàng với từ vựng tùy chỉnh trong Amazon Transcribe

Thông báo về trình kết nối Microsoft OneDrive (V2) được cập nhật cho Amazon Kendra

Kích hoạt tính năng mã hóa đồng cấu hoàn toàn với các điểm cuối Amazon SageMaker để có kết luận an toàn, theo thời gian thực

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot

Thông báo hỗ trợ cho các mô hình Llama 2 và Mistral cũng như phản hồi phát trực tuyến trong Amazon SageMaker Canvas | Dịch vụ web của Amazon

Chuẩn bị dữ liệu hợp nhất, đào tạo mô hình và triển khai với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot - Phần 2

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản

Tổng quan về mô hình GPT-J

Các thách thức về độ trễ phản hồi của GPT-J

Tối ưu hóa tốc độ suy luận với DeepSpeed ​​Inference

Triển khai GPT-J với DeepSpeed ​​trên điểm cuối suy luận SageMaker

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản

Tối ưu hóa tốc độ suy luận với DeepSpeed Inference

Triển khai GPT-J với DeepSpeed trên điểm cuối suy luận SageMaker