Suy luận mô hình nền tảng quy mô tới hàng trăm mô hình với Amazon SageMaker – Phần 1

Được xuất bản lại bởi Plato

Người theo dõi: 0

Khi quá trình dân chủ hóa các mô hình nền tảng (FM) trở nên phổ biến hơn và nhu cầu về các dịch vụ tăng cường AI tăng lên, các nhà cung cấp phần mềm dưới dạng dịch vụ (SaaS) đang tìm cách sử dụng nền tảng máy học (ML) hỗ trợ nhiều đối tượng thuê—dành cho các nhà khoa học dữ liệu trong nội bộ tổ chức của họ và khách hàng bên ngoài. Ngày càng có nhiều công ty nhận ra giá trị của việc sử dụng FM để tạo ra nội dung hiệu quả và được cá nhân hóa cao cho khách hàng của họ. Tinh chỉnh FM trên dữ liệu của riêng bạn có thể tăng cường đáng kể độ chính xác của mô hình cho trường hợp sử dụng cụ thể của bạn, cho dù đó là tạo email bán hàng bằng cách sử dụng ngữ cảnh truy cập trang, tạo câu trả lời tìm kiếm phù hợp với dịch vụ của công ty hay tự động hóa hỗ trợ khách hàng bằng cách đào tạo về các cuộc hội thoại lịch sử.

Việc cung cấp dịch vụ lưu trữ mô hình AI tổng quát dưới dạng dịch vụ cho phép mọi tổ chức dễ dàng tích hợp, thử nghiệm thử nghiệm và triển khai FM trên quy mô lớn theo cách tiết kiệm chi phí mà không cần chuyên môn về AI nội bộ. Điều này cho phép các công ty thử nghiệm các trường hợp sử dụng AI như nội dung tiếp thị và bán hàng siêu cá nhân hóa, tìm kiếm thông minh và quy trình dịch vụ khách hàng tùy chỉnh. Bằng cách sử dụng các mô hình tổng hợp được lưu trữ được tinh chỉnh trên dữ liệu khách hàng đáng tin cậy, các doanh nghiệp có thể cung cấp các ứng dụng AI hiệu quả và được cá nhân hóa ở cấp độ tiếp theo để thu hút và phục vụ khách hàng tốt hơn.

Amazon SageMaker cung cấp các tùy chọn suy luận ML khác nhau, bao gồm chuyển đổi hàng loạt, không đồng bộ và thời gian thực. Bài đăng này tập trung vào việc cung cấp hướng dẫn mang tính quy định về việc lưu trữ FM một cách hiệu quả về mặt chi phí trên quy mô lớn. Cụ thể, chúng tôi thảo luận về thế giới suy luận thời gian thực nhanh chóng và phản hồi nhanh, khám phá các tùy chọn khác nhau để suy luận thời gian thực cho FM.

Để suy luận, kiến trúc AI/ML nhiều bên thuê cần xem xét các yêu cầu về dữ liệu và mô hình, cũng như các tài nguyên điện toán cần thiết để thực hiện suy luận từ các mô hình này. Điều quan trọng là phải xem xét cách triển khai các mô hình AI/ML cho nhiều bên thuê—lý tưởng nhất là để sử dụng CPU và GPU một cách tối ưu, bạn phải có khả năng kiến trúc một giải pháp suy luận có thể nâng cao thông lượng phục vụ và giảm chi phí bằng cách đảm bảo rằng các mô hình được phân phối trên cơ sở hạ tầng tính toán một cách hiệu quả. Ngoài ra, khách hàng đang tìm kiếm các giải pháp giúp họ triển khai kiến trúc suy luận có phương pháp tốt nhất mà không cần phải xây dựng mọi thứ từ đầu.

SageMaker Inference là dịch vụ lưu trữ ML được quản lý hoàn toàn. Nó hỗ trợ xây dựng các ứng dụng AI tổng quát đồng thời đáp ứng các tiêu chuẩn quy định như FedRAMP. SageMaker cho phép mở rộng quy mô một cách hiệu quả về mặt chi phí cho khối lượng công việc suy luận có thông lượng cao. Nó hỗ trợ khối lượng công việc đa dạng bao gồm suy luận hàng loạt, không đồng bộ và thời gian thực trên phần cứng như AWS Inferentia, AWS Graviton, GPU NVIDIA và CPU Intel. SageMaker cung cấp cho bạn toàn quyền kiểm soát việc tối ưu hóa, tách biệt khối lượng công việc và chứa. Nó cho phép bạn xây dựng AI tổng quát như một giải pháp dịch vụ trên quy mô lớn với sự hỗ trợ cho việc triển khai nhiều mô hình và nhiều vùng chứa.

Những thách thức của việc lưu trữ các mô hình nền tảng ở quy mô lớn

Sau đây là một số thách thức trong việc lưu trữ FM để suy luận trên quy mô lớn:

Dung lượng bộ nhớ lớn – Các FM có hàng chục hoặc hàng trăm tỷ tham số mô hình thường vượt quá dung lượng bộ nhớ của một chip tăng tốc đơn lẻ.
Máy biến áp chạy chậm – Giải mã tự động hồi quy trong FM, đặc biệt với các chuỗi đầu vào và đầu ra dài, làm trầm trọng thêm các hoạt động I/O bộ nhớ. Điều này lên đến đỉnh điểm là những khoảng thời gian trễ không thể chấp nhận được, ảnh hưởng xấu đến suy luận theo thời gian thực.
Phí Tổn – FM cần có bộ tăng tốc ML cung cấp cả bộ nhớ cao và sức mạnh tính toán cao. Đạt được thông lượng cao và độ trễ thấp mà không phải hy sinh cả hai điều này là một nhiệm vụ chuyên biệt, đòi hỏi sự hiểu biết sâu sắc về đồng tối ưu hóa tăng tốc phần cứng-phần mềm.
Thời gian đưa ra thị trường lâu hơn – Hiệu suất tối ưu từ FM đòi hỏi phải điều chỉnh nghiêm ngặt. Quá trình điều chỉnh chuyên biệt này, cùng với sự phức tạp của quản lý cơ sở hạ tầng, dẫn đến chu kỳ thời gian đưa sản phẩm ra thị trường bị kéo dài.
Cô lập khối lượng công việc – Lưu trữ FM trên quy mô lớn đặt ra những thách thức trong việc giảm thiểu bán kính vụ nổ và xử lý những người hàng xóm ồn ào. Khả năng mở rộng quy mô của từng FM để đáp ứng với các mẫu lưu lượng truy cập dành riêng cho từng mô hình đòi hỏi phải nâng cao hiệu quả.
Mở rộng tới hàng trăm FM – Việc vận hành hàng trăm đài FM đồng thời gây ra chi phí hoạt động đáng kể. Quản lý điểm cuối hiệu quả, phân bổ máy gia tốc và cắt thích hợp cũng như mở rộng quy mô theo mô hình cụ thể là những nhiệm vụ phức tạp khi có nhiều mô hình được triển khai.

Chức năng thể dục

Việc quyết định tùy chọn lưu trữ phù hợp là rất quan trọng vì nó tác động đến người dùng cuối do ứng dụng của bạn hiển thị. Với mục đích này, chúng tôi đang mượn khái niệm về chức năng tập thể dục, được sáng tạo bởi Neal Ford và các đồng nghiệp của ông từ AWS Partner Thought Works trong công việc của họ Xây dựng kiến trúc tiến hóa. Các chức năng thể dục cung cấp đánh giá theo quy định về các tùy chọn lưu trữ khác nhau dựa trên mục tiêu của bạn. Các chức năng thể dục giúp bạn có được dữ liệu cần thiết để cho phép phát triển kiến trúc theo kế hoạch. Họ đặt ra các giá trị có thể đo lường được để đánh giá mức độ đạt được mục tiêu đã đặt ra của giải pháp của bạn. Các chức năng phù hợp có thể và nên được điều chỉnh khi kiến trúc phát triển để hướng dẫn quá trình thay đổi mong muốn. Điều này cung cấp cho các kiến trúc sư một công cụ để hướng dẫn nhóm của họ trong khi vẫn duy trì quyền tự chủ của nhóm.

Chúng tôi đề xuất xem xét các chức năng phù hợp sau đây khi chọn tùy chọn suy luận FM phù hợp trên quy mô lớn và tiết kiệm chi phí:

Kích thước mô hình nền tảng – FM dựa trên máy biến áp. Máy biến áp hoạt động chậm và ngốn bộ nhớ khi tạo chuỗi văn bản dài do kích thước quá lớn của mô hình. Các mô hình ngôn ngữ lớn (LLM) là một loại FM, khi được sử dụng để tạo chuỗi văn bản, cần lượng sức mạnh tính toán cực lớn và gặp khó khăn khi truy cập bộ nhớ băng thông cao (HBM) và khả năng tính toán có sẵn. Điều này là do phần lớn băng thông bộ nhớ khả dụng được tiêu thụ bằng cách tải các tham số của mô hình và bởi quá trình giải mã hồi quy tự động. Kết quả là, ngay cả với sức mạnh tính toán khổng lồ, FM vẫn bị giới hạn bởi I/O bộ nhớ và giới hạn tính toán. Do đó, kích thước mô hình quyết định rất nhiều quyết định, chẳng hạn như liệu mô hình sẽ phù hợp với một bộ tăng tốc duy nhất hay yêu cầu nhiều bộ tăng tốc ML sử dụng phân mảnh mô hình trên phiên bản để chạy suy luận với thông lượng cao hơn. Các mô hình có hơn 3 tỷ tham số thường sẽ bắt đầu yêu cầu nhiều bộ tăng tốc ML vì mô hình có thể không vừa với một thiết bị tăng tốc duy nhất.
Hiệu suất và độ trễ suy luận FM – Nhiều mô hình và ứng dụng ML có độ trễ rất quan trọng, trong đó độ trễ suy luận phải nằm trong giới hạn được chỉ định bởi mục tiêu cấp dịch vụ. Độ trễ suy luận FM phụ thuộc vào vô số yếu tố, bao gồm:
- Kích thước mô hình FM – Kích thước mô hình, bao gồm lượng tử hóa khi chạy.
- phần cứng – Tính toán (TFLOPS), kích thước và băng thông HBM, băng thông mạng, tốc độ kết nối nội bộ và băng thông lưu trữ.
- Môi trường phần mềm – Máy chủ mô hình, thư viện mô hình song song, công cụ tối ưu hóa mô hình, hiệu suất giao tiếp tập thể, kiến trúc mạng mô hình, lượng tử hóa và khung ML.
- nhanh chóng – Độ dài đầu vào và đầu ra và siêu tham số.
- Độ trễ mở rộng – Thời gian mở rộng quy mô để đáp ứng với lưu lượng truy cập.
- Độ trễ khởi động nguội – Các tính năng như làm ấm trước tải mô hình có thể giảm độ trễ khởi động nguội khi tải FM.
Cô lập khối lượng công việc – Điều này đề cập đến các yêu cầu cách ly khối lượng công việc từ góc độ quy định và tuân thủ, bao gồm bảo vệ tính bảo mật và tính toàn vẹn của các mô hình và thuật toán AI, bảo mật dữ liệu trong quá trình suy luận AI và bảo vệ tài sản trí tuệ (IP) AI khỏi bị truy cập trái phép hoặc từ góc độ quản lý rủi ro. Ví dụ: bạn có thể giảm tác động của một sự kiện an ninh bằng cách cố tình giảm bán kính vụ nổ hoặc bằng cách ngăn chặn những người hàng xóm ồn ào.
Hiệu quả chi phí – Triển khai và duy trì mô hình FM và ứng dụng ML trên khung có thể mở rộng là một quy trình kinh doanh quan trọng và chi phí có thể khác nhau rất nhiều tùy thuộc vào các lựa chọn được thực hiện về cơ sở hạ tầng lưu trữ mô hình, tùy chọn lưu trữ, khung ML, đặc điểm mô hình ML, tối ưu hóa, chính sách mở rộng quy mô , và hơn thế nữa. Khối lượng công việc phải sử dụng cơ sở hạ tầng phần cứng một cách tối ưu để đảm bảo rằng chi phí vẫn được kiểm soát. Chức năng phù hợp này đặc biệt đề cập đến chi phí cơ sở hạ tầng, là một phần của tổng chi phí sở hữu (TCO). Chi phí cơ sở hạ tầng là chi phí kết hợp cho việc lưu trữ, mạng và điện toán. Điều quan trọng nữa là phải hiểu các thành phần khác của TCO, bao gồm chi phí vận hành, chi phí bảo mật và tuân thủ. Chi phí vận hành là chi phí tổng hợp của việc vận hành, giám sát và duy trì cơ sở hạ tầng ML. Chi phí vận hành được tính bằng số lượng kỹ sư cần thiết dựa trên từng kịch bản và mức lương hàng năm của kỹ sư, được tổng hợp trong một khoảng thời gian cụ thể. Chúng tự động chia tỷ lệ về 0 cho mỗi mô hình khi không có lưu lượng truy cập để tiết kiệm chi phí.
khả năng mở rộng - Điêu nay bao gôm:
- Chi phí hoạt động trong việc quản lý hàng trăm FM để suy luận trong nền tảng nhiều người thuê.
- Khả năng đóng gói nhiều FM vào một điểm cuối và chia tỷ lệ cho mỗi mô hình.
- Bật quy mô cấp độ phiên bản và cấp độ vùng chứa mô hình dựa trên mẫu khối lượng công việc.
- Hỗ trợ mở rộng quy mô lên hàng trăm FM cho mỗi điểm cuối.
- Hỗ trợ cho việc bố trí ban đầu các mô hình trong nhóm và xử lý các máy gia tốc không đủ.

Biểu diễn các kích thước trong hàm thích nghi

Chúng tôi sử dụng biểu đồ nhện, đôi khi còn được gọi là biểu đồ radar, để thể hiện các kích thước trong các hàm thích nghi. Biểu đồ nhện thường được sử dụng khi bạn muốn hiển thị dữ liệu trên nhiều thứ nguyên duy nhất. Các thứ nguyên này thường mang tính định lượng và thường nằm trong khoảng từ 0 đến giá trị tối đa. Phạm vi của mỗi thứ nguyên được chuẩn hóa với nhau, do đó khi chúng ta vẽ biểu đồ hình nhện, độ dài của một đường từ 0 đến giá trị tối đa của thứ nguyên sẽ giống nhau cho mọi thứ nguyên.

Biểu đồ sau đây minh họa quy trình ra quyết định liên quan khi chọn kiến trúc của bạn trên SageMaker. Mỗi bán kính trên biểu đồ hình nhện là một trong những hàm thích hợp mà bạn sẽ ưu tiên khi xây dựng giải pháp suy luận của mình.

Quy mô suy luận mô hình nền tảng lên hàng trăm mô hình bằng Amazon SageMaker – Phần 1 | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Lý tưởng nhất là bạn muốn có một hình có tất cả các cạnh bằng nhau (ngũ giác). Điều đó cho thấy rằng bạn có thể tối ưu hóa tất cả các chức năng thể dục. Nhưng thực tế là sẽ rất khó khăn để đạt được hình dạng đó—khi bạn ưu tiên một chức năng thích hợp, nó sẽ ảnh hưởng đến các đường cho bán kính còn lại. Điều này có nghĩa là sẽ luôn có sự đánh đổi tùy thuộc vào điều gì là quan trọng nhất đối với ứng dụng AI tổng quát của bạn và bạn sẽ có một biểu đồ bị lệch về một bán kính cụ thể. Đây là tiêu chí mà bạn có thể sẵn sàng giảm mức độ ưu tiên để ưu tiên cho những tiêu chí khác tùy thuộc vào cách bạn xem từng chức năng. Trong biểu đồ của chúng tôi, trọng số số liệu của mỗi hàm thích ứng được xác định như sau—giá trị càng thấp thì hàm lượng thích hợp càng kém tối ưu (ngoại trừ kích thước mô hình, trong trường hợp đó giá trị càng cao thì kích thước của hàm thích ứng càng lớn). người mẫu).

Ví dụ: hãy lấy một trường hợp sử dụng trong đó bạn muốn sử dụng mô hình tóm tắt lớn (chẳng hạn như Anthropic Claude) để tạo bản tóm tắt công việc về các trường hợp dịch vụ và sự tương tác với khách hàng dựa trên dữ liệu trường hợp và lịch sử khách hàng. Chúng tôi có biểu đồ nhện sau đây.

Vì điều này có thể liên quan đến dữ liệu khách hàng nhạy cảm nên bạn chọn cách ly khối lượng công việc này khỏi các mô hình khác và lưu trữ nó trên một điểm cuối mô hình duy nhất. Điều này có thể gây khó khăn cho việc mở rộng quy mô vì bạn phải tăng tốc và quản lý các điểm cuối riêng biệt cho từng FM. Ứng dụng AI tổng quát mà bạn đang sử dụng trong mô hình đang được các đại lý dịch vụ sử dụng trong thời gian thực, do đó, độ trễ và thông lượng là ưu tiên hàng đầu, do đó cần phải sử dụng các loại phiên bản lớn hơn, chẳng hạn như P4De. Trong tình huống này, chi phí có thể phải cao hơn vì ưu tiên là sự cô lập, độ trễ và thông lượng.

Một trường hợp sử dụng khác là một tổ chức dịch vụ xây dựng ứng dụng chatbot Hỏi & Đáp được tùy chỉnh cho một số lượng lớn khách hàng. Biểu đồ nhện sau đây phản ánh các ưu tiên của họ.

Mỗi trải nghiệm chatbot có thể cần được điều chỉnh cho phù hợp với từng khách hàng cụ thể. Các mô hình đang được sử dụng có thể tương đối nhỏ hơn (FLAN-T5-XXL, Llama 7B và k-NN) và mỗi chatbot hoạt động theo một khung giờ nhất định cho các múi giờ khác nhau mỗi ngày. Giải pháp này cũng có thể có Thế hệ tăng cường truy xuất (RAG) được kết hợp với cơ sở dữ liệu chứa tất cả các mục cơ sở kiến thức sẽ được sử dụng với suy luận trong thời gian thực. Không có bất kỳ dữ liệu cụ thể nào của khách hàng được trao đổi thông qua chatbot này. Độ trễ khởi động nguội có thể chấp nhận được vì các chatbot hoạt động theo một lịch trình xác định. Đối với trường hợp sử dụng này, bạn có thể chọn kiến trúc điểm cuối nhiều mô hình và có thể giảm thiểu chi phí bằng cách sử dụng các loại phiên bản nhỏ hơn (như G5) và có khả năng giảm chi phí vận hành bằng cách lưu trữ nhiều mô hình trên mỗi điểm cuối trên quy mô lớn. Ngoại trừ việc tách biệt khối lượng công việc, các chức năng phù hợp trong trường hợp sử dụng này có thể có mức độ ưu tiên đồng đều hơn và sự đánh đổi được giảm thiểu ở một mức độ nào đó.

Một ví dụ cuối cùng sẽ là một ứng dụng tạo hình ảnh sử dụng mô hình như Stable Diffusion 2.0, là mô hình 3.5 tỷ tham số. Biểu đồ nhện của chúng tôi như sau.

Đây là một ứng dụng dựa trên đăng ký phục vụ hàng nghìn đài FM và khách hàng. Thời gian phản hồi cần phải nhanh chóng vì mỗi khách hàng đều mong đợi kết quả đầu ra hình ảnh sẽ được xử lý nhanh chóng. Thông lượng cũng rất quan trọng vì sẽ có hàng trăm nghìn yêu cầu tại bất kỳ giây nào, do đó, loại phiên bản sẽ phải là loại phiên bản lớn hơn, chẳng hạn như P4D có đủ GPU và bộ nhớ. Để làm được điều này, bạn có thể xem xét việc xây dựng một điểm cuối nhiều vùng chứa lưu trữ nhiều bản sao của mô hình để khử nhiễu việc tạo hình ảnh từ yêu cầu này được đặt sang yêu cầu khác. Đối với trường hợp sử dụng này, để ưu tiên độ trễ và thông lượng cũng như đáp ứng nhu cầu của người dùng, cần phải cân nhắc giữa chi phí điện toán và khối lượng công việc.

Áp dụng các chức năng thể dục để chọn tùy chọn lưu trữ FM

Trong phần này, chúng tôi sẽ hướng dẫn bạn cách áp dụng các chức năng thể dục trước đó trong việc chọn tùy chọn lưu trữ FM phù hợp trên SageMaker FM trên quy mô lớn.

Điểm cuối mô hình đơn SageMaker

Điểm cuối mô hình đơn của SageMaker cho phép bạn lưu trữ một FM trên vùng chứa được lưu trữ trên các phiên bản chuyên dụng để có độ trễ thấp và thông lượng cao. Các điểm cuối này được quản lý hoàn toàn và hỗ trợ tự động mở rộng quy mô. Bạn có thể đặt cấu hình điểm cuối mô hình đơn làm điểm cuối được cung cấp trong đó bạn chuyển cấu hình cơ sở hạ tầng điểm cuối chẳng hạn như loại phiên bản và số lượng phiên bản, trong đó SageMaker tự động khởi chạy các tài nguyên điện toán và thay đổi quy mô chúng tùy thuộc vào chính sách tự động thay đổi quy mô. Bạn có thể mở rộng quy mô để lưu trữ hàng trăm mô hình bằng cách sử dụng nhiều điểm cuối của một mô hình và sử dụng một kiến trúc dựa trên tế bào để tăng khả năng phục hồi và giảm bán kính vụ nổ.

Khi đánh giá các hàm thích hợp cho điểm cuối mô hình đơn được cung cấp, hãy xem xét những điều sau:

Kích thước mô hình nền tảng – Điều này phù hợp nếu bạn có các mô hình không thể chứa vừa bộ nhớ của bộ tăng tốc ML đơn lẻ và do đó cần nhiều bộ tăng tốc trong một phiên bản.
Hiệu suất và độ trễ suy luận FM – Điều này phù hợp với các ứng dụng AI tạo ra độ trễ quan trọng.
Cô lập khối lượng công việc – Ứng dụng của bạn có thể cần Đám mây điện toán đàn hồi Amazon (Amazon EC2) cách ly cấp phiên bản vì lý do tuân thủ bảo mật. Mỗi FM sẽ có một điểm cuối suy luận riêng và sẽ không chia sẻ phiên bản EC2 với một mô hình khác. Ví dụ: bạn có thể tách biệt khối lượng công việc suy luận mô hình liên quan đến HIPAA (chẳng hạn như mô hình phát hiện PHI) trong một điểm cuối riêng biệt bằng cấu hình nhóm bảo mật chuyên dụng có tính năng cách ly mạng. Bạn có thể tách biệt khối lượng công việc suy luận mô hình dựa trên GPU của mình khỏi các khối lượng công việc khác dựa trên các phiên bản EC2 dựa trên Nitro như p4dn để tách biệt chúng khỏi khối lượng công việc ít tin cậy hơn. Các phiên bản EC2 dựa trên Hệ thống Nitro cung cấp một cách tiếp cận độc đáo để ảo hóa và cách ly, cho phép bạn luôn bảo mật và cách ly hoạt động xử lý dữ liệu nhạy cảm khỏi các nhà khai thác và phần mềm AWS. Nó cung cấp khía cạnh quan trọng nhất của máy tính bí mật như một bộ bảo vệ nội tại, theo mặc định từ phần mềm hệ thống và nhà khai thác đám mây. Tùy chọn này cũng hỗ trợ triển khai các mô hình AWS Marketplace do nhà cung cấp mô hình bên thứ ba cung cấp trên SageMaker.

Điểm cuối đa mô hình của SageMaker

SageMaker điểm cuối đa mô hình (MME) cho phép bạn đồng lưu trữ nhiều mô hình trên lõi GPU, chia sẻ các phiên bản GPU đằng sau điểm cuối trên nhiều mô hình cũng như tải và dỡ tải động các mô hình dựa trên lưu lượng truy cập đến. Với điều này, bạn có thể tiết kiệm đáng kể chi phí và đạt được hiệu suất giá tốt nhất.

MME là lựa chọn tốt nhất nếu bạn cần lưu trữ các mô hình nhỏ hơn có thể vừa với một bộ tăng tốc ML duy nhất trên một phiên bản. Chiến lược này nên được xem xét nếu bạn có một số lượng lớn (lên tới hàng nghìn) mô hình có kích thước tương tự (ít hơn 1 tỷ tham số) mà bạn có thể phân phát thông qua vùng chứa chung trong một phiên bản và không cần truy cập vào tất cả các mô hình tại cùng một lúc. Bạn có thể tải mô hình cần sử dụng và sau đó dỡ mô hình đó sang mô hình khác.

MME cũng được thiết kế cho các mô hình đồng lưu trữ sử dụng cùng một khung ML vì chúng sử dụng vùng chứa chung để tải nhiều mô hình. Do đó, nếu bạn có sự kết hợp của các khung ML trong nhóm mô hình của mình (chẳng hạn như PyTorch và TensorFlow), thì điểm cuối SageMaker với InferenceComponents là một lựa chọn tốt hơn. Chúng tôi bàn bạc InferenceComponents nhiều hơn sau trong bài viết này.

Cuối cùng, MME phù hợp với các ứng dụng có thể chịu được hình phạt về độ trễ khởi động nguội không thường xuyên vì các mô hình được sử dụng không thường xuyên có thể được giảm tải để chuyển sang các mô hình được gọi thường xuyên. Nếu bạn có một loạt các mô hình được truy cập không thường xuyên thì điểm cuối nhiều mô hình có thể phục vụ lưu lượng này một cách hiệu quả và giúp tiết kiệm chi phí đáng kể.

Hãy cân nhắc những điều sau đây khi đánh giá thời điểm sử dụng MME:

Kích thước mô hình nền tảng – Bạn có thể có các mô hình phù hợp với HBM của trình tăng tốc ML đơn trên một phiên bản và do đó không cần nhiều trình tăng tốc.
Hiệu suất và độ trễ suy luận FM – Bạn có thể có các ứng dụng AI tổng quát có thể chịu được độ trễ khởi động nguội khi mô hình được yêu cầu và không có trong bộ nhớ.
Cô lập khối lượng công việc – Cân nhắc việc để tất cả các mô hình dùng chung một thùng chứa.
khả năng mở rộng - Hãy xem xét những điều sau:
- Bạn có thể đóng gói nhiều mô hình trong một điểm cuối và chia tỷ lệ cho mỗi mô hình và phiên bản ML.
- Bạn có thể bật tính năng tự động thay đổi quy mô ở cấp phiên bản dựa trên mẫu khối lượng công việc.
- MME hỗ trợ mở rộng quy mô tới hàng nghìn mô hình cho mỗi điểm cuối. Bạn không cần phải duy trì cấu hình triển khai và tự động mở rộng quy mô cho từng mô hình.
- Bạn có thể sử dụng triển khai nóng bất cứ khi nào mô hình được yêu cầu suy luận.
- Bạn có thể tải các mô hình một cách linh hoạt theo yêu cầu suy luận và dỡ tải để đáp ứng với áp lực bộ nhớ.
- Bạn có thể chia sẻ tài nguyên cơ bản với các mô hình theo thời gian.
Hiệu quả chi phí – Xem xét việc chia sẻ thời gian tài nguyên giữa các mô hình bằng cách tải và dỡ tải động của các mô hình, giúp tiết kiệm chi phí.

Điểm cuối suy luận SageMaker với InferenceComponents

Điểm cuối suy luận SageMaker mới với InferenceComponents cung cấp một cách tiếp cận có thể mở rộng để lưu trữ nhiều FM ở một điểm cuối duy nhất và mở rộng quy mô cho mỗi mô hình. Nó cung cấp cho bạn khả năng kiểm soát chi tiết để phân bổ tài nguyên (bộ tăng tốc, bộ nhớ, CPU) và đặt chính sách tự động thay đổi quy mô trên cơ sở từng mô hình để đảm bảo thông lượng và hiệu suất có thể dự đoán, đồng thời bạn có thể quản lý việc sử dụng điện toán trên nhiều mô hình riêng lẻ. Nếu bạn có nhiều mô hình có kích thước và kiểu lưu lượng truy cập khác nhau mà bạn cần lưu trữ và kích thước mô hình không cho phép chúng vừa với bộ nhớ của một máy gia tốc thì đây là tùy chọn tốt nhất. Nó cũng cho phép bạn mở rộng quy mô về 0 để tiết kiệm chi phí, nhưng yêu cầu về độ trễ ứng dụng của bạn cần phải đủ linh hoạt để tính đến thời gian khởi động nguội cho mô hình. Tùy chọn này cho phép bạn linh hoạt nhất trong việc sử dụng điện toán của mình miễn là đủ cách ly cấp vùng chứa cho mỗi khách hàng hoặc FM. Để biết thêm chi tiết về điểm cuối SageMaker mới với InferenceComponents, tham khảo bài viết chi tiết Giảm chi phí triển khai mô hình trung bình 50% bằng cách sử dụng các tính năng mới nhất của Amazon SageMaker.

Hãy cân nhắc những điều sau đây khi xác định khi nào bạn nên sử dụng điểm cuối với InferenceComponents:

Kích thước mô hình nền tảng – Điều này phù hợp với các mô hình không thể chứa vừa bộ nhớ của bộ tăng tốc ML đơn lẻ và do đó cần có nhiều bộ tăng tốc trong một phiên bản.
Hiệu suất và độ trễ suy luận FM – Điều này phù hợp cho các ứng dụng AI tạo ra độ trễ quan trọng.
Cô lập khối lượng công việc – Bạn có thể có các ứng dụng có đủ khả năng cách ly ở cấp vùng chứa.
khả năng mở rộng - Hãy xem xét những điều sau:
- Bạn có thể đóng gói nhiều FM vào một điểm cuối duy nhất và chia tỷ lệ cho mỗi mô hình.
- Bạn có thể bật quy mô cấp độ phiên bản và cấp độ vùng chứa mô hình dựa trên mẫu khối lượng công việc.
- Phương pháp này hỗ trợ mở rộng quy mô lên hàng trăm FM cho mỗi điểm cuối. Bạn không cần định cấu hình chính sách tự động mở rộng quy mô cho từng kiểu máy hoặc vùng chứa.
- Nó hỗ trợ việc bố trí ban đầu các mô hình trong nhóm và xử lý các máy gia tốc không đủ.
Hiệu quả chi phí – Bạn có thể chia tỷ lệ về 0 cho mỗi mô hình khi không có lưu lượng truy cập để tiết kiệm chi phí.

Đóng gói nhiều FM trên cùng một điểm cuối: Nhóm mô hình

Việc xác định chiến lược kiến trúc suy luận nào bạn sử dụng trên SageMaker tùy thuộc vào mức độ ưu tiên và yêu cầu ứng dụng của bạn. Một số nhà cung cấp SaaS đang bán hàng trong các môi trường được quản lý có yêu cầu cách ly nghiêm ngặt—họ cần có tùy chọn cho phép họ cung cấp cho một số hoặc tất cả FM của mình tùy chọn triển khai theo mô hình chuyên dụng. Nhưng để tối ưu hóa chi phí và đạt được tính kinh tế theo quy mô, các nhà cung cấp SaaS cũng cần có môi trường nhiều bên thuê, nơi họ lưu trữ nhiều FM trên một nhóm tài nguyên SageMaker dùng chung. Hầu hết các tổ chức có thể sẽ có môi trường lưu trữ kết hợp trong đó họ có cả điểm cuối mô hình đơn và điểm cuối nhiều mô hình hoặc nhiều vùng chứa như một phần của kiến trúc SageMaker.

Một bài tập quan trọng bạn sẽ cần thực hiện khi kiến trúc môi trường suy luận phân tán này là nhóm các mô hình của bạn cho từng loại kiến trúc, bạn sẽ cần thiết lập trong các điểm cuối SageMaker của mình. Quyết định đầu tiên bạn phải đưa ra là xoay quanh các yêu cầu cách ly khối lượng công việc—bạn sẽ cần cách ly các FM cần ở các điểm cuối chuyên dụng của riêng chúng, cho dù đó là vì lý do bảo mật, giảm bán kính nổ và rủi ro ồn ào ở hàng xóm hay cuộc họp SLA nghiêm ngặt về độ trễ.

Thứ hai, bạn sẽ cần xác định xem FM có phù hợp với một máy gia tốc ML duy nhất hay yêu cầu nhiều máy gia tốc, kích thước mô hình là bao nhiêu và mô hình lưu lượng truy cập của chúng là gì. Các mô hình có kích thước tương tự dùng chung để hỗ trợ chức năng trung tâm có thể được nhóm lại với nhau một cách hợp lý bằng cách đồng lưu trữ nhiều mô hình trên một điểm cuối, vì đây sẽ là một phần của một ứng dụng kinh doanh duy nhất được quản lý bởi một nhóm trung tâm. Để đồng lưu trữ nhiều mô hình trên cùng một điểm cuối, cần thực hiện bài tập nhóm để xác định mô hình nào có thể nằm trong một phiên bản, một vùng chứa hoặc nhiều vùng chứa.

Nhóm các mô hình cho MME

MME phù hợp nhất với các mô hình nhỏ hơn (ít hơn 1 tỷ tham số có thể vừa với một bộ tăng tốc đơn) và có kích thước và độ trễ gọi tương tự nhau. Một số thay đổi về kích thước mô hình có thể chấp nhận được; Ví dụ, của Zendesk các mô hình có dung lượng từ 10–50 MB, hoạt động tốt nhưng các biến thể về kích thước có hệ số lớn hơn 10, 50 hoặc 100 lần là không phù hợp. Các mô hình lớn hơn có thể khiến số lượng tải và dỡ tải của các mô hình nhỏ hơn cao hơn để có đủ dung lượng bộ nhớ, điều này có thể dẫn đến độ trễ tăng thêm ở điểm cuối. Sự khác biệt về đặc tính hiệu suất của các mẫu máy lớn hơn cũng có thể tiêu thụ tài nguyên như CPU một cách không đồng đều, điều này có thể ảnh hưởng đến các mẫu máy khác trên phiên bản đó.

Các mô hình được nhóm lại với nhau trên MME cần có các mẫu lưu lượng truy cập so le để cho phép bạn chia sẻ điện toán giữa các mô hình để suy luận. Các kiểu truy cập và độ trễ suy luận của bạn cũng cần cho phép một khoảng thời gian khởi động nguội khi bạn chuyển đổi giữa các mô hình.

Sau đây là một số tiêu chí được đề xuất để nhóm các mô hình cho MME:

Mô hình nhỏ hơn – Sử dụng các mô hình có ít hơn 1 tỷ tham số
Kích thước mô hình – Nhóm các mô hình có kích thước tương tự và đồng lưu trữ vào cùng một điểm cuối
Độ trễ gọi – Các mô hình nhóm có yêu cầu về độ trễ gọi tương tự có thể chịu được khởi động nguội
phần cứng – Nhóm các mô hình sử dụng cùng loại phiên bản EC2 cơ bản

Nhóm các mô hình cho điểm cuối bằng InferenceComponents

Điểm cuối SageMaker với InferenceComponents phù hợp nhất để lưu trữ các FM lớn hơn (hơn 1 tỷ thông số) ở quy mô yêu cầu nhiều bộ tăng tốc ML hoặc thiết bị trong phiên bản EC2. Tùy chọn này phù hợp với các khối lượng công việc và ứng dụng nhạy cảm với độ trễ trong đó đủ khả năng cách ly ở cấp vùng chứa. Sau đây là một số tiêu chí được đề xuất để nhóm các mô hình cho điểm cuối có nhiều InferenceComponents:

phần cứng – Nhóm các mô hình sử dụng cùng loại phiên bản EC2 cơ bản
Kích thước mô hình – Việc nhóm mô hình dựa trên kích thước mô hình được khuyến nghị nhưng không bắt buộc

Tổng kết

Trong bài đăng này, chúng tôi đã xem xét ba tùy chọn suy luận ML thời gian thực (điểm cuối đơn, điểm cuối đa mô hình và điểm cuối có InferenceComponents) trong SageMaker để lưu trữ FM hiệu quả ở quy mô lớn với chi phí hợp lý. Bạn có thể sử dụng năm chức năng thể dục để giúp bạn chọn tùy chọn lưu trữ SageMaker phù hợp cho FM trên quy mô lớn. Nhóm các FM và đồng lưu trữ chúng trên các điểm cuối suy luận của SageMaker bằng cách sử dụng tiêu chí nhóm được đề xuất. Ngoài các chức năng thể dục mà chúng ta đã thảo luận, bạn có thể sử dụng bảng sau để quyết định tùy chọn lưu trữ SageMaker được chia sẻ nào phù hợp nhất cho trường hợp sử dụng của bạn. Bạn có thể tìm thấy mẫu mã cho từng tùy chọn lưu trữ FM trên SageMaker trong kho lưu trữ GitHub sau: điểm cuối SageMaker duy nhất, điểm cuối đa mô hìnhvà InferenceComponents điểm cuối.

.	Điểm cuối mô hình đơn	Điểm cuối đa mô hình	Điểm cuối với InferenceComponents
Vòng đời mô hình	API để quản lý	Động thông qua đường dẫn Amazon S3	API để quản lý
Các loại phiên bản được hỗ trợ	CPU, GPU đơn và đa GPU, Phiên bản dựa trên AWS Inferentia	Các phiên bản dựa trên CPU, GPU đơn	CPU, GPU đơn và đa GPU, Phiên bản dựa trên AWS Inferentia
Độ chi tiết của số liệu	Điểm cuối	Điểm cuối	Điểm cuối và vùng chứa
Tỷ lệ chi tiết	Phiên bản ML	Phiên bản ML	Container
Hành vi mở rộng quy mô	Chia tỷ lệ phiên bản ML độc lập	Các mô hình được tải và dỡ khỏi bộ nhớ	Chia tỷ lệ vùng chứa độc lập
Ghim mô hình	.	Mô hình có thể được dỡ bỏ dựa trên bộ nhớ	Mỗi container có thể được cấu hình để luôn được tải hoặc dỡ
Yêu cầu về vùng chứa	SageMaker được tạo sẵn, tương thích với SageMaker Mang theo vùng chứa riêng của bạn (BYOC)	MMS, Triton, BYOC với hợp đồng MME	SageMaker được xây dựng sẵn, BYOC tương thích với SageMaker
Tùy chọn định tuyến	Kết nối ngẫu nhiên hoặc ít nhất	Ngẫu nhiên, gắn bó với cửa sổ phổ biến	Kết nối ngẫu nhiên hoặc ít nhất
Phân bổ phần cứng cho mô hình	Dành riêng cho mô hình duy nhất	Chia sẻ	Dành riêng cho từng container
Số lượng mô hình được hỗ trợ	Độc thân	Hàng ngàn	Hàng trăm
Truyền phản hồi	Hỗ trợ	Không được hỗ trợ	Hỗ trợ
Thu thập dữ liệu	Hỗ trợ	Không được hỗ trợ	Không được hỗ trợ
kiểm tra bóng	Hỗ trợ	Không được hỗ trợ	Không được hỗ trợ
Nhiều biến thể	Hỗ trợ	Không áp dụng	Không được hỗ trợ
Mô hình AWS Marketplace	Hỗ trợ	Không áp dụng	Không được hỗ trợ

Giới thiệu về tác giả

Quy mô suy luận mô hình nền tảng lên hàng trăm mô hình bằng Amazon SageMaker – Phần 1 | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Mehran Najafi, Tiến sĩ, là Kiến trúc sư giải pháp cấp cao của AWS tập trung vào các giải pháp AI/ML và SaaS ở quy mô lớn.

Dhawal Patel là một Kiến trúc sư chính về Học máy tại AWS. Ông đã làm việc với các tổ chức khác nhau, từ các doanh nghiệp lớn đến các công ty khởi nghiệp quy mô trung bình về các vấn đề liên quan đến máy tính phân tán và Trí tuệ nhân tạo. Ông tập trung vào Học sâu bao gồm các lĩnh vực NLP và Thị giác máy tính. Anh ấy giúp khách hàng đạt được khả năng suy luận mô hình hiệu suất cao trên SageMaker.

Quy mô suy luận mô hình nền tảng lên hàng trăm mô hình bằng Amazon SageMaker – Phần 1 | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Rielah DeJesus là Kiến trúc sư giải pháp chính tại AWS, người đã giúp đỡ thành công nhiều khách hàng doanh nghiệp khác nhau ở khu vực DC, Maryland và Virginia chuyển sang đám mây. Là người ủng hộ khách hàng và cố vấn kỹ thuật, cô giúp các tổ chức như Heroku/Salesforce đạt được thành công trên nền tảng AWS. Cô là người ủng hộ nhiệt thành cho Phụ nữ trong lĩnh vực CNTT và rất đam mê tìm cách sử dụng công nghệ và dữ liệu một cách sáng tạo để giải quyết các thách thức hàng ngày.