Điều hướng chi phí điện toán AI cao

Điều hướng chi phí điện toán AI cao

Điều hướng chi phí cao của AI tính toán trí thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.
Nguồn: Giữa hành trình

Sự bùng nổ trí tuệ nhân tạo bị ràng buộc bởi máy tính. Nó có đặc tính duy nhất là việc thêm nhiều điện toán hơn sẽ trực tiếp tạo ra một sản phẩm tốt hơn. Thông thường, đầu tư cho R&D gắn trực tiếp hơn với giá trị của sản phẩm và mối quan hệ đó là tuyến tính phụ rõ rệt. Nhưng điều này hiện không đúng với trí tuệ nhân tạo và do đó, yếu tố chính thúc đẩy ngành công nghiệp ngày nay chỉ đơn giản là chi phí đào tạo và suy luận. 

Mặc dù chúng tôi không biết con số thực sự, nhưng chúng tôi đã nghe từ các nguồn có uy tín rằng nguồn cung cấp máy tính rất hạn chế, nhu cầu vượt xa nó theo hệ số 10(!) Vì vậy, chúng tôi nghĩ rằng thật công bằng khi nói rằng, ngay bây giờ, quyền truy cập vào tài nguyên máy tính — với tổng chi phí thấp nhất — đã trở thành yếu tố quyết định sự thành công của các công ty AI.

Trên thực tế, chúng tôi đã chứng kiến ​​nhiều công ty dành hơn 80% tổng số vốn huy động được cho tài nguyên máy tính!

Trong bài đăng này, chúng tôi cố gắng chia nhỏ các yếu tố chi phí cho một công ty AI. Tất nhiên, các con số tuyệt đối sẽ thay đổi theo thời gian, nhưng chúng tôi không thấy các công ty AI bị ràng buộc bởi quyền truy cập vào tài nguyên điện toán của họ sẽ không được cứu trợ ngay lập tức. Vì vậy, hy vọng đây là một khuôn khổ hữu ích để suy nghĩ về toàn cảnh. 

Tại sao các mô hình AI lại quá đắt về mặt tính toán?

Có rất nhiều mô hình AI tổng quát, và chi phí suy luận và đào tạo phụ thuộc vào quy mô và loại mô hình. May mắn thay, các mô hình phổ biến nhất hiện nay hầu hết là kiến ​​trúc dựa trên biến áp, bao gồm các mô hình ngôn ngữ lớn (LLM) phổ biến như GPT-3, GPT-J hoặc BERT. Mặc dù số lượng hoạt động chính xác để suy luận và tìm hiểu máy biến áp là cụ thể theo kiểu máy (xem bài viết này), có một quy tắc ngón tay cái khá chính xác chỉ phụ thuộc vào số lượng tham số (nghĩa là trọng số của mạng thần kinh) của mô hình và số lượng mã thông báo đầu vào và đầu ra. 

Mã thông báo về cơ bản là các chuỗi ngắn gồm một vài ký tự. Chúng tương ứng với các từ hoặc các phần của từ. Cách tốt nhất để có trực giác về mã thông báo là thử dùng mã thông báo với các trình mã thông báo trực tuyến có sẵn công khai (ví dụ: OpenAI). Đối với GPT-3, độ dài trung bình của mã thông báo là 4 ký tự

Quy tắc ngón tay cái đối với máy biến áp là chuyển tiếp (nghĩa là suy luận) cho một mô hình có p các tham số cho một đầu vào và một chuỗi đầu ra có độ dài n thẻ mỗi, mất khoảng 2*n*p hoạt động dấu chấm động (FLOPS)¹. Đào tạo cho cùng một mô hình mất khoảng 6*p FLOPS trên mỗi mã thông báo (tức là, chuyển ngược bổ sung yêu cầu thêm bốn thao tác²). Bạn có thể ước tính tổng chi phí đào tạo bằng cách nhân số này với số lượng mã thông báo trong dữ liệu đào tạo.

Yêu cầu bộ nhớ cho máy biến áp cũng phụ thuộc vào kích thước mô hình. Để suy luận, chúng ta cần p tham số mô hình để phù hợp với bộ nhớ. Để học (nghĩa là lan truyền ngược), chúng ta cần lưu trữ các giá trị trung gian bổ sung cho mỗi tham số giữa chuyển tiếp và chuyển tiếp. Giả sử chúng tôi sử dụng số dấu phẩy động 32 bit, đây là 8 byte bổ sung cho mỗi tham số. Để đào tạo một mô hình có 175 tỷ tham số, chúng tôi sẽ cần lưu trữ hơn một terabyte dữ liệu trong bộ nhớ — điều này vượt quá bất kỳ GPU nào hiện có và yêu cầu chúng tôi chia mô hình thành nhiều thẻ. Yêu cầu bộ nhớ cho suy luận và đào tạo có thể được tối ưu hóa bằng cách sử dụng các giá trị dấu phẩy động có độ dài ngắn hơn, với 16-bit trở nên phổ biến và 8-bit được dự đoán trong tương lai gần.

Điều hướng chi phí cao của AI tính toán trí thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Bảng trên có kích thước và chi phí tính toán cho một số mô hình phổ biến. GPT-3 có khoảng 175 tỷ tham số, đối với đầu vào và đầu ra của 1,024 mã thông báo, dẫn đến chi phí tính toán khoảng 350 nghìn tỷ phép toán dấu phẩy động (tức là Teraflop hoặc TFLOPS). Đào tạo một mô hình như GPT-3 mất khoảng 3.14*10^23 thao tác dấu phẩy động. Các mô hình khác như LLaMA của Meta có thậm chí cao hơn yêu cầu tính toán. Đào tạo một mô hình như vậy là một trong những nhiệm vụ tính toán chuyên sâu hơn mà nhân loại đã thực hiện cho đến nay. 

Tóm lại: Cơ sở hạ tầng AI rất tốn kém vì các vấn đề thuật toán cơ bản cực kỳ khó tính toán. Độ phức tạp của thuật toán sắp xếp một bảng cơ sở dữ liệu với một triệu mục nhập là không đáng kể so với độ phức tạp của việc tạo một từ đơn lẻ bằng GPT-3. Điều này có nghĩa là bạn muốn chọn mô hình nhỏ nhất giải quyết được trường hợp sử dụng của mình. 

Tin tốt là, đối với máy biến áp, chúng ta có thể dễ dàng ước tính lượng điện toán và bộ nhớ mà một mô hình có kích thước nhất định sẽ tiêu thụ. Và, vì vậy, chọn phần cứng phù hợp trở thành sự cân nhắc tiếp theo. 

Đối số về thời gian và chi phí cho GPU

Làm thế nào để độ phức tạp tính toán dịch theo thời gian? Một lõi bộ xử lý thường có thể thực thi 1-2 lệnh mỗi chu kỳ và tốc độ xung nhịp của bộ xử lý đã ổn định khoảng 3 GHz trong 15 năm qua do sự kết thúc của Dennard mở rộng. Việc thực hiện một thao tác suy luận GPT-3 đơn lẻ mà không khai thác bất kỳ kiến ​​trúc song song nào sẽ mất khoảng 350 TFLOPS/(3 GHz*1 FLOP) hoặc 116,000 giây hoặc 32 giờ. Điều này cực kỳ không thực tế; thay vào đó chúng ta cần những con chip chuyên dụng giúp tăng tốc nhiệm vụ này.

Trên thực tế, tất cả các mô hình AI ngày nay đều chạy trên các thẻ sử dụng một số lượng rất lớn các lõi chuyên dụng. Ví dụ: GPU NVIDIA A100 có 512 “lõi tensor” có thể thực hiện phép nhân ma trận 4×4 (tương đương với 64 phép nhân và phép cộng hoặc 128 FLOPS) trong một chu kỳ. Thẻ tăng tốc AI thường được gọi là GPU (đơn vị xử lý đồ họa), vì kiến ​​trúc ban đầu được phát triển để chơi game trên máy tính để bàn. Trong tương lai, chúng tôi kỳ vọng AI sẽ ngày càng trở thành một dòng sản phẩm riêng biệt. 

A100 có hiệu suất danh nghĩa là 312 TFLOPS về lý thuyết sẽ giảm thời gian suy luận cho GPT-3 xuống còn khoảng 1 giây. Tuy nhiên, đây là một tính toán quá đơn giản vì nhiều lý do. Đầu tiên, đối với hầu hết các trường hợp sử dụng, nút cổ chai không phải là sức mạnh tính toán của GPU mà là khả năng lấy dữ liệu từ bộ nhớ đồ họa chuyên dụng đến lõi tensor. Thứ hai, 175 tỷ trọng lượng sẽ chiếm 700 GB và không vừa với bộ nhớ đồ họa của bất kỳ GPU nào. Cần sử dụng các kỹ thuật như phân vùng và phân luồng trọng số. Và, thứ ba, có một số tối ưu hóa (ví dụ: sử dụng các biểu diễn dấu chấm động ngắn hơn, chẳng hạn như FP16, FP8 hoặc ma trận thưa thớt) đang được sử dụng để tăng tốc tính toán. Tuy nhiên, về tổng thể, phép toán trên cho chúng ta một trực giác về chi phí tính toán tổng thể của các LLM ngày nay.

Đào tạo một mô hình máy biến áp mất khoảng ba lần thời gian cho mỗi mã thông báo so với thực hiện suy luận. Tuy nhiên, do tập dữ liệu huấn luyện lớn hơn khoảng 300 triệu lần so với dấu nhắc suy luận, nên việc huấn luyện mất nhiều thời gian hơn gấp 1 tỷ lần. Trên một GPU duy nhất, việc đào tạo sẽ mất hàng thập kỷ; trong thực tế, điều này được thực hiện trên các cụm máy tính lớn trong các trung tâm dữ liệu chuyên dụng hoặc, nhiều khả năng hơn, trên đám mây. Đào tạo cũng khó song song hơn so với suy luận, vì các trọng số được cập nhật phải được trao đổi giữa các nút. Bộ nhớ và băng thông giữa các GPU thường trở thành một yếu tố quan trọng hơn nhiều, với các kết nối tốc độ cao và các loại vải chuyên dụng là phổ biến. Để đào tạo các mô hình rất lớn, việc tạo ra một thiết lập mạng phù hợp có thể là thách thức chính. Nhìn về tương lai, máy gia tốc AI sẽ có khả năng kết nối mạng trên thẻ hoặc thậm chí trên chip. 

Làm thế nào để sự phức tạp tính toán này chuyển thành chi phí? Một phép suy luận GPT-3, như chúng ta đã thấy ở trên, mất khoảng 1 giây trên A100 sẽ có chi phí tính toán thô từ 0.0002 USD đến 0.0014 USD cho 1,000 mã thông báo (so với giá của OpenAI là 0.002 USD/1000 mã thông báo). Một người dùng tạo 100 yêu cầu suy luận mỗi ngày sẽ tính theo thứ tự đô la mỗi năm. Đây là một mức giá rất thấp và làm cho hầu hết các trường hợp sử dụng AI dựa trên văn bản của con người đều khả thi về mặt tài chính.

Hội thảo Mặt khác, GPT-3 đắt hơn nhiều. Một lần nữa, chỉ tính toán chi phí điện toán cho 3.14*10^23 FLOPS ở các mức giá trên cho chúng tôi ước tính khoảng 560,000 đô la trên thẻ A100 cho một chạy tập đơn. Trong thực tế, để đào tạo, chúng tôi sẽ không đạt được hiệu suất gần như 100% trong GPU; tuy nhiên, chúng tôi cũng có thể sử dụng tối ưu hóa để giảm thời gian đào tạo. Các ước tính khác về chi phí đào tạo GPT-3 dao động từ $500,000 đến 4.6 triệu đô la, tùy thuộc vào các giả định phần cứng. Lưu ý rằng đây là chi phí của một lần chạy chứ không phải chi phí chung. Nhiều lần chạy có thể sẽ được yêu cầu và các nhà cung cấp đám mây sẽ muốn có các cam kết dài hạn (thêm về điều này bên dưới). Việc đào tạo những người mẫu hàng đầu vẫn còn tốn kém, nhưng trong tầm với của một công ty khởi nghiệp được tài trợ tốt.

Tóm lại, AI tổng quát đòi hỏi đầu tư lớn vào cơ sở hạ tầng AI ngày nay. Không có lý do gì để tin rằng điều này sẽ thay đổi trong tương lai gần. Huấn luyện một mô hình như GPT-3 là một trong những nhiệm vụ tính toán chuyên sâu nhất mà nhân loại từng thực hiện. Và trong khi GPU ngày càng nhanh hơn và chúng tôi tìm cách tối ưu hóa hoạt động đào tạo, thì sự mở rộng nhanh chóng của AI sẽ phủ nhận cả hai tác động này.

Cân nhắc cho cơ sở hạ tầng AI

Đến thời điểm này, chúng tôi đã cố gắng cung cấp cho bạn một số trực giác về quy mô cần thiết để thực hiện đào tạo và suy luận về các mô hình AI cũng như tham số cơ bản nào thúc đẩy chúng. Với bối cảnh đó, giờ đây chúng tôi muốn cung cấp một số hướng dẫn thiết thực về cách quyết định sử dụng cơ sở hạ tầng AI nào.

Cơ sở hạ tầng bên ngoài so với bên trong

Hãy đối mặt với nó: GPU rất tuyệt. Nhiều kỹ sư và nhà sáng lập có đầu óc kỹ thuật có xu hướng cung cấp phần cứng AI của riêng họ, không chỉ bởi vì nó mang lại khả năng kiểm soát chi tiết đối với đào tạo mô hình, mà còn bởi vì có một điều thú vị khi khai thác một lượng lớn sức mạnh tính toán (triển lãm A).

Tuy nhiên, thực tế là nhiều công ty khởi nghiệp — đặc biệt là các công ty ứng dụng — không cần xây dựng cơ sở hạ tầng AI của riêng họ vào Ngày đầu tiên. Thay vào đó, các dịch vụ mô hình được lưu trữ như OpenAI hoặc Hugging Face (đối với ngôn ngữ) và Bản sao (để tạo hình ảnh) cho phép người sáng lập tìm kiếm sản phẩm phù hợp với thị trường một cách nhanh chóng mà không cần quản lý cơ sở hạ tầng hoặc mô hình cơ bản.

Những dịch vụ này đã trở nên tốt đến mức nhiều công ty không bao giờ rời bỏ chúng. Các nhà phát triển có thể đạt được quyền kiểm soát có ý nghĩa đối với hiệu suất mô hình thông qua kỹ thuật nhanh chóng và tóm tắt tinh chỉnh bậc cao hơn (nghĩa là tinh chỉnh thông qua lệnh gọi API). Giá cho các dịch vụ này dựa trên mức tiêu thụ, do đó, nó thường rẻ hơn so với việc chạy cơ sở hạ tầng riêng biệt. Chúng tôi đã thấy các công ty ứng dụng tạo ra hơn 50 triệu đô la ARR và trị giá hơn 1 tỷ đô la, chạy các dịch vụ mô hình được lưu trữ dưới mui xe.

Mặt khác, một số công ty khởi nghiệp - đặc biệt là những người đào tạo các mô hình nền tảng mới hoặc xây dựng các ứng dụng AI tích hợp theo chiều dọc — không thể tránh việc chạy trực tiếp các mô hình của riêng họ trên GPU. Có thể là do mô hình thực sự là sản phẩm và nhóm đang tìm kiếm “mô hình phù hợp với thị trường” hoặc do cần có sự kiểm soát chi tiết đối với đào tạo và/hoặc suy luận để đạt được những khả năng nhất định hoặc giảm chi phí cận biên ở quy mô lớn. Dù bằng cách nào, việc quản lý cơ sở hạ tầng có thể trở thành một nguồn lợi thế cạnh tranh.

Xây dựng trung tâm dữ liệu so với đám mây

Trong hầu hết các trường hợp, đám mây là nơi thích hợp cho cơ sở hạ tầng AI của bạn. Chi phí trả trước ít hơn, khả năng mở rộng quy mô lên và xuống, tính khả dụng trong khu vực và ít bị phân tâm hơn trong việc xây dựng trung tâm dữ liệu của riêng bạn là những điều hấp dẫn đối với hầu hết các công ty mới thành lập và các công ty lớn hơn.

Nhưng có một vài ngoại lệ đối với quy tắc này:

  • Nếu bạn đang hoạt động ở quy mô rất lớn, việc vận hành trung tâm dữ liệu của riêng bạn có thể tiết kiệm chi phí hơn. Điểm giá chính xác thay đổi dựa trên vị trí địa lý và thiết lập, nhưng nó thường yêu cầu chi tiêu cho cơ sở hạ tầng hơn 50 triệu đô la mỗi năm.
  • Bạn cần phần cứng rất cụ thể mà bạn không thể có được từ nhà cung cấp đám mây. Ví dụ: các loại GPU không có sẵn rộng rãi, cũng như các yêu cầu về bộ nhớ, lưu trữ hoặc kết nối mạng bất thường.
  • Bạn không thể tìm thấy đám mây nào có thể chấp nhận được đối với những cân nhắc về địa chính trị.

Nếu bạn muốn xây dựng trung tâm dữ liệu của riêng mình, đã có phân tích hiệu suất/giá toàn diện của GPU dành cho thiết lập của riêng bạn (ví dụ: Phân tích của Tim Dettmer). Ngoài chi phí và hiệu suất của thẻ, việc lựa chọn phần cứng cũng phụ thuộc vào nguồn điện, không gian và khả năng làm mát. Ví dụ: hai thẻ RTX 3080 Ti cùng nhau có công suất tính toán thô tương tự như A100, nhưng mức tiêu thụ điện năng tương ứng là 700W so với 300W. Chênh lệch điện năng 3,500 kWh ở mức giá thị trường là 0.10 USD/kWh trong vòng đời 3080 năm làm tăng chi phí của RTX2 Ti lên gần gấp 1,000 lần (khoảng XNUMX USD).

Tất cả những điều này đã nói lên rằng, chúng tôi hy vọng đại đa số các công ty khởi nghiệp sẽ sử dụng điện toán đám mây. 

So sánh các nhà cung cấp dịch vụ đám mây 

Amazon Web Services (AWS), Microsoft Azure và Google Cloud Platform (GCP) đều cung cấp các phiên bản GPU, nhưng các nhà cung cấp mới dường như cũng tập trung cụ thể vào khối lượng công việc AI. Đây là khuôn khổ mà chúng tôi đã thấy nhiều nhà sáng lập sử dụng để chọn nhà cung cấp đám mây:

Giá: Bảng bên dưới hiển thị giá cho một số đám mây chuyên dụng lớn và nhỏ hơn kể từ ngày 7 tháng 2023 năm XNUMX. Dữ liệu này chỉ mang tính tham khảo vì các phiên bản khác nhau đáng kể về băng thông mạng, chi phí xuất dữ liệu, chi phí bổ sung từ CPU và mạng, có sẵn giảm giá, và các yếu tố khác.

Điều hướng chi phí cao của AI tính toán trí thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Khả năng tính toán trên phần cứng cụ thể là một mặt hàng. Ngây thơ, chúng tôi sẽ mong đợi mức giá khá thống nhất, nhưng đây không phải là trường hợp. Và mặc dù tồn tại sự khác biệt đáng kể về tính năng giữa các đám mây, nhưng chúng không đủ để giải thích rằng giá của NVIDIA A100 theo yêu cầu thay đổi theo hệ số gần gấp 4 lần giữa các nhà cung cấp.

Ở mức cao nhất trong thang giá, các đám mây công cộng lớn tính phí cao dựa trên danh tiếng thương hiệu, độ tin cậy đã được chứng minh và nhu cầu quản lý nhiều loại khối lượng công việc. Các nhà cung cấp AI chuyên biệt nhỏ hơn đưa ra mức giá thấp hơn, bằng cách chạy các trung tâm dữ liệu được xây dựng có mục đích (ví dụ: Coreweave) hoặc phân xử các đám mây khác (ví dụ: Lambda Labs).

Thực tế mà nói, hầu hết những người mua lớn hơn thương lượng giá trực tiếp với nhà cung cấp đám mây, thường cam kết một số yêu cầu chi tiêu tối thiểu cũng như cam kết thời gian tối thiểu (chúng tôi đã thấy từ 1-3 năm). Sự khác biệt về giá giữa các đám mây giảm đi phần nào sau khi thương lượng, nhưng chúng tôi đã thấy thứ hạng trong bảng trên vẫn tương đối ổn định. Cũng cần lưu ý rằng các công ty nhỏ hơn có thể nhận được mức giá hấp dẫn từ các đám mây đặc biệt mà không cần cam kết chi tiêu lớn.

Khả dụng: Các GPU mạnh nhất (ví dụ: Nvidia A100) đã liên tục bị thiếu hụt trong hơn 12 tháng qua. 

Sẽ là hợp lý nếu nghĩ rằng ba nhà cung cấp dịch vụ đám mây hàng đầu có tính khả dụng tốt nhất, dựa trên sức mua lớn và nguồn tài nguyên của họ. Nhưng, hơi ngạc nhiên, nhiều công ty khởi nghiệp đã không thấy điều đó là đúng. Các đám mây lớn có rất nhiều phần cứng nhưng cũng có nhu cầu lớn của khách hàng cần đáp ứng — ví dụ: Azure là máy chủ lưu trữ chính cho ChatGPT — và liên tục bổ sung/thuê dung lượng để đáp ứng nhu cầu. Trong khi đó, Nvidia đã cam kết cung cấp phần cứng rộng rãi trong toàn ngành, bao gồm cả việc phân bổ cho các nhà cung cấp chuyên biệt mới. (Họ làm điều này vừa để công bằng vừa để giảm bớt sự phụ thuộc vào một vài khách hàng lớn cũng cạnh tranh với họ.)

Do đó, nhiều công ty mới thành lập tìm thấy nhiều chip có sẵn hơn, bao gồm cả Nvidia H100 tiên tiến, tại các nhà cung cấp đám mây nhỏ hơn. Nếu bạn sẵn sàng làm việc với một công ty cơ sở hạ tầng mới hơn, bạn có thể giảm thời gian chờ đợi phần cứng và có thể tiết kiệm tiền trong quá trình này.

Tính toán mô hình phân phối: Các đám mây lớn ngày nay chỉ cung cấp các phiên bản với GPU chuyên dụng, lý do là ảo hóa GPU vẫn là một vấn đề chưa được giải quyết. Các đám mây AI chuyên dụng cung cấp các mô hình khác, chẳng hạn như bộ chứa hoặc tác vụ hàng loạt, có thể xử lý các tác vụ riêng lẻ mà không phát sinh chi phí khởi động và phá bỏ phiên bản. Nếu bạn cảm thấy thoải mái với mô hình này, nó có thể giảm đáng kể chi phí.

Kết nối mạng: Cụ thể, đối với đào tạo, băng thông mạng là yếu tố chính trong việc lựa chọn nhà cung cấp. Cần có các cụm với kết cấu chuyên dụng giữa các nút, chẳng hạn như NVLink, để đào tạo một số mô hình lớn nhất định. Để tạo hình ảnh, phí giao thông đầu ra cũng có thể là một yếu tố chi phí chính.

Hỗ trợ khách hàng: Các nhà cung cấp đám mây lớn phục vụ một nhóm khách hàng khổng lồ trên hàng nghìn SKU sản phẩm. Có thể khó thu hút sự chú ý của bộ phận hỗ trợ khách hàng hoặc khắc phục sự cố, trừ khi bạn là một khách hàng lớn. Mặt khác, nhiều đám mây AI chuyên dụng cung cấp hỗ trợ nhanh chóng và đáp ứng ngay cả đối với các khách hàng nhỏ. Điều này một phần là do họ đang hoạt động ở quy mô nhỏ hơn, nhưng cũng vì khối lượng công việc của họ đồng nhất hơn — vì vậy họ có nhiều động lực hơn để tập trung vào các lỗi và tính năng dành riêng cho AI.

So sánh GPU 

Tất cả những thứ khác đều bình đẳng, GPU cao cấp nhất sẽ hoạt động tốt nhất trên hầu hết mọi khối lượng công việc. Tuy nhiên, như bạn có thể thấy trong bảng bên dưới, phần cứng tốt nhất cũng đắt hơn đáng kể. Chọn đúng loại GPU cho ứng dụng cụ thể của bạn có thể giảm đáng kể chi phí và có thể tạo ra sự khác biệt giữa mô hình kinh doanh khả thi và không khả thi.

Điều hướng chi phí cao của AI tính toán trí thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Quyết định xem danh sách sẽ đi bao xa — nghĩa là xác định các lựa chọn GPU hiệu quả nhất về chi phí cho ứng dụng của bạn — phần lớn là một quyết định kỹ thuật nằm ngoài phạm vi của bài viết này. Nhưng chúng tôi sẽ chia sẻ bên dưới một số tiêu chí lựa chọn mà chúng tôi thấy là quan trọng nhất:

Đào tạo so với suy luận: Như chúng ta đã thấy trong phần đầu tiên ở trên, việc huấn luyện một mô hình Transformer yêu cầu chúng ta lưu trữ 8 byte dữ liệu để huấn luyện bên cạnh các trọng số của mô hình. Điều này có nghĩa là một GPU tiêu dùng cao cấp thông thường với bộ nhớ 12GB hầu như không thể được sử dụng để đào tạo một mô hình 4 tỷ tham số. Trên thực tế, việc đào tạo các mô hình lớn được thực hiện trên các cụm máy có nhiều GPU trên mỗi máy chủ, nhiều VRAM và kết nối băng thông cao giữa các máy chủ (nghĩa là các cụm được xây dựng bằng GPU trung tâm dữ liệu hàng đầu).

Cụ thể, nhiều kiểu máy sẽ tiết kiệm chi phí nhất trên NVIDIA H100, nhưng tính đến thời điểm hiện tại, rất khó tìm và thường yêu cầu cam kết lâu dài hơn một năm. NVIDIA A100 chạy hầu hết các mô hình đào tạo hiện nay; nó dễ tìm hơn, nhưng đối với các cụm lớn, cũng có thể yêu cầu cam kết lâu dài.

Yêu cầu bộ nhớ: Các LLM lớn có số lượng tham số quá cao để phù hợp với bất kỳ thẻ nào. Chúng cần được chia thành nhiều thẻ và yêu cầu thiết lập tương tự như đào tạo. Nói cách khác, bạn có thể cần H100 hoặc A100 ngay cả đối với suy luận LLM. Nhưng các mô hình nhỏ hơn (ví dụ: Khuếch tán ổn định) yêu cầu VRAM ít hơn nhiều. Mặc dù A100 vẫn còn phổ biến, nhưng chúng tôi đã thấy các công ty khởi nghiệp sử dụng thẻ A10, A40, A4000, A5000 và A6000 hoặc thậm chí là RTX. 

Hỗ trợ phần cứng: Mặc dù phần lớn khối lượng công việc trong các công ty mà chúng tôi đã nói chuyện chạy trên NVIDIA, một số ít đã bắt đầu thử nghiệm với các nhà cung cấp khác. Phổ biến nhất là Google TPU, nhưng Gaudi 2 của Intel dường như cũng nhận được một số lực kéo. Thách thức với những nhà cung cấp này là hiệu suất của mô hình của bạn thường phụ thuộc nhiều vào khả năng tối ưu hóa phần mềm sẵn có cho những con chip này. Bạn có thể sẽ phải thực hiện PoC để hiểu hiệu suất.

Yêu cầu về độ trễ: Nói chung, các khối lượng công việc nhạy cảm với độ trễ ít hơn (ví dụ: xử lý dữ liệu hàng loạt hoặc các ứng dụng không yêu cầu phản hồi giao diện người dùng tương tác) có thể sử dụng GPU yếu hơn. Điều này có thể giảm chi phí điện toán tới 3-4 lần (ví dụ: so sánh A100 với A10 trên AWS). Mặt khác, các ứng dụng hướng tới người dùng thường cần thẻ cao cấp nhất để mang lại trải nghiệm người dùng thời gian thực, hấp dẫn. Việc tối ưu hóa các mô hình thường là cần thiết để mang lại chi phí trong phạm vi có thể quản lý được.

độ cay: Các công ty AI sáng tạo thường thấy nhu cầu tăng đột biến vì công nghệ này quá mới và thú vị. Không có gì lạ khi thấy khối lượng yêu cầu tăng gấp 10 lần trong một ngày, dựa trên bản phát hành sản phẩm mới hoặc tăng liên tục 50% mỗi tuần. Việc xử lý các mức đột biến này thường dễ dàng hơn trên các GPU cấp thấp hơn, vì nhiều nút tính toán hơn có thể khả dụng theo yêu cầu. Cũng thường hợp lý khi phân phát loại lưu lượng truy cập này với các tài nguyên có chi phí thấp hơn — đánh đổi bằng hiệu suất — nếu nó đến từ những người dùng ít tương tác hơn hoặc ít lưu giữ hơn.

Tối ưu hóa và lập kế hoạch mô hình

Việc tối ưu hóa phần mềm có thể ảnh hưởng lớn đến thời gian chạy của các mô hình — và mức tăng gấp 10 lần không phải là hiếm. Tuy nhiên, bạn sẽ cần xác định phương pháp nào sẽ hiệu quả nhất với mô hình và hệ thống cụ thể của mình.

Một số kỹ thuật hoạt động với một loạt các mô hình. Sử dụng các biểu diễn dấu phẩy động ngắn hơn (ví dụ: FP16 hoặc FP8 so với FP32 ban đầu) hoặc lượng tử hóa (INT8, INT4, INT2) đạt được tốc độ tăng tốc thường tuyến tính với việc giảm bit. Điều này đôi khi đòi hỏi phải sửa đổi mô hình, nhưng ngày càng có nhiều công nghệ tự động hóa hoạt động với độ chính xác hỗn hợp hoặc ngắn hơn. Việc cắt xén mạng thần kinh làm giảm số lượng trọng số bằng cách bỏ qua các trọng số có giá trị thấp. Cùng với phép nhân ma trận thưa thớt hiệu quả, điều này có thể giúp tăng tốc đáng kể trên các GPU hiện đại. Một tập hợp các kỹ thuật tối ưu hóa khác giải quyết tắc nghẽn băng thông bộ nhớ (ví dụ: bằng cách phát trực tuyến các trọng số của mô hình).

Các tối ưu hóa khác có tính đặc hiệu cao đối với mô hình. Ví dụ: Khuếch tán ổn định đã đạt được những tiến bộ lớn về lượng VRAM cần thiết để suy luận. Tuy nhiên, một lớp tối ưu hóa khác dành riêng cho phần cứng. NVIDIA's TensorML bao gồm một số tối ưu hóa, nhưng sẽ chỉ hoạt động trên phần cứng NVIDIA. Cuối cùng nhưng không kém phần quan trọng, việc lập lịch trình cho các tác vụ AI có thể tạo ra các nút cổ chai hoặc cải tiến hiệu suất lớn. Phân bổ các mô hình cho GPU theo cách để giảm thiểu việc hoán đổi trọng số, chọn GPU tốt nhất cho một tác vụ nếu có sẵn nhiều GPU và giảm thiểu thời gian ngừng hoạt động bằng cách gộp khối lượng công việc trước là các kỹ thuật phổ biến.

Cuối cùng, tối ưu hóa mô hình vẫn là một chút nghệ thuật đen và phần lớn các công ty khởi nghiệp mà chúng tôi nói chuyện đều làm việc với các bên thứ ba để trợ giúp một số khía cạnh phần mềm này. Thông thường, đây không phải là nhà cung cấp MLops truyền thống mà thay vào đó là các công ty chuyên tối ưu hóa cho các mô hình tổng quát cụ thể (ví dụ: OctoML hoặc SegMind).

Chi phí cơ sở hạ tầng AI sẽ phát triển như thế nào?

Trong vài năm qua, chúng ta đã chứng kiến ​​sự tăng trưởng theo cấp số nhân của cả hai tham số mô hìnhSức mạnh tính toán của GPU. Không rõ liệu xu hướng này có tiếp tục hay không.

Ngày nay, người ta chấp nhận rộng rãi rằng có một mối quan hệ giữa số lượng tham số tối ưu và kích thước của tập dữ liệu huấn luyện (xem Deepmind's sóc ở nam mỹ làm việc để biết thêm về điều này). Các LLM tốt nhất hiện nay được đào tạo về Thu thập thông tin chung (tập hợp 4.5 tỷ trang web hoặc khoảng 10% tổng số trang web đang tồn tại). Kho dữ liệu đào tạo cũng bao gồm Wikipedia và một bộ sưu tập sách, mặc dù cả hai đều nhỏ hơn nhiều (tổng số sách hiện có được ước tính là chỉ khoảng 100 triệu). Các ý tưởng khác, chẳng hạn như sao chép nội dung video hoặc âm thanh, đã được đề xuất, nhưng không có ý tưởng nào trong số này có kích thước gần bằng. Không rõ liệu chúng ta có thể có được tập dữ liệu huấn luyện không tổng hợp lớn hơn gấp 10 lần so với những gì đã được sử dụng hay không.

Hiệu suất GPU sẽ tiếp tục tăng nhưng với tốc độ chậm hơn. Định luật Moore vẫn còn nguyên vẹn cho phép có nhiều bóng bán dẫn hơn và nhiều lõi hơn, nhưng nguồn điện và I/O đang trở thành những yếu tố hạn chế. Ngoài ra, nhiều kết quả thấp cho việc tối ưu hóa đã được chọn. 

Tuy nhiên, điều này không có nghĩa là chúng tôi không kỳ vọng nhu cầu về năng lực tính toán sẽ tăng lên. Ngay cả khi tốc độ tăng trưởng của mô hình và thiết bị đào tạo chậm lại, thì sự phát triển của ngành AI và số lượng nhà phát triển AI ngày càng tăng sẽ thúc đẩy nhu cầu về GPU nhiều hơn và nhanh hơn. Một phần lớn công suất GPU được các nhà phát triển sử dụng để thử nghiệm trong giai đoạn phát triển của một mô hình và nhu cầu này quy mô tuyến tính theo số lượng nhân viên. Không có dấu hiệu nào cho thấy tình trạng thiếu GPU hiện nay sẽ giảm bớt trong tương lai gần.

Liệu chi phí cơ sở hạ tầng AI tiếp tục cao này có tạo ra một con hào khiến những người mới tham gia không thể bắt kịp những người đương nhiệm được tài trợ tốt không? Chúng tôi chưa biết câu trả lời cho câu hỏi này. Chi phí đào tạo của một LLM có thể giống như một con hào ngày nay, nhưng các mô hình nguồn mở như Alpaca hoặc Stable Diffusion đã chỉ ra rằng những thị trường này vẫn còn sớm và có thể thay đổi nhanh chóng. Theo thời gian, cấu trúc chi phí của ngăn xếp phần mềm AI mới nổi (xem bài viết trước của chúng tôi) có thể bắt đầu trông giống ngành công nghiệp phần mềm truyền thống hơn. 

Cuối cùng, đây sẽ là một điều tốt: Lịch sử đã chỉ ra rằng điều này dẫn đến hệ sinh thái sôi động với sự đổi mới nhanh chóng và rất nhiều cơ hội cho các nhà sáng lập doanh nghiệp.

Cảm ơn Moin Nadeem và Shangda Xu đã đóng góp ý kiến ​​và hướng dẫn trong quá trình viết.


¹ Trực giác ở đây là đối với bất kỳ tham số nào (tức là trọng số) trong mạng thần kinh, thao tác suy luận (tức là chuyển tiếp) cần thực hiện hai thao tác dấu phẩy động cho mỗi tham số. Đầu tiên, nó nhân giá trị của nút đầu vào của mạng thần kinh với tham số. Thứ hai, nó thêm kết quả của phép tính tổng vào nút đầu ra của mạng thần kinh. Các tham số trong bộ mã hóa được sử dụng một lần cho mỗi mã thông báo đầu vào và các tham số trong bộ giải mã được sử dụng một lần cho mỗi mã thông báo đầu ra. Nếu chúng ta giả sử một mô hình có p tham số và đầu vào và đầu ra đều có độ dài n thẻ, tổng số phép toán dấu phẩy động là n*p. Có nhiều hoạt động khác (ví dụ: chuẩn hóa, mã hóa/giải mã nhúng) xảy ra trong một mô hình, nhưng thời gian cần thiết để thực hiện chúng là nhỏ so với. 

² Việc học trước tiên yêu cầu chuyển tiếp qua máy biến áp như được mô tả ở trên, tiếp theo là chuyển tiếp ngược, phát sinh bốn thao tác bổ sung cho mỗi tham số để tính toán độ dốc và điều chỉnh trọng số. Lưu ý rằng việc tính toán độ dốc yêu cầu bảo toàn các giá trị nút được tính toán từ chuyển tiếp. Đối với GPT-3, Mô hình ngôn ngữ ít người học thảo luận về chi phí đào tạo.

* * *

Các quan điểm được trình bày ở đây là quan điểm của từng nhân viên AH Capital Management, LLC (“a16z”) được trích dẫn và không phải là quan điểm của a16z hoặc các chi nhánh của nó. Một số thông tin trong đây đã được lấy từ các nguồn của bên thứ ba, bao gồm từ các công ty danh mục đầu tư của các quỹ do a16z quản lý. Mặc dù được lấy từ các nguồn được cho là đáng tin cậy, a16z đã không xác minh độc lập thông tin đó và không đưa ra tuyên bố nào về tính chính xác lâu dài của thông tin hoặc tính thích hợp của nó đối với một tình huống nhất định. Ngoài ra, nội dung này có thể bao gồm các quảng cáo của bên thứ ba; a16z đã không xem xét các quảng cáo đó và không xác nhận bất kỳ nội dung quảng cáo nào có trong đó.

Nội dung này chỉ được cung cấp cho mục đích thông tin và không được dựa vào như lời khuyên về pháp lý, kinh doanh, đầu tư hoặc thuế. Bạn nên tham khảo ý kiến ​​của các cố vấn của riêng mình về những vấn đề đó. Các tham chiếu đến bất kỳ chứng khoán hoặc tài sản kỹ thuật số nào chỉ dành cho mục đích minh họa và không cấu thành khuyến nghị đầu tư hoặc đề nghị cung cấp dịch vụ tư vấn đầu tư. Hơn nữa, nội dung này không hướng đến cũng như không nhằm mục đích sử dụng cho bất kỳ nhà đầu tư hoặc nhà đầu tư tiềm năng nào và không được dựa vào bất kỳ trường hợp nào khi đưa ra quyết định đầu tư vào bất kỳ quỹ nào do a16z quản lý. (Đề nghị đầu tư vào quỹ a16z sẽ chỉ được thực hiện bởi bản ghi nhớ phát hành riêng lẻ, thỏa thuận đăng ký và các tài liệu liên quan khác về bất kỳ quỹ nào như vậy và phải được đọc toàn bộ.) Bất kỳ khoản đầu tư hoặc công ty danh mục đầu tư nào được đề cập, đề cập đến, hoặc được mô tả không phải là đại diện cho tất cả các khoản đầu tư vào xe do a16z quản lý và không thể đảm bảo rằng các khoản đầu tư sẽ sinh lời hoặc các khoản đầu tư khác được thực hiện trong tương lai sẽ có các đặc điểm hoặc kết quả tương tự. Danh sách các khoản đầu tư được thực hiện bởi các quỹ do Andreessen Horowitz quản lý (không bao gồm các khoản đầu tư mà tổ chức phát hành không cho phép a16z tiết lộ công khai cũng như các khoản đầu tư không thông báo vào tài sản kỹ thuật số được giao dịch công khai) có tại https://a16z.com/investments /.

Các biểu đồ và đồ thị được cung cấp bên trong chỉ nhằm mục đích cung cấp thông tin và không nên dựa vào khi đưa ra bất kỳ quyết định đầu tư nào. Hiệu suất trong quá khứ không cho thấy kết quả trong tương lai. Nội dung chỉ nói kể từ ngày được chỉ định. Mọi dự đoán, ước tính, dự báo, mục tiêu, triển vọng và / hoặc ý kiến ​​thể hiện trong các tài liệu này có thể thay đổi mà không cần báo trước và có thể khác hoặc trái ngược với ý kiến ​​của người khác. Vui lòng xem https://a16z.com/disclosures để biết thêm thông tin quan trọng.

Dấu thời gian:

Thêm từ Andreessen Horowitz