Đối với cửa hàng AI trung bình, mô hình thưa thớt và bộ nhớ rẻ sẽ giành được PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Đối với cửa hàng AI trung bình, mô hình thưa thớt và bộ nhớ rẻ sẽ giành chiến thắng

Có thể hấp dẫn như các mô hình ngôn ngữ quy mô lớn hàng đầu, thực tế vẫn là chỉ những công ty lớn nhất mới có đủ nguồn lực để thực sự triển khai và đào tạo chúng ở quy mô có ý nghĩa.

Đối với các doanh nghiệp mong muốn tận dụng AI để tạo lợi thế cạnh tranh, một giải pháp thay thế rẻ hơn, tiết kiệm hơn có thể phù hợp hơn, đặc biệt nếu nó có thể được điều chỉnh cho các ngành hoặc lĩnh vực cụ thể.

Đó là nơi một nhóm các công ty khởi nghiệp AI mới nổi hy vọng tạo ra một thị trường ngách: bằng cách xây dựng các mô hình thưa thớt, phù hợp, có thể không mạnh bằng GPT-3, đủ tốt cho các trường hợp sử dụng doanh nghiệp và chạy trên phần cứng loại bỏ bộ nhớ băng thông cao (HBM) đắt tiền cho DDR hàng hóa.

Công ty khởi nghiệp AI của Đức, Aleph Alpha là một trong những ví dụ như vậy. Được thành lập vào năm 2019, Heidelberg, công ty có trụ sở tại Đức chói lọi mô hình ngôn ngữ tự nhiên tự hào có nhiều tính năng thu hút tiêu đề tương tự như GPT-3 của OpenAI: copywriting, phân loại, tóm tắt và dịch thuật, và một vài tính năng.

Công ty khởi nghiệp mô hình đã hợp tác với Graphcore để khám phá và phát triển các mô hình ngôn ngữ thưa thớt trên tiếng Anh phần cứng của nhà sản xuất chip.

“Các IPU của Graphcore tạo cơ hội để đánh giá các phương pháp tiếp cận công nghệ tiên tiến như sự thưa thớt có điều kiện,” Giám đốc điều hành của Aleph Alpha, Jonas Andrulius cho biết trong một tuyên bố. “Những kiến ​​trúc này chắc chắn sẽ đóng một vai trò nào đó trong nghiên cứu tương lai của Aleph Alpha.”

Graphcore đặt cược lớn vào sự thưa thớt

Các mô hình thưa thớt có điều kiện - đôi khi được gọi là hỗn hợp các chuyên gia hoặc mô hình định tuyến - chỉ xử lý dữ liệu dựa trên các tham số có thể áp dụng, điều gì đó có thể làm giảm đáng kể tài nguyên máy tính cần thiết để chạy chúng.

Ví dụ: nếu một mô hình ngôn ngữ được đào tạo bằng tất cả các ngôn ngữ trên internet và sau đó được hỏi một câu hỏi bằng tiếng Nga, thì sẽ không hợp lý nếu chạy dữ liệu đó qua toàn bộ mô hình, chỉ các tham số liên quan đến tiếng Nga, giải thích về Graphcore CTO Simon Knowles, trong một cuộc phỏng vấn với Đăng ký.

“Nó hoàn toàn hiển nhiên. Đây là cách bộ não của bạn hoạt động và cũng là cách AI phải hoạt động, ”ông nói. “Tôi đã nói điều này nhiều lần, nhưng nếu một AI có thể làm nhiều việc, nó không cần phải truy cập tất cả kiến ​​thức của mình để làm một việc.”

Knowles, công ty của người xây dựng các máy gia tốc phù hợp với các loại mô hình này, không ngạc nhiên khi tin rằng chúng là tương lai của AI. “Tôi sẽ ngạc nhiên nếu vào năm tới, có ai đó đang xây dựng các mô hình ngôn ngữ dày đặc,” anh nói thêm.

HBM-2 đắt tiền? Bộ nhớ đệm trên DDR thay thế

Các mô hình ngôn ngữ thưa thớt không phải là không có thách thức của chúng. Theo Knowles, một trong những điều cấp bách nhất liên quan đến bộ nhớ. HBM được sử dụng trong các GPU cao cấp để đạt được băng thông và dung lượng cần thiết theo yêu cầu của các mô hình này là đắt tiền và được gắn với một bộ tăng tốc thậm chí còn đắt hơn.

Đây không phải là vấn đề đối với các mô hình ngôn ngữ dày đặc, nơi bạn có thể cần tất cả máy tính và bộ nhớ đó, nhưng nó đặt ra một vấn đề đối với các mô hình thưa thớt, vốn ưu tiên bộ nhớ hơn máy tính, ông giải thích.

Công nghệ kết nối, như NVLink của Nvidia, có thể được sử dụng để gộp bộ nhớ trên nhiều GPU, nhưng nếu mô hình không yêu cầu tất cả các tính toán đó, các GPU có thể được để ở chế độ chờ. "Đó là một cách thực sự tốn kém để mua bộ nhớ," Knowles nói.

Các công cụ gia tốc của Graphcore cố gắng vượt qua thách thức này bằng cách mượn một kỹ thuật cũ như chính máy tính: bộ nhớ đệm. Mỗi IPU có bộ nhớ đệm SRAM tương đối lớn - 1GB - để đáp ứng yêu cầu băng thông của các mô hình này, trong khi dung lượng thô đạt được bằng cách sử dụng nhóm lớn bộ nhớ DDR4 rẻ tiền.

“Bạn càng có nhiều SRAM thì bạn càng cần ít băng thông DRAM hơn và đây là điều cho phép chúng tôi không sử dụng HBM,” Knowles nói.

Bằng cách tách bộ nhớ khỏi bộ tăng tốc, việc hỗ trợ các mô hình AI lớn hơn sẽ ít tốn kém hơn nhiều - chi phí của một vài mô-đun DDR hàng hóa - để hỗ trợ các mô hình AI lớn hơn.

Ngoài việc hỗ trợ bộ nhớ rẻ hơn, Knowles tuyên bố IPU của công ty cũng có lợi thế về kiến ​​trúc so với GPU, ít nhất là khi nói đến các mô hình thưa thớt.

Thay vì chạy trên một số lượng nhỏ các nhân ma trận lớn - giống như bạn tìm thấy trong một đơn vị xử lý tensor - các chip của Graphcore có một số lượng lớn các đơn vị toán học ma trận nhỏ hơn có thể giải quyết bộ nhớ một cách độc lập.

Điều này cung cấp độ chi tiết cao hơn cho các mô hình thưa thớt, trong đó "bạn cần tự do tìm nạp các tập hợp con có liên quan và đơn vị bạn có nghĩa vụ tìm nạp càng nhỏ, bạn càng có nhiều tự do hơn", ông giải thích.

Bản án vẫn được ra ngoài

Tổng hợp lại, Knowles lập luận rằng cách tiếp cận này cho phép các IPU của họ đào tạo các mô hình AI / ML lớn với hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ thông số, với chi phí thấp hơn đáng kể so với GPU.

Tuy nhiên, thị trường AI dành cho doanh nghiệp vẫn còn trong giai đoạn sơ khai và Graphcore phải đối mặt với sự cạnh tranh gay gắt trong lĩnh vực này từ các đối thủ lớn hơn, lâu đời hơn.

Vì vậy, mặc dù sự phát triển trên các mô hình ngôn ngữ cực kỳ thưa thớt, tốc độ cắt cho AI khó có thể sớm giảm bớt, nhưng vẫn còn phải xem liệu đó sẽ là IPU của Graphcore hay bộ tăng tốc của người khác giúp cung cấp năng lượng cho khối lượng công việc AI của doanh nghiệp. ®

Dấu thời gian:

Thêm từ Đăng ký