Dla przeciętnego sklepu AI rzadkie modele i tania pamięć wygra PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Dla przeciętnego sklepu AI wygrają rzadkie modele i tania pamięć

Jakkolwiek przekonujące mogą być wiodące modele językowe na dużą skalę, faktem jest, że tylko największe firmy mają zasoby, aby faktycznie wdrażać i szkolić je na znaczącą skalę.

Dla przedsiębiorstw, które chcą wykorzystać sztuczną inteligencję w celu uzyskania przewagi konkurencyjnej, tańsza, oszczędna alternatywa może być lepszym rozwiązaniem, zwłaszcza jeśli można ją dostosować do konkretnych branż lub domen.

To właśnie tam pojawia się zestaw start-upów AI, które mają nadzieję wykroić niszę: budując rzadkie, dostosowane modele, które może nie są tak potężne, jak GPT-3, są wystarczająco dobre w zastosowaniach korporacyjnych i działają na sprzęcie, który porzuca kosztowną pamięć o wysokiej przepustowości (HBM) na potrzeby typowych pamięci DDR.

Jednym z takich przykładów jest niemiecki startup AI Aleph Alpha. Założona w 2019 roku firma z siedzibą w Heidelbergu w Niemczech Świetlny model języka naturalnego oferuje wiele takich samych funkcji przyciągających nagłówki jak GPT-3 OpenAI: copywriting, klasyfikacja, podsumowania i tłumaczenie, żeby wymienić tylko kilka.

Modelowy start-up połączył siły z Graphcore w celu zbadania i opracowania rzadkich modeli językowych na Brytyjczykach sprzęt chipmakera.

„IPU firmy Graphcore stanowią okazję do oceny zaawansowanych podejść technologicznych, takich jak warunkowa rzadkość”, powiedział Jonas Andrulius, dyrektor generalny Aleph Alpha. oświadczenie. „Architektury te bez wątpienia odegrają rolę w przyszłych badaniach Aleph Alpha”.

Graphcore stawia na rzadkość

Modele rozrzedzone warunkowo — czasami nazywane mieszanką ekspertów lub modeli trasowanych — przetwarzają dane tylko w odniesieniu do odpowiednich parametrów, co może znacznie zmniejszyć zasoby obliczeniowe potrzebne do ich uruchomienia.

Na przykład, jeśli model językowy został przeszkolony we wszystkich językach w Internecie, a następnie zadano pytanie w języku rosyjskim, nie miałoby sensu przepuszczanie tych danych przez cały model, tylko parametry związane z językiem rosyjskim, wyjaśnił CTO Graphcore Simon Knowles, w rozmowie z Rejestr.

„To całkowicie oczywiste. Tak działa twój mózg i tak powinna działać sztuczna inteligencja” – powiedział. „Mówiłem to wiele razy, ale jeśli sztuczna inteligencja może robić wiele rzeczy, nie musi mieć dostępu do całej swojej wiedzy, aby zrobić jedną rzecz”.

Knowles, której firma buduje akceleratory dostosowane do tego rodzaju modeli, nie dziwi, że sądzi, że są one przyszłością sztucznej inteligencji. „Byłbym zdziwiony, gdyby do przyszłego roku ktokolwiek budował modele w gęstym języku” – dodał.

HBM-2 drogi? Zamiast tego użyj pamięci podręcznej w DDR

Rzadkie modele językowe nie są pozbawione wyzwań. Jedna z najpilniejszych, zdaniem Knowlesa, dotyczy pamięci. HBM stosowany w wysokiej klasy procesorach graficznych w celu osiągnięcia wymaganej przepustowości i pojemności wymaganej przez te modele jest drogi i podłączony do jeszcze droższego akceleratora.

Nie jest to problem w przypadku modeli gęstojęzycznych, w których mogą być potrzebne wszystkie te obliczenia i pamięć, ale stanowi to problem w przypadku rzadkich modeli, które faworyzują pamięć nad obliczeniami, wyjaśnił.

Technologia połączeń międzysieciowych, taka jak NVLink firmy Nvidia, może być używana do łączenia pamięci w wielu procesorach graficznych, ale jeśli model nie wymaga całej tej mocy obliczeniowej, procesory graficzne mogą pozostać bezczynne. „To naprawdę drogi sposób na zakup pamięci” — powiedział Knowles.

Akceleratory Graphcore próbują ominąć to wyzwanie, zapożyczając technikę tak starą jak samo obliczenie: buforowanie. Każdy IPU ma stosunkowo dużą pamięć podręczną SRAM — 1 GB — aby zaspokoić wymagania dotyczące przepustowości tych modeli, podczas gdy surową pojemność uzyskuje się przy użyciu dużych pul niedrogiej pamięci DDR4.

„Im więcej masz SRAM, tym mniej potrzebujesz przepustowości DRAM, a to pozwala nam nie używać HBM”, powiedział Knowles.

Oddzielenie pamięci od akceleratora jest znacznie tańsze — koszt kilku standardowych modułów DDR — dla przedsiębiorstw w celu obsługi większych modeli sztucznej inteligencji.

Oprócz obsługi tańszej pamięci, Knowles twierdzi, że IPU firmy mają również przewagę architektoniczną nad procesorami graficznymi, przynajmniej jeśli chodzi o rzadkie modele.

Zamiast działać na małej liczbie dużych mnożników macierzy — jak w procesorze tensorowym — chipy Graphcore zawierają dużą liczbę mniejszych jednostek matematycznych macierzy, które mogą niezależnie adresować pamięć.

Zapewnia to większą szczegółowość modeli rzadkich, w których „potrzebujesz swobody pobierania odpowiednich podzbiorów, a im mniejszą jednostkę jesteś zobowiązany pobrać, tym więcej masz swobody” – wyjaśnił.

Werdykt wciąż nieaktualny

Podsumowując, Knowles twierdzi, że takie podejście umożliwia jego IPU trenowanie dużych modeli AI/ML z setkami miliardów, a nawet bilionów parametrów, przy znacznie niższych kosztach w porównaniu z GPU.

Jednak rynek korporacyjnej sztucznej inteligencji jest wciąż w powijakach, a Graphcore zmaga się w tej dziedzinie z silną konkurencją ze strony większych, bardziej ugruntowanych rywali.

Tak więc, chociaż rozwój na bardzo rzadkich, oszczędnych modelach językowych dla sztucznej inteligencji prawdopodobnie nie zmniejszy się w najbliższym czasie, okaże się, czy będą to IPU Graphcore, czy akcelerator kogoś innego, który ostatecznie zasili korporacyjne obciążenia AI. ®

Znak czasu:

Więcej z Rejestr