Jak uruchomić LLM lokalnie na komputerze w mniej niż 10 minut

Jak uruchomić LLM lokalnie na komputerze w mniej niż 10 minut

Ręce na Przy całej tej rozmowie o ogromnych klastrach szkoleniowych uczenia maszynowego i komputerach wyposażonych w sztuczną inteligencję wybaczono by Ci myślenie, że potrzebujesz specjalnego sprzętu do zabawy z dużymi modelami językowymi generującymi tekst i kod (LLM) w domu.

W rzeczywistości istnieje duża szansa, że ​​jest to komputer stacjonarny, na którym to czytasz więcej niż zdolny prowadzenia szerokiej gamy LLM, w tym botów chatowych, takich jak Mistral, lub generatorów kodu źródłowego, takich jak Codellama.

W rzeczywistości dzięki ogólnodostępnym narzędziom, takim jak Ollama, LM Suite i Llama.cpp, stosunkowo łatwo jest uruchomić te modele w systemie.

W trosce o prostotę i kompatybilność między platformami będziemy się temu przyglądać Ollama, który po zainstalowaniu działa mniej więcej tak samo w systemach Windows, Linux i Mac.

Słowo na temat wydajności, kompatybilności i obsługi procesorów graficznych AMD:

Ogólnie rzecz biorąc, duże modele językowe, takie jak Mistral czy Llama 2, działają najlepiej z dedykowanymi akceleratorami. Istnieje powód, dla którego operatorzy centrów danych kupują i wdrażają procesory graficzne w klastrach liczących 10,000 XNUMX lub więcej procesorów, chociaż będziesz potrzebować najmniejszej części takich zasobów.

Ollama oferuje natywną obsługę procesorów graficznych Nvidia i Apple z serii M. Karty graficzne Nvidia z co najmniej 4 GB pamięci powinny działać. Testowaliśmy z 12 GB RTX 3060, chociaż zalecamy co najmniej 16 GB pamięci w przypadku komputerów Mac z serii M.

Użytkownicy Linuksa będą chcieli najpierw zainstalować najnowszy, zastrzeżony sterownik Nvidii i prawdopodobnie pliki binarne CUDA. Jest więcej informacji na temat konfigurowania tego tutaj.

Jeśli korzystasz z karty graficznej Radeon z serii 7000 lub nowszej, AMD ma pełny przewodnik na temat uruchamiania LLM w Twoim systemie, który możesz znaleźć tutaj.

Dobra wiadomość jest taka, że ​​jeśli nie masz obsługiwanej karty graficznej, Ollama nadal będzie działać na procesorze zgodnym z AVX2, choć znacznie wolniejszym niż w przypadku obsługiwanego procesora graficznego. Chociaż zalecane jest 16 GB pamięci, być może uda się zaoszczędzić mniej, wybierając model kwantyzowany — więcej o tym za chwilę.

Instalacja Ollamy

Instalacja Ollama jest dość prosta, niezależnie od podstawowego systemu operacyjnego. To open source, które możesz sprawdzić tutaj.

Jeśli używasz systemu Windows lub Mac OS, przejdź tutaj ollama.com oraz pobierz i zainstaluj go jak każdą inną aplikację.

Dla tych, którzy korzystają z Linuksa, jest to jeszcze prostsze: po prostu uruchom tę jedną linijkę — znajdziesz instrukcje dotyczące ręcznej instalacji tutaj, jeśli chcesz – i ruszaj na wyścigi.

curl -fsSL https://ollama.com/install.sh | cii

Instalowanie pierwszego modelu

Niezależnie od systemu operacyjnego, praca z Ollamą przebiega w dużej mierze tak samo. Ollama zaleca zacząć od Lama 2 7B, sieć neuronowa oparta na transformatorach o siedmiu miliardach parametrów, ale w tym przewodniku przyjrzymy się Mistrala 7B ponieważ jest całkiem zdolny i był źródłem niektórych kontrowersja w ostatnich tygodniach.

Zacznij od otwarcia programu PowerShell lub emulatora terminala i wykonania następującego polecenia, aby pobrać i uruchomić model w trybie interaktywnego czatu.

ollama biegnie mistral

Po pobraniu zostaniesz przeniesiony do okna czatu, w którym możesz rozpocząć interakcję z modelem, podobnie jak ChatGPT, Copilot lub Google Gemini.

LLM, takie jak Mistral 7B, działają zaskakująco dobrze na tym 2-letnim MacBooku Pro M1 Max

LLM, takie jak Mistral 7B, działają zaskakująco dobrze na tym 2-letnim MacBooku Pro M1 Max – kliknij, aby powiększyć

Jeśli nic nie otrzymasz, być może będziesz musiał najpierw uruchomić Ollamę z menu Start w systemie Windows lub z folderu aplikacji na komputerze Mac.

Modele, znaczniki i kwantyzacja

Mistal 7B to tylko jedna z kilku LLM, w tym innych wersji modelu, które są dostępne za pomocą Ollama. Możesz znaleźć pełną listę wraz z instrukcjami dotyczącymi uruchamiania każdego z nich tutaj, ale ogólna składnia wygląda mniej więcej tak:

ollama run nazwa-modelu:tag-modelu

Tagi modelu służą do określenia wersji modelu, którą chcesz pobrać. Jeśli to pominiesz, Ollama założy, że chcesz najnowszą wersję. Z naszego doświadczenia wynika, że ​​jest to zazwyczaj 4-bitowa, skwantowana wersja modelu.

Jeśli na przykład chciałbyś uruchomić Meta's Llama2 7B w FP16, wyglądałoby to tak:

ollama uruchom llama2:7b-chat-fp16

Zanim jednak tego spróbujesz, możesz dokładnie sprawdzić, czy w systemie jest wystarczająca ilość pamięci. W naszym poprzednim przykładzie z Mistralem stosowaliśmy 4-bitową kwantyzację, co oznacza, że ​​model potrzebuje pół gigabajta pamięci na każdy miliard parametrów. I nie zapomnij: ma siedem miliardów parametrów.

Kwantyzacja to technika stosowana do kompresji modelu poprzez konwersję jego wag i aktywacji na niższą precyzję. Dzięki temu Mistral 7B może działać na 4 GB procesora graficznego lub systemowej pamięci RAM, zwykle przy minimalnym poświęceniu jakości sygnału wyjściowego, choć przebieg może się różnić.

Przykład Lamy 2 7B użyty powyżej działa z połową precyzji (FP16). W rezultacie potrzebne byłoby 2 GB pamięci na miliard parametrów, co w tym przypadku daje nieco ponad 14 GB. Jeśli nie masz nowszego procesora graficznego z 16 GB lub więcej pamięci vRAM, możesz nie mieć wystarczających zasobów, aby uruchomić model z taką precyzją.

Zarządzanie Ollamą

Zarządzanie, aktualizowanie i usuwanie zainstalowanych modeli przy użyciu narzędzia Ollama powinno być jak w domu dla każdego, kto korzystał wcześniej z takich rozwiązań jak Docker CLI.

W tej sekcji omówimy kilka typowych zadań, które warto wykonać.

Aby uzyskać listę zainstalowanych modeli, uruchom:

lista ollamów

Aby usunąć model, uruchomiłbyś:

ollama rm nazwa-modelu:tag-modelu

Aby pobrać lub zaktualizować istniejący model, uruchom:

ollama pull nazwa-modelu:tag-modelu

Dodatkowe polecenia Ollama można znaleźć, uruchamiając:

ollama - pomocy

Jak zauważyliśmy wcześniej, Ollama to tylko jeden z wielu frameworków do uruchamiania i testowania lokalnych LLM. Jeśli wpadniesz w kłopoty z tym, możesz znaleźć więcej szczęścia w innych. I nie, sztuczna inteligencja tego nie napisała.

Rejestr ma na celu przybliżenie Ci wykorzystania LLM w najbliższej przyszłości, więc pamiętaj, aby podzielić się swoimi palącymi pytaniami dotyczącymi komputera AI w sekcji komentarzy. I nie zapomnij o bezpieczeństwo łańcucha dostaw. ®

Znak czasu:

Więcej z Rejestr