Jak uruchomić LLM lokalnie na komputerze w mniej niż 10 minut

Opublikowane ponownie przez Plato

Obserwuje: 0

Ręce na Przy całej tej rozmowie o ogromnych klastrach szkoleniowych uczenia maszynowego i komputerach wyposażonych w sztuczną inteligencję wybaczono by Ci myślenie, że potrzebujesz specjalnego sprzętu do zabawy z dużymi modelami językowymi generującymi tekst i kod (LLM) w domu.

W rzeczywistości istnieje duża szansa, że jest to komputer stacjonarny, na którym to czytasz więcej niż zdolny prowadzenia szerokiej gamy LLM, w tym botów chatowych, takich jak Mistral, lub generatorów kodu źródłowego, takich jak Codellama.

W rzeczywistości dzięki ogólnodostępnym narzędziom, takim jak Ollama, LM Suite i Llama.cpp, stosunkowo łatwo jest uruchomić te modele w systemie.

W trosce o prostotę i kompatybilność między platformami będziemy się temu przyglądać Ollama, który po zainstalowaniu działa mniej więcej tak samo w systemach Windows, Linux i Mac.

Słowo na temat wydajności, kompatybilności i obsługi procesorów graficznych AMD:

Ogólnie rzecz biorąc, duże modele językowe, takie jak Mistral czy Llama 2, działają najlepiej z dedykowanymi akceleratorami. Istnieje powód, dla którego operatorzy centrów danych kupują i wdrażają procesory graficzne w klastrach liczących 10,000 XNUMX lub więcej procesorów, chociaż będziesz potrzebować najmniejszej części takich zasobów.

Ollama oferuje natywną obsługę procesorów graficznych Nvidia i Apple z serii M. Karty graficzne Nvidia z co najmniej 4 GB pamięci powinny działać. Testowaliśmy z 12 GB RTX 3060, chociaż zalecamy co najmniej 16 GB pamięci w przypadku komputerów Mac z serii M.

Użytkownicy Linuksa będą chcieli najpierw zainstalować najnowszy, zastrzeżony sterownik Nvidii i prawdopodobnie pliki binarne CUDA. Jest więcej informacji na temat konfigurowania tego tutaj.

Jeśli korzystasz z karty graficznej Radeon z serii 7000 lub nowszej, AMD ma pełny przewodnik na temat uruchamiania LLM w Twoim systemie, który możesz znaleźć tutaj.

Dobra wiadomość jest taka, że jeśli nie masz obsługiwanej karty graficznej, Ollama nadal będzie działać na procesorze zgodnym z AVX2, choć znacznie wolniejszym niż w przypadku obsługiwanego procesora graficznego. Chociaż zalecane jest 16 GB pamięci, być może uda się zaoszczędzić mniej, wybierając model kwantyzowany — więcej o tym za chwilę.

Instalacja Ollamy

Instalacja Ollama jest dość prosta, niezależnie od podstawowego systemu operacyjnego. To open source, które możesz sprawdzić tutaj.

Jeśli używasz systemu Windows lub Mac OS, przejdź tutaj ollama.com oraz pobierz i zainstaluj go jak każdą inną aplikację.

Dla tych, którzy korzystają z Linuksa, jest to jeszcze prostsze: po prostu uruchom tę jedną linijkę — znajdziesz instrukcje dotyczące ręcznej instalacji tutaj, jeśli chcesz – i ruszaj na wyścigi.

curl -fsSL https://ollama.com/install.sh | cii

Instalowanie pierwszego modelu

Niezależnie od systemu operacyjnego, praca z Ollamą przebiega w dużej mierze tak samo. Ollama zaleca zacząć od Lama 2 7B, sieć neuronowa oparta na transformatorach o siedmiu miliardach parametrów, ale w tym przewodniku przyjrzymy się Mistrala 7B ponieważ jest całkiem zdolny i był źródłem niektórych kontrowersja w ostatnich tygodniach.

Zacznij od otwarcia programu PowerShell lub emulatora terminala i wykonania następującego polecenia, aby pobrać i uruchomić model w trybie interaktywnego czatu.

ollama biegnie mistral

Po pobraniu zostaniesz przeniesiony do okna czatu, w którym możesz rozpocząć interakcję z modelem, podobnie jak ChatGPT, Copilot lub Google Gemini.

LLM, takie jak Mistral 7B, działają zaskakująco dobrze na tym 2-letnim MacBooku Pro M1 Max – kliknij, aby powiększyć

Jeśli nic nie otrzymasz, być może będziesz musiał najpierw uruchomić Ollamę z menu Start w systemie Windows lub z folderu aplikacji na komputerze Mac.

Modele, znaczniki i kwantyzacja

Mistal 7B to tylko jedna z kilku LLM, w tym innych wersji modelu, które są dostępne za pomocą Ollama. Możesz znaleźć pełną listę wraz z instrukcjami dotyczącymi uruchamiania każdego z nich tutaj, ale ogólna składnia wygląda mniej więcej tak:

ollama run nazwa-modelu:tag-modelu

Tagi modelu służą do określenia wersji modelu, którą chcesz pobrać. Jeśli to pominiesz, Ollama założy, że chcesz najnowszą wersję. Z naszego doświadczenia wynika, że jest to zazwyczaj 4-bitowa, skwantowana wersja modelu.

Jeśli na przykład chciałbyś uruchomić Meta's Llama2 7B w FP16, wyglądałoby to tak:

ollama uruchom llama2:7b-chat-fp16

Zanim jednak tego spróbujesz, możesz dokładnie sprawdzić, czy w systemie jest wystarczająca ilość pamięci. W naszym poprzednim przykładzie z Mistralem stosowaliśmy 4-bitową kwantyzację, co oznacza, że model potrzebuje pół gigabajta pamięci na każdy miliard parametrów. I nie zapomnij: ma siedem miliardów parametrów.

Kwantyzacja to technika stosowana do kompresji modelu poprzez konwersję jego wag i aktywacji na niższą precyzję. Dzięki temu Mistral 7B może działać na 4 GB procesora graficznego lub systemowej pamięci RAM, zwykle przy minimalnym poświęceniu jakości sygnału wyjściowego, choć przebieg może się różnić.

Przykład Lamy 2 7B użyty powyżej działa z połową precyzji (FP16). W rezultacie potrzebne byłoby 2 GB pamięci na miliard parametrów, co w tym przypadku daje nieco ponad 14 GB. Jeśli nie masz nowszego procesora graficznego z 16 GB lub więcej pamięci vRAM, możesz nie mieć wystarczających zasobów, aby uruchomić model z taką precyzją.

Zarządzanie Ollamą

Zarządzanie, aktualizowanie i usuwanie zainstalowanych modeli przy użyciu narzędzia Ollama powinno być jak w domu dla każdego, kto korzystał wcześniej z takich rozwiązań jak Docker CLI.

W tej sekcji omówimy kilka typowych zadań, które warto wykonać.

Aby uzyskać listę zainstalowanych modeli, uruchom:

lista ollamów

Aby usunąć model, uruchomiłbyś:

ollama rm nazwa-modelu:tag-modelu

Aby pobrać lub zaktualizować istniejący model, uruchom:

ollama pull nazwa-modelu:tag-modelu

Dodatkowe polecenia Ollama można znaleźć, uruchamiając:

ollama - pomocy

Jak zauważyliśmy wcześniej, Ollama to tylko jeden z wielu frameworków do uruchamiania i testowania lokalnych LLM. Jeśli wpadniesz w kłopoty z tym, możesz znaleźć więcej szczęścia w innych. I nie, sztuczna inteligencja tego nie napisała.

Rejestr ma na celu przybliżenie Ci wykorzystania LLM w najbliższej przyszłości, więc pamiętaj, aby podzielić się swoimi palącymi pytaniami dotyczącymi komputera AI w sekcji komentarzy. I nie zapomnij o bezpieczeństwo łańcucha dostaw. ®

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/

Znak czasu: 17 marca 2024 r.

Znak czasu: Luty 22, 2024

Opublikowane ponownie przez Plato

Sztuczna inteligencja do obrony Waszyngtonu przed zagrożeniami powietrznymi

Baidu bagatelizuje wpływ amerykańskich zakazów chipowych

Think Tank ostrzega, że Korea Północna wykorzystuje chmury do walki ze sztuczną inteligencją

d-Matrix zdobywa 110 mln dolarów, podkopując Nvidię w dziedzinie sztucznej inteligencji

Waferscale, poznaj skalę atomową: Wujek Sam testuje chipy Cerebras w symulacjach broni nuklearnej

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto