Ręce na Przy całej tej rozmowie o ogromnych klastrach szkoleniowych uczenia maszynowego i komputerach wyposażonych w sztuczną inteligencję wybaczono by Ci myślenie, że potrzebujesz specjalnego sprzętu do zabawy z dużymi modelami językowymi generującymi tekst i kod (LLM) w domu.
W rzeczywistości istnieje duża szansa, że jest to komputer stacjonarny, na którym to czytasz więcej niż zdolny prowadzenia szerokiej gamy LLM, w tym botów chatowych, takich jak Mistral, lub generatorów kodu źródłowego, takich jak Codellama.
W rzeczywistości dzięki ogólnodostępnym narzędziom, takim jak Ollama, LM Suite i Llama.cpp, stosunkowo łatwo jest uruchomić te modele w systemie.
W trosce o prostotę i kompatybilność między platformami będziemy się temu przyglądać Ollama, który po zainstalowaniu działa mniej więcej tak samo w systemach Windows, Linux i Mac.
Słowo na temat wydajności, kompatybilności i obsługi procesorów graficznych AMD:
Ogólnie rzecz biorąc, duże modele językowe, takie jak Mistral czy Llama 2, działają najlepiej z dedykowanymi akceleratorami. Istnieje powód, dla którego operatorzy centrów danych kupują i wdrażają procesory graficzne w klastrach liczących 10,000 XNUMX lub więcej procesorów, chociaż będziesz potrzebować najmniejszej części takich zasobów.
Ollama oferuje natywną obsługę procesorów graficznych Nvidia i Apple z serii M. Karty graficzne Nvidia z co najmniej 4 GB pamięci powinny działać. Testowaliśmy z 12 GB RTX 3060, chociaż zalecamy co najmniej 16 GB pamięci w przypadku komputerów Mac z serii M.
Użytkownicy Linuksa będą chcieli najpierw zainstalować najnowszy, zastrzeżony sterownik Nvidii i prawdopodobnie pliki binarne CUDA. Jest więcej informacji na temat konfigurowania tego tutaj.
Jeśli korzystasz z karty graficznej Radeon z serii 7000 lub nowszej, AMD ma pełny przewodnik na temat uruchamiania LLM w Twoim systemie, który możesz znaleźć tutaj.
Dobra wiadomość jest taka, że jeśli nie masz obsługiwanej karty graficznej, Ollama nadal będzie działać na procesorze zgodnym z AVX2, choć znacznie wolniejszym niż w przypadku obsługiwanego procesora graficznego. Chociaż zalecane jest 16 GB pamięci, być może uda się zaoszczędzić mniej, wybierając model kwantyzowany — więcej o tym za chwilę.
Instalacja Ollamy
Instalacja Ollama jest dość prosta, niezależnie od podstawowego systemu operacyjnego. To open source, które możesz sprawdzić tutaj.
Jeśli używasz systemu Windows lub Mac OS, przejdź tutaj ollama.com oraz pobierz i zainstaluj go jak każdą inną aplikację.
Dla tych, którzy korzystają z Linuksa, jest to jeszcze prostsze: po prostu uruchom tę jedną linijkę — znajdziesz instrukcje dotyczące ręcznej instalacji tutaj, jeśli chcesz – i ruszaj na wyścigi.
curl -fsSL https://ollama.com/install.sh | cii
Instalowanie pierwszego modelu
Niezależnie od systemu operacyjnego, praca z Ollamą przebiega w dużej mierze tak samo. Ollama zaleca zacząć od Lama 2 7B, sieć neuronowa oparta na transformatorach o siedmiu miliardach parametrów, ale w tym przewodniku przyjrzymy się Mistrala 7B ponieważ jest całkiem zdolny i był źródłem niektórych kontrowersja w ostatnich tygodniach.
Zacznij od otwarcia programu PowerShell lub emulatora terminala i wykonania następującego polecenia, aby pobrać i uruchomić model w trybie interaktywnego czatu.
ollama biegnie mistral
Po pobraniu zostaniesz przeniesiony do okna czatu, w którym możesz rozpocząć interakcję z modelem, podobnie jak ChatGPT, Copilot lub Google Gemini.
LLM, takie jak Mistral 7B, działają zaskakująco dobrze na tym 2-letnim MacBooku Pro M1 Max – kliknij, aby powiększyć
Jeśli nic nie otrzymasz, być może będziesz musiał najpierw uruchomić Ollamę z menu Start w systemie Windows lub z folderu aplikacji na komputerze Mac.
Modele, znaczniki i kwantyzacja
Mistal 7B to tylko jedna z kilku LLM, w tym innych wersji modelu, które są dostępne za pomocą Ollama. Możesz znaleźć pełną listę wraz z instrukcjami dotyczącymi uruchamiania każdego z nich tutaj, ale ogólna składnia wygląda mniej więcej tak:
ollama run nazwa-modelu:tag-modelu
Tagi modelu służą do określenia wersji modelu, którą chcesz pobrać. Jeśli to pominiesz, Ollama założy, że chcesz najnowszą wersję. Z naszego doświadczenia wynika, że jest to zazwyczaj 4-bitowa, skwantowana wersja modelu.
Jeśli na przykład chciałbyś uruchomić Meta's Llama2 7B w FP16, wyglądałoby to tak:
ollama uruchom llama2:7b-chat-fp16
Zanim jednak tego spróbujesz, możesz dokładnie sprawdzić, czy w systemie jest wystarczająca ilość pamięci. W naszym poprzednim przykładzie z Mistralem stosowaliśmy 4-bitową kwantyzację, co oznacza, że model potrzebuje pół gigabajta pamięci na każdy miliard parametrów. I nie zapomnij: ma siedem miliardów parametrów.
Kwantyzacja to technika stosowana do kompresji modelu poprzez konwersję jego wag i aktywacji na niższą precyzję. Dzięki temu Mistral 7B może działać na 4 GB procesora graficznego lub systemowej pamięci RAM, zwykle przy minimalnym poświęceniu jakości sygnału wyjściowego, choć przebieg może się różnić.
Przykład Lamy 2 7B użyty powyżej działa z połową precyzji (FP16). W rezultacie potrzebne byłoby 2 GB pamięci na miliard parametrów, co w tym przypadku daje nieco ponad 14 GB. Jeśli nie masz nowszego procesora graficznego z 16 GB lub więcej pamięci vRAM, możesz nie mieć wystarczających zasobów, aby uruchomić model z taką precyzją.
Zarządzanie Ollamą
Zarządzanie, aktualizowanie i usuwanie zainstalowanych modeli przy użyciu narzędzia Ollama powinno być jak w domu dla każdego, kto korzystał wcześniej z takich rozwiązań jak Docker CLI.
W tej sekcji omówimy kilka typowych zadań, które warto wykonać.
Aby uzyskać listę zainstalowanych modeli, uruchom:
lista ollamów
Aby usunąć model, uruchomiłbyś:
ollama rm nazwa-modelu:tag-modelu
Aby pobrać lub zaktualizować istniejący model, uruchom:
ollama pull nazwa-modelu:tag-modelu
Dodatkowe polecenia Ollama można znaleźć, uruchamiając:
ollama - pomocy
Jak zauważyliśmy wcześniej, Ollama to tylko jeden z wielu frameworków do uruchamiania i testowania lokalnych LLM. Jeśli wpadniesz w kłopoty z tym, możesz znaleźć więcej szczęścia w innych. I nie, sztuczna inteligencja tego nie napisała.
Rejestr ma na celu przybliżenie Ci wykorzystania LLM w najbliższej przyszłości, więc pamiętaj, aby podzielić się swoimi palącymi pytaniami dotyczącymi komputera AI w sekcji komentarzy. I nie zapomnij o bezpieczeństwo łańcucha dostaw. ®
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/
- :ma
- :Jest
- :nie
- :Gdzie
- $W GÓRĘ
- 000
- 1
- 10
- a
- Zdolny
- O nas
- powyżej
- akceleratory
- dostępny
- w poprzek
- aktywacje
- faktycznie
- AI
- Cele
- Wszystkie kategorie
- pozwala
- wzdłuż
- Chociaż
- AMD
- an
- i
- każdy
- ktoś
- wszystko
- Zastosowanie
- aplikacje
- SĄ
- AS
- założyć
- At
- dostępny
- baza
- BE
- być
- zanim
- BEST
- Miliard
- granica
- boty
- przynieść
- palenie
- ale
- Zakup
- by
- CAN
- zdolny
- karta
- walizka
- łańcuch
- szansa
- pogawędzić
- ChatGPT
- ZOBACZ
- Cli
- kliknij
- CO
- kod
- komentarze
- wspólny
- zgodność
- 轉換
- Datacenter
- dedykowane
- wdrażanie
- stacjonarny
- ZROBIŁ
- Doker
- darowizna
- nie
- Podwójna
- pobieranie
- kierowca
- porzucone
- każdy
- Wcześniej
- łatwo
- dość
- Parzyste
- Każdy
- przykład
- wykonać
- wykonywania
- Przede wszystkim system został opracowany
- doświadczenie
- fakt
- czuć
- kilka
- Znajdź
- i terminów, a
- następujący
- W razie zamówieenia projektu
- Naprzód
- znaleziono
- frakcja
- Ramy
- od
- pełny
- przyszłość
- Gemini
- Ogólne
- generatory
- otrzymać
- miejsce
- gif
- Go
- Goes
- będzie
- dobry
- got
- GPU
- GPU
- grafika
- poprowadzi
- miał
- Pół
- sprzęt komputerowy
- Have
- głowa
- Strona główna
- W jaki sposób
- How To
- HTTPS
- if
- in
- Włącznie z
- Informacja
- zainstalować
- instalacja
- zainstalowany
- instrukcje
- interakcji
- interaktywne
- odsetki
- IT
- JEGO
- właśnie
- tylko jeden
- Uprzejmy
- Etykieta
- język
- duży
- w dużej mierze
- firmy
- uruchomić
- najmniej
- Pozostawiać
- mniej
- lubić
- linux
- Lista
- ll
- Lama
- LLM
- miejscowy
- lokalnie
- Popatrz
- wygląda jak
- poszukuje
- Partia
- niższy
- szczęście
- mac
- podręcznik
- wiele
- masywny
- max
- Może..
- znaczy
- Pamięć
- Menu
- może
- minimalny
- chwila
- minut
- Moda
- model
- modele
- jeszcze
- rodzimy
- Blisko
- Potrzebować
- wymagania
- sieć
- nerwowy
- sieci neuronowe
- nowsza
- aktualności
- Nie
- zauważyć
- Nvidia
- of
- poza
- Oferty
- on
- pewnego razu
- ONE
- koncepcja
- open source
- otwarcie
- otwarcie
- operacyjny
- system operacyjny
- operatorzy
- or
- OS
- Inne
- Pozostałe
- ludzkiej,
- na zewnątrz
- wydajność
- koniec
- parametry
- PC
- komputery
- dla
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- plato
- Analiza danych Platona
- PlatoDane
- Grać
- PowerShell
- Detaliczność
- bardzo
- poprzedni
- Pro
- prawdopodobnie
- własność
- jakość
- pytania
- wyścigi
- RAM
- zasięg
- Czytający
- Rzeczywistość
- powód
- niedawny
- polecić
- Zalecana
- zaleca
- Bez względu
- stosunkowo
- usunąć
- usuwanie
- Zasoby
- dalsze
- prawo
- Rtx
- RTX 3060
- run
- bieganie
- działa
- s
- poświęcać
- taki sam
- Sekcja
- ustawienie
- siedem
- kilka
- Share
- powinien
- prostsze
- prostota
- ponieważ
- So
- kilka
- coś
- Źródło
- Kod źródłowy
- specjalny
- początek
- Startowy
- Nadal
- proste
- taki
- apartament
- wsparcie
- Utrzymany
- pewnie
- zaskakująco
- składnia
- system
- biorąc
- Mówić
- zadania
- technika
- dąży
- terminal
- przetestowany
- Testowanie
- niż
- że
- Połączenia
- Źródło
- Im
- Tam.
- Te
- rzeczy
- Myślący
- to
- tych
- chociaż?
- do
- narzędzia
- Trening
- kłopot
- próbować
- chyba że
- Aktualizacja
- aktualizowanie
- używany
- Użytkownicy
- za pomocą
- zazwyczaj
- Wykorzystując
- różnią się
- wersja
- Wersje
- chcieć
- poszukiwany
- we
- tygodni
- DOBRZE
- który
- Podczas
- cały
- szeroki
- Szeroki zasięg
- będzie
- okna
- w
- w ciągu
- słowo
- Praca
- pracujący
- działa
- napisać
- You
- Twój
- zefirnet