Πώς να εκτελέσετε ένα LLM τοπικά στον υπολογιστή σας σε λιγότερο από 10 λεπτά

Πώς να εκτελέσετε ένα LLM τοπικά στον υπολογιστή σας σε λιγότερο από 10 λεπτά

Τα χέρια είναι ενεργοποιημένα Με όλη τη συζήτηση για μαζικά συμπλέγματα εκπαίδευσης μηχανικής μάθησης και υπολογιστές AI, θα σας συγχωρούσαν που πιστεύατε ότι χρειάζεστε κάποιο είδος ειδικού υλικού για να παίξετε με μεγάλα μοντέλα γλώσσας (LLM) που δημιουργούν κείμενο και κώδικα στο σπίτι.

Στην πραγματικότητα, υπάρχει μεγάλη πιθανότητα να είναι το επιτραπέζιο σύστημα στο οποίο διαβάζετε αυτό περισσότερο από ικανό της εκτέλεσης ενός ευρέος φάσματος LLM, συμπεριλαμβανομένων των ρομπότ συνομιλίας όπως το Mistral ή των δημιουργών πηγαίου κώδικα όπως το Codellama.

Στην πραγματικότητα, με ανοιχτά διαθέσιμα εργαλεία όπως το Ollama, το LM Suite και το Llama.cpp, είναι σχετικά εύκολο να εκτελείτε αυτά τα μοντέλα στο σύστημά σας.

Προς το συμφέρον της απλότητας και της συμβατότητας μεταξύ πλατφορμών, θα εξετάσουμε Ολάμα, το οποίο μόλις εγκατασταθεί λειτουργεί λίγο πολύ το ίδιο σε Windows, Linux και Mac.

Λίγα λόγια για την απόδοση, τη συμβατότητα και την υποστήριξη GPU της AMD:

Γενικά, τα μοντέλα μεγάλων γλωσσών όπως το Mistral ή το Llama 2 λειτουργούν καλύτερα με ειδικούς επιταχυντές. Υπάρχει λόγος που οι χειριστές κέντρων δεδομένων αγοράζουν και αναπτύσσουν GPU σε συμπλέγματα 10,000 ή περισσότερων, αν και θα χρειαστείτε το ελάχιστο μέρος αυτών των πόρων.

Το Olama προσφέρει εγγενή υποστήριξη για τις GPU της σειράς M της Nvidia και της Apple. Οι GPU της Nvidia με τουλάχιστον 4 GB μνήμης θα πρέπει να λειτουργούν. Δοκιμάσαμε με RTX 12 3060 GB, αν και συνιστούμε τουλάχιστον 16 GB μνήμης για Mac της σειράς M.

Οι χρήστες Linux θα θέλουν πρώτα να εγκατασταθούν το πιο πρόσφατο ιδιόκτητο πρόγραμμα οδήγησης της Nvidia και πιθανώς τα δυαδικά αρχεία CUDA. Υπάρχουν περισσότερες πληροφορίες σχετικά με τη ρύθμιση εδώ.

Εάν χρησιμοποιείτε μια GPU της σειράς Radeon 7000 ή νεότερη, η AMD έχει έναν πλήρη οδηγό για την εκτέλεση ενός LLM στο σύστημά σας, τον οποίο μπορείτε να βρείτε εδώ.

Τα καλά νέα είναι ότι εάν δεν έχετε υποστηριζόμενη κάρτα γραφικών, το Ollama θα συνεχίσει να τρέχει σε μια CPU συμβατή με AVX2, αν και πολύ πιο αργή από ό,τι αν είχατε υποστηριζόμενη GPU. Και ενώ συνιστάται 16 GB μνήμης, μπορεί να μπορείτε να τα βγάλετε πέρα ​​με λιγότερα επιλέγοντας ένα κβαντισμένο μοντέλο — περισσότερο σε αυτό σε ένα λεπτό.

Εγκατάσταση Olama

Η εγκατάσταση του Olama είναι αρκετά απλή, ανεξάρτητα από το βασικό λειτουργικό σας σύστημα. Είναι ανοιχτού κώδικα, το οποίο μπορείτε να ελέγξετε εδώ.

Για όσους χρησιμοποιούν Windows ή Mac OS, κατευθυνθείτε olama.com και κατεβάστε και εγκαταστήστε το όπως κάθε άλλη εφαρμογή.

Για όσους χρησιμοποιούν Linux, είναι ακόμα πιο απλό: Απλώς εκτελέστε αυτό το ένα liner — μπορείτε να βρείτε οδηγίες μη αυτόματης εγκατάστασης εδώ, αν τα θέλετε — και πηγαίνετε στους αγώνες.

curl -fsSL https://ollama.com/install.sh | SH

Εγκατάσταση του πρώτου σας μοντέλου

Ανεξάρτητα από το λειτουργικό σας σύστημα, η συνεργασία με την Ollama είναι σε μεγάλο βαθμό η ίδια. Ο Olama συνιστά να ξεκινήσετε με Λάμα 2 7Β, ένα νευρωνικό δίκτυο που βασίζεται σε μετασχηματιστές επτά δισεκατομμυρίων παραμέτρων, αλλά για αυτόν τον οδηγό θα ρίξουμε μια ματιά στο Mistral 7B αφού είναι αρκετά ικανό και ήταν η πηγή μερικών αμφισβήτηση τις τελευταίες εβδομάδες.

Ξεκινήστε ανοίγοντας το PowerShell ή έναν εξομοιωτή τερματικού και εκτελώντας την ακόλουθη εντολή για λήψη και εκκίνηση του μοντέλου σε λειτουργία διαδραστικής συνομιλίας.

olama run mistral

Κατά τη λήψη, θα μεταφερθείτε σε μια προτροπή συνομιλίας όπου μπορείτε να ξεκινήσετε την αλληλεπίδραση με το μοντέλο, όπως το ChatGPT, το Copilot ή το Google Gemini.

Τα LLM, όπως το Mistral 7B, τρέχουν εκπληκτικά καλά σε αυτό το 2χρονο M1 Max MacBook Pro

Τα LLM, όπως το Mistral 7B, λειτουργούν εκπληκτικά καλά σε αυτό το 2χρονο M1 Max MacBook Pro – Κάντε κλικ για μεγέθυνση

Εάν δεν λάβετε τίποτα, ίσως χρειαστεί να εκκινήσετε πρώτα το Ollama από το μενού έναρξης των Windows ή το φάκελο εφαρμογών στο Mac.

Μοντέλα, ετικέτες και κβαντοποίηση

Το Mistal 7B είναι μόνο ένα από τα πολλά LLM, συμπεριλαμβανομένων άλλων εκδόσεων του μοντέλου, που είναι προσβάσιμα με το Ollama. Μπορείτε να βρείτε την πλήρη λίστα, μαζί με οδηγίες για την εκτέλεση του καθενός εδώ, αλλά η γενική σύνταξη είναι κάπως έτσι:

olama run model-name:model-tag

Οι ετικέτες μοντέλου χρησιμοποιούνται για να καθορίσετε ποια έκδοση του μοντέλου θέλετε να λάβετε. Εάν το αφήσετε εκτός, ο Olama υποθέστε ότι θέλετε την πιο πρόσφατη έκδοση. Σύμφωνα με την εμπειρία μας, αυτό τείνει να είναι μια κβαντισμένη έκδοση 4-bit του μοντέλου.

Εάν, για παράδειγμα, θέλατε να εκτελέσετε το Llama2 7B της Meta στο FP16, θα ήταν κάπως έτσι:

olama εκτέλεση llama2:7b-chat-fp16

Αλλά προτού το δοκιμάσετε, ίσως θελήσετε να ελέγξετε ότι το σύστημά σας έχει αρκετή μνήμη. Το προηγούμενο παράδειγμά μας με το Mistral χρησιμοποιούσε κβαντισμό 4-bit, πράγμα που σημαίνει ότι το μοντέλο χρειάζεται μισό gigabyte μνήμης για κάθε 1 δισεκατομμύριο παραμέτρους. Και μην ξεχνάτε: Έχει επτά δισεκατομμύρια παραμέτρους.

Η κβαντοποίηση είναι μια τεχνική που χρησιμοποιείται για τη συμπίεση του μοντέλου μετατρέποντας τα βάρη και τις ενεργοποιήσεις του σε χαμηλότερη ακρίβεια. Αυτό επιτρέπει στο Mistral 7B να τρέχει εντός 4 GB της GPU ή της μνήμης RAM συστήματος, συνήθως με ελάχιστη θυσία στην ποιότητα της εξόδου, αν και τα χιλιόμετρα σας μπορεί να διαφέρουν.

Το παράδειγμα Llama 2 7B που χρησιμοποιήθηκε παραπάνω λειτουργεί με τη μισή ακρίβεια (FP16). Ως αποτέλεσμα, θα χρειαστείτε πραγματικά 2 GB μνήμης ανά δισεκατομμύριο παραμέτρους, που σε αυτήν την περίπτωση είναι λίγο πάνω από 14 GB. Αν δεν έχετε νεότερη GPU με 16 GB ή περισσότερο vRAM, ενδέχεται να μην έχετε αρκετούς πόρους για να εκτελέσετε το μοντέλο με αυτή την ακρίβεια.

Διευθυντής Ολάμα

Η διαχείριση, η ενημέρωση και η κατάργηση εγκατεστημένων μοντέλων χρησιμοποιώντας το Ollama θα πρέπει να αισθάνονται σαν στο σπίτι τους για όποιον έχει χρησιμοποιήσει πράγματα όπως το Docker CLI στο παρελθόν.

Σε αυτήν την ενότητα θα εξετάσουμε μερικές από τις πιο συνηθισμένες εργασίες που μπορεί να θέλετε να εκτελέσετε.

Για να λάβετε μια λίστα με τα εγκατεστημένα μοντέλα εκτελέστε:

λίστα olama

Για να καταργήσετε ένα μοντέλο, θα εκτελέσετε:

olama rm model-name:model-tag

Για να τραβήξετε ή να ενημερώσετε ένα υπάρχον μοντέλο, εκτελέστε:

olama pull model-name:model-tag

Πρόσθετες εντολές Olama μπορούν να βρεθούν εκτελώντας:

olama --βοήθεια

Όπως σημειώσαμε νωρίτερα, το Ollama είναι μόνο ένα από τα πολλά πλαίσια για την εκτέλεση και τη δοκιμή τοπικών LLM. Εάν αντιμετωπίσετε προβλήματα με αυτό, μπορεί να βρείτε περισσότερη τύχη με άλλους. Και όχι, ένα AI δεν το έγραψε αυτό.

Το μητρώο στοχεύει να σας φέρει περισσότερα σχετικά με τη χρήση των LLM στο εγγύς μέλλον, επομένως φροντίστε να μοιραστείτε τις ερωτήσεις σας για τον υπολογιστή AI στην ενότητα σχολίων. Και μην ξεχνάτε ασφάλεια εφοδιαστικής αλυσίδαςΤο ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο