Διαχείριση μοντέλων για βελτιωμένα μοντέλα LoRA που χρησιμοποιούν Llama2 και Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Στην εποχή των μεγάλων δεδομένων και της τεχνητής νοημοσύνης, οι εταιρείες αναζητούν συνεχώς τρόπους να χρησιμοποιήσουν αυτές τις τεχνολογίες για να αποκτήσουν ανταγωνιστικό πλεονέκτημα. Μία από τις πιο καυτές περιοχές στην τεχνητή νοημοσύνη αυτή τη στιγμή είναι η γενετική τεχνητή νοημοσύνη, και για καλό λόγο. Το Generative AI προσφέρει ισχυρές λύσεις που ξεπερνούν τα όρια του δυνατού όσον αφορά τη δημιουργικότητα και την καινοτομία. Στον πυρήνα αυτών των λύσεων αιχμής βρίσκεται ένα μοντέλο βάσης (FM), ένα εξαιρετικά προηγμένο μοντέλο μηχανικής εκμάθησης που είναι προεκπαιδευμένο σε τεράστιες ποσότητες δεδομένων. Πολλά από αυτά τα βασικά μοντέλα έχουν δείξει αξιοσημείωτη ικανότητα κατανόησης και δημιουργίας κειμένου που μοιάζει με άνθρωπο, καθιστώντας τα ένα πολύτιμο εργαλείο για μια ποικιλία εφαρμογών, από τη δημιουργία περιεχομένου έως την αυτοματοποίηση υποστήριξης πελατών.

Ωστόσο, αυτά τα μοντέλα δεν είναι χωρίς προκλήσεις. Είναι εξαιρετικά μεγάλα και απαιτούν μεγάλες ποσότητες δεδομένων και υπολογιστικών πόρων για την εκπαίδευση. Επιπλέον, η βελτιστοποίηση της εκπαιδευτικής διαδικασίας και η βαθμονόμηση των παραμέτρων μπορεί να είναι μια πολύπλοκη και επαναληπτική διαδικασία, που απαιτεί εξειδίκευση και προσεκτικό πειραματισμό. Αυτά μπορεί να αποτελέσουν εμπόδια για πολλούς οργανισμούς που θέλουν να δημιουργήσουν τα δικά τους μοντέλα θεμελίωσης. Για να ξεπεράσουν αυτήν την πρόκληση, πολλοί πελάτες σκέφτονται να τελειοποιήσουν τα υπάρχοντα μοντέλα θεμελίωσης. Αυτή είναι μια δημοφιλής τεχνική για την προσαρμογή ενός μικρού μέρους των παραμέτρων του μοντέλου για συγκεκριμένες εφαρμογές, διατηρώντας παράλληλα τη γνώση που έχει ήδη κωδικοποιηθεί στο μοντέλο. Επιτρέπει στους οργανισμούς να χρησιμοποιούν τη δύναμη αυτών των μοντέλων, ενώ μειώνουν τους πόρους που απαιτούνται για την προσαρμογή σε έναν συγκεκριμένο τομέα ή εργασία.

Υπάρχουν δύο κύριες προσεγγίσεις για τα μοντέλα θεμελίωσης λεπτομέρειας: η παραδοσιακή μικρορύθμιση και η λεπτομέρεια αποδοτικής παραμέτρου. Η παραδοσιακή μικρορύθμιση περιλαμβάνει την ενημέρωση όλων των παραμέτρων του προεκπαιδευμένου μοντέλου για μια συγκεκριμένη εργασία κατάντη. Από την άλλη πλευρά, η λεπτομέρεια αποδοτικής παραμέτρου περιλαμβάνει μια ποικιλία τεχνικών που επιτρέπουν την προσαρμογή ενός μοντέλου χωρίς ενημέρωση όλων των παραμέτρων του αρχικού μοντέλου. Μια τέτοια τεχνική ονομάζεται Προσαρμογή χαμηλού βαθμού (LoRA). Περιλαμβάνει την προσθήκη μικρών λειτουργικών μονάδων στο προεκπαιδευμένο μοντέλο και την εκπαίδευσή τους, διατηρώντας τις υπόλοιπες παραμέτρους σταθερές όπως φαίνεται στην παρακάτω εικόνα.

πηγή: Generative AI στο AWS (O'Reilly, 2023)

Το LoRA έχει αποκτήσει δημοτικότητα πρόσφατα για διάφορους λόγους. Προσφέρει ταχύτερη εκπαίδευση, μειωμένες απαιτήσεις μνήμης και δυνατότητα επαναχρησιμοποίησης προεκπαιδευμένων μοντέλων για πολλαπλές εργασίες κατάντη. Το πιο σημαντικό, το βασικό μοντέλο και ο προσαρμογέας μπορούν να αποθηκευτούν χωριστά και να συνδυαστούν ανά πάσα στιγμή, διευκολύνοντας την αποθήκευση, τη διανομή και την κοινή χρήση βελτιστοποιημένων εκδόσεων. Ωστόσο, αυτό εισάγει μια νέα πρόκληση: πώς να διαχειριστείτε σωστά αυτούς τους νέους τύπους βελτιστοποιημένων μοντέλων. Πρέπει να συνδυάσετε το βασικό μοντέλο και τον προσαρμογέα ή να τα διατηρήσετε χωριστά; Σε αυτήν την ανάρτηση, εξετάζουμε τις βέλτιστες πρακτικές για τη διαχείριση των μοντέλων LoRA με ακρίβεια Amazon Sage Maker για να αντιμετωπίσει αυτό το αναδυόμενο ερώτημα.

Εργασία με FM στο μητρώο μοντέλων SageMaker

Σε αυτήν την ανάρτηση, περιγράφουμε ένα από άκρο σε άκρο παράδειγμα τελειοποίησης του μοντέλου μεγάλης γλώσσας Llama2 (LLM) χρησιμοποιώντας τη μέθοδο QLoRA. Το QLoRA συνδυάζει τα πλεονεκτήματα της αποδοτικής μικρορύθμισης παραμέτρων με την κβαντοποίηση 4-bit/8-bit για να μειώσει περαιτέρω τους πόρους που απαιτούνται για τον μικροσυντονισμό ενός FM σε μια συγκεκριμένη εργασία ή περίπτωση χρήσης. Για αυτό, θα χρησιμοποιήσουμε το προεκπαιδευμένο μοντέλο παραμέτρων Llama7 των 2 δισεκατομμυρίων και θα το ρυθμίσουμε με ακρίβεια στο σύνολο δεδομένων databricks-dolly-15k. Τα LLM όπως το Llama2 έχουν δισεκατομμύρια παραμέτρους και είναι προεκπαιδευμένα σε τεράστια σύνολα δεδομένων κειμένου. Η λεπτομέρεια προσαρμόζει ένα LLM σε μια μεταγενέστερη εργασία χρησιμοποιώντας ένα μικρότερο σύνολο δεδομένων. Ωστόσο, η ακριβής ρύθμιση μεγάλων μοντέλων είναι υπολογιστικά ακριβή. Αυτός είναι ο λόγος για τον οποίο θα χρησιμοποιήσουμε τη μέθοδο QLoRA για να κβαντοποιήσουμε τα βάρη κατά τη μικροσυντονισμό για να μειώσουμε αυτό το κόστος υπολογισμού.

Στα παραδείγματά μας, θα βρείτε δύο σημειωματάρια (llm-finetune-combined-with-registry.ipynb και llm-finetune-separate-with-registry.ipynb). Καθένα λειτουργεί με διαφορετικό τρόπο χειρισμού μοντέλων LoRA με ακρίβεια, όπως φαίνεται στο ακόλουθο διάγραμμα:

Αρχικά, κατεβάζουμε το προεκπαιδευμένο μοντέλο Llama2 με 7 δισεκατομμύρια παραμέτρους χρησιμοποιώντας τα SageMaker Studio Notebooks. Τα LLM, όπως το Llama2, έχουν επιδείξει κορυφαίες επιδόσεις σε εργασίες επεξεργασίας φυσικής γλώσσας (NLP) όταν βελτιστοποιούνται σε δεδομένα συγκεκριμένου τομέα.
Στη συνέχεια, ρυθμίζουμε το Llama2 στο σύνολο δεδομένων databricks-dolly-15k χρησιμοποιώντας τη μέθοδο QLoRA. Το QLoRA μειώνει το υπολογιστικό κόστος της μικρορύθμισης κβαντίζοντας τα βάρη του μοντέλου.
Κατά τη διάρκεια της τελειοποίησης, ενσωματώνουμε το SageMaker Experiments Plus με το Transformers API για αυτόματη καταγραφή μετρήσεων όπως διαβάθμιση, απώλεια κ.λπ.
Στη συνέχεια εκδίδουμε το βελτιωμένο μοντέλο Llama2 στο SageMaker Model Registry χρησιμοποιώντας δύο προσεγγίσεις:
1. Αποθήκευση του πλήρους μοντέλου
2. Αποθήκευση του προσαρμογέα και του βασικού μοντέλου ξεχωριστά.
Τέλος, φιλοξενούμε τα βελτιωμένα μοντέλα Llama2 που χρησιμοποιούν την υπηρεσία Deep Java Library (DJL) σε τελικό σημείο σε πραγματικό χρόνο SageMaker.

Στις επόμενες ενότητες, θα εμβαθύνουμε σε καθένα από αυτά τα βήματα, για να δείξουμε την ευελιξία του SageMaker για διαφορετικές ροές εργασίας LLM και πώς αυτές οι δυνατότητες μπορούν να βοηθήσουν στη βελτίωση των λειτουργιών των μοντέλων σας.

Προϋποθέσεις

Συμπληρώστε τις παρακάτω προϋποθέσεις για να ξεκινήσετε να πειραματίζεστε με τον κώδικα.

Δημιουργία Τομέας SageMaker Studio: Το Amazon SageMaker Studio, ειδικά τα Studio Notebooks, χρησιμοποιείται για την έναρξη της εργασίας λεπτομέρειας του Llama2 και, στη συνέχεια, εγγραφή και προβολή μοντέλων εντός Μητρώο μοντέλων SageMaker. Πειράματα SageMaker χρησιμοποιείται επίσης για την προβολή και σύγκριση των αρχείων καταγραφής εργασιών προσαρμογής του Llama2 (απώλεια εκπαίδευσης/απώλεια δοκιμής/κ.λπ.).
Δημιουργήστε έναν κάδο Amazon Simple Storage Service (S3).: Απαιτείται πρόσβαση σε κάδο S3 για την αποθήκευση αντικειμένων εκπαίδευσης και βαρών μοντέλων. Για οδηγίες, ανατρέξτε στο Δημιουργία κάδου. Το δείγμα κώδικα που χρησιμοποιείται για αυτήν την ανάρτηση θα χρησιμοποιεί τον προεπιλεγμένο κάδο S3 του SageMaker, αλλά μπορείτε να τον προσαρμόσετε ώστε να χρησιμοποιεί οποιονδήποτε σχετικό κάδο S3.
Ρύθμιση συλλογών μοντέλων (δικαιώματα IAM): Ενημερώστε τον ρόλο εκτέλεσης του SageMaker με δικαιώματα σε ομάδες πόρων όπως αναφέρονται παρακάτω Οδηγός προγραμματιστή συλλογών μητρώου μοντέλων για την υλοποίηση ομαδοποίησης Μητρώου Μοντέλων χρησιμοποιώντας Συλλογές Μοντέλων.
Αποδεχτείτε τους Όρους & Προϋποθέσεις για το Llama2: Θα πρέπει να αποδεχτείτε τη συμφωνία άδειας χρήσης τελικού χρήστη και την πολιτική αποδεκτής χρήσης για τη χρήση του μοντέλου βάσης Llama2.

Τα παραδείγματα είναι διαθέσιμα στο Αποθετήριο GitHub. Τα αρχεία του σημειωματάριου ελέγχονται χρησιμοποιώντας σημειωματάρια Studio που εκτελούνται σε PyTorch 2.0.0 Python 3.10 GPU Optimized kernel και ml.g4dn.xlarge τύπο παρουσίας.

Πειράματα συν ενσωμάτωση επανάκλησης

Πειράματα Amazon SageMaker σας επιτρέπει να οργανώνετε, να παρακολουθείτε, να συγκρίνετε και να αξιολογείτε πειράματα μηχανικής μάθησης (ML) και εκδόσεις μοντέλων από οποιοδήποτε ολοκληρωμένο περιβάλλον ανάπτυξης (IDE), συμπεριλαμβανομένων των τοπικών φορητών υπολογιστών Jupyter, χρησιμοποιώντας το SageMaker Python SDK ή boto3. Παρέχει την ευελιξία να καταγράψετε τις μετρήσεις του μοντέλου σας, τις παραμέτρους, τα αρχεία, τα τεχνουργήματα, τα διαγράμματα σχεδίασης από τις διαφορετικές μετρήσεις, τη λήψη διαφόρων μεταδεδομένων, την αναζήτηση μέσω αυτών και την υποστήριξη της αναπαραγωγιμότητας του μοντέλου. Οι επιστήμονες δεδομένων μπορούν να συγκρίνουν γρήγορα την απόδοση και τις υπερπαραμέτρους για την αξιολόγηση μοντέλων μέσω οπτικών διαγραμμάτων και πινάκων. Μπορούν επίσης να χρησιμοποιήσουν το SageMaker Experiments για να κατεβάσουν τα δημιουργημένα γραφήματα και να μοιραστούν την αξιολόγηση του μοντέλου με τους ενδιαφερόμενους φορείς τους.

Η εκπαίδευση LLM μπορεί να είναι μια αργή, δαπανηρή και επαναληπτική διαδικασία. Είναι πολύ σημαντικό για έναν χρήστη να παρακολουθεί τον πειραματισμό LLM σε κλίμακα για να αποτρέψει μια ασυνεπή εμπειρία συντονισμού μοντέλου. HuggingFace Transformer API επιτρέπουν στους χρήστες να παρακολουθούν μετρήσεις κατά τη διάρκεια εργασιών εκπαίδευσης Επιστροφές. Οι επανακλήσεις είναι κομμάτια κώδικα "μόνο για ανάγνωση" που μπορούν να προσαρμόσουν τη συμπεριφορά του βρόχου εκπαίδευσης στο PyTorch Trainer που μπορεί να επιθεωρήσει την κατάσταση βρόχου εκπαίδευσης για αναφορά προόδου, σύνδεση στο TensorBoard ή στο SageMaker Experiments Plus μέσω προσαρμοσμένης λογικής (η οποία περιλαμβάνεται ως μέρος αυτής της βάσης κωδικών).

Μπορείτε να εισαγάγετε τον κωδικό επανάκλησης του SageMaker Experiments που περιλαμβάνεται στο αποθετήριο κώδικα αυτής της ανάρτησης, όπως φαίνεται στο ακόλουθο μπλοκ κώδικα:

# imports a custom implementation of Experiments Callback
from smexperiments_callback import SageMakerExperimentsCallback
...
...
# Create Trainer instance with SageMaker experiments callback
trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=validation_dataset, data_collator=default_data_collator, callbacks=[SageMakerExperimentsCallback] # Add our Experiments Plus Callback function
)

Αυτή η επανάκληση θα καταγράψει αυτόματα τις ακόλουθες πληροφορίες στο SageMaker Experiments ως μέρος της εκπαίδευσης:

Παράμετροι Εκπαίδευσης και Υπερ-Παράμετροι
Απώλεια Εκπαίδευσης Μοντέλου και Επικύρωσης στο Βήμα, Εποχή και Τελικό
Αντικείμενα εισόδου και εξόδου μοντέλου (σύνολο δεδομένων εκπαίδευσης, σύνολο δεδομένων επικύρωσης, τοποθεσία εξόδου μοντέλου, πρόγραμμα εντοπισμού σφαλμάτων εκπαίδευσης και άλλα)

Το παρακάτω γράφημα δείχνει παραδείγματα των γραφημάτων που μπορείτε να εμφανίσετε χρησιμοποιώντας αυτές τις πληροφορίες.

Αυτό σας επιτρέπει να συγκρίνετε πολλές εκτελέσεις εύκολα χρησιμοποιώντας τη δυνατότητα Ανάλυσης του SageMaker Experiments. Μπορείτε να επιλέξετε τις εκτελέσεις πειράματος που θέλετε να συγκρίνετε και θα συμπληρώσουν αυτόματα γραφήματα σύγκρισης.

Καταχωρίστε τα τελειοποιημένα μοντέλα στις Συλλογές Μητρώου Μοντέλων

Συλλογές Μητρώου Μοντέλων είναι ένα χαρακτηριστικό του Μητρώο μοντέλων SageMaker που σας επιτρέπει να ομαδοποιήσετε καταχωρημένα μοντέλα που σχετίζονται μεταξύ τους και να τα οργανώσετε σε ιεραρχίες για να βελτιώσετε την ανακάλυψη μοντέλων σε κλίμακα. Θα χρησιμοποιήσουμε Συλλογές Μητρώου Μοντέλων για να παρακολουθούμε το βασικό μοντέλο και τις τελειοποιημένες παραλλαγές.

Μέθοδος αντιγραφής πλήρους μοντέλου

Η πρώτη μέθοδος συνδυάζει το βασικό μοντέλο και τον προσαρμογέα LoRA και αποθηκεύει το πλήρες τελειοποιημένο μοντέλο. Ο παρακάτω κώδικας απεικονίζει τη διαδικασία συγχώνευσης μοντέλων και αποθηκεύει το συνδυασμένο μοντέλο χρησιμοποιώντας model.save_pretrained().

if args.merge_weights: trainer.model.save_pretrained(temp_dir, safe_serialization=False) # clear memory del model del trainer torch.cuda.empty_cache() from peft import AutoPeftModelForCausalLM # load PEFT model in fp16 model = AutoPeftModelForCausalLM.from_pretrained( temp_dir, low_cpu_mem_usage=True, torch_dtype=torch.float16, ) # Merge LoRA and base model and save model = model.merge_and_unload() model.save_pretrained( args.sm_model_dir, safe_serialization=True, max_shard_size="2GB" )

Ο συνδυασμός του προσαρμογέα LoRA και του βασικού μοντέλου σε ένα ενιαίο τεχνούργημα μοντέλου μετά τη λεπτομέρεια έχει πλεονεκτήματα και μειονεκτήματα. Το συνδυασμένο μοντέλο είναι αυτόνομο και μπορεί να διαχειριστεί και να αναπτυχθεί ανεξάρτητα χωρίς να χρειάζεται το αρχικό βασικό μοντέλο. Το μοντέλο μπορεί να παρακολουθηθεί ως δική του οντότητα με ένα όνομα έκδοσης που αντικατοπτρίζει το βασικό μοντέλο και τα δεδομένα λεπτομέρειας. Μπορούμε να υιοθετήσουμε μια ονοματολογία χρησιμοποιώντας το base_model_name + τελειοποιημένος dataset_name να οργανώσει τις ομάδες μοντέλων. Προαιρετικά, οι συλλογές μοντέλων θα μπορούσαν να συσχετίσουν τα πρωτότυπα και τα τελειοποιημένα μοντέλα, αλλά αυτό μπορεί να μην είναι απαραίτητο καθώς το συνδυασμένο μοντέλο είναι ανεξάρτητο. Το παρακάτω απόσπασμα κώδικα σάς δείχνει πώς να καταχωρήσετε το βελτιστοποιημένο μοντέλο.

# Model Package Group Vars
ft_package_group_name = f"{model_id.replace('/', '--')}-{dataset_name}"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-{dataset_name}-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)

Μπορείτε να χρησιμοποιήσετε τον εκτιμητή εκπαίδευσης για να καταχωρήσετε το μοντέλο στο Μητρώο Μοντέλων.

inference_image_uri = sagemaker.image_uris.retrieve( "djl-deepspeed", region=region, version="0.23.0"
)
print(f"Image going to be used is ---- > {inference_image_uri}") model_package = huggingface_estimator.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ...
...
... ], image_uri = inference_image_uri, customer_metadata_properties = {"training-image-uri": huggingface_estimator.training_image_uri()}, #Store the training image url model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) model_package_arn = model_package.model_package_arn
print("Model Package ARN : ", model_package_arn)

Από το Μητρώο Μοντέλων, μπορείτε να ανακτήσετε το πακέτο μοντέλου και να αναπτύξετε αυτό το μοντέλο απευθείας.

endpoint_name = f"{name_from_base(model_group_for_base)}-endpoint" model_package.deploy( initial_instance_count=1, instance_type="ml.g5.12xlarge", endpoint_name=endpoint_name
)

Ωστόσο, υπάρχουν μειονεκτήματα σε αυτή την προσέγγιση. Ο συνδυασμός των μοντέλων οδηγεί σε αναποτελεσματικότητα αποθήκευσης και πλεονασμό, καθώς το βασικό μοντέλο επαναλαμβάνεται σε κάθε τελειοποιημένη έκδοση. Καθώς το μέγεθος του μοντέλου και ο αριθμός των βελτιστοποιημένων μοντέλων αυξάνονται, αυτό διογκώνει εκθετικά τις ανάγκες αποθήκευσης. Λαμβάνοντας ως παράδειγμα το μοντέλο llama2 7b, το βασικό μοντέλο είναι περίπου 13 GB και το βελτιστοποιημένο μοντέλο είναι 13.6 GB. Το 96% τοις εκατό του μοντέλου πρέπει να αντιγράφεται μετά από κάθε λεπτομέρεια. Επιπλέον, η διανομή και η κοινή χρήση πολύ μεγάλων αρχείων μοντέλων γίνεται επίσης πιο δύσκολη και παρουσιάζει λειτουργικές προκλήσεις, καθώς το κόστος μεταφοράς και διαχείρισης αρχείων αυξάνεται με την αύξηση του μεγέθους του μοντέλου και τη λεπτομερή ρύθμιση των εργασιών.

Μέθοδος ξεχωριστού προσαρμογέα και βάσης

Η δεύτερη μέθοδος εστιάζει στον διαχωρισμό των βαρών βάσης και των βαρών προσαρμογέα αποθηκεύοντάς τα ως ξεχωριστά εξαρτήματα μοντέλου και φορτώνοντάς τα διαδοχικά κατά το χρόνο εκτέλεσης.

 .. .. .. else: # save finetuned LoRA model and then the tokenizer for inference trainer.model.save_pretrained( args.sm_model_dir, safe_serialization=True ) tokenizer.save_pretrained( args.sm_model_dir )

Η εξοικονόμηση βαρών βάσης και προσαρμογέα έχει πλεονεκτήματα και μειονεκτήματα, παρόμοια με τη μέθοδο Full Model Copy. Ένα πλεονέκτημα είναι ότι μπορεί να εξοικονομήσει χώρο αποθήκευσης. Τα βάρη βάσης, τα οποία είναι το μεγαλύτερο στοιχείο ενός βελτιωμένου μοντέλου, αποθηκεύονται μόνο μία φορά και μπορούν να επαναχρησιμοποιηθούν με άλλα βάρη προσαρμογέα που έχουν ρυθμιστεί για διαφορετικές εργασίες. Για παράδειγμα, τα βασικά βάρη του Llama2-7B είναι περίπου 13 GB, αλλά κάθε εργασία λεπτομέρειας χρειάζεται μόνο να αποθηκεύσει περίπου 0.6 GB βάρη προσαρμογέα, που εξοικονομεί 95% χώρο. Ένα άλλο πλεονέκτημα είναι ότι η διαχείριση των βαρών βάσης μπορεί να γίνει ξεχωριστά από τα βάρη προσαρμογέα χρησιμοποιώντας ένα μητρώο μοντέλου μόνο με βάση τα βάρη. Αυτό μπορεί να είναι χρήσιμο για τομείς SageMaker που εκτελούνται μόνο σε λειτουργία VPC χωρίς πύλη διαδικτύου, καθώς τα βασικά βάρη μπορούν να προσπελαστούν χωρίς να χρειάζεται να περάσουν από το Διαδίκτυο.

Δημιουργία ομάδας πακέτων μοντέλων για βασικά βάρη

### Create Model Package Group
base_package_group_name = model_id.replace('/', '--')
base_package_group_desc = "Source: https://huggingface.co/Mikael110/llama-2-7b-guanaco-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : base_package_group_name, "ModelPackageGroupDescription" : base_package_group_desc, "Tags": base_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
) >>>
Created ModelPackageGroup Arn : arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16
...
...
... ### Register Base Model Weights
from sagemaker.huggingface import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data=model_data_uri, # this is an S3 path to your base weights as *.tar.gz role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=base_model_pkg_group_name, approval_status="Approved" )

Δημιουργία ομάδας πακέτων μοντέλου για βάρη QLoRA

Ο ακόλουθος κώδικας δείχνει πώς να προσθέτετε ετικέτες στα βάρη QLoRA με τον τύπο δεδομένων/εργασία και να καταχωρίζετε τα βάρη δέλτα με ακρίβεια σε ένα ξεχωριστό μητρώο μοντέλων και να παρακολουθείτε τα βάρη δέλτα ξεχωριστά.

### Create Model Package Group for delta weights
ft_package_group_name = f"{model_id.replace('/', '--')}-finetuned-sql"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-guanaco-fp16"
ft_tags = [ { "Key": "modelType", "Value": "QLoRAModel" }, { "Key": "fineTuned", "Value": "True" }, { "Key": "sourceDataset", "Value": f"{dataset_name}" }
]
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)
print(f'Created ModelPackageGroup Arn : {create_model_pacakge_group_response["ModelPackageGroupArn"]}')
ft_model_pkg_group_name = create_model_pacakge_group_response["ModelPackageGroupArn"] >>> Created ModelPackageGroup Arn : arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql ...
...
... ### Register Delta Weights QLoRA Model Weights
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data="s3://sagemaker-us-east-1-811828458885/huggingface-qlora-2308180454/output/model.tar.gz", OR #huggingface_estimator.model_data role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

Το παρακάτω απόσπασμα δείχνει μια προβολή από το Μητρώο Μοντέλων όπου τα μοντέλα χωρίζονται σε βάρη βάσης και βελτιστοποιημένα.

Η διαχείριση μοντέλων, συνόλων δεδομένων και εργασιών για υπερ-εξατομικευμένα LLMs μπορεί γρήγορα να γίνει συντριπτική. Συλλογές Μητρώου Μοντέλων SageMaker μπορεί να σας βοηθήσει να ομαδοποιήσετε σχετικά μοντέλα μαζί και να τα οργανώσετε σε μια ιεραρχία για να βελτιώσετε την ανιχνευσιμότητα των μοντέλων. Αυτό διευκολύνει την παρακολούθηση των σχέσεων μεταξύ των βαρών βάσης, των βαρών προσαρμογέων και των συνόλων δεδομένων εργασιών λεπτομέρειας. Μπορείτε επίσης να δημιουργήσετε σύνθετες σχέσεις και συνδέσμους μεταξύ μοντέλων.

Δημιουργήστε μια νέα Συλλογή και προσθέστε τα βάρη του βασικού μοντέλου σας σε αυτήν τη Συλλογή

# create model collection
base_collection = model_collector.create( collection_name=model_group_for_base # ex: "Website_Customer_QnA_Bot_Model"
) # Add the base weights at first level of model collections as all future models # are going to be tuned from the base weights
_response = model_collector.add_model_groups( collection_name=base_collection["Arn"], model_groups=[base_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16'], 'failure': []}

Συνδέστε όλα τα Fine-Tuned LoRA Adapter Delta Weights σε αυτήν τη συλλογή ανά εργασία ή/και σύνολο δεδομένων

# create model collection for finetuned and link it back to the base
finetuned_collection = model_collector.create( collection_name=model_group_for_finetune, parent_collection_name=model_group_for_base
) # add finetuned model package group to the new finetuned collection
_response = model_collector.add_model_groups( collection_name=model_group_for_finetune, model_groups=[ft_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

Αυτό θα έχει ως αποτέλεσμα μια ιεραρχία συλλογής, η οποία συνδέεται ανά μοντέλο/τύπο εργασίας και το σύνολο δεδομένων που χρησιμοποιείται για την ακριβή ρύθμιση του βασικού μοντέλου.

Αυτή η μέθοδος διαχωρισμού των μοντέλων βάσης και προσαρμογέα έχει ορισμένα μειονεκτήματα. Ένα μειονέκτημα είναι η πολυπλοκότητα στην ανάπτυξη του μοντέλου. Επειδή υπάρχουν δύο ξεχωριστά τεχνουργήματα μοντέλου, χρειάζεστε επιπλέον βήματα για να επανασυσκευάσετε το μοντέλο αντί να το αναπτύξετε απευθείας από το Μητρώο Μοντέλων. Στο ακόλουθο παράδειγμα κώδικα, κατεβάστε και επανασυσκευάστε πρώτα την πιο πρόσφατη έκδοση του βασικού μοντέλου.

!aws s3 cp {base_model_package.model_data} . !tar -xvf {model_tar_filename} -C ./deepspeed/ !mv ./deepspeed/{model_id} ./deepspeed/base !rm -rf ./deepspeed/{model_id}

Στη συνέχεια, πραγματοποιήστε λήψη και επανασυσκευασία των πιο πρόσφατων βελτιωμένων βαρών προσαρμογέων LoRA.

!aws s3 cp {LoRA_package.model_data} . !mkdir -p ./deepspeed/lora/ !tar -xzf model.tar.gz -C ./deepspeed/lora/

Δεδομένου ότι θα χρησιμοποιείτε την υπηρεσία DJL με βαθιά ταχύτητα για να φιλοξενήσετε το μοντέλο, ο κατάλογος συμπερασμάτων σας θα πρέπει να μοιάζει με τον ακόλουθο.

deepspeed |-serving.properties |-requirements.txt |-model.py |-base/ |-... |-lora/ |-...

Τέλος, συσκευάστε τον προσαρμοσμένο κώδικα συμπερασμάτων, το βασικό μοντέλο και τον προσαρμογέα LoRA σε ένα μόνο αρχείο .tar.gz για ανάπτυξη.

!rm -f model.tar.gz
!tar czvf model.tar.gz -C deepspeed .
s3_code_artifact_deepspeed = sagemaker_session.upload_data("model.tar.gz", default_bucket, f"{s3_key_prefix}/inference")
print(f"S3 Code or Model tar for deepspeed uploaded to --- > {s3_code_artifact_deepspeed}")

εκκαθάριση

Καθαρίστε τους πόρους σας ακολουθώντας τις οδηγίες στην ενότητα καθαρισμού του σημειωματάριου. Αναφέρομαι σε Τιμολόγηση του Amazon SageMaker για λεπτομέρειες σχετικά με το κόστος των περιπτώσεων συμπερασμάτων.

Συμπέρασμα

Αυτή η ανάρτηση σας καθοδήγησε στις βέλτιστες πρακτικές για τη διαχείριση μοντέλων με ακρίβεια LoRA στο Amazon SageMaker. Καλύψαμε δύο κύριες μεθόδους: το συνδυασμό των βαρών βάσης και προσαρμογέα σε ένα αυτόνομο μοντέλο και διαχωρισμός των βαρών βάσης και προσαρμογέα. Και οι δύο προσεγγίσεις έχουν συμβιβασμούς, αλλά ο διαχωρισμός των βαρών βοηθά στη βελτιστοποίηση της αποθήκευσης και επιτρέπει προηγμένες τεχνικές διαχείρισης μοντέλων, όπως το SageMaker Model Registry Collections. Αυτό σας επιτρέπει να δημιουργήσετε ιεραρχίες και σχέσεις μεταξύ μοντέλων για να βελτιώσετε την οργάνωση και την ανακάλυψη. Σας συνιστούμε να δοκιμάσετε το δείγμα κώδικα Αποθετήριο GitHub να πειραματιστείτε μόνοι σας με αυτές τις μεθόδους. Καθώς η γενετική τεχνητή νοημοσύνη εξελίσσεται γρήγορα, ακολουθώντας τις βέλτιστες πρακτικές διαχείρισης μοντέλων θα σας βοηθήσει να παρακολουθείτε τα πειράματα, να βρείτε το σωστό μοντέλο για την εργασία σας και να διαχειριστείτε αποτελεσματικά εξειδικευμένα LLM σε κλίμακα.

αναφορές

Σχετικά με τους συγγραφείς

Διαχείριση μοντέλων για βελτιωμένα μοντέλα LoRA που χρησιμοποιούν Llama2 και Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Τζέιμς Γου είναι Senior AI/ML Specialist Solution Architect στο AWS. βοηθώντας τους πελάτες να σχεδιάσουν και να δημιουργήσουν λύσεις AI/ML. Το έργο του James καλύπτει ένα ευρύ φάσμα περιπτώσεων χρήσης ML, με πρωταρχικό ενδιαφέρον για την όραση υπολογιστών, τη βαθιά μάθηση και την κλιμάκωση της ML σε όλη την επιχείρηση. Πριν από την ένταξή του στην AWS, ο James ήταν αρχιτέκτονας, προγραμματιστής και ηγέτης τεχνολογίας για περισσότερα από 10 χρόνια, συμπεριλαμβανομένων 6 ετών στη μηχανική και 4 ετών σε βιομηχανίες μάρκετινγκ και διαφήμισης.

Pranav Murthy είναι AI/ML Specialist Solutions Architect στο AWS. Επικεντρώνεται στο να βοηθά τους πελάτες να δημιουργήσουν, να εκπαιδεύσουν, να αναπτύξουν και να μεταφέρουν φόρτους εργασίας μηχανικής εκμάθησης (ML) στο SageMaker. Προηγουμένως εργάστηκε στη βιομηχανία ημιαγωγών αναπτύσσοντας μεγάλα μοντέλα υπολογιστικής όρασης (CV) και επεξεργασίας φυσικής γλώσσας (NLP) για τη βελτίωση των διαδικασιών ημιαγωγών. Στον ελεύθερο χρόνο του, του αρέσει να παίζει σκάκι και να ταξιδεύει.

Διαχείριση μοντέλων για βελτιωμένα μοντέλα LoRA που χρησιμοποιούν Llama2 και Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Mecit Gungor είναι ειδικός αρχιτέκτονας λύσεων AI/ML στην AWS που βοηθά τους πελάτες να σχεδιάσουν και να δημιουργήσουν λύσεις AI/ML σε κλίμακα. Καλύπτει ένα ευρύ φάσμα περιπτώσεων χρήσης AI/ML για πελάτες Τηλεπικοινωνιών και επί του παρόντος εστιάζει στην Generative AI, LLMs και στην εκπαίδευση και τη βελτιστοποίηση συμπερασμάτων. Συχνά μπορεί να βρεθεί να κάνει πεζοπορία στην ερημιά ή να παίζει επιτραπέζια παιχνίδια με τους φίλους του στον ελεύθερο χρόνο του.

Shelbee Eigenbrode είναι κύριος αρχιτέκτονας λύσεων τεχνητής νοημοσύνης και μηχανικής μάθησης στο Amazon Web Services (AWS). Ασχολείται με την τεχνολογία για 24 χρόνια, εκτείνοντας πολλούς κλάδους, τεχνολογίες και ρόλους. Αυτήν τη στιγμή εστιάζει στο να συνδυάσει το ιστορικό DevOps και ML στον τομέα των MLOps για να βοηθήσει τους πελάτες να προσφέρουν και να διαχειρίζονται φόρτους εργασίας ML σε κλίμακα. Με πάνω από 35 διπλώματα ευρεσιτεχνίας που έχουν χορηγηθεί σε διάφορους τομείς τεχνολογίας, έχει πάθος για συνεχή καινοτομία και χρήση δεδομένων για την επίτευξη επιχειρηματικών αποτελεσμάτων. Η Shelbee είναι συνδημιουργός και εκπαιδευτής της εξειδίκευσης της Practical Data Science στο Coursera. Είναι επίσης η συν-διευθύντρια του Women In Big Data (WiBD), κεφάλαιο Ντένβερ. Στον ελεύθερο χρόνο της, της αρέσει να περνά χρόνο με την οικογένειά της, τους φίλους και τα υπερδραστήρια σκυλιά.

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://aws.amazon.com/blogs/machine-learning/model-management-for-lora-fine-tuned-models-using-llama2-and-amazon-sagemaker/

Σφραγίδα ώρας: Νοέμβριος 14, 2023

Σφραγίδα ώρας: 1 Μαρτίου, 2024

Αναδημοσίευση από τον Πλάτωνα

Δημιουργήστε στόχευση με βάση την ταξινόμηση με βάση τα συμφραζόμενα χρησιμοποιώντας το AWS Media Intelligence και το Hugging Face BERT

Πώς η Sportradar χρησιμοποίησε τη Βιβλιοθήκη Deep Java για να δημιουργήσει πλατφόρμες ML σε κλίμακα παραγωγής για αυξημένη απόδοση και αποδοτικότητα

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού της Amazon

Προσαρμόστε τους επιχειρηματικούς κανόνες για έξυπνη επεξεργασία εγγράφων με ανθρώπινη αναθεώρηση και οπτικοποίηση BI

Βελτιώστε την έρευνα υψηλής αξίας με τα ασύγχρονα τελικά σημεία συμπερασμάτων Hugging Face και Amazon SageMaker

Επιταχύνετε το συμπέρασμα του Amazon SageMaker με παρουσίες Amazon EC6 που βασίζονται σε C2i Intel

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός