Προσδιορίστε το παραφρασμένο κείμενο με αγκαλιασμένο πρόσωπο στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Η αναγνώριση παραφρασμένου κειμένου έχει επιχειρηματική αξία σε πολλές περιπτώσεις χρήσης. Για παράδειγμα, με τον εντοπισμό παραφράσεων προτάσεων, ένα σύστημα σύνοψης κειμένου θα μπορούσε να αφαιρέσει περιττές πληροφορίες. Μια άλλη εφαρμογή είναι ο εντοπισμός λογοκλοπών εγγράφων. Σε αυτήν την ανάρτηση, τελειοποιούμε ένα Αγκαλιάζοντας το πρόσωπο μετασχηματιστής ενεργοποιημένος Amazon Sage Maker για να αναγνωρίσετε παράφραστα ζεύγη προτάσεων σε λίγα βήματα.

Ένα πραγματικά ισχυρό μοντέλο μπορεί να αναγνωρίσει το παραφρασμένο κείμενο όταν η γλώσσα που χρησιμοποιείται μπορεί να είναι εντελώς διαφορετική, και επίσης να εντοπίσει διαφορές όταν η γλώσσα που χρησιμοποιείται έχει υψηλή λεξική επικάλυψη. Σε αυτήν την ανάρτηση, εστιάζουμε στην τελευταία πτυχή. Συγκεκριμένα, εξετάζουμε αν μπορούμε να εκπαιδεύσουμε ένα μοντέλο που μπορεί να εντοπίσει τη διαφορά μεταξύ δύο προτάσεων που έχουν υψηλή λεξική επικάλυψη και πολύ διαφορετικές ή αντίθετες έννοιες. Για παράδειγμα, οι παρακάτω προτάσεις έχουν τις ίδιες ακριβώς λέξεις αλλά αντίθετες έννοιες:

Πήρα μια πτήση από τη Νέα Υόρκη στο Παρίσι
Πήρα μια πτήση από το Παρίσι στη Νέα Υόρκη

Επισκόπηση λύσεων

Σας καθοδηγούμε στα ακόλουθα βήματα υψηλού επιπέδου:

Ρυθμίστε το περιβάλλον.
Προετοιμάστε τα δεδομένα.
Προσαρμόστε το σύνολο δεδομένων.
Βελτιώστε το μοντέλο.
Αναπτύξτε το μοντέλο και εκτελέστε συμπέρασμα.
Αξιολογήστε την απόδοση του μοντέλου.

Εάν θέλετε να παραλείψετε τη ρύθμιση του περιβάλλοντος, μπορείτε να χρησιμοποιήσετε το παρακάτω σημειωματάριο GitHub και εκτελέστε τον κώδικα στο SageMaker.

Η Hugging Face και η AWS ανακοίνωσαν μια συνεργασία νωρίτερα το 2022 που καθιστά ακόμα πιο εύκολη την εκπαίδευση μοντέλων Hugging Face στο SageMaker. Αυτή η λειτουργία είναι διαθέσιμη μέσω της ανάπτυξης του Hugging Face AWS Deep Learning Containers (DLC). Αυτά τα κοντέινερ περιλαμβάνουν Hugging Face Transformers, Tokenizers και τη βιβλιοθήκη Datasets, η οποία μας επιτρέπει να χρησιμοποιούμε αυτούς τους πόρους για εργασίες εκπαίδευσης και συμπερασμάτων. Για μια λίστα με τις διαθέσιμες εικόνες DLC, βλ Διαθέσιμες εικόνες Deep Learning Containers. Διατηρούνται και ενημερώνονται τακτικά με ενημερώσεις κώδικα ασφαλείας. Μπορείτε να βρείτε πολλά παραδείγματα για το πώς να εκπαιδεύσετε μοντέλα Hugging Face με αυτά τα DLC και τα Hugging Face Python SDK στα ακόλουθα GitHub repo.

Το σύνολο δεδομένων PAWS

Συνειδητοποιώντας την έλλειψη αποτελεσματικών συνόλων δεδομένων ζευγών προτάσεων που παρουσιάζουν υψηλή λεξιλογική επικάλυψη χωρίς να είναι παραφράσεις, το πρωτότυπο PAWS Το σύνολο δεδομένων που κυκλοφόρησε το 2019 είχε ως στόχο να προσφέρει στην κοινότητα επεξεργασίας φυσικής γλώσσας (NLP) έναν νέο πόρο για εκπαίδευση και αξιολόγηση μοντέλων ανίχνευσης παράφρασης. Τα ζεύγη προτάσεων PAWS δημιουργούνται σε δύο βήματα χρησιμοποιώντας Wikipedia και την Ζεύγη ερωτήσεων Quora (QQP) σύνολο δεδομένων. Ένα γλωσσικό μοντέλο ανταλλάσσει πρώτα λέξεις σε ένα ζεύγος προτάσεων με το ίδιο Bag of Words (BOW) για να δημιουργήσει ένα ζεύγος προτάσεων. Στη συνέχεια, ένα βήμα πίσω μετάφρασης δημιουργεί παραφράσεις με αλληλεπικάλυψη με υψηλό BOW αλλά χρησιμοποιώντας διαφορετική σειρά λέξεων. Το τελικό σύνολο δεδομένων PAWS περιέχει συνολικά 108,000 ζεύγη που έχουν επισημανθεί με τον άνθρωπο και 656,000 θορυβώδη σήμανση.

Σε αυτήν την ανάρτηση, χρησιμοποιούμε το PAWS-Wiki Labeled (Τελικό) σύνολο δεδομένων από το Hugging Face. Το Hugging Face έχει ήδη πραγματοποιήσει τη διαίρεση δεδομένων για εμάς, η οποία έχει ως αποτέλεσμα 49,000 ζεύγη προτάσεων στο σύνολο δεδομένων εκπαίδευσης και 8,000 ζεύγη προτάσεων το καθένα για τα σύνολα δεδομένων επικύρωσης και δοκιμής. Παραδείγματα δύο ζευγών προτάσεων από το σύνολο δεδομένων εκπαίδευσης φαίνονται στο ακόλουθο παράδειγμα. Μια ετικέτα 1 υποδηλώνει ότι οι δύο προτάσεις είναι παραφράσεις η μία της άλλης.

Πρόταση 1	Πρόταση 2	επιγραφή
Αν και εναλλάξιμα, τα κομμάτια του αμαξώματος στα 2 αυτοκίνητα δεν είναι παρόμοια.	Αν και παρόμοια, τα μέρη του αμαξώματος δεν είναι εναλλάξιμα στα 2 αυτοκίνητα.	0
Ο Katz γεννήθηκε στη Σουηδία το 1947 και μετακόμισε στη Νέα Υόρκη σε ηλικία 1 ετών.	Ο Katz γεννήθηκε το 1947 στη Σουηδία και μετακόμισε στη Νέα Υόρκη σε ηλικία ενός έτους.	1

Προϋποθέσεις

Πρέπει να συμπληρώσετε τις ακόλουθες προϋποθέσεις:

Εγγραφείτε για έναν λογαριασμό AWS εάν δεν έχετε. Για περισσότερες πληροφορίες, βλ Ρυθμίστε τις προϋποθέσεις του Amazon SageMaker.
Ξεκινήστε να χρησιμοποιείτε Περιπτώσεις σημειωματάριου SageMaker.
Ρύθμιση του δεξιού Διαχείριση ταυτότητας και πρόσβασης AWS άδειες (IAM). Για περισσότερες πληροφορίες, βλ Ρόλοι SageMaker.

Ρυθμίστε το περιβάλλον

Προτού αρχίσουμε να εξετάζουμε και να προετοιμάζουμε τα δεδομένα μας για τη βελτίωση του μοντέλου, πρέπει να ρυθμίσουμε το περιβάλλον μας. Ας ξεκινήσουμε περιστρέφοντας ένα παράδειγμα φορητού υπολογιστή SageMaker. Επιλέξτε μια περιοχή AWS στον λογαριασμό σας AWS και ακολουθήστε τις οδηγίες για δημιουργήστε μια παρουσία σημειωματάριου SageMaker. Η εμφάνιση του σημειωματάριου μπορεί να χρειαστούν μερικά λεπτά για να περιστραφεί.

Όταν εκτελείται η παρουσία του φορητού υπολογιστή, επιλέξτε conda_pytorch_p38 ως τον τύπο του πυρήνα σας. Για να χρησιμοποιήσουμε το σύνολο δεδομένων Hugging Face, πρέπει πρώτα να εγκαταστήσουμε και να εισαγάγουμε τη βιβλιοθήκη Hugging Face:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

Στη συνέχεια, ας δημιουργήσουμε μια συνεδρία SageMaker. Χρησιμοποιούμε την προεπιλογή Απλή υπηρεσία αποθήκευσης Amazon Κάδος (Amazon S3) που σχετίζεται με τη συνεδρία SageMaker για την αποθήκευση του συνόλου δεδομένων PAWS και των τεχνουργημάτων μοντέλων:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

Προετοιμάστε τα δεδομένα

Μπορούμε να φορτώσουμε την έκδοση Hugging Face του συνόλου δεδομένων PAWS μαζί του load_dataset() εντολή. Αυτή η κλήση κατεβάζει και εισάγει το σενάριο επεξεργασίας PAWS Python από το αποθετήριο Hugging Face GitHub, το οποίο στη συνέχεια κατεβάζει το σύνολο δεδομένων PAWS από την αρχική διεύθυνση URL που είναι αποθηκευμένη στο σενάριο και αποθηκεύει τα δεδομένα ως πίνακα βέλους στη μονάδα δίσκου. Δείτε τον παρακάτω κώδικα:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

Πριν αρχίσουμε να τελειοποιούμε το προεκπαιδευμένο μοντέλο BERT, ας δούμε τη διανομή της κατηγορίας-στόχου μας. Για την περίπτωση χρήσης μας, το σύνολο δεδομένων PAWS έχει δυαδικές ετικέτες (0 υποδηλώνει ότι το ζεύγος προτάσεων δεν είναι παράφραση και το 1 σημαίνει ότι είναι). Ας δημιουργήσουμε ένα γράφημα στηλών για να προβάλουμε την κατανομή της κλάσης, όπως φαίνεται στον παρακάτω κώδικα. Βλέπουμε ότι υπάρχει ένα μικρό ζήτημα ανισορροπίας κατηγορίας στο σετ προπόνησής μας (56% αρνητικά δείγματα έναντι 44% θετικά δείγματα). Ωστόσο, η ανισορροπία είναι αρκετά μικρή ώστε να αποφευχθεί η χρήση τεχνικών μετριασμού της ανισορροπίας τάξης.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

Προσαρμόστε το σύνολο δεδομένων

Για να μπορέσουμε να ξεκινήσουμε τη λεπτομέρεια, πρέπει να κάνουμε tokenize το σύνολο δεδομένων μας. Ως σημείο εκκίνησης, ας πούμε ότι θέλουμε να τελειοποιήσουμε και να αξιολογήσουμε το roberta-base μετασχηματιστής. Επιλέξαμε roberta-base επειδή είναι ένας μετασχηματιστής γενικής χρήσης που ήταν προεκπαιδευμένος σε ένα μεγάλο σύνολο αγγλικών δεδομένων και έχει συχνά δείξει υψηλή απόδοση σε μια ποικιλία εργασιών NLP. Το μοντέλο παρουσιάστηκε αρχικά στην εφημερίδα RoBERTa: Μια ισχυρά βελτιστοποιημένη προσέγγιση προ-κατάρτισης BERT.

Πραγματοποιούμε συμβολισμό στις προτάσεις με α roberta-base Tokenizer από το Hugging Face, το οποίο χρησιμοποιεί κωδικοποίηση ζεύγους Byte σε επίπεδο byte για να χωρίσει το έγγραφο σε διακριτικά. Για περισσότερες λεπτομέρειες σχετικά με το Tokenizer RoBERTa, ανατρέξτε στο RobertaTokenizer. Επειδή οι εισαγωγές μας είναι ζεύγη προτάσεων, πρέπει να κάνουμε διακριτική και τις δύο προτάσεις ταυτόχρονα. Επειδή τα περισσότερα μοντέλα BERT απαιτούν η είσοδος να έχει ένα σταθερό μήκος εισόδου με διακριτικό, ορίζουμε τις ακόλουθες παραμέτρους: max_len=128 και truncation=True. Δείτε τον ακόλουθο κώδικα:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

Το τελευταίο βήμα προεπεξεργασίας για την τελειοποίηση του μοντέλου BERT μας είναι να μετατρέψουμε τα σύνολα δεδομένων αμαξοστοιχίας και επικύρωσης σε διακριτικά σε τανυστές PyTorch και να τα ανεβάσουμε στον κάδο S3:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

Βελτιώστε το μοντέλο

Τώρα που τελειώσαμε με την προετοιμασία των δεδομένων, είμαστε έτοιμοι να βελτιστοποιήσουμε την προεκπαίδευσή μας roberta-base μοντέλο για την εργασία αναγνώρισης παράφρασης. Μπορούμε να χρησιμοποιήσουμε την κλάση SageMaker Hugging Face Estimator για να ξεκινήσουμε τη διαδικασία λεπτομέρειας σε δύο βήματα. Το πρώτο βήμα είναι να καθοριστούν οι υπερπαράμετροι εκπαίδευσης και οι μετρικοί ορισμοί. Η μεταβλητή μετρικών ορισμών λέει στον Εκτιμητή Hugging Face ποιους τύπους μετρήσεων πρέπει να εξαγάγει από τα αρχεία καταγραφής εκπαίδευσης του μοντέλου. Εδώ, μας ενδιαφέρει πρωτίστως να εξάγουμε μετρήσεις συνόλων επικύρωσης σε κάθε περίοδο εκπαίδευσης.

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

Το δεύτερο βήμα είναι να δημιουργήσετε τον Εκτιμητή Hugging Face και να ξεκινήσετε τη διαδικασία λεπτομέρειας με το .fit() μέθοδος:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

Η διαδικασία λεπτομέρειας διαρκεί περίπου 30 λεπτά χρησιμοποιώντας τις καθορισμένες υπερπαραμέτρους.

Αναπτύξτε το μοντέλο και εκτελέστε συμπέρασμα

Το SageMaker προσφέρει πολλαπλές επιλογές ανάπτυξης ανάλογα με την περίπτωση χρήσης σας. Για μόνιμα τελικά σημεία σε πραγματικό χρόνο που κάνουν μία πρόβλεψη κάθε φορά, συνιστούμε τη χρήση Υπηρεσίες φιλοξενίας SageMaker σε πραγματικό χρόνο. Εάν έχετε φόρτους εργασίας που έχουν περιόδους αδράνειας μεταξύ των εκρήξεων κυκλοφορίας και μπορούν να ανεχθούν ψυχρές εκκινήσεις, συνιστούμε να χρησιμοποιήσετε Συμπεράσματα χωρίς διακομιστή. Τα τελικά σημεία χωρίς διακομιστή εκκινούν αυτόματα υπολογιστικούς πόρους και τους κλιμακώνουν μέσα και έξω ανάλογα με την επισκεψιμότητα, εξαλείφοντας την ανάγκη επιλογής τύπων παρουσιών ή διαχείρισης πολιτικών κλιμάκωσης. Δείχνουμε πώς να αναπτύξουμε το τελειοποιημένο μοντέλο Hugging Face τόσο σε τελικό σημείο συμπερασμάτων σε πραγματικό χρόνο όσο και σε τελικό σημείο συμπερασμάτων χωρίς διακομιστή.

Ανάπτυξη σε τελικό σημείο συμπερασμάτων σε πραγματικό χρόνο

Μπορείτε να αναπτύξετε ένα αντικείμενο εκπαίδευσης σε φιλοξενία συμπερασμάτων σε πραγματικό χρόνο μέσα στο SageMaker χρησιμοποιώντας το .deploy() μέθοδος. Για μια πλήρη λίστα με τις αποδεκτές παραμέτρους, ανατρέξτε στο Αγκαλιασμένο μοντέλο προσώπου. Για να ξεκινήσουμε, ας αναπτύξουμε το μοντέλο σε μια παρουσία, περνώντας τις ακόλουθες παραμέτρους: initial_instance_count, instance_type, να endpoint_name. Δείτε τον ακόλουθο κώδικα:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

Το μοντέλο διαρκεί λίγα λεπτά για να αναπτυχθεί. Μετά την ανάπτυξη του μοντέλου, μπορούμε να υποβάλουμε δείγματα εγγραφών από το αόρατο σύνολο δεδομένων δοκιμής στο τελικό σημείο για συμπέρασμα.

Ανάπτυξη σε τελικό σημείο συμπερασμάτων χωρίς διακομιστή

Για να αναπτύξουμε το εκπαιδευτικό μας αντικείμενο σε ένα τελικό σημείο χωρίς διακομιστή, πρέπει πρώτα να καθορίσουμε ένα αρχείο διαμόρφωσης χωρίς διακομιστή με memory_size_in_mb και max_concurrency επιχειρήματα:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb καθορίζει το συνολικό μέγεθος RAM του τερματικού σημείου χωρίς διακομιστή. το ελάχιστο μέγεθος RAM είναι 1024 MB (1 GB) και μπορεί να κλιμακωθεί έως και 6144 MB (6 GB). Γενικά, θα πρέπει να επιδιώκετε να επιλέξετε ένα μέγεθος μνήμης που είναι τουλάχιστον τόσο μεγάλο όσο το μέγεθος του μοντέλου σας. max_concurrency ορίζει το όριο για το πόσες ταυτόχρονες κλήσεις μπορούν να υποβληθούν σε επεξεργασία ταυτόχρονα (έως 50 ταυτόχρονες κλήσεις) για ένα μόνο τελικό σημείο.

Πρέπει επίσης να παρέχουμε το URI συμπερασμάτων εικόνας Hugging Face, το οποίο μπορείτε να ανακτήσετε χρησιμοποιώντας τον ακόλουθο κώδικα:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

Τώρα που έχουμε το αρχείο διαμόρφωσης χωρίς διακομιστή, μπορούμε να δημιουργήσουμε ένα τελικό σημείο χωρίς διακομιστή με τον ίδιο τρόπο όπως το τελικό σημείο συμπερασμάτων σε πραγματικό χρόνο, χρησιμοποιώντας το .deploy() μέθοδος:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

Το τελικό σημείο θα πρέπει να δημιουργηθεί σε λίγα λεπτά.

Εκτελέστε συμπέρασμα μοντέλου

Για να κάνουμε προβλέψεις, πρέπει να δημιουργήσουμε το ζεύγος προτάσεων προσθέτοντας το [CLS] και [SEP] ειδικά διακριτικά και στη συνέχεια να υποβάλουν τα δεδομένα εισόδου στα τελικά σημεία του μοντέλου. Η σύνταξη για την εξαγωγή συμπερασμάτων σε πραγματικό χρόνο και την εξαγωγή συμπερασμάτων χωρίς διακομιστή είναι η ίδια:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

Στα ακόλουθα παραδείγματα, μπορούμε να δούμε ότι το μοντέλο είναι ικανό να ταξινομήσει σωστά εάν το ζεύγος προτάσεων εισαγωγής περιέχει παραφρασμένες προτάσεις.

Το παρακάτω είναι ένα παράδειγμα συμπερασμάτων σε πραγματικό χρόνο.

Το παρακάτω είναι ένα παράδειγμα συμπερασμάτων χωρίς διακομιστή.

Αξιολογήστε την απόδοση του μοντέλου

Για να αξιολογήσουμε το μοντέλο, ας επεκτείνουμε τον προηγούμενο κώδικα και ας υποβάλουμε και τις 8,000 μη εμφανείς εγγραφές δοκιμής στο τελικό σημείο σε πραγματικό χρόνο:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

Στη συνέχεια, μπορούμε να δημιουργήσουμε μια αναφορά ταξινόμησης χρησιμοποιώντας τις εξαγόμενες προβλέψεις:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

Παίρνουμε τις παρακάτω βαθμολογίες τεστ.

Μπορούμε να το παρατηρήσουμε roberta-base έχει συνδυασμένη μακρο-μέση βαθμολογία F1 92% και έχει ελαφρώς καλύτερη απόδοση στον εντοπισμό προτάσεων που είναι παραφράσεις. ο roberta-base Το μοντέλο έχει καλή απόδοση, αλλά είναι καλή πρακτική να υπολογίζετε την απόδοση του μοντέλου χρησιμοποιώντας τουλάχιστον ένα άλλο μοντέλο.

Ο παρακάτω πίνακας συγκρίνει roberta-base αποτελέσματα απόδοσης στο ίδιο σύνολο δοκιμών έναντι ενός άλλου βελτιωμένου μετασχηματιστή που ονομάζεται paraphrase-mpnet-base-v2, ένας μετασχηματιστής προτάσεων προεκπαιδευμένος ειδικά για την εργασία αναγνώρισης παράφρασης. Και τα δύο μοντέλα εκπαιδεύτηκαν σε ένα παράδειγμα ml.p3.8xlarge.

Τα αποτελέσματα δείχνουν ότι roberta-base έχει 1% υψηλότερη βαθμολογία F1 με πολύ παρόμοιους χρόνους προπόνησης και συμπερασμάτων χρησιμοποιώντας φιλοξενία συμπερασμάτων σε πραγματικό χρόνο στο SageMaker. Η διαφορά απόδοσης μεταξύ των μοντέλων είναι σχετικά μικρή, ωστόσο, roberta-base είναι τελικά ο νικητής αφού έχει οριακά καλύτερες μετρήσεις απόδοσης και σχεδόν ίδιους χρόνους εκπαίδευσης και συμπερασμάτων.

Ακρίβεια

Ανάκληση

F1-σκορ

Χρόνος εκπαίδευσης (χρεώσιμος)

Χρόνος συμπερασμάτων (πλήρες σετ δοκιμής)

ρομπέρτα-βάση

0.92

0.93

0.92

18 λεπτά

2 λεπτά

παράφραση-mpnet-

βάση-v2

0.92

0.91

17 λεπτά

2 λεπτά

εκκαθάριση

Όταν ολοκληρώσετε τη χρήση των τελικών σημείων του μοντέλου, μπορείτε να τα διαγράψετε για να αποφύγετε μελλοντικές χρεώσεις:

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

Συμπέρασμα

Σε αυτήν την ανάρτηση, συζητήσαμε πώς να δημιουργήσετε γρήγορα ένα μοντέλο αναγνώρισης παράφρασης χρησιμοποιώντας μετασχηματιστές Hugging Face στο SageMaker. Συντονίσαμε δύο προεκπαιδευμένους μετασχηματιστές, roberta-base και paraphrase-mpnet-base-v2, χρησιμοποιώντας το σύνολο δεδομένων PAWS (το οποίο περιέχει ζεύγη προτάσεων με υψηλή λεξική επικάλυψη). Επιδείξαμε και συζητήσαμε τα πλεονεκτήματα της ανάπτυξης συμπερασμάτων σε πραγματικό χρόνο έναντι της ανάπτυξης συμπερασμάτων χωρίς διακομιστή, η οποία είναι μια νέα δυνατότητα που στοχεύει αιχμηρούς φόρτους εργασίας και εξαλείφει την ανάγκη διαχείρισης πολιτικών κλιμάκωσης. Σε ένα αόρατο σύνολο δοκιμών με 8,000 ρεκόρ, δείξαμε ότι και τα δύο μοντέλα πέτυχαν βαθμολογία F1 μεγαλύτερη από 90%.

Για να επεκτείνετε αυτήν τη λύση, εξετάστε τα εξής:

Δοκιμάστε να βελτιώσετε το δικό σας προσαρμοσμένο σύνολο δεδομένων. Εάν δεν έχετε επαρκείς ετικέτες εκπαίδευσης, θα μπορούσατε να αξιολογήσετε την απόδοση ενός βελτιωμένου μοντέλου όπως αυτό που παρουσιάζεται σε αυτήν την ανάρτηση σε ένα προσαρμοσμένο σύνολο δεδομένων δοκιμής.
Ενσωματώστε αυτό το προσαρμοσμένο μοντέλο σε μια μεταγενέστερη εφαρμογή που απαιτεί πληροφορίες σχετικά με το εάν δύο προτάσεις (ή τμήματα κειμένου) είναι παραφράσεις η μία της άλλης.

Καλό κτίριο!

Σχετικά με τους Συγγραφείς

Μπάλα Κρισναμούρθυ είναι Επιστήμονας Δεδομένων με Επαγγελματικές Υπηρεσίες AWS, όπου του αρέσει να εφαρμόζει μηχανική εκμάθηση για την επίλυση επιχειρηματικών προβλημάτων πελατών. Ειδικεύεται σε περιπτώσεις χρήσης επεξεργασίας φυσικής γλώσσας και έχει συνεργαστεί με πελάτες σε κλάδους όπως το λογισμικό, τα οικονομικά και η υγειονομική περίθαλψη. Στον ελεύθερο χρόνο του, του αρέσει να δοκιμάζει νέο φαγητό, να παρακολουθεί κωμωδίες και ντοκιμαντέρ, να γυμνάζεται στο Orange Theory και να βρίσκεται έξω στο νερό (κουπί, κολύμβηση με αναπνευστήρα και ελπίζουμε να καταδύσεις σύντομα).

Ιβάν Κούι είναι Επιστήμονας Δεδομένων με AWS Professional Services, όπου βοηθά τους πελάτες να δημιουργήσουν και να αναπτύξουν λύσεις χρησιμοποιώντας μηχανική εκμάθηση στο AWS. Έχει συνεργαστεί με πελάτες σε διάφορους κλάδους, όπως λογισμικό, χρηματοοικονομικά, φαρμακευτικά προϊόντα και υγειονομική περίθαλψη. Στον ελεύθερο χρόνο του, του αρέσει να διαβάζει, να περνά χρόνο με την οικογένειά του και να μεγιστοποιεί το χαρτοφυλάκιο των μετοχών του.