Δημιουργήστε ένα προσαρμοσμένο σύνολο δεδομένων ερωτήσεων και απαντήσεων χρησιμοποιώντας το Amazon SageMaker Ground Truth για να εκπαιδεύσετε ένα μοντέλο Q&A NLU με αγκαλιασμένο πρόσωπο

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Τα τελευταία χρόνια, η κατανόηση φυσικής γλώσσας (NLU) βρίσκει ολοένα και περισσότερο επιχειρηματική αξία, τροφοδοτούμενη από βελτιώσεις μοντέλων καθώς και από την επεκτασιμότητα και την οικονομική αποδοτικότητα της υποδομής που βασίζεται στο cloud. Συγκεκριμένα, το Μετασχηματιστής αρχιτεκτονική βαθιάς μάθησης, που συχνά υλοποιείται με τη μορφή ΜΠΕΡΤ μοντέλα, ήταν εξαιρετικά επιτυχημένη, αλλά η εκπαίδευση, η βελτιστοποίηση και η βελτιστοποίηση αυτών των μοντέλων έχει αποδειχθεί ένα δύσκολο πρόβλημα. Χάρη στο Συνεργασία AWS και Hugging Face, είναι πλέον πιο απλό να εκπαιδεύσετε και να βελτιστοποιήσετε μοντέλα NLU Amazon Sage Maker χρησιμοποιώντας το SageMaker Python SDK, αλλά η προμήθεια δεδομένων με ετικέτα για αυτά τα μοντέλα εξακολουθεί να είναι δύσκολη και χρονοβόρα.

Ένα πρόβλημα NLU ιδιαίτερου επιχειρηματικού ενδιαφέροντος είναι το καθήκον της απάντησης σε ερωτήσεις. Σε αυτήν την ανάρτηση, δείχνουμε πώς να δημιουργήσετε ένα προσαρμοσμένο σύνολο δεδομένων που απαντά σε ερωτήσεις χρησιμοποιώντας Amazon SageMaker Ground Αλήθεια για να εκπαιδεύσετε μια ερώτηση Hugging Face απαντώντας στο μοντέλο NLU.

Ερώτηση που απαντά στις προκλήσεις

Η απάντηση σε ερώτηση συνεπάγεται ένα μοντέλο που παράγει αυτόματα μια απάντηση σε ένα ερώτημα δεδομένου κάποιου κειμένου που μπορεί ή όχι να περιέχει την απάντηση. Για παράδειγμα, λαμβάνοντας υπόψη την ακόλουθη ερώτηση, "Ποιες ροές εργασίας υποστηρίζει το SageMaker Ground Truth;" ένα μοντέλο θα πρέπει να μπορεί να προσδιορίζει το τμήμα «ενοποίηση σχολιασμού και έλεγχος» στην ακόλουθη παράγραφο:

Το SageMaker Ground Truth συμβάλλει στη βελτίωση της ποιότητας των ετικετών μέσω της ενοποίησης σχολιασμών και των ροών εργασιών ελέγχου. Η ενοποίηση σχολιασμού είναι η διαδικασία συλλογής εισόδων ετικετών από δύο ή περισσότερες ετικέτες δεδομένων και συνδυασμού τους για τη δημιουργία μιας ενιαίας ετικέτας δεδομένων για το μοντέλο μηχανικής εκμάθησης. Με τις ενσωματωμένες ροές εργασιών ελέγχου και αναθεώρησης, οι εργαζόμενοι μπορούν να εκτελούν επαλήθευση ετικέτας και να κάνουν προσαρμογές για να βελτιώσουν την ακρίβεια.

Αυτό το πρόβλημα είναι προκλητικό γιατί απαιτεί ένα μοντέλο για να κατανοήσει το νόημα μιας ερώτησης, αντί να πραγματοποιήσει απλώς αναζήτηση λέξεων-κλειδιών. Τα ακριβή μοντέλα σε αυτόν τον τομέα μπορούν να μειώσουν το κόστος υποστήριξης πελατών μέσω της τροφοδοσίας έξυπνων chatbot, της παροχής προϊόντων φωνητικού βοηθού υψηλής ποιότητας και της αύξησης των εσόδων από το ηλεκτρονικό κατάστημα μέσω εξατομικευμένων απαντήσεων σε ερωτήσεις προϊόντος. Ένα μεγάλο σύνολο δεδομένων σε αυτήν την περιοχή είναι το Stanford Question Answering Dataset (SQuAD), ένα ποικίλο σύνολο δεδομένων απάντησης ερωτήσεων που παρουσιάζει ένα μοντέλο με σύντομα αποσπάσματα κειμένου και απαιτεί από το μοντέλο να προβλέψει τη θέση του εύρους του απαντητικού κειμένου στο απόσπασμα. Το SQuAD είναι ένα σύνολο δεδομένων κατανόησης ανάγνωσης, που αποτελείται από ερωτήσεις που τίθενται από πλήθος εργαζομένων σε ένα σύνολο άρθρων της Wikipedia, όπου η απάντηση σε κάθε ερώτηση είναι είτε ένα εύρος κειμένου από το αντίστοιχο απόσπασμα, είτε επισημαίνεται με άλλο τρόπο αδύνατον να απαντηθεί.

Μια πρόκληση για την προσαρμογή του SQuAD για περιπτώσεις επιχειρηματικής χρήσης είναι η δημιουργία προσαρμοσμένων συνόλων δεδομένων για συγκεκριμένο τομέα. Αυτή η διαδικασία δημιουργίας νέων συνόλων δεδομένων ερωτήσεων και απαντήσεων απαιτεί μια εξειδικευμένη διεπαφή χρήστη που επιτρέπει στους σχολιαστές να επισημαίνουν εκτάσεις και να προσθέτουν ερωτήσεις σε αυτές τις εκτάσεις. Πρέπει επίσης να μπορεί να υποστηρίζει την προσθήκη αδύνατων ερωτήσεων για την υποστήριξη της μορφής SQuAD 2.0, η οποία περιλαμβάνει ερωτήσεις που δεν μπορούν να απαντηθούν. Αυτές οι αδύνατες ερωτήσεις βοηθούν τα μοντέλα να αποκτήσουν επιπλέον κατανόηση γύρω από τα οποία δεν μπορούν να απαντηθούν ερωτήματα χρησιμοποιώντας το συγκεκριμένο απόσπασμα. ο προσαρμοσμένα πρότυπα εργαζομένων στο Ground Truth απλοποιήστε τη δημιουργία αυτών των συνόλων δεδομένων παρέχοντας στους εργαζόμενους μια προσαρμοσμένη εμπειρία σχολιασμού για τη δημιουργία συνόλων δεδομένων ερωτήσεων και απαντήσεων.

Επισκόπηση λύσεων

Αυτή η λύση δημιουργεί και διαχειρίζεται εργασίες επισήμανσης Ground Truth για την επισήμανση ενός προσαρμοσμένου συνόλου ερωτήσεων-απαντήσεων για συγκεκριμένο τομέα χρησιμοποιώντας μια προσαρμοσμένη διεπαφή χρήστη σχολιασμού. Χρησιμοποιούμε το SageMaker για να εκπαιδεύσουμε, να τελειοποιήσουμε, να βελτιστοποιήσουμε και να αναπτύξουμε ένα Hugging Face Το μοντέλο BERT δημιουργήθηκε με PyTorch σε ένα προσαρμοσμένο σύνολο δεδομένων απάντησης ερωτήσεων.

Μπορείτε να εφαρμόσετε τη λύση αναπτύσσοντας την παρεχόμενη AWS CloudFormation πρότυπο στον λογαριασμό σας AWS. Το AWS CloudFormation χειρίζεται την ανάπτυξη του AWS Lambda συναρτήσεις που υποστηρίζουν προ-σχολιασμό και ενοποίηση σχολιασμών για τη διεπαφή χρήστη σχολιασμού. Δημιουργεί επίσης ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος και το Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ρόλους που πρέπει να χρησιμοποιείτε κατά τη δημιουργία μιας εργασίας επισήμανσης.

Αυτή η ανάρτηση σας καθοδηγεί στο πώς να κάνετε τα εξής:

Δημιουργήστε το δικό σας σύνολο δεδομένων απάντησης ερωτήσεων ή αυξήστε ένα υπάρχον χρησιμοποιώντας το Ground Truth
Χρησιμοποιήστε τα σύνολα δεδομένων Hugging Face για να συνδυάσετε και να κάνετε διακριτικό κείμενο
Βελτιστοποιήστε ένα μοντέλο BERT στα δεδομένα απαντήσεων στην ερώτησή σας χρησιμοποιώντας την εκπαίδευση του SageMaker
Αναπτύξτε το μοντέλο σας σε ένα τελικό σημείο του SageMaker και οπτικοποιήστε τα αποτελέσματά σας

Διεπαφή χρήστη σχολιασμού

Χρησιμοποιούμε ένα νέο προσαρμοσμένο πρότυπο εργασιών εργαζόμενου με το Ground Truth για να προσθέσετε νέους σχολιασμούς στο υπάρχον σύνολο δεδομένων SQuAD. Αυτή η λύση προσφέρει ένα πρότυπο εργασιών εργασίας, καθώς και μια συνάρτηση Lambda πριν από τον σχολιασμό (η οποία χειρίζεται την τοποθέτηση δεδομένων στη διεπαφή χρήστη) και τη λειτουργία Lambda μετά τον σχολιασμό (η οποία εξάγει αποτελέσματα από τη διεπαφή χρήστη μετά την ολοκλήρωση της ετικέτας).

Αυτό το προσαρμοσμένο πρότυπο εργασιών εργαζόμενου σάς δίνει τη δυνατότητα να επισημάνετε κείμενο στο δεξιό τμήμα του παραθύρου και, στη συνέχεια, να προσθέσετε μια αντίστοιχη ερώτηση στο αριστερό παράθυρο που σχετίζεται με το επισημασμένο κείμενο. Το επισημασμένο κείμενο στο δεξιό παράθυρο μπορεί επίσης να προστεθεί σε οποιαδήποτε ερώτηση που δημιουργήθηκε προηγουμένως. Επιπλέον, μπορείτε να προσθέσετε αδύνατες ερωτήσεις σύμφωνα με SQUAD 2.0 μορφή. Οι αδύνατες ερωτήσεις επιτρέπουν στα μοντέλα να μειώσουν τον αριθμό των αναξιόπιστων ψευδώς θετικών εικασιών όταν το απόσπασμα δεν μπορεί να απαντήσει σε ένα ερώτημα.

Αυτή η διεπαφή χρήστη χρησιμοποιεί το ίδιο σχήμα JSON με το σύνολο δεδομένων SQuAD 2.0, πράγμα που σημαίνει ότι μπορεί να λειτουργήσει σε πολλά άρθρα και παραγράφους, εμφανίζοντας μία παράγραφο τη φορά χρησιμοποιώντας το Προηγούμενο και Επόμενο κουμπιά. Η διεπαφή χρήστη διευκολύνει την παρακολούθηση και τον προσδιορισμό της εργασίας επισήμανσης που πρέπει να ολοκληρώσει κάθε σχολιαστής κατά τη διάρκεια του βήματος υποβολής εργασιών.

Επειδή η διεπαφή χρήστη σχολιασμού περιέχεται σε ένα ενιαίο Υγρό αρχείο HTML, μπορείτε να προσαρμόσετε την εμπειρία επισήμανσης με γνώση βασικής JavaScript. Μπορείτε επίσης να τροποποιήσετε Υγρές ετικέτες για να μεταβιβάσετε πρόσθετες πληροφορίες στη διεπαφή χρήστη ετικετών και μπορείτε να τροποποιήσετε το ίδιο το πρότυπο ώστε να περιλαμβάνει πιο λεπτομερείς οδηγίες εργασίας.

Εκτιμώμενο κόστος

Η ανάπτυξη αυτής της λύσης μπορεί να έχει μέγιστο κόστος περίπου 20 $, χωρίς να υπολογίζεται το κόστος της ανθρώπινης επισήμανσης. Το Amazon S3, το Lambda, το SageMaker και το Ground Truth προσφέρουν όλα Χωρίς επίπεδο AWS, με χρεώσεις για επιπλέον χρήση. Για περισσότερες πληροφορίες, ανατρέξτε στις ακόλουθες σελίδες τιμών:

Τιμολόγηση Amazon S3
Τιμές AWS Lambda
Τιμολόγηση του Amazon SageMaker
Τιμολόγηση ετικετών δεδομένων Amazon SageMaker – Αυτή η αμοιβή εξαρτάται από τον τύπο του εργατικού δυναμικού που χρησιμοποιείτε. Εάν είστε νέος χρήστης του Ground Truth, προτείνουμε να χρησιμοποιήσετε ένα ιδιωτικό εργατικό δυναμικό και να συμπεριλάβετε τον εαυτό σας ως εργαζόμενο για να δοκιμάσετε τη διαμόρφωση της εργασίας σας για την τοποθέτηση ετικετών.

Προϋποθέσεις

Για να εφαρμόσετε αυτήν τη λύση, θα πρέπει να έχετε τις ακόλουθες προϋποθέσεις:

An Λογαριασμός AWS.
Εξοικείωση με την Επίγεια Αλήθεια. Για περισσότερες πληροφορίες, ανατρέξτε στο Χρησιμοποιήστε το Amazon SageMaker Ground Truth για την επισήμανση δεδομένων.
Εξοικείωση με το AWS CloudFormation. Για περισσότερες πληροφορίες, ανατρέξτε στο Οδηγός χρήστη AWS CloudFormation.
Ένας SageMaker εργατικό δυναμικό. Για αυτήν την επίδειξη, χρησιμοποιούμε ιδιωτικό εργατικό δυναμικό. Μπορείτε να δημιουργήσετε ένα εργατικό δυναμικό στην κονσόλα SageMaker.

Το παρακάτω GIF δείχνει πώς να δημιουργήσετε ένα ιδιωτικό εργατικό δυναμικό. Για οδηγίες, βλ Δημιουργία εργατικού δυναμικού Cognito Amazon χρησιμοποιώντας τη σελίδα επισήμανσης εργατικού δυναμικού.

Δημιουργήστε ένα προσαρμοσμένο σύνολο δεδομένων Q&A χρησιμοποιώντας το Amazon SageMaker Ground Truth για να εκπαιδεύσετε ένα Hugging Face Q&A NLU μοντέλο PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εκκινήστε τη Στοίβα CloudFormation

Τώρα που έχετε δει τη δομή της λύσης, την αναπτύσσετε στον λογαριασμό σας, ώστε να μπορείτε να εκτελέσετε ένα παράδειγμα ροής εργασίας. Όλα τα βήματα ανάπτυξης που σχετίζονται με τη διοχέτευση ετικετών διαχειρίζονται από το AWS CloudFormation. Αυτό σημαίνει ότι το AWS CloudFormation δημιουργεί τις λειτουργίες Lambda προ-σχολιασμού και ενοποίησης σχολιασμού, καθώς και έναν κάδο S3 για την αποθήκευση δεδομένων εισόδου και εξόδου.

Μπορείτε να ξεκινήσετε τη στοίβα στην περιοχή AWS us-east-1 στην κονσόλα AWS CloudFormation χρησιμοποιώντας το Εκκίνηση στοίβας κουμπί. Για να εκκινήσετε τη στοίβα σε διαφορετική Περιοχή, χρησιμοποιήστε τις οδηγίες που βρίσκονται στο README του Αποθετήριο GitHub.

Λειτουργήστε το σημειωματάριο

Μετά την ανάπτυξη της λύσης στο λογαριασμό σας, ένα παράδειγμα σημειωματάριου με το όνομα gt-hf-squad-notebook είναι διαθέσιμο στον λογαριασμό σας. Για να ξεκινήσετε τη λειτουργία του φορητού υπολογιστή, ολοκληρώστε τα παρακάτω βήματα:

Στην κονσόλα Amazon SageMaker, μεταβείτε στη σελίδα παρουσίας σημειωματαρίου.
Επιλέξτε Ανοίξτε το JupyterLab για να ανοίξετε το παράδειγμα.
Μέσα στο παράδειγμα, περιηγηθείτε στο αποθετήριο hf-gt-custom-qa και ανοίξτε το σημειωματάριο hf_squad_finetuning.ipynb.
Επιλέξτε conda_pytorch_p38 ως πυρήνας σας.

Τώρα που δημιουργήσατε μια παρουσία σημειωματάριου και ανοίξατε το σημειωματάριο, μπορείτε να εκτελέσετε κελιά στο σημειωματάριο για να λειτουργήσετε τη λύση. Το υπόλοιπο αυτής της ανάρτησης παρέχει πρόσθετες λεπτομέρειες για κάθε ενότητα στο σημειωματάριο καθώς προχωράτε.

Κατεβάστε και ελέγξτε τα δεδομένα

Η Σύνολο δεδομένων SQuAD περιέχει ένα σύνολο δεδομένων εκπαίδευσης καθώς και σύνολα δεδομένων δοκιμών και ανάπτυξης. Το σημειωματάριο κατεβάζει το σύνολο δεδομένων SQuAD2.0 για εσάς, αλλά μπορείτε να επιλέξετε ποια έκδοση του SQuAD θα χρησιμοποιήσετε τροποποιώντας το κελί του σημειωματάριου στο Κατεβάστε και ελέγξτε τα δεδομένα.

Το SQuAD δημιουργήθηκε από τους Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev και Percy Liang. Για περισσότερες πληροφορίες, ανατρέξτε στο αρχικό χαρτί και σύνολο δεδομένων. Το SQuAD έχει λάβει άδεια από τους δημιουργούς σύμφωνα με το Creative Commons Attribution-ShareAlike 4.0 International Public License.

Ας δούμε ένα παράδειγμα ζεύγους ερωτήσεων και απαντήσεων από το SQuAD:

Τίτλος παραγράφου: Immune_system

Το ανοσοποιητικό σύστημα είναι ένα σύστημα πολλών βιολογικών δομών και διεργασιών μέσα σε έναν οργανισμό που προστατεύει από ασθένειες. Για να λειτουργήσει σωστά, ένα ανοσοποιητικό σύστημα πρέπει να ανιχνεύσει μια μεγάλη ποικιλία παραγόντων, γνωστών ως παθογόνων, από ιούς έως παρασιτικά σκουλήκια, και να τους διακρίνει από τον υγιή ιστό του ίδιου του οργανισμού. Σε πολλά είδη, το ανοσοποιητικό σύστημα μπορεί να ταξινομηθεί σε υποσυστήματα, όπως το έμφυτο ανοσοποιητικό σύστημα έναντι του προσαρμοστικού ανοσοποιητικού συστήματος ή η χυμική ανοσία έναντι της κυτταρικής ανοσίας. Στους ανθρώπους, ο αιματοεγκεφαλικός φραγμός, ο φραγμός αίματος-εγκεφαλονωτιαίου υγρού και παρόμοιοι φραγμοί υγρού-εγκεφάλου διαχωρίζουν το περιφερικό ανοσοποιητικό σύστημα από το νευροάνοσο σύστημα που προστατεύει τον εγκέφαλο.

Ερώτηση: Το ανοσοποιητικό σύστημα προστατεύει τους οργανισμούς από τι;

Απάντηση: ασθένεια

Μοντέλο φόρτωσης

Τώρα που έχετε δει ένα παράδειγμα ζεύγους ερωτήσεων και απαντήσεων στο SQuAD, μπορείτε να κάνετε λήψη ενός μοντέλου που μπορείτε να ρυθμίσετε με ακρίβεια για την απάντηση ερωτήσεων. Το Hugging Face σάς επιτρέπει να κατεβάσετε εύκολα ένα βασικό μοντέλο που έχει υποβληθεί σε μεγάλης κλίμακας προ-εκπαίδευση και να το αρχικοποιήσετε ξανά για μια διαφορετική εργασία κατάντη. Σε αυτήν την περίπτωση, κατεβάζετε το distilbert-base-uncased μοντέλο και επαναχρησιμοποιήστε το για απάντηση ερωτήσεων χρησιμοποιώντας το AutoModelForQuestionAnswering τάξη από το Hugging Face. Χρησιμοποιείτε επίσης το AutoTokenizer τάξη για να ανακτήσετε τον προεκπαιδευμένο tokenizer του μοντέλου. Βουτάμε πιο βαθιά στο μοντέλο που χρησιμοποιούμε αργότερα στην ανάρτηση.

Προβολή εισόδου BERT

Το BERT απαιτεί να μετατρέψετε τα δεδομένα κειμένου σε μια αριθμητική αναπαράσταση γνωστή ως μάρκες. Υπάρχει μια ποικιλία από tokenizers διαθέσιμα. τα ακόλουθα διακριτικά δημιουργήθηκαν από ένα tokenizer ειδικά σχεδιασμένο για BERT που μπορείτε να δημιουργήσετε με ένα καθορισμένο λεξιλόγιο. Κάθε διακριτικό αντιστοιχεί σε μια λέξη στο λεξιλόγιο. Ας δούμε την ερώτηση του μετασχηματισμένου ανοσοποιητικού συστήματος και το πλαίσιο που παρέχετε στο BERT για συμπέρασμα.

{'input_ids': tensor([[ 0, 133, 9161, 467, 15899, 28340, 136, 99, 116, 2, 2, 133, 9161, 467, 16, 10, 467, 9, 171, 12243, 6609, 8, 5588, 624, 41, 33993, 14, 15899, 136, 2199, 4, 598, 5043, 5083, 6, 41, 9161, 467, 531, 10933, 10, 1810, 3143, 9, 3525, 6, 684, 25, 35904, 6, 31, 21717, 7, 43108, 31483, 6, 8, 22929, 106, 31, 5, 33993, 18, 308, 2245, 11576, 4, 96, 171, 4707, 6, 5, 9161, 467, 64, 28, 8967, 88, 44890, 29, 6, 215, 25, 5, 36154, 9161, 467, 4411, 5, 28760, 9161, 467, 6, 50, 10080, 15010, 17381, 4411, 3551, 12, 43728, 17381, 4, 96, 5868, 6, 5, 1925, 2383, 36436, 9639, 6, 1925, 2383, 1755, 241, 7450, 4182, 6204, 12293, 9639, 6, 8, 1122, 12293, 2383, 36436, 7926, 2559, 5, 27727, 9161, 467, 31, 5, 14913, 42866, 467, 61, 15899, 5, 2900, 4, 2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

Συμπέρασμα μοντέλου

Τώρα που είδατε τι παίρνει ο BERT ως είσοδο, ας δούμε πώς μπορείτε να λάβετε συμπεράσματα από το μοντέλο. Ο ακόλουθος κώδικας δείχνει τον τρόπο χρήσης της προηγουμένως δημιουργηθείσας εισόδου με διακριτικό και επιστρέφει αποτελέσματα συμπερασμάτων από το μοντέλο. Παρόμοια με τον τρόπο με τον οποίο ο BERT δεν μπορεί να δεχτεί ακατέργαστο κείμενο ως είσοδο, δεν δημιουργεί ούτε ακατέργαστο κείμενο ως έξοδο. Μεταφράζετε το αποτέλεσμα του BERT προσδιορίζοντας τα σημεία έναρξης και τέλους στην παράγραφο που η BERT προσδιόρισε ως απάντηση. Στη συνέχεια, αντιστοιχίζετε αυτή την έξοδο στα διακριτικά μας και επιστρέφετε στο αγγλικό κείμενο.

outputs = model(**inputs, start_positions=start_positions, end_positions=end_positions) answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
answer_start = torch.argmax(
answer_start_scores
) # Get the most likely beginning of answer with the argmax of the score
answer_end = torch.argmax(answer_end_scores) + 1 # Get the most likely end of answer with the argmax of the score
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print(f"Question: {sq['paragraphs'][0]['qas'][0]['question']}")
print(f"Answer: {answer}")

Τα μεταφρασμένα αποτελέσματα έχουν ως εξής:

Ερώτηση: Το ανοσοποιητικό σύστημα προστατεύει τους οργανισμούς από τι;

Απάντηση: ασθένεια

Augment SQuAD

Στη συνέχεια, για να λάβουμε πρόσθετα δεδομένα με ετικέτα, χρησιμοποιούμε α προσαρμοσμένο πρότυπο εργασιών εργαζόμενου στην Επίγεια Αλήθεια. Μπορούμε πρώτα να δημιουργήσουμε ένα νέο άρθρο σε μορφή SQuAD. Το σημειωματάριο αντιγράφει αυτό το αρχείο από το repo στο Amazon S3, αλλά μη διστάσετε να κάνετε οποιεσδήποτε αλλαγές πριν εκτελέσετε το Augment SQuAD κύτταρο. Η μορφή του SQuAD φαίνεται στον παρακάτω κώδικα. Κάθε αρχείο SQuAD JSON περιέχει πολλά άρθρα που είναι αποθηκευμένα στο data κλειδί. Κάθε άρθρο έχει ένα title πεδίο και μία ή περισσότερες παραγράφους. Αυτές οι παράγραφοι περιέχουν τμήματα κειμένου που ονομάζονται context και τυχόν σχετικές ερωτήσεις στο qas λίστα. Επειδή σχολιάζουμε από την αρχή, μπορούμε να το αφήσουμε qas λίστα κενή και απλώς παρέχετε το πλαίσιο. Η διεπαφή χρήστη μπορεί να κάνει βρόχο σε παραγράφους και άρθρα, επιτρέποντάς σας να κάνετε κάθε εργασία εργαζομένου όσο μεγάλη ή μικρή θέλετε.

s3://<my-bucket-name>/custom_squad.json: { "version": "v2.0", "data": [ { "title": "Ground Truth Marketing", "paragraphs": [ { "qas": [], "context": "SageMaker Ground Truth helps improve the quality of labels through annotation consolidation and audit workflows. Annotation consolidation is the process of collecting label inputs from two or more data labelers and combining them to create a single data label for your machine learning model. With built-in audit and review workflows, workers can perform label verification and make adjustments to improve accuracy." }, { "qas": [], "context": "SageMaker Ground Truth provides automated labeling features such as ‘auto-segment’, ‘automatic 3D cuboid snapping’, and ‘sensor fusion with 2D video frames’ through an intuitive user interface in order to reduce the time needed for data labeling tasks while also improving quality. For semantic segmentation, workers must label objects in an image. Using the auto-segment feature, workers can capture the object with 4 clicks vs. hundreds." }, { "qas": [], "context": "SageMaker Ground Truth offers automatic data labeling. Using an active learning model, data is labeled and only routed to humans if the model cannot confidently label it. The human-labeled data is then used to train the machine learning model to improve its' accuracy. As a result, less data is then sent to humans in the next round of labeling which lowers data labeling costs by up to 70%." }, { "qas": [], "context": "SageMaker Ground Truth provides options to work with labelers inside and outside of your organization. Using SageMaker Ground Truth, you can easily send labeling jobs to your own labelers or you can access a workforce of over 500,000 independent contractors who are already performing machine learning related tasks through Amazon Mechanical Turk. If your data requires confidentiality or special skills, you can use vendors pre-screened by AWS for quality and security procedures, including iVision, CapeStart Inc., Cogito, and iMerit." } ] } ]
}

Αφού δημιουργήσουμε ένα δείγμα αρχείου δεδομένων SQuAD, πρέπει να δημιουργήσουμε ένα Ground Truth επαυξημένο αρχείο δήλωσης που αναφέρεται στα δεδομένα εισόδου μας. Αυτό το κάνουμε δημιουργώντας ένα αρχείο μορφοποιημένου σε γραμμές JSON με ένα "sourceκλειδί ” που αντιστοιχεί στη θέση στο Amazon S3 όπου αποθηκεύσαμε τα δεδομένα εισόδου SQuAD:

s3://<my-bucket-name>/input.manifest {"source": "s3://<my-bucket-name>/custom_squad.json"}
{"source": "s3://<my-bucket-name>/custom_squad_2.json"}
{"source": "s3://<my-bucket-name>/custom_squad_3.json"}

Πρόσβαση στην πύλη ετικετών

Αφού στείλετε την εργασία στο Ground Truth, μπορείτε να προβάλετε την εργασία επισήμανσης που δημιουργήθηκε στην κονσόλα Ground Truth.

Για να πραγματοποιήσετε επισήμανση, πρέπει να συνδεθείτε στον λογαριασμό πύλης εργαζομένων που δημιουργήσατε ως μέρος των προαπαιτούμενων βημάτων. Η εργασία σας είναι διαθέσιμη στην πύλη των εργαζομένων μετά από λίγα λεπτά προεπεξεργασίας. Αφού ανοίξετε την εργασία, σας παρουσιάζεται το προσαρμοσμένο πρότυπο εργαζόμενου για σχολιασμό Q&A. Μπορείτε να προσθέσετε ερωτήσεις επισημαίνοντας ενότητες κειμένου στο πλαίσιο και, στη συνέχεια, επιλέγοντας Προσθήκη ερώτησης.

Ελέγξτε την κατάσταση των εργασιών επισήμανσης

Μετά την υποβολή, μπορείτε να εκτελέσετε το Ελέγξτε την κατάσταση των εργασιών επισήμανσης κελί για να δείτε εάν η εργασία επισήμανσης έχει ολοκληρωθεί. Περιμένετε να ολοκληρωθεί πριν προχωρήσετε σε περαιτέρω κελιά.

Φόρτωση δεδομένων με ετικέτα

Μετά την επισήμανση, το μανιφέστο εξόδου περιέχει μια καταχώρηση με το όνομα του χαρακτηριστικού ετικέτας (σε αυτήν την περίπτωση squad-1626282229) που περιέχει δεδομένα με μορφοποίηση S3 URI σε SQuAD που μπορείτε να χρησιμοποιήσετε κατά τη διάρκεια της προπόνησης. Δείτε τα ακόλουθα περιεχόμενα δήλωσης εξόδου:

{ "source": "s3://<my-bucket-name>/custom_squad.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_2.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_3.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}

Κάθε γραμμή στο μανιφέστο αντιστοιχεί σε μια μεμονωμένη εργασία εργαζομένου.

Φόρτωση σετ τρένου SQuAD

Το Hugging Face έχει ένα πακέτο δεδομένων που σας παρέχει τη δυνατότητα λήψης και προεπεξεργασίας του SQuAD, αλλά για να προσθέσουμε τις προσαρμοσμένες ερωτήσεις και απαντήσεις μας, πρέπει να κάνουμε λίγη επεξεργασία. Το SQuAD είναι δομημένο γύρω από σύνολα θεμάτων. Κάθε θέμα έχει μια ποικιλία διαφορετικών δηλώσεων περιβάλλοντος και κάθε δήλωση περιβάλλοντος έχει ζεύγη ερωτήσεων και απαντήσεων. Επειδή θέλουμε να δημιουργήσουμε τις δικές μας ερωτήσεις για εκπαίδευση, πρέπει να συνδυάσουμε τις ερωτήσεις μας με το SQuAD. Ευτυχώς για εμάς, οι σχολιασμοί μας είναι ήδη σε μορφή SQuAD, επομένως μπορούμε να πάρουμε τις ετικέτες παραδειγμάτων μας και να τις προσθέσουμε ως νέο θέμα στα υπάρχοντα δεδομένα SQuAD.

Δημιουργήστε ένα αντικείμενο Hugging Face Dataset

Για να μεταφέρουμε τα δεδομένα μας στη μορφή δεδομένων του Hugging Face, έχουμε πολλές επιλογές. Μπορούμε να χρησιμοποιήσουμε το load_dataset επιλογή, στην οποία περίπτωση μπορούμε να παρέχουμε ένα αρχείο CSV, JSON ή κειμένου που φορτώνεται ως αντικείμενο δεδομένων. Μπορείτε επίσης να προμηθευτείτε load_dataset με ένα σενάριο επεξεργασίας για να μετατρέψετε το αρχείο σας στην επιθυμητή μορφή. Για αυτήν την ανάρτηση, χρησιμοποιούμε αντί για το Dataset.from_dict() μέθοδο, η οποία μας επιτρέπει να παρέχουμε ένα λεξικό στη μνήμη για να δημιουργήσουμε ένα αντικείμενο δεδομένων. Ορίζουμε επίσης τα χαρακτηριστικά του συνόλου μας. Μπορούμε να δούμε τα χαρακτηριστικά χρησιμοποιώντας Πρόγραμμα προβολής δεδομένων Hugging Face, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

Τα χαρακτηριστικά μας είναι τα εξής:

ID – Το αναγνωριστικό του κειμένου
τίτλος – Ο σχετικός τίτλος για το θέμα
συμφραζόμενα – Η δήλωση περιβάλλοντος που πρέπει να αναζητήσει το μοντέλο για να βρει μια απάντηση
ερώτηση – Η ερώτηση που τίθεται στο μοντέλο
απάντηση – Το αποδεκτό κείμενο απάντησης και η θέση στη δήλωση περιβάλλοντος

Τα σύνολα δεδομένων Hugging Face μας επιτρέπουν εύκολα να ορίσουμε αυτό το σχήμα:

squad_dataset = Dataset.from_dict(dataset_dict,
features=datasets.Features( { "id": datasets.Value("string"), "title": datasets.Value("string"), "context": datasets.Value("string"), "question": datasets.Value("string"), "answers": datasets.features.Sequence( { "text": datasets.Value("string"), "answer_start": datasets.Value("int32"), } ), # These are the features of your dataset like images, labels ... }
))

Αφού δημιουργήσουμε το αντικείμενο δεδομένων μας, πρέπει συμβολίζω το κείμενο. Επειδή τα μοντέλα δεν μπορούν να δεχτούν ακατέργαστο κείμενο ως είσοδο, πρέπει να μετατρέψουμε το κείμενό μας σε μια αριθμητική είσοδο που μπορεί να κατανοήσει, αλλιώς γνωστή ως tokenization. Το tokenization είναι συγκεκριμένο μοντέλο, οπότε ας καταλάβουμε το μοντέλο που πρόκειται να βελτιώσουμε. Χρησιμοποιούμε ένα αποστακτήρας-βάση-ακάλυπτος μοντέλο. Μοιάζει πολύ με το BERT: χρησιμοποιεί ενσωματώσεις εισόδου, προσοχή πολλαπλών κεφαλών (για περισσότερες πληροφορίες σχετικά με αυτήν τη λειτουργία, ανατρέξτε στο The Illustrated Transformer), και τροφοδοτεί στρώματα προς τα εμπρός, αλλά έχει τις μισές παραμέτρους από το αρχικό βασικό μοντέλο BERT. Δείτε τα ακόλουθα αρχικά επίπεδα μοντέλου:

Ας αναλύσουμε κάθε στοιχείο του τίτλου του μοντέλου. Το όνομα distilbert υποδηλώνει το γεγονός ότι πρόκειται για μια αποσταγμένη έκδοση του βασικού μοντέλου BERT, το οποίο λαμβάνεται μέσω μιας διαδικασίας που ονομάζεται απόσταξη γνώσης. Η απόσταξη γνώσης μάς επιτρέπει να εκπαιδεύσουμε ένα μικρότερο μοντέλο μαθητή όχι μόνο στα δεδομένα εκπαίδευσης αλλά και στις απαντήσεις στο ίδιο σύνολο εκπαίδευσης από ένα μεγαλύτερο προεκπαιδευμένο μοντέλο δασκάλου. base αναφέρεται στο μέγεθος του μοντέλου, στην περίπτωση αυτή το μοντέλο αποστάχθηκε από ένα βασικό μοντέλο BERT (σε αντίθεση με ένα μεγάλο μοντέλο BERT). uncased αναφέρεται στο κείμενο στο οποίο εκπαιδεύτηκε. Σε αυτήν την περίπτωση το κείμενο δεν έλαβε υπόψη την περίπτωση. όλο το κείμενο στο οποίο είχε εκπαιδευτεί ήταν πεζά. ο uncased Η πτυχή επηρεάζει άμεσα τον τρόπο με τον οποίο προσαρμόζουμε το κείμενό μας. Ευτυχώς, εκτός από την εύκολη πρόσβαση στη λήψη μοντέλων μετασχηματιστών, το Hugging Face παρέχει επίσης το συνοδευτικό tokenizer του μοντέλου. Κατεβάσαμε επίσης ένα προσαρμοσμένο tokenizer για το δικό μας distilbert-base-uncased model που χρησιμοποιούμε τώρα για να μεταμορφώσουμε το κείμενό μας:

# loadbase_model_prefix model_name = "distilbert-base-uncased" # Load model & tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# set model to evaluation mode
evl = model.eval()

Ένα άλλο χαρακτηριστικό της κλάσης δεδομένων είναι ότι μας επιτρέπει να εκτελούμε προεπεξεργασία και tokenization παράλληλα με τη λειτουργία χάρτη της. Ορίζουμε μια συνάρτηση επεξεργασίας και μετά την περνάμε στη μέθοδο χάρτη.

Για την απάντηση ερωτήσεων, το Hugging Face χρειάζεται πολλά στοιχεία (τα οποία ορίζονται επίσης στο γλωσσάριο):

μάσκα προσοχής – Μια μάσκα που υποδεικνύει στο μοντέλο σε ποια διακριτικά πρέπει να προσέξετε, που χρησιμοποιείται κυρίως για τη διαφοροποίηση μεταξύ πραγματικού κειμένου και κουπονιών συμπλήρωσης
θέσεις έναρξης – Η αρχική θέση της απάντησης στο κείμενο
τελικές θέσεις – Η τελική θέση της απάντησης στο κείμενο
input_ids – Οι δείκτες συμβολικών που αντιστοιχίζουν τα διακριτικά στο λεξιλόγιο

Το tokenizer μας θα κάνει tokenize το κείμενο, αλλά πρέπει να καταγράψουμε ρητά τις θέσεις έναρξης και λήξης της απάντησής μας, γι' αυτό έχουμε ορίσει μια προσαρμοσμένη συνάρτηση προεπεξεργασίας. Τώρα που έχουμε έτοιμα τα στοιχεία μας, ας ξεκινήσουμε την εκπαίδευση!

Έναρξη εργασίας κατάρτισης

Μπορούμε να εκτελέσουμε εκπαίδευση στο σημειωματάριό μας, αλλά οι τύποι παρουσιών που χρειαζόμαστε για να εκπαιδεύσουμε το μοντέλο Q&A σε εύλογο χρονικό διάστημα, οι περιπτώσεις p3 και p4, είναι αρκετά ισχυροί. Αυτές οι περιπτώσεις τείνουν να είναι υπερβολικές για τη λειτουργία ενός φορητού υπολογιστή ή ως επίμονο Amazon Elastic Compute Cloud (Amazon EC2) παράδειγμα. Εδώ έρχεται η εκπαίδευση του SageMaker. Η εκπαίδευση του SageMaker σάς επιτρέπει να ξεκινήσετε μια εργασία εκπαίδευσης σε μια συγκεκριμένη παρουσία ή περιπτώσεις που είναι διαθέσιμες μόνο για τη διάρκεια της εργασίας εκπαίδευσης. Αυτό μας επιτρέπει να τρέχουμε σε μεγαλύτερες παρουσίες όπως το p4d.24xlarge, με 8 GPU NVIDIA A100, αλλά χωρίς να ανησυχούμε για την εκτέλεση ενός τεράστιου λογαριασμού σε περίπτωση που ξεχάσουμε να το απενεργοποιήσουμε. Μας δίνει επίσης εύκολη πρόσβαση σε άλλες λειτουργίες του SageMaker, όπως Πειράματα SageMaker για την παρακολούθηση των προπονήσεων ML και Εντοπιστής σφαλμάτων SageMaker για την κατανόηση και τη δημιουργία προφίλ των εργασιών κατάρτισης σας.

Τοπική εκπαίδευση

Ας ξεκινήσουμε κατανοώντας πώς λειτουργεί τοπικά η εκπαίδευση ενός μοντέλου στο Hugging Face και, στη συνέχεια, εξετάστε τις προσαρμογές που κάνουμε για να το εκτελέσουμε στο SageMaker.

Το Hugging Face κάνει την προπόνηση εύκολη μέσω της χρήσης του προπονητή τους. Η κλάση εκπαιδευτή μας επιτρέπει να μεταβιβάσουμε το μοντέλο μας, τα σύνολα δεδομένων εκπαίδευσης και επικύρωσης, τις υπερπαραμέτρους μας, ακόμη και το tokenizer μας. Επειδή έχουμε ήδη το μοντέλο μας καθώς και τα σύνολα εκπαίδευσης και επικύρωσης, χρειάζεται μόνο να ορίσουμε τις υπερπαραμέτρους μας. Μπορούμε να το κάνουμε αυτό μέσω του TrainingArguments τάξη. Αυτό μας επιτρέπει να προσδιορίζουμε πράγματα όπως το ρυθμό εκμάθησης, το μέγεθος παρτίδας, τον αριθμό των εποχών και πιο εμπεριστατωμένες παραμέτρους όπως η μείωση του βάρους ή μια στρατηγική προγραμματισμού ρυθμού μάθησης. Αφού ορίσουμε το δικό μας TrainingArguments, μπορούμε να περάσουμε στο μοντέλο μας, το σύνολο εκπαίδευσης, το σύνολο επικύρωσης και τα επιχειρήματα για να δημιουργήσουμε την τάξη εκπαιδευτή μας. Τότε μπορούμε απλά να καλέσουμε trainer.train() να αρχίσουμε να εκπαιδεύουμε το μοντέλο μας. Το ακόλουθο μπλοκ κώδικα δείχνει τον τρόπο εκτέλεσης τοπικής εκπαίδευσης:

doc_stride=128
max_length=512
tokenized_train = squad_dataset.map(prepare_train_features, batched=True, remove_columns=squad_dataset.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride})
tokenized_test = squad_test.map(prepare_train_features, batched=True, remove_columns=squad_test.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride}) hf_args = TrainingArguments( 'test_local', evaluation_strategy = "epoch", learning_rate=5e-5, per_device_train_batch_size=16, per_device_eval_batch_size=16, num_train_epochs=1, weight_decay=0.0001,
) trainer = Trainer( model, hf_args, train_dataset=tokenized_train, eval_dataset=tokenized_test, data_collator=default_data_collator, tokenizer=tokenizer,
) trainer.train()

Στείλτε δεδομένα στο S3

Το να κάνετε το ίδιο πράγμα στην εκπαίδευση του SageMaker είναι απλό. Το πρώτο βήμα είναι να τοποθετήσουμε τα δεδομένα μας στο Amazon S3 ώστε το μοντέλο μας να έχει πρόσβαση σε αυτά. Η εκπαίδευση του SageMaker σάς επιτρέπει να καθορίσετε μια πηγή δεδομένων. μπορείτε να χρησιμοποιήσετε πηγές όπως το Amazon S3, Σύστημα αρχείων ελαστικού Amazon (Amazon EFS), ή Amazon FSx για λάμψη για απορρόφηση δεδομένων υψηλής απόδοσης. Στην περίπτωσή μας, το επαυξημένο σύνολο δεδομένων SQuAD δεν είναι ιδιαίτερα μεγάλο, επομένως το Amazon S3 είναι μια καλή επιλογή. Ανεβάζουμε τα δεδομένα προπόνησής μας σε έναν φάκελο στο Amazon S3 και όταν το SageMaker περιστρέφει το εκπαιδευτικό μας παράδειγμα, πραγματοποιεί λήψη των δεδομένων από την καθορισμένη τοποθεσία μας.

Δημιουργήστε το μοντέλο

Για να ξεκινήσουμε την εκπαιδευτική μας εργασία, μπορούμε να χρησιμοποιήσουμε τον ενσωματωμένο εκτιμητή Hugging Face στο SageMaker SDK. Το SageMaker χρησιμοποιεί την κλάση εκτιμητή για να καθορίσει τις παραμέτρους για μια εργασία εκπαίδευσης, καθώς και τον αριθμό και τον τύπο των περιπτώσεων που θα χρησιμοποιηθούν για την εκπαίδευση. Η εκπαίδευση του SageMaker βασίζεται στη χρήση των δοχείων Docker. Μπορείτε να χρησιμοποιήσετε τα προεπιλεγμένα κοντέινερ στο SageMaker ή να παρέχετε το δικό σας προσαρμοσμένο κοντέινερ για εκπαίδευση. Στην περίπτωση των μοντέλων Hugging Face, το SageMaker διαθέτει ενσωματωμένα δοχεία Hugging Face με όλες τις εξαρτήσεις που χρειάζεστε για να εκτελέσετε εργασίες εκπαίδευσης Hugging Face. Το μόνο που χρειάζεται να κάνουμε είναι να ορίσουμε το σενάριο προπόνησής μας, το οποίο χρησιμοποιεί το κοντέινερ Hugging Face ως σημείο εισόδου.

Σε αυτό το σενάριο εκπαίδευσης, ορίζουμε τα ορίσματά μας, τα οποία περνάμε στο σημείο εισόδου μας με τη μορφή ενός συνόλου υπερπαραμέτρων, καθώς και τον κώδικα εκπαίδευσης. Ο κωδικός εκπαίδευσης μας είναι ο ίδιος σαν να τον εκτελούσαμε τοπικά. μπορούμε απλά να χρησιμοποιήσουμε το TrainingArguments και μετά περάστε τα σε ένα αντικείμενο εκπαιδευτή. Η μόνη διαφορά είναι ότι πρέπει να καθορίσουμε τη θέση εξόδου στην οποία θα βρίσκεται το μοντέλο μας /opt/ml/model ώστε η εκπαίδευση του SageMaker να το πάρει, να το συσκευάσει και να το στείλει στο Amazon S3. Το ακόλουθο μπλοκ κώδικα δείχνει πώς να δημιουργήσετε τον εκτιμητή Hugging Face:

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name': model_name, 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'train_batch_size': 32, 'eval_batch_size': 32, 'weight_decay':0.01, 'warmup_steps':500, 'learning_rate':5e-5, 'epochs': 2, 'max_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
} # estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='container_training', metric_definitions=metric_definitions, instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, role=role, transformers_version='4.4.2', pytorch_version='1.6.0', py_version='py36', hyperparameters = hyperparameters)

Βελτιώστε το μοντέλο

Για τη συγκεκριμένη εργασία εκπαίδευσης, χρησιμοποιούμε ένα παράδειγμα p3.8xlarge που αποτελείται από 4 GPU V100. Η κλάση εκπαιδευτή υποστηρίζει αυτόματα εκπαίδευση σε παρουσίες πολλαπλών GPU, επομένως δεν χρειαζόμαστε πρόσθετη ρύθμιση για να το λάβουμε υπόψη. Εκπαιδεύουμε το μοντέλο μας για δύο εποχές, με μέγεθος παρτίδας 16 και ρυθμό εκμάθησης 4e5. Ενεργοποιούμε επίσης την εκπαίδευση μεικτής ακρίβειας, η οποία χρησιμοποιεί μικτή ακρίβεια σε περιοχές όπου μπορούμε να μειώσουμε την αριθμητική ακρίβεια χωρίς να επηρεάσουμε την ακρίβεια του μοντέλου μας. Αυτό αυξάνει τη διαθέσιμη μνήμη και τις ταχύτητες προπόνησής μας. Για να ξεκινήσει η εργασία εκπαίδευσης, καλούμε το fit μέθοδος από τη δική μας huggingface_estimator τάξη.

huggingface_estimator.fit(data_channels, wait=False, job_name=f'hf-distilbert-squad-{int(time.time())}')

Όταν το μοντέλο μας ολοκληρώσει την εκπαίδευση, μπορούμε να κατεβάσουμε το μοντέλο τοπικά και να το φορτώσουμε στη μνήμη του σημειωματάριου μας για να το δοκιμάσουμε, κάτι που παρουσιάζεται στο σημειωματάριο. Θα εστιάσουμε σε μια άλλη επιλογή, αναπτύσσοντάς την ως τελικό σημείο του SageMaker!

Αναπτύξτε εκπαιδευμένο μοντέλο

Εκτός από την παροχή βοηθητικών προγραμμάτων για εκπαίδευση, το SageMaker μπορεί επίσης να επιτρέψει σε επιστήμονες δεδομένων και μηχανικούς ML να αναπτύξουν εύκολα τελικά σημεία REST για τα εκπαιδευμένα μοντέλα τους. Μπορείτε να αναπτύξετε μοντέλα που έχουν εκπαιδευτεί εντός ή εκτός του SageMaker. Για περισσότερες πληροφορίες, ανατρέξτε στο Αναπτύξτε ένα μοντέλο στο Amazon SageMaker.

Επειδή το μοντέλο μας εκπαιδεύτηκε στο SageMaker, είναι ήδη στη σωστή μορφή για να αναπτυχθεί ως τελικό σημείο. Παρόμοια με την εκπαίδευση, ορίζουμε μια κλάση μοντέλου SageMaker που ορίζει το μοντέλο, τον κώδικα εξυπηρέτησης και τον αριθμό και τον τύπο των παρουσιών που θέλουμε να αναπτύξουμε ως τελικά σημεία. Παρόμοια με την εκπαίδευση, το σερβίρισμα βασίζεται σε δοχεία Docker και μπορούμε να χρησιμοποιήσουμε ένα από τα ενσωματωμένα δοχεία SageMaker ή να προμηθεύσουμε τα δικά μας. Για αυτήν την ανάρτηση, χρησιμοποιούμε ένα ενσωματωμένο κοντέινερ εξυπηρέτησης PyTorch, επομένως πρέπει απλώς να ορίσουμε μερικά πράγματα για να θέσουμε το τελικό σημείο σε λειτουργία. Ο κώδικας εξυπηρέτησης χρειάζεται τέσσερις λειτουργίες:

model_fn – Καθορίζει τον τρόπο με τον οποίο το τελικό σημείο φορτώνει το μοντέλο (αυτό το κάνει μόνο μία φορά και στη συνέχεια το διατηρεί στη μνήμη για επόμενες προβλέψεις)
input_fn – Καθορίζει τον τρόπο με τον οποίο αποδεσμεύεται και επεξεργάζεται τα δεδομένα εισόδου
predict_fn – Καθορίζει τον τρόπο με τον οποίο το μοντέλο μας κάνει προβλέψεις σχετικά με τα δεδομένα μας
output_fn – Καθορίζει πώς μορφοποιείται το τελικό σημείο και στέλνει πίσω τα δεδομένα εξόδου στον πελάτη που υποβάλλει το αίτημα

Αφού ορίσουμε αυτές τις συναρτήσεις, μπορούμε να αναπτύξουμε το τελικό σημείο μας και να του δώσουμε δηλώσεις περιβάλλοντος και ερωτήσεις και να επιστρέψουμε την προβλεπόμενη απάντησή του:

endpoint_name = 'hf-distilbert-QA-string-endpoint4-185'
model_data = f"{huggingface_estimator.output_path}{huggingface_estimator.jobs[0].job_name}/output/model.tar.gz" # We are going to use a SageMaker serving container
torch_model = PyTorchModel(model_data=model_data, source_dir = 'container_serving', role=role, entry_point='transform_script.py', framework_version='1.8.1', py_version='py3', predictor_cls = StringPredictor)
bert_end = torch_model.deploy(instance_type='ml.m5.2xlarge', initial_instance_count=1, #'ml.g4dn.xlarge' endpoint_name=endpoint_name)

Οπτικοποιήστε τα αποτελέσματα του μοντέλου

Επειδή αναπτύξαμε ένα τελικό σημείο του SageMaker που μας επιτρέπει να στέλνουμε δηλώσεις περιβάλλοντος και να λαμβάνουμε απαντήσεις, μπορούμε να επιστρέψουμε και να οπτικοποιήσουμε τα συμπεράσματα που προκύπτουν στο αρχικό πρόγραμμα προβολής SQuAD για να απεικονίσουμε καλύτερα αυτό που βρήκε το μοντέλο μας στο πλαίσιο του αποσπάσματος. Αυτό το κάνουμε διαμορφώνοντας εκ νέου τα αποτελέσματα των συμπερασμάτων σε μορφή SQuAD και, στη συνέχεια, αντικαθιστώντας τις Liquid ετικέτες στο πρότυπο εργασίας με το JSON με μορφή SQuAD. Στη συνέχεια, μπορούμε να πλαισιώσουμε τη διεπαφή που προκύπτει μέσα στο πρότυπο εργασίας μας για να ελέγξουμε επαναληπτικά τα αποτελέσματα στο πλαίσιο ενός μόνο σημειωματάριου, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης. Μπορείτε να κάνετε κλικ σε κάθε ερώτηση στα αριστερά για να επισημάνετε τα εύρη του κειμένου στα δεξιά που ταιριάζουν με το ερώτημα. Χωρίς επιλεγμένη ερώτηση, όλα τα ανοίγματα κειμένου επισημαίνονται στα δεξιά όπως φαίνεται παρακάτω.

εκκαθάριση

Για να αποφύγετε μελλοντικές χρεώσεις, εκτελέστε το εκκαθάριση ενότητα του σημειωματαρίου για να διαγράψετε όλους τους πόρους, συμπεριλαμβανομένων των τελικών σημείων του SageMaker, των αντικειμένων S3 που περιέχουν το μη επεξεργασμένο και επεξεργασμένο σύνολο δεδομένων και τη στοίβα CloudFormation. Όταν ολοκληρωθεί η διαγραφή, φροντίστε να διακόψετε και να διαγράψετε την παρουσία του σημειωματάριου που φιλοξενεί την τρέχουσα δέσμη ενεργειών σημειωματάριου.

Συμπέρασμα

Σε αυτήν την ανάρτηση, μάθατε πώς να δημιουργείτε το δικό σας σύνολο δεδομένων απάντησης σε ερωτήσεις χρησιμοποιώντας το Ground Truth και να το συνδυάζετε με το SQuAD για να εκπαιδεύσετε και να αναπτύξετε το δικό σας μοντέλο απάντησης ερωτήσεων χρησιμοποιώντας το SageMaker. Αφού ολοκληρώσετε το σημειωματάριο, έχετε ένα αναπτυγμένο τελικό σημείο του SageMaker που εκπαιδεύτηκε στο προσαρμοσμένο σύνολο δεδομένων Q&A. Αυτό το τελικό σημείο είναι έτοιμο για ενσωμάτωση στις ροές εργασίας NLU παραγωγής σας, επειδή τα τελικά σημεία του SageMaker είναι διαθέσιμα μέσω τυπικών API REST. Έχετε επίσης ένα σχολιασμένο προσαρμοσμένο σύνολο δεδομένων σε μορφή SQuAD 2.0, το οποίο σας επιτρέπει να επανεκπαιδεύσετε το υπάρχον μοντέλο σας ή να δοκιμάσετε να εκπαιδεύσετε άλλες αρχιτεκτονικές μοντέλων απάντησης σε ερωτήσεις. Τέλος, έχετε έναν μηχανισμό για να οπτικοποιήσετε γρήγορα τα αποτελέσματα από τα συμπεράσματά σας, φορτώνοντας το πρότυπο εργασίας στο τοπικό σας σημειωματάριο.

Δοκιμάστε το σημειωματάριο, αυξήστε το με τις δικές σας ερωτήσεις και εκπαιδεύστε και αναπτύξτε το δικό σας προσαρμοσμένο μοντέλο απάντησης ερωτήσεων για τις περιπτώσεις χρήσης NLU!

Καλό κτίριο!

Σχετικά με τους Συγγραφείς

Τζέρεμι Φελτράκο είναι Μηχανικός Ανάπτυξης Λογισμικού με το Amazon ML Solutions Lab στο Amazon Web Services. Χρησιμοποιεί το υπόβαθρό του στην όραση υπολογιστών, τη ρομποτική και τη μηχανική μάθηση για να βοηθήσει τους πελάτες AWS να επιταχύνουν την υιοθεσία AI.

Βίντια Σαγκάρ Ραβιπάτι είναι Διευθυντής στο Εργαστήριο Amazon ML Solutions, όπου αξιοποιεί την τεράστια εμπειρία του σε κατανεμημένα συστήματα μεγάλης κλίμακας και το πάθος του για μηχανική εκμάθηση για να βοηθήσει τους πελάτες AWS σε διαφορετικούς κλάδους της βιομηχανίας να επιταχύνουν την υιοθεσία AI και cloud. Προηγουμένως, ήταν Μηχανικός Μηχανικής Μάθησης στις Υπηρεσίες Συνδεσιμότητας στο Amazon που βοήθησε στην κατασκευή εξατομικευμένων και προβλέψιμων πλατφορμών συντήρησης.

Ισαάκ Πριβιτέρα είναι Senior Data Scientist στο Amazon Machine Learning Solutions Lab, όπου αναπτύσσει εξατομικευμένες λύσεις μηχανικής μάθησης και βαθιάς μάθησης για την αντιμετώπιση των επιχειρηματικών προβλημάτων των πελατών. Εργάζεται κυρίως στον χώρο της υπολογιστικής όρασης, εστιάζοντας στο να παρέχει στους πελάτες AWS κατανεμημένη εκπαίδευση και ενεργή μάθηση.

Σφραγίδα ώρας: 6 Μαΐου 2022

Σφραγίδα ώρας: 26 Ιουλίου 2023

Δημιουργήστε ένα προσαρμοσμένο σύνολο δεδομένων Q&A χρησιμοποιώντας το Amazon SageMaker Ground Truth για να εκπαιδεύσετε ένα μοντέλο NLU Q&A Hugging Face