Τα τελευταία χρόνια, η κατανόηση φυσικής γλώσσας (NLU) βρίσκει ολοένα και περισσότερο επιχειρηματική αξία, τροφοδοτούμενη από βελτιώσεις μοντέλων καθώς και από την επεκτασιμότητα και την οικονομική αποδοτικότητα της υποδομής που βασίζεται στο cloud. Συγκεκριμένα, το Μετασχηματιστής αρχιτεκτονική βαθιάς μάθησης, που συχνά υλοποιείται με τη μορφή ΜΠΕΡΤ μοντέλα, ήταν εξαιρετικά επιτυχημένη, αλλά η εκπαίδευση, η βελτιστοποίηση και η βελτιστοποίηση αυτών των μοντέλων έχει αποδειχθεί ένα δύσκολο πρόβλημα. Χάρη στο Συνεργασία AWS και Hugging Face, είναι πλέον πιο απλό να εκπαιδεύσετε και να βελτιστοποιήσετε μοντέλα NLU Amazon Sage Maker χρησιμοποιώντας το SageMaker Python SDK, αλλά η προμήθεια δεδομένων με ετικέτα για αυτά τα μοντέλα εξακολουθεί να είναι δύσκολη και χρονοβόρα.
Ένα πρόβλημα NLU ιδιαίτερου επιχειρηματικού ενδιαφέροντος είναι το καθήκον της απάντησης σε ερωτήσεις. Σε αυτήν την ανάρτηση, δείχνουμε πώς να δημιουργήσετε ένα προσαρμοσμένο σύνολο δεδομένων που απαντά σε ερωτήσεις χρησιμοποιώντας Amazon SageMaker Ground Αλήθεια για να εκπαιδεύσετε μια ερώτηση Hugging Face απαντώντας στο μοντέλο NLU.
Ερώτηση που απαντά στις προκλήσεις
Η απάντηση σε ερώτηση συνεπάγεται ένα μοντέλο που παράγει αυτόματα μια απάντηση σε ένα ερώτημα δεδομένου κάποιου κειμένου που μπορεί ή όχι να περιέχει την απάντηση. Για παράδειγμα, λαμβάνοντας υπόψη την ακόλουθη ερώτηση, "Ποιες ροές εργασίας υποστηρίζει το SageMaker Ground Truth;" ένα μοντέλο θα πρέπει να μπορεί να προσδιορίζει το τμήμα «ενοποίηση σχολιασμού και έλεγχος» στην ακόλουθη παράγραφο:
Το SageMaker Ground Truth συμβάλλει στη βελτίωση της ποιότητας των ετικετών μέσω της ενοποίησης σχολιασμών και των ροών εργασιών ελέγχου. Η ενοποίηση σχολιασμού είναι η διαδικασία συλλογής εισόδων ετικετών από δύο ή περισσότερες ετικέτες δεδομένων και συνδυασμού τους για τη δημιουργία μιας ενιαίας ετικέτας δεδομένων για το μοντέλο μηχανικής εκμάθησης. Με τις ενσωματωμένες ροές εργασιών ελέγχου και αναθεώρησης, οι εργαζόμενοι μπορούν να εκτελούν επαλήθευση ετικέτας και να κάνουν προσαρμογές για να βελτιώσουν την ακρίβεια.
Αυτό το πρόβλημα είναι προκλητικό γιατί απαιτεί ένα μοντέλο για να κατανοήσει το νόημα μιας ερώτησης, αντί να πραγματοποιήσει απλώς αναζήτηση λέξεων-κλειδιών. Τα ακριβή μοντέλα σε αυτόν τον τομέα μπορούν να μειώσουν το κόστος υποστήριξης πελατών μέσω της τροφοδοσίας έξυπνων chatbot, της παροχής προϊόντων φωνητικού βοηθού υψηλής ποιότητας και της αύξησης των εσόδων από το ηλεκτρονικό κατάστημα μέσω εξατομικευμένων απαντήσεων σε ερωτήσεις προϊόντος. Ένα μεγάλο σύνολο δεδομένων σε αυτήν την περιοχή είναι το Stanford Question Answering Dataset (SQuAD), ένα ποικίλο σύνολο δεδομένων απάντησης ερωτήσεων που παρουσιάζει ένα μοντέλο με σύντομα αποσπάσματα κειμένου και απαιτεί από το μοντέλο να προβλέψει τη θέση του εύρους του απαντητικού κειμένου στο απόσπασμα. Το SQuAD είναι ένα σύνολο δεδομένων κατανόησης ανάγνωσης, που αποτελείται από ερωτήσεις που τίθενται από πλήθος εργαζομένων σε ένα σύνολο άρθρων της Wikipedia, όπου η απάντηση σε κάθε ερώτηση είναι είτε ένα εύρος κειμένου από το αντίστοιχο απόσπασμα, είτε επισημαίνεται με άλλο τρόπο αδύνατον να απαντηθεί.
Μια πρόκληση για την προσαρμογή του SQuAD για περιπτώσεις επιχειρηματικής χρήσης είναι η δημιουργία προσαρμοσμένων συνόλων δεδομένων για συγκεκριμένο τομέα. Αυτή η διαδικασία δημιουργίας νέων συνόλων δεδομένων ερωτήσεων και απαντήσεων απαιτεί μια εξειδικευμένη διεπαφή χρήστη που επιτρέπει στους σχολιαστές να επισημαίνουν εκτάσεις και να προσθέτουν ερωτήσεις σε αυτές τις εκτάσεις. Πρέπει επίσης να μπορεί να υποστηρίζει την προσθήκη αδύνατων ερωτήσεων για την υποστήριξη της μορφής SQuAD 2.0, η οποία περιλαμβάνει ερωτήσεις που δεν μπορούν να απαντηθούν. Αυτές οι αδύνατες ερωτήσεις βοηθούν τα μοντέλα να αποκτήσουν επιπλέον κατανόηση γύρω από τα οποία δεν μπορούν να απαντηθούν ερωτήματα χρησιμοποιώντας το συγκεκριμένο απόσπασμα. ο προσαρμοσμένα πρότυπα εργαζομένων στο Ground Truth απλοποιήστε τη δημιουργία αυτών των συνόλων δεδομένων παρέχοντας στους εργαζόμενους μια προσαρμοσμένη εμπειρία σχολιασμού για τη δημιουργία συνόλων δεδομένων ερωτήσεων και απαντήσεων.
Επισκόπηση λύσεων
Αυτή η λύση δημιουργεί και διαχειρίζεται εργασίες επισήμανσης Ground Truth για την επισήμανση ενός προσαρμοσμένου συνόλου ερωτήσεων-απαντήσεων για συγκεκριμένο τομέα χρησιμοποιώντας μια προσαρμοσμένη διεπαφή χρήστη σχολιασμού. Χρησιμοποιούμε το SageMaker για να εκπαιδεύσουμε, να τελειοποιήσουμε, να βελτιστοποιήσουμε και να αναπτύξουμε ένα Hugging Face
Το μοντέλο BERT δημιουργήθηκε με PyTorch σε ένα προσαρμοσμένο σύνολο δεδομένων απάντησης ερωτήσεων.
Μπορείτε να εφαρμόσετε τη λύση αναπτύσσοντας την παρεχόμενη AWS CloudFormation πρότυπο στον λογαριασμό σας AWS. Το AWS CloudFormation χειρίζεται την ανάπτυξη του AWS Lambda συναρτήσεις που υποστηρίζουν προ-σχολιασμό και ενοποίηση σχολιασμών για τη διεπαφή χρήστη σχολιασμού. Δημιουργεί επίσης ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος και το Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ρόλους που πρέπει να χρησιμοποιείτε κατά τη δημιουργία μιας εργασίας επισήμανσης.
Αυτή η ανάρτηση σας καθοδηγεί στο πώς να κάνετε τα εξής:
- Δημιουργήστε το δικό σας σύνολο δεδομένων απάντησης ερωτήσεων ή αυξήστε ένα υπάρχον χρησιμοποιώντας το Ground Truth
- Χρησιμοποιήστε τα σύνολα δεδομένων Hugging Face για να συνδυάσετε και να κάνετε διακριτικό κείμενο
- Βελτιστοποιήστε ένα μοντέλο BERT στα δεδομένα απαντήσεων στην ερώτησή σας χρησιμοποιώντας την εκπαίδευση του SageMaker
- Αναπτύξτε το μοντέλο σας σε ένα τελικό σημείο του SageMaker και οπτικοποιήστε τα αποτελέσματά σας
Διεπαφή χρήστη σχολιασμού
Χρησιμοποιούμε ένα νέο προσαρμοσμένο πρότυπο εργασιών εργαζόμενου με το Ground Truth για να προσθέσετε νέους σχολιασμούς στο υπάρχον σύνολο δεδομένων SQuAD. Αυτή η λύση προσφέρει ένα πρότυπο εργασιών εργασίας, καθώς και μια συνάρτηση Lambda πριν από τον σχολιασμό (η οποία χειρίζεται την τοποθέτηση δεδομένων στη διεπαφή χρήστη) και τη λειτουργία Lambda μετά τον σχολιασμό (η οποία εξάγει αποτελέσματα από τη διεπαφή χρήστη μετά την ολοκλήρωση της ετικέτας).
Αυτό το προσαρμοσμένο πρότυπο εργασιών εργαζόμενου σάς δίνει τη δυνατότητα να επισημάνετε κείμενο στο δεξιό τμήμα του παραθύρου και, στη συνέχεια, να προσθέσετε μια αντίστοιχη ερώτηση στο αριστερό παράθυρο που σχετίζεται με το επισημασμένο κείμενο. Το επισημασμένο κείμενο στο δεξιό παράθυρο μπορεί επίσης να προστεθεί σε οποιαδήποτε ερώτηση που δημιουργήθηκε προηγουμένως. Επιπλέον, μπορείτε να προσθέσετε αδύνατες ερωτήσεις σύμφωνα με SQUAD 2.0 μορφή. Οι αδύνατες ερωτήσεις επιτρέπουν στα μοντέλα να μειώσουν τον αριθμό των αναξιόπιστων ψευδώς θετικών εικασιών όταν το απόσπασμα δεν μπορεί να απαντήσει σε ένα ερώτημα.
Αυτή η διεπαφή χρήστη χρησιμοποιεί το ίδιο σχήμα JSON με το σύνολο δεδομένων SQuAD 2.0, πράγμα που σημαίνει ότι μπορεί να λειτουργήσει σε πολλά άρθρα και παραγράφους, εμφανίζοντας μία παράγραφο τη φορά χρησιμοποιώντας το Προηγούμενο και Επόμενο κουμπιά. Η διεπαφή χρήστη διευκολύνει την παρακολούθηση και τον προσδιορισμό της εργασίας επισήμανσης που πρέπει να ολοκληρώσει κάθε σχολιαστής κατά τη διάρκεια του βήματος υποβολής εργασιών.
Επειδή η διεπαφή χρήστη σχολιασμού περιέχεται σε ένα ενιαίο Υγρό αρχείο HTML, μπορείτε να προσαρμόσετε την εμπειρία επισήμανσης με γνώση βασικής JavaScript. Μπορείτε επίσης να τροποποιήσετε Υγρές ετικέτες για να μεταβιβάσετε πρόσθετες πληροφορίες στη διεπαφή χρήστη ετικετών και μπορείτε να τροποποιήσετε το ίδιο το πρότυπο ώστε να περιλαμβάνει πιο λεπτομερείς οδηγίες εργασίας.
Εκτιμώμενο κόστος
Η ανάπτυξη αυτής της λύσης μπορεί να έχει μέγιστο κόστος περίπου 20 $, χωρίς να υπολογίζεται το κόστος της ανθρώπινης επισήμανσης. Το Amazon S3, το Lambda, το SageMaker και το Ground Truth προσφέρουν όλα Χωρίς επίπεδο AWS, με χρεώσεις για επιπλέον χρήση. Για περισσότερες πληροφορίες, ανατρέξτε στις ακόλουθες σελίδες τιμών:
- Τιμολόγηση Amazon S3
- Τιμές AWS Lambda
- Τιμολόγηση του Amazon SageMaker
- Τιμολόγηση ετικετών δεδομένων Amazon SageMaker – Αυτή η αμοιβή εξαρτάται από τον τύπο του εργατικού δυναμικού που χρησιμοποιείτε. Εάν είστε νέος χρήστης του Ground Truth, προτείνουμε να χρησιμοποιήσετε ένα ιδιωτικό εργατικό δυναμικό και να συμπεριλάβετε τον εαυτό σας ως εργαζόμενο για να δοκιμάσετε τη διαμόρφωση της εργασίας σας για την τοποθέτηση ετικετών.
Προϋποθέσεις
Για να εφαρμόσετε αυτήν τη λύση, θα πρέπει να έχετε τις ακόλουθες προϋποθέσεις:
- An Λογαριασμός AWS.
- Εξοικείωση με την Επίγεια Αλήθεια. Για περισσότερες πληροφορίες, ανατρέξτε στο Χρησιμοποιήστε το Amazon SageMaker Ground Truth για την επισήμανση δεδομένων.
- Εξοικείωση με το AWS CloudFormation. Για περισσότερες πληροφορίες, ανατρέξτε στο Οδηγός χρήστη AWS CloudFormation.
- Ένας SageMaker εργατικό δυναμικό. Για αυτήν την επίδειξη, χρησιμοποιούμε ιδιωτικό εργατικό δυναμικό. Μπορείτε να δημιουργήσετε ένα εργατικό δυναμικό στην κονσόλα SageMaker.
Το παρακάτω GIF δείχνει πώς να δημιουργήσετε ένα ιδιωτικό εργατικό δυναμικό. Για οδηγίες, βλ Δημιουργία εργατικού δυναμικού Cognito Amazon χρησιμοποιώντας τη σελίδα επισήμανσης εργατικού δυναμικού.
Εκκινήστε τη Στοίβα CloudFormation
Τώρα που έχετε δει τη δομή της λύσης, την αναπτύσσετε στον λογαριασμό σας, ώστε να μπορείτε να εκτελέσετε ένα παράδειγμα ροής εργασίας. Όλα τα βήματα ανάπτυξης που σχετίζονται με τη διοχέτευση ετικετών διαχειρίζονται από το AWS CloudFormation. Αυτό σημαίνει ότι το AWS CloudFormation δημιουργεί τις λειτουργίες Lambda προ-σχολιασμού και ενοποίησης σχολιασμού, καθώς και έναν κάδο S3 για την αποθήκευση δεδομένων εισόδου και εξόδου.
Μπορείτε να ξεκινήσετε τη στοίβα στην περιοχή AWS us-east-1
στην κονσόλα AWS CloudFormation χρησιμοποιώντας το Εκκίνηση στοίβας κουμπί. Για να εκκινήσετε τη στοίβα σε διαφορετική Περιοχή, χρησιμοποιήστε τις οδηγίες που βρίσκονται στο README του Αποθετήριο GitHub.
Λειτουργήστε το σημειωματάριο
Μετά την ανάπτυξη της λύσης στο λογαριασμό σας, ένα παράδειγμα σημειωματάριου με το όνομα gt-hf-squad-notebook
είναι διαθέσιμο στον λογαριασμό σας. Για να ξεκινήσετε τη λειτουργία του φορητού υπολογιστή, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα Amazon SageMaker, μεταβείτε στη σελίδα παρουσίας σημειωματαρίου.
- Επιλέξτε Ανοίξτε το JupyterLab για να ανοίξετε το παράδειγμα.
- Μέσα στο παράδειγμα, περιηγηθείτε στο αποθετήριο
hf-gt-custom-qa
και ανοίξτε το σημειωματάριοhf_squad_finetuning.ipynb
. - Επιλέξτε
conda_pytorch_p38
ως πυρήνας σας.
Τώρα που δημιουργήσατε μια παρουσία σημειωματάριου και ανοίξατε το σημειωματάριο, μπορείτε να εκτελέσετε κελιά στο σημειωματάριο για να λειτουργήσετε τη λύση. Το υπόλοιπο αυτής της ανάρτησης παρέχει πρόσθετες λεπτομέρειες για κάθε ενότητα στο σημειωματάριο καθώς προχωράτε.
Κατεβάστε και ελέγξτε τα δεδομένα
Η Σύνολο δεδομένων SQuAD περιέχει ένα σύνολο δεδομένων εκπαίδευσης καθώς και σύνολα δεδομένων δοκιμών και ανάπτυξης. Το σημειωματάριο κατεβάζει το σύνολο δεδομένων SQuAD2.0 για εσάς, αλλά μπορείτε να επιλέξετε ποια έκδοση του SQuAD θα χρησιμοποιήσετε τροποποιώντας το κελί του σημειωματάριου στο Κατεβάστε και ελέγξτε τα δεδομένα.
Το SQuAD δημιουργήθηκε από τους Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev και Percy Liang. Για περισσότερες πληροφορίες, ανατρέξτε στο αρχικό χαρτί και σύνολο δεδομένων. Το SQuAD έχει λάβει άδεια από τους δημιουργούς σύμφωνα με το Creative Commons Attribution-ShareAlike 4.0 International Public License.
Ας δούμε ένα παράδειγμα ζεύγους ερωτήσεων και απαντήσεων από το SQuAD:
Τίτλος παραγράφου: Immune_system
Το ανοσοποιητικό σύστημα είναι ένα σύστημα πολλών βιολογικών δομών και διεργασιών μέσα σε έναν οργανισμό που προστατεύει από ασθένειες. Για να λειτουργήσει σωστά, ένα ανοσοποιητικό σύστημα πρέπει να ανιχνεύσει μια μεγάλη ποικιλία παραγόντων, γνωστών ως παθογόνων, από ιούς έως παρασιτικά σκουλήκια, και να τους διακρίνει από τον υγιή ιστό του ίδιου του οργανισμού. Σε πολλά είδη, το ανοσοποιητικό σύστημα μπορεί να ταξινομηθεί σε υποσυστήματα, όπως το έμφυτο ανοσοποιητικό σύστημα έναντι του προσαρμοστικού ανοσοποιητικού συστήματος ή η χυμική ανοσία έναντι της κυτταρικής ανοσίας. Στους ανθρώπους, ο αιματοεγκεφαλικός φραγμός, ο φραγμός αίματος-εγκεφαλονωτιαίου υγρού και παρόμοιοι φραγμοί υγρού-εγκεφάλου διαχωρίζουν το περιφερικό ανοσοποιητικό σύστημα από το νευροάνοσο σύστημα που προστατεύει τον εγκέφαλο.
Ερώτηση: Το ανοσοποιητικό σύστημα προστατεύει τους οργανισμούς από τι;
Απάντηση: ασθένεια
Μοντέλο φόρτωσης
Τώρα που έχετε δει ένα παράδειγμα ζεύγους ερωτήσεων και απαντήσεων στο SQuAD, μπορείτε να κάνετε λήψη ενός μοντέλου που μπορείτε να ρυθμίσετε με ακρίβεια για την απάντηση ερωτήσεων. Το Hugging Face σάς επιτρέπει να κατεβάσετε εύκολα ένα βασικό μοντέλο που έχει υποβληθεί σε μεγάλης κλίμακας προ-εκπαίδευση και να το αρχικοποιήσετε ξανά για μια διαφορετική εργασία κατάντη. Σε αυτήν την περίπτωση, κατεβάζετε το distilbert-base-uncased
μοντέλο και επαναχρησιμοποιήστε το για απάντηση ερωτήσεων χρησιμοποιώντας το AutoModelForQuestionAnswering
τάξη από το Hugging Face. Χρησιμοποιείτε επίσης το AutoTokenizer
τάξη για να ανακτήσετε τον προεκπαιδευμένο tokenizer του μοντέλου. Βουτάμε πιο βαθιά στο μοντέλο που χρησιμοποιούμε αργότερα στην ανάρτηση.
Προβολή εισόδου BERT
Το BERT απαιτεί να μετατρέψετε τα δεδομένα κειμένου σε μια αριθμητική αναπαράσταση γνωστή ως μάρκες. Υπάρχει μια ποικιλία από tokenizers διαθέσιμα. τα ακόλουθα διακριτικά δημιουργήθηκαν από ένα tokenizer ειδικά σχεδιασμένο για BERT που μπορείτε να δημιουργήσετε με ένα καθορισμένο λεξιλόγιο. Κάθε διακριτικό αντιστοιχεί σε μια λέξη στο λεξιλόγιο. Ας δούμε την ερώτηση του μετασχηματισμένου ανοσοποιητικού συστήματος και το πλαίσιο που παρέχετε στο BERT για συμπέρασμα.
Συμπέρασμα μοντέλου
Τώρα που είδατε τι παίρνει ο BERT ως είσοδο, ας δούμε πώς μπορείτε να λάβετε συμπεράσματα από το μοντέλο. Ο ακόλουθος κώδικας δείχνει τον τρόπο χρήσης της προηγουμένως δημιουργηθείσας εισόδου με διακριτικό και επιστρέφει αποτελέσματα συμπερασμάτων από το μοντέλο. Παρόμοια με τον τρόπο με τον οποίο ο BERT δεν μπορεί να δεχτεί ακατέργαστο κείμενο ως είσοδο, δεν δημιουργεί ούτε ακατέργαστο κείμενο ως έξοδο. Μεταφράζετε το αποτέλεσμα του BERT προσδιορίζοντας τα σημεία έναρξης και τέλους στην παράγραφο που η BERT προσδιόρισε ως απάντηση. Στη συνέχεια, αντιστοιχίζετε αυτή την έξοδο στα διακριτικά μας και επιστρέφετε στο αγγλικό κείμενο.
Τα μεταφρασμένα αποτελέσματα έχουν ως εξής:
Ερώτηση: Το ανοσοποιητικό σύστημα προστατεύει τους οργανισμούς από τι;
Απάντηση: ασθένεια
Augment SQuAD
Στη συνέχεια, για να λάβουμε πρόσθετα δεδομένα με ετικέτα, χρησιμοποιούμε α προσαρμοσμένο πρότυπο εργασιών εργαζόμενου στην Επίγεια Αλήθεια. Μπορούμε πρώτα να δημιουργήσουμε ένα νέο άρθρο σε μορφή SQuAD. Το σημειωματάριο αντιγράφει αυτό το αρχείο από το repo στο Amazon S3, αλλά μη διστάσετε να κάνετε οποιεσδήποτε αλλαγές πριν εκτελέσετε το Augment SQuAD κύτταρο. Η μορφή του SQuAD φαίνεται στον παρακάτω κώδικα. Κάθε αρχείο SQuAD JSON περιέχει πολλά άρθρα που είναι αποθηκευμένα στο data
κλειδί. Κάθε άρθρο έχει ένα title
πεδίο και μία ή περισσότερες παραγράφους. Αυτές οι παράγραφοι περιέχουν τμήματα κειμένου που ονομάζονται context
και τυχόν σχετικές ερωτήσεις στο qas
λίστα. Επειδή σχολιάζουμε από την αρχή, μπορούμε να το αφήσουμε qas
λίστα κενή και απλώς παρέχετε το πλαίσιο. Η διεπαφή χρήστη μπορεί να κάνει βρόχο σε παραγράφους και άρθρα, επιτρέποντάς σας να κάνετε κάθε εργασία εργαζομένου όσο μεγάλη ή μικρή θέλετε.
Αφού δημιουργήσουμε ένα δείγμα αρχείου δεδομένων SQuAD, πρέπει να δημιουργήσουμε ένα Ground Truth επαυξημένο αρχείο δήλωσης που αναφέρεται στα δεδομένα εισόδου μας. Αυτό το κάνουμε δημιουργώντας ένα αρχείο μορφοποιημένου σε γραμμές JSON με ένα "source
κλειδί ” που αντιστοιχεί στη θέση στο Amazon S3 όπου αποθηκεύσαμε τα δεδομένα εισόδου SQuAD:
Πρόσβαση στην πύλη ετικετών
Αφού στείλετε την εργασία στο Ground Truth, μπορείτε να προβάλετε την εργασία επισήμανσης που δημιουργήθηκε στην κονσόλα Ground Truth.
Για να πραγματοποιήσετε επισήμανση, πρέπει να συνδεθείτε στον λογαριασμό πύλης εργαζομένων που δημιουργήσατε ως μέρος των προαπαιτούμενων βημάτων. Η εργασία σας είναι διαθέσιμη στην πύλη των εργαζομένων μετά από λίγα λεπτά προεπεξεργασίας. Αφού ανοίξετε την εργασία, σας παρουσιάζεται το προσαρμοσμένο πρότυπο εργαζόμενου για σχολιασμό Q&A. Μπορείτε να προσθέσετε ερωτήσεις επισημαίνοντας ενότητες κειμένου στο πλαίσιο και, στη συνέχεια, επιλέγοντας Προσθήκη ερώτησης.
Ελέγξτε την κατάσταση των εργασιών επισήμανσης
Μετά την υποβολή, μπορείτε να εκτελέσετε το Ελέγξτε την κατάσταση των εργασιών επισήμανσης κελί για να δείτε εάν η εργασία επισήμανσης έχει ολοκληρωθεί. Περιμένετε να ολοκληρωθεί πριν προχωρήσετε σε περαιτέρω κελιά.
Φόρτωση δεδομένων με ετικέτα
Μετά την επισήμανση, το μανιφέστο εξόδου περιέχει μια καταχώρηση με το όνομα του χαρακτηριστικού ετικέτας (σε αυτήν την περίπτωση squad-1626282229
) που περιέχει δεδομένα με μορφοποίηση S3 URI σε SQuAD που μπορείτε να χρησιμοποιήσετε κατά τη διάρκεια της προπόνησης. Δείτε τα ακόλουθα περιεχόμενα δήλωσης εξόδου:
Κάθε γραμμή στο μανιφέστο αντιστοιχεί σε μια μεμονωμένη εργασία εργαζομένου.
Φόρτωση σετ τρένου SQuAD
Το Hugging Face έχει ένα πακέτο δεδομένων που σας παρέχει τη δυνατότητα λήψης και προεπεξεργασίας του SQuAD, αλλά για να προσθέσουμε τις προσαρμοσμένες ερωτήσεις και απαντήσεις μας, πρέπει να κάνουμε λίγη επεξεργασία. Το SQuAD είναι δομημένο γύρω από σύνολα θεμάτων. Κάθε θέμα έχει μια ποικιλία διαφορετικών δηλώσεων περιβάλλοντος και κάθε δήλωση περιβάλλοντος έχει ζεύγη ερωτήσεων και απαντήσεων. Επειδή θέλουμε να δημιουργήσουμε τις δικές μας ερωτήσεις για εκπαίδευση, πρέπει να συνδυάσουμε τις ερωτήσεις μας με το SQuAD. Ευτυχώς για εμάς, οι σχολιασμοί μας είναι ήδη σε μορφή SQuAD, επομένως μπορούμε να πάρουμε τις ετικέτες παραδειγμάτων μας και να τις προσθέσουμε ως νέο θέμα στα υπάρχοντα δεδομένα SQuAD.
Δημιουργήστε ένα αντικείμενο Hugging Face Dataset
Για να μεταφέρουμε τα δεδομένα μας στη μορφή δεδομένων του Hugging Face, έχουμε πολλές επιλογές. Μπορούμε να χρησιμοποιήσουμε το load_dataset επιλογή, στην οποία περίπτωση μπορούμε να παρέχουμε ένα αρχείο CSV, JSON ή κειμένου που φορτώνεται ως αντικείμενο δεδομένων. Μπορείτε επίσης να προμηθευτείτε load_dataset
με ένα σενάριο επεξεργασίας για να μετατρέψετε το αρχείο σας στην επιθυμητή μορφή. Για αυτήν την ανάρτηση, χρησιμοποιούμε αντί για το Dataset.from_dict()
μέθοδο, η οποία μας επιτρέπει να παρέχουμε ένα λεξικό στη μνήμη για να δημιουργήσουμε ένα αντικείμενο δεδομένων. Ορίζουμε επίσης τα χαρακτηριστικά του συνόλου μας. Μπορούμε να δούμε τα χαρακτηριστικά χρησιμοποιώντας Πρόγραμμα προβολής δεδομένων Hugging Face, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.
Τα χαρακτηριστικά μας είναι τα εξής:
- ID – Το αναγνωριστικό του κειμένου
- τίτλος – Ο σχετικός τίτλος για το θέμα
- συμφραζόμενα – Η δήλωση περιβάλλοντος που πρέπει να αναζητήσει το μοντέλο για να βρει μια απάντηση
- ερώτηση – Η ερώτηση που τίθεται στο μοντέλο
- απάντηση – Το αποδεκτό κείμενο απάντησης και η θέση στη δήλωση περιβάλλοντος
Τα σύνολα δεδομένων Hugging Face μας επιτρέπουν εύκολα να ορίσουμε αυτό το σχήμα:
Αφού δημιουργήσουμε το αντικείμενο δεδομένων μας, πρέπει συμβολίζω το κείμενο. Επειδή τα μοντέλα δεν μπορούν να δεχτούν ακατέργαστο κείμενο ως είσοδο, πρέπει να μετατρέψουμε το κείμενό μας σε μια αριθμητική είσοδο που μπορεί να κατανοήσει, αλλιώς γνωστή ως tokenization. Το tokenization είναι συγκεκριμένο μοντέλο, οπότε ας καταλάβουμε το μοντέλο που πρόκειται να βελτιώσουμε. Χρησιμοποιούμε ένα αποστακτήρας-βάση-ακάλυπτος μοντέλο. Μοιάζει πολύ με το BERT: χρησιμοποιεί ενσωματώσεις εισόδου, προσοχή πολλαπλών κεφαλών (για περισσότερες πληροφορίες σχετικά με αυτήν τη λειτουργία, ανατρέξτε στο The Illustrated Transformer), και τροφοδοτεί στρώματα προς τα εμπρός, αλλά έχει τις μισές παραμέτρους από το αρχικό βασικό μοντέλο BERT. Δείτε τα ακόλουθα αρχικά επίπεδα μοντέλου:
Ας αναλύσουμε κάθε στοιχείο του τίτλου του μοντέλου. Το όνομα distilbert
υποδηλώνει το γεγονός ότι πρόκειται για μια αποσταγμένη έκδοση του βασικού μοντέλου BERT, το οποίο λαμβάνεται μέσω μιας διαδικασίας που ονομάζεται απόσταξη γνώσης. Η απόσταξη γνώσης μάς επιτρέπει να εκπαιδεύσουμε ένα μικρότερο μοντέλο μαθητή όχι μόνο στα δεδομένα εκπαίδευσης αλλά και στις απαντήσεις στο ίδιο σύνολο εκπαίδευσης από ένα μεγαλύτερο προεκπαιδευμένο μοντέλο δασκάλου. base
αναφέρεται στο μέγεθος του μοντέλου, στην περίπτωση αυτή το μοντέλο αποστάχθηκε από ένα βασικό μοντέλο BERT (σε αντίθεση με ένα μεγάλο μοντέλο BERT). uncased
αναφέρεται στο κείμενο στο οποίο εκπαιδεύτηκε. Σε αυτήν την περίπτωση το κείμενο δεν έλαβε υπόψη την περίπτωση. όλο το κείμενο στο οποίο είχε εκπαιδευτεί ήταν πεζά. ο uncased
Η πτυχή επηρεάζει άμεσα τον τρόπο με τον οποίο προσαρμόζουμε το κείμενό μας. Ευτυχώς, εκτός από την εύκολη πρόσβαση στη λήψη μοντέλων μετασχηματιστών, το Hugging Face παρέχει επίσης το συνοδευτικό tokenizer του μοντέλου. Κατεβάσαμε επίσης ένα προσαρμοσμένο tokenizer για το δικό μας distilbert-base-uncased model
που χρησιμοποιούμε τώρα για να μεταμορφώσουμε το κείμενό μας:
Ένα άλλο χαρακτηριστικό της κλάσης δεδομένων είναι ότι μας επιτρέπει να εκτελούμε προεπεξεργασία και tokenization παράλληλα με τη λειτουργία χάρτη της. Ορίζουμε μια συνάρτηση επεξεργασίας και μετά την περνάμε στη μέθοδο χάρτη.
Για την απάντηση ερωτήσεων, το Hugging Face χρειάζεται πολλά στοιχεία (τα οποία ορίζονται επίσης στο γλωσσάριο):
- μάσκα προσοχής – Μια μάσκα που υποδεικνύει στο μοντέλο σε ποια διακριτικά πρέπει να προσέξετε, που χρησιμοποιείται κυρίως για τη διαφοροποίηση μεταξύ πραγματικού κειμένου και κουπονιών συμπλήρωσης
- θέσεις έναρξης – Η αρχική θέση της απάντησης στο κείμενο
- τελικές θέσεις – Η τελική θέση της απάντησης στο κείμενο
- input_ids – Οι δείκτες συμβολικών που αντιστοιχίζουν τα διακριτικά στο λεξιλόγιο
Το tokenizer μας θα κάνει tokenize το κείμενο, αλλά πρέπει να καταγράψουμε ρητά τις θέσεις έναρξης και λήξης της απάντησής μας, γι' αυτό έχουμε ορίσει μια προσαρμοσμένη συνάρτηση προεπεξεργασίας. Τώρα που έχουμε έτοιμα τα στοιχεία μας, ας ξεκινήσουμε την εκπαίδευση!
Έναρξη εργασίας κατάρτισης
Μπορούμε να εκτελέσουμε εκπαίδευση στο σημειωματάριό μας, αλλά οι τύποι παρουσιών που χρειαζόμαστε για να εκπαιδεύσουμε το μοντέλο Q&A σε εύλογο χρονικό διάστημα, οι περιπτώσεις p3 και p4, είναι αρκετά ισχυροί. Αυτές οι περιπτώσεις τείνουν να είναι υπερβολικές για τη λειτουργία ενός φορητού υπολογιστή ή ως επίμονο Amazon Elastic Compute Cloud (Amazon EC2) παράδειγμα. Εδώ έρχεται η εκπαίδευση του SageMaker. Η εκπαίδευση του SageMaker σάς επιτρέπει να ξεκινήσετε μια εργασία εκπαίδευσης σε μια συγκεκριμένη παρουσία ή περιπτώσεις που είναι διαθέσιμες μόνο για τη διάρκεια της εργασίας εκπαίδευσης. Αυτό μας επιτρέπει να τρέχουμε σε μεγαλύτερες παρουσίες όπως το p4d.24xlarge, με 8 GPU NVIDIA A100, αλλά χωρίς να ανησυχούμε για την εκτέλεση ενός τεράστιου λογαριασμού σε περίπτωση που ξεχάσουμε να το απενεργοποιήσουμε. Μας δίνει επίσης εύκολη πρόσβαση σε άλλες λειτουργίες του SageMaker, όπως Πειράματα SageMaker για την παρακολούθηση των προπονήσεων ML και Εντοπιστής σφαλμάτων SageMaker για την κατανόηση και τη δημιουργία προφίλ των εργασιών κατάρτισης σας.
Τοπική εκπαίδευση
Ας ξεκινήσουμε κατανοώντας πώς λειτουργεί τοπικά η εκπαίδευση ενός μοντέλου στο Hugging Face και, στη συνέχεια, εξετάστε τις προσαρμογές που κάνουμε για να το εκτελέσουμε στο SageMaker.
Το Hugging Face κάνει την προπόνηση εύκολη μέσω της χρήσης του προπονητή τους. Η κλάση εκπαιδευτή μας επιτρέπει να μεταβιβάσουμε το μοντέλο μας, τα σύνολα δεδομένων εκπαίδευσης και επικύρωσης, τις υπερπαραμέτρους μας, ακόμη και το tokenizer μας. Επειδή έχουμε ήδη το μοντέλο μας καθώς και τα σύνολα εκπαίδευσης και επικύρωσης, χρειάζεται μόνο να ορίσουμε τις υπερπαραμέτρους μας. Μπορούμε να το κάνουμε αυτό μέσω του TrainingArguments
τάξη. Αυτό μας επιτρέπει να προσδιορίζουμε πράγματα όπως το ρυθμό εκμάθησης, το μέγεθος παρτίδας, τον αριθμό των εποχών και πιο εμπεριστατωμένες παραμέτρους όπως η μείωση του βάρους ή μια στρατηγική προγραμματισμού ρυθμού μάθησης. Αφού ορίσουμε το δικό μας TrainingArguments
, μπορούμε να περάσουμε στο μοντέλο μας, το σύνολο εκπαίδευσης, το σύνολο επικύρωσης και τα επιχειρήματα για να δημιουργήσουμε την τάξη εκπαιδευτή μας. Τότε μπορούμε απλά να καλέσουμε trainer.train()
να αρχίσουμε να εκπαιδεύουμε το μοντέλο μας. Το ακόλουθο μπλοκ κώδικα δείχνει τον τρόπο εκτέλεσης τοπικής εκπαίδευσης:
Στείλτε δεδομένα στο S3
Το να κάνετε το ίδιο πράγμα στην εκπαίδευση του SageMaker είναι απλό. Το πρώτο βήμα είναι να τοποθετήσουμε τα δεδομένα μας στο Amazon S3 ώστε το μοντέλο μας να έχει πρόσβαση σε αυτά. Η εκπαίδευση του SageMaker σάς επιτρέπει να καθορίσετε μια πηγή δεδομένων. μπορείτε να χρησιμοποιήσετε πηγές όπως το Amazon S3, Σύστημα αρχείων ελαστικού Amazon (Amazon EFS), ή Amazon FSx για λάμψη για απορρόφηση δεδομένων υψηλής απόδοσης. Στην περίπτωσή μας, το επαυξημένο σύνολο δεδομένων SQuAD δεν είναι ιδιαίτερα μεγάλο, επομένως το Amazon S3 είναι μια καλή επιλογή. Ανεβάζουμε τα δεδομένα προπόνησής μας σε έναν φάκελο στο Amazon S3 και όταν το SageMaker περιστρέφει το εκπαιδευτικό μας παράδειγμα, πραγματοποιεί λήψη των δεδομένων από την καθορισμένη τοποθεσία μας.
Δημιουργήστε το μοντέλο
Για να ξεκινήσουμε την εκπαιδευτική μας εργασία, μπορούμε να χρησιμοποιήσουμε τον ενσωματωμένο εκτιμητή Hugging Face στο SageMaker SDK. Το SageMaker χρησιμοποιεί την κλάση εκτιμητή για να καθορίσει τις παραμέτρους για μια εργασία εκπαίδευσης, καθώς και τον αριθμό και τον τύπο των περιπτώσεων που θα χρησιμοποιηθούν για την εκπαίδευση. Η εκπαίδευση του SageMaker βασίζεται στη χρήση των δοχείων Docker. Μπορείτε να χρησιμοποιήσετε τα προεπιλεγμένα κοντέινερ στο SageMaker ή να παρέχετε το δικό σας προσαρμοσμένο κοντέινερ για εκπαίδευση. Στην περίπτωση των μοντέλων Hugging Face, το SageMaker διαθέτει ενσωματωμένα δοχεία Hugging Face με όλες τις εξαρτήσεις που χρειάζεστε για να εκτελέσετε εργασίες εκπαίδευσης Hugging Face. Το μόνο που χρειάζεται να κάνουμε είναι να ορίσουμε το σενάριο προπόνησής μας, το οποίο χρησιμοποιεί το κοντέινερ Hugging Face ως σημείο εισόδου.
Σε αυτό το σενάριο εκπαίδευσης, ορίζουμε τα ορίσματά μας, τα οποία περνάμε στο σημείο εισόδου μας με τη μορφή ενός συνόλου υπερπαραμέτρων, καθώς και τον κώδικα εκπαίδευσης. Ο κωδικός εκπαίδευσης μας είναι ο ίδιος σαν να τον εκτελούσαμε τοπικά. μπορούμε απλά να χρησιμοποιήσουμε το TrainingArguments
και μετά περάστε τα σε ένα αντικείμενο εκπαιδευτή. Η μόνη διαφορά είναι ότι πρέπει να καθορίσουμε τη θέση εξόδου στην οποία θα βρίσκεται το μοντέλο μας /opt/ml/model
ώστε η εκπαίδευση του SageMaker να το πάρει, να το συσκευάσει και να το στείλει στο Amazon S3. Το ακόλουθο μπλοκ κώδικα δείχνει πώς να δημιουργήσετε τον εκτιμητή Hugging Face:
Βελτιώστε το μοντέλο
Για τη συγκεκριμένη εργασία εκπαίδευσης, χρησιμοποιούμε ένα παράδειγμα p3.8xlarge που αποτελείται από 4 GPU V100. Η κλάση εκπαιδευτή υποστηρίζει αυτόματα εκπαίδευση σε παρουσίες πολλαπλών GPU, επομένως δεν χρειαζόμαστε πρόσθετη ρύθμιση για να το λάβουμε υπόψη. Εκπαιδεύουμε το μοντέλο μας για δύο εποχές, με μέγεθος παρτίδας 16 και ρυθμό εκμάθησης 4e5. Ενεργοποιούμε επίσης την εκπαίδευση μεικτής ακρίβειας, η οποία χρησιμοποιεί μικτή ακρίβεια σε περιοχές όπου μπορούμε να μειώσουμε την αριθμητική ακρίβεια χωρίς να επηρεάσουμε την ακρίβεια του μοντέλου μας. Αυτό αυξάνει τη διαθέσιμη μνήμη και τις ταχύτητες προπόνησής μας. Για να ξεκινήσει η εργασία εκπαίδευσης, καλούμε το fit
μέθοδος από τη δική μας huggingface_estimator
τάξη.
Όταν το μοντέλο μας ολοκληρώσει την εκπαίδευση, μπορούμε να κατεβάσουμε το μοντέλο τοπικά και να το φορτώσουμε στη μνήμη του σημειωματάριου μας για να το δοκιμάσουμε, κάτι που παρουσιάζεται στο σημειωματάριο. Θα εστιάσουμε σε μια άλλη επιλογή, αναπτύσσοντάς την ως τελικό σημείο του SageMaker!
Αναπτύξτε εκπαιδευμένο μοντέλο
Εκτός από την παροχή βοηθητικών προγραμμάτων για εκπαίδευση, το SageMaker μπορεί επίσης να επιτρέψει σε επιστήμονες δεδομένων και μηχανικούς ML να αναπτύξουν εύκολα τελικά σημεία REST για τα εκπαιδευμένα μοντέλα τους. Μπορείτε να αναπτύξετε μοντέλα που έχουν εκπαιδευτεί εντός ή εκτός του SageMaker. Για περισσότερες πληροφορίες, ανατρέξτε στο Αναπτύξτε ένα μοντέλο στο Amazon SageMaker.
Επειδή το μοντέλο μας εκπαιδεύτηκε στο SageMaker, είναι ήδη στη σωστή μορφή για να αναπτυχθεί ως τελικό σημείο. Παρόμοια με την εκπαίδευση, ορίζουμε μια κλάση μοντέλου SageMaker που ορίζει το μοντέλο, τον κώδικα εξυπηρέτησης και τον αριθμό και τον τύπο των παρουσιών που θέλουμε να αναπτύξουμε ως τελικά σημεία. Παρόμοια με την εκπαίδευση, το σερβίρισμα βασίζεται σε δοχεία Docker και μπορούμε να χρησιμοποιήσουμε ένα από τα ενσωματωμένα δοχεία SageMaker ή να προμηθεύσουμε τα δικά μας. Για αυτήν την ανάρτηση, χρησιμοποιούμε ένα ενσωματωμένο κοντέινερ εξυπηρέτησης PyTorch, επομένως πρέπει απλώς να ορίσουμε μερικά πράγματα για να θέσουμε το τελικό σημείο σε λειτουργία. Ο κώδικας εξυπηρέτησης χρειάζεται τέσσερις λειτουργίες:
- model_fn – Καθορίζει τον τρόπο με τον οποίο το τελικό σημείο φορτώνει το μοντέλο (αυτό το κάνει μόνο μία φορά και στη συνέχεια το διατηρεί στη μνήμη για επόμενες προβλέψεις)
- input_fn – Καθορίζει τον τρόπο με τον οποίο αποδεσμεύεται και επεξεργάζεται τα δεδομένα εισόδου
- predict_fn – Καθορίζει τον τρόπο με τον οποίο το μοντέλο μας κάνει προβλέψεις σχετικά με τα δεδομένα μας
- output_fn – Καθορίζει πώς μορφοποιείται το τελικό σημείο και στέλνει πίσω τα δεδομένα εξόδου στον πελάτη που υποβάλλει το αίτημα
Αφού ορίσουμε αυτές τις συναρτήσεις, μπορούμε να αναπτύξουμε το τελικό σημείο μας και να του δώσουμε δηλώσεις περιβάλλοντος και ερωτήσεις και να επιστρέψουμε την προβλεπόμενη απάντησή του:
Οπτικοποιήστε τα αποτελέσματα του μοντέλου
Επειδή αναπτύξαμε ένα τελικό σημείο του SageMaker που μας επιτρέπει να στέλνουμε δηλώσεις περιβάλλοντος και να λαμβάνουμε απαντήσεις, μπορούμε να επιστρέψουμε και να οπτικοποιήσουμε τα συμπεράσματα που προκύπτουν στο αρχικό πρόγραμμα προβολής SQuAD για να απεικονίσουμε καλύτερα αυτό που βρήκε το μοντέλο μας στο πλαίσιο του αποσπάσματος. Αυτό το κάνουμε διαμορφώνοντας εκ νέου τα αποτελέσματα των συμπερασμάτων σε μορφή SQuAD και, στη συνέχεια, αντικαθιστώντας τις Liquid ετικέτες στο πρότυπο εργασίας με το JSON με μορφή SQuAD. Στη συνέχεια, μπορούμε να πλαισιώσουμε τη διεπαφή που προκύπτει μέσα στο πρότυπο εργασίας μας για να ελέγξουμε επαναληπτικά τα αποτελέσματα στο πλαίσιο ενός μόνο σημειωματάριου, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης. Μπορείτε να κάνετε κλικ σε κάθε ερώτηση στα αριστερά για να επισημάνετε τα εύρη του κειμένου στα δεξιά που ταιριάζουν με το ερώτημα. Χωρίς επιλεγμένη ερώτηση, όλα τα ανοίγματα κειμένου επισημαίνονται στα δεξιά όπως φαίνεται παρακάτω.
εκκαθάριση
Για να αποφύγετε μελλοντικές χρεώσεις, εκτελέστε το εκκαθάριση ενότητα του σημειωματαρίου για να διαγράψετε όλους τους πόρους, συμπεριλαμβανομένων των τελικών σημείων του SageMaker, των αντικειμένων S3 που περιέχουν το μη επεξεργασμένο και επεξεργασμένο σύνολο δεδομένων και τη στοίβα CloudFormation. Όταν ολοκληρωθεί η διαγραφή, φροντίστε να διακόψετε και να διαγράψετε την παρουσία του σημειωματάριου που φιλοξενεί την τρέχουσα δέσμη ενεργειών σημειωματάριου.
Συμπέρασμα
Σε αυτήν την ανάρτηση, μάθατε πώς να δημιουργείτε το δικό σας σύνολο δεδομένων απάντησης σε ερωτήσεις χρησιμοποιώντας το Ground Truth και να το συνδυάζετε με το SQuAD για να εκπαιδεύσετε και να αναπτύξετε το δικό σας μοντέλο απάντησης ερωτήσεων χρησιμοποιώντας το SageMaker. Αφού ολοκληρώσετε το σημειωματάριο, έχετε ένα αναπτυγμένο τελικό σημείο του SageMaker που εκπαιδεύτηκε στο προσαρμοσμένο σύνολο δεδομένων Q&A. Αυτό το τελικό σημείο είναι έτοιμο για ενσωμάτωση στις ροές εργασίας NLU παραγωγής σας, επειδή τα τελικά σημεία του SageMaker είναι διαθέσιμα μέσω τυπικών API REST. Έχετε επίσης ένα σχολιασμένο προσαρμοσμένο σύνολο δεδομένων σε μορφή SQuAD 2.0, το οποίο σας επιτρέπει να επανεκπαιδεύσετε το υπάρχον μοντέλο σας ή να δοκιμάσετε να εκπαιδεύσετε άλλες αρχιτεκτονικές μοντέλων απάντησης σε ερωτήσεις. Τέλος, έχετε έναν μηχανισμό για να οπτικοποιήσετε γρήγορα τα αποτελέσματα από τα συμπεράσματά σας, φορτώνοντας το πρότυπο εργασίας στο τοπικό σας σημειωματάριο.
Δοκιμάστε το σημειωματάριο, αυξήστε το με τις δικές σας ερωτήσεις και εκπαιδεύστε και αναπτύξτε το δικό σας προσαρμοσμένο μοντέλο απάντησης ερωτήσεων για τις περιπτώσεις χρήσης NLU!
Καλό κτίριο!
Σχετικά με τους Συγγραφείς
Τζέρεμι Φελτράκο είναι Μηχανικός Ανάπτυξης Λογισμικού με το Amazon ML Solutions Lab στο Amazon Web Services. Χρησιμοποιεί το υπόβαθρό του στην όραση υπολογιστών, τη ρομποτική και τη μηχανική μάθηση για να βοηθήσει τους πελάτες AWS να επιταχύνουν την υιοθεσία AI.
Βίντια Σαγκάρ Ραβιπάτι είναι Διευθυντής στο Εργαστήριο Amazon ML Solutions, όπου αξιοποιεί την τεράστια εμπειρία του σε κατανεμημένα συστήματα μεγάλης κλίμακας και το πάθος του για μηχανική εκμάθηση για να βοηθήσει τους πελάτες AWS σε διαφορετικούς κλάδους της βιομηχανίας να επιταχύνουν την υιοθεσία AI και cloud. Προηγουμένως, ήταν Μηχανικός Μηχανικής Μάθησης στις Υπηρεσίες Συνδεσιμότητας στο Amazon που βοήθησε στην κατασκευή εξατομικευμένων και προβλέψιμων πλατφορμών συντήρησης.
Ισαάκ Πριβιτέρα είναι Senior Data Scientist στο Amazon Machine Learning Solutions Lab, όπου αναπτύσσει εξατομικευμένες λύσεις μηχανικής μάθησης και βαθιάς μάθησης για την αντιμετώπιση των επιχειρηματικών προβλημάτων των πελατών. Εργάζεται κυρίως στον χώρο της υπολογιστικής όρασης, εστιάζοντας στο να παρέχει στους πελάτες AWS κατανεμημένη εκπαίδευση και ενεργή μάθηση.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/build-a-custom-qa-dataset-using-amazon-sagemaker-ground-truth-to-train-a-hugging-face-qa- nlu-model/
- "
- &
- 000
- 10
- 100
- 116
- 28
- 39
- 3d
- 7
- 9
- ΠΛΗΡΟΦΟΡΙΕΣ
- επιταχύνουν
- πρόσβαση
- Σύμφωνα με
- Λογαριασμός
- Λογιστήριο
- ακριβής
- απέναντι
- ενεργός
- Επιπλέον
- Πρόσθετος
- διεύθυνση
- Υιοθεσία
- παράγοντες
- AI
- Όλα
- Επιτρέποντας
- ήδη
- Amazon
- Amazon υπηρεσίες Web
- ποσό
- Άλλος
- απάντηση
- APIs
- αρχιτεκτονική
- ΠΕΡΙΟΧΗ
- επιχειρήματα
- γύρω
- άρθρο
- εμπορεύματα
- Βοηθός
- προσοχή
- έλεγχος
- επαυξημένης
- συγγραφείς
- Αυτοματοποιημένη
- Αυτόματο
- διαθέσιμος
- AWS
- φόντο
- φράγμα
- εμπόδια
- Αρχή
- είναι
- παρακάτω
- Νομοσχέδιο
- Κομμάτι
- Αποκλεισμός
- σώμα
- σύνορο
- χτίζω
- ενσωματωμένο
- επιχείρηση
- κλήση
- Μπορεί να πάρει
- πιάνω
- περιπτώσεις
- πρόκληση
- πρόκληση
- φορτία
- Επιλέξτε
- τάξη
- Backup
- κωδικός
- Συλλέγοντας
- συστατικό
- Υπολογίστε
- υπολογιστή
- διαμόρφωση
- Συνδεσιμότητα
- πρόξενος
- ενοποίηση
- Δοχείο
- Εμπορευματοκιβώτια
- Περιέχει
- περιεχόμενα
- εργολάβοι
- Αντίστοιχος
- Δικαστικά έξοδα
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- Ρεύμα
- έθιμο
- πελάτης
- Εξυπηρέτηση πελατών
- Πελάτες
- ημερομηνία
- επιστήμονας δεδομένων
- βαθύτερη
- παράδοση
- αποδεικνύουν
- κατέδειξε
- εξαρτάται
- παρατάσσω
- αναπτυχθεί
- ανάπτυξη
- ανάπτυξη
- σχεδιασμένα
- λεπτομερής
- καθέκαστα
- Προσδιορίστε
- Ανάπτυξη
- διαφορετικές
- δύσκολος
- κατευθείαν
- Νόσος
- διανέμονται
- Λιμενεργάτης
- Όχι
- κάτω
- κατεβάσετε
- λήψεις
- οδήγηση
- κατά την διάρκεια
- εύκολα
- ενεργοποίηση
- Τελικό σημείο
- μηχανικός
- Μηχανικοί
- Αγγλικά
- εκτίμηση
- παράδειγμα
- υφιστάμενα
- εμπειρία
- Εκχυλίσματα
- Πρόσωπο
- Χαρακτηριστικό
- Χαρακτηριστικά
- Τελικά
- Όνομα
- Συγκέντρωση
- εστιάζοντας
- Εξής
- μορφή
- μορφή
- Προς τα εμπρός
- Βρέθηκαν
- Δωρεάν
- λειτουργία
- περαιτέρω
- μελλοντικός
- παράγουν
- παραγωγής
- γενεά
- GitHub
- μετάβαση
- καλός
- βοήθεια
- βοηθά
- υψηλής ποιότητας
- Επισημάνετε
- Τόνισε
- υψηλά
- φιλοξενία
- Πως
- Πώς να
- HTTPS
- τεράστιος
- ανθρώπινος
- Οι άνθρωποι
- Εκατοντάδες
- προσδιορίσει
- προσδιορισμό
- Ταυτότητα
- εικόνα
- εφαρμογή
- εφαρμοστεί
- αδύνατος
- βελτίωση
- Α.Ε.
- περιλαμβάνουν
- περιλαμβάνει
- Συμπεριλαμβανομένου
- όλο και περισσότερο
- βιομηχανία
- πληροφορίες
- Υποδομή
- εισαγωγή
- ολοκλήρωση
- Έξυπνος
- τόκος
- περιβάλλον λειτουργίας
- International
- διαισθητική
- IT
- εαυτό
- το JavaScript
- Δουλειά
- Θέσεις εργασίας
- Κλειδί
- γνώση
- γνωστός
- εργαστήριο
- τιτλοφόρηση
- Ετικέτες
- Γλώσσα
- large
- μεγαλύτερος
- ξεκινήσει
- μάθει
- μάθηση
- Άδεια
- μόχλευσης
- Άδεια
- Πιθανός
- γραμμή
- Υγρό
- Λιστα
- φορτίο
- φόρτωση
- τοπικός
- τοπικά
- τοποθεσία
- μηχανή
- μάθηση μηχανής
- ΚΑΝΕΙ
- Κατασκευή
- διαχειρίζεται
- διευθυντής
- χάρτη
- χαρτης
- χάρτες
- Μάρκετινγκ
- μάσκα
- ταιριάζουν
- νόημα
- μέσα
- Μνήμη
- μικτός
- ML
- μοντέλο
- μοντέλα
- Παρακολούθηση
- περισσότερο
- πλέον
- πολλαπλούς
- Φυσικό
- σημειωματάριο
- αριθμός
- λαμβάνεται
- προσφορά
- προσφορές
- διαδικτυακά (online)
- ανοίξτε
- άνοιγμα
- λειτουργούν
- λειτουργίας
- λειτουργία
- Βελτιστοποίηση
- βελτιστοποίηση
- Επιλογή
- Επιλογές
- τάξη
- επιχειρήσεις
- ΑΛΛΑ
- αλλιώς
- δική
- μέρος
- Ειδικότερα
- ιδιαίτερα
- Πληρωμή
- εκτέλεση
- εξατομίκευση
- Πλατφόρμες
- Σημείο
- σημεία
- Πύλη
- θέση
- θετικός
- ισχυρός
- προβλέψει
- Προβλέψεις
- τιμολόγηση
- ιδιωτικός
- Πρόβλημα
- προβλήματα
- διαδικασια μας
- Διεργασίες
- μεταποίηση
- Προϊόν
- παραγωγή
- Προϊόντα
- προφίλ
- παρέχουν
- παρέχει
- χορήγηση
- δημόσιο
- Ερωτήσεις και απαντήσεις
- ποιότητα
- ερώτηση
- γρήγορα
- Ακατέργαστος
- Ανάγνωση
- λογικός
- λαμβάνω
- μείωση
- Αποθήκη
- αντιπροσώπευση
- Υποστηρικτικό υλικό
- ΠΕΡΙΦΕΡΕΙΑ
- Αποτελέσματα
- απόδοση
- έσοδα
- ανασκόπηση
- ρομποτική
- γύρος
- τρέξιμο
- τρέξιμο
- Απεριόριστες δυνατότητες
- Επιστήμονας
- επιστήμονες
- SDK
- Αναζήτηση
- ασφάλεια
- τμήμα
- κατάτμηση
- τμήματα
- επιλέγονται
- Υπηρεσίες
- εξυπηρετούν
- σειρά
- setup
- Κοντά
- παρουσιάζεται
- παρόμοιες
- Απλούς
- Μέγεθος
- δεξιότητες
- small
- So
- λογισμικό
- ανάπτυξη λογισμικού
- στέρεο
- λύση
- Λύσεις
- μερικοί
- Χώρος
- ειδική
- ειδικευμένος
- ειδικά
- σωρός
- πρότυπο
- Εκκίνηση
- Δήλωση
- δηλώσεις
- χώρος στο δίσκο
- κατάστημα
- Στρατηγική
- δομημένος
- Φοιτητής
- επιτυχής
- προμήθεια
- υποστήριξη
- Υποστηρίζει
- σύστημα
- συστήματα
- εργασίες
- δοκιμή
- Μέσω
- ώρα
- χρονοβόρος
- Τίτλος
- ένδειξη
- Τεκμηρίωση
- συμβολίζεται
- κουπόνια
- Θέματα
- δάδα
- Παρακολούθηση
- Εκπαίδευση
- Μεταμορφώστε
- τύποι
- ui
- καταλαβαίνω
- κατανόηση
- us
- χρήση
- χρησιμοποιώ
- επικύρωση
- αξία
- ποικιλία
- πωλητές
- Επαλήθευση
- Εναντίον
- κατακόρυφα
- Βίντεο
- Δες
- ιούς
- όραμα
- Φωνή
- περιμένετε
- ιστός
- διαδικτυακές υπηρεσίες
- Τι
- ενώ
- Ο ΟΠΟΊΟΣ
- Wikipedia
- εντός
- χωρίς
- Εργασία
- εργαζομένων
- Εργατικό δυναμικό
- λειτουργεί
- σκώληκες
- χρόνια