Δημιουργήστε δεδομένα υψηλής ποιότητας για μοντέλα ML με το Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Δημιουργήστε δεδομένα υψηλής ποιότητας για μοντέλα ML με το Amazon SageMaker Ground Truth

Η μηχανική εκμάθηση (ML) έχει βελτιώσει τις επιχειρήσεις σε όλους τους κλάδους τα τελευταία χρόνια—από το σύστημα προτάσεων στο δικό σας Prime Video λογαριασμό, για να τεκμηριώσετε τη σύνοψη και την αποτελεσματική αναζήτηση Alexaφωνητική βοήθεια του. Ωστόσο, παραμένει το ερώτημα πώς να ενσωματώσετε αυτήν την τεχνολογία στην επιχείρησή σας. Σε αντίθεση με τις παραδοσιακές μεθόδους που βασίζονται σε κανόνες, η ML συνάγει αυτόματα μοτίβα από δεδομένα για να εκτελέσει την εργασία που σας ενδιαφέρει. Αν και αυτό παρακάμπτει την ανάγκη επιμέλειας κανόνων για την αυτοματοποίηση, σημαίνει επίσης ότι τα μοντέλα ML μπορούν να είναι τόσο καλά όσο τα δεδομένα στα οποία έχουν εκπαιδευτεί. Ωστόσο, η δημιουργία δεδομένων είναι συχνά μια πρόκληση. Στο Εργαστήριο Amazon Machine Learning Solutions, έχουμε επανειλημμένα αντιμετωπίσει αυτό το πρόβλημα και θέλουμε να διευκολύνουμε αυτό το ταξίδι για τους πελάτες μας. Εάν θέλετε να εκφορτώσετε αυτήν τη διαδικασία, μπορείτε να χρησιμοποιήσετε Amazon SageMaker Ground Truth Plus.

Μέχρι το τέλος αυτής της ανάρτησης, θα είστε σε θέση να επιτύχετε τα εξής:

  • Κατανοήστε τις επιχειρηματικές διαδικασίες που εμπλέκονται στη δημιουργία ενός αγωγού απόκτησης δεδομένων
  • Προσδιορίστε τις υπηρεσίες AWS Cloud για την υποστήριξη και την επίσπευση της διοχέτευσης ετικετών δεδομένων σας
  • Εκτελέστε μια εργασία απόκτησης δεδομένων και επισήμανσης για περιπτώσεις προσαρμοσμένης χρήσης
  • Δημιουργήστε δεδομένα υψηλής ποιότητας ακολουθώντας τις βέλτιστες επιχειρηματικές και τεχνικές πρακτικές

Σε όλη αυτήν την ανάρτηση, εστιάζουμε στη διαδικασία δημιουργίας δεδομένων και βασιζόμαστε στις υπηρεσίες AWS για τον χειρισμό της υποδομής και των στοιχείων της διαδικασίας. Δηλαδή χρησιμοποιούμε Amazon SageMaker Ground Αλήθεια για το χειρισμό του αγωγού υποδομής ετικετών και της διεπαφής χρήστη. Αυτή η υπηρεσία χρησιμοποιεί μια προσέγγιση point-and-go για τη συλλογή των δεδομένων σας από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) και ρυθμίστε μια ροή εργασιών για την επισήμανση. Για την επισήμανση, σας παρέχει την ενσωματωμένη ευελιξία να αποκτήσετε ετικέτες δεδομένων χρησιμοποιώντας την ιδιωτική σας ομάδα, Αμαζόν Μηχανολόγος Τούρκος δύναμη, ή τον προτιμώμενο προμηθευτή ετικετών από AWS Marketplace. Τέλος, μπορείτε να χρησιμοποιήσετε AWS Lambda και Σημειωματάρια Amazon SageMaker για την επεξεργασία, την οπτικοποίηση ή τον ποιοτικό έλεγχο των δεδομένων—είτε πριν είτε μετά την επισήμανση.

Τώρα που όλα τα κομμάτια έχουν στρωθεί, ας ξεκινήσουμε τη διαδικασία!

Η διαδικασία δημιουργίας δεδομένων

Σε αντίθεση με την κοινή διαίσθηση, το πρώτο βήμα για τη δημιουργία δεδομένων δεν είναι η συλλογή δεδομένων. Η εργασία προς τα πίσω από τους χρήστες για την άρθρωση του προβλήματος είναι ζωτικής σημασίας. Για παράδειγμα, τι ενδιαφέρουν οι χρήστες στο τελικό τεχνούργημα; Πού πιστεύουν οι ειδικοί στα δεδομένα τα σήματα που σχετίζονται με την περίπτωση χρήσης; Ποιες πληροφορίες σχετικά με το περιβάλλον περίπτωσης χρήσης θα μπορούσαν να παρέχονται στο μοντέλο; Εάν δεν γνωρίζετε τις απαντήσεις σε αυτές τις ερωτήσεις, μην ανησυχείτε. Δώστε λίγο χρόνο στον εαυτό σας για να μιλήσετε με χρήστες και ειδικούς του χώρου για να κατανοήσετε τις αποχρώσεις. Αυτή η αρχική κατανόηση θα σας προσανατολίσει προς τη σωστή κατεύθυνση και θα σας προετοιμάσει για επιτυχία.

Για αυτήν την ανάρτηση, υποθέτουμε ότι έχετε καλύψει αυτήν την αρχική διαδικασία προδιαγραφής απαιτήσεων χρήστη. Οι επόμενες τρεις ενότητες σας καθοδηγούν στην επακόλουθη διαδικασία δημιουργίας ποιοτικών δεδομένων: σχεδιασμός, δημιουργία δεδομένων πηγής και σχολιασμός δεδομένων. Η πιλοτική εφαρμογή βρόχων στα βήματα δημιουργίας δεδομένων και σχολιασμού είναι ζωτικής σημασίας για τη διασφάλιση της αποτελεσματικής δημιουργίας δεδομένων με ετικέτα. Αυτό περιλαμβάνει την επανάληψη μεταξύ της δημιουργίας δεδομένων, του σχολιασμού, της διασφάλισης ποιότητας και της ενημέρωσης του αγωγού όπως απαιτείται.

Το παρακάτω σχήμα παρέχει μια επισκόπηση των βημάτων που απαιτούνται σε μια τυπική διοχέτευση δημιουργίας δεδομένων. Μπορείτε να εργαστείτε προς τα πίσω από την περίπτωση χρήσης για να προσδιορίσετε τα δεδομένα που χρειάζεστε (Προδιαγραφές απαιτήσεων), να δημιουργήσετε μια διαδικασία για τη λήψη των δεδομένων (Προγραμματισμός), να εφαρμόσετε την πραγματική διαδικασία απόκτησης δεδομένων (Συλλογή δεδομένων και Σχολιασμός) και να αξιολογήσετε τα αποτελέσματα. Οι πιλοτικές εκτελέσεις, που επισημαίνονται με διακεκομμένες γραμμές, σας επιτρέπουν να επαναλάβετε τη διαδικασία έως ότου αναπτυχθεί μια γραμμή συλλογής δεδομένων υψηλής ποιότητας.

Επισκόπηση των βημάτων που απαιτούνται σε έναν τυπικό αγωγό δημιουργίας δεδομένων.

Σχεδιασμός

Μια τυπική διαδικασία δημιουργίας δεδομένων μπορεί να είναι χρονοβόρα και σπατάλη πολύτιμου ανθρώπινου δυναμικού, εάν διεξάγεται αναποτελεσματικά. Γιατί θα ήταν χρονοβόρο; Για να απαντήσουμε σε αυτό το ερώτημα, πρέπει να κατανοήσουμε το εύρος της διαδικασίας δημιουργίας δεδομένων. Για να σας βοηθήσουμε, έχουμε συγκεντρώσει μια λίστα ελέγχου υψηλού επιπέδου και περιγραφή των βασικών στοιχείων και των ενδιαφερομένων που πρέπει να λάβετε υπόψη. Η απάντηση σε αυτές τις ερωτήσεις μπορεί να είναι δύσκολη στην αρχή. Ανάλογα με την περίπτωση χρήσης σας, μόνο μερικά από αυτά μπορεί να ισχύουν.

  • Προσδιορίστε το νομικό σημείο επαφής για τις απαιτούμενες εγκρίσεις – Η χρήση δεδομένων για την αίτησή σας μπορεί να απαιτεί έλεγχο άδειας ή σύμβασης προμηθευτή για να διασφαλιστεί η συμμόρφωση με τις πολιτικές της εταιρείας και τις περιπτώσεις χρήσης. Είναι σημαντικό να προσδιορίζετε τη νομική υποστήριξή σας σε όλα τα βήματα απόκτησης δεδομένων και σχολιασμού της διαδικασίας.
  • Προσδιορίστε το σημείο επαφής ασφαλείας για το χειρισμό δεδομένων –Η διαρροή αγορασμένων δεδομένων μπορεί να οδηγήσει σε σοβαρά πρόστιμα και επιπτώσεις για την εταιρεία σας. Είναι σημαντικό να προσδιορίζετε την υποστήριξη ασφαλείας σας σε όλα τα βήματα απόκτησης δεδομένων και σχολιασμού για να διασφαλίσετε ασφαλείς πρακτικές.
  • Αναλυτικά οι απαιτήσεις περίπτωσης χρήσης και ορίστε τα δεδομένα πηγής και τις οδηγίες σχολιασμού – Η δημιουργία και ο σχολιασμός δεδομένων είναι δύσκολη λόγω της απαιτούμενης υψηλής εξειδίκευσης. Τα ενδιαφερόμενα μέρη, συμπεριλαμβανομένων των παραγωγών δεδομένων και των σχολιαστών, πρέπει να είναι πλήρως ευθυγραμμισμένα για να αποφευχθεί η σπατάλη πόρων. Για το σκοπό αυτό, είναι κοινή πρακτική η χρήση ενός εγγράφου οδηγιών που καθορίζει κάθε πτυχή της εργασίας σχολιασμού: ακριβείς οδηγίες, περιβλήματα άκρων, ένα παράδειγμα περιγραφής και ούτω καθεξής.
  • Ευθυγραμμίστε τις προσδοκίες για τη συλλογή των δεδομένων πηγής σας - Σκέψου τα ακόλουθα:
    • Διεξαγωγή έρευνας για πιθανές πηγές δεδομένων – Για παράδειγμα, δημόσια σύνολα δεδομένων, υπάρχοντα σύνολα δεδομένων από άλλες εσωτερικές ομάδες, δεδομένα που συλλέγονται μόνοι τους ή αγοράζονται από προμηθευτές.
    • Εκτελέστε αξιολόγηση ποιότητας – Δημιουργήστε έναν αγωγό ανάλυσης σε σχέση με την περίπτωση τελικής χρήσης.
  • Ευθυγραμμίστε τις προσδοκίες για τη δημιουργία σχολιασμών δεδομένων - Σκέψου τα ακόλουθα:
    • Προσδιορίστε τα τεχνικά ενδιαφερόμενα μέρη – Αυτό είναι συνήθως ένα άτομο ή μια ομάδα στην εταιρεία σας που μπορεί να χρησιμοποιήσει την τεχνική τεκμηρίωση σχετικά με το Ground Truth για να εφαρμόσει μια διοχέτευση σχολιασμού. Αυτοί οι ενδιαφερόμενοι είναι επίσης υπεύθυνοι για την ποιοτική αξιολόγηση των σχολιασμένων δεδομένων, προκειμένου να βεβαιωθούν ότι ανταποκρίνονται στις ανάγκες της μεταγενέστερης εφαρμογής ML.
    • Προσδιορίστε τους σχολιαστές δεδομένων – Αυτά τα άτομα χρησιμοποιούν προκαθορισμένες οδηγίες για να προσθέσουν ετικέτες στα δεδομένα πηγής σας στο Ground Truth. Μπορεί να χρειαστεί να διαθέτουν γνώσεις τομέα, ανάλογα με την περίπτωση χρήσης και τις οδηγίες σχολιασμού. Μπορείτε να χρησιμοποιήσετε ένα εσωτερικό εργατικό δυναμικό της εταιρείας σας ή να πληρώσετε για ένα εργατικό δυναμικό που διαχειρίζεται εξωτερικός προμηθευτής.
  • Εξασφάλιση εποπτείας της διαδικασίας δημιουργίας δεδομένων – Όπως μπορείτε να δείτε από τα προηγούμενα σημεία, η δημιουργία δεδομένων είναι μια λεπτομερής διαδικασία που περιλαμβάνει πολλά εξειδικευμένα ενδιαφερόμενα μέρη. Επομένως, είναι σημαντικό να το παρακολουθείτε από άκρη σε άκρη προς το επιθυμητό αποτέλεσμα. Έχοντας ένα αφοσιωμένο άτομο ή ομάδα να επιβλέπει τη διαδικασία μπορεί να σας βοηθήσει να εξασφαλίσετε μια συνεκτική, αποτελεσματική διαδικασία δημιουργίας δεδομένων.

Ανάλογα με τη διαδρομή που θα αποφασίσετε να ακολουθήσετε, πρέπει να λάβετε υπόψη και τα εξής:

  • Δημιουργήστε το σύνολο δεδομένων πηγής – Αυτό αναφέρεται σε περιπτώσεις όπου τα υπάρχοντα δεδομένα δεν είναι κατάλληλα για την εκάστοτε εργασία ή νομικοί περιορισμοί σας εμποδίζουν να τα χρησιμοποιήσετε. Πρέπει να χρησιμοποιηθούν εσωτερικές ομάδες ή εξωτερικοί προμηθευτές (επόμενο σημείο). Αυτό συμβαίνει συχνά για εξαιρετικά εξειδικευμένους τομείς ή τομείς με χαμηλή δημόσια έρευνα. Για παράδειγμα, οι συνήθεις ερωτήσεις ενός γιατρού, το ξαπλωμένο ένδυμα ή οι ειδικοί στον αθλητισμό. Μπορεί να είναι εσωτερικό ή εξωτερικό.
  • Ερευνήστε προμηθευτές και πραγματοποιήστε μια διαδικασία ενσωμάτωσης – Όταν χρησιμοποιούνται εξωτερικοί προμηθευτές, πρέπει να καθιερωθεί μια διαδικασία σύναψης σύμβασης και ενσωμάτωσης μεταξύ των δύο οντοτήτων.

Σε αυτήν την ενότητα, εξετάσαμε τα στοιχεία και τα ενδιαφερόμενα μέρη που πρέπει να εξετάσουμε. Ωστόσο, πώς μοιάζει η πραγματική διαδικασία; Στο παρακάτω σχήμα, περιγράφουμε μια ροή εργασίας διαδικασίας για τη δημιουργία δεδομένων και τον σχολιασμό. Η επαναληπτική προσέγγιση χρησιμοποιεί μικρές παρτίδες δεδομένων που ονομάζονται πιλότοι για να μειώσει τον χρόνο διεκπεραίωσης, να ανιχνεύσει λάθη έγκαιρα και να αποφύγει τη σπατάλη πόρων για τη δημιουργία δεδομένων χαμηλής ποιότητας. Περιγράφουμε αυτούς τους πιλοτικούς γύρους αργότερα σε αυτήν την ανάρτηση. Καλύπτουμε επίσης ορισμένες βέλτιστες πρακτικές για τη δημιουργία δεδομένων, τον σχολιασμό και τον ποιοτικό έλεγχο.

Το παρακάτω σχήμα απεικονίζει την επαναληπτική ανάπτυξη ενός αγωγού δημιουργίας δεδομένων. Κάθετα, βρίσκουμε το μπλοκ προέλευσης δεδομένων (πράσινο) και το μπλοκ σχολιασμού (μπλε). Και τα δύο μπλοκ έχουν ανεξάρτητους πιλοτικούς γύρους (Δημιουργία δεδομένων/Σχολιασμός, QAQC και Ενημέρωση). Δημιουργούνται ολοένα και υψηλότερα δεδομένα προέλευσης και μπορούν να χρησιμοποιηθούν για τη δημιουργία σχολιασμών όλο και υψηλότερης ποιότητας.

Κατά τη διάρκεια της επαναληπτικής ανάπτυξης μιας διοχέτευσης δημιουργίας δεδομένων ή σχολιασμού, μικρές παρτίδες δεδομένων χρησιμοποιούνται για ανεξάρτητους πιλότους. Κάθε πιλοτικός γύρος έχει μια φάση δημιουργίας δεδομένων ή σχολιασμού, κάποια διασφάλιση ποιότητας και ποιοτικό έλεγχο των αποτελεσμάτων και ένα βήμα ενημέρωσης για τη βελτίωση της διαδικασίας. Αφού τελειοποιηθούν αυτές οι διαδικασίες μέσω διαδοχικών πιλοτικών, μπορείτε να προχωρήσετε στη δημιουργία και σχολιασμό δεδομένων μεγάλης κλίμακας.

Επισκόπηση της επαναληπτικής ανάπτυξης σε έναν αγωγό δημιουργίας δεδομένων.

Δημιουργία δεδομένων πηγής

Η διαδικασία δημιουργίας εισόδου περιστρέφεται γύρω από τη σταδιοποίηση των στοιχείων που σας ενδιαφέρουν, τα οποία εξαρτώνται από τον τύπο εργασίας σας. Αυτά μπορεί να είναι εικόνες (σαρώσεις εφημερίδων), βίντεο (σκηνές κυκλοφορίας), τρισδιάστατα σύννεφα σημείων (ιατρικές σαρώσεις) ή απλώς κείμενο (κομμάτια υπότιτλων, μεταγραφές). Γενικά, όταν τοποθετείτε τα στοιχεία που σχετίζονται με την εργασία σας, βεβαιωθείτε για τα εξής:

  • Αντικατοπτρίστε την περίπτωση χρήσης του πραγματικού κόσμου για το ενδεχόμενο σύστημα AI/ML – Η ρύθμιση για τη συλλογή εικόνων ή βίντεο για τα δεδομένα προπόνησής σας θα πρέπει να ταιριάζει πολύ με τη ρύθμιση για τα δεδομένα εισόδου στην εφαρμογή του πραγματικού κόσμου. Αυτό σημαίνει ότι έχετε σταθερές επιφάνειες τοποθέτησης, πηγές φωτισμού ή γωνίες κάμερας.
  • Λάβετε υπόψη και ελαχιστοποιήστε τις πηγές μεταβλητότητας - Σκέψου τα ακόλουθα:
    • Ανάπτυξη βέλτιστων πρακτικών για τη διατήρηση προτύπων συλλογής δεδομένων – Ανάλογα με την ευαισθησία της περίπτωσης χρήσης σας, μπορεί να χρειαστεί να καθορίσετε απαιτήσεις για να διασφαλίσετε τη συνέπεια μεταξύ των σημείων δεδομένων σας. Για παράδειγμα, εάν συλλέγετε δεδομένα εικόνας ή βίντεο από μεμονωμένα σημεία κάμερας, μπορεί να χρειαστεί να βεβαιωθείτε για τη συνεπή τοποθέτηση των αντικειμένων που σας ενδιαφέρουν ή να απαιτήσετε ποιοτικό έλεγχο για την κάμερα πριν από έναν γύρο λήψης δεδομένων. Με αυτόν τον τρόπο μπορεί να αποφευχθούν ζητήματα όπως η κλίση ή το θάμπωμα της κάμερας και να ελαχιστοποιηθούν οι γενικές δαπάνες κατάντη, όπως η αφαίρεση εικόνων εκτός κάδρου ή θολών, καθώς και η ανάγκη να κεντράρετε με μη αυτόματο τρόπο το πλαίσιο της εικόνας στην περιοχή ενδιαφέροντός σας.
    • Προκαταρκτική δοκιμή πηγών μεταβλητότητας χρόνου – Εάν αναμένετε μεταβλητότητα σε οποιοδήποτε από τα χαρακτηριστικά που αναφέρθηκαν μέχρι τώρα κατά τη διάρκεια του χρόνου δοκιμής, βεβαιωθείτε ότι μπορείτε να καταγράψετε αυτές τις πηγές μεταβλητότητας κατά τη δημιουργία δεδομένων εκπαίδευσης. Για παράδειγμα, εάν περιμένετε η εφαρμογή ML να λειτουργεί σε πολλές διαφορετικές ρυθμίσεις φωτισμού, θα πρέπει να στοχεύσετε στη δημιουργία προπονητικών εικόνων και βίντεο σε διάφορες ρυθμίσεις φωτισμού. Ανάλογα με την περίπτωση χρήσης, η μεταβλητότητα στη θέση της κάμερας μπορεί επίσης να επηρεάσει την ποιότητα των ετικετών σας.
  • Ενσωματώστε προηγούμενη γνώση του τομέα όταν είναι διαθέσιμη - Σκέψου τα ακόλουθα:
    • Είσοδοι σε πηγές σφάλματος – Οι επαγγελματίες τομέα μπορούν να παρέχουν πληροφορίες για πηγές σφαλμάτων με βάση την πολυετή εμπειρία τους. Μπορούν να παρέχουν σχόλια σχετικά με τις βέλτιστες πρακτικές για τα δύο προηγούμενα σημεία: Ποιες ρυθμίσεις αντικατοπτρίζουν καλύτερα την πραγματική περίπτωση χρήσης; Ποιες είναι οι πιθανές πηγές μεταβλητότητας κατά τη συλλογή δεδομένων ή τη στιγμή της χρήσης;
    • Βέλτιστες πρακτικές συλλογής δεδομένων για συγκεκριμένο τομέα – Παρόλο που οι τεχνικοί σας ενδιαφερόμενοι μπορεί να έχουν ήδη μια καλή ιδέα για τις τεχνικές πτυχές στις οποίες πρέπει να επικεντρωθούν στις εικόνες ή τα βίντεο που συλλέγονται, οι επαγγελματίες τομέα μπορούν να παρέχουν σχόλια σχετικά με τον καλύτερο τρόπο οργάνωσης ή συλλογής δεδομένων έτσι ώστε να ικανοποιούνται αυτές οι ανάγκες.

Ποιοτικός έλεγχος και διασφάλιση ποιότητας των δημιουργούμενων δεδομένων

Τώρα που έχετε δημιουργήσει τη γραμμή συλλογής δεδομένων, μπορεί να είναι δελεαστικό να προχωρήσετε και να συλλέξετε όσο το δυνατόν περισσότερα δεδομένα. Περίμενε ένα λεπτό! Πρέπει πρώτα να ελέγξουμε εάν τα δεδομένα που συλλέγονται μέσω της ρύθμισης είναι κατάλληλα για την περίπτωση χρήσης πραγματικής λέξης. Μπορούμε να χρησιμοποιήσουμε ορισμένα αρχικά δείγματα και να βελτιώσουμε επαναληπτικά τη ρύθμιση μέσω των πληροφοριών που αποκτήσαμε από την ανάλυση αυτών των δειγματοληπτικών δεδομένων. Συνεργαστείτε στενά με τους ενδιαφερόμενους τεχνικούς, επιχειρηματικούς και σχολιασμούς κατά τη διάρκεια της πιλοτικής διαδικασίας. Αυτό θα διασφαλίσει ότι η προκύπτουσα διοχέτευσή σας ανταποκρίνεται στις επιχειρηματικές ανάγκες, ενώ παράγει δεδομένα με ετικέτα έτοιμα για ML εντός ελάχιστων γενικών εξόδων.

Οι σχολιασμοί

Ο σχολιασμός των εισόδων είναι όπου προσθέτουμε τη μαγική πινελιά στα δεδομένα μας—τις ετικέτες! Ανάλογα με τον τύπο εργασίας σας και τη διαδικασία δημιουργίας δεδομένων, μπορεί να χρειαστείτε μη αυτόματους σχολιαστές ή μπορείτε να χρησιμοποιήσετε αυτοματοποιημένες μεθόδους εκτός ραφιού. Ο ίδιος ο αγωγός σχολιασμού δεδομένων μπορεί να είναι μια τεχνικά προκλητική εργασία. Το Ground Truth διευκολύνει αυτό το ταξίδι για τους τεχνικούς σας ενδιαφερόμενους φορείς ενσωματωμένο ρεπερτόριο ροών εργασιών επισήμανσης για κοινές πηγές δεδομένων. Με μερικά επιπλέον βήματα, σας δίνει επίσης τη δυνατότητα να χτίσετε ροές εργασίας προσαρμοσμένης επισήμανσης πέρα από τις προρυθμισμένες επιλογές.

Ρωτήστε τον εαυτό σας τις ακόλουθες ερωτήσεις όταν αναπτύσσετε μια κατάλληλη ροή εργασίας σχολιασμού:

  • Χρειάζομαι μια μη αυτόματη διαδικασία σχολιασμού για τα δεδομένα μου; Σε ορισμένες περιπτώσεις, οι υπηρεσίες αυτοματοποιημένης επισήμανσης μπορεί να είναι επαρκείς για την εκάστοτε εργασία. Η ανασκόπηση της τεκμηρίωσης και των διαθέσιμων εργαλείων μπορεί να σας βοηθήσει να προσδιορίσετε εάν ο χειροκίνητος σχολιασμός είναι απαραίτητος για την περίπτωση χρήσης σας (για περισσότερες πληροφορίες, βλ. Τι είναι η επισήμανση δεδομένων;). Η διαδικασία δημιουργίας δεδομένων μπορεί να επιτρέψει διαφορετικά επίπεδα ελέγχου σχετικά με την ευαισθησία του σχολιασμού των δεδομένων σας. Ανάλογα με αυτήν τη διαδικασία, μπορείτε επίσης μερικές φορές να παρακάμψετε την ανάγκη για μη αυτόματο σχολιασμό. Για περισσότερες πληροφορίες, ανατρέξτε στο Δημιουργήστε ένα προσαρμοσμένο σύνολο δεδομένων Q&A χρησιμοποιώντας το Amazon SageMaker Ground Truth για να εκπαιδεύσετε ένα μοντέλο NLU Q&A Hugging Face.
  • Τι διαμορφώνει την βασική μου αλήθεια; Στις περισσότερες περιπτώσεις, η βασική αλήθεια θα προέλθει από τη διαδικασία του σχολιασμού σας — αυτό είναι το όλο θέμα! Σε άλλες, ο χρήστης μπορεί να έχει πρόσβαση σε ετικέτες βασικής αλήθειας. Αυτό μπορεί να επιταχύνει σημαντικά τη διαδικασία διασφάλισης ποιότητας ή να μειώσει τα γενικά έξοδα που απαιτούνται για πολλούς μη αυτόματους σχολιασμούς.
  • Ποιο είναι το ανώτερο όριο για το ποσό της απόκλισης από τη βασική μου κατάσταση αλήθειας; Συνεργαστείτε με τους τελικούς χρήστες σας για να κατανοήσετε τα τυπικά σφάλματα γύρω από αυτές τις ετικέτες, τις πηγές τέτοιων σφαλμάτων και την επιθυμητή μείωση των σφαλμάτων. Αυτό θα σας βοηθήσει να προσδιορίσετε ποιες πτυχές της εργασίας επισήμανσης είναι πιο δύσκολες ή είναι πιθανό να έχουν σφάλματα σχολιασμού.
  • Υπάρχουν προϋπάρχοντες κανόνες που χρησιμοποιούνται από τους χρήστες ή τους επαγγελματίες του χώρου για την επισήμανση αυτών των στοιχείων; Χρησιμοποιήστε και βελτιώστε αυτές τις οδηγίες για να δημιουργήσετε ένα σύνολο οδηγιών για τους μη αυτόματους σχολιαστές σας.

Πιλοτική εφαρμογή της διαδικασίας σχολιασμού εισόδου

Κατά την πιλοτική εφαρμογή της διαδικασίας σχολιασμού εισόδου, λάβετε υπόψη τα εξής:

  • Διαβάστε τις οδηγίες με τους σχολιαστές και τους ασκούμενους – Οι οδηγίες πρέπει να είναι συνοπτικές και συγκεκριμένες. Ζητήστε σχόλια από τους χρήστες σας (Είναι οι οδηγίες ακριβείς; Μπορούμε να αναθεωρήσουμε οποιεσδήποτε οδηγίες για να βεβαιωθούμε ότι είναι κατανοητές από μη επαγγελματίες;) και σχολιαστές (Είναι όλα κατανοητά; Είναι η εργασία σαφής;). Εάν είναι δυνατόν, προσθέστε ένα παράδειγμα καλών και κακών δεδομένων με ετικέτα για να βοηθήσετε τους σχολιαστές σας να προσδιορίσουν τι αναμένεται και πώς μπορεί να φαίνονται τα κοινά σφάλματα ετικετών.
  • Συλλέξτε δεδομένα για σχολιασμούς – Ελέγξτε τα δεδομένα με τον πελάτη σας για να βεβαιωθείτε ότι πληρούν τα αναμενόμενα πρότυπα και για να ευθυγραμμιστούν με τα αναμενόμενα αποτελέσματα από τον μη αυτόματο σχολιασμό.
  • Δώστε παραδείγματα στο σύνολο των μη αυτόματων σχολιαστών σας ως δοκιμαστική εκτέλεση – Ποια είναι η τυπική απόκλιση μεταξύ των σχολιαστών σε αυτό το σύνολο παραδειγμάτων; Μελετήστε τη διακύμανση για κάθε σχολιασμό σε μια δεδομένη εικόνα για να προσδιορίσετε τις τάσεις συνέπειας μεταξύ των σχολιαστών. Στη συνέχεια, συγκρίνετε τις αποκλίσεις μεταξύ των εικόνων ή των καρέ βίντεο για να προσδιορίσετε ποιες ετικέτες είναι δύσκολο να τοποθετηθούν.

Ποιοτικός έλεγχος των σχολιασμών

Ο ποιοτικός έλεγχος των σχολιασμών έχει δύο βασικά στοιχεία: την αξιολόγηση της συνέπειας μεταξύ των σχολιαστών και την αξιολόγηση της ποιότητας των ίδιων των σχολιασμών.

Μπορείτε να αντιστοιχίσετε πολλούς σχολιαστές στην ίδια εργασία (για παράδειγμα, τρεις σχολιαστές επισημαίνουν τα βασικά σημεία στην ίδια εικόνα) και να μετρήσετε τη μέση τιμή παράλληλα με την τυπική απόκλιση αυτών των ετικετών μεταξύ των σχολιαστών. Με αυτόν τον τρόπο μπορείτε να προσδιορίσετε τυχόν ακραίους σχολιασμούς (χρησιμοποιείται λανθασμένη ετικέτα ή ετικέτα πολύ μακριά από τον μέσο σχολιασμό), τα οποία μπορούν να καθοδηγήσουν αποτελέσματα που μπορούν να εφαρμοστούν, όπως η τελειοποίηση των οδηγιών σας ή η παροχή περαιτέρω εκπαίδευσης σε ορισμένους σχολιαστές.

Η αξιολόγηση της ποιότητας των ίδιων των σχολιασμών συνδέεται με τη μεταβλητότητα του σχολιαστή και (όταν είναι διαθέσιμο) τη διαθεσιμότητα ειδικών του τομέα ή τις βασικές πληροφορίες αλήθειας. Υπάρχουν ορισμένες ετικέτες (σε όλες τις εικόνες σας) όπου η μέση απόκλιση μεταξύ των σχολιαστών είναι σταθερά υψηλή; Είναι κάποιες ετικέτες μακριά από τις προσδοκίες σας για το πού θα έπρεπε να είναι ή πώς θα έπρεπε να είναι;

Με βάση την εμπειρία μας, ένας τυπικός βρόχος ποιοτικού ελέγχου για σχολιασμό δεδομένων μπορεί να μοιάζει με αυτό:

  • Επαναλάβετε τις οδηγίες ή τη σταδιοποίηση της εικόνας με βάση τα αποτελέσματα από τη δοκιμαστική εκτέλεση – Αποφράσσονται κάποια αντικείμενα ή η σκηνοθεσία εικόνας δεν ταιριάζει με τις προσδοκίες των σχολιαστών ή των χρηστών; Είναι οι οδηγίες παραπλανητικές ή χάσατε τυχόν ετικέτες ή συνηθισμένα σφάλματα στις υποδειγματικές εικόνες σας; Μπορείτε να κάνετε πιο συγκεκριμένες τις οδηγίες για τους σχολιαστές σας;
  • Εάν είστε ικανοποιημένοι που έχετε αντιμετωπίσει τυχόν προβλήματα από τη δοκιμαστική εκτέλεση, κάντε μια παρτίδα σχολιασμών – Για τη δοκιμή των αποτελεσμάτων από την παρτίδα, ακολουθήστε την ίδια προσέγγιση αξιολόγησης ποιότητας για την αξιολόγηση των μεταβλητών μεταξύ σχολιαστών και ετικετών μεταξύ εικόνων.

Συμπέρασμα

Αυτή η ανάρτηση χρησιμεύει ως οδηγός για τα ενδιαφερόμενα μέρη της επιχείρησης να κατανοήσουν την πολυπλοκότητα της δημιουργίας δεδομένων για εφαρμογές AI/ML. Οι διαδικασίες που περιγράφονται χρησιμεύουν επίσης ως οδηγός για τους τεχνικούς για τη δημιουργία ποιοτικών δεδομένων, βελτιστοποιώντας ταυτόχρονα τους επιχειρηματικούς περιορισμούς, όπως το προσωπικό και το κόστος. Εάν δεν γίνει σωστά, μια διοχέτευση δημιουργίας δεδομένων και επισήμανσης μπορεί να διαρκέσει έως και 4-6 μήνες.

Με τις οδηγίες και τις προτάσεις που περιγράφονται σε αυτήν την ανάρτηση, μπορείτε να προλάβετε τα εμπόδια, να μειώσετε το χρόνο μέχρι την ολοκλήρωση και να ελαχιστοποιήσετε το κόστος στο ταξίδι σας προς τη δημιουργία δεδομένων υψηλής ποιότητας.


Σχετικά με τους συγγραφείς

Δημιουργήστε δεδομένα υψηλής ποιότητας για μοντέλα ML με το Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Jasleen Grewal είναι Εφαρμοσμένη Επιστήμονας στο Amazon Web Services, όπου συνεργάζεται με πελάτες της AWS για την επίλυση προβλημάτων του πραγματικού κόσμου χρησιμοποιώντας μηχανική μάθηση, με ιδιαίτερη έμφαση στην ιατρική ακριβείας και τη γονιδιωματική. Έχει ισχυρό υπόβαθρο στη βιοπληροφορική, την ογκολογία και την κλινική γονιδιωματική. Είναι παθιασμένη με τη χρήση υπηρεσιών AI/ML και cloud για τη βελτίωση της φροντίδας των ασθενών.

Δημιουργήστε δεδομένα υψηλής ποιότητας για μοντέλα ML με το Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Μπόρις Αρόντσικ είναι Διευθυντής στο Amazon AI Machine Learning Solutions Lab, όπου ηγείται μιας ομάδας επιστημόνων και μηχανικών ML για να βοηθήσει τους πελάτες της AWS να πραγματοποιήσουν τους επιχειρηματικούς στόχους αξιοποιώντας τις λύσεις AI/ML.

Δημιουργήστε δεδομένα υψηλής ποιότητας για μοντέλα ML με το Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Μιγκέλ Ρομέρο Κάλβο είναι Εφαρμοσμένος Επιστήμονας στο Εργαστήριο Amazon ML Solutions όπου συνεργάζεται με εσωτερικές ομάδες AWS και στρατηγικούς πελάτες για να επιταχύνουν την επιχείρησή τους μέσω της υιοθέτησης ML και cloud.

Δημιουργήστε δεδομένα υψηλής ποιότητας για μοντέλα ML με το Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Lin Lee Cheong είναι Ανώτερος Επιστήμονας και Διευθυντής στην ομάδα του Amazon ML Solutions Lab στο Amazon Web Services. Συνεργάζεται με στρατηγικούς πελάτες AWS για να εξερευνήσει και να εφαρμόσει την τεχνητή νοημοσύνη και τη μηχανική μάθηση για να ανακαλύψει νέες ιδέες και να λύσει σύνθετα προβλήματα.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS