Σε πολλούς κλάδους, είναι σημαντικό να εξαγάγετε προσαρμοσμένες οντότητες από έγγραφα εγκαίρως. Αυτό μπορεί να είναι προκλητικό. Οι ασφαλιστικές αξιώσεις, για παράδειγμα, συχνά περιέχουν δεκάδες σημαντικά χαρακτηριστικά (όπως ημερομηνίες, ονόματα, τοποθεσίες και αναφορές) πασπαλισμένα σε μεγάλα και πυκνά έγγραφα. Η μη αυτόματη σάρωση και εξαγωγή τέτοιων πληροφοριών μπορεί να είναι επιρρεπής σε σφάλματα και χρονοβόρα. Το λογισμικό που βασίζεται σε κανόνες μπορεί να βοηθήσει, αλλά τελικά είναι πολύ άκαμπτο για να προσαρμοστεί στους πολλούς διαφορετικούς τύπους και διάταξη εγγράφων.
Για να αυτοματοποιήσετε και να επιταχύνετε αυτήν τη διαδικασία, μπορείτε να χρησιμοποιήσετε Κατανοήστε το Amazon για τον εντοπισμό προσαρμοσμένων οντοτήτων γρήγορα και με ακρίβεια χρησιμοποιώντας μηχανική εκμάθηση (ML). Αυτή η προσέγγιση είναι ευέλικτη και ακριβής, επειδή το σύστημα μπορεί να προσαρμοστεί σε νέα έγγραφα χρησιμοποιώντας όσα έχει μάθει στο παρελθόν. Ωστόσο, μέχρι πρόσφατα, αυτή η δυνατότητα μπορούσε να εφαρμοστεί μόνο σε έγγραφα απλού κειμένου, πράγμα που σήμαινε ότι οι πληροφορίες θέσης χάνονταν κατά τη μετατροπή των εγγράφων από την αρχική τους μορφή. Για να αντιμετωπιστεί αυτό, ήταν ανακοίνωσε πρόσφατα ότι το Amazon Comprehend μπορεί να εξάγει προσαρμοσμένες οντότητες σε PDF, εικόνες και μορφές αρχείων Word.
Σε αυτήν την ανάρτηση, παρουσιάζουμε ένα συγκεκριμένο παράδειγμα από τον ασφαλιστικό κλάδο για το πώς μπορείτε να δημιουργήσετε έναν προσαρμοσμένο αναγνωριστικό χρησιμοποιώντας σχολιασμούς PDF.
Επισκόπηση λύσεων
Σας καθοδηγούμε στα ακόλουθα βήματα υψηλού επιπέδου:
- Δημιουργήστε σχολιασμούς PDF.
- Χρησιμοποιήστε τους σχολιασμούς PDF για να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο χρησιμοποιώντας το Python API.
- Λάβετε μετρήσεις αξιολόγησης από το εκπαιδευμένο μοντέλο.
- Εκτελέστε συμπέρασμα σε ένα μη εμφανές έγγραφο.
Μέχρι το τέλος αυτής της ανάρτησης, θέλουμε να είμαστε σε θέση να στείλουμε ένα ακατέργαστο έγγραφο PDF στο εκπαιδευμένο μοντέλο μας και να το βγάλουμε ένα δομημένο αρχείο με πληροφορίες σχετικά με τις ετικέτες που μας ενδιαφέρουν. Συγκεκριμένα, εκπαιδεύουμε το μοντέλο μας ώστε να ανιχνεύει τις ακόλουθες πέντε οντότητες που επιλέξαμε λόγω της συνάφειάς τους με τις ασφαλιστικές απαιτήσεις: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
, να InsuredMailingAddress
. Αφού διαβάσουμε τη δομημένη έξοδο, μπορούμε να οπτικοποιήσουμε τις πληροφορίες της ετικέτας απευθείας στο έγγραφο PDF, όπως στην παρακάτω εικόνα.
Αυτή η ανάρτηση συνοδεύεται από ένα σημειωματάριο Jupyter που περιέχει τα ίδια βήματα. Μη διστάσετε να ακολουθήσετε ενώ εκτελείτε τα βήματα σε αυτό σημειωματάριο. Σημειώστε ότι πρέπει να ρυθμίσετε το Amazon Sage Maker περιβάλλον που επιτρέπει στο Amazon Comprehend να διαβάζει Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) όπως περιγράφεται στο επάνω μέρος του notebook.
Δημιουργήστε σχολιασμούς PDF
Για να δημιουργήσετε σχολιασμούς για έγγραφα PDF, μπορείτε να χρησιμοποιήσετε Amazon SageMaker Ground Αλήθεια, μια πλήρως διαχειριζόμενη υπηρεσία επισήμανσης δεδομένων που διευκολύνει τη δημιουργία συνόλων δεδομένων εκπαίδευσης υψηλής ακρίβειας για ML.
Για αυτό το σεμινάριο, έχουμε ήδη σχολιάσει τα PDF στην εγγενή τους μορφή (χωρίς μετατροπή σε απλό κείμενο) χρησιμοποιώντας το Ground Truth. Η εργασία Ground Truth δημιουργεί τρεις διαδρομές που χρειαζόμαστε για την εκπαίδευση του προσαρμοσμένου μοντέλου Amazon Comprehend:
- Πηγές – Η διαδρομή προς τα εισαγόμενα αρχεία PDF.
- Οι σχολιασμοί – Η διαδρομή προς τα αρχεία JSON σχολιασμού που περιέχουν τις πληροφορίες οντότητας με ετικέτα.
- Δηλωτικό – Το αρχείο που δείχνει τη θέση των σχολιασμών και των πηγών PDF. Αυτό το αρχείο χρησιμοποιείται για τη δημιουργία μιας εργασίας εκπαίδευσης για την αναγνώριση προσαρμοσμένων οντοτήτων του Amazon Comprehend και την εκπαίδευση ενός προσαρμοσμένου μοντέλου.
Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα δείγμα σχολιασμού.
Η προσαρμοσμένη εργασία Ground Truth δημιουργεί έναν σχολιασμό PDF που καταγράφει πληροφορίες σε επίπεδο μπλοκ για την οντότητα. Τέτοιες πληροφορίες σε επίπεδο μπλοκ παρέχουν τις ακριβείς συντεταγμένες θέσης της οντότητας (με τα θυγατρικά μπλοκ να αντιπροσωπεύουν κάθε λέξη μέσα στο μπλοκ οντοτήτων). Αυτό διαφέρει από μια τυπική εργασία Ground Truth στην οποία τα δεδομένα στο PDF ισοπεδώνονται σε μορφή κειμένου και καταγράφονται μόνο πληροφορίες μετατόπισης —αλλά όχι ακριβείς πληροφορίες συντεταγμένων— κατά τη διάρκεια του σχολιασμού. Οι πλούσιες πληροφορίες θέσης που λαμβάνουμε με αυτό το προσαρμοσμένο παράδειγμα σχολιασμού μας επιτρέπουν να εκπαιδεύσουμε ένα πιο ακριβές μοντέλο.
Η δήλωση που δημιουργείται από αυτόν τον τύπο εργασίας ονομάζεται επαυξημένη δήλωση, σε αντίθεση με ένα CSV που χρησιμοποιείται για τυπικούς σχολιασμούς. Για περισσότερες πληροφορίες, βλ Οι σχολιασμοί.
Χρησιμοποιήστε τους σχολιασμούς PDF για να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο χρησιμοποιώντας το Python API
Ένα επαυξημένο αρχείο δήλωσης πρέπει να μορφοποιηθεί σε μορφή JSON Lines. Στη μορφή JSON Lines, κάθε γραμμή στο αρχείο είναι ένα πλήρες αντικείμενο JSON ακολουθούμενο από ένα διαχωριστικό νέας γραμμής.
Ο παρακάτω κώδικας είναι μια καταχώρηση σε αυτό το επαυξημένο αρχείο δήλωσης.
Μερικά πράγματα που πρέπει να σημειωθεί:
- Πέντε τύποι ετικετών σχετίζονται με αυτήν την εργασία:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
, ναInsuredMailingAddress
. - Το αρχείο του μανιφέστου αναφέρεται τόσο στη θέση του προέλευσης PDF όσο και στη θέση του σχολιασμού.
- Τα μεταδεδομένα σχετικά με την εργασία σχολιασμού (όπως η ημερομηνία δημιουργίας) καταγράφονται.
Use-textract-only
έχει οριστεί σεFalse
, που σημαίνει ότι το εργαλείο σχολιασμού αποφασίζει εάν θα χρησιμοποιήσει το PDFPlumber (για εγγενές PDF) ή Textract Amazon (για σαρωμένο PDF). Εάν έχει οριστεί σεtrue
, το Amazon Textract χρησιμοποιείται και στις δύο περιπτώσεις (που είναι πιο δαπανηρό αλλά δυνητικά πιο ακριβές).
Τώρα μπορούμε να εκπαιδεύσουμε τον αναγνωριστή, όπως φαίνεται στο ακόλουθο παράδειγμα κώδικα.
Δημιουργούμε έναν αναγνωριστικό για την αναγνώριση και των πέντε τύπων οντοτήτων. Θα μπορούσαμε να είχαμε χρησιμοποιήσει ένα υποσύνολο αυτών των οντοτήτων αν προτιμούσαμε. Μπορείτε να χρησιμοποιήσετε έως και 25 οντότητες.
Για λεπτομέρειες κάθε παραμέτρου, ανατρέξτε στο Create_entity_Recognizer.
Ανάλογα με το μέγεθος του σετ προπόνησης, ο χρόνος προπόνησης μπορεί να διαφέρει. Για αυτό το σύνολο δεδομένων, η εκπαίδευση διαρκεί περίπου 1 ώρα. Για να παρακολουθήσετε την κατάσταση της εργασίας εκπαίδευσης, μπορείτε να χρησιμοποιήσετε το describe_entity_recognizer
API.
Λάβετε μετρήσεις αξιολόγησης από το εκπαιδευμένο μοντέλο
Το Amazon Comprehend παρέχει μετρήσεις απόδοσης μοντέλου για ένα εκπαιδευμένο μοντέλο, το οποίο υποδεικνύει πόσο καλά αναμένεται να κάνει προβλέψεις από το εκπαιδευμένο μοντέλο χρησιμοποιώντας παρόμοιες εισροές. Μπορούμε να λάβουμε μετρήσεις καθολικής ακρίβειας και ανάκλησης καθώς και μετρήσεις ανά οντότητα. Ένα ακριβές μοντέλο έχει υψηλή ακρίβεια και υψηλή ανάκληση. Υψηλή ακρίβεια σημαίνει ότι το μοντέλο είναι συνήθως σωστό όταν υποδεικνύει μια συγκεκριμένη ετικέτα. υψηλή ανάκληση σημαίνει ότι το μοντέλο βρήκε τις περισσότερες ετικέτες. Το F1 είναι μια σύνθετη μετρική (αρμονικός μέσος όρος) αυτών των μετρήσεων και επομένως είναι υψηλός όταν και οι δύο συνιστώσες είναι υψηλές. Για μια λεπτομερή περιγραφή των μετρήσεων, βλ Μετρήσεις αναγνώρισης προσαρμοσμένης οντότητας.
Όταν παρέχετε τα έγγραφα στην εργασία εκπαίδευσης, το Amazon Comprehend τα διαχωρίζει αυτόματα σε ένα σετ τρένων και δοκιμών. Όταν το μοντέλο έχει φτάσει TRAINED
κατάσταση, μπορείτε να χρησιμοποιήσετε το describe_entity_recognizer
API ξανά για να λάβετε τις μετρήσεις αξιολόγησης στο σύνολο δοκιμής.
Το παρακάτω είναι ένα παράδειγμα καθολικών μετρήσεων.
Το παρακάτω είναι ένα παράδειγμα μετρήσεων ανά οντότητα.
Οι υψηλές βαθμολογίες δείχνουν ότι το μοντέλο έχει μάθει καλά πώς να ανιχνεύει αυτές τις οντότητες.
Εκτελέστε συμπέρασμα σε ένα μη εμφανές έγγραφο
Ας βγάλουμε συμπεράσματα με το εκπαιδευμένο μοντέλο μας σε ένα έγγραφο που δεν ήταν μέρος της διαδικασίας εκπαίδευσης. Μπορούμε να χρησιμοποιήσουμε αυτό το ασύγχρονο API για τυπικό ή προσαρμοσμένο NER. Αν το χρησιμοποιήσουμε για προσαρμοσμένο NER (όπως σε αυτήν την ανάρτηση), πρέπει να περάσουμε το ARN του εκπαιδευμένου μοντέλου.
Μπορούμε να ελέγξουμε την υποβληθείσα εργασία εκτυπώνοντας την απάντηση.
Μπορούμε να μορφοποιήσουμε την έξοδο της εργασίας ανίχνευσης με τα Panda σε πίνακα. ο Score
Η τιμή υποδηλώνει το επίπεδο εμπιστοσύνης που έχει το μοντέλο για την οντότητα.
Τέλος, μπορούμε να επικαλύψουμε τις προβλέψεις στα μη ορατά έγγραφα, κάτι που δίνει το αποτέλεσμα όπως φαίνεται στην κορυφή αυτής της ανάρτησης.
Συμπέρασμα
Σε αυτήν την ανάρτηση, είδατε πώς να εξαγάγετε προσαρμοσμένες οντότητες στην εγγενή μορφή PDF χρησιμοποιώντας το Amazon Comprehend. Ως επόμενα βήματα, σκεφτείτε να βουτήξετε βαθύτερα:
- Εκπαιδεύστε το δικό σας αναγνωριστικό χρησιμοποιώντας το συνοδευτικό σημειωματάριο εδώ. Θυμηθείτε να διαγράψετε τυχόν πόρους όταν τελειώσετε για να αποφύγετε μελλοντικές χρεώσεις.
- Ρυθμίστε τη δική σας προσαρμοσμένη εργασία σχολιασμού για τη συλλογή σχολιασμών PDF για τις οντότητες που σας ενδιαφέρουν. Για περισσότερες πληροφορίες, ανατρέξτε στο Προσαρμοσμένος σχολιασμός εγγράφων για εξαγωγή ονομασμένων οντοτήτων σε έγγραφα χρησιμοποιώντας το Amazon Comprehend.
- Εκπαιδεύστε ένα προσαρμοσμένο μοντέλο NER στην κονσόλα Amazon Comprehend. Για περισσότερες πληροφορίες, βλ Εξαγωγή προσαρμοσμένων οντοτήτων από έγγραφα στην εγγενή τους μορφή με το Amazon Comprehend.
Σχετικά με τους Συγγραφείς
Τζόσουα Λέβι είναι Senior Applied Scientist στο εργαστήριο Machine Learning Solutions της Amazon, όπου βοηθά τους πελάτες να σχεδιάσουν και να δημιουργήσουν λύσεις AI/ML για την επίλυση βασικών επιχειρηματικών προβλημάτων.
Andrew Ang είναι Μηχανικός Μηχανικής Μάθησης στο Εργαστήριο Λύσεων Μηχανικής Μάθησης της Amazon, όπου βοηθά πελάτες από ποικίλο φάσμα βιομηχανιών να εντοπίσουν και να δημιουργήσουν λύσεις AI/ML για να λύσουν τα πιο πιεστικά επιχειρηματικά τους προβλήματα. Εκτός δουλειάς του αρέσει να παρακολουθεί βιντεολόγια για ταξίδια και φαγητό.
Άλεξ Τσιράιθ είναι Μηχανικός Λογισμικού στο Εργαστήριο Λύσεων Μηχανικής Μάθησης της Amazon που εστιάζει σε λύσεις που βασίζονται σε περιπτώσεις χρήσης κτιρίων που δείχνουν στους πελάτες πώς να ξεκλειδώσουν τη δύναμη των υπηρεσιών AWS AI/ML για την επίλυση επιχειρηματικών προβλημάτων του πραγματικού κόσμου.
Τζένιφερ Ζου είναι Εφαρμοσμένος Επιστήμονας από το Amazon AI Machine Learning Solutions Lab. Συνεργάζεται με τους πελάτες της AWS δημιουργώντας λύσεις AI/ML για τις επιχειρηματικές τους ανάγκες υψηλής προτεραιότητας.
Niharika Jayanthi είναι Μηχανικός Front End στην ομάδα Amazon Machine Learning Solutions Lab – Human in the Loop. Βοηθά στη δημιουργία λύσεων εμπειρίας χρήστη για πελάτες του Amazon SageMaker Ground Truth.
Μπόρις Αρόντσικ είναι Διευθυντής στο Amazon AI Machine Learning Solutions Lab όπου ηγείται μιας ομάδας επιστημόνων και μηχανικών ML για να βοηθήσει τους πελάτες της AWS να πραγματοποιήσουν τους επιχειρηματικούς στόχους αξιοποιώντας τις λύσεις AI/ML.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- Σχετικά
- ακριβής
- απέναντι
- διεύθυνση
- AI
- Όλα
- ήδη
- Amazon
- api
- πλησιάζω
- περίπου
- γνωρίσματα
- επαυξημένης
- αυτοματοποίηση
- AWS
- Αποκλεισμός
- χτίζω
- Κτίριο
- επιχείρηση
- πρόκληση
- φορτία
- παιδί
- αξιώσεις
- κωδικός
- συλλέγουν
- εμπιστοσύνη
- πρόξενος
- Περιέχει
- συντεταγμένη
- θα μπορούσε να
- δημιουργία
- κρίσιμης
- έθιμο
- Πελάτες
- ημερομηνία
- Ημερομηνίες
- βαθύτερη
- Υπηρεσίες
- Ανίχνευση
- κατευθείαν
- έγγραφα
- μηχανικός
- Μηχανικοί
- οντότητες
- Περιβάλλον
- παράδειγμα
- αναμένεται
- εμπειρία
- εύκαμπτος
- ακολουθήστε
- Εξής
- τροφή
- μορφή
- μορφή
- Βρέθηκαν
- Δωρεάν
- μελλοντικός
- Παγκόσμιο
- Στόχοι
- βοήθεια
- βοηθά
- Ψηλά
- υψηλά
- Πως
- Πώς να
- HTTPS
- ανθρώπινος
- προσδιορίσει
- εικόνα
- σημαντικό
- βιομηχανίες
- βιομηχανία
- πληροφορίες
- εισαγωγή
- ασφάλιση
- τόκος
- IT
- Δουλειά
- Κλειδί
- εργαστήριο
- τιτλοφόρηση
- Ετικέτες
- Οδηγεί
- μάθει
- μάθηση
- Επίπεδο
- μόχλευσης
- γραμμή
- τοποθεσία
- θέσεις
- μηχανή
- μάθηση μηχανής
- ΚΑΝΕΙ
- διαχειρίζεται
- διευθυντής
- τρόπος
- χειροκίνητα
- νόημα
- Metrics
- ML
- μοντέλο
- Παρακολούθηση
- περισσότερο
- πλέον
- ονόματα
- σημειωματάριο
- όφσετ
- δική
- παράδειγμα
- επίδοση
- δύναμη
- Προβλέψεις
- προβλήματα
- διαδικασια μας
- παρέχουν
- παρέχει
- γρήγορα
- Ακατέργαστος
- Ανάγνωση
- πραγματικό κόσμο
- συνειδητοποιήσουν
- αναγνωρίζω
- Εκθέσεις
- Υποστηρικτικό υλικό
- απάντησης
- ανασκόπηση
- τρέξιμο
- τρέξιμο
- σάρωσης
- Επιστήμονας
- επιστήμονες
- υπηρεσία
- Υπηρεσίες
- σειρά
- παρόμοιες
- Απλούς
- Μέγεθος
- λογισμικό
- Μηχανικός Λογισμικού
- Λύσεις
- SOLVE
- ταχύτητα
- πρότυπο
- Κατάσταση
- χώρος στο δίσκο
- δομημένος
- υποβάλλονται
- σύστημα
- δοκιμή
- Η Πηγη
- Μέσω
- ώρα
- χρονοβόρος
- εργαλείο
- κορυφή
- Εκπαίδευση
- ταξίδι
- ξεκλειδώσετε
- us
- χρήση
- συνήθως
- αξία
- Τι
- αν
- ενώ
- εντός
- χωρίς
- Εργασία
- λειτουργεί
- κόσμος