Δημιουργήστε ένα προσαρμοσμένο πρόγραμμα αναγνώρισης οντοτήτων για έγγραφα PDF χρησιμοποιώντας το Amazon Comprehend

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Σε πολλούς κλάδους, είναι σημαντικό να εξαγάγετε προσαρμοσμένες οντότητες από έγγραφα εγκαίρως. Αυτό μπορεί να είναι προκλητικό. Οι ασφαλιστικές αξιώσεις, για παράδειγμα, συχνά περιέχουν δεκάδες σημαντικά χαρακτηριστικά (όπως ημερομηνίες, ονόματα, τοποθεσίες και αναφορές) πασπαλισμένα σε μεγάλα και πυκνά έγγραφα. Η μη αυτόματη σάρωση και εξαγωγή τέτοιων πληροφοριών μπορεί να είναι επιρρεπής σε σφάλματα και χρονοβόρα. Το λογισμικό που βασίζεται σε κανόνες μπορεί να βοηθήσει, αλλά τελικά είναι πολύ άκαμπτο για να προσαρμοστεί στους πολλούς διαφορετικούς τύπους και διάταξη εγγράφων.

Για να αυτοματοποιήσετε και να επιταχύνετε αυτήν τη διαδικασία, μπορείτε να χρησιμοποιήσετε Κατανοήστε το Amazon για τον εντοπισμό προσαρμοσμένων οντοτήτων γρήγορα και με ακρίβεια χρησιμοποιώντας μηχανική εκμάθηση (ML). Αυτή η προσέγγιση είναι ευέλικτη και ακριβής, επειδή το σύστημα μπορεί να προσαρμοστεί σε νέα έγγραφα χρησιμοποιώντας όσα έχει μάθει στο παρελθόν. Ωστόσο, μέχρι πρόσφατα, αυτή η δυνατότητα μπορούσε να εφαρμοστεί μόνο σε έγγραφα απλού κειμένου, πράγμα που σήμαινε ότι οι πληροφορίες θέσης χάνονταν κατά τη μετατροπή των εγγράφων από την αρχική τους μορφή. Για να αντιμετωπιστεί αυτό, ήταν ανακοίνωσε πρόσφατα ότι το Amazon Comprehend μπορεί να εξάγει προσαρμοσμένες οντότητες σε PDF, εικόνες και μορφές αρχείων Word.

Σε αυτήν την ανάρτηση, παρουσιάζουμε ένα συγκεκριμένο παράδειγμα από τον ασφαλιστικό κλάδο για το πώς μπορείτε να δημιουργήσετε έναν προσαρμοσμένο αναγνωριστικό χρησιμοποιώντας σχολιασμούς PDF.

Επισκόπηση λύσεων

Σας καθοδηγούμε στα ακόλουθα βήματα υψηλού επιπέδου:

Δημιουργήστε σχολιασμούς PDF.
Χρησιμοποιήστε τους σχολιασμούς PDF για να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο χρησιμοποιώντας το Python API.
Λάβετε μετρήσεις αξιολόγησης από το εκπαιδευμένο μοντέλο.
Εκτελέστε συμπέρασμα σε ένα μη εμφανές έγγραφο.

Μέχρι το τέλος αυτής της ανάρτησης, θέλουμε να είμαστε σε θέση να στείλουμε ένα ακατέργαστο έγγραφο PDF στο εκπαιδευμένο μοντέλο μας και να το βγάλουμε ένα δομημένο αρχείο με πληροφορίες σχετικά με τις ετικέτες που μας ενδιαφέρουν. Συγκεκριμένα, εκπαιδεύουμε το μοντέλο μας ώστε να ανιχνεύει τις ακόλουθες πέντε οντότητες που επιλέξαμε λόγω της συνάφειάς τους με τις ασφαλιστικές απαιτήσεις: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, να InsuredMailingAddress. Αφού διαβάσουμε τη δομημένη έξοδο, μπορούμε να οπτικοποιήσουμε τις πληροφορίες της ετικέτας απευθείας στο έγγραφο PDF, όπως στην παρακάτω εικόνα.

Αυτή η ανάρτηση συνοδεύεται από ένα σημειωματάριο Jupyter που περιέχει τα ίδια βήματα. Μη διστάσετε να ακολουθήσετε ενώ εκτελείτε τα βήματα σε αυτό σημειωματάριο. Σημειώστε ότι πρέπει να ρυθμίσετε το Amazon Sage Maker περιβάλλον που επιτρέπει στο Amazon Comprehend να διαβάζει Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) όπως περιγράφεται στο επάνω μέρος του notebook.

Δημιουργήστε σχολιασμούς PDF

Για να δημιουργήσετε σχολιασμούς για έγγραφα PDF, μπορείτε να χρησιμοποιήσετε Amazon SageMaker Ground Αλήθεια, μια πλήρως διαχειριζόμενη υπηρεσία επισήμανσης δεδομένων που διευκολύνει τη δημιουργία συνόλων δεδομένων εκπαίδευσης υψηλής ακρίβειας για ML.

Για αυτό το σεμινάριο, έχουμε ήδη σχολιάσει τα PDF στην εγγενή τους μορφή (χωρίς μετατροπή σε απλό κείμενο) χρησιμοποιώντας το Ground Truth. Η εργασία Ground Truth δημιουργεί τρεις διαδρομές που χρειαζόμαστε για την εκπαίδευση του προσαρμοσμένου μοντέλου Amazon Comprehend:

Πηγές – Η διαδρομή προς τα εισαγόμενα αρχεία PDF.
Οι σχολιασμοί – Η διαδρομή προς τα αρχεία JSON σχολιασμού που περιέχουν τις πληροφορίες οντότητας με ετικέτα.
Δηλωτικό – Το αρχείο που δείχνει τη θέση των σχολιασμών και των πηγών PDF. Αυτό το αρχείο χρησιμοποιείται για τη δημιουργία μιας εργασίας εκπαίδευσης για την αναγνώριση προσαρμοσμένων οντοτήτων του Amazon Comprehend και την εκπαίδευση ενός προσαρμοσμένου μοντέλου.

Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα δείγμα σχολιασμού.

Η προσαρμοσμένη εργασία Ground Truth δημιουργεί έναν σχολιασμό PDF που καταγράφει πληροφορίες σε επίπεδο μπλοκ για την οντότητα. Τέτοιες πληροφορίες σε επίπεδο μπλοκ παρέχουν τις ακριβείς συντεταγμένες θέσης της οντότητας (με τα θυγατρικά μπλοκ να αντιπροσωπεύουν κάθε λέξη μέσα στο μπλοκ οντοτήτων). Αυτό διαφέρει από μια τυπική εργασία Ground Truth στην οποία τα δεδομένα στο PDF ισοπεδώνονται σε μορφή κειμένου και καταγράφονται μόνο πληροφορίες μετατόπισης —αλλά όχι ακριβείς πληροφορίες συντεταγμένων— κατά τη διάρκεια του σχολιασμού. Οι πλούσιες πληροφορίες θέσης που λαμβάνουμε με αυτό το προσαρμοσμένο παράδειγμα σχολιασμού μας επιτρέπουν να εκπαιδεύσουμε ένα πιο ακριβές μοντέλο.

Η δήλωση που δημιουργείται από αυτόν τον τύπο εργασίας ονομάζεται επαυξημένη δήλωση, σε αντίθεση με ένα CSV που χρησιμοποιείται για τυπικούς σχολιασμούς. Για περισσότερες πληροφορίες, βλ Οι σχολιασμοί.

Χρησιμοποιήστε τους σχολιασμούς PDF για να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο χρησιμοποιώντας το Python API

Ένα επαυξημένο αρχείο δήλωσης πρέπει να μορφοποιηθεί σε μορφή JSON Lines. Στη μορφή JSON Lines, κάθε γραμμή στο αρχείο είναι ένα πλήρες αντικείμενο JSON ακολουθούμενο από ένα διαχωριστικό νέας γραμμής.

Ο παρακάτω κώδικας είναι μια καταχώρηση σε αυτό το επαυξημένο αρχείο δήλωσης.

Μερικά πράγματα που πρέπει να σημειωθεί:

Πέντε τύποι ετικετών σχετίζονται με αυτήν την εργασία: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, να InsuredMailingAddress.
Το αρχείο του μανιφέστου αναφέρεται τόσο στη θέση του προέλευσης PDF όσο και στη θέση του σχολιασμού.
Τα μεταδεδομένα σχετικά με την εργασία σχολιασμού (όπως η ημερομηνία δημιουργίας) καταγράφονται.
Use-textract-only έχει οριστεί σε False, που σημαίνει ότι το εργαλείο σχολιασμού αποφασίζει εάν θα χρησιμοποιήσει το PDFPlumber (για εγγενές PDF) ή Textract Amazon (για σαρωμένο PDF). Εάν έχει οριστεί σε true, το Amazon Textract χρησιμοποιείται και στις δύο περιπτώσεις (που είναι πιο δαπανηρό αλλά δυνητικά πιο ακριβές).

Τώρα μπορούμε να εκπαιδεύσουμε τον αναγνωριστή, όπως φαίνεται στο ακόλουθο παράδειγμα κώδικα.

Δημιουργούμε έναν αναγνωριστικό για την αναγνώριση και των πέντε τύπων οντοτήτων. Θα μπορούσαμε να είχαμε χρησιμοποιήσει ένα υποσύνολο αυτών των οντοτήτων αν προτιμούσαμε. Μπορείτε να χρησιμοποιήσετε έως και 25 οντότητες.

Για λεπτομέρειες κάθε παραμέτρου, ανατρέξτε στο Create_entity_Recognizer.

Ανάλογα με το μέγεθος του σετ προπόνησης, ο χρόνος προπόνησης μπορεί να διαφέρει. Για αυτό το σύνολο δεδομένων, η εκπαίδευση διαρκεί περίπου 1 ώρα. Για να παρακολουθήσετε την κατάσταση της εργασίας εκπαίδευσης, μπορείτε να χρησιμοποιήσετε το describe_entity_recognizer API.

Λάβετε μετρήσεις αξιολόγησης από το εκπαιδευμένο μοντέλο

Το Amazon Comprehend παρέχει μετρήσεις απόδοσης μοντέλου για ένα εκπαιδευμένο μοντέλο, το οποίο υποδεικνύει πόσο καλά αναμένεται να κάνει προβλέψεις από το εκπαιδευμένο μοντέλο χρησιμοποιώντας παρόμοιες εισροές. Μπορούμε να λάβουμε μετρήσεις καθολικής ακρίβειας και ανάκλησης καθώς και μετρήσεις ανά οντότητα. Ένα ακριβές μοντέλο έχει υψηλή ακρίβεια και υψηλή ανάκληση. Υψηλή ακρίβεια σημαίνει ότι το μοντέλο είναι συνήθως σωστό όταν υποδεικνύει μια συγκεκριμένη ετικέτα. υψηλή ανάκληση σημαίνει ότι το μοντέλο βρήκε τις περισσότερες ετικέτες. Το F1 είναι μια σύνθετη μετρική (αρμονικός μέσος όρος) αυτών των μετρήσεων και επομένως είναι υψηλός όταν και οι δύο συνιστώσες είναι υψηλές. Για μια λεπτομερή περιγραφή των μετρήσεων, βλ Μετρήσεις αναγνώρισης προσαρμοσμένης οντότητας.

Όταν παρέχετε τα έγγραφα στην εργασία εκπαίδευσης, το Amazon Comprehend τα διαχωρίζει αυτόματα σε ένα σετ τρένων και δοκιμών. Όταν το μοντέλο έχει φτάσει TRAINED κατάσταση, μπορείτε να χρησιμοποιήσετε το describe_entity_recognizer API ξανά για να λάβετε τις μετρήσεις αξιολόγησης στο σύνολο δοκιμής.

Το παρακάτω είναι ένα παράδειγμα καθολικών μετρήσεων.

Το παρακάτω είναι ένα παράδειγμα μετρήσεων ανά οντότητα.

Οι υψηλές βαθμολογίες δείχνουν ότι το μοντέλο έχει μάθει καλά πώς να ανιχνεύει αυτές τις οντότητες.

Εκτελέστε συμπέρασμα σε ένα μη εμφανές έγγραφο

Ας βγάλουμε συμπεράσματα με το εκπαιδευμένο μοντέλο μας σε ένα έγγραφο που δεν ήταν μέρος της διαδικασίας εκπαίδευσης. Μπορούμε να χρησιμοποιήσουμε αυτό το ασύγχρονο API για τυπικό ή προσαρμοσμένο NER. Αν το χρησιμοποιήσουμε για προσαρμοσμένο NER (όπως σε αυτήν την ανάρτηση), πρέπει να περάσουμε το ARN του εκπαιδευμένου μοντέλου.

Μπορούμε να ελέγξουμε την υποβληθείσα εργασία εκτυπώνοντας την απάντηση.

Μπορούμε να μορφοποιήσουμε την έξοδο της εργασίας ανίχνευσης με τα Panda σε πίνακα. ο Score Η τιμή υποδηλώνει το επίπεδο εμπιστοσύνης που έχει το μοντέλο για την οντότητα.

Τέλος, μπορούμε να επικαλύψουμε τις προβλέψεις στα μη ορατά έγγραφα, κάτι που δίνει το αποτέλεσμα όπως φαίνεται στην κορυφή αυτής της ανάρτησης.

Συμπέρασμα

Σε αυτήν την ανάρτηση, είδατε πώς να εξαγάγετε προσαρμοσμένες οντότητες στην εγγενή μορφή PDF χρησιμοποιώντας το Amazon Comprehend. Ως επόμενα βήματα, σκεφτείτε να βουτήξετε βαθύτερα:

Εκπαιδεύστε το δικό σας αναγνωριστικό χρησιμοποιώντας το συνοδευτικό σημειωματάριο εδώ. Θυμηθείτε να διαγράψετε τυχόν πόρους όταν τελειώσετε για να αποφύγετε μελλοντικές χρεώσεις.
Ρυθμίστε τη δική σας προσαρμοσμένη εργασία σχολιασμού για τη συλλογή σχολιασμών PDF για τις οντότητες που σας ενδιαφέρουν. Για περισσότερες πληροφορίες, ανατρέξτε στο Προσαρμοσμένος σχολιασμός εγγράφων για εξαγωγή ονομασμένων οντοτήτων σε έγγραφα χρησιμοποιώντας το Amazon Comprehend.
Εκπαιδεύστε ένα προσαρμοσμένο μοντέλο NER στην κονσόλα Amazon Comprehend. Για περισσότερες πληροφορίες, βλ Εξαγωγή προσαρμοσμένων οντοτήτων από έγγραφα στην εγγενή τους μορφή με το Amazon Comprehend.

Σχετικά με τους Συγγραφείς

Τζόσουα Λέβι είναι Senior Applied Scientist στο εργαστήριο Machine Learning Solutions της Amazon, όπου βοηθά τους πελάτες να σχεδιάσουν και να δημιουργήσουν λύσεις AI/ML για την επίλυση βασικών επιχειρηματικών προβλημάτων.

Andrew Ang είναι Μηχανικός Μηχανικής Μάθησης στο Εργαστήριο Λύσεων Μηχανικής Μάθησης της Amazon, όπου βοηθά πελάτες από ποικίλο φάσμα βιομηχανιών να εντοπίσουν και να δημιουργήσουν λύσεις AI/ML για να λύσουν τα πιο πιεστικά επιχειρηματικά τους προβλήματα. Εκτός δουλειάς του αρέσει να παρακολουθεί βιντεολόγια για ταξίδια και φαγητό.

Άλεξ Τσιράιθ είναι Μηχανικός Λογισμικού στο Εργαστήριο Λύσεων Μηχανικής Μάθησης της Amazon που εστιάζει σε λύσεις που βασίζονται σε περιπτώσεις χρήσης κτιρίων που δείχνουν στους πελάτες πώς να ξεκλειδώσουν τη δύναμη των υπηρεσιών AWS AI/ML για την επίλυση επιχειρηματικών προβλημάτων του πραγματικού κόσμου.

Τζένιφερ Ζου είναι Εφαρμοσμένος Επιστήμονας από το Amazon AI Machine Learning Solutions Lab. Συνεργάζεται με τους πελάτες της AWS δημιουργώντας λύσεις AI/ML για τις επιχειρηματικές τους ανάγκες υψηλής προτεραιότητας.

Niharika Jayanthi είναι Μηχανικός Front End στην ομάδα Amazon Machine Learning Solutions Lab – Human in the Loop. Βοηθά στη δημιουργία λύσεων εμπειρίας χρήστη για πελάτες του Amazon SageMaker Ground Truth.

Μπόρις Αρόντσικ είναι Διευθυντής στο Amazon AI Machine Learning Solutions Lab όπου ηγείται μιας ομάδας επιστημόνων και μηχανικών ML για να βοηθήσει τους πελάτες της AWS να πραγματοποιήσουν τους επιχειρηματικούς στόχους αξιοποιώντας τις λύσεις AI/ML.

Σφραγίδα ώρας: Απρίλιος 8, 2022

Σφραγίδα ώρας: 29 Μαρτίου, 2022

Δημιουργήστε ένα προσαρμοσμένο αναγνωριστικό οντοτήτων για έγγραφα PDF χρησιμοποιώντας το Amazon Comprehend

Αναδημοσίευση από τον Πλάτωνα

Επισκόπηση λύσεων

Δημιουργήστε σχολιασμούς PDF

Χρησιμοποιήστε τους σχολιασμούς PDF για να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο χρησιμοποιώντας το Python API

Λάβετε μετρήσεις αξιολόγησης από το εκπαιδευμένο μοντέλο

Εκτελέστε συμπέρασμα σε ένα μη εμφανές έγγραφο

Συμπέρασμα

Σχετικά με τους Συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Οικονομικά αποδοτικό συμπέρασμα ML με μοντέλα πολλαπλών πλαισίων στο Amazon SageMaker

Η Amazon Rekognition εισάγει συμβάντα ροής βίντεο για να παρέχει ειδοποιήσεις σε πραγματικό χρόνο για ζωντανές ροές βίντεο

Μειώστε την κατανάλωση ενέργειας των φόρτων εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού της Amazon

Η Chronomics εντοπίζει τα αποτελέσματα των δοκιμών COVID-19 με προσαρμοσμένες ετικέτες αναγνώρισης της Amazon

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός