Παρουσιάζοντας την ταξινόμηση σε ένα βήμα και την αναγνώριση οντοτήτων με το Amazon Comprehend για έξυπνη επεξεργασία εγγράφων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εισαγωγή της ταξινόμησης σε ένα βήμα και της αναγνώρισης οντοτήτων με το Amazon Comprehend για έξυπνη επεξεργασία εγγράφων

«Οι λύσεις έξυπνης επεξεργασίας εγγράφων (IDP) εξάγουν δεδομένα για να υποστηρίξουν την αυτοματοποίηση μεγάλων, επαναλαμβανόμενων εργασιών επεξεργασίας εγγράφων και για ανάλυση και διορατικότητα. Το IDP χρησιμοποιεί τεχνολογίες φυσικής γλώσσας και όραση υπολογιστή για να εξάγει δεδομένα από δομημένο και μη δομημένο περιεχόμενο, ειδικά από έγγραφα, για να υποστηρίξει την αυτοματοποίηση και την αύξηση.»  – Gartner

Ο στόχος της έξυπνης επεξεργασίας εγγράφων (IDP) της Amazon είναι να αυτοματοποιήσει την επεξεργασία μεγάλων ποσοτήτων εγγράφων χρησιμοποιώντας μηχανική εκμάθηση (ML) προκειμένου να αυξηθεί η παραγωγικότητα, να μειωθεί το κόστος που σχετίζεται με την ανθρώπινη εργασία και να προσφέρει μια απρόσκοπτη εμπειρία χρήστη. Οι πελάτες ξοδεύουν σημαντικό χρόνο και προσπάθεια για την αναγνώριση εγγράφων και την εξαγωγή κρίσιμων πληροφοριών από αυτά για διάφορες περιπτώσεις χρήσης. Σήμερα, Κατανοήστε το Amazon υποστηρίζει ταξινόμηση για έγγραφα απλού κειμένου, η οποία απαιτεί να προεπεξεργάζεστε έγγραφα σε ημιδομημένες μορφές (σαρωμένο, ψηφιακό PDF ή εικόνες όπως PNG, JPG, TIFF) και στη συνέχεια να χρησιμοποιείτε την έξοδο απλού κειμένου για να εκτελέσετε συμπεράσματα προσαρμοσμένη ταξινόμηση μοντέλο. Ομοίως, για προσαρμοσμένη αναγνώριση οντότητας σε πραγματικό χρόνο, απαιτείται προεπεξεργασία για την εξαγωγή κειμένου για ημιδομημένα έγγραφα, όπως αρχεία PDF και εικόνας. Αυτή η διαδικασία δύο βημάτων εισάγει πολυπλοκότητες στις ροές εργασίας επεξεργασίας εγγράφων.

Πέρυσι, εμείς ανακοίνωσε υποστήριξη για εγγενείς μορφές εγγράφων με προσαρμοσμένη αναγνώριση οντοτήτων (NER) ασύγχρονες εργασίες. Σήμερα, είμαστε ενθουσιασμένοι που ανακοινώνουμε την ταξινόμηση εγγράφων σε ένα βήμα και την ανάλυση σε πραγματικό χρόνο για το NER για ημιδομημένα έγγραφα σε εγγενείς μορφές (PDF, TIFF, JPG, PNG) χρησιμοποιώντας το Amazon Comprehend. Συγκεκριμένα, ανακοινώνουμε τις ακόλουθες δυνατότητες:

  • Υποστήριξη για έγγραφα σε εγγενείς μορφές για προσαρμοσμένη ταξινόμηση ανάλυση σε πραγματικό χρόνο και ασύγχρονες εργασίες
  • Υποστήριξη για έγγραφα σε εγγενείς μορφές για προσαρμοσμένη ανάλυση αναγνώρισης οντοτήτων σε πραγματικό χρόνο

Με αυτή τη νέα έκδοση, η προσαρμοσμένη ταξινόμηση και η προσαρμοσμένη αναγνώριση οντοτήτων (NER) του Amazon Comprehend υποστηρίζει έγγραφα σε μορφές όπως PDF, TIFF, PNG και JPEG απευθείας, χωρίς να χρειάζεται να εξαγάγετε από αυτά κωδικοποιημένο UTF8 απλό κείμενο. Το παρακάτω σχήμα συγκρίνει την προηγούμενη διαδικασία με τη νέα διαδικασία και υποστήριξη.

Αυτή η δυνατότητα απλοποιεί τις ροές εργασίας επεξεργασίας εγγράφων εξαλείφοντας τυχόν βήματα προεπεξεργασίας που απαιτούνται για την εξαγωγή απλού κειμένου από έγγραφα και μειώνει τον συνολικό χρόνο που απαιτείται για την επεξεργασία τους.

Σε αυτήν την ανάρτηση, συζητάμε έναν σχεδιασμό λύσεων ροής εργασίας IDP υψηλού επιπέδου, μερικές περιπτώσεις χρήσης του κλάδου, τις νέες δυνατότητες του Amazon Comprehend και τον τρόπο χρήσης τους.

Επισκόπηση της λύσης

Ας ξεκινήσουμε διερευνώντας μια περίπτωση κοινής χρήσης στον ασφαλιστικό κλάδο. Μια τυπική διαδικασία ασφαλιστικής αξίωσης περιλαμβάνει ένα πακέτο αποζημίωσης που μπορεί να περιέχει πολλά έγγραφα. Όταν υποβάλλεται μια ασφαλιστική αξίωση, περιλαμβάνει έγγραφα όπως έντυπο ασφαλιστικής αξίωσης, αναφορές περιστατικών, έγγραφα ταυτότητας και έγγραφα αξίωσης τρίτων. Ο όγκος των εγγράφων για τη διεκπεραίωση και την εκδίκαση μιας ασφαλιστικής αξίωσης μπορεί να ανέλθει σε εκατοντάδες ή ακόμη και χιλιάδες σελίδες, ανάλογα με τον τύπο της αξίωσης και τις επιχειρηματικές διαδικασίες που εμπλέκονται. Οι εκπρόσωποι και οι κριτές ασφαλιστικών αξιώσεων συνήθως ξοδεύουν εκατοντάδες ώρες χειροκίνητα κοσκινίζοντας, ταξινομώντας και εξάγοντας πληροφορίες από εκατοντάδες ή ακόμα και χιλιάδες αιτήσεις αξιώσεων.

Παρόμοια με την περίπτωση χρήσης του ασφαλιστικού κλάδου, ο κλάδος πληρωμών επεξεργάζεται επίσης μεγάλους όγκους ημιδομημένων εγγράφων για συμφωνίες διασυνοριακών πληρωμών, τιμολόγια και αντίγραφα συναλλάγματος. Οι επαγγελματίες χρήστες αφιερώνουν το μεγαλύτερο μέρος του χρόνου τους σε μη αυτόματες δραστηριότητες, όπως η αναγνώριση, η οργάνωση, η επικύρωση, η εξαγωγή και η μετάδοση απαιτούμενων πληροφοριών σε μεταγενέστερες εφαρμογές. Αυτή η χειροκίνητη διαδικασία είναι κουραστική, επαναλαμβανόμενη, επιρρεπής σε σφάλματα, δαπανηρή και δύσκολη στην κλίμακα. Άλλοι κλάδοι που αντιμετωπίζουν παρόμοιες προκλήσεις περιλαμβάνουν τα στεγαστικά και δάνεια, την υγειονομική περίθαλψη και τις βιοεπιστήμες, τη νομική, τη λογιστική και τη φορολογική διαχείριση. Είναι εξαιρετικά σημαντικό για τις επιχειρήσεις να επεξεργάζονται τόσο μεγάλους όγκους εγγράφων έγκαιρα με υψηλό επίπεδο ακρίβειας και ονομαστική μη αυτόματη προσπάθεια.

Το Amazon Comprehend παρέχει βασικές δυνατότητες για την αυτοματοποίηση της ταξινόμησης εγγράφων και της εξαγωγής πληροφοριών από μεγάλο όγκο εγγράφων με υψηλή ακρίβεια, με επεκτάσιμο και οικονομικά αποδοτικό τρόπο. Το παρακάτω διάγραμμα δείχνει μια λογική ροή εργασίας IDP με το Amazon Comprehend. Ο πυρήνας της ροής εργασίας αποτελείται από ταξινόμηση εγγράφων και εξαγωγή πληροφοριών με χρήση NER με προσαρμοσμένα μοντέλα Amazon Comprehend. Το διάγραμμα δείχνει επίσης πώς τα προσαρμοσμένα μοντέλα μπορούν να βελτιώνονται συνεχώς για να παρέχουν υψηλότερες ακρίβειες καθώς εξελίσσονται τα έγγραφα και οι επιχειρηματικές διαδικασίες.

Παρουσιάζοντας την ταξινόμηση σε ένα βήμα και την αναγνώριση οντοτήτων με το Amazon Comprehend για έξυπνη επεξεργασία εγγράφων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Προσαρμοσμένη ταξινόμηση εγγράφων

Με την προσαρμοσμένη ταξινόμηση Amazon Comprehend, μπορείτε να οργανώσετε τα έγγραφά σας σε προκαθορισμένες κατηγορίες (τάξεις). Σε υψηλό επίπεδο, τα ακόλουθα είναι τα βήματα για να ρυθμίσετε έναν προσαρμοσμένο ταξινομητή εγγράφων και να εκτελέσετε ταξινόμηση εγγράφων:

  1. Προετοιμάστε δεδομένα εκπαίδευσης για να εκπαιδεύσετε έναν προσαρμοσμένο ταξινομητή εγγράφων.
  2. Εκπαιδεύστε έναν ταξινομητή εγγράφων πελάτη με τα δεδομένα εκπαίδευσης.
  3. Μετά την εκπαίδευση του μοντέλου, προαιρετικά αναπτύξτε ένα τελικό σημείο σε πραγματικό χρόνο.
  4. Εκτελέστε ταξινόμηση εγγράφων είτε με ασύγχρονη εργασία είτε σε πραγματικό χρόνο χρησιμοποιώντας το τελικό σημείο.

Τα βήματα 1 και 2 γίνονται συνήθως στην αρχή ενός έργου IDP αφού εντοπιστούν οι κατηγορίες εγγράφων που σχετίζονται με την επιχειρηματική διαδικασία. Ένα προσαρμοσμένο μοντέλο ταξινομητή μπορεί στη συνέχεια να επανεκπαιδεύεται περιοδικά για τη βελτίωση της ακρίβειας και την εισαγωγή νέων κατηγοριών εγγράφων. Μπορείτε να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο ταξινόμησης είτε σε λειτουργία πολλαπλών τάξεων or λειτουργία πολλαπλών ετικετών. Η εκπαίδευση μπορεί να γίνει για καθένα με έναν από τους δύο τρόπους: χρησιμοποιώντας ένα αρχείο CSV ή χρησιμοποιώντας ένα επαυξημένο αρχείο δήλωσης. Αναφέρομαι σε Προετοιμασία δεδομένων εκπαίδευσης για περισσότερες λεπτομέρειες σχετικά με την εκπαίδευση ενός προσαρμοσμένου μοντέλου ταξινόμησης. Μετά την εκπαίδευση ενός προσαρμοσμένου μοντέλου ταξινομητή, ένα έγγραφο μπορεί να ταξινομηθεί είτε χρησιμοποιώντας ανάλυση σε πραγματικό χρόνο ή ένα ασύγχρονη εργασία. Η ανάλυση σε πραγματικό χρόνο απαιτεί ένα τελικό σημείο που πρόκειται να αναπτυχθεί με το εκπαιδευμένο μοντέλο και ταιριάζει καλύτερα για μικρά έγγραφα ανάλογα με την περίπτωση χρήσης. Για μεγάλο αριθμό εγγράφων, η εργασία ασύγχρονης ταξινόμησης ταιριάζει καλύτερα.

Εκπαιδεύστε ένα προσαρμοσμένο μοντέλο ταξινόμησης εγγράφων

Για να δείξουμε τη νέα δυνατότητα, εκπαιδεύσαμε ένα προσαρμοσμένο μοντέλο ταξινόμησης σε λειτουργία πολλαπλών ετικετών, το οποίο μπορεί να ταξινομήσει τα ασφαλιστικά έγγραφα σε μία από τις επτά διαφορετικές κατηγορίες. Οι τάξεις είναι INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, να CMS1500. Θέλουμε να ταξινομήσουμε δείγματα εγγράφων σε εγγενή μορφή PDF, PNG και JPEG, αποθηκευμένα σε ένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος, χρησιμοποιώντας το μοντέλο ταξινόμησης. Για να ξεκινήσετε μια εργασία ασύγχρονης ταξινόμησης, ολοκληρώστε τα ακόλουθα βήματα:

  1. Στην κονσόλα Amazon Comprehend, επιλέξτε Εργασίες ανάλυσης στο παράθυρο πλοήγησης.
  2. Επιλέξτε Δημιουργήστε εργασία.
    Επιλέξτε Δημιουργία εργασίας
  3. Για Όνομα, εισαγάγετε ένα όνομα για την εργασία ταξινόμησης.
  4. Για Τύπος ανάλυσης¸ επιλέξτε Προσαρμοσμένη ταξινόμηση.
  5. Για Μοντέλο ταξινομητή, επιλέξτε το κατάλληλο εκπαιδευμένο μοντέλο ταξινόμησης.
  6. Για Εκδοχή, επιλέξτε την κατάλληλη έκδοση μοντέλου.
    Για Έκδοση, επιλέξτε την κατάλληλη έκδοση μοντέλου

Στο Εισαγωγή δεδομένων ενότητα, παρέχουμε τη θέση όπου αποθηκεύονται τα έγγραφά μας.

  1. Για Μορφή εισόδου, επιλέξτε Ένα έγγραφο ανά αρχείο.
  2. Για Λειτουργία ανάγνωσης εγγράφου¸ επιλέξτε Αναγκαστική ενέργεια ανάγνωσης εγγράφου.
  3. Για Ενέργεια ανάγνωσης εγγράφου, επιλέξτε Κείμενο ανίχνευσης κειμένου εγγράφου.

Αυτό επιτρέπει στο Amazon Comprehend να χρησιμοποιεί το Textract Amazon DetectDocumentText API για ανάγνωση των εγγράφων πριν από την εκτέλεση της ταξινόμησης. ο DetectDocumentText Το API είναι χρήσιμο για την εξαγωγή γραμμών και λέξεων κειμένου από τα έγγραφα. Μπορείτε επίσης να επιλέξετε Έγγραφο ανάλυσης κειμένου for Ενέργεια ανάγνωσης εγγράφου, οπότε το Amazon Comprehend χρησιμοποιεί το Amazon Textract Ανάλυση εγγράφου API για ανάγνωση των εγγράφων. Με το AnalyzeDocument API, μπορείτε να επιλέξετε την εξαγωγή πίνακες, έντυπα, ή και τα δύο. ο Λειτουργία ανάγνωσης εγγράφου Η επιλογή επιτρέπει στο Amazon Comprehend να εξάγει το κείμενο από έγγραφα στα παρασκήνια, γεγονός που συμβάλλει στη μείωση του επιπλέον βήματος εξαγωγής κειμένου από το έγγραφο, το οποίο απαιτείται στη ροή εργασιών επεξεργασίας εγγράφων.
Η επιλογή λειτουργίας ανάγνωσης εγγράφου επιτρέπει στο Amazon Comprehend να εξάγει το κείμενο από έγγραφα στα παρασκήνια, γεγονός που συμβάλλει στη μείωση του επιπλέον βήματος εξαγωγής κειμένου από το έγγραφο, το οποίο απαιτείται στη ροή εργασιών επεξεργασίας εγγράφων.

Ο προσαρμοσμένος ταξινομητής Amazon Comprehend μπορεί επίσης να επεξεργαστεί ακατέργαστες απαντήσεις JSON που δημιουργούνται από το DetectDocumentText και AnalyzeDocument API, χωρίς καμία τροποποίηση ή προεπεξεργασία. Αυτό είναι χρήσιμο για τις υπάρχουσες ροές εργασίας όπου το Amazon Textract εμπλέκεται ήδη στην εξαγωγή κειμένου από τα έγγραφα. Σε αυτήν την περίπτωση, η έξοδος JSON από το Amazon Textract μπορεί να τροφοδοτηθεί απευθείας στα API ταξινόμησης εγγράφων Amazon Comprehend.

  1. Στο Δεδομένα εξόδου ενότητα, για S3 τοποθεσία, καθορίστε μια τοποθεσία Amazon S3 όπου θέλετε η ασύγχρονη εργασία να γράψει τα αποτελέσματα του συμπερασμάτων.
  2. Αφήστε τις υπόλοιπες επιλογές ως προεπιλογές.
  3. Επιλέξτε Δημιουργήστε εργασία για να ξεκινήσει η δουλειά.
    Επιλέξτε Δημιουργία εργασίας για να ξεκινήσετε την εργασία.

Μπορείτε να δείτε την κατάσταση της εργασίας στο Εργασίες ανάλυσης .

Όταν ολοκληρωθεί η εργασία, μπορούμε να προβάλουμε την έξοδο της εργασίας ανάλυσης, η οποία αποθηκεύεται στη θέση Amazon S3 που παρέχεται κατά τη διαμόρφωση της εργασίας. Η έξοδος ταξινόμησης για το μονοσέλιδο δείγμα PDF εγγράφου μας CMS1500 είναι η εξής. Η έξοδος είναι ένα αρχείο σε μορφή JSON lines, το οποίο έχει διαμορφωθεί για να βελτιώσει την αναγνωσιμότητα.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Το προηγούμενο δείγμα είναι ένα έγγραφο PDF μιας σελίδας. Ωστόσο, η προσαρμοσμένη ταξινόμηση μπορεί επίσης να χειριστεί έγγραφα PDF πολλών σελίδων. Στην περίπτωση εγγράφων πολλών σελίδων, η έξοδος περιέχει πολλές γραμμές JSON, όπου κάθε γραμμή είναι το αποτέλεσμα ταξινόμησης κάθε μιας από τις σελίδες ενός εγγράφου. Το παρακάτω είναι ένα δείγμα εξόδου ταξινόμησης πολλών σελίδων:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Αναγνώριση προσαρμοσμένης οντότητας

Με έναν αναγνωριστικό προσαρμοσμένης οντότητας Amazon Comprehend, μπορείτε να αναλύσετε έγγραφα και να εξαγάγετε οντότητες όπως κωδικούς προϊόντων ή οντότητες για συγκεκριμένες επιχειρήσεις που ταιριάζουν στις ιδιαίτερες ανάγκες σας. Σε υψηλό επίπεδο, τα ακόλουθα είναι τα βήματα για τη ρύθμιση ενός προσαρμοσμένου αναγνωριστικού οντοτήτων και την εκτέλεση ανίχνευσης οντοτήτων:

  1. Προετοιμάστε δεδομένα εκπαίδευσης για να εκπαιδεύσετε έναν προσαρμοσμένο αναγνωριστικό οντοτήτων.
  2. Εκπαιδεύστε έναν προσαρμοσμένο αναγνωριστικό οντοτήτων με τα δεδομένα εκπαίδευσης.
  3. Μετά την εκπαίδευση του μοντέλου, προαιρετικά αναπτύξτε ένα τελικό σημείο σε πραγματικό χρόνο.
  4. Εκτελέστε ανίχνευση οντοτήτων είτε με ασύγχρονη εργασία είτε σε πραγματικό χρόνο χρησιμοποιώντας το τελικό σημείο.

Ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων μπορεί να επανεκπαιδεύεται περιοδικά για τη βελτίωση της ακρίβειας και την εισαγωγή νέων τύπων οντοτήτων. Μπορείτε να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων με οποιοδήποτε από τα δύο λίστες οντοτήτων or σχολιασμούς. Και στις δύο περιπτώσεις, το Amazon Comprehend μαθαίνει για το είδος των εγγράφων και το πλαίσιο όπου εμφανίζονται οι οντότητες για να δημιουργήσει ένα μοντέλο αναγνώρισης οντοτήτων που μπορεί να γενικευτεί για να ανιχνεύσει νέες οντότητες. Αναφέρομαι σε Προετοιμασία των δεδομένων εκπαίδευσης για να μάθετε περισσότερα σχετικά με την προετοιμασία δεδομένων εκπαίδευσης για προσαρμοσμένο αναγνωριστικό οντοτήτων.

Αφού εκπαιδευτεί ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων, ο εντοπισμός οντοτήτων μπορεί να γίνει είτε χρησιμοποιώντας ανάλυση σε πραγματικό χρόνο ή ένα ασύγχρονη εργασία. Η ανάλυση σε πραγματικό χρόνο απαιτεί ένα τελικό σημείο που πρόκειται να αναπτυχθεί με το εκπαιδευμένο μοντέλο και ταιριάζει καλύτερα για μικρά έγγραφα ανάλογα με την περίπτωση χρήσης. Για μεγάλο αριθμό εγγράφων, η εργασία ασύγχρονης ταξινόμησης ταιριάζει καλύτερα.

Εκπαιδεύστε ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων

Για να επιδείξουμε τον εντοπισμό οντοτήτων σε πραγματικό χρόνο, εκπαιδεύσαμε ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων με έγγραφα ασφάλισης και επαυξημένα αρχεία δήλωσης χρησιμοποιώντας προσαρμοσμένους σχολιασμούς και αναπτύξαμε το τελικό σημείο χρησιμοποιώντας το εκπαιδευμένο μοντέλο. Οι τύποι οντοτήτων είναι Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, να Sender. Θέλουμε να ανιχνεύσουμε οντότητες από δείγματα εγγράφων σε εγγενή μορφή PDF, PNG και JPEG, αποθηκευμένα σε έναν κάδο S3, χρησιμοποιώντας το μοντέλο αναγνώρισης.

Σημειώστε ότι μπορείτε να χρησιμοποιήσετε ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων που είναι εκπαιδευμένο με έγγραφα PDF για την εξαγωγή προσαρμοσμένων οντοτήτων από έγγραφα PDF, TIFF, εικόνας, Word και απλού κειμένου. Εάν το μοντέλο σας έχει εκπαιδευτεί χρησιμοποιώντας έγγραφα κειμένου και λίστα οντοτήτων, μπορείτε να χρησιμοποιήσετε μόνο έγγραφα απλού κειμένου για την εξαγωγή των οντοτήτων.

Πρέπει να ανιχνεύσουμε οντότητες από ένα δείγμα εγγράφου σε οποιαδήποτε εγγενή μορφή PDF, PNG και JPEG χρησιμοποιώντας το μοντέλο αναγνώρισης. Για να ξεκινήσετε μια εργασία εντοπισμού σύγχρονης οντότητας, ολοκληρώστε τα ακόλουθα βήματα:

  1. Στην κονσόλα Amazon Comprehend, επιλέξτε Ανάλυση σε πραγματικό χρόνο στο παράθυρο πλοήγησης.
  2. Κάτω από Τύπος ανάλυσης, Επιλέξτε Εξατομικευμένο .
  3. Για Αναγνώριση προσαρμοσμένης οντότητας, επιλέξτε τον προσαρμοσμένο τύπο μοντέλου.
  4. Για Τελικό σημείο, επιλέξτε το τελικό σημείο σε πραγματικό χρόνο που δημιουργήσατε για το μοντέλο αναγνώρισης οντοτήτων.
  5. Αγορά Ανέβασμα αρχείου Και επιλέξτε Επιλέξτε το αρχείο για να ανεβάσετε το αρχείο PDF ή εικόνας για συμπεράσματα.
  6. Αναπτύξτε το Σύνθετη εισαγωγή εγγράφων τμήμα και για Λειτουργία ανάγνωσης εγγράφου, επιλέξτε Προεπιλογή υπηρεσίας.
  7. Για Ενέργεια ανάγνωσης εγγράφου, επιλέξτε Κείμενο ανίχνευσης κειμένου εγγράφου.
  8. Επιλέξτε Αναλύστε για ανάλυση του εγγράφου σε πραγματικό χρόνο.
    Επιλέξτε Ανάλυση για να αναλύσετε το έγγραφο σε πραγματικό χρόνο

Οι αναγνωρισμένες οντότητες παρατίθενται στο Δεδομένα Ενότητα. Κάθε οντότητα περιέχει την τιμή οντότητας (το κείμενο), τον τύπο της οντότητας όπως ορίζεται από εσάς κατά τη διάρκεια της εκπαιδευτικής διαδικασίας και την αντίστοιχη βαθμολογία εμπιστοσύνης.
Οι αναγνωρισμένες οντότητες παρατίθενται στην ενότητα Insights. Κάθε οντότητα περιέχει την τιμή οντότητας (το κείμενο), τον τύπο της οντότητας όπως ορίζεται από εσάς κατά τη διάρκεια της εκπαιδευτικής διαδικασίας και την αντίστοιχη βαθμολογία εμπιστοσύνης.

Για περισσότερες λεπτομέρειες και μια πλήρη περιγραφή σχετικά με τον τρόπο εκπαίδευσης ενός προσαρμοσμένου μοντέλου αναγνώρισης οντοτήτων και χρήσης του για την εκτέλεση ασύγχρονων συμπερασμάτων χρησιμοποιώντας εργασίες ασύγχρονης ανάλυσης, ανατρέξτε στο Εξαγωγή προσαρμοσμένων οντοτήτων από έγγραφα στην εγγενή τους μορφή με το Amazon Comprehend.

Συμπέρασμα

Αυτή η ανάρτηση έδειξε πώς μπορείτε να ταξινομήσετε και να κατηγοριοποιήσετε ημι-δομημένα έγγραφα στην εγγενή τους μορφή και να ανιχνεύσετε οντότητες για συγκεκριμένες επιχειρήσεις από αυτά χρησιμοποιώντας το Amazon Comprehend. Μπορείτε να χρησιμοποιήσετε API σε πραγματικό χρόνο για περιπτώσεις χρήσης χαμηλής καθυστέρησης ή να χρησιμοποιήσετε ασύγχρονες εργασίες ανάλυσης για μαζική επεξεργασία εγγράφων.

Ως επόμενο βήμα, σας ενθαρρύνουμε να επισκεφτείτε το Amazon Comprehend Αποθετήριο GitHub για πλήρη δείγματα κώδικα για να δοκιμάσετε αυτές τις νέες δυνατότητες. Μπορείτε επίσης να επισκεφθείτε το Οδηγός προγραμματιστή Amazon Comprehend και Πόροι προγραμματιστών Amazon Comprehend για βίντεο, σεμινάρια, ιστολόγια και άλλα.


Σχετικά με τους συγγραφείς

Παρουσιάζοντας την ταξινόμηση σε ένα βήμα και την αναγνώριση οντοτήτων με το Amazon Comprehend για έξυπνη επεξεργασία εγγράφων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Γράφω Talukdar είναι Senior Architect με την ομάδα Amazon Comprehend Service. Συνεργάζεται με πελάτες AWS για να τους βοηθήσει να υιοθετήσουν τη μηχανική εκμάθηση σε μεγάλη κλίμακα. Εκτός δουλειάς, του αρέσει το διάβασμα και η φωτογραφία.

Παρουσιάζοντας την ταξινόμηση σε ένα βήμα και την αναγνώριση οντοτήτων με το Amazon Comprehend για έξυπνη επεξεργασία εγγράφων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Anjan Biswas είναι Ανώτερος Αρχιτέκτονας Λύσεων Υπηρεσιών AI με έμφαση στο AI/ML και την ανάλυση δεδομένων. Ο Anjan είναι μέρος της παγκόσμιας ομάδας υπηρεσιών AI και συνεργάζεται με πελάτες για να τους βοηθήσει να κατανοήσουν και να αναπτύξουν λύσεις σε επιχειρηματικά προβλήματα με AI και ML. Η Anjan έχει πάνω από 14 χρόνια εμπειρίας σε συνεργασία με παγκόσμιους οργανισμούς εφοδιαστικής αλυσίδας, κατασκευής και λιανικής και βοηθά ενεργά τους πελάτες να ξεκινήσουν και να επεκτείνουν τις υπηρεσίες AWS AI.

Παρουσιάζοντας την ταξινόμηση σε ένα βήμα και την αναγνώριση οντοτήτων με το Amazon Comprehend για έξυπνη επεξεργασία εγγράφων PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Godwin Sahayaraj Βικέντιος είναι Αρχιτέκτονας Enterprise Solutions στην AWS που είναι παθιασμένος με τη μηχανική μάθηση και την παροχή καθοδήγησης στους πελάτες για το σχεδιασμό, την ανάπτυξη και τη διαχείριση του φόρτου εργασίας και των αρχιτεκτονικών τους AWS. Στον ελεύθερο χρόνο του, του αρέσει να παίζει κρίκετ με τους φίλους του και τένις με τα τρία του παιδιά.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS