Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού της Amazon

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού της Amazon

Κατανοήστε το Amazon είναι μια υπηρεσία επεξεργασίας φυσικής γλώσσας (NLP) που παρέχει προεκπαιδευμένα και προσαρμοσμένα API για την εξαγωγή πληροφοριών από δεδομένα κειμένου. Οι πελάτες του Amazon Comprehend μπορούν να εκπαιδεύσουν προσαρμοσμένα μοντέλα αναγνώρισης οντοτήτων με όνομα (NER) για να εξάγουν οντότητες που ενδιαφέρουν, όπως τοποθεσία, όνομα προσώπου και ημερομηνία, που είναι μοναδικά για την επιχείρησή τους.

Για να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο, προετοιμάζετε πρώτα δεδομένα εκπαίδευσης σημειώνοντας με μη αυτόματο τρόπο οντότητες σε έγγραφα. Αυτό μπορεί να γίνει με το Comprehend Semi-Structured Documents Annotation Tool, που δημιουργεί ένα Amazon SageMaker Ground Αλήθεια εργασία με ένα προσαρμοσμένο πρότυπο, που επιτρέπει στους σχολιαστές να σχεδιάζουν οριοθετημένα πλαίσια γύρω από τις οντότητες απευθείας στα έγγραφα PDF. Ωστόσο, για εταιρείες με υπάρχοντα δεδομένα οντοτήτων σε πίνακα σε συστήματα ERP όπως το SAP, ο μη αυτόματος σχολιασμός μπορεί να είναι επαναλαμβανόμενος και χρονοβόρος.

Για να μειώσουμε την προσπάθεια προετοιμασίας δεδομένων εκπαίδευσης, δημιουργήσαμε ένα εργαλείο προεπισήμανσης χρησιμοποιώντας Λειτουργίες βημάτων AWS που προσθέτει αυτόματα προσχολιασμούς σε έγγραφα χρησιμοποιώντας υπάρχοντα δεδομένα οντοτήτων σε πίνακα. Αυτό μειώνει σημαντικά τη χειρωνακτική εργασία που απαιτείται για την εκπαίδευση ακριβών μοντέλων αναγνώρισης προσαρμοσμένων οντοτήτων στο Amazon Comprehend.

Σε αυτήν την ανάρτηση, σας καθοδηγούμε στα βήματα της ρύθμισης του εργαλείου προεπισήμανσης και δείχνουμε παραδείγματα για το πώς σχολιάζει αυτόματα έγγραφα από ένα δημόσιο σύνολο δεδομένων δείγματα τραπεζικών κινήσεων σε μορφή PDF. Ο πλήρης κωδικός είναι διαθέσιμος στο GitHub repo.

Επισκόπηση λύσεων

Σε αυτήν την ενότητα, συζητάμε τις εισόδους και τις εξόδους του εργαλείου προεπισήμανσης και παρέχουμε μια επισκόπηση της αρχιτεκτονικής λύσης.

Είσοδοι και έξοδοι

Ως είσοδος, το εργαλείο προεπισήμανσης παίρνει έγγραφα PDF που περιέχουν κείμενο για σχολιασμό. Για την επίδειξη, χρησιμοποιούμε προσομοιωμένες τραπεζικές κινήσεις όπως το παρακάτω παράδειγμα.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το εργαλείο παίρνει επίσης ένα αρχείο δήλωσης που αντιστοιχίζει έγγραφα PDF με τις οντότητες που θέλουμε να εξαγάγουμε από αυτά τα έγγραφα. Οι οντότητες αποτελούνται από δύο πράγματα: το expected_text για εξαγωγή από το έγγραφο (για παράδειγμα, AnyCompany Bank) και το αντίστοιχο entity_type (για παράδειγμα, bank_name). Αργότερα σε αυτήν την ανάρτηση, δείχνουμε πώς να δημιουργήσετε αυτό το αρχείο δήλωσης από ένα έγγραφο CSV όπως το ακόλουθο παράδειγμα.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το εργαλείο προεπισήμανσης χρησιμοποιεί το αρχείο δήλωσης για να σχολιάζει αυτόματα τα έγγραφα με τις αντίστοιχες οντότητές τους. Στη συνέχεια, μπορούμε να χρησιμοποιήσουμε αυτούς τους σχολιασμούς απευθείας για να εκπαιδεύσουμε ένα μοντέλο Amazon Comprehend.

Εναλλακτικά, μπορείτε να δημιουργήσετε μια εργασία επισήμανσης ετικετών SageMaker Ground Truth για ανθρώπινη αναθεώρηση και επεξεργασία, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Όταν ολοκληρωθεί ο έλεγχος, μπορείτε να χρησιμοποιήσετε τα σχολιασμένα δεδομένα για να εκπαιδεύσετε ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων Amazon Comprehend.

Αρχιτεκτονική

Το εργαλείο προεπισήμανσης αποτελείται από πολλαπλά AWS Lambda λειτουργίες ενορχηστρωμένες από μια μηχανή κατάστασης Step Functions. Έχει δύο εκδόσεις που χρησιμοποιούν διαφορετικές τεχνικές για τη δημιουργία προσχολιασμών.

Η πρώτη τεχνική είναι ασαφής αντιστοίχιση. Αυτό απαιτεί ένα αρχείο προκαταρκτικής δήλωσης με αναμενόμενες οντότητες. Το εργαλείο χρησιμοποιεί τον αλγόριθμο ασαφούς αντιστοίχισης για να δημιουργήσει προσχολιασμούς συγκρίνοντας την ομοιότητα κειμένου.

Η ασαφής αντιστοίχιση αναζητά συμβολοσειρές στο έγγραφο που είναι παρόμοιες (αλλά όχι απαραιτήτως πανομοιότυπες) με τις αναμενόμενες οντότητες που παρατίθενται στο αρχείο της προκαταρκτικής δήλωσης. Αρχικά υπολογίζει τις βαθμολογίες ομοιότητας κειμένου μεταξύ του αναμενόμενου κειμένου και των λέξεων στο έγγραφο και, στη συνέχεια, ταιριάζει με όλα τα ζεύγη πάνω από ένα όριο. Επομένως, ακόμα κι αν δεν υπάρχουν ακριβείς αντιστοιχίσεις, η ασαφής αντιστοίχιση μπορεί να βρει παραλλαγές όπως συντμήσεις και ορθογραφικά λάθη. Αυτό επιτρέπει στο εργαλείο να προεπισημάνει έγγραφα χωρίς να απαιτείται από τις οντότητες να εμφανίζονται αυτολεξεί. Για παράδειγμα, εάν 'AnyCompany Bank' αναφέρεται ως αναμενόμενη οντότητα, το Fuzzy Matching θα σχολιάσει τις εμφανίσεις του 'Any Companys Bank'. Αυτό παρέχει μεγαλύτερη ευελιξία από την αυστηρή αντιστοίχιση συμβολοσειρών και επιτρέπει στο εργαλείο προεπισήμανσης να επισημαίνει αυτόματα περισσότερες οντότητες.

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική αυτής της μηχανής κατάστασης Λειτουργιών Βήματος.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η δεύτερη τεχνική απαιτεί α προεκπαιδευμένο μοντέλο αναγνώρισης οντοτήτων Amazon Comprehend. Το εργαλείο δημιουργεί προσχολιασμούς χρησιμοποιώντας το μοντέλο Amazon Comprehend, ακολουθώντας τη ροή εργασίας που φαίνεται στο παρακάτω διάγραμμα.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το παρακάτω διάγραμμα απεικονίζει την πλήρη αρχιτεκτονική.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στις επόμενες ενότητες, περιγράφουμε τα βήματα για την εφαρμογή της λύσης.

Αναπτύξτε το εργαλείο προεπισήμανσης

Κλωνοποιήστε το αποθετήριο στον τοπικό σας υπολογιστή:

git clone https://github.com/aws-samples/amazon-comprehend-automated-pdf-prelabeling-tool.git

Αυτό το αποθετήριο έχει δημιουργηθεί πάνω από το Comprehend Semi-Structured Documents Annotation Tool και επεκτείνει τις λειτουργίες του επιτρέποντάς σας να ξεκινήσετε μια εργασία επισήμανσης ετικετών SageMaker Ground Truth με προσχολιασμούς που εμφανίζονται ήδη στο SageMaker Ground Truth UI.

Το εργαλείο προεπισήμανσης περιλαμβάνει τόσο τους πόρους του Εργαλείου σχολιασμού Comprehend Semi-Structured Documents όσο και ορισμένους πόρους ειδικά για το εργαλείο προεπισήμανσης. Μπορείτε να αναπτύξετε τη λύση με Μοντέλο εφαρμογής χωρίς διακομιστή AWS (AWS SAM), ένα πλαίσιο ανοιχτού κώδικα που μπορείτε να χρησιμοποιήσετε για να ορίσετε κώδικα υποδομής εφαρμογών χωρίς διακομιστή.

Εάν έχετε αναπτύξει προηγουμένως το Εργαλείο σχολιασμού Comprehend Semi-Structured Documents, ανατρέξτε στην ενότητα Συχνές ερωτήσεις στο Pre_labeling_tool/README.md για οδηγίες σχετικά με τον τρόπο ανάπτυξης μόνο των πόρων που αφορούν το εργαλείο προεπισήμανσης.

Εάν δεν έχετε αναπτύξει το εργαλείο πριν και ξεκινάτε από καινούργια, κάντε τα εξής για να αναπτύξετε ολόκληρη τη λύση.

Αλλάξτε τον τρέχοντα κατάλογο στο φάκελο του εργαλείου σχολιασμού:

cd amazon-comprehend-semi-structured-documents-annotation-tools

Δημιουργήστε και αναπτύξτε τη λύση:

make ready-and-deploy-guided

Δημιουργήστε το αρχείο pre-manifest

Για να μπορέσετε να χρησιμοποιήσετε το εργαλείο προεπισήμανσης, πρέπει να προετοιμάσετε τα δεδομένα σας. Οι κύριες είσοδοι είναι έγγραφα PDF και ένα αρχείο προεπιλογής. Το αρχείο πριν από τη δήλωση περιέχει τη θέση κάθε εγγράφου PDF κάτω από 'pdf' και τη θέση ενός αρχείου JSON με αναμενόμενες οντότητες για την επισήμανση 'expected_entities'.

Το σημειωματάριο generate_premanifest_file.ipynb δείχνει πώς να δημιουργήσετε αυτό το αρχείο. Στην επίδειξη, το αρχείο pre-manifest εμφανίζει τον ακόλουθο κώδικα:

[ { 'pdf': 's3://<bucket>/data_aws_idp_workshop_data/bank_stmt_0.pdf', 'expected_entities': 's3://<bucket>/prelabeling-inputs/expected-entities/example-demo/fuzzymatching_version/file_bank_stmt_0.json' }, ...
]

Κάθε αρχείο JSON που παρατίθεται στο αρχείο προ-εκδηλώσεων (κάτω expected_entities) περιέχει μια λίστα λεξικών, ένα για κάθε αναμενόμενη οντότητα. Τα λεξικά έχουν τα ακόλουθα κλειδιά:

  • "αναμενόμενα_κείμενα" – Μια λίστα με πιθανές συμβολοσειρές κειμένου που ταιριάζουν με την οντότητα.
  • "entity_type" – Ο αντίστοιχος τύπος οντότητας.
  • 'ignore_list' (προαιρετικό) – Η λίστα με τις λέξεις που πρέπει να αγνοηθούν στον αγώνα. Αυτές οι παράμετροι θα πρέπει να χρησιμοποιούνται για να αποτρέπεται η ασαφής αντιστοίχιση από την αντιστοίχιση συγκεκριμένων συνδυασμών λέξεων που γνωρίζετε ότι είναι λάθος. Αυτό μπορεί να είναι χρήσιμο εάν θέλετε να αγνοήσετε ορισμένους αριθμούς ή διευθύνσεις email όταν κοιτάζετε ονόματα.

Για παράδειγμα, η expected_entities του PDF που παρουσιάστηκε προηγουμένως μοιάζει με το εξής:

[ { 'expected_texts': ['AnyCompany Bank'], 'entity_type': 'bank_name', 'ignore_list': [] }, { 'expected_texts': ['JANE DOE'], 'entity_type': 'customer_name', 'ignore_list': ['JANE.DOE@example_mail.com'] }, { 'expected_texts': ['003884257406'], 'entity_type': 'checking_number', 'ignore_list': [] }, ...
]

Εκτελέστε το εργαλείο προεπισήμανσης

Με το αρχείο προεπισήμανσης που δημιουργήσατε στο προηγούμενο βήμα, ξεκινήστε να εκτελείτε το εργαλείο προεπισήμανσης. Για περισσότερες λεπτομέρειες, ανατρέξτε στο σημειωματάριο start_step_functions.ipynb.

Για να ξεκινήσετε το εργαλείο προεπισήμανσης, δώστε ένα event με τα ακόλουθα κλειδιά:

  • Προφανής – Αντιστοιχίζει κάθε έγγραφο PDF στο δικό του expected_entities αρχείο. Αυτό θα πρέπει να περιέχει το Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος (κάτω bucket) και το κλειδί (κάτω key) του αρχείου.
  • Πρόθεμα – Χρησιμοποιείται για τη δημιουργία του execution_id, το οποίο ονομάζει το φάκελο S3 για αποθήκευση εξόδου και το όνομα εργασίας επισήμανσης SageMaker Ground Truth.
  • οντότητες_τύποι – Εμφανίζεται στη διεπαφή χρήστη για να επισημάνουν τους σχολιαστές. Αυτά θα πρέπει να περιλαμβάνουν όλους τους τύπους οντοτήτων στα αρχεία αναμενόμενων οντοτήτων.
  • όνομα_ομάδας_εργασίας (προαιρετικό) – Χρησιμοποιείται για τη δημιουργία της εργασίας επισήμανσης του SageMaker Ground Truth. Αντιστοιχεί στο ιδιωτικό εργατικό δυναμικό που χρησιμοποιείται. Εάν δεν παρέχεται, θα δημιουργηθεί μόνο ένα αρχείο δήλωσης αντί για μια εργασία επισήμανσης του SageMaker Ground Truth. Μπορείτε να χρησιμοποιήσετε το αρχείο δήλωσης για να δημιουργήσετε μια εργασία επισήμανσης ετικετών SageMaker Ground Truth αργότερα. Λάβετε υπόψη ότι από τη στιγμή που γράφεται αυτό το κείμενο, δεν μπορείτε να παρέχετε εξωτερικό εργατικό δυναμικό κατά τη δημιουργία της εργασίας επισήμανσης από το σημειωματάριο. Ωστόσο, μπορείτε να κλωνοποιήσετε την εργασία που δημιουργήθηκε και να την εκχωρήσετε σε εξωτερικό εργατικό δυναμικό στην κονσόλα SageMaker Ground Truth.
  • comprehend_parameters (προαιρετικό) – Παράμετροι για την άμεση εκπαίδευση ενός μοντέλου αναγνώρισης προσαρμοσμένων οντοτήτων Amazon Comprehend. Εάν παραλειφθεί, αυτό το βήμα θα παραλειφθεί.

Για να ξεκινήσετε τη μηχανή κατάστασης, εκτελέστε τον ακόλουθο κώδικα Python:

import boto3
stepfunctions_client = boto3.client('stepfunctions')

response = stepfunctions_client.start_execution(
stateMachineArn=fuzzymatching_prelabeling_step_functions_arn,
input=json.dumps(<event-dict>)
)

Αυτό θα ξεκινήσει μια λειτουργία της κρατικής μηχανής. Μπορείτε να παρακολουθείτε την πρόοδο του μηχανήματος κατάστασης στην κονσόλα Step Functions. Το παρακάτω διάγραμμα απεικονίζει τη ροή εργασιών της μηχανής κατάστασης.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Όταν ολοκληρωθεί το μηχάνημα κατάστασης, κάντε τα εξής:

  • Επιθεωρήστε τις ακόλουθες εξόδους που είναι αποθηκευμένες στο prelabeling/ φάκελο του comprehend-semi-structured-docs Κάδος S3:
    • Μεμονωμένα αρχεία σχολιασμού για κάθε σελίδα των εγγράφων (ένα ανά σελίδα ανά έγγραφο). temp_individual_manifests/
    • Ένα μανιφέστο για την εργασία τοποθέτησης ετικετών στο SageMaker Ground Truth consolidated_manifest/consolidated_manifest.manifest
    • Ένα μανιφέστο που μπορεί να χρησιμοποιηθεί για την εκπαίδευση ενός προσαρμοσμένου μοντέλου Amazon Comprehend consolidated_manifest/consolidated_manifest_comprehend.manifest
  • Στην κονσόλα SageMaker, ανοίξτε την εργασία επισήμανσης του SageMaker Ground Truth που δημιουργήθηκε για να ελέγξετε τους σχολιασμούς
  • Επιθεωρήστε και δοκιμάστε το προσαρμοσμένο μοντέλο Amazon Comprehend που εκπαιδεύτηκε

Όπως αναφέρθηκε προηγουμένως, το εργαλείο μπορεί να δημιουργήσει θέσεις εργασίας επισήμανσης του SageMaker Ground Truth μόνο για ιδιωτικούς εργαζομένους. Για να αναθέσετε σε τρίτους την προσπάθεια ανθρώπινων ετικετών, μπορείτε να κλωνοποιήσετε την εργασία ετικετών στην κονσόλα SageMaker Ground Truth και να συνδέσετε οποιοδήποτε εργατικό δυναμικό στη νέα εργασία.

εκκαθάριση

Για να αποφύγετε την επιβολή πρόσθετων χρεώσεων, διαγράψτε τους πόρους που δημιουργήσατε και διαγράψτε τη στοίβα που αναπτύξατε με την ακόλουθη εντολή:

make delete

Συμπέρασμα

Το εργαλείο προεπισήμανσης παρέχει έναν ισχυρό τρόπο για τις εταιρείες να χρησιμοποιούν υπάρχοντα δεδομένα σε πίνακα για να επιταχύνουν τη διαδικασία εκπαίδευσης προσαρμοσμένων μοντέλων αναγνώρισης οντοτήτων στο Amazon Comprehend. Με τον αυτόματο προσχολιασμό εγγράφων PDF, μειώνει σημαντικά τη μη αυτόματη προσπάθεια που απαιτείται στη διαδικασία επισήμανσης.

Το εργαλείο έχει δύο εκδόσεις: ασαφή αντιστοίχιση και βασισμένη στο Amazon Comprehend, δίνοντας ευελιξία στον τρόπο δημιουργίας των αρχικών σχολιασμών. Μετά την προεπισήμανση των εγγράφων, μπορείτε να τα ελέγξετε γρήγορα σε μια εργασία επισήμανσης του SageMaker Ground Truth ή ακόμα και να παραλείψετε την αναθεώρηση και να εκπαιδεύσετε απευθείας ένα προσαρμοσμένο μοντέλο του Amazon Comprehend.

Το εργαλείο προεπισήμανσης σάς δίνει τη δυνατότητα να ξεκλειδώσετε γρήγορα την αξία των δεδομένων ιστορικής οντότητας και να τη χρησιμοποιήσετε για τη δημιουργία προσαρμοσμένων μοντέλων προσαρμοσμένων στον συγκεκριμένο τομέα σας. Επιταχύνοντας αυτό που είναι συνήθως το πιο απαιτητικό μέρος της διαδικασίας, καθιστά την προσαρμοσμένη αναγνώριση οντοτήτων με το Amazon Comprehend πιο προσιτή από ποτέ.

Για περισσότερες πληροφορίες σχετικά με τον τρόπο επισήμανσης εγγράφων PDF χρησιμοποιώντας μια εργασία επισήμανσης ετικετών SageMaker Ground Truth, ανατρέξτε στην ενότητα Προσαρμοσμένος σχολιασμός εγγράφων για εξαγωγή ονομασμένων οντοτήτων σε έγγραφα χρησιμοποιώντας το Amazon Comprehend και Χρησιμοποιήστε το Amazon SageMaker Ground Truth για την επισήμανση δεδομένων.


Σχετικά με τους συγγραφείς

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Oskar Schnaack είναι Εφαρμοσμένος Επιστήμονας στο Generative AI Innovation Center. Είναι παθιασμένος με την κατάδυση στην επιστήμη πίσω από τη μηχανική μάθηση για να την κάνει προσιτή στους πελάτες. Εκτός δουλειάς, ο Oskar του αρέσει να κάνει ποδήλατο και να συμβαδίζει με τις τάσεις στη θεωρία της πληροφορίας.

Αυτοματοποιήστε την προεπισήμανση PDF για το Amazon Comprehend | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ρομέν Μπεσόμπες είναι αρχιτέκτονας Deep Learning στο Generative AI Innovation Center. Είναι παθιασμένος με τη δημιουργία καινοτόμων αρχιτεκτονικών για την αντιμετώπιση των επιχειρηματικών προβλημάτων των πελατών με τη μηχανική μάθηση.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS