Οι οργανωτικές μορφές χρησιμεύουν ως κύριο επιχειρηματικό εργαλείο σε όλους τους κλάδους—από τις χρηματοοικονομικές υπηρεσίες, την υγειονομική περίθαλψη και πολλά άλλα. Σκεφτείτε, για παράδειγμα, τα έντυπα φορολογικών δηλώσεων στον κλάδο της φορολογικής διαχείρισης, όπου νέα έντυπα βγαίνουν κάθε χρόνο με τις ίδιες σε μεγάλο βαθμό πληροφορίες. Οι πελάτες AWS σε όλους τους τομείς πρέπει να επεξεργάζονται και να αποθηκεύουν πληροφορίες σε φόρμες ως μέρος της καθημερινής επιχειρηματικής πρακτικής τους. Αυτές οι φόρμες συχνά χρησιμεύουν ως πρωταρχικό μέσο για τη ροή πληροφοριών σε έναν οργανισμό όπου τα τεχνολογικά μέσα συλλογής δεδομένων δεν είναι πρακτικά.
Εκτός από τη χρήση φορμών για τη συλλογή πληροφοριών, με τα χρόνια της προσφοράς Textract Amazon, έχουμε παρατηρήσει ότι οι πελάτες AWS εκδίδουν συχνά τις οργανωτικές τους φόρμες με βάση τις δομικές αλλαγές που έγιναν, τα πεδία που προστέθηκαν ή άλλαξαν ή άλλες εκτιμήσεις, όπως αλλαγή έτους ή έκδοσης της φόρμας.
Όταν η δομή ή το περιεχόμενο μιας φόρμας αλλάζει, συχνά αυτό μπορεί να προκαλέσει προκλήσεις για τα παραδοσιακά συστήματα OCR ή να επηρεάσει τα μεταγενέστερα εργαλεία που χρησιμοποιούνται για τη λήψη πληροφοριών, ακόμη και όταν χρειάζεται να συλλέγετε τις ίδιες πληροφορίες χρόνο με το χρόνο και να συγκεντρώνετε τα δεδομένα για χρήση ανεξάρτητα από τη μορφή του εγγράφου.
Για την επίλυση αυτού του προβλήματος, σε αυτήν την ανάρτηση δείχνουμε πώς μπορείτε να δημιουργήσετε και να αναπτύξετε μια διοχέτευση ανάλυσης εγγράφων πολλαπλών μορφών που βασίζεται σε συμβάντα, χωρίς διακομιστές, με το Amazon Textract.
Επισκόπηση λύσεων
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσης μας:
Πρώτον, η λύση προσφέρει απορρόφηση αγωγού με χρήση Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Ειδοποιήσεις συμβάντων Amazon S3 και ένα Υπηρεσία απλής ουράς Amazon (Amazon SQS) ουρά, έτσι ώστε η επεξεργασία να ξεκινά όταν μια φόρμα προσγειώνεται στο διαμέρισμα στόχο Amazon S3. Μια εκδήλωση στις Amazon EventBridge δημιουργείται και αποστέλλεται σε ένα AWS Lambda στόχος που ενεργοποιεί μια εργασία Amazon Textract.
Μπορείτε να χρησιμοποιήσετε υπηρεσίες AWS χωρίς διακομιστή, όπως το Lambda και Λειτουργίες βημάτων AWS για τη δημιουργία ασύγχρονων ενσωματώσεων υπηρεσιών μεταξύ των υπηρεσιών AWS AI και των υπηρεσιών AWS Analytics και βάσης δεδομένων για αποθήκευση, αναλυτικά στοιχεία και τεχνητή νοημοσύνη και μηχανική εκμάθηση (ML). Σε αυτήν την ανάρτηση, δείχνουμε πώς να χρησιμοποιείτε τις Λειτουργίες Βήματος για τον ασύγχρονο έλεγχο και τη διατήρηση της κατάστασης των αιτημάτων στα ασύγχρονα API του Amazon Textract. Αυτό επιτυγχάνεται χρησιμοποιώντας ένα μηχάνημα κατάστασης για τη διαχείριση κλήσεων και απαντήσεων. Χρησιμοποιούμε το Lambda στο μηχάνημα κατάστασης για να συγχωνεύσουμε τα σελιδοποιημένα δεδομένα απόκρισης API από το Amazon Textract σε ένα μεμονωμένο αντικείμενο JSON που περιέχει ημιδομημένα δεδομένα κειμένου που εξάγονται με χρήση OCR.
Στη συνέχεια, φιλτράρουμε διάφορες φόρμες χρησιμοποιώντας μια τυποποιημένη προσέγγιση για τη συγκέντρωση αυτών των δεδομένων OCR σε μια κοινή δομημένη μορφή χρησιμοποιώντας Αμαζόν Αθηνά και ένα SQL Amazon Textract JSON SerDe.
Μπορείτε να ανιχνεύσετε τα βήματα που έγιναν μέσω αυτού του αγωγού χρησιμοποιώντας τις λειτουργίες βήματος χωρίς διακομιστή για να παρακολουθείτε την κατάσταση επεξεργασίας και να διατηρήσετε την έξοδο κάθε κατάστασης. Αυτό είναι κάτι που προτιμούν να κάνουν οι πελάτες σε ορισμένους κλάδους όταν εργάζονται με δεδομένα, όπου πρέπει να διατηρείτε τα αποτελέσματα όλων των προβλέψεων από υπηρεσίες όπως το Amazon Textract για την προώθηση της επεξήγησης των αποτελεσμάτων του αγωγού σας μακροπρόθεσμα.
Τέλος, μπορείτε να ρωτήσετε τα εξαγόμενα δεδομένα σε πίνακες Athena.
Στις επόμενες ενότητες, σας καθοδηγούμε στη ρύθμιση του αγωγού χρησιμοποιώντας AWS CloudFormation, δοκιμάζοντας τη διοχέτευση και προσθέτοντας νέες εκδόσεις φόρμας. Αυτός ο αγωγός παρέχει μια συντηρήσιμη λύση επειδή κάθε στοιχείο (πρόσληψη, εξαγωγή κειμένου, επεξεργασία κειμένου) είναι ανεξάρτητο και απομονωμένο.
Ορίστε τις προεπιλεγμένες παραμέτρους εισαγωγής για στοίβες CloudFormation
Για να ορίσετε τις παραμέτρους εισόδου για τις στοίβες CloudFormation, ανοίξτε default.properties
σύμφωνα με το params
φάκελο και εισάγετε τον παρακάτω κωδικό:
Αναπτύξτε τη λύση
Για να αναπτύξετε τη διοχέτευσή σας, ολοκληρώστε τα ακόλουθα βήματα:
- Επιλέξτε Εκκίνηση στοίβας:
- Επιλέξτε Επόμενο.
- Καθορίστε τις λεπτομέρειες στοίβας όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης και επιλέξτε Επόμενο.
- Στο Διαμόρφωση επιλογών στοίβας ενότητα, προσθέστε προαιρετικές ετικέτες, δικαιώματα και άλλες σύνθετες ρυθμίσεις.
- Επιλέξτε Επόμενο.
- Ελέγξτε τις λεπτομέρειες της στοίβας και επιλέξτε Αναγνωρίζω ότι το AWS CloudFormation μπορεί να δημιουργήσει πόρους IAM με προσαρμοσμένα ονόματα.
- Επιλέξτε Δημιουργία στοίβας.
Αυτό ξεκινά την ανάπτυξη στοίβας στον λογαριασμό σας AWS.
Μετά την επιτυχή ανάπτυξη της στοίβας, μπορείτε να ξεκινήσετε τη δοκιμή του αγωγού όπως περιγράφεται στην επόμενη ενότητα.
Δοκιμάστε τον αγωγό
Μετά από μια επιτυχημένη ανάπτυξη, ολοκληρώστε τα ακόλουθα βήματα για να δοκιμάσετε τη διοχέτευσή σας:
- Κατεβάστε το δείγματα αρχείων στον υπολογιστή σας.
- Δημιουργία ενός
/uploads
φάκελο (διαμέρισμα) κάτω από τον κάδο εισόδου S3 που δημιουργήθηκε πρόσφατα.
- Δημιουργήστε τους ξεχωριστούς φακέλους (partitions) όπως
jobapplications
υπό/uploads
.
- Ανεβάστε την πρώτη έκδοση της εφαρμογής εργασίας από το φάκελο δείγματος εγγράφων στο
/uploads/jobapplications
χώρισμα.
Όταν ολοκληρωθεί η διοχέτευση, μπορείτε να βρείτε το κλειδί-τιμή που έχει εξαχθεί για αυτήν την έκδοση του εγγράφου /OuputS3/03-textract-parsed-output/jobapplications
στην κονσόλα Amazon S3.
Μπορείτε να το βρείτε και στον πίνακα Athena (applications_data_table
) στο βάση δεδομένων μενού (jobapplicationsdatabase
).
- Ανεβάστε τη δεύτερη έκδοση της εφαρμογής εργασίας από το φάκελο δείγματος εγγράφων στο
/uploads/jobapplications
χώρισμα.
Όταν ολοκληρωθεί η διοχέτευση, μπορείτε να βρείτε το κλειδί-τιμή που έχει εξαχθεί για αυτήν την έκδοση /OuputS3/03-textract-parsed-output/jobapplications
στην κονσόλα Amazon S3.
Μπορείτε να το βρείτε και στον πίνακα Athena (applications_data_table
) στο βάση δεδομένων μενού (jobapplicationsdatabase
).
Τελείωσες! Αναπτύξατε με επιτυχία τη διοχέτευσή σας.
Προσθήκη νέων εκδόσεων φόρμας
Η ενημέρωση της λύσης για μια νέα έκδοση φόρμας είναι απλή—κάθε έκδοση φόρμας χρειάζεται μόνο να ενημερώνεται δοκιμάζοντας τα ερωτήματα στη στοίβα επεξεργασίας.
Αφού πραγματοποιήσετε τις ενημερώσεις, μπορείτε να επανατοποθετήσετε την ενημερωμένη διοχέτευση χρησιμοποιώντας τα API AWS CloudFormation και να επεξεργαστείτε νέα έγγραφα, φτάνοντας στα ίδια τυπικά σημεία δεδομένων για το σχήμα σας με ελάχιστη διακοπή και προσπάθεια ανάπτυξης που απαιτείται για να κάνετε αλλαγές στη διοχέτευση σας. Αυτή η ευελιξία, η οποία επιτυγχάνεται με την αποσύνδεση της συμπεριφοράς ανάλυσης και εξαγωγής και χρησιμοποιώντας τη λειτουργία JSON SerDe στο Athena, καθιστά αυτόν τον αγωγό μια διατηρήσιμη λύση για οποιονδήποτε αριθμό εκδόσεων φόρμας που χρειάζεται να επεξεργαστεί ο οργανισμός σας για τη συλλογή πληροφοριών.
Καθώς εκτελείτε τη λύση απορρόφησης, τα δεδομένα από τις εισερχόμενες φόρμες συμπληρώνονται αυτόματα στο Athena με πληροφορίες σχετικά με τα αρχεία και τις εισόδους που σχετίζονται με αυτές. Όταν τα δεδομένα στις φόρμες σας μετακινούνται από μη δομημένα σε δομημένα δεδομένα, είναι έτοιμα για χρήση για μεταγενέστερες εφαρμογές όπως αναλυτικά στοιχεία, μοντελοποίηση ML και άλλα.
εκκαθάριση
Για να αποφύγετε τις τρέχουσες χρεώσεις, διαγράψτε τους πόρους που δημιουργήσατε ως μέρος αυτής της λύσης όταν τελειώσετε.
- Στην κονσόλα Amazon S3, διαγράψτε μη αυτόματα τους κάδους που δημιουργήσατε ως μέρος της στοίβας CloudFormation.
- Στην κονσόλα AWS CloudFormation, επιλέξτε Στοίβες στο παράθυρο πλοήγησης.
- Επιλέξτε την κύρια στοίβα και επιλέξτε Διαγραφή.
Αυτό διαγράφει αυτόματα τις ένθετες στοίβες.
Συμπέρασμα
Σε αυτήν την ανάρτηση, δείξαμε πώς οι πελάτες που επιδιώκουν να εντοπίσουν και να προσαρμόσουν την επεξεργασία των εγγράφων μπορούν να δημιουργήσουν και να αναπτύξουν μια διοχέτευση ανάλυσης εγγράφων πολλαπλών μορφών που βασίζεται σε συμβάντα, χωρίς διακομιστές, με το Amazon Textract. Αυτός ο αγωγός παρέχει μια διατηρήσιμη λύση, επειδή κάθε στοιχείο (απόρριψη, εξαγωγή κειμένου, επεξεργασία κειμένου) είναι ανεξάρτητο και απομονωμένο, επιτρέποντας στους οργανισμούς να θέσουν σε λειτουργία τις λύσεις τους για την αντιμετώπιση διαφορετικών αναγκών επεξεργασίας.
Δοκιμάστε τη λύση σήμερα και αφήστε τα σχόλιά σας στην ενότητα σχολίων.
Σχετικά με τους Συγγραφείς
Έμιλι Σόουαρντ είναι Επιστήμονας Δεδομένων με AWS Professional Services. Είναι κάτοχος Master of Science με διάκριση στην Τεχνητή Νοημοσύνη από το Πανεπιστήμιο του Εδιμβούργου στη Σκωτία, Ηνωμένο Βασίλειο με έμφαση στην Επεξεργασία Φυσικής Γλώσσας (NLP). Η Emily έχει υπηρετήσει σε εφαρμοσμένους επιστημονικούς και μηχανικούς ρόλους που εστιάζονται στην έρευνα και ανάπτυξη προϊόντων με δυνατότητα AI, στην επιχειρησιακή αριστεία και στη διακυβέρνηση για φόρτους εργασίας AI που εκτελούνται σε οργανισμούς του δημόσιου και του ιδιωτικού τομέα. Συμβάλλει στην καθοδήγηση πελατών ως ανώτερη ομιλήτρια AWS και πρόσφατα, ως συγγραφέας του AWS Well-Architected in the Machine Learning Lens.
Sandeep Singh είναι Επιστήμονας Δεδομένων με AWS Professional Services. Είναι κάτοχος Master of Science στα Πληροφοριακά Συστήματα με επικέντρωση στην τεχνητή νοημοσύνη και την επιστήμη δεδομένων από το San Diego State University (SDSU), Καλιφόρνια. Είναι ένας full stack Data Scientist με ισχυρό υπόβαθρο στην επιστήμη των υπολογιστών και έμπιστος σύμβουλος με εξειδίκευση στο σχεδιασμό συστημάτων AI και ελέγχου. Είναι παθιασμένος με το να βοηθά τους πελάτες να φέρουν τα έργα υψηλού αντίκτυπου προς τη σωστή κατεύθυνση, να τους συμβουλεύει και να τους καθοδηγεί στο ταξίδι τους στο Cloud και να δημιουργεί λύσεις τελευταίας τεχνολογίας με δυνατότητα AI/ML.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-text/
- "
- 100
- Σχετικά
- Λογαριασμός
- επιτευχθεί
- απέναντι
- διεύθυνση
- προηγμένες
- AI
- Υπηρεσίες AI
- Όλα
- Επιτρέποντας
- Amazon
- analytics
- api
- APIs
- Εφαρμογή
- εφαρμογές
- πλησιάζω
- αρχιτεκτονική
- τεχνητός
- τεχνητή νοημοσύνη
- AWS
- φόντο
- σύνορο
- χτίζω
- Κτίριο
- επιχείρηση
- Καλιφόρνια
- Αιτία
- προκλήσεις
- αλλαγή
- φορτία
- Backup
- κωδικός
- σχόλια
- Κοινός
- συστατικό
- Πληροφορική
- συγκέντρωση
- πρόξενος
- περιεχόμενο
- έλεγχος
- Πελάτες
- ημερομηνία
- επιστημονικά δεδομένα
- επιστήμονας δεδομένων
- βάση δεδομένων
- κατέδειξε
- παρατάσσω
- ανάπτυξη
- Υπηρεσίες
- Ανάπτυξη
- διαφορετικές
- Αναστάτωση
- έγγραφα
- Μηχανική
- Συμβάν
- παράδειγμα
- ανατροφοδότηση
- Πεδία
- οικονομικός
- των χρηματοπιστωτικών υπηρεσιών
- Όνομα
- Ευελιξία
- ροή
- επικεντρώθηκε
- Εξής
- μορφή
- μορφή
- μορφές
- πλήρη
- λειτουργικότητα
- διακυβέρνησης
- υγειονομική περίθαλψη
- Ψηλά
- κατέχει
- Πως
- Πώς να
- HTTPS
- Επίπτωση
- βιομηχανίες
- βιομηχανία
- πληροφορίες
- ολοκληρώσεις
- Νοημοσύνη
- IT
- Δουλειά
- Βασίλειο
- Γλώσσα
- μάθηση
- Άδεια
- Μακριά
- μηχανή
- μάθηση μηχανής
- διατηρήσουν
- διαχείριση
- διαχείριση
- χειροκίνητα
- ML
- Φυσικό
- Πλοήγηση
- αριθμός
- προσφορά
- προσφορές
- ανοίξτε
- επιχειρήσεις
- οργανωτικός
- οργανώσεις
- ΑΛΛΑ
- πρακτική
- Προβλέψεις
- πρωταρχικός
- ιδιωτικός
- Πρόβλημα
- διαδικασια μας
- Προϊόν
- επαγγελματίας
- έργα
- παρέχει
- δημόσιο
- έρευνα
- έρευνα και ανάπτυξη
- Υποστηρικτικό υλικό
- απάντησης
- Αποτελέσματα
- τρέξιμο
- τρέξιμο
- Σαν
- Επιστήμη
- Επιστήμονας
- τομέας
- Τομείς
- αναζήτηση
- Χωρίς διακομιστή
- υπηρεσία
- Υπηρεσίες
- σειρά
- τον καθορισμό
- Απλούς
- So
- λύση
- Λύσεις
- SOLVE
- κάτι
- Ομιλητής
- σωρός
- Εκκίνηση
- Κατάσταση
- state-of-the-art
- χώρος στο δίσκο
- κατάστημα
- ισχυρός
- επιτυχής
- Επιτυχώς
- συστήματα
- στόχος
- φόρος
- δοκιμή
- Δοκιμές
- Μέσω
- σήμερα
- εργαλείο
- εργαλεία
- τροχιά
- παραδοσιακός
- Ενωμένος
- Ηνωμένο Βασίλειο
- πανεπιστήμιο
- ενημερώσεις
- χρήση
- αξία
- εντός
- εργαζόμενος
- έτος
- χρόνια