Έξυπνη επεξεργασία εγγράφων με Amazon Textract, Amazon Bedrock και LangChain

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Στη σημερινή εποχή της πληροφορίας, οι τεράστιοι όγκοι δεδομένων που φιλοξενούνται σε αμέτρητα έγγραφα αποτελούν πρόκληση και ευκαιρία για τις επιχειρήσεις. Οι παραδοσιακές μέθοδοι επεξεργασίας εγγράφων συχνά υπολείπονται σε αποτελεσματικότητα και ακρίβεια, αφήνοντας χώρο για καινοτομία, οικονομική αποδοτικότητα και βελτιστοποιήσεις. Η επεξεργασία εγγράφων έχει σημειώσει σημαντικές προόδους με την εμφάνιση της Ευφυούς Επεξεργασίας Εγγράφων (IDP). Με το IDP, οι επιχειρήσεις μπορούν να μετατρέψουν μη δομημένα δεδομένα από διάφορους τύπους εγγράφων σε δομημένες, χρήσιμες πληροφορίες, βελτιώνοντας δραματικά την αποτελεσματικότητα και μειώνοντας τις μη αυτόματες προσπάθειες. Ωστόσο, οι δυνατότητες δεν τελειώνουν εκεί. Με την ενσωμάτωση της γενετικής τεχνητής νοημοσύνης (AI) στη διαδικασία, μπορούμε να ενισχύσουμε περαιτέρω τις δυνατότητες IDP. Το Generative AI όχι μόνο εισάγει βελτιωμένες δυνατότητες στην επεξεργασία εγγράφων, αλλά εισάγει επίσης μια δυναμική προσαρμοστικότητα σε μεταβαλλόμενα μοτίβα δεδομένων. Αυτή η ανάρτηση σας οδηγεί στη συνέργεια του IDP και της γενετικής τεχνητής νοημοσύνης, αποκαλύπτοντας πώς αντιπροσωπεύουν το επόμενο σύνορο στην επεξεργασία εγγράφων.

Συζητάμε το IDP λεπτομερώς στη σειρά μας για την Έξυπνη επεξεργασία εγγράφων με υπηρεσίες AWS AI (Μέρος 1 και Μέρος 2). Σε αυτήν την ανάρτηση, συζητάμε πώς να επεκτείνουμε μια νέα ή υπάρχουσα αρχιτεκτονική IDP με μεγάλα γλωσσικά μοντέλα (LLM). Πιο συγκεκριμένα, συζητάμε πώς μπορούμε να ενσωματωθούμε Textract Amazon με LangChain ως φορτωτής εγγράφων και Θεμέλιο του Αμαζονίου για εξαγωγή δεδομένων από έγγραφα και χρήση παραγωγικών δυνατοτήτων τεχνητής νοημοσύνης στις διάφορες φάσεις IDP.

Το Amazon Textract είναι μια υπηρεσία μηχανικής εκμάθησης (ML) που εξάγει αυτόματα κείμενο, χειρόγραφο και δεδομένα από σαρωμένα έγγραφα. Το Amazon Bedrock είναι μια πλήρως διαχειριζόμενη υπηρεσία που προσφέρει μια επιλογή από μοντέλα θεμελίωσης υψηλής απόδοσης (FM) μέσω εύχρηστων API.

Το παρακάτω διάγραμμα είναι μια αρχιτεκτονική αναφοράς υψηλού επιπέδου που εξηγεί πώς μπορείτε να βελτιώσετε περαιτέρω μια ροή εργασίας IDP με μοντέλα θεμελίωσης. Μπορείτε να χρησιμοποιήσετε LLM σε μία ή σε όλες τις φάσεις του IDP ανάλογα με την περίπτωση χρήσης και το επιθυμητό αποτέλεσμα.

Στις επόμενες ενότητες, εξετάζουμε τον τρόπο με τον οποίο το Amazon Textract ενσωματώνεται σε παραγωγικές ροές εργασίας AI χρησιμοποιώντας το LangChain για την επεξεργασία εγγράφων για καθεμία από αυτές τις συγκεκριμένες εργασίες. Τα μπλοκ κώδικα που παρέχονται εδώ έχουν περικοπεί για λόγους συντομίας. Ανατρέξτε στο δικό μας Αποθετήριο GitHub για λεπτομερή σημειωματάρια Python και μια αναλυτική περιγραφή βήμα προς βήμα.

Η εξαγωγή κειμένου από έγγραφα είναι μια κρίσιμη πτυχή όταν πρόκειται για την επεξεργασία εγγράφων με LLM. Μπορείτε να χρησιμοποιήσετε το Amazon Textract για να εξαγάγετε μη δομημένο ακατέργαστο κείμενο από έγγραφα και να διατηρήσετε τα αρχικά ημιδομημένα ή δομημένα αντικείμενα όπως ζεύγη κλειδιών-τιμών και πίνακες που υπάρχουν στο έγγραφο. Τα πακέτα εγγράφων όπως οι απαιτήσεις υγειονομικής περίθαλψης και ασφάλισης ή οι υποθήκες αποτελούνται από πολύπλοκες φόρμες που περιέχουν πολλές πληροφορίες σε δομημένες, ημιδομημένες και μη δομημένες μορφές. Η εξαγωγή εγγράφων είναι ένα σημαντικό βήμα εδώ, επειδή οι LLM επωφελούνται από το πλούσιο περιεχόμενο για τη δημιουργία πιο ακριβών και σχετικών απαντήσεων, οι οποίες διαφορετικά θα μπορούσαν να επηρεάσουν την ποιότητα της παραγωγής των LLM.

Το LangChain είναι ένα ισχυρό πλαίσιο ανοιχτού κώδικα για ενσωμάτωση με LLMs. Τα LLM γενικά είναι ευέλικτα, αλλά μπορεί να δυσκολεύονται με εργασίες που αφορούν συγκεκριμένους τομείς όπου χρειάζονται βαθύτερο πλαίσιο και αποχρώσεις. Το LangChain εξουσιοδοτεί τους προγραμματιστές σε τέτοια σενάρια να δημιουργούν πράκτορες που μπορούν να αναλύουν πολύπλοκες εργασίες σε μικρότερες υπο-εργασίες. Οι δευτερεύουσες εργασίες μπορούν στη συνέχεια να εισαγάγουν το πλαίσιο και τη μνήμη στα LLM συνδέοντας και αλυσοδένοντας τις προτροπές LLM.

Προσφορές LangChain φορτωτές εγγράφων που μπορεί να φορτώσει και να μετατρέψει δεδομένα από έγγραφα. Μπορείτε να τα χρησιμοποιήσετε για τη δομή εγγράφων σε προτιμώμενες μορφές που μπορούν να υποβληθούν σε επεξεργασία από LLM. ο AmazonTextractPDFLoader είναι ένας τύπος φορτωτή εγγράφων που παρέχει γρήγορο τρόπο αυτοματοποίησης της επεξεργασίας εγγράφων χρησιμοποιώντας το Amazon Textract σε συνδυασμό με το LangChain. Για περισσότερες λεπτομέρειες σχετικά με AmazonTextractPDFLoader, αναφέρομαι στο LangChain τεκμηρίωση. Για να χρησιμοποιήσετε το πρόγραμμα φόρτωσης εγγράφων Amazon Textract, ξεκινήστε εισάγοντάς το από τη βιβλιοθήκη LangChain:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Μπορείτε επίσης να αποθηκεύσετε έγγραφα στο Amazon S3 και να ανατρέξετε σε αυτά χρησιμοποιώντας το μοτίβο διεύθυνσης URL s3://, όπως εξηγείται στο Πρόσβαση σε κάδο χρησιμοποιώντας S3://και περάστε αυτήν τη διαδρομή S3 στο πρόγραμμα φόρτωσης PDF του Amazon Textract:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Ένα πολυσέλιδο έγγραφο θα περιέχει πολλές σελίδες κειμένου, το οποίο στη συνέχεια μπορεί να προσπελαστεί μέσω του αντικειμένου έγγραφα, το οποίο είναι μια λίστα σελίδων. Ο ακόλουθος κώδικας περιηγείται στις σελίδες του αντικειμένου εγγράφων και εκτυπώνει το κείμενο του εγγράφου, το οποίο είναι διαθέσιμο μέσω του page_content Χαρακτηριστικό:

print(len(documents)) for document in documents: print(document.page_content)

Το Amazon Comprehend και τα LLM μπορούν να χρησιμοποιηθούν αποτελεσματικά για ταξινόμηση εγγράφων. Το Amazon Comprehend είναι μια υπηρεσία επεξεργασίας φυσικής γλώσσας (NLP) που χρησιμοποιεί ML για την εξαγωγή πληροφοριών από κείμενο. Το Amazon Comprehend υποστηρίζει επίσης εκπαίδευση μοντέλων προσαρμοσμένης ταξινόμησης με επίγνωση διάταξης σε έγγραφα όπως αρχεία PDF, Word και μορφές εικόνας. Για περισσότερες πληροφορίες σχετικά με τη χρήση του ταξινομητή εγγράφων Amazon Comprehend, ανατρέξτε στο Ο ταξινομητής εγγράφων Amazon Comprehend προσθέτει υποστήριξη διάταξης για μεγαλύτερη ακρίβεια.

Όταν συνδυάζεται με LLM, η ταξινόμηση εγγράφων γίνεται μια ισχυρή προσέγγιση για τη διαχείριση μεγάλου όγκου εγγράφων. Τα LLM είναι χρήσιμα στην ταξινόμηση εγγράφων επειδή μπορούν να αναλύσουν το κείμενο, τα μοτίβα και τα συμφραζόμενα στοιχεία στο έγγραφο χρησιμοποιώντας την κατανόηση φυσικής γλώσσας. Μπορείτε επίσης να τα ρυθμίσετε με ακρίβεια για συγκεκριμένες κατηγορίες εγγράφων. Όταν ένας νέος τύπος εγγράφου που εισάγεται στη διοχέτευση IDP χρειάζεται ταξινόμηση, το LLM μπορεί να επεξεργαστεί κείμενο και να κατηγοριοποιήσει το έγγραφο με ένα σύνολο κλάσεων. Το παρακάτω είναι ένα δείγμα κώδικα που χρησιμοποιεί το πρόγραμμα φόρτωσης εγγράφων LangChain που υποστηρίζεται από το Amazon Textract για την εξαγωγή του κειμένου από το έγγραφο και τη χρήση του για την ταξινόμηση του εγγράφου. Χρησιμοποιούμε το Anthropic Claude v2 μοντέλο μέσω του Amazon Bedrock για την εκτέλεση της ταξινόμησης.

Στο παρακάτω παράδειγμα, αρχικά εξάγουμε κείμενο από μια αναφορά εξιτηρίου ασθενούς και χρησιμοποιούμε ένα LLM για να το ταξινομήσουμε, δίνοντας μια λίστα με τρεις διαφορετικούς τύπους εγγράφων—DISCHARGE_SUMMARY, RECEIPT, να PRESCRIPTION. Το παρακάτω στιγμιότυπο οθόνης δείχνει την αναφορά μας.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Η περίληψη περιλαμβάνει τη συμπύκνωση ενός δεδομένου κειμένου ή εγγράφου σε μια συντομότερη έκδοση, διατηρώντας παράλληλα τις βασικές πληροφορίες του. Αυτή η τεχνική είναι επωφελής για την αποτελεσματική ανάκτηση πληροφοριών, η οποία επιτρέπει στους χρήστες να κατανοήσουν γρήγορα τα βασικά σημεία ενός εγγράφου χωρίς να διαβάσουν ολόκληρο το περιεχόμενο. Αν και το Amazon Textract δεν εκτελεί απευθείας σύνοψη κειμένου, παρέχει τις θεμελιώδεις δυνατότητες εξαγωγής ολόκληρου του κειμένου από έγγραφα. Αυτό το εξαγόμενο κείμενο χρησιμεύει ως είσοδος στο μοντέλο μας LLM για την εκτέλεση εργασιών σύνοψης κειμένου.

Χρησιμοποιώντας το ίδιο δείγμα αναφοράς εκφόρτισης, χρησιμοποιούμε AmazonTextractPDFLoader για να εξαγάγετε κείμενο από αυτό το έγγραφο. Όπως και πριν, χρησιμοποιούμε το μοντέλο Claude v2 μέσω του Amazon Bedrock και το αρχικοποιούμε με μια προτροπή που περιέχει τις οδηγίες για το τι πρέπει να κάνετε με το κείμενο (σε αυτήν την περίπτωση, σύνοψη). Τέλος, εκτελούμε την αλυσίδα LLM περνώντας το εξαγόμενο κείμενο από το πρόγραμμα φόρτωσης εγγράφων. Αυτό εκτελεί μια ενέργεια συμπερασμάτων στο LLM με την προτροπή που αποτελείται από τις οδηγίες για σύνοψη και το κείμενο του εγγράφου επισημαίνεται με Document. Δείτε τον ακόλουθο κώδικα:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Ο κώδικας δημιουργεί τη σύνοψη μιας συνοπτικής αναφοράς εξιτηρίου ασθενούς:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

Το προηγούμενο παράδειγμα χρησιμοποιούσε ένα έγγραφο μιας σελίδας για την εκτέλεση της σύνοψης. Ωστόσο, πιθανότατα θα ασχοληθείτε με έγγραφα που περιέχουν πολλές σελίδες που χρειάζονται περίληψη. Ένας συνηθισμένος τρόπος για τη σύνοψη σε πολλές σελίδες είναι να δημιουργείτε πρώτα περιλήψεις σε μικρότερα κομμάτια κειμένου και στη συνέχεια να συνδυάζετε τις μικρότερες περιλήψεις για να λάβετε μια τελική περίληψη του εγγράφου. Σημειώστε ότι αυτή η μέθοδος απαιτεί πολλαπλές κλήσεις στο LLM. Η λογική για αυτό μπορεί να δημιουργηθεί εύκολα. Ωστόσο, το LangChain παρέχει μια ενσωματωμένη αλυσίδα σύνοψης που μπορεί να συνοψίσει μεγάλα κείμενα (από πολυσέλιδα έγγραφα). Η σύνοψη μπορεί να γίνει είτε μέσω map_reduce ή stuff επιλογές, οι οποίες είναι διαθέσιμες ως επιλογές για τη διαχείριση των πολλαπλών κλήσεων στο LLM. Στο παρακάτω παράδειγμα, χρησιμοποιούμε map_reduce για να συνοψίσετε ένα πολυσέλιδο έγγραφο. Το παρακάτω σχήμα δείχνει τη ροή εργασίας μας.

Ας ξεκινήσουμε πρώτα με την εξαγωγή του εγγράφου και να δούμε τον συνολικό αριθμό διακριτικών ανά σελίδα και τον συνολικό αριθμό σελίδων:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Στη συνέχεια, χρησιμοποιούμε το ενσωματωμένο LangChain load_summarize_chain για να συνοψίσουμε ολόκληρο το έγγραφο:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Τυποποίηση και Q&A

Σε αυτήν την ενότητα, συζητάμε εργασίες τυποποίησης και Q&A.

Τυποποίηση

Η τυποποίηση εξόδου είναι μια εργασία δημιουργίας κειμένου όπου τα LLM χρησιμοποιούνται για να παρέχουν μια συνεπή μορφοποίηση του κειμένου εξόδου. Αυτή η εργασία είναι ιδιαίτερα χρήσιμη για την αυτοματοποίηση της εξαγωγής βασικών οντοτήτων που απαιτεί την ευθυγράμμιση της εξόδου με τις επιθυμητές μορφές. Για παράδειγμα, μπορούμε να ακολουθήσουμε τις άμεσες βέλτιστες πρακτικές μηχανικής για να προσαρμόσουμε με ακρίβεια ένα LLM για να μορφοποιήσουμε τις ημερομηνίες σε μορφή ΜΜ/ΗΗ/ΕΕΕΕ, η οποία μπορεί να είναι συμβατή με μια στήλη DATE βάσης δεδομένων. Το ακόλουθο μπλοκ κώδικα δείχνει ένα παράδειγμα του τρόπου με τον οποίο γίνεται αυτό χρησιμοποιώντας ένα LLM και μια άμεση μηχανική. Όχι μόνο τυποποιούμε τη μορφή εξόδου για τις τιμές ημερομηνίας, αλλά προτρέπουμε επίσης το μοντέλο να δημιουργήσει την τελική έξοδο σε μορφή JSON, ώστε να είναι εύκολα αναλώσιμη στις κατάντη εφαρμογές μας. Χρησιμοποιούμε Γλώσσα έκφρασης LangChain (LCEL) για να συνδέσετε δύο ενέργειες. Η πρώτη ενέργεια ζητά από το LLM να δημιουργήσει μια έξοδο μορφής JSON με μόνο τις ημερομηνίες από το έγγραφο. Η δεύτερη ενέργεια λαμβάνει την έξοδο JSON και τυποποιεί τη μορφή ημερομηνίας. Λάβετε υπόψη ότι αυτή η ενέργεια δύο βημάτων μπορεί επίσης να εκτελεστεί σε ένα μόνο βήμα με την κατάλληλη άμεση μηχανική, όπως θα δούμε στην κανονικοποίηση και τη διαμόρφωση προτύπων.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Η έξοδος του προηγούμενου δείγματος κώδικα είναι μια δομή JSON με ημερομηνίες 07/09/2020 και 08/09/2020, οι οποίες έχουν τη μορφή ΗΗ/ΜΜ/ΕΕΕΕ και είναι η ημερομηνία εισαγωγής και εξόδου του ασθενούς από το νοσοκομείο, αντίστοιχα, σύμφωνα με στη συνοπτική έκθεση απαλλαγής.

Q&A με Ανάκτηση Αυξημένης γενιάς

Τα LLMs είναι γνωστό ότι διατηρούν πραγματικές πληροφορίες, που συχνά αναφέρονται ως κοσμογνωσία ή κοσμοθεωρία τους. Όταν ρυθμιστούν με ακρίβεια, μπορούν να παράγουν αποτελέσματα τελευταίας τεχνολογίας. Ωστόσο, υπάρχουν περιορισμοί ως προς το πόσο αποτελεσματικά ένα LLM μπορεί να έχει πρόσβαση και να χειριστεί αυτή τη γνώση. Ως αποτέλεσμα, σε εργασίες που βασίζονται σε μεγάλο βαθμό σε συγκεκριμένες γνώσεις, η απόδοσή τους μπορεί να μην είναι η βέλτιστη για ορισμένες περιπτώσεις χρήσης. Για παράδειγμα, σε σενάρια Q&A, είναι σημαντικό για το μοντέλο να τηρεί αυστηρά το πλαίσιο που παρέχεται στο έγγραφο χωρίς να βασίζεται αποκλειστικά στις παγκόσμιες γνώσεις του. Η απόκλιση από αυτό μπορεί να οδηγήσει σε ψευδείς δηλώσεις, ανακρίβειες ή ακόμα και λανθασμένες απαντήσεις. Η πιο συχνά χρησιμοποιούμενη μέθοδος για την αντιμετώπιση αυτού του προβλήματος είναι γνωστή ως Ανάκτηση επαυξημένης γενιάς (ΚΟΥΡΕΛΙ). Αυτή η προσέγγιση συνέργει τα δυνατά σημεία τόσο των μοντέλων ανάκτησης όσο και των μοντέλων γλώσσας, ενισχύοντας την ακρίβεια και την ποιότητα των απαντήσεων που παράγονται.

Τα LLM μπορούν επίσης να επιβάλλουν περιορισμούς διακριτικών λόγω των περιορισμών μνήμης τους και των περιορισμών του υλικού στο οποίο εκτελούνται. Για τον χειρισμό αυτού του προβλήματος, χρησιμοποιούνται τεχνικές όπως το chunking για τη διαίρεση μεγάλων εγγράφων σε μικρότερα τμήματα που ταιριάζουν στα όρια συμβολικών των LLM. Από την άλλη πλευρά, οι ενσωματώσεις χρησιμοποιούνται στο NLP κυρίως για να συλλάβουν τη σημασιολογική σημασία των λέξεων και τις σχέσεις τους με άλλες λέξεις σε έναν χώρο υψηλών διαστάσεων. Αυτές οι ενσωματώσεις μετατρέπουν τις λέξεις σε διανύσματα, επιτρέποντας στα μοντέλα να επεξεργάζονται και να κατανοούν αποτελεσματικά τα δεδομένα κειμένου. Κατανοώντας τις σημασιολογικές αποχρώσεις μεταξύ λέξεων και φράσεων, οι ενσωματώσεις επιτρέπουν στα LLM να παράγουν συνεκτικά και σχετικά με τα συμφραζόμενα αποτελέσματα. Σημειώστε τους ακόλουθους βασικούς όρους:

Τσούνκιν – Αυτή η διαδικασία αναλύει μεγάλες ποσότητες κειμένου από έγγραφα σε μικρότερα, ουσιαστικά κομμάτια κειμένου.
embeddings – Αυτοί είναι διανυσματικοί μετασχηματισμοί σταθερών διαστάσεων κάθε κομματιού που διατηρούν τις σημασιολογικές πληροφορίες από τα κομμάτια. Αυτές οι ενσωματώσεις στη συνέχεια φορτώνονται σε μια διανυσματική βάση δεδομένων.
Διανυσματική βάση δεδομένων – Αυτή είναι μια βάση δεδομένων με ενσωματώσεις λέξεων ή διανύσματα που αντιπροσωπεύουν το πλαίσιο των λέξεων. Λειτουργεί ως πηγή γνώσης που βοηθά τις εργασίες NLP σε αγωγούς επεξεργασίας εγγράφων. Το πλεονέκτημα της διανυσματικής βάσης δεδομένων εδώ είναι ότι επιτρέπει μόνο το απαραίτητο πλαίσιο να παρέχεται στους LLM κατά τη δημιουργία κειμένου, όπως εξηγούμε στην επόμενη ενότητα.

Το RAG χρησιμοποιεί τη δύναμη των ενσωματώσεων για την κατανόηση και την ανάκτηση σχετικών τμημάτων εγγράφων κατά τη φάση ανάκτησης. Με αυτόν τον τρόπο, το RAG μπορεί να λειτουργήσει εντός των συμβολικών περιορισμών των LLM, διασφαλίζοντας ότι επιλέγονται οι πιο σχετικές πληροφορίες για παραγωγή, με αποτέλεσμα πιο ακριβή και σχετικά με τα συμφραζόμενα αποτελέσματα.

Το παρακάτω διάγραμμα απεικονίζει την ενσωμάτωση αυτών των τεχνικών για τη δημιουργία της εισόδου στα LLMs, ενισχύοντας την κατανόησή τους από τα συμφραζόμενα και επιτρέποντας πιο σχετικές απαντήσεις εντός του πλαισίου. Μια προσέγγιση περιλαμβάνει αναζήτηση ομοιότητας, χρησιμοποιώντας τόσο μια διανυσματική βάση δεδομένων όσο και την τμηματοποίηση. Η διανυσματική βάση δεδομένων αποθηκεύει ενσωματώσεις που αντιπροσωπεύουν σημασιολογικές πληροφορίες και η τμηματοποίηση διαιρεί το κείμενο σε διαχειρίσιμες ενότητες. Χρησιμοποιώντας αυτό το πλαίσιο από την αναζήτηση ομοιότητας, τα LLM μπορούν να εκτελέσουν εργασίες όπως η απάντηση σε ερωτήσεις και λειτουργίες για συγκεκριμένους τομείς, όπως η ταξινόμηση και ο εμπλουτισμός.

Για αυτήν την ανάρτηση, χρησιμοποιούμε μια προσέγγιση βασισμένη σε RAG για την εκτέλεση ερωτήσεων και απαντήσεων σε περιβάλλον με έγγραφα. Στο ακόλουθο δείγμα κώδικα, εξάγουμε κείμενο από ένα έγγραφο και στη συνέχεια χωρίζουμε το έγγραφο σε μικρότερα κομμάτια κειμένου. Απαιτείται τεμαχισμός επειδή ενδέχεται να έχουμε μεγάλα έγγραφα πολλών σελίδων και τα LLM μας μπορεί να έχουν όρια διακριτικών. Αυτά τα κομμάτια στη συνέχεια φορτώνονται στη διανυσματική βάση δεδομένων για την εκτέλεση αναζήτησης ομοιότητας στα επόμενα βήματα. Στο παρακάτω παράδειγμα, χρησιμοποιούμε το μοντέλο Amazon Titan Embed Text v1, το οποίο εκτελεί τις διανυσματικές ενσωματώσεις των τμημάτων του εγγράφου:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Ο κώδικας δημιουργεί ένα σχετικό πλαίσιο για το LLM χρησιμοποιώντας τα κομμάτια κειμένου που επιστρέφονται από την ενέργεια αναζήτησης ομοιότητας από τη διανυσματική βάση δεδομένων. Για αυτό το παράδειγμα, χρησιμοποιούμε έναν ανοιχτό κώδικα Κατάστημα διανυσμάτων FAISS ως δείγμα διανυσματικής βάσης δεδομένων για την αποθήκευση διανυσματικών ενσωματώσεων κάθε κομματιού κειμένου. Στη συνέχεια ορίζουμε τη διανυσματική βάση δεδομένων ως α LangChain retriever, το οποίο περνά στο RetrievalQA αλυσίδα. Αυτό εκτελεί εσωτερικά ένα ερώτημα αναζήτησης ομοιότητας στη διανυσματική βάση δεδομένων που επιστρέφει τα κορυφαία n (όπου n=3 στο παράδειγμά μας) κομμάτια κειμένου που σχετίζονται με την ερώτηση. Τέλος, η αλυσίδα LLM εκτελείται με το σχετικό πλαίσιο (μια ομάδα σχετικών τμημάτων κειμένου) και την ερώτηση στην οποία πρέπει να απαντήσει το LLM. Για μια αναλυτική περιγραφή του κώδικα Q&A με το RAG, ανατρέξτε στο σημειωματάριο Python στο GitHub.

Ως εναλλακτική λύση στο FAISS, μπορείτε επίσης να χρησιμοποιήσετε Δυνατότητες διανυσματικής βάσης δεδομένων Amazon OpenSearch Service, Amazon Relational Database Service (Amazon RDS) για PostgreSQL με pgvector επέκταση ως διανυσματικές βάσεις δεδομένων ή βάση δεδομένων Chroma ανοιχτού κώδικα.

Ερωτήσεις και απαντήσεις με δεδομένα σε πίνακα

Τα δεδομένα σε πίνακα εντός εγγράφων μπορεί να είναι δύσκολο να επεξεργαστούν τα LLM λόγω της δομικής πολυπλοκότητάς τους. Το Amazon Textract μπορεί να επαυξηθεί με LLM επειδή επιτρέπει την εξαγωγή πινάκων από έγγραφα σε ένθετη μορφή στοιχείων όπως σελίδα, πίνακας και κελιά. Η εκτέλεση Q&A με δεδομένα σε πίνακα είναι μια διαδικασία πολλαπλών βημάτων και μπορεί να επιτευχθεί μέσω αυτοερώτηση. Ακολουθεί μια επισκόπηση των βημάτων:

Εξαγωγή πινάκων από έγγραφα χρησιμοποιώντας το Amazon Textract. Με το Amazon Textract, η δομή του πίνακα (γραμμές, στήλες, κεφαλίδες) μπορεί να εξαχθεί από ένα έγγραφο.
Αποθηκεύστε τα δεδομένα σε πίνακα σε μια διανυσματική βάση δεδομένων μαζί με πληροφορίες μεταδεδομένων, όπως τα ονόματα των κεφαλίδων και την περιγραφή κάθε κεφαλίδας.
Χρησιμοποιήστε την προτροπή για να δημιουργήσετε ένα δομημένο ερώτημα, χρησιμοποιώντας ένα LLM, για να εξαγάγετε τα δεδομένα από τον πίνακα.
Χρησιμοποιήστε το ερώτημα για να εξαγάγετε τα σχετικά δεδομένα πίνακα από τη διανυσματική βάση δεδομένων.

Για παράδειγμα, σε ένα αντίγραφο κίνησης τράπεζας, με δεδομένη την προτροπή "Ποιες είναι οι συναλλαγές με καταθέσεις άνω των 1000 $", το LLM θα ολοκληρώσει τα ακόλουθα βήματα:

Δημιουργήστε ένα ερώτημα, όπως π.χ “Query: transactions” , “filter: greater than (Deposit$)”.
Μετατρέψτε το ερώτημα σε δομημένο ερώτημα.
Εφαρμόστε το δομημένο ερώτημα στη διανυσματική βάση δεδομένων όπου είναι αποθηκευμένα τα δεδομένα του πίνακα μας.

Για ένα βήμα προς βήμα ενημερωτικό δείγμα κώδικα Q&A με πίνακα, ανατρέξτε στο σημειωματάριο Python στο GitHub.

Πρότυπο και κανονικοποιήσεις

Σε αυτήν την ενότητα, εξετάζουμε πώς να χρησιμοποιήσουμε τεχνικές άμεσης μηχανικής και τον ενσωματωμένο μηχανισμό του LangChain για τη δημιουργία μιας εξόδου με εξαγωγές από ένα έγγραφο σε ένα καθορισμένο σχήμα. Πραγματοποιούμε επίσης κάποια τυποποίηση στα εξαγόμενα δεδομένα, χρησιμοποιώντας τις τεχνικές που συζητήθηκαν προηγουμένως. Ξεκινάμε ορίζοντας ένα πρότυπο για την επιθυμητή έξοδο. Αυτό θα χρησιμεύσει ως σχήμα και θα ενσωματώσει τις λεπτομέρειες για κάθε οντότητα που θέλουμε να εξαγάγουμε από το κείμενο του εγγράφου.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Σημειώστε ότι για καθεμία από τις οντότητες, χρησιμοποιούμε την περιγραφή για να εξηγήσουμε τι είναι αυτή η οντότητα για να βοηθήσουμε το LLM να εξάγει την τιμή από το κείμενο του εγγράφου. Στο ακόλουθο δείγμα κώδικα, χρησιμοποιούμε αυτό το πρότυπο για να δημιουργήσουμε την προτροπή μας για το LLM μαζί με το κείμενο που εξάγεται από το έγγραφο χρησιμοποιώντας AmazonTextractPDFLoader και στη συνέχεια εκτελέστε συμπέρασμα με το μοντέλο:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Όπως μπορείτε να δείτε, η {keys} μέρος της προτροπής είναι τα κλειδιά από το πρότυπό μας και το {details} είναι τα κλειδιά μαζί με την περιγραφή τους. Σε αυτήν την περίπτωση, δεν ζητάμε ρητά στο μοντέλο τη μορφή της εξόδου, εκτός από το να καθορίζεται στην οδηγία για τη δημιουργία της εξόδου σε μορφή JSON. Αυτό λειτουργεί ως επί το πλείστον. Ωστόσο, επειδή η έξοδος από τα LLM είναι μη ντετερμινιστική δημιουργία κειμένου, θέλουμε να καθορίσουμε ρητά τη μορφή ως μέρος της εντολής στη γραμμή εντολών. Για να το λύσουμε αυτό, μπορούμε να χρησιμοποιήσουμε το LangChain's αναλυτής δομημένης εξόδου ενότητα για να επωφεληθείτε από την αυτοματοποιημένη μηχανική προτροπής που βοηθά στη μετατροπή του προτύπου μας σε γραμμή εντολών μορφοποίησης. Χρησιμοποιούμε το πρότυπο που ορίστηκε προηγουμένως για να δημιουργήσουμε τη γραμμή εντολών μορφοποίησης ως εξής:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

Η format_instructions η μεταβλητή κρατά τώρα τη γραμμή εντολών μορφής:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Στη συνέχεια χρησιμοποιούμε αυτήν τη μεταβλητή στην αρχική μας προτροπή ως οδηγία προς το LLM, έτσι ώστε να εξάγει και να μορφοποιεί την έξοδο στο επιθυμητό σχήμα κάνοντας μια μικρή τροποποίηση στην προτροπή μας:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Μέχρι στιγμής, έχουμε εξαγάγει μόνο τα δεδομένα από το έγγραφο σε ένα επιθυμητό σχήμα. Ωστόσο, πρέπει ακόμη να πραγματοποιήσουμε κάποια τυποποίηση. Για παράδειγμα, θέλουμε η ημερομηνία εισαγωγής και η ημερομηνία εξόδου του ασθενούς να εξαχθούν σε μορφή ΗΗ/ΜΜ/ΕΕΕΕ. Σε αυτή την περίπτωση, αυξάνουμε το description του κλειδιού με την οδηγία μορφοποίησης:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Ανατρέξτε στο σημειωματάριο Python στο GitHub για μια πλήρη περιγραφή και επεξήγηση βήμα προς βήμα.

Ορθογραφικοί έλεγχοι και διορθώσεις

Τα LLM έχουν επιδείξει αξιοσημείωτες ικανότητες στην κατανόηση και τη δημιουργία κειμένου που μοιάζει με άνθρωπο. Μία από τις λιγότερο συζητημένες αλλά εξαιρετικά χρήσιμες εφαρμογές των LLM είναι οι δυνατότητές τους σε γραμματικούς ελέγχους και διόρθωση προτάσεων σε έγγραφα. Σε αντίθεση με τους παραδοσιακούς ελεγκτές γραμματικής που βασίζονται σε ένα σύνολο προκαθορισμένων κανόνων, τα LLM χρησιμοποιούν μοτίβα που έχουν εντοπίσει από τεράστιες ποσότητες δεδομένων κειμένου για να προσδιορίσουν τι συνιστά σωστή ή άπταιστη γλώσσα. Αυτό σημαίνει ότι μπορούν να ανιχνεύσουν αποχρώσεις, πλαίσιο και λεπτές αποχρώσεις που μπορεί να χάνουν τα συστήματα που βασίζονται σε κανόνες.

Φανταστείτε το κείμενο που εξάγεται από μια περίληψη εξιτηρίου ασθενούς που λέει «Ο ασθενής Jon Doe, ο οποίος εισήχθη με βαριά πνευμονία, έχει παρουσιάσει σημαντική βελτίωση και μπορεί να πάρει εξιτήριο με ασφάλεια. Οι συνεχίσεις έχουν προγραμματιστεί για την επόμενη εβδομάδα." Ένας παραδοσιακός ορθογραφικός έλεγχος μπορεί να αναγνωρίσει ως λάθη τα «παραδεκτά», «πνευμονία», «βελτίωση» και «nex». Ωστόσο, το πλαίσιο αυτών των σφαλμάτων θα μπορούσε να οδηγήσει σε περαιτέρω λάθη ή σε γενικές προτάσεις. Ένα LLM, εξοπλισμένο με την εκτεταμένη εκπαίδευσή του, θα μπορούσε να προτείνει: «Ο ασθενής John Doe, ο οποίος εισήχθη με σοβαρή πνευμονία, έχει δείξει σημαντική βελτίωση και μπορεί να πάρει εξιτήριο με ασφάλεια. Η παρακολούθηση έχει προγραμματιστεί για την επόμενη εβδομάδα».

Το παρακάτω είναι ένα κακώς χειρόγραφο δείγμα εγγράφου με το ίδιο κείμενο όπως εξηγήθηκε προηγουμένως.

Εξάγουμε το έγγραφο με ένα πρόγραμμα φόρτωσης εγγράφων Amazon Textract και, στη συνέχεια, αναθέτουμε στο LLM, μέσω άμεσης μηχανικής, να διορθώσει το εξαγόμενο κείμενο για να διορθώσει τυχόν ορθογραφικά ή/και γραμματικά λάθη:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Η έξοδος του προηγούμενου κώδικα δείχνει το αρχικό κείμενο που εξήχθη από το πρόγραμμα φόρτωσης εγγράφων ακολουθούμενο από το διορθωμένο κείμενο που δημιουργήθηκε από το LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Λάβετε υπόψη ότι όσο ισχυρά κι αν είναι τα LLM, είναι σημαντικό να βλέπετε τις προτάσεις τους ως ακριβώς αυτό—προτάσεις. Αν και αποτυπώνουν εντυπωσιακά καλά τις περιπλοκές της γλώσσας, δεν είναι αλάνθαστοι. Ορισμένες προτάσεις ενδέχεται να αλλάξουν το επιδιωκόμενο νόημα ή τον τόνο του αρχικού κειμένου. Ως εκ τούτου, είναι σημαντικό για τους ανθρώπινους αναθεωρητές να χρησιμοποιούν τις διορθώσεις που δημιουργούνται από το LLM ως οδηγό, όχι ως απόλυτο. Η συνεργασία της ανθρώπινης διαίσθησης με τις δυνατότητες LLM υπόσχεται ένα μέλλον όπου η γραπτή μας επικοινωνία δεν θα είναι απλώς χωρίς σφάλματα, αλλά και πιο πλούσια και πιο λεπτή.

Συμπέρασμα

Το Generative AI αλλάζει τον τρόπο με τον οποίο μπορείτε να επεξεργάζεστε έγγραφα με το IDP για να αντλήσετε πληροφορίες. Στο ταχυδρομείο Βελτίωση της έξυπνης επεξεργασίας εγγράφων AWS με τεχνητή νοημοσύνη, συζητήσαμε τα διάφορα στάδια του αγωγού και τον τρόπο με τον οποίο ο πελάτης AWS Ricoh ενισχύει τον αγωγό IDP του με LLM. Σε αυτήν την ανάρτηση, συζητήσαμε διάφορους μηχανισμούς ενίσχυσης της ροής εργασίας IDP με LLM μέσω του Amazon Bedrock, του Amazon Textract και του δημοφιλούς πλαισίου LangChain. Μπορείτε να ξεκινήσετε με το νέο πρόγραμμα φόρτωσης εγγράφων Amazon Textract με το LangChain σήμερα χρησιμοποιώντας τα δείγματα σημειωματάριων που είναι διαθέσιμα στο Αποθετήριο GitHub. Για περισσότερες πληροφορίες σχετικά με την εργασία με το Generative AI στο AWS, ανατρέξτε στο Ανακοίνωση νέων εργαλείων για δημιουργία με Generative AI στο AWS.

Σχετικά με τους Συγγραφείς

Σονάλι Σάχου πρωτοστατεί στην έξυπνη επεξεργασία εγγράφων με την ομάδα υπηρεσιών AI/ML στο AWS. Είναι συγγραφέας, ηγέτης σκέψης και παθιασμένη τεχνολόγος. Ο βασικός τομέας εστίασής της είναι η AI και η ML και μιλάει συχνά σε συνέδρια και συναντήσεις AI και ML σε όλο τον κόσμο. Διαθέτει τόσο εύρος όσο και βάθος εμπειρίας στην τεχνολογία και τη βιομηχανία τεχνολογίας, με τεχνογνωσία στον κλάδο της υγείας, του χρηματοπιστωτικού τομέα και της ασφάλισης.

Έξυπνη επεξεργασία εγγράφων με το Amazon Textract, το Amazon Bedrock και το LangChain | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Anjan Biswas είναι Ανώτερος Αρχιτέκτονας Λύσεων Υπηρεσιών AI με έμφαση στο AI/ML και την ανάλυση δεδομένων. Ο Anjan είναι μέρος της παγκόσμιας ομάδας υπηρεσιών AI και συνεργάζεται με πελάτες για να τους βοηθήσει να κατανοήσουν και να αναπτύξουν λύσεις σε επιχειρηματικά προβλήματα με AI και ML. Η Anjan έχει πάνω από 14 χρόνια εμπειρίας σε συνεργασία με παγκόσμιους οργανισμούς εφοδιαστικής αλυσίδας, κατασκευής και λιανικής και βοηθά ενεργά τους πελάτες να ξεκινήσουν και να επεκτείνουν τις υπηρεσίες AWS AI.

Έξυπνη επεξεργασία εγγράφων με το Amazon Textract, το Amazon Bedrock και το LangChain | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Τσινμέι Ρέιν είναι Αρχιτέκτονας Ειδικών Λύσεων AI/ML στην Amazon Web Services. Είναι παθιασμένη με τα εφαρμοσμένα μαθηματικά και τη μηχανική μάθηση. Επικεντρώνεται στο σχεδιασμό έξυπνης επεξεργασίας εγγράφων και λύσεων τεχνητής νοημοσύνης που δημιουργούνται για πελάτες AWS. Εκτός δουλειάς, της αρέσει να χορεύει salsa και bachata.