Στη σημερινή εποχή της πληροφορίας, οι τεράστιοι όγκοι δεδομένων που φιλοξενούνται σε αμέτρητα έγγραφα αποτελούν πρόκληση και ευκαιρία για τις επιχειρήσεις. Οι παραδοσιακές μέθοδοι επεξεργασίας εγγράφων συχνά υπολείπονται σε αποτελεσματικότητα και ακρίβεια, αφήνοντας χώρο για καινοτομία, οικονομική αποδοτικότητα και βελτιστοποιήσεις. Η επεξεργασία εγγράφων έχει σημειώσει σημαντικές προόδους με την εμφάνιση της Ευφυούς Επεξεργασίας Εγγράφων (IDP). Με το IDP, οι επιχειρήσεις μπορούν να μετατρέψουν μη δομημένα δεδομένα από διάφορους τύπους εγγράφων σε δομημένες, χρήσιμες πληροφορίες, βελτιώνοντας δραματικά την αποτελεσματικότητα και μειώνοντας τις μη αυτόματες προσπάθειες. Ωστόσο, οι δυνατότητες δεν τελειώνουν εκεί. Με την ενσωμάτωση της γενετικής τεχνητής νοημοσύνης (AI) στη διαδικασία, μπορούμε να ενισχύσουμε περαιτέρω τις δυνατότητες IDP. Το Generative AI όχι μόνο εισάγει βελτιωμένες δυνατότητες στην επεξεργασία εγγράφων, αλλά εισάγει επίσης μια δυναμική προσαρμοστικότητα σε μεταβαλλόμενα μοτίβα δεδομένων. Αυτή η ανάρτηση σας οδηγεί στη συνέργεια του IDP και της γενετικής τεχνητής νοημοσύνης, αποκαλύπτοντας πώς αντιπροσωπεύουν το επόμενο σύνορο στην επεξεργασία εγγράφων.
Συζητάμε το IDP λεπτομερώς στη σειρά μας για την Έξυπνη επεξεργασία εγγράφων με υπηρεσίες AWS AI (Μέρος 1 και Μέρος 2). Σε αυτήν την ανάρτηση, συζητάμε πώς να επεκτείνουμε μια νέα ή υπάρχουσα αρχιτεκτονική IDP με μεγάλα γλωσσικά μοντέλα (LLM). Πιο συγκεκριμένα, συζητάμε πώς μπορούμε να ενσωματωθούμε Textract Amazon με LangChain ως φορτωτής εγγράφων και Θεμέλιο του Αμαζονίου για εξαγωγή δεδομένων από έγγραφα και χρήση παραγωγικών δυνατοτήτων τεχνητής νοημοσύνης στις διάφορες φάσεις IDP.
Το Amazon Textract είναι μια υπηρεσία μηχανικής εκμάθησης (ML) που εξάγει αυτόματα κείμενο, χειρόγραφο και δεδομένα από σαρωμένα έγγραφα. Το Amazon Bedrock είναι μια πλήρως διαχειριζόμενη υπηρεσία που προσφέρει μια επιλογή από μοντέλα θεμελίωσης υψηλής απόδοσης (FM) μέσω εύχρηστων API.
Το παρακάτω διάγραμμα είναι μια αρχιτεκτονική αναφοράς υψηλού επιπέδου που εξηγεί πώς μπορείτε να βελτιώσετε περαιτέρω μια ροή εργασίας IDP με μοντέλα θεμελίωσης. Μπορείτε να χρησιμοποιήσετε LLM σε μία ή σε όλες τις φάσεις του IDP ανάλογα με την περίπτωση χρήσης και το επιθυμητό αποτέλεσμα.
Στις επόμενες ενότητες, εξετάζουμε τον τρόπο με τον οποίο το Amazon Textract ενσωματώνεται σε παραγωγικές ροές εργασίας AI χρησιμοποιώντας το LangChain για την επεξεργασία εγγράφων για καθεμία από αυτές τις συγκεκριμένες εργασίες. Τα μπλοκ κώδικα που παρέχονται εδώ έχουν περικοπεί για λόγους συντομίας. Ανατρέξτε στο δικό μας Αποθετήριο GitHub για λεπτομερή σημειωματάρια Python και μια αναλυτική περιγραφή βήμα προς βήμα.
Η εξαγωγή κειμένου από έγγραφα είναι μια κρίσιμη πτυχή όταν πρόκειται για την επεξεργασία εγγράφων με LLM. Μπορείτε να χρησιμοποιήσετε το Amazon Textract για να εξαγάγετε μη δομημένο ακατέργαστο κείμενο από έγγραφα και να διατηρήσετε τα αρχικά ημιδομημένα ή δομημένα αντικείμενα όπως ζεύγη κλειδιών-τιμών και πίνακες που υπάρχουν στο έγγραφο. Τα πακέτα εγγράφων όπως οι απαιτήσεις υγειονομικής περίθαλψης και ασφάλισης ή οι υποθήκες αποτελούνται από πολύπλοκες φόρμες που περιέχουν πολλές πληροφορίες σε δομημένες, ημιδομημένες και μη δομημένες μορφές. Η εξαγωγή εγγράφων είναι ένα σημαντικό βήμα εδώ, επειδή οι LLM επωφελούνται από το πλούσιο περιεχόμενο για τη δημιουργία πιο ακριβών και σχετικών απαντήσεων, οι οποίες διαφορετικά θα μπορούσαν να επηρεάσουν την ποιότητα της παραγωγής των LLM.
Το LangChain είναι ένα ισχυρό πλαίσιο ανοιχτού κώδικα για ενσωμάτωση με LLMs. Τα LLM γενικά είναι ευέλικτα, αλλά μπορεί να δυσκολεύονται με εργασίες που αφορούν συγκεκριμένους τομείς όπου χρειάζονται βαθύτερο πλαίσιο και αποχρώσεις. Το LangChain εξουσιοδοτεί τους προγραμματιστές σε τέτοια σενάρια να δημιουργούν πράκτορες που μπορούν να αναλύουν πολύπλοκες εργασίες σε μικρότερες υπο-εργασίες. Οι δευτερεύουσες εργασίες μπορούν στη συνέχεια να εισαγάγουν το πλαίσιο και τη μνήμη στα LLM συνδέοντας και αλυσοδένοντας τις προτροπές LLM.
Προσφορές LangChain φορτωτές εγγράφων που μπορεί να φορτώσει και να μετατρέψει δεδομένα από έγγραφα. Μπορείτε να τα χρησιμοποιήσετε για τη δομή εγγράφων σε προτιμώμενες μορφές που μπορούν να υποβληθούν σε επεξεργασία από LLM. ο AmazonTextractPDFLoader είναι ένας τύπος φορτωτή εγγράφων που παρέχει γρήγορο τρόπο αυτοματοποίησης της επεξεργασίας εγγράφων χρησιμοποιώντας το Amazon Textract σε συνδυασμό με το LangChain. Για περισσότερες λεπτομέρειες σχετικά με AmazonTextractPDFLoader
, αναφέρομαι στο LangChain τεκμηρίωση. Για να χρησιμοποιήσετε το πρόγραμμα φόρτωσης εγγράφων Amazon Textract, ξεκινήστε εισάγοντάς το από τη βιβλιοθήκη LangChain:
from langchain.document_loaders import AmazonTextractPDFLoader
https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()
Μπορείτε επίσης να αποθηκεύσετε έγγραφα στο Amazon S3 και να ανατρέξετε σε αυτά χρησιμοποιώντας το μοτίβο διεύθυνσης URL s3://, όπως εξηγείται στο Πρόσβαση σε κάδο χρησιμοποιώντας S3://και περάστε αυτήν τη διαδρομή S3 στο πρόγραμμα φόρτωσης PDF του Amazon Textract:
import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()
Ένα πολυσέλιδο έγγραφο θα περιέχει πολλές σελίδες κειμένου, το οποίο στη συνέχεια μπορεί να προσπελαστεί μέσω του αντικειμένου έγγραφα, το οποίο είναι μια λίστα σελίδων. Ο ακόλουθος κώδικας περιηγείται στις σελίδες του αντικειμένου εγγράφων και εκτυπώνει το κείμενο του εγγράφου, το οποίο είναι διαθέσιμο μέσω του page_content
Χαρακτηριστικό:
print(len(documents)) for document in documents: print(document.page_content)
Το Amazon Comprehend και τα LLM μπορούν να χρησιμοποιηθούν αποτελεσματικά για ταξινόμηση εγγράφων. Το Amazon Comprehend είναι μια υπηρεσία επεξεργασίας φυσικής γλώσσας (NLP) που χρησιμοποιεί ML για την εξαγωγή πληροφοριών από κείμενο. Το Amazon Comprehend υποστηρίζει επίσης εκπαίδευση μοντέλων προσαρμοσμένης ταξινόμησης με επίγνωση διάταξης σε έγγραφα όπως αρχεία PDF, Word και μορφές εικόνας. Για περισσότερες πληροφορίες σχετικά με τη χρήση του ταξινομητή εγγράφων Amazon Comprehend, ανατρέξτε στο Ο ταξινομητής εγγράφων Amazon Comprehend προσθέτει υποστήριξη διάταξης για μεγαλύτερη ακρίβεια.
Όταν συνδυάζεται με LLM, η ταξινόμηση εγγράφων γίνεται μια ισχυρή προσέγγιση για τη διαχείριση μεγάλου όγκου εγγράφων. Τα LLM είναι χρήσιμα στην ταξινόμηση εγγράφων επειδή μπορούν να αναλύσουν το κείμενο, τα μοτίβα και τα συμφραζόμενα στοιχεία στο έγγραφο χρησιμοποιώντας την κατανόηση φυσικής γλώσσας. Μπορείτε επίσης να τα ρυθμίσετε με ακρίβεια για συγκεκριμένες κατηγορίες εγγράφων. Όταν ένας νέος τύπος εγγράφου που εισάγεται στη διοχέτευση IDP χρειάζεται ταξινόμηση, το LLM μπορεί να επεξεργαστεί κείμενο και να κατηγοριοποιήσει το έγγραφο με ένα σύνολο κλάσεων. Το παρακάτω είναι ένα δείγμα κώδικα που χρησιμοποιεί το πρόγραμμα φόρτωσης εγγράφων LangChain που υποστηρίζεται από το Amazon Textract για την εξαγωγή του κειμένου από το έγγραφο και τη χρήση του για την ταξινόμηση του εγγράφου. Χρησιμοποιούμε το Anthropic Claude v2 μοντέλο μέσω του Amazon Bedrock για την εκτέλεση της ταξινόμησης.
Στο παρακάτω παράδειγμα, αρχικά εξάγουμε κείμενο από μια αναφορά εξιτηρίου ασθενούς και χρησιμοποιούμε ένα LLM για να το ταξινομήσουμε, δίνοντας μια λίστα με τρεις διαφορετικούς τύπους εγγράφων—DISCHARGE_SUMMARY
, RECEIPT
, να PRESCRIPTION
. Το παρακάτω στιγμιότυπο οθόνης δείχνει την αναφορά μας.
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")
Η περίληψη περιλαμβάνει τη συμπύκνωση ενός δεδομένου κειμένου ή εγγράφου σε μια συντομότερη έκδοση, διατηρώντας παράλληλα τις βασικές πληροφορίες του. Αυτή η τεχνική είναι επωφελής για την αποτελεσματική ανάκτηση πληροφοριών, η οποία επιτρέπει στους χρήστες να κατανοήσουν γρήγορα τα βασικά σημεία ενός εγγράφου χωρίς να διαβάσουν ολόκληρο το περιεχόμενο. Αν και το Amazon Textract δεν εκτελεί απευθείας σύνοψη κειμένου, παρέχει τις θεμελιώδεις δυνατότητες εξαγωγής ολόκληρου του κειμένου από έγγραφα. Αυτό το εξαγόμενο κείμενο χρησιμεύει ως είσοδος στο μοντέλο μας LLM για την εκτέλεση εργασιών σύνοψης κειμένου.
Χρησιμοποιώντας το ίδιο δείγμα αναφοράς εκφόρτισης, χρησιμοποιούμε AmazonTextractPDFLoader
για να εξαγάγετε κείμενο από αυτό το έγγραφο. Όπως και πριν, χρησιμοποιούμε το μοντέλο Claude v2 μέσω του Amazon Bedrock και το αρχικοποιούμε με μια προτροπή που περιέχει τις οδηγίες για το τι πρέπει να κάνετε με το κείμενο (σε αυτήν την περίπτωση, σύνοψη). Τέλος, εκτελούμε την αλυσίδα LLM περνώντας το εξαγόμενο κείμενο από το πρόγραμμα φόρτωσης εγγράφων. Αυτό εκτελεί μια ενέργεια συμπερασμάτων στο LLM με την προτροπή που αποτελείται από τις οδηγίες για σύνοψη και το κείμενο του εγγράφου επισημαίνεται με Document
. Δείτε τον ακόλουθο κώδικα:
Ο κώδικας δημιουργεί τη σύνοψη μιας συνοπτικής αναφοράς εξιτηρίου ασθενούς:
Το προηγούμενο παράδειγμα χρησιμοποιούσε ένα έγγραφο μιας σελίδας για την εκτέλεση της σύνοψης. Ωστόσο, πιθανότατα θα ασχοληθείτε με έγγραφα που περιέχουν πολλές σελίδες που χρειάζονται περίληψη. Ένας συνηθισμένος τρόπος για τη σύνοψη σε πολλές σελίδες είναι να δημιουργείτε πρώτα περιλήψεις σε μικρότερα κομμάτια κειμένου και στη συνέχεια να συνδυάζετε τις μικρότερες περιλήψεις για να λάβετε μια τελική περίληψη του εγγράφου. Σημειώστε ότι αυτή η μέθοδος απαιτεί πολλαπλές κλήσεις στο LLM. Η λογική για αυτό μπορεί να δημιουργηθεί εύκολα. Ωστόσο, το LangChain παρέχει μια ενσωματωμένη αλυσίδα σύνοψης που μπορεί να συνοψίσει μεγάλα κείμενα (από πολυσέλιδα έγγραφα). Η σύνοψη μπορεί να γίνει είτε μέσω map_reduce
ή stuff
επιλογές, οι οποίες είναι διαθέσιμες ως επιλογές για τη διαχείριση των πολλαπλών κλήσεων στο LLM. Στο παρακάτω παράδειγμα, χρησιμοποιούμε map_reduce
για να συνοψίσετε ένα πολυσέλιδο έγγραφο. Το παρακάτω σχήμα δείχνει τη ροή εργασίας μας.
Ας ξεκινήσουμε πρώτα με την εξαγωγή του εγγράφου και να δούμε τον συνολικό αριθμό διακριτικών ανά σελίδα και τον συνολικό αριθμό σελίδων:
Στη συνέχεια, χρησιμοποιούμε το ενσωματωμένο LangChain load_summarize_chain
για να συνοψίσουμε ολόκληρο το έγγραφο:
from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())
Τυποποίηση και Q&A
Σε αυτήν την ενότητα, συζητάμε εργασίες τυποποίησης και Q&A.
Τυποποίηση
Η τυποποίηση εξόδου είναι μια εργασία δημιουργίας κειμένου όπου τα LLM χρησιμοποιούνται για να παρέχουν μια συνεπή μορφοποίηση του κειμένου εξόδου. Αυτή η εργασία είναι ιδιαίτερα χρήσιμη για την αυτοματοποίηση της εξαγωγής βασικών οντοτήτων που απαιτεί την ευθυγράμμιση της εξόδου με τις επιθυμητές μορφές. Για παράδειγμα, μπορούμε να ακολουθήσουμε τις άμεσες βέλτιστες πρακτικές μηχανικής για να προσαρμόσουμε με ακρίβεια ένα LLM για να μορφοποιήσουμε τις ημερομηνίες σε μορφή ΜΜ/ΗΗ/ΕΕΕΕ, η οποία μπορεί να είναι συμβατή με μια στήλη DATE βάσης δεδομένων. Το ακόλουθο μπλοκ κώδικα δείχνει ένα παράδειγμα του τρόπου με τον οποίο γίνεται αυτό χρησιμοποιώντας ένα LLM και μια άμεση μηχανική. Όχι μόνο τυποποιούμε τη μορφή εξόδου για τις τιμές ημερομηνίας, αλλά προτρέπουμε επίσης το μοντέλο να δημιουργήσει την τελική έξοδο σε μορφή JSON, ώστε να είναι εύκολα αναλώσιμη στις κατάντη εφαρμογές μας. Χρησιμοποιούμε Γλώσσα έκφρασης LangChain (LCEL) για να συνδέσετε δύο ενέργειες. Η πρώτη ενέργεια ζητά από το LLM να δημιουργήσει μια έξοδο μορφής JSON με μόνο τις ημερομηνίες από το έγγραφο. Η δεύτερη ενέργεια λαμβάνει την έξοδο JSON και τυποποιεί τη μορφή ημερομηνίας. Λάβετε υπόψη ότι αυτή η ενέργεια δύο βημάτων μπορεί επίσης να εκτελεστεί σε ένα μόνο βήμα με την κατάλληλη άμεση μηχανική, όπως θα δούμε στην κανονικοποίηση και τη διαμόρφωση προτύπων.
Η έξοδος του προηγούμενου δείγματος κώδικα είναι μια δομή JSON με ημερομηνίες 07/09/2020 και 08/09/2020, οι οποίες έχουν τη μορφή ΗΗ/ΜΜ/ΕΕΕΕ και είναι η ημερομηνία εισαγωγής και εξόδου του ασθενούς από το νοσοκομείο, αντίστοιχα, σύμφωνα με στη συνοπτική έκθεση απαλλαγής.
Q&A με Ανάκτηση Αυξημένης γενιάς
Τα LLMs είναι γνωστό ότι διατηρούν πραγματικές πληροφορίες, που συχνά αναφέρονται ως κοσμογνωσία ή κοσμοθεωρία τους. Όταν ρυθμιστούν με ακρίβεια, μπορούν να παράγουν αποτελέσματα τελευταίας τεχνολογίας. Ωστόσο, υπάρχουν περιορισμοί ως προς το πόσο αποτελεσματικά ένα LLM μπορεί να έχει πρόσβαση και να χειριστεί αυτή τη γνώση. Ως αποτέλεσμα, σε εργασίες που βασίζονται σε μεγάλο βαθμό σε συγκεκριμένες γνώσεις, η απόδοσή τους μπορεί να μην είναι η βέλτιστη για ορισμένες περιπτώσεις χρήσης. Για παράδειγμα, σε σενάρια Q&A, είναι σημαντικό για το μοντέλο να τηρεί αυστηρά το πλαίσιο που παρέχεται στο έγγραφο χωρίς να βασίζεται αποκλειστικά στις παγκόσμιες γνώσεις του. Η απόκλιση από αυτό μπορεί να οδηγήσει σε ψευδείς δηλώσεις, ανακρίβειες ή ακόμα και λανθασμένες απαντήσεις. Η πιο συχνά χρησιμοποιούμενη μέθοδος για την αντιμετώπιση αυτού του προβλήματος είναι γνωστή ως Ανάκτηση επαυξημένης γενιάς (ΚΟΥΡΕΛΙ). Αυτή η προσέγγιση συνέργει τα δυνατά σημεία τόσο των μοντέλων ανάκτησης όσο και των μοντέλων γλώσσας, ενισχύοντας την ακρίβεια και την ποιότητα των απαντήσεων που παράγονται.
Τα LLM μπορούν επίσης να επιβάλλουν περιορισμούς διακριτικών λόγω των περιορισμών μνήμης τους και των περιορισμών του υλικού στο οποίο εκτελούνται. Για τον χειρισμό αυτού του προβλήματος, χρησιμοποιούνται τεχνικές όπως το chunking για τη διαίρεση μεγάλων εγγράφων σε μικρότερα τμήματα που ταιριάζουν στα όρια συμβολικών των LLM. Από την άλλη πλευρά, οι ενσωματώσεις χρησιμοποιούνται στο NLP κυρίως για να συλλάβουν τη σημασιολογική σημασία των λέξεων και τις σχέσεις τους με άλλες λέξεις σε έναν χώρο υψηλών διαστάσεων. Αυτές οι ενσωματώσεις μετατρέπουν τις λέξεις σε διανύσματα, επιτρέποντας στα μοντέλα να επεξεργάζονται και να κατανοούν αποτελεσματικά τα δεδομένα κειμένου. Κατανοώντας τις σημασιολογικές αποχρώσεις μεταξύ λέξεων και φράσεων, οι ενσωματώσεις επιτρέπουν στα LLM να παράγουν συνεκτικά και σχετικά με τα συμφραζόμενα αποτελέσματα. Σημειώστε τους ακόλουθους βασικούς όρους:
- Τσούνκιν – Αυτή η διαδικασία αναλύει μεγάλες ποσότητες κειμένου από έγγραφα σε μικρότερα, ουσιαστικά κομμάτια κειμένου.
- embeddings – Αυτοί είναι διανυσματικοί μετασχηματισμοί σταθερών διαστάσεων κάθε κομματιού που διατηρούν τις σημασιολογικές πληροφορίες από τα κομμάτια. Αυτές οι ενσωματώσεις στη συνέχεια φορτώνονται σε μια διανυσματική βάση δεδομένων.
- Διανυσματική βάση δεδομένων – Αυτή είναι μια βάση δεδομένων με ενσωματώσεις λέξεων ή διανύσματα που αντιπροσωπεύουν το πλαίσιο των λέξεων. Λειτουργεί ως πηγή γνώσης που βοηθά τις εργασίες NLP σε αγωγούς επεξεργασίας εγγράφων. Το πλεονέκτημα της διανυσματικής βάσης δεδομένων εδώ είναι ότι επιτρέπει μόνο το απαραίτητο πλαίσιο να παρέχεται στους LLM κατά τη δημιουργία κειμένου, όπως εξηγούμε στην επόμενη ενότητα.
Το RAG χρησιμοποιεί τη δύναμη των ενσωματώσεων για την κατανόηση και την ανάκτηση σχετικών τμημάτων εγγράφων κατά τη φάση ανάκτησης. Με αυτόν τον τρόπο, το RAG μπορεί να λειτουργήσει εντός των συμβολικών περιορισμών των LLM, διασφαλίζοντας ότι επιλέγονται οι πιο σχετικές πληροφορίες για παραγωγή, με αποτέλεσμα πιο ακριβή και σχετικά με τα συμφραζόμενα αποτελέσματα.
Το παρακάτω διάγραμμα απεικονίζει την ενσωμάτωση αυτών των τεχνικών για τη δημιουργία της εισόδου στα LLMs, ενισχύοντας την κατανόησή τους από τα συμφραζόμενα και επιτρέποντας πιο σχετικές απαντήσεις εντός του πλαισίου. Μια προσέγγιση περιλαμβάνει αναζήτηση ομοιότητας, χρησιμοποιώντας τόσο μια διανυσματική βάση δεδομένων όσο και την τμηματοποίηση. Η διανυσματική βάση δεδομένων αποθηκεύει ενσωματώσεις που αντιπροσωπεύουν σημασιολογικές πληροφορίες και η τμηματοποίηση διαιρεί το κείμενο σε διαχειρίσιμες ενότητες. Χρησιμοποιώντας αυτό το πλαίσιο από την αναζήτηση ομοιότητας, τα LLM μπορούν να εκτελέσουν εργασίες όπως η απάντηση σε ερωτήσεις και λειτουργίες για συγκεκριμένους τομείς, όπως η ταξινόμηση και ο εμπλουτισμός.
Για αυτήν την ανάρτηση, χρησιμοποιούμε μια προσέγγιση βασισμένη σε RAG για την εκτέλεση ερωτήσεων και απαντήσεων σε περιβάλλον με έγγραφα. Στο ακόλουθο δείγμα κώδικα, εξάγουμε κείμενο από ένα έγγραφο και στη συνέχεια χωρίζουμε το έγγραφο σε μικρότερα κομμάτια κειμένου. Απαιτείται τεμαχισμός επειδή ενδέχεται να έχουμε μεγάλα έγγραφα πολλών σελίδων και τα LLM μας μπορεί να έχουν όρια διακριτικών. Αυτά τα κομμάτια στη συνέχεια φορτώνονται στη διανυσματική βάση δεδομένων για την εκτέλεση αναζήτησης ομοιότητας στα επόμενα βήματα. Στο παρακάτω παράδειγμα, χρησιμοποιούμε το μοντέλο Amazon Titan Embed Text v1, το οποίο εκτελεί τις διανυσματικές ενσωματώσεις των τμημάτων του εγγράφου:
Ο κώδικας δημιουργεί ένα σχετικό πλαίσιο για το LLM χρησιμοποιώντας τα κομμάτια κειμένου που επιστρέφονται από την ενέργεια αναζήτησης ομοιότητας από τη διανυσματική βάση δεδομένων. Για αυτό το παράδειγμα, χρησιμοποιούμε έναν ανοιχτό κώδικα Κατάστημα διανυσμάτων FAISS ως δείγμα διανυσματικής βάσης δεδομένων για την αποθήκευση διανυσματικών ενσωματώσεων κάθε κομματιού κειμένου. Στη συνέχεια ορίζουμε τη διανυσματική βάση δεδομένων ως α LangChain retriever, το οποίο περνά στο RetrievalQA
αλυσίδα. Αυτό εκτελεί εσωτερικά ένα ερώτημα αναζήτησης ομοιότητας στη διανυσματική βάση δεδομένων που επιστρέφει τα κορυφαία n (όπου n=3 στο παράδειγμά μας) κομμάτια κειμένου που σχετίζονται με την ερώτηση. Τέλος, η αλυσίδα LLM εκτελείται με το σχετικό πλαίσιο (μια ομάδα σχετικών τμημάτων κειμένου) και την ερώτηση στην οποία πρέπει να απαντήσει το LLM. Για μια αναλυτική περιγραφή του κώδικα Q&A με το RAG, ανατρέξτε στο σημειωματάριο Python στο GitHub.
Ως εναλλακτική λύση στο FAISS, μπορείτε επίσης να χρησιμοποιήσετε Δυνατότητες διανυσματικής βάσης δεδομένων Amazon OpenSearch Service, Amazon Relational Database Service (Amazon RDS) για PostgreSQL με pgvector επέκταση ως διανυσματικές βάσεις δεδομένων ή βάση δεδομένων Chroma ανοιχτού κώδικα.
Ερωτήσεις και απαντήσεις με δεδομένα σε πίνακα
Τα δεδομένα σε πίνακα εντός εγγράφων μπορεί να είναι δύσκολο να επεξεργαστούν τα LLM λόγω της δομικής πολυπλοκότητάς τους. Το Amazon Textract μπορεί να επαυξηθεί με LLM επειδή επιτρέπει την εξαγωγή πινάκων από έγγραφα σε ένθετη μορφή στοιχείων όπως σελίδα, πίνακας και κελιά. Η εκτέλεση Q&A με δεδομένα σε πίνακα είναι μια διαδικασία πολλαπλών βημάτων και μπορεί να επιτευχθεί μέσω αυτοερώτηση. Ακολουθεί μια επισκόπηση των βημάτων:
- Εξαγωγή πινάκων από έγγραφα χρησιμοποιώντας το Amazon Textract. Με το Amazon Textract, η δομή του πίνακα (γραμμές, στήλες, κεφαλίδες) μπορεί να εξαχθεί από ένα έγγραφο.
- Αποθηκεύστε τα δεδομένα σε πίνακα σε μια διανυσματική βάση δεδομένων μαζί με πληροφορίες μεταδεδομένων, όπως τα ονόματα των κεφαλίδων και την περιγραφή κάθε κεφαλίδας.
- Χρησιμοποιήστε την προτροπή για να δημιουργήσετε ένα δομημένο ερώτημα, χρησιμοποιώντας ένα LLM, για να εξαγάγετε τα δεδομένα από τον πίνακα.
- Χρησιμοποιήστε το ερώτημα για να εξαγάγετε τα σχετικά δεδομένα πίνακα από τη διανυσματική βάση δεδομένων.
Για παράδειγμα, σε ένα αντίγραφο κίνησης τράπεζας, με δεδομένη την προτροπή "Ποιες είναι οι συναλλαγές με καταθέσεις άνω των 1000 $", το LLM θα ολοκληρώσει τα ακόλουθα βήματα:
- Δημιουργήστε ένα ερώτημα, όπως π.χ
“Query: transactions” , “filter: greater than (Deposit$)”
. - Μετατρέψτε το ερώτημα σε δομημένο ερώτημα.
- Εφαρμόστε το δομημένο ερώτημα στη διανυσματική βάση δεδομένων όπου είναι αποθηκευμένα τα δεδομένα του πίνακα μας.
Για ένα βήμα προς βήμα ενημερωτικό δείγμα κώδικα Q&A με πίνακα, ανατρέξτε στο σημειωματάριο Python στο GitHub.
Πρότυπο και κανονικοποιήσεις
Σε αυτήν την ενότητα, εξετάζουμε πώς να χρησιμοποιήσουμε τεχνικές άμεσης μηχανικής και τον ενσωματωμένο μηχανισμό του LangChain για τη δημιουργία μιας εξόδου με εξαγωγές από ένα έγγραφο σε ένα καθορισμένο σχήμα. Πραγματοποιούμε επίσης κάποια τυποποίηση στα εξαγόμενα δεδομένα, χρησιμοποιώντας τις τεχνικές που συζητήθηκαν προηγουμένως. Ξεκινάμε ορίζοντας ένα πρότυπο για την επιθυμητή έξοδο. Αυτό θα χρησιμεύσει ως σχήμα και θα ενσωματώσει τις λεπτομέρειες για κάθε οντότητα που θέλουμε να εξαγάγουμε από το κείμενο του εγγράφου.
Σημειώστε ότι για καθεμία από τις οντότητες, χρησιμοποιούμε την περιγραφή για να εξηγήσουμε τι είναι αυτή η οντότητα για να βοηθήσουμε το LLM να εξάγει την τιμή από το κείμενο του εγγράφου. Στο ακόλουθο δείγμα κώδικα, χρησιμοποιούμε αυτό το πρότυπο για να δημιουργήσουμε την προτροπή μας για το LLM μαζί με το κείμενο που εξάγεται από το έγγραφο χρησιμοποιώντας AmazonTextractPDFLoader
και στη συνέχεια εκτελέστε συμπέρασμα με το μοντέλο:
Όπως μπορείτε να δείτε, η {keys}
μέρος της προτροπής είναι τα κλειδιά από το πρότυπό μας και το {details}
είναι τα κλειδιά μαζί με την περιγραφή τους. Σε αυτήν την περίπτωση, δεν ζητάμε ρητά στο μοντέλο τη μορφή της εξόδου, εκτός από το να καθορίζεται στην οδηγία για τη δημιουργία της εξόδου σε μορφή JSON. Αυτό λειτουργεί ως επί το πλείστον. Ωστόσο, επειδή η έξοδος από τα LLM είναι μη ντετερμινιστική δημιουργία κειμένου, θέλουμε να καθορίσουμε ρητά τη μορφή ως μέρος της εντολής στη γραμμή εντολών. Για να το λύσουμε αυτό, μπορούμε να χρησιμοποιήσουμε το LangChain's αναλυτής δομημένης εξόδου ενότητα για να επωφεληθείτε από την αυτοματοποιημένη μηχανική προτροπής που βοηθά στη μετατροπή του προτύπου μας σε γραμμή εντολών μορφοποίησης. Χρησιμοποιούμε το πρότυπο που ορίστηκε προηγουμένως για να δημιουργήσουμε τη γραμμή εντολών μορφοποίησης ως εξής:
Στη συνέχεια χρησιμοποιούμε αυτήν τη μεταβλητή στην αρχική μας προτροπή ως οδηγία προς το LLM, έτσι ώστε να εξάγει και να μορφοποιεί την έξοδο στο επιθυμητό σχήμα κάνοντας μια μικρή τροποποίηση στην προτροπή μας:
Μέχρι στιγμής, έχουμε εξαγάγει μόνο τα δεδομένα από το έγγραφο σε ένα επιθυμητό σχήμα. Ωστόσο, πρέπει ακόμη να πραγματοποιήσουμε κάποια τυποποίηση. Για παράδειγμα, θέλουμε η ημερομηνία εισαγωγής και η ημερομηνία εξόδου του ασθενούς να εξαχθούν σε μορφή ΗΗ/ΜΜ/ΕΕΕΕ. Σε αυτή την περίπτωση, αυξάνουμε το description
του κλειδιού με την οδηγία μορφοποίησης:
Ανατρέξτε στο σημειωματάριο Python στο GitHub για μια πλήρη περιγραφή και επεξήγηση βήμα προς βήμα.
Ορθογραφικοί έλεγχοι και διορθώσεις
Τα LLM έχουν επιδείξει αξιοσημείωτες ικανότητες στην κατανόηση και τη δημιουργία κειμένου που μοιάζει με άνθρωπο. Μία από τις λιγότερο συζητημένες αλλά εξαιρετικά χρήσιμες εφαρμογές των LLM είναι οι δυνατότητές τους σε γραμματικούς ελέγχους και διόρθωση προτάσεων σε έγγραφα. Σε αντίθεση με τους παραδοσιακούς ελεγκτές γραμματικής που βασίζονται σε ένα σύνολο προκαθορισμένων κανόνων, τα LLM χρησιμοποιούν μοτίβα που έχουν εντοπίσει από τεράστιες ποσότητες δεδομένων κειμένου για να προσδιορίσουν τι συνιστά σωστή ή άπταιστη γλώσσα. Αυτό σημαίνει ότι μπορούν να ανιχνεύσουν αποχρώσεις, πλαίσιο και λεπτές αποχρώσεις που μπορεί να χάνουν τα συστήματα που βασίζονται σε κανόνες.
Φανταστείτε το κείμενο που εξάγεται από μια περίληψη εξιτηρίου ασθενούς που λέει «Ο ασθενής Jon Doe, ο οποίος εισήχθη με βαριά πνευμονία, έχει παρουσιάσει σημαντική βελτίωση και μπορεί να πάρει εξιτήριο με ασφάλεια. Οι συνεχίσεις έχουν προγραμματιστεί για την επόμενη εβδομάδα." Ένας παραδοσιακός ορθογραφικός έλεγχος μπορεί να αναγνωρίσει ως λάθη τα «παραδεκτά», «πνευμονία», «βελτίωση» και «nex». Ωστόσο, το πλαίσιο αυτών των σφαλμάτων θα μπορούσε να οδηγήσει σε περαιτέρω λάθη ή σε γενικές προτάσεις. Ένα LLM, εξοπλισμένο με την εκτεταμένη εκπαίδευσή του, θα μπορούσε να προτείνει: «Ο ασθενής John Doe, ο οποίος εισήχθη με σοβαρή πνευμονία, έχει δείξει σημαντική βελτίωση και μπορεί να πάρει εξιτήριο με ασφάλεια. Η παρακολούθηση έχει προγραμματιστεί για την επόμενη εβδομάδα».
Το παρακάτω είναι ένα κακώς χειρόγραφο δείγμα εγγράφου με το ίδιο κείμενο όπως εξηγήθηκε προηγουμένως.
Εξάγουμε το έγγραφο με ένα πρόγραμμα φόρτωσης εγγράφων Amazon Textract και, στη συνέχεια, αναθέτουμε στο LLM, μέσω άμεσης μηχανικής, να διορθώσει το εξαγόμενο κείμενο για να διορθώσει τυχόν ορθογραφικά ή/και γραμματικά λάθη:
Η έξοδος του προηγούμενου κώδικα δείχνει το αρχικό κείμενο που εξήχθη από το πρόγραμμα φόρτωσης εγγράφων ακολουθούμενο από το διορθωμένο κείμενο που δημιουργήθηκε από το LLM:
Λάβετε υπόψη ότι όσο ισχυρά κι αν είναι τα LLM, είναι σημαντικό να βλέπετε τις προτάσεις τους ως ακριβώς αυτό—προτάσεις. Αν και αποτυπώνουν εντυπωσιακά καλά τις περιπλοκές της γλώσσας, δεν είναι αλάνθαστοι. Ορισμένες προτάσεις ενδέχεται να αλλάξουν το επιδιωκόμενο νόημα ή τον τόνο του αρχικού κειμένου. Ως εκ τούτου, είναι σημαντικό για τους ανθρώπινους αναθεωρητές να χρησιμοποιούν τις διορθώσεις που δημιουργούνται από το LLM ως οδηγό, όχι ως απόλυτο. Η συνεργασία της ανθρώπινης διαίσθησης με τις δυνατότητες LLM υπόσχεται ένα μέλλον όπου η γραπτή μας επικοινωνία δεν θα είναι απλώς χωρίς σφάλματα, αλλά και πιο πλούσια και πιο λεπτή.
Συμπέρασμα
Το Generative AI αλλάζει τον τρόπο με τον οποίο μπορείτε να επεξεργάζεστε έγγραφα με το IDP για να αντλήσετε πληροφορίες. Στο ταχυδρομείο Βελτίωση της έξυπνης επεξεργασίας εγγράφων AWS με τεχνητή νοημοσύνη, συζητήσαμε τα διάφορα στάδια του αγωγού και τον τρόπο με τον οποίο ο πελάτης AWS Ricoh ενισχύει τον αγωγό IDP του με LLM. Σε αυτήν την ανάρτηση, συζητήσαμε διάφορους μηχανισμούς ενίσχυσης της ροής εργασίας IDP με LLM μέσω του Amazon Bedrock, του Amazon Textract και του δημοφιλούς πλαισίου LangChain. Μπορείτε να ξεκινήσετε με το νέο πρόγραμμα φόρτωσης εγγράφων Amazon Textract με το LangChain σήμερα χρησιμοποιώντας τα δείγματα σημειωματάριων που είναι διαθέσιμα στο Αποθετήριο GitHub. Για περισσότερες πληροφορίες σχετικά με την εργασία με το Generative AI στο AWS, ανατρέξτε στο Ανακοίνωση νέων εργαλείων για δημιουργία με Generative AI στο AWS.
Σχετικά με τους Συγγραφείς
Σονάλι Σάχου πρωτοστατεί στην έξυπνη επεξεργασία εγγράφων με την ομάδα υπηρεσιών AI/ML στο AWS. Είναι συγγραφέας, ηγέτης σκέψης και παθιασμένη τεχνολόγος. Ο βασικός τομέας εστίασής της είναι η AI και η ML και μιλάει συχνά σε συνέδρια και συναντήσεις AI και ML σε όλο τον κόσμο. Διαθέτει τόσο εύρος όσο και βάθος εμπειρίας στην τεχνολογία και τη βιομηχανία τεχνολογίας, με τεχνογνωσία στον κλάδο της υγείας, του χρηματοπιστωτικού τομέα και της ασφάλισης.
Anjan Biswas είναι Ανώτερος Αρχιτέκτονας Λύσεων Υπηρεσιών AI με έμφαση στο AI/ML και την ανάλυση δεδομένων. Ο Anjan είναι μέρος της παγκόσμιας ομάδας υπηρεσιών AI και συνεργάζεται με πελάτες για να τους βοηθήσει να κατανοήσουν και να αναπτύξουν λύσεις σε επιχειρηματικά προβλήματα με AI και ML. Η Anjan έχει πάνω από 14 χρόνια εμπειρίας σε συνεργασία με παγκόσμιους οργανισμούς εφοδιαστικής αλυσίδας, κατασκευής και λιανικής και βοηθά ενεργά τους πελάτες να ξεκινήσουν και να επεκτείνουν τις υπηρεσίες AWS AI.
Τσινμέι Ρέιν είναι Αρχιτέκτονας Ειδικών Λύσεων AI/ML στην Amazon Web Services. Είναι παθιασμένη με τα εφαρμοσμένα μαθηματικά και τη μηχανική μάθηση. Επικεντρώνεται στο σχεδιασμό έξυπνης επεξεργασίας εγγράφων και λύσεων τεχνητής νοημοσύνης που δημιουργούνται για πελάτες AWS. Εκτός δουλειάς, της αρέσει να χορεύει salsa και bachata.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/
- :έχει
- :είναι
- :δεν
- :που
- .ex
- $1000
- $UP
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15%
- 16
- 22
- 23
- 33
- 35%
- 7
- 9
- a
- ικανότητες
- Σχετικα
- Απόλυτος
- πρόσβαση
- πρόσβαση
- Σύμφωνα με
- ακρίβεια
- ακριβής
- επιτευχθεί
- απέναντι
- Ενέργειες
- ενεργειών
- δραστήρια
- δραστηριότητα
- πράξεις
- Ad
- διεύθυνση
- Προσθέτει
- εμμένω
- ομολογώ
- παράδεκτος
- εξελίξεις
- Πλεονέκτημα
- έλευση
- την ηλικία του
- παράγοντες
- AI
- Υπηρεσίες AI
- AI / ML
- ευθυγραμμισμένος
- Όλα
- Επιτρέποντας
- επιτρέπει
- κατά μήκος
- Επίσης
- εναλλακτική λύση
- Αν και
- Amazon
- Κατανοήστε το Amazon
- Amazon RDS
- Textract Amazon
- Amazon υπηρεσίες Web
- Ποσά
- an
- analytics
- αναλύσει
- και
- απάντηση
- Ανθρωπικός
- κάθε
- APIs
- εφαρμογές
- εφαρμοσμένος
- εφόδια
- πλησιάζω
- αρχιτεκτονική
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- γύρω
- Τέχνη
- τεχνητός
- τεχνητή νοημοσύνη
- Τεχνητή νοημοσύνη (AI)
- AS
- άποψη
- βοηθήσει
- Βοηθός
- At
- αυξάνω
- επαυξημένης
- συγγραφέας
- αυτοματοποίηση
- Αυτοματοποιημένη
- αυτομάτως
- Αυτοματοποίηση
- διαθέσιμος
- επίγνωση
- AWS
- Πελάτης AWS
- Τράπεζα
- BE
- επειδή
- γίνεται
- ήταν
- πριν
- ευεργετική
- όφελος
- ΚΑΛΎΤΕΡΟΣ
- βέλτιστες πρακτικές
- μεταξύ
- Αποκλεισμός
- Μπλοκ
- και οι δύο
- πλάτος
- Διακοπή
- φρένα
- χτίζω
- Κτίριο
- ενσωματωμένο
- επιχείρηση
- επιχειρήσεις
- αλλά
- by
- κλήσεις
- CAN
- Μπορεί να πάρει
- δυνατότητες
- πιάνω
- περίπτωση
- περιπτώσεις
- Κύτταρα
- ορισμένες
- αλυσίδα
- αλυσίδες
- πρόκληση
- πρόκληση
- αλλαγή
- Αλλαγές
- αλλαγή
- έλεγχοι
- επιλογή
- αξιώσεις
- τάξη
- τάξεις
- ταξινόμηση
- Ταξινόμηση
- κωδικός
- ΣΥΝΑΦΗΣ
- συνεργασία
- Στήλη
- Στήλες
- συνδυασμός
- συνδυασμός
- έρχεται
- Κοινός
- συνήθως
- Επικοινωνία
- σύμφωνος
- πλήρης
- συγκρότημα
- περίπλοκο
- κατανοώ
- συνοπτικός
- συνέδρια
- Συνδετικός
- συνεπής
- αποτελείται
- περιορισμούς
- κατασκευάσει
- περιέχουν
- που περιέχονται
- Περιέχει
- περιεχόμενο
- συμφραζόμενα
- συμφραζόμενα
- μετατρέψετε
- πυρήνας
- διορθώσει
- Διορθώθηκε
- Διορθώσεις
- θα μπορούσε να
- σκάφος
- δημιουργημένο
- δημιουργεί
- κρίσιμος
- έθιμο
- πελάτης
- Πελάτες
- Χορός
- ημερομηνία
- Δεδομένα Analytics
- βάση δεδομένων
- βάσεις δεδομένων
- Ημερομηνία
- Ημερομηνίες
- συμφωνία
- βαθύς
- βαθύτερη
- ορίζεται
- ορίζεται
- καθορίζοντας
- κατέδειξε
- Σε συνάρτηση
- καταθέσεις
- βάθος
- περιγράφεται
- περιγραφή
- σχέδιο
- επιθυμητή
- λεπτομέρεια
- λεπτομερής
- καθέκαστα
- ανίχνευση
- Προσδιορίστε
- ανάπτυξη
- προγραμματιστές
- Διατροφή
- διαφορετικές
- κατευθείαν
- συζητήσουν
- συζήτηση
- κατάδυση
- διαιρούν
- χωρίζει
- do
- Γιατρός
- έγγραφο
- τεκμηρίωση
- έγγραφα
- ελαφίνα
- Όχι
- πράξη
- Don
- γίνεται
- Μην
- κάτω
- δραματικά
- δυο
- κατά την διάρκεια
- δυναμικός
- e
- κάθε
- Νωρίτερα
- εύκολα
- εύκολο στη χρήση
- αποτελεσματικά
- αποδοτικότητα
- αποτελεσματικός
- αποτελεσματικά
- προσπάθειες
- είτε
- στοιχεία
- embed
- μισθωτών
- εξουσιοδοτεί
- ενεργοποιήσετε
- δίνει τη δυνατότητα
- ενεργοποίηση
- τέλος
- Μηχανική
- ενίσχυση
- ενισχυμένη
- ενίσχυση
- εξασφαλίζω
- εξασφαλίζοντας
- Ολόκληρος
- οντότητες
- οντότητα
- εξοπλισμένο
- λάθη
- ουσιώδης
- Even
- παράδειγμα
- Εκτός
- εξαίρεση
- υφιστάμενα
- εμπειρία
- εξειδίκευση
- Εξηγήστε
- εξήγησε
- Εξηγεί
- εξήγηση
- ρητά
- έκφραση
- επεκτείνουν
- επέκταση
- εκτενής
- εκχύλισμα
- εξαγωγή
- Εκχυλίσματα
- Πτώση
- ψευδής
- μακριά
- κούραση
- Πεδία
- Εικόνα
- τελικός
- Τελικά
- οικονομικός
- Χρηματοοικονομικός τομέας
- Όνομα
- ταιριάζουν
- Συγκέντρωση
- εστιάζει
- ακολουθήστε
- ακολουθείται
- Εξής
- εξής
- Για
- μορφή
- μορφές
- Βρέθηκαν
- Θεμέλιο
- Πλαίσιο
- Δωρεάν
- συχνά
- από
- Σύνορο
- πλήρη
- πλήρως
- περαιτέρω
- μελλοντικός
- General
- παράγουν
- παράγεται
- δημιουργεί
- παραγωγής
- γενεά
- γενετική
- Παραγωγική τεχνητή νοημοσύνη
- παίρνω
- Δώστε
- δεδομένου
- Παγκόσμιο
- γραμματική
- πιάσιμο
- μεγαλύτερη
- Group
- καθοδηγήσει
- χέρι
- λαβή
- συμβαίνω
- Συμβαίνει
- υλικού
- Έχω
- κεφαλίδες
- υγειονομική περίθαλψη
- βαριά
- βοήθεια
- χρήσιμο
- βοήθεια
- βοηθά
- αυτήν
- εδώ
- υψηλού επιπέδου
- υψηλή απόδοση
- υψηλότερο
- κατέχει
- νοσοκομείο
- Πως
- Πώς να
- Ωστόσο
- HTML
- HTTPS
- ανθρώπινος
- i
- ID
- προσδιορίζονται
- if
- απεικονίζει
- εικόνα
- πάρα πολύ
- Επίπτωση
- εισαγωγή
- σημαντικό
- εισαγωγή
- επιβάλλω
- βελτίωση
- in
- Συμπεριλαμβανομένου
- ευρετήριο
- βιομηχανία
- πληροφορίες
- Εποχή της πληροφορίας
- Καινοτομία
- εισαγωγή
- ιδέες
- παράδειγμα
- οδηγίες
- ασφάλιση
- ενσωματώσει
- ενσωματωθεί
- Ενσωμάτωση
- ολοκλήρωση
- Νοημοσύνη
- Έξυπνος
- Έξυπνη επεξεργασία εγγράφων
- προορίζονται
- εσωτερικώς
- σε
- περιπλοκές
- εισαγάγει
- εισήγαγε
- Εισάγει
- IT
- ΤΟΥ
- Τζάκσον
- Γιάννης
- JOHN DOE
- jon
- jpg
- json
- μόλις
- Κλειδί
- πλήκτρα
- Ξέρω
- γνώση
- γνωστός
- Γλώσσα
- large
- σχέδιο
- οδηγήσει
- ηγέτης
- που οδηγεί
- μάθηση
- αφήνοντας
- Βιβλιοθήκη
- Μου αρέσει
- Πιθανός
- περιορισμούς
- όρια
- Λιστα
- LLM
- φορτίο
- φορτωτής
- λογική
- ματιά
- Παρτίδα
- μηχανή
- μάθηση μηχανής
- Κατασκευή
- διαχείριση
- ευχείριστος
- διαχειρίζεται
- διαχείριση
- Ταχύτητες
- κατασκευής
- μαρκαρισμένος
- μαθηματικά
- Ενδέχεται..
- me
- νόημα
- νόημα
- μέσα
- μηχανισμός
- μηχανισμούς
- Meetups
- Μνήμη
- Meta
- Μεταδεδομένα
- μέθοδος
- μέθοδοι
- ενδέχεται να
- νου
- χάσετε
- λάθη
- ML
- μοντέλο
- μοντέλα
- Μονάδα μέτρησης
- περισσότερο
- υποθήκες
- πλέον
- πολλαπλούς
- όνομα
- ονόματα
- Φυσικό
- Επεξεργασία φυσικής γλώσσας
- απαραίτητος
- Ανάγκη
- που απαιτούνται
- ανάγκες
- Νέα
- επόμενη
- την επόμενη εβδομάδα
- nlp
- σημειωματάριο
- τώρα
- αποχρώσεις
- αριθμός
- αντικείμενο
- αντικειμένων
- of
- προσφορές
- συχνά
- on
- ONE
- αποκλειστικά
- ανοικτού κώδικα
- λειτουργίες
- Ευκαιρία
- βέλτιστη
- Επιλογές
- or
- οργανώσεις
- πρωτότυπο
- ΑΛΛΑ
- αλλιώς
- δικός μας
- έξω
- Αποτέλεσμα
- παραγωγή
- εξόδους
- εκτός
- επί
- επισκόπηση
- Packages
- σελίδα
- σελίδες
- Πόνος
- ζεύγη
- ζεύγη
- μέρος
- ιδιαίτερα
- passieren
- πέρασε
- Πέρασμα
- παθιασμένος
- μονοπάτι
- ασθενής
- πρότυπο
- πρότυπα
- για
- Εκτελέστε
- επίδοση
- εκτελούνται
- εκτέλεση
- εκτελεί
- φάση
- phd
- φράσεις
- αγωγού
- σχέδιο
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- σας παρακαλούμε
- πνευμονία
- σημεία
- Δημοφιλής
- δυνατός
- Θέση
- δυναμικού
- δύναμη
- τροφοδοτείται
- ισχυρός
- πρακτικές
- ακριβώς
- Ακρίβεια
- προτιμάται
- παρόν
- προηγουμένως
- πρωτίστως
- εκτυπώσεις
- Πρόβλημα
- προβλήματα
- διαδικασια μας
- Επεξεργασμένο
- μεταποίηση
- παράγει
- Υπόσχεται
- κατάλληλος
- παρέχουν
- παρέχεται
- προμηθευτής
- παρέχει
- Python
- Ερωτήσεις και απαντήσεις
- ποιότητα
- ερώτηση
- Γρήγορα
- γρήγορα
- Ακατέργαστος
- Ανάγνωση
- αναγνωρίζω
- μείωση
- παραπέμπω
- αναφορά
- αναφέρεται
- Σχέσεις
- βασίζονται
- βασιζόμενοι
- αξιοσημείωτος
- αναφέρουν
- εκπροσωπώ
- εκπροσωπούν
- απαιτείται
- Απαιτεί
- αντίστοιχα
- απαντήσεις
- περιορισμούς
- αποτέλεσμα
- με αποτέλεσμα
- Αποτελέσματα
- λιανική πώληση
- διατηρώ
- συγκράτησης
- Επιστροφές
- Πλούσιος
- Δωμάτιο
- κανόνες
- τρέξιμο
- τρέχει
- s
- ασφάλεια
- ίδιο
- λένε
- Κλίμακα
- σενάρια
- προγραμματιστεί
- Αναζήτηση
- Δεύτερος
- Τμήμα
- τμήματα
- τομέας
- δείτε
- τμήματα
- επιλέγονται
- αρχαιότερος
- ποινή
- Σειρές
- εξυπηρετούν
- εξυπηρετεί
- υπηρεσία
- Υπηρεσίες
- σειρά
- αυστηρός
- αυτή
- Κοντά
- θα πρέπει να
- παρουσιάζεται
- Δείχνει
- σημαντικός
- ενιαίας
- small
- μικρότερος
- Απόσπασμα
- So
- μόνο
- Λύσεις
- SOLVE
- μερικοί
- Πηγή
- Χώρος
- Μιλάει
- ειδικός
- συγκεκριμένες
- ειδικά
- καθορίζεται
- ορθογραφία
- διαίρεση
- στάδια
- τυποποίηση
- Εκκίνηση
- ξεκίνησε
- state-of-the-art
- Δήλωση
- Βήμα
- Βήματα
- Ακόμη
- κατάστημα
- αποθηκεύονται
- καταστήματα
- δυνατά
- Σπάγγος
- κατασκευαστικός
- δομή
- δομημένος
- Πάλη
- μεταγενέστερος
- Ακολούθως
- τέτοιος
- προτείνω
- συνοψίζω
- ΠΕΡΙΛΗΨΗ
- προμήθεια
- αλυσίδας εφοδιασμού
- υποστήριξη
- Υποστηρίζει
- συνεργία
- συστήματα
- τραπέζι
- Πάρτε
- παίρνει
- Έργο
- εργασίες
- τεχνική
- τεχνικές
- τεχνολόγος
- Τεχνολογία
- πρότυπο
- όροι
- κείμενο
- κείμενο
- από
- ότι
- Η
- ο κόσμος
- τους
- Τους
- τότε
- Εκεί.
- επομένως
- Αυτοί
- αυτοί
- αυτό
- σκέψη
- τρία
- Μέσω
- Τιτάν
- προς την
- σήμερα
- σημερινή
- μαζι
- ένδειξη
- κουπόνια
- TONE
- εργαλεία
- κορυφή
- Σύνολο
- παραδοσιακός
- Ακολουθίας
- Εκπαίδευση
- Συναλλαγές
- Μεταμορφώστε
- μετασχηματισμούς
- αληθής
- προσπαθώ
- δύο
- τύπος
- τύποι
- καταλαβαίνω
- κατανόηση
- διαφορετικός
- αποκαλυπτήρια
- URL
- χρήση
- περίπτωση χρήσης
- μεταχειρισμένος
- Χρήστες
- χρησιμοποιεί
- χρησιμοποιώντας
- χρησιμοποιούνται
- αξιοποιώντας
- v1
- αξία
- Αξίες
- μεταβλητή
- διάφορα
- Σταθερή
- πολύπλευρος
- εκδοχή
- μέσω
- Δες
- όγκους
- περιδιάβαση
- θέλω
- ήταν
- Τρόπος..
- we
- ιστός
- διαδικτυακές υπηρεσίες
- εβδομάδα
- ΛΟΙΠΌΝ
- Τι
- πότε
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- θα
- με
- εντός
- χωρίς
- μάρτυρες
- λέξη
- λόγια
- Εργασία
- ροής εργασίας
- ροές εργασίας
- εργαζόμενος
- λειτουργεί
- κόσμος
- θα
- γραπτή
- X
- χρόνια
- Εσείς
- zephyrnet