Geben Sie Informationen aus Dokumenten an und extrahieren Sie sie mithilfe der neuen Abfragefunktion in Amazon Textract

Neuauflage von Plato

Verfolger: 0

Amazontext ist ein Dienst für maschinelles Lernen (ML), der automatisch Text, Handschrift und Daten aus jedem Dokument oder Bild extrahiert. Amazon Textract bietet jetzt die Flexibilität, die Daten anzugeben, die Sie aus Dokumenten extrahieren müssen, indem Sie die neue Abfragefunktion innerhalb der Analyze Document API verwenden. Sie müssen die Struktur der Daten im Dokument (Tabelle, Formular, implizites Feld, verschachtelte Daten) nicht kennen und sich auch keine Gedanken über Unterschiede zwischen Dokumentversionen und -formaten machen.

In diesem Beitrag diskutieren wir folgende Themen:

Erfolgsgeschichten von AWS-Kunden und Vorteile der neuen Abfragefunktion
Wie die Analyze Document Queries API dabei hilft, Informationen aus Dokumenten zu extrahieren
Eine exemplarische Vorgehensweise für die Amazon Textract-Konsole
Codebeispiele zur Verwendung der Analyze Document Queries API
So verarbeiten Sie die Antwort mit der Amazon Textract-Parser-Bibliothek

Vorteile der neuen Abfragefunktion

Herkömmliche OCR-Lösungen haben Schwierigkeiten, Daten aus den meisten halbstrukturierten und unstrukturierten Dokumenten genau zu extrahieren, da die Daten in verschiedenen Versionen und Formaten dieser Dokumente sehr unterschiedlich angeordnet sind. Sie müssen benutzerdefinierten Nachbearbeitungscode implementieren oder die extrahierten Informationen aus diesen Dokumenten manuell überprüfen. Mit der Abfragefunktion können Sie die benötigten Informationen in Form von Fragen in natürlicher Sprache angeben (z. B. „Wie lautet der Name des Kunden“) und erhalten die genauen Informationen („John Doe“) als Teil der API-Antwort. Die Funktion nutzt eine Kombination aus visuellen, räumlichen und sprachlichen Modellen, um die gesuchten Informationen mit hoher Genauigkeit zu extrahieren. Die Abfragefunktion ist für eine Vielzahl halbstrukturierter und unstrukturierter Dokumente vorab trainiert. Einige Beispiele sind Gehaltsabrechnungen, Kontoauszüge, W-2-Formulare, Kreditantragsformulare, Hypothekenbriefe sowie Impf- und Versicherungskarten.

"Mit Amazon Textract können wir die Dokumentenverarbeitungsanforderungen unserer Kunden automatisieren. Mit der Abfragefunktion können wir Daten aus einer Vielzahl von Dokumenten mit noch größerer Flexibilität und Genauigkeit extrahieren." sagte Robert Jansen, Chief Executive Officer bei TekStream Solutions. "Wir sehen darin einen großen Produktivitätsgewinn für unsere Geschäftskunden, die die Abfragefunktion als Teil unserer IDP-Lösung nutzen können, um schnell wichtige Informationen aus ihren Dokumenten abzurufen."

"Mit Amazon Textract können wir Text sowie strukturierte Elemente wie Formulare und Tabellen mit hoher Genauigkeit aus Bildern extrahieren. Amazon Textract Queries hat uns dabei geholfen, die Qualität der Informationsextraktion aus mehreren geschäftskritischen Dokumenten wie Sicherheitsdatenblättern oder Materialspezifikationen drastisch zu verbessern" sagte Thorsten Warnecke, Rektor | Leiter PC Analytics, Camelot Management Consultants. "Das Abfragesystem in natürlicher Sprache bietet große Flexibilität und Genauigkeit, was unseren Nachbearbeitungsaufwand reduziert und es uns ermöglicht hat, neue Dokumente schneller zu unseren Datenextraktionstools hinzuzufügen."

Wie die Analyze Document Queries API dabei hilft, Informationen aus Dokumenten zu extrahieren

Unternehmen haben die Nutzung digitaler Plattformen verstärkt, insbesondere vor dem Hintergrund der COVID-19-Pandemie. Die meisten Unternehmen bieten mittlerweile eine digitale Möglichkeit an, ihre Dienste und Produkte über Smartphones und andere mobile Geräte zu erwerben, was den Benutzern Flexibilität bietet, aber auch den Umfang erhöht, in dem digitale Dokumente überprüft, verarbeitet und analysiert werden müssen. Bei manchen Arbeitslasten, bei denen beispielsweise Hypothekendokumente, Impfausweise, Gehaltsabrechnungen, Versicherungskarten und andere Dokumente digital analysiert werden müssen, kann die Komplexität der Datenextraktion exponentiell zunehmen, weil diese Dokumente kein Standardformat haben oder erhebliche Unterschiede im Datenformat aufweisen über verschiedene Versionen des Dokuments hinweg.

Selbst leistungsstarke OCR-Lösungen haben Schwierigkeiten, Daten genau aus diesen Dokumenten zu extrahieren, und Sie müssen möglicherweise eine benutzerdefinierte Nachbearbeitung für diese Dokumente implementieren. Dazu gehört die Zuordnung möglicher Variationen von Formularschlüsseln zu kundeneigenen Feldnamen oder die Einbeziehung von benutzerdefiniertem maschinellem Lernen, um bestimmte Informationen in einem unstrukturierten Dokument zu identifizieren.

Die neue Analyze Document Queries API in Amazon Textract kann schriftliche Fragen in natürlicher Sprache beantworten, wie zum Beispiel „Wie hoch ist der Zinssatz?“ und führen Sie leistungsstarke KI- und ML-Analysen für das Dokument durch, um die gewünschten Informationen herauszufinden und sie ohne Nachbearbeitung aus dem Dokument zu extrahieren. Für die Abfragefunktion ist kein benutzerdefiniertes Modelltraining oder das Einrichten von Vorlagen oder Konfigurationen erforderlich. Sie können schnell loslegen, indem Sie Ihre Dokumente hochladen und Fragen zu diesen Dokumenten über die Amazon Textract-Konsole angeben AWS-Befehlszeilenschnittstelle (AWS CLI) oder AWS SDK.

In den folgenden Abschnitten dieses Beitrags gehen wir detaillierte Beispiele für die Verwendung dieser neuen Funktionalität in häufigen Workload-Anwendungsfällen durch und wie Sie die Analyze Document Queries-API verwenden, um den Prozess der Digitalisierung Ihrer Workload flexibler zu gestalten.

Verwenden Sie die Abfragefunktion in der Amazon Textract-Konsole

Bevor wir mit der API und den Codebeispielen beginnen, werfen wir einen Blick auf die Amazon Textract-Konsole. Das folgende Bild zeigt ein Beispiel für einen Impfausweis Abfragen Registerkarte für die Analyze Document API in der Amazon Textract-Konsole. Nachdem Sie das Dokument in die Amazon Textract-Konsole hochgeladen haben, wählen Sie Abfragen der Dokument konfigurieren Abschnitt. Anschließend können Sie Abfragen in Form von Fragen in natürlicher Sprache hinzufügen. Nachdem Sie alle Ihre Abfragen hinzugefügt haben, wählen Sie Konfiguration anwenden. Die Antworten auf die Fragen finden Sie auf der Abfragen Tab.

Codebeispiele

In diesem Abschnitt erklären wir, wie Sie die Analyze Document API mit dem Parameter „Queries“ aufrufen, um Antworten auf Fragen in natürlicher Sprache zum Dokument zu erhalten. Das Eingabedokument liegt entweder im Byte-Array-Format vor oder befindet sich in einem Amazon Simple Storage-Service (Amazon S3) Eimer. Mithilfe der Bytes-Eigenschaft übergeben Sie Bildbytes an eine Amazon Textract-API-Operation. Sie können zum Beispiel die verwenden Bytes Eigenschaft, um ein aus einem lokalen Dateisystem geladenes Dokument zu übergeben. Bildbytes, die mithilfe von übergeben werden Bytes Die Eigenschaft muss Base64-codiert sein. Ihr Code muss möglicherweise keine Dokumentdateibytes kodieren, wenn Sie ein AWS SDK zum Aufrufen von Amazon Textract-API-Operationen verwenden. Alternativ können Sie in einem S3-Bucket gespeicherte Bilder mithilfe von an eine Amazon Textract-API-Operation übergeben S3Object Eigentum. In einem S3-Bucket gespeicherte Dokumente müssen nicht Base64-codiert sein.

Sie können die Funktion „Abfragen“ verwenden, um Antworten aus verschiedenen Arten von Dokumenten wie Gehaltsabrechnungen, Impfausweisen, Hypothekendokumenten, Kontoauszügen, W-2-Formularen, 1099-Formularen und anderen zu erhalten. In den folgenden Abschnitten gehen wir einige dieser Dokumente durch und zeigen, wie die Abfragefunktion funktioniert.

Gehaltsabrechnung

In diesem Beispiel führen wir die Schritte zur Analyse einer Gehaltsabrechnung mithilfe der Abfragefunktion durch, wie im folgenden Beispielbild dargestellt.

Wir verwenden den folgenden Beispiel-Python-Code:

import boto3
import json #create a Textract Client
textract = boto3.client('textract') image_filename = "paystub.jpg" response = None
with open(image_filename, 'rb') as document: imageBytes = bytearray(document.read()) # Call Textract AnalyzeDocument by passing a document from local disk
response = textract.analyze_document( Document={'Bytes': imageBytes}, FeatureTypes=["QUERIES"], QueriesConfig={ "Queries": [{ "Text": "What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS" }, { "Text": "What is the current gross pay?", "Alias": "PAYSTUB_CURRENT_GROSS" }] })

Der folgende Code ist ein Beispiel für einen AWS CLI-Befehl:

aws textract analyze-document —document '{"S3Object":{"Bucket":"your-s3-bucket","Name":"paystub.jpg"}}' —feature-types '["QUERIES"]' —queries-config '{"Queries":[{"Text":"What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS"}]}'

Lassen Sie uns die Antwort analysieren, die wir für die beiden Abfragen erhalten, die wir im vorherigen Beispiel an die Analyze Document API übergeben haben. Die folgende Antwort wurde gekürzt, um nur die relevanten Teile anzuzeigen:

{ "BlockType":"QUERY", "Id":"cbbba2fa-45be-452b-895b-adda98053153", #id of first QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT ] } ], "Query":{ "Text":"What is the year to date gross pay", #First Query "Alias":"PAYSTUB_YTD_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":87.0, "Text":"23,526.80", #Answer to the first Query "Geometry":{...}, "Id":"f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT }, { "BlockType":"QUERY", "Id":"4e2a17f0-154f-4847-954c-7c2bf2670c52", #id of second QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "350ab92c-4128-4aab-a78a-f1c6f6718959"#id of second QUERY_RESULT ] } ], "Query":{ "Text":"What is the current gross pay?", #Second Query "Alias":"PAYSTUB_CURRENT_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":95.0, "Text":"$ 452.43", #Answer to the Second Query "Geometry":{...}, "Id":"350ab92c-4128-4aab-a78a-f1c6f6718959" #id of second QUERY_RESULT }

Die Antwort hat eine BlockType of QUERY das zeigt die gestellte Frage und a Relationships Abschnitt, der die ID für den Block enthält, der die Antwort enthält. Die Antwort liegt in der BlockType of QUERY_RESULT. Der Alias, der als Eingabe an die Analyze Document API übergeben wird, wird als Teil der Antwort zurückgegeben und kann zur Kennzeichnung der Antwort verwendet werden.

Wir nutzen die Amazon Textract-Antwort-Parser um nur die Fragen, den Alias und die entsprechenden Antworten auf diese Fragen zu extrahieren:

import trp.trp2 as t2 d = t2.TDocumentSchema().load(response)
page = d.pages[0] # get_query_answers returns a list of [query, alias, answer]
query_answers = d.get_query_answers(page=page)
for x in query_answers: print(f"{image_filename},{x[1]},{x[2]}") from tabulate import tabulate
print(tabulate(query_answers, tablefmt="github"))

Der vorangehende Code gibt die folgenden Ergebnisse zurück:

|------------------------------------|-----------------------|-----------|
| What is the current gross pay? | PAYSTUB_CURRENT_GROSS | $ 452.43 |
| What is the year to date gross pay | PAYSTUB_YTD_GROSS | 23,526.80 |

Weitere Fragen und den vollständigen Code finden Sie im Notizbuch auf der GitHub Repo.

Hypothekennotiz

Die Analyze Document Queries API funktioniert auch gut mit Hypothekenbriefen wie den folgenden.

Der Prozess zum Aufrufen der API und zum Verarbeiten der Ergebnisse ist derselbe wie im vorherigen Beispiel. Das vollständige Codebeispiel finden Sie auf der GitHub Repo.

Der folgende Code zeigt die Beispielantworten, die mit der API erhalten wurden:

|------------------------------------------------------------|----------------------------------|---------------|
| When is this document dated? | MORTGAGE_NOTE_DOCUMENT_DATE | March 4, 2022 |
| What is the note date? | MORTGAGE_NOTE_DATE | March 4, 2022 |
| When is the Maturity date the borrower has to pay in full? | MORTGAGE_NOTE_MATURITY_DATE | April, 2032 |
| What is the note city and state? | MORTGAGE_NOTE_CITY_STATE | Anytown, ZZ |
| what is the yearly interest rate? | MORTGAGE_NOTE_YEARLY_INTEREST | 4.150% |
| Who is the lender? | MORTGAGE_NOTE_LENDER | AnyCompany |
| When does payments begin? | MORTGAGE_NOTE_BEGIN_PAYMENTS | April, 2022 |
| What is the beginning date of payment? | MORTGAGE_NOTE_BEGIN_DATE_PAYMENT | April, 2022 |
| What is the initial monthly payments? | MORTGAGE_NOTE_MONTHLY_PAYMENTS | $ 2500 |
| What is the interest rate? | MORTGAGE_NOTE_INTEREST_RATE | 4.150% |
| What is the principal amount borrower has to pay? | MORTGAGE_NOTE_PRINCIPAL_PAYMENT | $ 500,000 |

Impfausweis

Die Funktion „Amazon Textract Queries“ eignet sich auch sehr gut zum Extrahieren von Informationen aus Impfkarten oder Karten, die diesen ähneln, wie im folgenden Beispiel.

Der Prozess zum Aufrufen der API und zum Analysieren der Ergebnisse ist derselbe wie bei einer Gehaltsabrechnung. Nachdem wir die Antwort verarbeitet haben, erhalten wir die folgenden Informationen:

|------------------------------------------------------------|--------------------------------------|--------------|
| What is the patients first name | PATIENT_FIRST_NAME | Major |
| What is the patients last name | PATIENT_LAST_NAME | Mary |
| Which clinic site was the 1st dose COVID-19 administrated? | VACCINATION_FIRST_DOSE_CLINIC_SITE | XYZ |
| Who is the manufacturer for 1st dose of COVID-19? | VACCINATION_FIRST_DOSE_MANUFACTURER | Pfizer |
| What is the date for the 2nd dose covid-19? | VACCINATION_SECOND_DOSE_DATE | 2/8/2021 |
| What is the patient number | PATIENT_NUMBER | 012345abcd67 |
| Who is the manufacturer for 2nd dose of COVID-19? | VACCINATION_SECOND_DOSE_MANUFACTURER | Pfizer |
| Which clinic site was the 2nd dose covid-19 administrated? | VACCINATION_SECOND_DOSE_CLINIC_SITE | CVS |
| What is the lot number for 2nd dose covid-19? | VACCINATION_SECOND_DOSE_LOT_NUMBER | BB5678 |
| What is the date for the 1st dose covid-19? | VACCINATION_FIRST_DOSE_DATE | 1/18/21 |
| What is the lot number for 1st dose covid-19? | VACCINATION_FIRST_DOSE_LOT_NUMBER | AA1234 |
| What is the MI? | MIDDLE_INITIAL | M |

Den vollständigen Code finden Sie im Notizbuch auf der GitHub Repo.

Versicherungskarte

Die Abfragefunktion funktioniert auch gut mit Versicherungskarten wie den folgenden.

Der Prozess zum Aufrufen der API und zum Verarbeiten der Ergebnisse ist derselbe wie zuvor gezeigt. Das vollständige Codebeispiel finden Sie im Notebook auf der GitHub Repo.

Im Folgenden sind die Beispielantworten aufgeführt, die mit der API erhalten wurden:

|-------------------------------------|-----------------------------------|---------------|
| What is the insured name? | INSURANCE_CARD_NAME | Jacob Michael |
| What is the level of benefits? | INSURANCE_CARD_LEVEL_BENEFITS | SILVER |
| What is medical insurance provider? | INSURANCE_CARD_PROVIDER | Anthem |
| What is the OOP max? | INSURANCE_CARD_OOP_MAX | $6000/$12000 |
| What is the effective date? | INSURANCE_CARD_EFFECTIVE_DATE | 11/02/2021 |
| What is the office visit copay? | INSURANCE_CARD_OFFICE_VISIT_COPAY | $55/0% |
| What is the specialist visit copay? | INSURANCE_CARD_SPEC_VISIT_COPAY | $65/0% |
| What is the member id? | INSURANCE_CARD_MEMBER_ID | XZ 9147589652 |
| What is the plan type? | INSURANCE_CARD_PLAN_TYPE | Pathway X-EPO |
| What is the coinsurance amount? | INSURANCE_CARD_COINSURANCE | 30% |

Best Practices zum Erstellen von Abfragen

Berücksichtigen Sie beim Erstellen Ihrer Abfragen die folgenden Best Practices:

Stellen Sie im Allgemeinen eine Frage in natürlicher Sprache, die mit „Was ist“, „Wo ist“ oder „Wer ist“ beginnt. Die Ausnahme besteht, wenn Sie versuchen, Standard-Schlüssel-Wert-Paare zu extrahieren. In diesem Fall können Sie den Schlüsselnamen als Abfrage übergeben.
Vermeiden Sie schlecht formulierte oder grammatikalisch falsche Fragen, da diese zu unerwarteten Antworten führen können. Eine falsch formulierte Abfrage lautet beispielsweise „Wann?“ wohingegen eine wohlgeformte Frage lautet: „Wann wurde die erste Impfdosis verabreicht?“
Verwenden Sie nach Möglichkeit Wörter aus dem Dokument, um die Abfrage zu erstellen. Obwohl die Abfragefunktion versucht, Akronyme und Synonyme für einige gängige Branchenbegriffe wie „SSN“, „Steuer-ID“ und „Sozialversicherungsnummer“ abzugleichen, verbessert die Verwendung der Sprache direkt aus dem Dokument die Ergebnisse. Wenn im Dokument beispielsweise „Jobfortschritt“ steht, vermeiden Sie Variationen wie „Projektfortschritt“, „Programmfortschritt“ oder „Jobstatus“.
Erstellen Sie eine Abfrage, die Wörter sowohl aus der Zeilenüberschrift als auch aus der Spaltenüberschrift enthält. Um beispielsweise im obigen Impfausweis-Beispiel das Datum der zweiten Impfung zu erfahren, können Sie die Abfrage wie folgt formulieren: „An welchem Datum wurde die zweite Dosis verabreicht?“
Lange Antworten erhöhen die Antwortlatenz und können zu Zeitüberschreitungen führen. Versuchen Sie, Fragen zu stellen, deren Antworten weniger als 100 Wörter umfassen.
Die Übergabe nur des Schlüsselnamens als Frage funktioniert, wenn versucht wird, Standard-Schlüssel-Wert-Paare aus einem Formular zu extrahieren. Wir empfehlen, für alle anderen Extraktionsanwendungsfälle vollständige Fragen zu formulieren.
Seien Sie so konkret wie möglich. Zum Beispiel:
- Wenn das Dokument mehrere Abschnitte enthält (z. B. „Kreditnehmer“ und „Mitkreditnehmer“) und beide Abschnitte ein Feld namens „SSN“ enthalten, fragen Sie „Was ist die SSN für den Kreditnehmer?“ und „Was ist die SSN für Mitkreditnehmer?“
- Wenn das Dokument mehrere datumsbezogene Felder enthält, geben Sie in der Abfragesprache eine genaue Angabe ein und fragen Sie: „An welchem Datum wurde das Dokument unterzeichnet?“ oder „Was ist das Geburtsdatum des Antrags?“ Vermeiden Sie zweideutige Fragen wie „Welches Datum ist das?“
Wenn Sie das Layout des Dokuments im Voraus kennen, geben Sie Hinweise zur Position, um die Genauigkeit der Ergebnisse zu verbessern. Fragen Sie zum Beispiel: „Welches Datum steht oben?“ oder „Welches Datum steht links?“ oder „Wie lautet das Datum unten?“

Weitere Informationen zur Abfragefunktion finden Sie im Textract Dokumentation.

Zusammenfassung

In diesem Beitrag haben wir einen Überblick über die neue Abfragefunktion von Amazon Textract gegeben, mit der Sie schnell und einfach Informationen aus Dokumenten wie Gehaltsabrechnungen, Hypothekenbriefen, Versicherungskarten und Impfausweisen basierend auf Fragen in natürlicher Sprache abrufen können. Wir haben auch beschrieben, wie Sie die JSON-Antwort analysieren können.

Für weitere Informationen, siehe Dokumente analysieren , oder schauen Sie sich die Amazon Textract-Konsole an und probieren Sie diese Funktion aus.

Über die Autoren

Uday Narayanan ist Sr. Solutions Architect bei AWS. Es macht ihm Freude, Kunden bei der Suche nach innovativen Lösungen für komplexe geschäftliche Herausforderungen zu unterstützen. Seine Schwerpunkte sind Datenanalyse, Big-Data-Systeme und maschinelles Lernen. In seiner Freizeit treibt er gerne Sport, schaut sich gerne Fernsehsendungen an und reist gerne.

Rafael Caixeta ist Sr. Solutions Architect bei AWS mit Sitz in Kalifornien. Er verfügt über mehr als 10 Jahre Erfahrung in der Entwicklung von Architekturen für die Cloud. Seine Kerngebiete sind Serverless, Container und maschinelles Lernen. In seiner Freizeit liest er gerne Belletristik und reist um die Welt.

Navneeth Nair ist Senior Product Manager, Technical im Amazon Textract-Team. Sein Schwerpunkt liegt auf der Entwicklung von auf maschinellem Lernen basierenden Diensten für AWS-Kunden.

Martin Schade ist eine Senior ML Product SA mit dem Amazon Textract-Team. Er verfügt über mehr als 20 Jahre Erfahrung mit internetbezogenen Technologien, Engineering- und Architekturlösungen. Er kam 2014 zu AWS und leitete zunächst einige der größten AWS-Kunden zur effizientesten und skalierbarsten Nutzung von AWS-Services und konzentrierte sich später auf KI/ML mit Schwerpunkt auf Computer Vision. Derzeit ist er davon besessen, Informationen aus Dokumenten zu extrahieren.

Zeitstempel: 21. April 2022

Zeitstempel: 9. Mai 2023

Neuauflage von Plato

Erstellen Sie einen leistungsstarken Frage-Antwort-Bot mit Amazon SageMaker, Amazon OpenSearch Service, Streamlit und LangChain | Amazon Web Services

Steigern Sie Ihre Inhaltsbearbeitung mit Contentful und Amazon Bedrock | Amazon Web Services

Erstellen Sie mit Amazon SageMaker Ground Truth einen benutzerdefinierten Q&A-Datensatz, um ein Hugging Face Q&A NLU-Modell zu trainieren

AWS Localization verwendet Amazon Translate, um die Lokalisierung zu skalieren

Metriken zur Bewertung der Inhaltsmoderation in Amazon Rekognition und anderen Inhaltsmoderationsdiensten

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto