Suchen Sie präzise nach Antworten mit dem Amazon Kendra S3 Connector mit VPC-Unterstützung

Neuauflage von Plato

Verfolger: 0

Amazon Kendra ist ein benutzerfreundlicher intelligenter Suchdienst, mit dem Sie Suchfunktionen in Ihre Anwendungen integrieren können, sodass Benutzer Informationen finden können, die über Datenquellen hinweg gespeichert sind, z Amazon Simple Storage-Service , OneDrive und Google Drive; Anwendungen wie SalesForce, SharePoint und Service Now; und relationale Datenbanken wie Relationaler Amazon-Datenbankdienst (Amazon-RDS). Durch die Verwendung von Amazon Kendra-Konnektoren können Sie Daten aus mehreren Inhaltsrepositorys mit Ihrem Amazon Kendra-Index synchronisieren. Wenn Endbenutzer Fragen in natürlicher Sprache stellen, verwendet Amazon Kendra Algorithmen für maschinelles Lernen (ML), um den Kontext zu verstehen und die relevantesten Antworten zurückzugeben.

Der S3-Konnektor von Amazon Kendra unterstützt die Indizierung von Dokumenten und den zugehörigen Metadaten, die in einem S3-Bucket gespeichert sind. Es ist oft der Fall, dass Sie sicherstellen möchten, dass Anwendungen, die in einer VPC ausgeführt werden, nur Zugriff auf bestimmte S3-Buckets haben, und in vielen Fällen darf die Verbindung nicht das Internet durchqueren, um öffentliche Endpunkte zu erreichen. Viele Kunden besitzen jedoch mehrere S3-Buckets, von denen einige zugänglich sind VPC-Endpunkte für Amazon S3. In diesem Beitrag beschreiben wir, wie Sie den aktualisierten Amazon Kendra S3-Konnektor mit VPC-Unterstützung für die Verwendung von VPC-Endpunkten verwenden.

Dieser Beitrag enthält die Schritte, die Ihnen beim Erstellen einer Unternehmenssuchmaschine auf AWS mit Amazon Kendra helfen, indem Sie Dokumente verbinden, die in einem S3-Bucket gespeichert sind, auf den nur innerhalb einer VPC zugegriffen werden kann. Weitere Informationen finden Sie unter Verbesserung der Unternehmenssuche mit Amazon Kendra. Der Beitrag zeigt auch, wie Sie Ihren Konnektor für Amazon S3 konfigurieren und konfigurieren, wie Ihr Index mit Ihrer Datenquelle synchronisiert wird, wenn sich der Inhalt Ihrer Datenquelle ändert.

Lösungsübersicht

Es gibt drei wesentliche Verbesserungen an der Amazon Kendra S3-Anschluss :

VPC-Unterstützung – Der Connector unterstützt jetzt die Verwendung von your Amazon Virtual Private Cloud (Amazon VPC)-Netzwerke. Sie können sich jetzt sicher mit Amazon S3 verbinden VPC-Endpunkte für Amazon S3 durch Angabe der VPC-Verbindung, des Subnetzes und der Sicherheitsgruppen.
Zwei Synchronisationsmodi – Wenn Sie die Synchronisierung einer Datenquelle in Amazon S3 mit einem Amazon Kendra-Index planen, können Sie jetzt wählen, ob Sie im vollständigen Synchronisierungsmodus oder im Synchronisierungsmodus für neue, geänderte und gelöschte Dokumente ausgeführt werden möchten. Im vollständigen Synchronisierungsmodus werden jedes Mal, wenn die Synchronisierung ausgeführt wird, Objekte in jedem Ordner unter dem Stammpfad gescannt, für den sie zum Crawlen konfiguriert wurden, und alle Dokumente erneut aufgenommen . Die vollständige Aktualisierung ermöglicht es Ihnen, den Index zurückzusetzen, ohne eine neue Datenquelle löschen und erstellen zu müssen. Im Synchronisierungsmodus für neue, geänderte und gelöschte Dokumente werden bei jeder Ausführung des Synchronisierungsauftrags nur Objekte verarbeitet, die seit dem letzten Crawl hinzugefügt, geändert oder gelöscht wurden. Inkrementelle Crawls können Laufzeit und Kosten reduzieren, wenn sie mit Datensätzen verwendet werden, die regelmäßig neue Objekte an vorhandene Datenquellen anhängen.
Zusätzliche Einschluss- und Ausschlussmuster für Dokumente: Zusätzlich zu den Präfixen führen wir Muster für die Aufnahme oder den Ausschluss von Dokumenten aus Ihrem Index ein. Zwei unterstützte Mustertypen sind Glob- oder Dateitypen im Unix-Stil. Sie können jetzt ein reguläres Ausdrucksmuster hinzufügen, um bestimmte Ordner einzuschließen oder Ordner, Dateitypen oder bestimmte Dateien aus Ihrer Datenquelle auszuschließen. Dies kann für gemeinsam genutzte Datenrepositorys nützlich sein, die Inhalte enthalten, die zu unterschiedlichen Kategorien, Klassifizierungen und Dateitypen gehören.

Voraussetzungen:

Für diese exemplarische Vorgehensweise sollten Sie die folgenden Voraussetzungen erfüllen:

Erstellen und konfigurieren Sie Ihr Dokumenten-Repository

Bevor Sie in Amazon Kendra einen Index erstellen können, müssen Sie Dokumente in einen S3-Bucket laden. Dieser Abschnitt enthält Anweisungen zum Erstellen eines S3-Buckets, zum Abrufen der Dateien und zum Laden in den Bucket. Nachdem Sie alle Schritte in diesem Abschnitt ausgeführt haben, verfügen Sie über eine Datenquelle, die Amazon Kendra verwenden kann.

Auf dem AWS-Managementkonsole, wählen Sie in der Regionsliste USA Ost (Nord-Virginia) oder eine beliebige Region Ihrer Wahl aus Amazon Kendra ist verfügbar in.
Auswählen Lösungen.
Der Lagerung, wählen S3.
Wählen Sie in der Amazon S3-Konsole aus Eimer erstellen.
Der Allgemeine Konfiguration, stellen Sie folgende Informationen bereit:
- Für Bucket-Name, eingeben kendrapost-{your account id}.
- Wählen Sie für Region dieselbe Region aus, die Sie zum Bereitstellen Ihres Amazon Kendra-Index verwenden (dieser Beitrag verwendet us-east-1).
- Der Bucket-Einstellungen, für Öffentlichen Zugriff blockierenBelassen Sie alles mit den Standardwerten.
Der Erweiterte EinstellungenBelassen Sie alles mit den Standardwerten.
Auswählen Eimer erstellen.
Herunterladen AWS_Whitepapers.zip und entpacken Sie die Dateien.
Wählen Sie in der Amazon S3-Konsole den soeben erstellten Bucket aus und wählen Sie Hochladen.
Laden Sie die Ordner hoch Best Practices, Databases, General und Machine Learning aus der entpackten Datei.

In Ihrem Bucket sollten Sie jetzt vier Ordner sehen.

Fügen Sie eine Datenquelle hinzu

A Datenquelle ist ein Speicherort, an dem die Dokumente für die Indizierung gespeichert werden. Sie können Datenquellen automatisch mit einem Amazon Kendra-Index synchronisieren, um sicherzustellen, dass die Suche neue, aktualisierte oder gelöschte Dokumente in den Quellrepositorys korrekt wiedergibt.

Nachdem Sie alle Schritte in diesem Abschnitt ausgeführt haben, verfügen Sie über eine mit Amazon Kendra verknüpfte Datenquelle. Weitere Informationen finden Sie unter Hinzufügen von Dokumenten aus einer Datenquelle.

Bevor Sie fortfahren, vergewissern Sie sich, dass die Indexerstellung abgeschlossen ist und der Index als angezeigt wird Aktives. Weitere Informationen finden Sie unter Erstellen eines Index.

Navigieren Sie auf der Amazon Kendra-Konsole zu Ihrem Index (für diesen Beitrag kendra-blog-index).
Auf dem kendra-blog-index Seite wählen Datenquellen hinzufügen.
Wählen Sie unter Amazon S3 Stecker hinzufügen.

Weitere Informationen zu den verschiedenen von Amazon Kendra unterstützten Datenquellen finden Sie unter Hinzufügen von Dokumenten aus einer Datenquelle.

Im Geben Sie Datenquellendetails an Abschnitt, für Name der Datenquelle, eingeben aws_white_paper.
Aussichten für Beschreibung, eingeben AWS White Paper documentation.
Auswählen Weiter.

Jetzt erstellen Sie eine AWS Identity and Access Management and (IAM)-Rolle für Amazon Kendra.

Im Definieren Sie Zugriff und Sicherheit Seite, für IAM-Rolle Wählen Sie im Abschnitt Erstellen Sie eine neue Rolle.
Geben Sie für Rollenname ein source-role (Ihrem Rollennamen wird ein Präfix vorangestellt AmazonKendra-).
Im Konfigurieren Sie VPC und Sicherheit Abschnitt, wählen Sie Ihren VPC, und geben Sie Ihr ein Subnetze und VPC-Sicherheitsgruppen.

Weitere Informationen zum Verbinden Ihres Amazon Kendra mit Ihrer Amazon Virtual Private Cloud finden Sie unter Konfigurieren von Amazon Kendra für die Verwendung einer VPC.

Auswählen Weiter.
Im Konfigurieren Sie die Synchronisierungseinstellungen Seite, für Geben Sie den Speicherort der Datenquelle einGeben Sie den von Ihnen erstellten S3-Bucket ein: kendrapost-{your account id}.
Verlassen Speicherort des Präfixordners für Metadatendateien leer.

Standardmäßig werden Metadatendateien im selben Verzeichnis wie die Dokumente gespeichert. Wenn Sie diese Dateien in einem anderen Ordner ablegen möchten, können Sie ein Präfix hinzufügen. Weitere Informationen finden Sie unter Metadaten von Amazon S3-Dokumenten.

Aussichten für Entschlüsselungsschlüssel auswählen, lass es abgewählt.
Aussichten für Zusätzliche Konfigurationkönnen Sie ein Muster hinzufügen, um bestimmte Ordner oder Dateien einzuschließen oder auszuschließen. Behalten Sie für diesen Beitrag die Standardwerte bei.
Aussichten für Synchronisierungsmodus wählen Neue, geänderte oder gelöschte Dokumente werden synchronisiert.
Aussichten für Frequenz, wählen Bei Bedarf ausführen.

Dieser Schritt definiert die Häufigkeit, mit der die Datenquelle mit dem Amazon Kendra-Index synchronisiert wird.

Auswählen Weiter.
Im Legen Sie Feldzuordnungen fest Seite, behalten Sie die Standardwerte bei.
Auswählen Weiter.
Auf dem Überprüfen und erstellen Seite wählen Datenquelle hinzufügen.
Navigieren Sie zurück zu Ihrem Kendra-Index.
Wählen Sie Ihre Datenquelle, Dann wählen Jetzt synchronisieren um die Dokumente mit dem Amazon Kendra-Index zu synchronisieren.

Die Dauer dieses Vorgangs hängt von der Anzahl der Dokumente ab, die Sie indizieren. Für diesen Anwendungsfall kann es 15 Minuten dauern, danach sollte eine Meldung angezeigt werden, dass die Synchronisierung erfolgreich war. Im Abschnitt Synchronisierungsverlauf sehen Sie, dass 40 Dokumente synchronisiert wurden.

Ihr Amazon Kendra-Index ist jetzt bereit für Abfragen in natürlicher Sprache. Wenn Sie Ihren Index durchsuchen, verwendet Amazon Kendra alle bereitgestellten Daten und Metadaten, um die genauesten Antworten auf Ihre Suchanfrage zurückzugeben. Wählen Sie auf der Amazon Kendra-Konsole aus Suche nach indizierten Inhalten. Beginnen Sie im Abfragefeld mit einer Abfrage wie „Welcher AWS-Service hat 11 Neunen Haltbarkeit?“

Weitere Informationen zum Abfragen des Index finden Sie unter Abfragen eines Index

Synchronisieren Sie Datenquellenänderungen, um den Index zu durchsuchen

Ihre Datenquelle ist so eingerichtet, dass alle neuen, geänderten oder gelöschten Daten synchronisiert werden. Bevor Sie Ihre Datenquelle inkrementell mit einem Index in Amazon Kendra synchronisieren können, müssen Sie neue Dokumente in einen S3-Bucket laden.

Wählen Sie in der Amazon S3-Konsole den soeben erstellten Bucket aus und wählen Sie Hochladen.
Laden Sie die Ordner hoch Security und Well_Architected aus der entpackten Datei.

Jetzt können Sie die neu zum S3-Bucket hinzugefügten Dokumente synchronisieren:

Wählen Sie in der Amazon Kendra-Konsole aus Datenquellen und wählen Sie dann Ihre S3-Datenquelle aus.
Auswählen Jetzt synchronisieren.

Die Dauer dieses Vorgangs hängt von der Anzahl der Dokumente ab, die Sie indizieren. In diesem Anwendungsfall kann es 15 Minuten dauern. Danach sollte eine Meldung angezeigt werden, dass die Synchronisierung erfolgreich war.

Im Laufverlauf synchronisieren In diesem Abschnitt sehen Sie, dass 20 Dokumente synchronisiert wurden.

Indizieren Sie die Datenquelle neu

In einem Szenario, in dem die Datenquelle veraltete Informationen enthält, können Sie die Datenquelle jetzt neu indizieren, ohne eine neue Datenquelle löschen und erstellen zu müssen. Führen Sie die folgenden Schritte aus, um den Synchronisierungsmodus zu ändern und die Datenquelle neu zu indizieren:

Wählen Sie auf der Amazon Kendra-Konsole aus Datenquellen und wählen Sie dann Ihre S3-Datenquelle aus.
Auf dem Aktionen Menü, wählen Sie Bearbeiten.
Auswählen Weiter nach ... Ziehen Schritt 3 – Konfigurieren Sie die Seite mit den Synchronisierungseinstellungen.
Wählen Sie für Sync-Modus Vollständige Synchronisierung.
Aussichten für Frequenz, wählen Bei Bedarf ausführen.
Auswählen Weiter.
Im Legen Sie Feldzuordnungen fest Seite, behalten Sie die Standardwerte bei.
Auswählen Weiter.
Auf dem Überprüfen und erstellen Seite wählen Aktualisierung.

Jetzt können Sie die neu zum S3-Bucket hinzugefügten Dokumente synchronisieren.

Wählen Sie in der Amazon Kendra-Konsole aus Datenquellen und wählen Sie dann Ihre S3-Datenquelle aus.
Auswählen Jetzt synchronisieren.

Im Laufverlauf synchronisieren Abschnitt können Sie unter der Spalte „Geändert“ sehen, dass alle Dokumente unabhängig vom vorherigen Synchronisierungsstatus synchronisiert wurden.

Aufräumen

Um zukünftige Gebühren zu vermeiden und ungenutzte Rollen und Richtlinien zu bereinigen, löschen Sie die von Ihnen erstellten Ressourcen:

Wählen Sie im Amazon Kendra-Index aus Indizes im Navigationsbereich.
Wählen Sie den von Ihnen erstellten Index und auf der Aktionen Menü, wählen Sie Löschen.
Um den Löschvorgang zu bestätigen, geben Sie Löschen ein, wenn Sie dazu aufgefordert werden, und wählen Sie aus Löschen.

Warten Sie, bis Sie die Bestätigungsmeldung erhalten. Der Vorgang kann bis zu 15 Minuten dauern.

Auf der Amazon S3-Konsole, Löschen Sie den S3-Bucket.
Auf der IAM-Konsole Löschen Sie die entsprechenden IAM-Rollen.

Zusammenfassung

In diesem Beitrag haben Sie gelernt, wie Sie mit Amazon Kendra einen Unternehmenssuchdienst über eine sichere Verbindung zu Amazon S3 bereitstellen, die kein Internet-Gateway oder NAT-Gerät (Network Address Translation) erfordert. Mit dem Synchronisierungsmodus können Sie schnellere Synchronisierungen für Ihre Dokumente aktivieren.

Es gibt viele zusätzliche Funktionen, die wir nicht behandelt haben. Zum Beispiel:

Sie können die benutzerbasierte Zugriffskontrolle für Ihren Amazon Kendra-Index aktivieren und den Zugriff auf Dokumente basierend auf den bereits konfigurierten Zugriffskontrollen einschränken.
Sie können Objektattribute Amazon Kendra-Indexattributen zuordnen und sie für das Facetten, Suchen und Anzeigen in den Suchergebnissen aktivieren.
Mit der tabellarischen Suche von Amazon Kendra können Sie schnell Informationen von Webseiten (HTML-Tabellen) finden

Weitere Informationen zu Amazon Kendra finden Sie unter Amazon Kendra-Entwicklerhandbuch.

Über die Autoren

Maran Chandrasekaran ist Senior Solutions Architect bei Amazon Web Services und arbeitet mit unseren Unternehmenskunden zusammen. Außerhalb der Arbeit liebt er es zu reisen.

Arjun Agrawal ist Software Engineer bei AWS und arbeitet derzeit mit einem Amazon Kendra-Team an einer Unternehmenssuchmaschine. Er interessiert sich leidenschaftlich für neue Technologien und die Lösung realer Probleme. Außerhalb der Arbeit wandert und reist er gerne.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/

Zeitstempel: 2. März 2023

Zeitstempel: 14. September 2023

Suchen Sie mithilfe von Amazon Kendra S3 Connector mit VPC-Unterstützung genau nach Antworten

Neuauflage von Plato

Lösungsübersicht

Voraussetzungen:

Erstellen und konfigurieren Sie Ihr Dokumenten-Repository

Fügen Sie eine Datenquelle hinzu

Synchronisieren Sie Datenquellenänderungen, um den Index zu durchsuchen

Indizieren Sie die Datenquelle neu

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Übersetzen Sie Dokumente in Echtzeit mit Amazon Translate | Amazon Web Services

Einführung der Beliebtheitsoptimierung für ähnliche Artikel in Amazon Personalize | Amazon Web Services

Ordnen Sie Ihre Transkripte mit Amazon Transcribe | in Absätze an Amazon Web Services

Verteiltes Training mit Amazon EKS und Torch Distributed Elastic

Erstellen Sie ein Textzusammenfassungsprojekt mit Hugging Face Transformers: Teil 2

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto