Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services

Amazon Kendra ist ein intelligenter Suchdienst, der auf maschinellem Lernen (ML) basiert. Amazon Kendra konzipiert die Unternehmenssuche für Ihre Websites und Anwendungen neu, sodass Ihre Mitarbeiter und Kunden die gesuchten Inhalte leicht finden können, selbst wenn diese über mehrere Standorte und Inhaltsrepositorys innerhalb Ihres Unternehmens verstreut sind. Schlüsselwörter oder Fragen in natürlicher Sprache können verwendet werden, um die relevantesten Dokumente mithilfe von ML zu durchsuchen, um Antworten zu liefern und Dokumente einzustufen. Amazon Kendra kann Daten von indizieren Amazon Simple Storage-Service (Amazon S3) oder aus einem Dokumenten-Repository eines Drittanbieters. Amazon S3 ist ein Objektspeicherdienst, der Skalierbarkeit und Verfügbarkeit bietet und in dem Sie große Datenmengen speichern können, darunter Produkthandbücher, Projekt- und Forschungsdokumente und mehr.

In diesem Beitrag erfahren Sie, wie Sie ein bereitgestelltes bereitstellen AWS CloudFormation Vorlage zum Indizieren Ihrer Dokumente in einem Amazon S3-Bucket. Die Vorlage erstellt eine Amazon Kendra-Datenquelle für einen Index und synchronisiert Ihre Datenquelle entsprechend Ihren Anforderungen: bei Bedarf, stündlich, täglich, wöchentlich oder monatlich. Mit AWS CloudFormation können wir Infrastruktur als Code (IaC) bereitstellen, sodass Sie weniger Zeit mit der Verwaltung von Ressourcen verbringen, Ihre Infrastruktur schnell replizieren und Änderungen in der Infrastruktur kontrollieren und verfolgen können.

Überblick über die Lösung

Die CloudFormation-Vorlage richtet eine Amazon Kendra-Datenquelle mit einer Verbindung zu Amazon S3 ein. Die Vorlage erstellt außerdem eine Rolle für den Amazon Kendra-Datenquellendienst. Sie können einen S3-Bucket, einen Synchronisierungszeitplan und Einschluss-/Ausschlussmuster angeben. Wenn der Synchronisierungsauftrag abgeschlossen ist, können Sie den indizierten Inhalt über die Suchkonsole durchsuchen. Das folgende Diagramm veranschaulicht diesen Arbeitsablauf.

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Dieser Beitrag führt Sie durch die folgenden Schritte:

  1. Stellen Sie die bereitgestellte Vorlage bereit.
  2. Laden Sie die Dokumente in den von Ihnen erstellten S3-Bucket hoch. Wenn Sie einen Bucket mit Dokumenten bereitstellen, können Sie diesen Schritt weglassen.
  3. Warten Sie, bis der Index das Crawlen der Datenquelle abgeschlossen hat.

Voraussetzungen:

Für diese exemplarische Vorgehensweise sollten Sie die folgenden Voraussetzungen erfüllen:

  • An AWS-Konto wo die vorgeschlagene Lösung eingesetzt werden kann.
  • Ein Amazon Kendra-Index zum Anhängen einer Datenquelle an den Stapel.
  • Der Satz von Dokumenten, die zum Erstellen des Amazon Kendra-Index verwendet werden. In dieser Lösung verwenden Sie eine komprimierte Datei von AWS-Whitepapers.

Stellen Sie die Lösung mit AWS CloudFormation bereit

Führen Sie die folgenden Schritte aus, um die CloudFormation-Vorlage bereitzustellen:

  1. Auswählen
    Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Sie werden zur AWS CloudFormation-Konsole umgeleitet.

  1. Sie können die Parameter ändern oder die Standardwerte verwenden:
    • Der Name der Amazon Kendra-Datenquelle wird automatisch anhand des Stack-Namens und des zugehörigen Bucket-Namens festgelegt.
    • Aussichten für KendraIndexIdGeben Sie die Amazon Kendra-Index-ID ein, an die Sie die Datenquelle anhängen möchten.
    • Sie können auch auswählen, wann Sie die Datenquellensynchronisierung mit ausführen möchten KendraSyncSchedule. Standardmäßig ist es auf eingestellt Auf Nachfrage.
    • Aussichten für S3BucketName, Sie können entweder einen bereits erstellten Bucket eingeben oder ihn leer lassen. Wenn Sie es leer lassen, wird ein Bucket für Sie erstellt. In beiden Fällen wird der Bucket als Amazon Kendra-Datenquelle verwendet. Für diesen Beitrag lassen wir ihn leer.

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Es dauert etwa 5 Minuten, bis der Stack die an den Amazon Kendra-Index angehängte Amazon Kendra-Datenquelle bereitstellt.

  1. Auf dem Ausgänge Kopieren Sie auf der Registerkarte des CloudFormation-Stacks den Namen des erstellten Buckets, den Namen der Datenquelle und die ID.

Der erstellte Stack stellt eine Rolle bereit: <stack-name>-KendraDataSourceRole. Es empfiehlt sich, für jede von Ihnen erstellte Datenquelle eine Rolle bereitzustellen. Diese Rolle gibt der Amazon Kendra-Datenquelle die Möglichkeit, Dateien zum Amazon Kendra-Index hinzuzufügen oder daraus zu entfernen, um Objekte aus dem Amazon S3-Bucket abzurufen.

Laden Sie Dateien in den S3-Bucket hoch

Amazon Kendra kann mehrere Dokumenttypen verarbeiten, z. B. .html, .pdf, .csv, .json, .docx und .ppt. Sie können auch eine Kombination von Dokumenten in einem einzigen Index haben. Der in diesen Dokumenten enthaltene Text ist im bereitgestellten Amazon Kendra-Index indexiert. Sie können mithilfe von über 60 verfügbaren PDF-Dateien nach Schlüsselwörtern zu AWS-Themen zu Best Practices, Datenbanken, maschinellem Lernen, Sicherheit und mehr suchen herunterladen. Wenn Sie beispielsweise wissen möchten, wo Sie in den AWS-Whitepapers weitere Informationen zum Caching finden, kann Ihnen Amazon Kendra dabei helfen, Dokumente zu Datenbanken und Best Practices zu finden.

Wenn Sie die herunterladen AWS Whitepapers.zip Datei und entpacken Sie die Datei. Sie sehen diese sechs Ordner: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Laden Sie diese Ordner in Ihren S3-Bucket hoch.

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Synchronisieren Sie die Amazon Kendra-Datenquelle

Die Datenquellendaten von Amazon Kendra können Ihre Daten auf der Grundlage eines vorkonfigurierten Zeitplans synchronisieren oder bei Bedarf manuell ausgelöst werden. Standardmäßig konfiguriert die CloudFormation-Vorlage die Datenquelle für einen On-Demand-Synchronisierungsplan, der bei Bedarf manuell ausgelöst wird.

Um den Synchronisierungsauftrag manuell über die AWS Amazon Kendra-Konsole auszulösen, navigieren Sie unten zum Amazon Kendra-Index, der als Teil der CloudFormation-Stack-Bereitstellung verwendet wird Datenmanagement Wählen Sie im Navigationsbereich Datenquellen und dann wählen Jetzt synchronisieren. Dadurch wird der S3-Bucket mit der Datenquelle synchronisiert.

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn die Amazon Kendra-Datenquelle mit der Synchronisierung beginnt, sollten Sie Folgendes sehen: Aktueller Synchronisierungsstatus as Synchronisieren.

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn die Datenquelle fertig ist, wird die Letzter Synchronisierungsstatus erscheint als Gelungen und Aktueller Synchronisierungsstatus as Leerlauf. Sie können nun den indizierten Inhalt durchsuchen.

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Konfigurieren Sie den Synchronisierungszeitplan

Mit der Vorlage können Sie den Zeitplan stündlich zur Minute 0 ausführen, beispielsweise um 13:00, 14:00 oder 15:00 Uhr. Sie haben auch die Möglichkeit, es täglich um 00:00 UTC auszuführen. Der Wöchentliche Die Einstellung läuft montags um 00:00 UTC und die Monatlich Die Einstellung wird jeden ersten Tag des Monats um 00:00 UTC ausgeführt.

Um den Zeitplan zu ändern, nachdem die Amazon Kendra-Datenquelle erstellt wurde, klicken Sie auf: Aktionen Menü, wählen Sie Bearbeiten. Unter Konfigurieren Sie die Synchronisierungseinstellungen, finden Sie die Regelplan synchronisieren .

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Der Frequenz, können Sie auswählen stündlich, Unterricht, wöchentlich, monatlich, oder Original, mit denen Sie Ihre Synchronisierung auf die Minute genau planen können.

Ausschlussmuster hinzufügen

Mit der bereitgestellten CloudFormation-Vorlage können Sie Ausschlussmuster hinzufügen. Standardmäßig werden PNG- und JPG-Dateien hinzugefügt Ausschlussmuster Parameter. Zusätzliche Dateiformate können als durch Kommas getrennte Liste zum Ausschlussmuster hinzugefügt werden. Ähnlich, Inklusionsmuster Der Parameter kann zum Hinzufügen von Kommalisten-Dateiformaten verwendet werden, um ein Einschlussmuster einzurichten. Wenn Sie kein Einschlussmuster angeben, werden alle Dateien indiziert, mit Ausnahme derjenigen, die im Ausschlussparameter enthalten sind.

Aufräumen

Um Kosten zu vermeiden, können Sie den Stack aus der AWS CloudFormation-Konsole löschen. Auf der Stacks Seite, wählen Sie den von Ihnen erstellten Stapel aus, wählen Sie Löschen, und bestätigen Sie das Löschen des Stapels.

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn Sie keinen S3-Bucket bereitgestellt haben, erstellt der Stack einen Bucket. Wenn der Bucket leer ist, wird er automatisch gelöscht. Andernfalls müssen Sie den Ordner leeren und manuell löschen. Wenn Sie einen Bucket bereitgestellt haben, wird dieser nicht gelöscht, auch wenn er leer ist. Der Amazon Kendra-Index wird nicht gelöscht. Nur die vom Stack erstellte Amazon Kendra-Datenquelle wird gelöscht.

Zusammenfassung

In diesem Beitrag haben wir eine CloudFormation-Vorlage bereitgestellt, mit der Sie Ihre Textdokumente in einem S3-Bucket einfach mit Ihrem Amazon Kendra-Index synchronisieren können. Diese Lösung ist hilfreich, wenn Sie mehrere S3-Buckets indizieren möchten, da Sie mit wenigen Klicks alle erforderlichen Komponenten zum Abfragen der Dokumente auf konsistente und wiederholbare Weise erstellen können. Außerdem können Sie sehen, wie bildbasierte Textdokumente in Amazon Kendra verarbeitet werden können. Weitere Informationen zu bestimmten Zeitplanmustern finden Sie unter Planen Sie Ausdrücke für Regeln.

Hinterlassen Sie einen Kommentar und erfahren Sie im Folgenden mehr über die Erstellung des Amazon Kendra-Index Amazon Kendra Essentials+ Workshop.

Besonderer Dank geht an Jose Mauricio Mani Yanez für seine Hilfe bei der Erstellung des Beispielcodes und der Zusammenstellung des Inhalts für diesen Beitrag.


Über den Autor

Erschließen Sie Erkenntnisse aus Ihren Amazon S3-Daten mit der intelligenten Suche | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Rajesh Kumar Ravi ist ein AI/ML Specialist Solutions Architect bei Amazon Web Services, der sich auf die intelligente Dokumentensuche mit Amazon Kendra und generativer KI spezialisiert hat. Er ist ein Baumeister und Problemlöser und trägt zur Entwicklung neuer Ideen bei. Er geht gerne spazieren und unternimmt gerne kurze Wanderungen außerhalb der Arbeit.

Zeitstempel:

Mehr von AWS Maschinelles Lernen