Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon-webservices

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon-webservices

Amazon Kendra is een intelligente zoekservice die wordt aangedreven door machine learning (ML). Amazon Kendra geeft een nieuwe kijk op het zoeken naar websites en applicaties voor bedrijven, zodat uw werknemers en klanten gemakkelijk de content kunnen vinden waarnaar ze op zoek zijn, zelfs als deze verspreid is over meerdere locaties en contentrepository's binnen uw organisatie. Trefwoorden of vragen in natuurlijke taal kunnen worden gebruikt om de meest relevante documenten te doorzoeken, mogelijk gemaakt door ML, om antwoorden te geven en documenten te rangschikken. Amazon Kendra kan gegevens indexeren van Amazon eenvoudige opslagservice (Amazon S3) of uit een documentrepository van derden. Amazon S3 is een objectopslagservice die schaalbaarheid en beschikbaarheid biedt waar u grote hoeveelheden gegevens kunt opslaan, waaronder producthandleidingen, project- en onderzoeksdocumenten en meer.

In dit bericht kunt u leren hoe u een verstrekt AWS CloudFormatie sjabloon om uw documenten te indexeren in een Amazon S3-bucket. De sjabloon creรซert een Amazon Kendra-gegevensbron voor een index en synchroniseert uw gegevensbron volgens uw behoeften: on-demand, elk uur, dagelijks, wekelijks of maandelijks. AWS CloudFormation stelt ons in staat om infrastructuur als code (IaC) in te richten, zodat u minder tijd hoeft te besteden aan het beheren van resources, uw infrastructuur snel kunt repliceren en veranderingen in de infrastructuur kunt controleren en volgen.

Overzicht van de oplossing

De CloudFormation-sjabloon stelt een Amazon Kendra-gegevensbron in met een verbinding met Amazon S3. De sjabloon creรซert ook รฉรฉn rol voor de Amazon Kendra-gegevensbronservice. U kunt een S3-bucket, synchronisatieschema en opname-/uitsluitingspatronen specificeren. Wanneer de synchronisatietaak is voltooid, kunt u de geรฏndexeerde inhoud doorzoeken via de zoekconsole. Het volgende diagram illustreert deze workflow.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Dit bericht leidt u naar de volgende stappen:

  1. Implementeer de meegeleverde sjabloon.
  2. Upload de documenten naar de S3-bucket die u maakt. Indien u een bucket met documenten aanlevert, kunt u deze stap overslaan.
  3. Wacht tot de index klaar is met het crawlen van de gegevensbron.

Voorwaarden

Voor deze walkthrough moet u aan de volgende vereisten voldoen:

  • An AWS-account waar de voorgestelde oplossing kan worden ingezet.
  • Een Amazon Kendra-index voor het koppelen van een gegevensbron aan de stapel.
  • De set documenten die wordt gebruikt om de Amazon Kendra-index te maken. In deze oplossing gebruikt u een gecomprimeerd bestand van AWS-whitepapers.

Implementeer de oplossing met AWS CloudFormation

Voer de volgende stappen uit om de CloudFormation-sjabloon te implementeren:

  1. Kies
    Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

U wordt doorgestuurd naar de AWS CloudFormation-console.

  1. U kunt de parameters wijzigen of de standaardwaarden gebruiken:
    • De naam van de Amazon Kendra-gegevensbron wordt automatisch ingesteld met behulp van de stapelnaam en de bijbehorende bucketnaam.
    • Voor KendraIndexId, voert u de Amazon Kendra-index-ID in waaraan u de gegevensbron wilt koppelen.
    • U kunt ook kiezen wanneer u de gegevensbronsynchronisatie wilt uitvoeren met behulp van KendraSync-schema. Standaard is deze ingesteld op Op aanvraag.
    • Voor S3Bucketnaam, je kunt een bucket invoeren die je al hebt gemaakt of leeg laten. Als je het leeg laat, wordt er een bucket voor je gemaakt. Hoe dan ook, de bucket wordt gebruikt als de Amazon Kendra-gegevensbron. Voor dit bericht laten we het leeg.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Het duurt ongeveer 5 minuten voordat de stack de Amazon Kendra-gegevensbron implementeert die is gekoppeld aan de Amazon Kendra-index.

  1. Op de Uitgangen tabblad van de CloudFormation-stack, kopieert u de naam van de gemaakte bucket, de naam van de gegevensbron en de ID.

De gemaakte stapel implementeert รฉรฉn rol: <stack-name>-KendraDataSourceRole. Het is een best practice om een โ€‹โ€‹rol te implementeren voor elke gegevensbron die u maakt. Deze rol geeft de Amazon Kendra-gegevensbron om bestanden toe te voegen aan of te verwijderen uit de Amazon Kendra-index, om objecten uit de Amazon S3-bucket te halen.

Upload bestanden naar de S3-bucket

Amazon Kendra kan meerdere documenttypen aan, zoals .html, .pdf, .csv, .json, .docx en .ppt. U kunt ook een combinatie van documenten op รฉรฉn index hebben. De tekst in die documenten wordt geรฏndexeerd naar de verstrekte Amazon Kendra-index. U kunt zoeken naar trefwoorden over AWS-onderwerpen over best practices, databases, machine learning, beveiliging en meer met behulp van meer dan 60 pdf-bestanden die u kunt Download. Als u bijvoorbeeld wilt weten waar u meer informatie kunt vinden over caching in de AWS-whitepapers, kan Amazon Kendra u helpen bij het vinden van documenten met betrekking tot databases en best practices.

Wanneer u de . downloadt AWS Whitepapers.zip bestand en decomprimeer het bestand, je ziet deze zes mappen: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Upload deze mappen naar uw S3-bucket.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Synchroniseer de Amazon Kendra-gegevensbron

Amazon Kendra-gegevensbrongegevens kunnen uw gegevens synchroniseren op basis van een vooraf geconfigureerd schema of kunnen handmatig op aanvraag worden geactiveerd. Standaard configureert de CloudFormation-sjabloon de gegevensbron naar een on-demand synchronisatieschema om indien nodig handmatig te worden geactiveerd.

Om de synchronisatietaak handmatig vanuit de AWS Amazon Kendra-console te activeren, navigeert u naar de Amazon Kendra-index die wordt gebruikt als onderdeel van CloudFormation-stackimplementatie, onder Data Management in het navigatievenster, kies Data bronnen en kies dan Synchroniseer nu. Hierdoor wordt de S3-bucket gesynchroniseerd met de gegevensbron.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Wanneer de Amazon Kendra-gegevensbron begint te synchroniseren, zou u het Huidige synchronisatiestatus as Synchroniseren.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Wanneer de gegevensbron is voltooid, wordt het Laatste synchronisatiestatus verschijnt als Langs en Huidige synchronisatiestatus as Idle. U kunt nu de geรฏndexeerde inhoud doorzoeken.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Configureer het synchronisatieschema

Met de sjabloon kunt u het schema elk uur uitvoeren op minuut 0, bijvoorbeeld 13:00, 14:00 of 15:00. Je hebt ook de mogelijkheid om het dagelijks om 00:00 UTC uit te voeren. De wekelijks instelling loopt op maandag om 00:00 UTC, en de Maandelijks instelling loopt elke eerste dag van de maand om 00:00 UTC.

Om het schema te wijzigen nadat de Amazon Kendra-gegevensbron is gemaakt, op de Acties menu, kies Edit. Onder Synchronisatie-instellingen configureren, vind je de Regelschema synchroniseren pagina.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Onder Frequentie, je kunt selecteren ieder uur, dagelijks, per week, maandelijksof gewoonte, waarmee u uw synchronisatie tot op de minuut kunt plannen.

Voeg uitsluitingspatronen toe

Met de meegeleverde CloudFormation-sjabloon kunt u uitsluitingspatronen toevoegen. Standaard worden .png- en .jpg-bestanden toegevoegd aan de Uitsluitingspatronen parameter. Aanvullende bestandsindelingen kunnen als een door komma's gescheiden lijst aan het uitsluitingspatroon worden toegevoegd. Evenzo, Inclusiepatronen parameter kan worden gebruikt voeg kommalijstbestandsindelingen toe om een โ€‹โ€‹opnamepatroon in te stellen. Als u geen opnamepatroon opgeeft, worden alle bestanden geรฏndexeerd, behalve degene die zijn opgenomen in de uitsluitingsparameter.

Opruimen

Om kosten te vermijden, kunt u de stapel verwijderen uit de AWS CloudFormation-console. Op de Stacks pagina, selecteer de stapel die u hebt gemaakt, kies Verwijderen bevestig het verwijderen van de stapel.

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Als u geen S3-bucket hebt opgegeven, maakt de stapel een bucket. Als de bucket leeg is, wordt deze automatisch verwijderd. Anders moet u de map leegmaken en handmatig verwijderen. Als u een bucket heeft opgegeven, zelfs als deze leeg is, wordt deze niet verwijderd. De Amazon Kendra-index wordt niet verwijderd. Alleen de Amazon Kendra-gegevensbron die door de stapel is gemaakt, wordt verwijderd.

Conclusie

In dit bericht hebben we een CloudFormation-sjabloon geleverd om uw tekstdocumenten op een S3-bucket eenvoudig te synchroniseren met uw Amazon Kendra-index. Deze oplossing is handig als u meerdere S3-buckets hebt die u wilt indexeren, omdat u alle benodigde componenten kunt maken om de documenten met een paar klikken op een consistente en herhaalbare manier te doorzoeken. U kunt ook zien hoe op afbeeldingen gebaseerde tekstdocumenten kunnen worden verwerkt in Amazon Kendra. Raadpleeg voor meer informatie over specifieke planningspatronen Plan expressies voor regels.

Laat een reactie achter en leer meer over het maken van Amazon Kendra-indexen in het volgende Amazon Kendra Essentials+-workshop.

Speciale dank aan Jose Mauricio Mani Yanez voor zijn hulp bij het maken van de voorbeeldcode en het samenstellen van de inhoud voor dit bericht.


Over de auteur

Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Rajesh Kumar Ravi is een AI/ML Specialist Solutions Architect bij Amazon Web Services, gespecialiseerd in intelligent zoeken naar documenten met Amazon Kendra en generatieve AI. Hij is een bouwer en probleemoplosser, en draagt โ€‹โ€‹bij aan de ontwikkeling van nieuwe ideeรซn. Hij houdt van wandelen en maakt graag korte wandeltochten buiten het werk om.

Tijdstempel:

Meer van AWS-machine learning