Ontgrendel inzichten uit uw Amazon S3-gegevens met intelligent zoeken

Heruitgegeven door Plato

volgers: 0

Amazon Kendra is een intelligente zoekservice die wordt aangedreven door machine learning (ML). Amazon Kendra geeft een nieuwe kijk op het zoeken naar websites en applicaties voor bedrijven, zodat uw werknemers en klanten gemakkelijk de content kunnen vinden waarnaar ze op zoek zijn, zelfs als deze verspreid is over meerdere locaties en contentrepository's binnen uw organisatie. Trefwoorden of vragen in natuurlijke taal kunnen worden gebruikt om de meest relevante documenten te doorzoeken, mogelijk gemaakt door ML, om antwoorden te geven en documenten te rangschikken. Amazon Kendra kan gegevens indexeren van Amazon eenvoudige opslagservice (Amazon S3) of uit een documentrepository van derden. Amazon S3 is een objectopslagservice die schaalbaarheid en beschikbaarheid biedt waar u grote hoeveelheden gegevens kunt opslaan, waaronder producthandleidingen, project- en onderzoeksdocumenten en meer.

In dit bericht kunt u leren hoe u een verstrekt AWS CloudFormatie sjabloon om uw documenten te indexeren in een Amazon S3-bucket. De sjabloon creëert een Amazon Kendra-gegevensbron voor een index en synchroniseert uw gegevensbron volgens uw behoeften: on-demand, elk uur, dagelijks, wekelijks of maandelijks. AWS CloudFormation stelt ons in staat om infrastructuur als code (IaC) in te richten, zodat u minder tijd hoeft te besteden aan het beheren van resources, uw infrastructuur snel kunt repliceren en veranderingen in de infrastructuur kunt controleren en volgen.

Overzicht van de oplossing

De CloudFormation-sjabloon stelt een Amazon Kendra-gegevensbron in met een verbinding met Amazon S3. De sjabloon creëert ook één rol voor de Amazon Kendra-gegevensbronservice. U kunt een S3-bucket, synchronisatieschema en opname-/uitsluitingspatronen specificeren. Wanneer de synchronisatietaak is voltooid, kunt u de geïndexeerde inhoud doorzoeken via de zoekconsole. Het volgende diagram illustreert deze workflow.

Dit bericht leidt u naar de volgende stappen:

Implementeer de meegeleverde sjabloon.
Upload de documenten naar de S3-bucket die u maakt. Indien u een bucket met documenten aanlevert, kunt u deze stap overslaan.
Wacht tot de index klaar is met het crawlen van de gegevensbron.

Voorwaarden

Voor deze walkthrough moet u aan de volgende vereisten voldoen:

An AWS-account waar de voorgestelde oplossing kan worden ingezet.
Een Amazon Kendra-index voor het koppelen van een gegevensbron aan de stapel.
De set documenten die wordt gebruikt om de Amazon Kendra-index te maken. In deze oplossing gebruikt u een gecomprimeerd bestand van AWS-whitepapers.

Implementeer de oplossing met AWS CloudFormation

Voer de volgende stappen uit om de CloudFormation-sjabloon te implementeren:

Kies

U wordt doorgestuurd naar de AWS CloudFormation-console.

U kunt de parameters wijzigen of de standaardwaarden gebruiken:
- De naam van de Amazon Kendra-gegevensbron wordt automatisch ingesteld met behulp van de stapelnaam en de bijbehorende bucketnaam.
- Voor KendraIndexId, voert u de Amazon Kendra-index-ID in waaraan u de gegevensbron wilt koppelen.
- U kunt ook kiezen wanneer u de gegevensbronsynchronisatie wilt uitvoeren met behulp van KendraSync-schema. Standaard is deze ingesteld op Op aanvraag.
- Voor S3Bucketnaam, je kunt een bucket invoeren die je al hebt gemaakt of leeg laten. Als je het leeg laat, wordt er een bucket voor je gemaakt. Hoe dan ook, de bucket wordt gebruikt als de Amazon Kendra-gegevensbron. Voor dit bericht laten we het leeg.

Het duurt ongeveer 5 minuten voordat de stack de Amazon Kendra-gegevensbron implementeert die is gekoppeld aan de Amazon Kendra-index.

Op de Uitgangen tabblad van de CloudFormation-stack, kopieert u de naam van de gemaakte bucket, de naam van de gegevensbron en de ID.

De gemaakte stapel implementeert één rol: <stack-name>-KendraDataSourceRole. Het is een best practice om een rol te implementeren voor elke gegevensbron die u maakt. Deze rol geeft de Amazon Kendra-gegevensbron om bestanden toe te voegen aan of te verwijderen uit de Amazon Kendra-index, om objecten uit de Amazon S3-bucket te halen.

Upload bestanden naar de S3-bucket

Amazon Kendra kan meerdere documenttypen aan, zoals .html, .pdf, .csv, .json, .docx en .ppt. U kunt ook een combinatie van documenten op één index hebben. De tekst in die documenten wordt geïndexeerd naar de verstrekte Amazon Kendra-index. U kunt zoeken naar trefwoorden over AWS-onderwerpen over best practices, databases, machine learning, beveiliging en meer met behulp van meer dan 60 pdf-bestanden die u kunt Download. Als u bijvoorbeeld wilt weten waar u meer informatie kunt vinden over caching in de AWS-whitepapers, kan Amazon Kendra u helpen bij het vinden van documenten met betrekking tot databases en best practices.

Wanneer u de . downloadt AWS Whitepapers.zip bestand en decomprimeer het bestand, je ziet deze zes mappen: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Upload deze mappen naar uw S3-bucket.

Synchroniseer de Amazon Kendra-gegevensbron

Amazon Kendra-gegevensbrongegevens kunnen uw gegevens synchroniseren op basis van een vooraf geconfigureerd schema of kunnen handmatig op aanvraag worden geactiveerd. Standaard configureert de CloudFormation-sjabloon de gegevensbron naar een on-demand synchronisatieschema om indien nodig handmatig te worden geactiveerd.

Om de synchronisatietaak handmatig vanuit de AWS Amazon Kendra-console te activeren, navigeert u naar de Amazon Kendra-index die wordt gebruikt als onderdeel van CloudFormation-stackimplementatie, onder Data Management in het navigatievenster, kies Data bronnen en kies dan Synchroniseer nu. Hierdoor wordt de S3-bucket gesynchroniseerd met de gegevensbron.

Wanneer de Amazon Kendra-gegevensbron begint te synchroniseren, zou u het Huidige synchronisatiestatus as Synchroniseren.

Wanneer de gegevensbron is voltooid, wordt het Laatste synchronisatiestatus verschijnt als Langs en Huidige synchronisatiestatus as Idle. U kunt nu de geïndexeerde inhoud doorzoeken.

Configureer het synchronisatieschema

Met de sjabloon kunt u het schema elk uur uitvoeren op minuut 0, bijvoorbeeld 13:00, 14:00 of 15:00. Je hebt ook de mogelijkheid om het dagelijks om 00:00 UTC uit te voeren. De wekelijks instelling loopt op maandag om 00:00 UTC, en de Maandelijks instelling loopt elke eerste dag van de maand om 00:00 UTC.

Om het schema te wijzigen nadat de Amazon Kendra-gegevensbron is gemaakt, op de Acties menu, kies Edit. Onder Synchronisatie-instellingen configureren, vind je de Regelschema synchroniseren pagina.

Onder Frequentie, je kunt selecteren ieder uur, dagelijks, per week, maandelijksof gewoonte, waarmee u uw synchronisatie tot op de minuut kunt plannen.

Voeg uitsluitingspatronen toe

Met de meegeleverde CloudFormation-sjabloon kunt u uitsluitingspatronen toevoegen. Standaard worden .png- en .jpg-bestanden toegevoegd aan de Uitsluitingspatronen parameter. Aanvullende bestandsindelingen kunnen als een door komma's gescheiden lijst aan het uitsluitingspatroon worden toegevoegd. Evenzo, Inclusiepatronen parameter kan worden gebruikt voeg kommalijstbestandsindelingen toe om een opnamepatroon in te stellen. Als u geen opnamepatroon opgeeft, worden alle bestanden geïndexeerd, behalve degene die zijn opgenomen in de uitsluitingsparameter.

Opruimen

Om kosten te vermijden, kunt u de stapel verwijderen uit de AWS CloudFormation-console. Op de Stacks pagina, selecteer de stapel die u hebt gemaakt, kies Verwijderen bevestig het verwijderen van de stapel.

Als u geen S3-bucket hebt opgegeven, maakt de stapel een bucket. Als de bucket leeg is, wordt deze automatisch verwijderd. Anders moet u de map leegmaken en handmatig verwijderen. Als u een bucket heeft opgegeven, zelfs als deze leeg is, wordt deze niet verwijderd. De Amazon Kendra-index wordt niet verwijderd. Alleen de Amazon Kendra-gegevensbron die door de stapel is gemaakt, wordt verwijderd.

Conclusie

In dit bericht hebben we een CloudFormation-sjabloon geleverd om uw tekstdocumenten op een S3-bucket eenvoudig te synchroniseren met uw Amazon Kendra-index. Deze oplossing is handig als u meerdere S3-buckets hebt die u wilt indexeren, omdat u alle benodigde componenten kunt maken om de documenten met een paar klikken op een consistente en herhaalbare manier te doorzoeken. U kunt ook zien hoe op afbeeldingen gebaseerde tekstdocumenten kunnen worden verwerkt in Amazon Kendra. Raadpleeg voor meer informatie over specifieke planningspatronen Plan expressies voor regels.

Laat een reactie achter en leer meer over het maken van Amazon Kendra-indexen in het volgende Amazon Kendra Essentials+-workshop.

Speciale dank aan Jose Mauricio Mani Yanez voor zijn hulp bij het maken van de voorbeeldcode en het samenstellen van de inhoud voor dit bericht.

Over de auteur

Rajesh Kumar Ravi is een AI/ML Specialist Solutions Architect bij Amazon Web Services, gespecialiseerd in intelligent zoeken naar documenten met Amazon Kendra en generatieve AI. Hij is een bouwer en probleemoplosser, en draagt bij aan de ontwikkeling van nieuwe ideeën. Hij houdt van wandelen en maakt graag korte wandeltochten buiten het werk om.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoAiStream. Web3 gegevensintelligentie. Kennis versterkt. Toegang hier.
De toekomst slaan met Adryenn Ashley. Toegang hier.
Koop en verkoop aandelen in PRE-IPO-bedrijven met PREIPO®. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/unlock-insights-from-your-amazon-s3-data-with-intelligent-search/

Tijdstempel: 12 mei 2023

Tijdstempel: December 6, 2023

Heruitgegeven door Plato

Verbeter de nauwkeurigheid van de transcriptie van klant-agent-oproepen met aangepaste woordenschat in Amazon Transcribe

Verfijn Whisper-modellen op Amazon SageMaker met LoRA | Amazon-webservices

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML

Optimaliseer de implementatiekosten van Amazon SageMaker JumpStart-basismodellen met asynchrone eindpunten van Amazon SageMaker | Amazon-webservices

Maak een HCLS-documentsamenvattingstoepassing met Falcon met behulp van Amazon SageMaker JumpStart | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account