Zoek nauwkeurig naar antwoorden met behulp van de Amazon Kendra S3-connector met VPC-ondersteuning

Heruitgegeven door Plato

volgers: 0

Amazon Kendra is een gebruiksvriendelijke intelligente zoekservice waarmee u zoekmogelijkheden kunt integreren met uw toepassingen, zodat gebruikers informatie kunnen vinden die is opgeslagen in gegevensbronnen zoals Amazon eenvoudige opslagservice , OneDrive en Google Drive; toepassingen zoals SalesForce, SharePoint en Service Now; en relationele databases zoals Amazon relationele databaseservice (Amazone RDS). Door Amazon Kendra-connectoren te gebruiken, kunt u gegevens uit meerdere inhoudsrepository's synchroniseren met uw Amazon Kendra-index. Wanneer eindgebruikers natuurlijke taalvragen stellen, gebruikt Amazon Kendra algoritmen voor machine learning (ML) om de context te begrijpen en de meest relevante antwoorden te geven.

De S3-connector van de Amazon Kendra ondersteunt het indexeren van documenten en de bijbehorende metadata die zijn opgeslagen in een S3-bucket. Het is vaak zo dat u ervoor wilt zorgen dat applicaties die binnen een VPC draaien alleen toegang hebben tot specifieke S3-buckets en in veel gevallen mag de verbinding niet via internet lopen om openbare eindpunten te bereiken. Veel klanten hebben echter meerdere S3-bakken, waarvan sommige toegankelijk zijn via VPC-eindpunten voor Amazon S3. In dit bericht beschrijven we hoe u de bijgewerkte Amazon Kendra S3-connector met VPC-ondersteuning kunt gebruiken voor het gebruik van VPC-eindpunten.

Dit bericht bevat de stappen om u te helpen bij het maken van een enterprise-zoekmachine op AWS met behulp van Amazon Kendra door documenten te verbinden die zijn opgeslagen in een S3-bucket die alleen toegankelijk is vanuit een VPC. Voor meer informatie, zie het verbeteren van enterprise search met Amazon Kendra. Het bericht laat ook zien hoe u uw connector voor Amazon S3 configureert en configureert hoe uw index wordt gesynchroniseerd met uw gegevensbron wanneer de inhoud van uw gegevensbron verandert.

Overzicht van de oplossing

Er zijn drie belangrijke verbeteringen aan de Amazon Kendra S3-connector :

VPC-ondersteuning – De connector ondersteunt nu het gebruik van uw Amazon virtuele privécloud (Amazon VPC) netwerken. U kunt nu veilig verbinding maken met Amazon S3 met behulp van VPC-eindpunten voor Amazon S3 door de VPC-verbinding, het subnet en de beveiligingsgroepen op te geven.
Twee synchronisatiemodi - Wanneer u de synchronisatie van een gegevensbron in Amazon S3 met een Amazon Kendra-index plant, kunt u er nu voor kiezen om in volledige synchronisatiemodus of nieuwe, gewijzigde en verwijderde documentsynchronisatiemodus uit te voeren. In de volledige synchronisatiemodus scant het elke keer dat de synchronisatie wordt uitgevoerd objecten in elke map onder het rootpad waarvoor het was geconfigureerd om te crawlen en neemt het alle documenten opnieuw op . Met de volledige vernieuwing kunt u de index opnieuw instellen zonder dat u een nieuwe gegevensbron hoeft te verwijderen en te maken. In de synchronisatiemodus Nieuwe, gewijzigde en verwijderde documenten worden elke keer dat de synchronisatietaak wordt uitgevoerd, alleen objecten verwerkt die zijn toegevoegd, gewijzigd of verwijderd sinds de laatste crawl. Incrementele crawls kunnen runtime en kosten verminderen wanneer ze worden gebruikt met datasets die regelmatig nieuwe objecten toevoegen aan bestaande databronnen.
Aanvullende opname- en uitsluitingspatronen voor documenten: Naast voorvoegsels introduceren we patronen voor het opnemen of uitsluiten van documenten in uw index. Twee ondersteunde patroontypen zijn glob- of bestandstypen in Unix-stijl. U kunt nu een patroon voor reguliere expressies toevoegen om specifieke mappen op te nemen of mappen, bestandstypen of specifieke bestanden uit te sluiten van uw gegevensbron. Dit kan handig zijn voor gedeelde gegevensopslagplaatsen die inhoud bevatten die tot verschillende categorieën, classificaties en bestandstypen behoort.

Voorwaarden

Voor deze walkthrough moet u aan de volgende vereisten voldoen:

Creëer en configureer uw documentrepository

Voordat u een index in Amazon Kendra kunt maken, moet u documenten in een S3-bucket laden. Deze sectie bevat instructies om een S3-bucket te maken, de bestanden op te halen en ze in de bucket te laden. Na het voltooien van alle stappen in deze sectie, heb je een gegevensbron die Amazon Kendra kan gebruiken.

Op de AWS-beheerconsole, kies in de lijst Regio de optie US East (N. Virginia) of een regio naar keuze die Amazon Kendra is beschikbaar in.
Kies Diensten.
Onder Opbergen, kiezen S3.
Kies op de Amazon S3-console Maak een bucket.
Onder Algemene configuratie, Lever de volgende informatie:
- Voor Bucket-naam, invoeren kendrapost-{your account id}.
- Kies voor Regio dezelfde regio die u gebruikt om uw Amazon Kendra-index te implementeren (dit bericht gebruikt us-east-1).
- Onder Emmer instellingen, For Openbare toegang blokkeren, laat alles met de standaardwaarden.
Onder geavanceerde instellingen, laat alles met de standaardwaarden.
Kies Maak een bucket.
Downloaden AWS_Whitepapers.zip en pak de bestanden uit.
Selecteer op de Amazon S3-console de bucket die u zojuist hebt gemaakt en kies Uploaden.
Upload de mappen Best Practices, Databases, General en Machine Learning uit het uitgepakte bestand.

In je bucket zou je nu vier mappen moeten zien.

Een gegevensbron toevoegen

A databron is een locatie waar de documenten worden opgeslagen voor indexering. U kunt gegevensbronnen automatisch synchroniseren met een Amazon Kendra-index om ervoor te zorgen dat zoekopdrachten nieuwe, bijgewerkte of verwijderde documenten in de bronrepository's correct weergeven.

Nadat u alle stappen in dit gedeelte hebt voltooid, beschikt u over een gegevensbron die is gekoppeld aan Amazon Kendra. Voor meer informatie, zie Documenten toevoegen vanuit een gegevensbron.

Voordat u doorgaat, moet u ervoor zorgen dat het maken van de index is voltooid en dat de index wordt weergegeven als Actief. Voor meer informatie, zie Een index maken.

Navigeer op de Amazon Kendra-console naar uw index (voor dit bericht, kendra-blog-index).
Op de kendra-blog-index pagina, kies Voeg gegevensbronnen toe.
Kies onder Amazon S3 Connector toevoegen.

Zie voor meer informatie over de verschillende gegevensbronnen die Amazon Kendra ondersteunt Documenten toevoegen vanuit een gegevensbron.

In het Gegevensbrongegevens opgeven sectie, voor Naam gegevensbron, ga naar binnen aws_white_paper.
Voor Omschrijving, ga naar binnen AWS White Paper documentation.
Kies Volgende.

Nu maak je een AWS Identiteits- en toegangsbeheer (IAM) rol voor Amazon Kendra.

In het Definieer toegang en beveiliging pagina, voor IAM-rol sectie, kies Maak een nieuwe rol.
Voer in voor Rolnaam source-role (uw rolnaam wordt voorafgegaan door AmazonKendra-).
In het Configureer VPC en beveiliging sectie, kies uw VPC, en voer je in Subnetten en VPC-beveiligingsgroepen.

Zie voor meer informatie over het verbinden van uw Amazon Kendra met uw Amazon Virtual Private Cloud Amazon Kendra configureren om een VPC te gebruiken.

Kies Volgende.
In het Synchronisatie-instellingen configureren pagina, voor Voer de gegevensbronlocatie in, voer de S3-bucket in die u heeft gemaakt: kendrapost-{your account id}.
Verlof Metadata-bestanden prefix maplocatie blanco.

Standaard worden metadatabestanden opgeslagen in dezelfde directory als de documenten. Als u deze bestanden in een andere map wilt plaatsen, kunt u een voorvoegsel toevoegen. Voor meer informatie, zie Metadata van Amazon S3-documenten.

Voor Selecteer decoderingssleutel, laat het niet geselecteerd.
Voor Aanvullende configuratiekunt u een patroon toevoegen om bepaalde mappen of bestanden op te nemen of uit te sluiten. Behoud voor dit bericht de standaardwaarden.
Voor Synchronisatiemodus kiezen Synchronisatie van nieuwe, gewijzigde of verwijderde documenten.
Voor Frequentie, kiezen Rennen op aanvraag.

Deze stap definieert de frequentie waarmee de gegevensbron wordt gesynchroniseerd met de Amazon Kendra-index.

Kies Volgende.
In het Veldtoewijzingen instellen pagina, behoudt u de standaardwaarden.
Kies Volgende.
Op de Bekijk en creëer pagina, kies Gegevensbron toevoegen.
Navigeer terug naar uw Kendra-index.
Kies uw Databron, kies dan Synchroniseer nu om de documenten te synchroniseren met de Amazon Kendra-index.

De duur van dit proces is afhankelijk van het aantal documenten dat u indexeert. Voor deze use case kan het 15 minuten duren, waarna u een bericht zou moeten zien dat de synchronisatie is gelukt. In het gedeelte Geschiedenis van synchronisatierun kunt u zien dat er 40 documenten zijn gesynchroniseerd.

Uw Amazon Kendra-index is nu klaar voor zoekopdrachten in natuurlijke taal. Wanneer u uw index doorzoekt, gebruikt Amazon Kendra alle verstrekte gegevens en metagegevens om de meest nauwkeurige antwoorden op uw zoekopdracht te geven. Kies op de Amazon Kendra-console Doorzoek geïndexeerde inhoud. Begin in het zoekveld met een vraag als "Welke AWS-service heeft 11 negens duurzaamheid?"

Zie voor meer informatie over het opvragen van de index Een index opvragen

Synchroniseer gegevensbronwijzigingen om de index te doorzoeken

Uw gegevensbron is ingesteld om nieuwe, gewijzigde of verwijderde gegevens te synchroniseren. Voordat u uw gegevensbron stapsgewijs kunt synchroniseren met een index in Amazon Kendra, moet u nieuwe documenten in een S3-bucket laden.

Selecteer op de Amazon S3-console de bucket die u zojuist hebt gemaakt en kies Uploaden.
Upload de mappen Security en Well_Architected uit het uitgepakte bestand.

Nu kunt u de nieuwe documenten synchroniseren die aan de S3-bucket zijn toegevoegd:

Kies op de Amazon Kendra-console Data bronnen en selecteer vervolgens uw S3-gegevensbron.
Kies Synchroniseer nu.

De duur van dit proces is afhankelijk van het aantal documenten dat u indexeert. In dit geval kan het 15 minuten duren, waarna u een bericht zou moeten zien dat de synchronisatie is geslaagd.

In het Synchroniseer de loopgeschiedenis sectie ziet u dat 20 documenten zijn gesynchroniseerd.

Indexeer de gegevensbron opnieuw

In een scenario waarin de gegevensbron verouderde informatie bevat, kunt u de gegevensbron nu opnieuw indexeren zonder dat u een nieuwe gegevensbron hoeft te verwijderen en te maken. Voer de volgende stappen uit om de synchronisatiemodus te wijzigen en de gegevensbron opnieuw te indexeren:

Kies op de Amazon Kendra-console Data bronnen en selecteer vervolgens uw S3-gegevensbron.
Op de Acties menu, kies Bewerk.
Kies Volgende verhuizen naar Stap 3 - Configureer de pagina met synchronisatie-instellingen.
Selecteer voor synchronisatiemodus Volledige synchronisatie.
Voor Frequentie, kiezen Rennen op aanvraag.
Kies Volgende.
In het Veldtoewijzingen instellen pagina, behoudt u de standaardwaarden.
Kies Volgende.
Op de Bekijk en creëer pagina, kies bijwerken.

Nu kunt u de nieuwe documenten synchroniseren die aan de S3-bucket zijn toegevoegd.

Kies op de Amazon Kendra-console Data bronnen en selecteer vervolgens uw S3-gegevensbron.
Kies Synchroniseer nu.

In het Synchroniseer de loopgeschiedenis sectie, kunt u zien dat alle documenten zijn gesynchroniseerd, ongeacht de vorige synchronisatiestatus onder de gewijzigde kolom.

Opruimen

Verwijder de resources die u hebt gemaakt om te voorkomen dat er in de toekomst kosten in rekening worden gebracht en om ongebruikte rollen en beleidsregels op te schonen:

Kies op de Amazon Kendra-index Indexen in het navigatievenster.
Selecteer de index die u hebt gemaakt en op de Acties menu, kies Verwijder.
Om het verwijderen te bevestigen, voert u Verwijderen in wanneer daarom wordt gevraagd en kiest u Verwijder.

Wacht tot je het bevestigingsbericht krijgt; het proces kan tot 15 minuten duren.

Op de Amazon S3-console, verwijder de S3-bucket.
Op de IAM-console, verwijder de overeenkomstige IAM-rollen.

Conclusie

In dit bericht heb je geleerd hoe je Amazon Kendra kunt gebruiken om een enterprise search-service te implementeren met behulp van een beveiligde verbinding met Amazon S3 waarvoor geen internetgateway of Network Address Translation (NAT)-apparaat nodig is. U kunt snellere synchronisaties voor uw documenten inschakelen met behulp van de synchronisatiemodus.

Er zijn veel extra functies die we niet hebben behandeld. Bijvoorbeeld:

U kunt op gebruikers gebaseerde toegangscontrole voor uw Amazon Kendra-index inschakelen en de toegang tot documenten beperken op basis van de toegangscontroles die u al hebt geconfigureerd.
U kunt objectattributen toewijzen aan Amazon Kendra-indexattributen en deze inschakelen voor facetten, zoeken en weergeven in de zoekresultaten.
U kunt snel informatie van webpagina's (HTML-tabellen) vinden met behulp van Amazon Kendra in tabelvorm zoeken

Raadpleeg voor meer informatie over Amazon Kendra Amazon Kendra-ontwikkelaarsgids.

Over de auteurs

Maran Chandrasekaran is een Senior Solutions Architect bij Amazon Web Services en werkt samen met onze zakelijke klanten. Buiten zijn werk houdt hij van reizen.

Arjun Agrawal is Software Engineer bij AWS en werkt momenteel samen met een Amazon Kendra-team aan een enterprise-zoekmachine. Hij is gepassioneerd door nieuwe technologie en het oplossen van echte problemen. Buiten zijn werk houdt hij van wandelen en reizen.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/

Tijdstempel: 2 maart 2023

Tijdstempel: September 14, 2023

Zoek nauwkeurig naar antwoorden met behulp van Amazon Kendra S3 Connector met VPC-ondersteuning

Heruitgegeven door Plato

Overzicht van de oplossing

Voorwaarden

Creëer en configureer uw documentrepository

Een gegevensbron toevoegen

Synchroniseer gegevensbronwijzigingen om de index te doorzoeken

Indexeer de gegevensbron opnieuw

Opruimen

Conclusie

Over de auteurs

Meer van AWS-machine learning

Vertaal documenten in realtime met Amazon Translate | Amazon-webservices

Introductie van populariteitsafstemming voor vergelijkbare items in Amazon Personaliseer | Amazon-webservices

Schik uw transcripties in alinea's met Amazon Transcribe | Amazon-webservices

Gedistribueerde training met Amazon EKS en Torch Distributed Elastic

Zet een tekstsamenvattingsproject op met Hugging Face Transformers: Part 2

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account