Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services

Amazon Kendra er en intelligent søketjeneste drevet av maskinlæring (ML). Amazon Kendra reimaginer enterprise search for nettstedene og applikasjonene dine slik at dine ansatte og kunder enkelt kan finne innholdet de leter etter, selv når det er spredt over flere lokasjoner og innholdslagre i organisasjonen din. Nøkkelord eller spørsmål om naturlig språk kan brukes til å søke i de fleste relevante dokumenter drevet av ML for å levere svar og rangere dokumenter. Amazon Kendra kan indeksere data fra Amazon enkel lagringstjeneste (Amazon S3) eller fra et tredjeparts dokumentlager. Amazon S3 er en objektlagringstjeneste som tilbyr skalerbarhet og tilgjengelighet der du kan lagre store mengder data, inkludert produktmanualer, prosjekt- og forskningsdokumenter og mer.

I dette innlegget kan du lære hvordan du distribuerer en gitt AWS skyformasjon mal for å indeksere dokumentene dine i en Amazon S3-bøtte. Malen oppretter en Amazon Kendra-datakilde for en indeks og synkroniserer datakilden din i henhold til dine behov: on-demand, time, daglig, ukentlig eller månedlig. AWS CloudFormation lar oss levere infrastruktur som kode (IaC) slik at du kan bruke mindre tid på å administrere ressurser, replikere infrastrukturen din raskt og kontrollere og spore endringer i infrastrukturen.

Oversikt over løsningen

CloudFormation-malen setter opp en Amazon Kendra-datakilde med en tilkobling til Amazon S3. Malen oppretter også én rolle for Amazon Kendra-datakildetjenesten. Du kan spesifisere en S3-bøtte, synkroniseringsplan og inkluderings-/ekskluderingsmønstre. Når synkroniseringsjobben er fullført, kan du søke i det indekserte innholdet gjennom søkekonsollen. Følgende diagram illustrerer denne arbeidsflyten.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Dette innlegget veileder deg til følgende trinn:

  1. Implementer den medfølgende malen.
  2. Last opp dokumentene til S3-bøtten du oppretter. Hvis du gir en bøtte med dokumenter, kan du utelate dette trinnet.
  3. Vent til indeksen er ferdig med å gjennomsøke datakilden.

Forutsetninger

For dette gjennomgangen bør du ha følgende forutsetninger:

  • An AWS-konto hvor den foreslåtte løsningen kan utplasseres.
  • En Amazon Kendra-indeks for å knytte en datakilde til stabelen.
  • Settet med dokumenter som brukes til å lage Amazon Kendra-indeksen. I denne løsningen bruker du en komprimert fil av AWS whitepapers.

Distribuer løsningen med AWS CloudFormation

For å distribuere CloudFormation-malen, fullfør følgende trinn:

  1. Velg
    Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du blir omdirigert til AWS CloudFormation-konsollen.

  1. Du kan endre parametrene eller bruke standardverdiene:
    • Amazon Kendra-datakildenavnet settes automatisk ved hjelp av stabelnavnet og tilhørende bøttenavn.
    • Til KendraIndexId, skriv inn Amazon Kendra-indeks-ID-en der du vil legge ved datakilden.
    • Du kan også velge når du vil kjøre datakildesynkroniseringen ved hjelp av KendraSyncSchedule. Som standard er den satt til På etterspørsel.
    • Til S3BucketName, du kan enten legge inn en bøtte du allerede har opprettet eller la den stå tom. Hvis du lar den stå tom, opprettes en bøtte for deg. Uansett, bøtta brukes som Amazon Kendra-datakilde. For dette innlegget lar vi det stå tomt.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Det tar rundt 5 minutter for stabelen å distribuere Amazon Kendra-datakilden knyttet til Amazon Kendra-indeksen.

  1. Utganger i CloudFormation-stakken, kopierer du navnet på den opprettede bøtten, datakildenavnet og ID.

Den opprettede stabelen distribuerer én rolle: <stack-name>-KendraDataSourceRole. Det er en god praksis å distribuere en rolle for hver datakilde du oppretter. Denne rollen gir Amazon Kendra-datakilden til å legge til eller fjerne filer fra Amazon Kendra-indeksen, for å hente objekter fra Amazon S3-bøtte.

Last opp filer til S3-bøtten

Amazon Kendra kan håndtere flere dokumenttyper, for eksempel .html, .pdf, .csv, .json, .docx og .ppt. Du kan også ha en kombinasjon av dokumenter på en enkelt indeks. Teksten i disse dokumentene er indeksert til den oppgitte Amazon Kendra-indeksen. Du kan søke etter nøkkelord om AWS-emner om beste praksis, databaser, maskinlæring, sikkerhet og mer ved å bruke over 60 pdf-filer som du kan nedlasting. Hvis du for eksempel vil vite hvor du kan finne mer informasjon om caching i AWS-hvitbokene, kan Amazon Kendra hjelpe deg med å finne dokumenter relatert til databaser og beste praksis.

Når du laster ned AWS Whitepapers.zip fil og komprimer filen, ser du disse seks mappene: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Last opp disse mappene til S3-bøtten din.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Synkroniser Amazon Kendra-datakilden

Amazon Kendra-datakildedata kan synkronisere dataene dine basert på forhåndskonfigurert tidsplan eller kan utløses manuelt på forespørsel. Som standard konfigurerer CloudFormation-malen datakilden til on-demand synkroniseringsplan for å bli utløst manuelt etter behov.

For å manuelt utløse synkroniseringsjobben fra AWS Amazon Kendra-konsollen, naviger til Amazon Kendra-indeksen som brukes som en del av CloudFormation stack-distribusjon, under Dataledelse Velg navigasjonsruten Datakilder og velg deretter Synkroniser nå. Dette gjør at S3-bøtten synkroniseres med datakilden.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når Amazon Kendra-datakilden begynner å synkronisere, bør du se Gjeldende synkroniseringstilstand as Synkronisering.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når datakilden er ferdig, vil Siste synkroniseringsstatus vises som Etterfølger og Gjeldende synkroniseringstilstand as Idle. Du kan nå søke i det indekserte innholdet.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Konfigurer synkroniseringsplan

Malen lar deg kjøre timeplanen hver time på minutt 0, for eksempel 13:00, 14:00 eller 15:00. Du har også muligheten til å kjøre den daglig kl. 00:00 UTC. De Ukentlig innstillingen kjører mandager kl. 00:00 UTC, og Månedlig innstillingen kjører hver første dag i måneden kl. 00:00 UTC.

For å endre tidsplanen etter at Amazon Kendra-datakilden er opprettet, på handlinger meny, velg Rediger. Under Konfigurer synkroniseringsinnstillinger, finner du Synkroniseringsregelplan seksjon.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Under Frekvens, kan du velge time, daglig, ukentlig, månedligeller skikk, som alle lar deg planlegge synkroniseringen ned til minuttet.

Legg til ekskluderingsmønstre

Den medfølgende CloudFormation-malen lar deg legge til ekskluderingsmønstre. Som standard legges .png- og .jpg-filer til Ekskluderingsmønstre parameter. Ytterligere filformater kan legges til som en kommadelt liste i ekskluderingsmønsteret. På samme måte, Inkluderingsmønstre parameter kan brukes legge til kommaliste filformater for å sette opp et inkluderingsmønster. Hvis du ikke oppgir et inkluderingsmønster, indekseres alle filene bortsett fra de som er inkludert i ekskluderingsparameteren.

Rydd opp

For å unngå kostnader kan du slette stabelen fra AWS CloudFormation-konsollen. På Stabler side, velg stabelen du opprettet, velg Delete, og bekreft slettingen av stabelen.

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hvis du ikke har gitt en S3-bøtte, lager stabelen en bøtte. Hvis bøtten er tom, slettes den automatisk. Ellers må du tømme mappen og slette den manuelt. Hvis du har oppgitt en bøtte, selv om den er tom, blir den ikke slettet. Amazon Kendra-indeksen vil ikke bli slettet. Bare Amazon Kendra-datakilden opprettet av stabelen vil bli slettet.

konklusjonen

I dette innlegget ga vi en CloudFormation-mal for enkelt å synkronisere tekstdokumentene dine på en S3-bøtte til din Amazon Kendra-indeks. Denne løsningen er nyttig hvis du har flere S3-bøtter du vil indeksere fordi du kan lage alle nødvendige komponenter for å spørre dokumentene med noen få klikk på en konsistent og repeterbar måte. Du kan også se hvordan bildebaserte tekstdokumenter kan håndteres i Amazon Kendra. For å lære mer om spesifikke tidsplanmønstre, se Planlegg uttrykk for regler.

Legg igjen en kommentar og lær mer om Amazon Kendra-indeksoppretting i det følgende Amazon Kendra Essentials+ workshop.

Spesiell takk til Jose Mauricio Mani Yanez for hans hjelp med å lage eksempelkoden og kompilere innholdet til dette innlegget.


Om forfatteren

Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Rajesh Kumar Ravi er en AI/ML Specialist Solutions Architect hos Amazon Web Services som spesialiserer seg på intelligent dokumentsøk med Amazon Kendra og generativ AI. Han er en byggherre og problemløser, og bidrar til utvikling av nye ideer. Han liker å gå tur og elsker å gå på korte fotturer utenom jobben.

Tidstempel:

Mer fra AWS maskinlæring