Lås opp innsikt fra Amazon S3-dataene dine med intelligent søk

Publisert av Platon

Følgere: 0

Amazon Kendra er en intelligent søketjeneste drevet av maskinlæring (ML). Amazon Kendra reimaginer enterprise search for nettstedene og applikasjonene dine slik at dine ansatte og kunder enkelt kan finne innholdet de leter etter, selv når det er spredt over flere lokasjoner og innholdslagre i organisasjonen din. Nøkkelord eller spørsmål om naturlig språk kan brukes til å søke i de fleste relevante dokumenter drevet av ML for å levere svar og rangere dokumenter. Amazon Kendra kan indeksere data fra Amazon enkel lagringstjeneste (Amazon S3) eller fra et tredjeparts dokumentlager. Amazon S3 er en objektlagringstjeneste som tilbyr skalerbarhet og tilgjengelighet der du kan lagre store mengder data, inkludert produktmanualer, prosjekt- og forskningsdokumenter og mer.

I dette innlegget kan du lære hvordan du distribuerer en gitt AWS skyformasjon mal for å indeksere dokumentene dine i en Amazon S3-bøtte. Malen oppretter en Amazon Kendra-datakilde for en indeks og synkroniserer datakilden din i henhold til dine behov: on-demand, time, daglig, ukentlig eller månedlig. AWS CloudFormation lar oss levere infrastruktur som kode (IaC) slik at du kan bruke mindre tid på å administrere ressurser, replikere infrastrukturen din raskt og kontrollere og spore endringer i infrastrukturen.

Oversikt over løsningen

CloudFormation-malen setter opp en Amazon Kendra-datakilde med en tilkobling til Amazon S3. Malen oppretter også én rolle for Amazon Kendra-datakildetjenesten. Du kan spesifisere en S3-bøtte, synkroniseringsplan og inkluderings-/ekskluderingsmønstre. Når synkroniseringsjobben er fullført, kan du søke i det indekserte innholdet gjennom søkekonsollen. Følgende diagram illustrerer denne arbeidsflyten.

Dette innlegget veileder deg til følgende trinn:

Implementer den medfølgende malen.
Last opp dokumentene til S3-bøtten du oppretter. Hvis du gir en bøtte med dokumenter, kan du utelate dette trinnet.
Vent til indeksen er ferdig med å gjennomsøke datakilden.

Forutsetninger

For dette gjennomgangen bør du ha følgende forutsetninger:

An AWS-konto hvor den foreslåtte løsningen kan utplasseres.
En Amazon Kendra-indeks for å knytte en datakilde til stabelen.
Settet med dokumenter som brukes til å lage Amazon Kendra-indeksen. I denne løsningen bruker du en komprimert fil av AWS whitepapers.

Distribuer løsningen med AWS CloudFormation

For å distribuere CloudFormation-malen, fullfør følgende trinn:

Velg

Du blir omdirigert til AWS CloudFormation-konsollen.

Du kan endre parametrene eller bruke standardverdiene:
- Amazon Kendra-datakildenavnet settes automatisk ved hjelp av stabelnavnet og tilhørende bøttenavn.
- Til KendraIndexId, skriv inn Amazon Kendra-indeks-ID-en der du vil legge ved datakilden.
- Du kan også velge når du vil kjøre datakildesynkroniseringen ved hjelp av KendraSyncSchedule. Som standard er den satt til På etterspørsel.
- Til S3BucketName, du kan enten legge inn en bøtte du allerede har opprettet eller la den stå tom. Hvis du lar den stå tom, opprettes en bøtte for deg. Uansett, bøtta brukes som Amazon Kendra-datakilde. For dette innlegget lar vi det stå tomt.

Det tar rundt 5 minutter for stabelen å distribuere Amazon Kendra-datakilden knyttet til Amazon Kendra-indeksen.

På Utganger i CloudFormation-stakken, kopierer du navnet på den opprettede bøtten, datakildenavnet og ID.

Den opprettede stabelen distribuerer én rolle: <stack-name>-KendraDataSourceRole. Det er en god praksis å distribuere en rolle for hver datakilde du oppretter. Denne rollen gir Amazon Kendra-datakilden til å legge til eller fjerne filer fra Amazon Kendra-indeksen, for å hente objekter fra Amazon S3-bøtte.

Last opp filer til S3-bøtten

Amazon Kendra kan håndtere flere dokumenttyper, for eksempel .html, .pdf, .csv, .json, .docx og .ppt. Du kan også ha en kombinasjon av dokumenter på en enkelt indeks. Teksten i disse dokumentene er indeksert til den oppgitte Amazon Kendra-indeksen. Du kan søke etter nøkkelord om AWS-emner om beste praksis, databaser, maskinlæring, sikkerhet og mer ved å bruke over 60 pdf-filer som du kan nedlasting. Hvis du for eksempel vil vite hvor du kan finne mer informasjon om caching i AWS-hvitbokene, kan Amazon Kendra hjelpe deg med å finne dokumenter relatert til databaser og beste praksis.

Når du laster ned AWS Whitepapers.zip fil og komprimer filen, ser du disse seks mappene: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Last opp disse mappene til S3-bøtten din.

Synkroniser Amazon Kendra-datakilden

Amazon Kendra-datakildedata kan synkronisere dataene dine basert på forhåndskonfigurert tidsplan eller kan utløses manuelt på forespørsel. Som standard konfigurerer CloudFormation-malen datakilden til on-demand synkroniseringsplan for å bli utløst manuelt etter behov.

For å manuelt utløse synkroniseringsjobben fra AWS Amazon Kendra-konsollen, naviger til Amazon Kendra-indeksen som brukes som en del av CloudFormation stack-distribusjon, under Dataledelse Velg navigasjonsruten Datakilder og velg deretter Synkroniser nå. Dette gjør at S3-bøtten synkroniseres med datakilden.

Når Amazon Kendra-datakilden begynner å synkronisere, bør du se Gjeldende synkroniseringstilstand as Synkronisering.

Når datakilden er ferdig, vil Siste synkroniseringsstatus vises som Etterfølger og Gjeldende synkroniseringstilstand as Idle. Du kan nå søke i det indekserte innholdet.

Konfigurer synkroniseringsplan

Malen lar deg kjøre timeplanen hver time på minutt 0, for eksempel 13:00, 14:00 eller 15:00. Du har også muligheten til å kjøre den daglig kl. 00:00 UTC. De Ukentlig innstillingen kjører mandager kl. 00:00 UTC, og Månedlig innstillingen kjører hver første dag i måneden kl. 00:00 UTC.

For å endre tidsplanen etter at Amazon Kendra-datakilden er opprettet, på handlinger meny, velg Rediger. Under Konfigurer synkroniseringsinnstillinger, finner du Synkroniseringsregelplan seksjon.

Under Frekvens, kan du velge time, daglig, ukentlig, månedligeller skikk, som alle lar deg planlegge synkroniseringen ned til minuttet.

Legg til ekskluderingsmønstre

Den medfølgende CloudFormation-malen lar deg legge til ekskluderingsmønstre. Som standard legges .png- og .jpg-filer til Ekskluderingsmønstre parameter. Ytterligere filformater kan legges til som en kommadelt liste i ekskluderingsmønsteret. På samme måte, Inkluderingsmønstre parameter kan brukes legge til kommaliste filformater for å sette opp et inkluderingsmønster. Hvis du ikke oppgir et inkluderingsmønster, indekseres alle filene bortsett fra de som er inkludert i ekskluderingsparameteren.

Rydd opp

For å unngå kostnader kan du slette stabelen fra AWS CloudFormation-konsollen. På Stabler side, velg stabelen du opprettet, velg Delete, og bekreft slettingen av stabelen.

Hvis du ikke har gitt en S3-bøtte, lager stabelen en bøtte. Hvis bøtten er tom, slettes den automatisk. Ellers må du tømme mappen og slette den manuelt. Hvis du har oppgitt en bøtte, selv om den er tom, blir den ikke slettet. Amazon Kendra-indeksen vil ikke bli slettet. Bare Amazon Kendra-datakilden opprettet av stabelen vil bli slettet.

konklusjonen

I dette innlegget ga vi en CloudFormation-mal for enkelt å synkronisere tekstdokumentene dine på en S3-bøtte til din Amazon Kendra-indeks. Denne løsningen er nyttig hvis du har flere S3-bøtter du vil indeksere fordi du kan lage alle nødvendige komponenter for å spørre dokumentene med noen få klikk på en konsistent og repeterbar måte. Du kan også se hvordan bildebaserte tekstdokumenter kan håndteres i Amazon Kendra. For å lære mer om spesifikke tidsplanmønstre, se Planlegg uttrykk for regler.

Legg igjen en kommentar og lær mer om Amazon Kendra-indeksoppretting i det følgende Amazon Kendra Essentials+ workshop.

Spesiell takk til Jose Mauricio Mani Yanez for hans hjelp med å lage eksempelkoden og kompilere innholdet til dette innlegget.

Om forfatteren

Rajesh Kumar Ravi er en AI/ML Specialist Solutions Architect hos Amazon Web Services som spesialiserer seg på intelligent dokumentsøk med Amazon Kendra og generativ AI. Han er en byggherre og problemløser, og bidrar til utvikling av nye ideer. Han liker å gå tur og elsker å gå på korte fotturer utenom jobben.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
Minting the Future med Adryenn Ashley. Tilgang her.
Kjøp og selg aksjer i PRE-IPO-selskaper med PREIPO®. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/unlock-insights-from-your-amazon-s3-data-with-intelligent-search/

Tidstempel: Kan 12, 2023

Tidstempel: Desember 6, 2023

Publisert av Platon

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset ordforråd i Amazon Transcribe

Finjuster Whisper-modeller på Amazon SageMaker med LoRA | Amazon Web Services

Bruk Amazon SageMaker Data Wrangler for dataforberedelse og Studio Labs for å lære og eksperimentere med ML

Optimaliser distribusjonskostnadene for Amazon SageMaker JumpStart-grunnmodeller med Amazon SageMaker asynkrone endepunkter | Amazon Web Services

Opprett en HCLS dokumentoppsummeringsapplikasjon med Falcon ved å bruke Amazon SageMaker JumpStart | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn