Byg en filmchatbot til TV/OTT-platforme ved hjælp af Retrieval Augmented Generation i Amazon-grunden

Genudgivet af Platon

Abonnenter: 0

At forbedre, hvordan brugerne opdager nyt indhold, er afgørende for at øge brugerengagementet og -tilfredsheden på medieplatforme. Alene søgeordssøgning har udfordringer med at fange semantik og brugerhensigt, hvilket fører til resultater, der mangler relevant kontekst; for eksempel at finde date night eller film med juletema. Dette kan føre til lavere fastholdelsesrater, hvis brugerne ikke pålideligt kan finde det indhold, de ønsker. Dog med store sprogmodeller (LLM'er), er der mulighed for at løse disse semantiske og brugerhensigtsmæssige udfordringer. Ved at kombinere indlejringer der fanger semantik med en teknik kaldet Retrieval Augmented Generation (RAG), kan du generere mere relevante svar baseret på hentet kontekst fra dine egne datakilder.

I dette indlæg viser vi dig, hvordan du sikkert opretter en filmchatbot ved at implementere RAG med dine egne data ved hjælp af Vidensbaser forum Amazonas grundfjeld. Vi bruger IMDb- og Box Office Mojo-datasættet til at simulere et katalog for medie- og underholdningskunder og vise, hvordan du kan bygge din egen RAG-løsning i blot et par trin.

Løsningsoversigt

IMDb og Box Office Mojo Movies/TV/OTT licenserbar datapakke giver en bred vifte af underholdningsmetadata, inklusive over 1.6 milliard brugervurderinger; kreditter til mere end 13 millioner medvirkende og besætningsmedlemmer; 10 millioner film-, tv- og underholdningstitler; og globale box office-rapporteringsdata fra mere end 60 lande. Mange AWS medie- og underholdningskunder licenserer IMDb-data igennem AWS dataudveksling at forbedre indholdsopdagelsen og øge kundernes engagement og fastholdelse.

Introduktion til vidensbaser for Amazon Bedrock

For at udstyre en LLM med opdateret proprietær information bruger organisationer RAG, en teknik, der involverer at hente data fra virksomhedens datakilder og berige prompten med disse data for at levere mere relevante og nøjagtige svar. Vidensbaser for Amazon Bedrock muliggør en fuldt administreret RAG-kapacitet, der giver dig mulighed for at tilpasse LLM-svar med kontekstuelle og relevante virksomhedsdata. Vidensbaser automatiserer end-to-end RAG-workflowet, inklusive indlæsning, hentning, prompt forstærkning og citater, hvilket eliminerer behovet for, at du skal skrive tilpasset kode for at integrere datakilder og administrere forespørgsler. Knowledge Bases for Amazon Bedrock muliggør også multi-turn-samtaler, så LLM kan besvare komplekse brugerforespørgsler med det rigtige svar.

Vi bruger følgende tjenester som en del af denne løsning:

Vi gennemgår følgende trin på højt niveau:

Forbehandle IMDb-dataene for at oprette dokumenter fra hver filmoptagelse og uploade dataene til en Amazon Simple Storage Service (Amazon S3) spand.
Skab en vidensbase.
Synkroniser din vidensbase med din datakilde.
Brug vidensbasen til at besvare semantiske forespørgsler om filmkataloget.

Forudsætninger

IMDb-dataene, der bruges i dette indlæg, kræver en kommercielt indholdslicens og betalt abonnement på IMDb og Box Office Mojo Movies/TV/OTT-licenspakken på AWS Data Exchange. For at forespørge om en licens og få adgang til eksempeldata, besøg developer.imdb.com. For at få adgang til datasættet, se Strømanbefaling og søgning ved hjælp af en IMDb vidensgraf – Del 1 og følg Få adgang til IMDb-data sektion.

Forbehandle IMDb-dataene

Før vi opretter en vidensbase, skal vi forbehandle IMDb-datasættet til tekstfiler og uploade dem til en S3-bøtte. I dette indlæg simulerer vi et kundekatalog ved hjælp af IMDb-datasættet. Vi tager 10,000 populære film fra IMDb-datasættet til kataloget og bygger datasættet.

Brug følgende notesbog at oprette datasættet med yderligere oplysninger som skuespillere, instruktører og producentnavne. Vi bruger følgende kode til at oprette en enkelt fil til en film med al information gemt i filen i en ustruktureret tekst, der kan forstås af LLM'er:

def create_txt_files_imdb(row): full_text = "" full_text += f"{row['originalTitle']} ({row['titleId']}) was shot in year {int(row['year'])} with rating {row['rating']} and poster url {row['poster_url']}.nn" full_text += f"{row['originalTitle']} has genres {', '.join(row['genres'])}.nn" full_text += f"{row['originalTitle']} has actors {', '.join(row['Actors'])}.nn" full_text += f"{row['originalTitle']} has directors {', '.join(row['Directors'])}.nn" full_text += f"{row['originalTitle']} has producers {', '.join(row['Producers'])}.nn" full_text += f"{row['originalTitle']} has keyword {', '.join([x.replace('-',' ') for x in row['keyword']])}.nn" full_text += f"{row['originalTitle']} has location {', '.join(row['location'])}.nn" full_text += f"{row['originalTitle']} has plot {row['plot']}.nn" with open(f"<path>/data/imdb_data/{row['titleId']}.txt","w") as f: f.write(full_text) return full_text

Når du har dataene i .txt-format, kan du uploade dataene til Amazon S3 ved hjælp af følgende kommando:

aws s3 cp <path to local data> s3://<bucket-name>/<path>/ --recursive

Opret IMDb Knowledge Base

Udfør følgende trin for at oprette din videnbase:

Vælg på Amazon Bedrock-konsollen Vidensdatabase i navigationsruden.
Vælg Skab vidensbase.
Til Navn på videnbasen, gå ind imdb.
Til Beskrivelse af vidensgrundlaget, indtast en valgfri beskrivelse, såsom vidensbase til indtagelse og lagring af imdb-data.
Til IAM-tilladelser, Vælg Opret og brug en ny servicerolle, og indtast derefter et navn til din nye servicerolle.
Vælg Næste.

konsolside med vidensbasedetaljer

Til Datakildenavn, gå ind imdb-s3.
Til S3 URI, skal du indtaste den S3 URI, som du uploadede dataene til.
I Avancerede indstillinger – valgfrit afsnit, for Chunking strategi, vælg Ingen klumper.
Vælg Næste.

Videnbaser giver dig mulighed for at dele dine dokumenter i mindre segmenter for at gøre det nemt for dig at behandle store dokumenter. I vores tilfælde har vi allerede delt dataene i et dokument i mindre størrelse (én pr. film).

vidensbase konsol 2

I Vektor database sektion, vælg Opret hurtigt en ny vektorbutik.

Amazon Bedrock vil automatisk oprette en fuldt administreret OpenSearch Serverless vektorsøgningssamling og konfigurere indstillingerne for indlejring af dine datakilder ved hjælp af den valgte Titan Embedding G1 – Tekstindlejringsmodel.

vidensbase vektor butik side

Vælg Næste.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Gennemgå dine indstillinger og vælg Skab vidensbase.

Synkroniser dine data med videnbasen

Nu hvor du har oprettet din videnbase, kan du synkronisere videnbasen med dine data.

På Amazon Bedrock-konsollen skal du navigere til din vidensbase.
I Datakilde sektion, skal du vælge Synkroniser.

synkronisering af videnbase

Når datakilden er synkroniseret, er du klar til at forespørge dataene.

Forbedre søgning ved hjælp af semantiske resultater

Udfør følgende trin for at teste løsningen og forbedre din søgning ved hjælp af semantiske resultater:

På Amazon Bedrock-konsollen skal du navigere til din vidensbase.
Vælg din vidensbase og vælg Test videnbase.
Vælg Vælg model, og vælg Antropiske Claude v2.1.
Vælg Indløs.

Nu er du klar til at forespørge dataene.

Vi kan stille nogle semantiske spørgsmål, såsom "Anbefal mig nogle film med juletema."

query Anbefal mig nogle film med juletema.

Vidensbasesvar indeholder citater, som du kan udforske for svarkorrekthed og faktualitet.

videnbase citater

Du kan også se nærmere på alle de oplysninger, du har brug for fra disse film. I det følgende eksempel spørger vi "hvem instruerede mareridt før jul?"

"hvem instruerede mareridt før jul?"

Du kan også stille mere specifikke spørgsmål relateret til genrerne og vurderingerne, såsom "vis mig klassiske animationsfilm med vurderinger på over 7?"

vise mig klassiske animationsfilm med vurderinger over 7?

Udvid din videnbase med agenter

Agenter for Amazon Bedrock hjælpe dig med at automatisere komplekse opgaver. Agenter kan opdele brugerforespørgslen i mindre opgaver og kalde brugerdefinerede API'er eller vidensbaser for at supplere oplysninger til kørende handlinger. Med Agents for Amazon Bedrock kan udviklere integrere intelligente agenter i deres apps, fremskynde leveringen af AI-drevne applikationer og spare ugers udviklingstid. Med agenter kan du udvide din videnbase ved at tilføje mere funktionalitet som anbefalinger fra Amazon Tilpas for brugerspecifikke anbefalinger eller udførelse af handlinger såsom filtrering af film baseret på brugerbehov.

Konklusion

I dette indlæg viste vi, hvordan man bygger en samtalefilmchatbot ved hjælp af Amazon Bedrock i nogle få trin for at besvare semantiske søgninger og samtaleoplevelser baseret på dine egne data og IMDb og Box Office Mojo Movies/TV/OTT-licenserede datasæt. I det næste indlæg gennemgår vi processen med at tilføje mere funktionalitet til din løsning ved hjælp af Agents for Amazon Bedrock. For at komme i gang med vidensbaser på Amazon Bedrock, se Vidensbaser for Amazon Bedrock.

Om forfatterne

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Gaurav Rele er Senior Data Scientist ved Generative AI Innovation Center, hvor han arbejder med AWS-kunder på tværs af forskellige vertikaler for at accelerere deres brug af generative AI og AWS Cloud-tjenester for at løse deres forretningsmæssige udfordringer.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Divya Bhargavi er en Senior Applied Scientist Lead ved Generative AI Innovation Center, hvor hun løser forretningsproblemer af høj værdi for AWS-kunder ved hjælp af generative AI-metoder. Hun arbejder med billed-/videoforståelse og genfinding, vidensgrafforstærkede store sprogmodeller og personligt tilpassede annonceringsbrug.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Suren Gunturu er en Data Scientist, der arbejder i Generative AI Innovation Center, hvor han arbejder med forskellige AWS-kunder for at løse forretningsproblemer af høj værdi. Han har specialiseret sig i at bygge ML-pipelines ved hjælp af store sprogmodeller, primært gennem Amazon Bedrock og andre AWS Cloud-tjenester.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Vidya Sagar Ravipati er Science Manager ved Generative AI Innovation Center, hvor han udnytter sin store erfaring med distribuerede systemer i stor skala og sin passion for maskinlæring til at hjælpe AWS-kunder på tværs af forskellige brancher med at accelerere deres AI og cloud-adoption.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/build-a-movie-chatbot-for-tv-ott-platforms-using-retrieval-augmented-generation-in-amazon-bedrock/

Tidsstempel: Januar 31, 2024

Tidsstempel: December 22, 2023

Genudgivet af Platon

Anomalidetektion med Amazon SageMaker Edge Manager ved hjælp af AWS IoT Greengrass V2

Udfør what-if-analyser med Amazon Forecast, op til 80 % hurtigere end før

InformedIQ automatiserer verifikationer for Origences autoudlån ved hjælp af maskinlæring

Byg generative AI-agenter med Amazon Bedrock, Amazon DynamoDB, Amazon Kendra, Amazon Lex og LangChain | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto