At AWS re: Izum 2023 smo objavili splošno razpoložljivost Baze znanja za Amazon Bedrock. Z bazami znanja za Amazon Bedrock lahko varno povežete modele temeljev (FM) v Amazon Bedrock v podatke vašega podjetja z uporabo popolnoma upravljanega modela Retrieval Augmented Generation (RAG).
Pri aplikacijah, ki temeljijo na RAG, je natančnost ustvarjenih odgovorov FM-jev odvisna od konteksta, ki je zagotovljen modelu. Konteksti se pridobijo iz vektorskih shramb na podlagi uporabniških poizvedb. V nedavno izdani funkciji za baze znanja za Amazon Bedrock, hibridno iskanje, lahko semantično iskanje kombinirate z iskanjem po ključnih besedah. Vendar pa boste v mnogih situacijah morda morali pridobiti dokumente, ustvarjene v določenem obdobju ali označene z določenimi kategorijami. Če želite izboljšati rezultate iskanja, lahko filtrirate na podlagi metapodatkov dokumenta, da izboljšate natančnost iskanja, kar posledično vodi do ustreznejših generacij FM, ki so usklajene z vašimi interesi.
V tej objavi razpravljamo o novi funkciji filtriranja metapodatkov po meri v zbirkah znanja za Amazon Bedrock, ki jo lahko uporabite za izboljšanje rezultatov iskanja s predfiltriranjem iskanj iz vektorskih shramb.
Pregled filtriranja metapodatkov
Pred izdajo filtriranja metapodatkov bi bili vsi semantično pomembni kosi do vnaprej nastavljenega maksimuma vrnjeni kot kontekst, ki bi ga FM uporabil za ustvarjanje odgovora. Zdaj lahko s filtri metapodatkov pridobite ne samo semantično pomembne kose, ampak tudi dobro definirano podmnožico teh ustreznih kosov na podlagi uporabljenih filtrov metapodatkov in povezanih vrednosti.
S to funkcijo lahko zdaj zagotovite datoteko z metapodatki po meri (vsaka do 10 KB) za vsak dokument v bazi znanja. Za svoje pridobitve lahko uporabite filtre, tako da vektorski shrambi naročite predhodno filtriranje na podlagi metapodatkov dokumenta in nato iskanje ustreznih dokumentov. Na ta način imate nadzor nad pridobljenimi dokumenti, še posebej, če so vaše poizvedbe dvoumne. Uporabite lahko na primer pravne dokumente s podobnimi izrazi za različne kontekste ali filme s podobnim zapletom, izdane v različnih letih. Poleg tega z zmanjšanjem števila kosov, po katerih se išče, dosežete prednosti v zmogljivosti, kot je zmanjšanje ciklov procesorja in stroškov poizvedovanja v vektorski shrambi, poleg izboljšanja natančnosti.
Če želite uporabiti funkcijo filtriranja metapodatkov, morate poleg izvornih podatkovnih datotek zagotoviti metapodatkovne datoteke z istim imenom kot izvorna podatkovna datoteka in .metadata.json
pripona. Metapodatki so lahko nizi, številke ali logični. Sledi primer vsebine metapodatkovne datoteke:
Funkcija filtriranja metapodatkov baze znanja za Amazon Bedrock je na voljo v regijah AWS Vzhod ZDA (S. Virginija) in Zahod ZDA (Oregon).
Spodaj so pogosti primeri uporabe za filtriranje metapodatkov:
- Document chatbot za programsko podjetje – To omogoča uporabnikom, da najdejo informacije o izdelku in vodnike za odpravljanje težav. Filtri v različici operacijskega sistema ali aplikacije lahko na primer pomagajo preprečiti pridobivanje zastarelih ali nepomembnih dokumentov.
- Pogovorno iskanje aplikacije organizacije – To uporabnikom omogoča iskanje po dokumentih, kanbanih, prepisih posnetkov sestankov in drugih sredstvih. Z uporabo filtrov metapodatkov za delovne skupine, poslovne enote ali ID-je projektov lahko prilagodite izkušnjo klepeta in izboljšate sodelovanje. Primer bi bil »Kakšno je stanje projekta Sphinx in povečana tveganja«, kjer lahko uporabniki filtrirajo dokumente za določen projekt ali vrsto vira (kot so e-pošta ali dokumenti sestankov).
- Inteligentno iskanje razvijalcev programske opreme – To razvijalcem omogoča iskanje informacij o določeni izdaji. Filtri za različico izdaje, vrsto dokumenta (kot je koda, referenca API-ja ali težava) lahko pomagajo natančno določiti ustrezne dokumente.
Pregled rešitev
V naslednjih razdelkih prikazujemo, kako pripraviti nabor podatkov za uporabo kot bazo znanja in nato izvajati poizvedbe s filtriranjem metapodatkov. Poizvedbo lahko izvedete bodisi z Konzola za upravljanje AWS ali SDK.
Pripravite nabor podatkov za baze znanja za Amazon Bedrock
Za to objavo uporabljamo a vzorec nabora podatkov o izmišljenih video igrah za ponazoritev, kako zaužiti in pridobiti metapodatke z uporabo zbirk znanja za Amazon Bedrock. Če želite slediti v svojem računu AWS, prenesite datoteko.
Če želite svojim dokumentom dodati metapodatke v obstoječi bazi znanja, ustvarite datoteke z metapodatki s pričakovanim imenom datoteke in shemo, nato pa preskočite na korak za sinhronizacijo podatkov z bazo znanja, da začnete postopno vnos.
V našem vzorčnem naboru podatkov je vsak dokument igre ločena datoteka CSV (npr. s3://$bucket_name/video_game/$game_id.csv
) z naslednjimi stolpci:
title
, description
, genres
, year
, publisher
, score
Metapodatki vsake igre imajo pripono .metadata.json
(npr. s3://$bucket_name/video_game/$game_id.csv.metadata.json
) z naslednjo shemo:
Ustvarite bazo znanja za Amazon Bedrock
Za navodila za ustvarjanje nove baze znanja glejte Ustvarite bazo znanja. Za ta primer uporabljamo naslednje nastavitve:
- o Nastavite vir podatkov strani, pod Strategija drobljenjatako, da izberete Brez drobljenja, ker ste že predhodno obdelali dokumente v prejšnjem koraku.
- v Model vdelav oddelek, izberite Vdelave Titan G1 – Besedilo.
- v Vektorska baza podatkov oddelek, izberite Hitro ustvarite novo vektorsko trgovino. Funkcija filtriranja metapodatkov je na voljo za vse podprte vektorske shrambe.
Sinhronizirajte nabor podatkov z bazo znanja
Ko ustvarite bazo znanja in so vaše podatkovne datoteke in datoteke z metapodatki v Preprosta storitev shranjevanja Amazon (Amazon S3), lahko začnete s postopnim zaužitjem. Za navodila glejte Sinhronizirajte, da svoje vire podatkov vnesete v bazo znanja.
Poizvedba s filtriranjem metapodatkov na konzoli Amazon Bedrock
Če želite uporabiti možnosti filtriranja metapodatkov na konzoli Amazon Bedrock, izvedite naslednje korake:
- Na konzoli Amazon Bedrock izberite Baze znanja v podoknu za krmarjenje.
- Izberite bazo znanja, ki ste jo ustvarili.
- Izberite Preizkusite bazo znanja.
- Izberite Konfiguracije ikono, nato razširite Filtri.
- Vnesite pogoj v obliki: ključ = vrednost (na primer zvrsti = strategija) in pritisnite Vnesite.
- Če želite spremeniti ključ, vrednost ali operator, izberite pogoj.
- Nadaljujte s preostalimi pogoji (na primer (zvrsti = strategija IN leto >= 2023) ALI (ocena >= 9))
- Ko končate, vnesite svojo poizvedbo v polje za sporočilo in nato izberite Run.
Za to objavo vnesemo poizvedbo »Strateška igra s kul grafiko, izdana po letu 2023.«
Poizvedba s filtriranjem metapodatkov z uporabo SDK
Če želite uporabiti SDK, najprej ustvarite odjemalca za Zastopniki za Amazon Bedrock čas izvajanja:
Nato sestavite filter (v nadaljevanju je nekaj primerov):
Prenesite filter na retrievalConfiguration
od API za iskanje or RetrieveAndGenerate API-ji:
Naslednja tabela navaja nekaj odgovorov z različnimi pogoji filtriranja metapodatkov.
Poizvedba | Filtriranje metapodatkov | Pridobljeni dokumenti | Opazovanja |
»Strateška igra s kul grafiko, izdana po letu 2023« | off |
* Viking Saga: The Sea Raider, leto: 2023, žanri: strategija * Srednjeveški grad: obleganje in osvajanje, leto:2022, žanri: strategija * Kibernetska revolucija: Vzpon strojev, leto:2022, žanri: strategija |
2/5 iger izpolnjuje pogoj (zvrsti = strategija in leto >= 2023) |
On | * Viking Saga: The Sea Raider, leto: 2023, žanri: strategija * Fantasy Kingdoms: Chronicles of Eldoria, leto: 2023, žanri: strategija |
2/2 iger izpolnjuje pogoj (zvrsti = strategija in leto >= 2023) |
Poleg metapodatkov po meri lahko filtrirate tudi s predponami S3 (ki so vgrajeni metapodatki, zato vam ni treba posredovati datotek z metapodatki). Na primer, če dokumente igre organizirate v predpone glede na izdajatelja (npr. s3://$bucket_name/video_game/$publisher/$game_id.csv
), lahko filtrirate z določenim izdajateljem (npr. neo_tokyo_games
) z naslednjo sintakso:
Čiščenje
Za čiščenje virov izvedite naslednje korake:
- Izbrišite bazo znanja:
- Na konzoli Amazon Bedrock izberite Baze znanja pod Orkestracija v podoknu za krmarjenje.
- Izberite bazo znanja, ki ste jo ustvarili.
- Upoštevajte AWS upravljanje identitete in dostopa (IAM) ime storitvene vloge v Pregled baze znanja oddelek.
- v Vektorska baza podatkov oddelku upoštevajte zbirko ARN.
- Izberite Brisanje, nato vnesite delete za potrditev.
- Izbrišite vektorsko bazo podatkov:
- o Storitev Amazon OpenSearch konzolo, izberite Naše zbirke pod Brez strežnika v podoknu za krmarjenje.
- V iskalno vrstico vnesite zbirko ARN, ki ste jo shranili.
- Izberite zbirko in izberite Brisanje.
- V potrditveni poziv vnesite potrditev in nato izberite Brisanje.
- Izbrišite vlogo storitve IAM:
- Na konzoli IAM izberite vloge v podoknu za krmarjenje.
- Poiščite ime vloge, ki ste ga zabeležili prej.
- Izberite vlogo in izberite Brisanje.
- V potrditveni poziv vnesite ime vloge in izbrišite vlogo.
- Izbrišite vzorčni nabor podatkov:
- Na konzoli Amazon S3 se pomaknite do vedra S3, ki ste ga uporabili.
- Izberite predpono in datoteke, nato izberite Brisanje.
- V potrditveni poziv za brisanje vnesite trajno brisanje.
zaključek
V tej objavi smo obravnavali funkcijo filtriranja metapodatkov v zbirkah znanja za Amazon Bedrock. Naučili ste se, kako dokumentom dodati metapodatke po meri in jih uporabiti kot filtre med pridobivanjem in poizvedovanjem po dokumentih s konzolo Amazon Bedrock in SDK. To pomaga izboljšati natančnost konteksta, zaradi česar so odgovori na poizvedbe še bolj relevantni, hkrati pa doseže znižanje stroškov poizvedovanja po vektorski bazi podatkov.
Za dodatne vire glejte naslednje:
O avtorjih
Corvus Lee je višji arhitekt rešitev GenAI Labs s sedežem v Londonu. Navdušen je nad načrtovanjem in razvojem prototipov, ki uporabljajo generativno umetno inteligenco za reševanje težav strank. Prav tako sledi najnovejšemu razvoju generativne umetne inteligence in tehnik iskanja, tako da jih uporablja v scenarijih iz resničnega sveta.
Ahmed Ewis je višji arhitekt rešitev pri AWS GenAI Labs, ki strankam pomaga zgraditi generativne prototipe umetne inteligence za reševanje poslovnih težav. Ko ne sodeluje s strankami, uživa v igri s svojimi otroki in kuhanju.
Chris Pecora je Generative AI Data Scientist pri Amazon Web Services. Navdušen je nad ustvarjanjem inovativnih izdelkov in rešitev, hkrati pa se osredotoča na znanost, ki je obsedena s strankami. Ko ne izvaja eksperimentov in je na tekočem z najnovejšimi dogodki v GenAI, rad preživlja čas s svojimi otroki.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/knowledge-bases-for-amazon-bedrock-now-supports-metadata-filtering-to-improve-retrieval-accuracy/
- :ima
- : je
- :ne
- :kje
- $GOR
- 10
- 100
- 12
- 14
- 150
- 19
- 2016
- 2023
- 28
- 500
- 7
- 9
- a
- O meni
- dostop
- Račun
- natančnost
- Doseči
- doseganju
- dodajte
- Poleg tega
- Dodatne
- Prednosti
- po
- AI
- Podatki AI
- poravnano
- vsi
- omogoča
- skupaj
- skupaj
- že
- Prav tako
- Amazon
- Amazon Web Services
- an
- in
- razglasitve
- kaj
- API
- uporaba
- aplikacije
- uporabna
- Uporabi
- Uporaba
- SE
- AS
- Sredstva
- povezan
- At
- Povečana
- razpoložljivost
- Na voljo
- izogniti
- AWS
- bar
- baza
- temeljijo
- BE
- ker
- počutje
- Pasovi
- izgradnjo
- Building
- vgrajeno
- poslovni
- vendar
- by
- CAN
- primeri
- kategorije
- nekatere
- spremenite
- klepet
- chatbot
- Izberite
- izbral
- čiščenje
- stranke
- ura
- Koda
- sodelovati
- sodelovanje
- zbirka
- Stolpci
- združujejo
- Skupno
- podjetje
- dokončanje
- stanje
- Pogoji
- Potrdi
- Potrditev
- Connect
- Konzole
- gradnjo
- vsebina
- ozadje
- kontekstih
- nadzor
- Cool
- strošek
- zajeti
- ustvarjajo
- ustvaril
- po meri
- stranka
- Stranke, ki so
- ciklov
- datum
- podatkovni znanstvenik
- Baze podatkov
- opredeljen
- izkazati
- odvisna
- oblikovanje
- Razvijalci
- razvoju
- razvoju
- drugačen
- razpravlja
- dokument
- Dokumenti
- dont
- prenesi
- vsak
- prej
- East
- bodisi
- E-naslov
- Vnesite
- enako
- zlasti
- eve
- Tudi
- Primer
- Primeri
- obstoječih
- Razširi
- Pričakuje
- izkušnje
- Poskusi
- FANTASY
- Feature
- Nekaj
- izmišljeno
- file
- datoteke
- filter
- filtriranje
- Filtri
- Najdi
- prva
- osredotoča
- sledi
- po
- za
- format
- Fundacija
- iz
- v celoti
- g1
- igra
- Games
- genai
- splošno
- ustvarjajo
- ustvarila
- generacija
- generacije
- generativno
- Generativna AI
- zvrsti
- Grafično
- Skupine
- Vodniki
- Imajo
- he
- pomoč
- pomoč
- Pomaga
- njegov
- Kako
- Kako
- Vendar
- HTML
- http
- HTTPS
- ID
- identiteta
- ID-ji
- if
- ilustrirajte
- izboljšanje
- Izboljšanje
- in
- inkrementalno
- Podatki
- inovativne
- Navodila
- interesi
- v
- vprašanje
- jpg
- vzdrževanje
- ohranja
- Ključne
- otroci
- znanje
- Labs
- Zadnji
- najnovejši razvoj dogodkov
- Interesenti
- naučili
- Pravne informacije
- kot
- seznami
- London
- Poglej
- ljubi
- Stroji
- Izdelava
- upravlja
- upravljanje
- več
- največja
- Maj ..
- Srednjeveško
- Srečati
- srečanja
- Sporočilo
- metapodatki
- Model
- modeli
- več
- filmi
- Ime
- Krmarjenje
- ostalo
- Nimate
- Novo
- Ninjas
- Upoštevajte
- opozoriti
- zdaj
- Številka
- zastarela
- of
- on
- samo
- deluje
- operacijski sistem
- operater
- možnosti
- or
- Oregon
- Ostalo
- naši
- več
- lastne
- Stran
- podokno
- strastno
- performance
- Obdobje
- trajno
- prilagodite
- platon
- Platonova podatkovna inteligenca
- PlatoData
- igranje
- parcela
- Prispevek
- Pripravimo
- pritisnite
- prejšnja
- Težave
- Izdelek
- Podatki o izdelku
- Izdelki
- Projekt
- prototipi
- zagotavljajo
- če
- Založnik
- poizvedbe
- poizvedba
- krpa
- postavljeno
- ocena
- RE
- resnični svet
- Pred kratkim
- Snemanje
- zmanjšanje
- Zmanjšanje
- glejte
- reference
- izboljšati
- regije
- sprostitev
- sprosti
- pomembno
- Preostalih
- viri
- Odgovor
- odgovorov
- Rezultati
- iskanje
- Revolucija
- Rise
- tveganja
- vloga
- tek
- runtime
- saga
- Enako
- Vzorec
- Vzorčni niz podatkov
- shranjena
- scenariji
- Znanost
- Znanstvenik
- rezultat
- SDK
- MORJE
- Iskalnik
- Oddelek
- oddelki
- Varno
- glej
- izberite
- pomensko
- višji
- ločena
- Storitev
- Storitve
- nastavitve
- Podoben
- Enostavno
- situacije
- So
- Software
- rešitve
- SOLVE
- nekaj
- vir
- Viri
- specifična
- Poraba
- Začetek
- Status
- Korak
- Koraki
- shranjevanje
- trgovina
- trgovine
- Strategija
- String
- taka
- dobavi
- Podprti
- Podpira
- sinhronizacijo.
- sintaksa
- sistem
- miza
- TAG
- Bodite
- skupina
- tehnike
- Pogoji
- da
- O
- Vir
- Njih
- POTEM
- ta
- tisti,
- skozi
- čas
- do
- OBRAT
- tip
- pod
- enote
- us
- uporaba
- Rabljeni
- uporabnik
- Uporabniki
- uporabo
- vrednost
- Vrednote
- različica
- Video
- video igre
- Virginia
- želeli
- način..
- we
- web
- spletne storitve
- dobro opredeljen
- West
- kdaj
- ki
- medtem
- z
- delo
- bi
- leto
- let
- Vi
- Vaša rutina za
- zefirnet
- Zip