Amazon Bedrocki teadmistebaasid toetavad nüüd hübriidotsingut | Amazoni veebiteenused

Amazon Bedrocki teadmistebaasid toetavad nüüd hübriidotsingut | Amazoni veebiteenused

At AWS re: leiutada 2023. aastal teatasime selle üldisest saadavusest Amazon Bedrocki teadmistebaasid. Teadmistebaasi abil saate turvaliselt ühendada alusmudeleid (FM-id). Amazonase aluspõhi teie ettevõtte andmetele täielikult hallatud taastamise laiendatud generatsiooni (RAG) jaoks.

Aastal eelmine postitus, kirjeldasime, kuidas Amazon Bedrocki teadmistebaasid haldab teie eest täielikku RAG-i töövoogu, ja jagasime üksikasju mõne hiljutise funktsiooni käivitamise kohta.

RAG-põhiste rakenduste puhul sõltub suurte keelemudelite (LLM) genereeritud vastuse täpsus mudelile pakutavast kontekstist. Kontekst hangitakse vektori andmebaasist kasutaja päringu alusel. Semantilist otsingut kasutatakse laialdaselt, kuna see suudab mõista rohkem inimlikke küsimusi – kasutaja päring ei ole alati otseselt seotud sellele vastava sisu täpsete märksõnadega. Semantiline otsing aitab anda vastuseid teksti tähenduse põhjal. Siiski on sellel kõigi asjakohaste märksõnade hõivamisel piirangud. Selle jõudlus sõltub teksti tähenduse esindamiseks kasutatavate sõnamanuste kvaliteedist. Selliste piirangute ületamiseks annab semantilise otsingu kombineerimine märksõnaotsinguga (hübriid) paremaid tulemusi.

Selles postituses käsitleme hübriidotsingu uut funktsiooni, mille saate semantilise otsingu kõrval valida päringuvalikuna.

Hübriidotsingu ülevaade

Hübriidotsing kasutab ära mitme otsingualgoritmi tugevusi, integreerides nende ainulaadsed võimalused, et suurendada tagastatud otsingutulemuste asjakohasust. RAG-põhiste rakenduste puhul kombineeritakse semantilise otsingu võimalusi tavaliselt traditsioonilise märksõnapõhise otsinguga, et parandada otsingutulemuste asjakohasust. See võimaldab otsida nii dokumentide sisu kui ka nende aluseks olevaid tähendusi. Näiteks kaaluge järgmist päringut:

What is the cost of the book "<book_name>" on <website_name>?

Selles raamatu nime ja veebisaidi nime päringus annab märksõnaotsing paremaid tulemusi, kuna soovime konkreetse raamatu maksumust. Mõistel "kulu" võib aga olla sünonüüme, näiteks "hind", seega on parem kasutada semantilist otsingut, mis mõistab teksti tähendust. Hübriidotsing pakub mõlemast lähenemisviisist parima: semantilise otsingu täpsus ja märksõnade katvus. See töötab suurepäraselt RAG-põhiste rakenduste jaoks, kus retriiver peab käsitlema mitmesuguseid loomuliku keele päringuid. Märksõnad aitavad katta päringu konkreetseid üksusi, nagu toote nimi, värv ja hind, samas kui semantika mõistab paremini päringu tähendust ja eesmärki. Näiteks kui soovite luua e-kaubanduse veebisaidi jaoks vestlusrobotit, et käsitleda klientide päringuid, nagu tagastamispoliitika või toote üksikasjad, on hübriidotsingu kasutamine kõige sobivam.

Kasutage hübriidotsingu juhtumeid

Järgmised on mõned hübriidotsingu levinud kasutusjuhud.

  • Avatud domeeni küsimusele vastamine – See hõlmab erinevatel teemadel küsimustele vastamist. See nõuab otsimist suurtest mitmekesise sisuga dokumentide kogudest, nagu veebisaidi andmed, mis võivad hõlmata erinevaid teemasid, nagu jätkusuutlikkus, juhtimine, finantstulemused ja palju muud. Ainuüksi semantilist otsingut ei saa selle ülesande jaoks hästi üldistada, kuna sellel puudub nähtamatute olemite leksikaalne sobitamine, mis on oluline domeeniväliste näidete käsitlemisel. Seetõttu võib märksõnapõhise otsingu kombineerimine semantilise otsinguga aidata ulatust kitsendada ja pakkuda paremaid tulemusi avatud domeeni küsimustele vastamisel.
  • Kontekstipõhised vestlusrobotid – Vestlused võivad kiiresti suunda muuta ja katta ettearvamatuid teemasid. Hübriidotsing saab selliste avatud dialoogidega paremini hakkama.
  • Isikupärastatud otsing – Hübriidsest lähenemisviisist on kasu veebimahus heterogeense sisu otsimine. Semantiline otsing käsitleb populaarseid peapäringuid, samas kui märksõnad hõlmavad haruldasi pika saba päringuid.

Kuigi hübriidotsing pakub kahe lähenemisviisi kombineerimisel laiemat katvust, on semantilisel otsingul täpsuse eelised, kui domeen on kitsas ja semantika on täpselt määratletud või kui valesti tõlgendamiseks on vähe ruumi, näiteks faktoidsete küsimustele vastamise süsteemid.

Hübriidotsingu eelised

Nii märksõna kui ka semantiline otsing tagastavad eraldi tulemuste komplekti koos asjakohasuse skooridega, mis seejärel kombineeritakse kõige asjakohasemate tulemuste saamiseks. Amazon Bedrocki teadmistebaasid toetavad praegu nelja vektoripoodi: Amazon OpenSearch Serverita, Amazon Aurora PostgreSQL-iga ühilduv väljaanne, Käbikäppja Redis Enterprise Cloud. Selle kirjutamise seisuga on hübriidotsingu funktsioon saadaval OpenSearch Serverlessi jaoks ning peagi on saadaval ka teiste vektorpoodide tugi.

Järgnevalt on toodud mõned hübriidotsingu kasutamise eelised.

  • Täiustatud täpsus – FM-i genereeritud vastuse täpsus sõltub otseselt hangitud tulemuste asjakohasusest. Teie andmete põhjal võib rakenduse täpsuse parandamine ainult semantilise otsingu abil olla keeruline. Hübriidotsingu kasutamise peamine eelis on hankitud tulemuste parem kvaliteet, mis omakorda aitab FM-il luua täpsemaid vastuseid.
  • Laiendatud otsinguvõimalused – Märksõnaotsing loob laiema võrgu ja leiab dokumendid, mis võivad olla asjakohased, kuid ei pruugi sisaldada kogu dokumendi semantilist struktuuri. See võimaldab teil otsida nii märksõnade kui ka teksti semantilise tähenduse järgi, laiendades seeläbi otsinguvõimalusi.

Järgmistes jaotistes demonstreerime, kuidas kasutada hübriidotsingut koos Amazon Bedrocki teadmistebaasidega.

Kasutage SDK kaudu hübriidotsingu ja semantilise otsingu valikuid

Kui helistate rakendusele Retrieve API, valib Amazon Bedrocki teadmistebaasid teie jaoks õige otsingustrateegia, et pakkuda teile kõige asjakohasemaid tulemusi. Teil on võimalus see alistada, et kasutada API-s hübriid- või semantilist otsingut.

Too API

Retrieve API on loodud asjakohaste otsingutulemuste toomiseks, pakkudes kasutajapäringut, teadmistebaasi ID-d ja tulemuste arvu, mille soovite API-lt tagastada. See API teisendab kasutajapäringud manusteks, otsib teadmistebaasist kas hübriidotsingu või semantilise (vektor)otsingu abil ja tagastab asjakohased tulemused, andes teile rohkem kontrolli otsingutulemuste peale kohandatud töövoogude loomiseks. Näiteks saate hankitud tulemustele lisada järeltöötlusloogika või lisada oma viipa ja luua ühenduse mis tahes Amazon Bedrocki pakutava FM-iga vastuste genereerimiseks.

Et näidata teile näidet hübriid- ja semantiliste (vektori)otsingu valikute vahel vahetamise kohta, oleme loonud teadmistebaasi, kasutades Amazoni 10K dokument 2023. aastaks. Lisateavet teadmistebaasi loomise kohta leiate aadressilt Looge kontekstuaalne vestlusroti rakendus, kasutades Amazon Bedrocki teabebaase.

Hübriidotsingu väärtuse demonstreerimiseks kasutame järgmist päringut:

As of December 31st 2023, what is the leased square footage for physical stores in North America?

Eelmise päringu vastus hõlmab mõnda märksõna, näiteks date, physical storesja North America. Õige vastus on 22,871 thousand square feet. Vaatleme erinevust nii hübriid- kui ka semantilise otsingu tulemustes.

Järgmine kood näitab, kuidas kasutada hübriid- või semantilist (vektorotsingut), kasutades Boto3-ga Retrieve API:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

. overrideSearchType võimalus sisse retrievalConfiguration pakub võimalust kasutada kumbagi HYBRID or SEMANTIC. Vaikimisi valib see teile sobiva strateegia, et anda teile kõige asjakohasemad tulemused, ja kui soovite alistada vaikevaliku kas hübriid- või semantilise otsingu kasutamiseks, saate määrata väärtuseks HYBRID/SEMANTIC. väljund Retrieve API sisaldab allalaaditud tekstitükke, lähteandmete asukohatüüpi ja URI-d ning otsingute asjakohasuse skoore. Hinded aitavad määrata, millised osad vastavad päringu vastusele kõige paremini.

Järgmised on hübriidotsingut kasutava päringu tulemused (osa väljundist on lühiduse huvides redigeeritud):

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

Järgmised on semantilise otsingu tulemused (osa väljundist on lühiduse huvides redigeeritud):

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

Nagu tulemustes näete, suutis hübriidotsing hankida otsingutulemuse Põhja-Ameerika füüsiliste kaupluste renditud ruutmaterjaliga, nagu on mainitud kasutaja päringus. Peamine põhjus oli see, et hübriidotsing suutis kombineerida selliste märksõnade tulemusi nagu date, physical storesja North America päringus, samas kui semantiline otsing mitte. Seega, kui otsingutulemusi täiendatakse kasutaja päringu ja viipaga, ei saa FM semantilise otsingu korral õiget vastust anda.

Vaatame nüüd järgmist RetrieveAndGenerate API hübriidotsinguga, et mõista FM-i genereeritud lõplikku vastust.

RetrieveAndGenerate API

. RetrieveAndGenerate API küsib teadmistebaasi ja genereerib saadud tulemuste põhjal vastuse. Tulemustest vastuse genereerimiseks määrate nii teadmistebaasi ID kui ka FM-i. Amazon Bedrock teisendab päringud manusteks, teeb päringuid otsingutüübi põhjal teadmistebaasi ja seejärel täiendab FM-viipa otsingutulemustega kontekstiteabena ja tagastab FM-i loodud vastuse.

Kasutame päringut „Kui suur on 31. detsembri 2023. aasta seisuga Põhja-Ameerika füüsiliste poodide renditud ruutmaad?” ja küsige RetrieveAndGenerate API vastuse genereerimiseks meie päringu abil:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

Hübriidotsingu tulemused on järgmised:

22,871 thousand leased square feet

Järgmised on semantilise otsingu tulemused:

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

Päringu tegelik vastus on 22,871 thousand leased square feet, mille genereerib hübriidotsing. Hübriidotsingu otsingutulemused sisaldasid teavet Põhja-Ameerika füüsiliste kaupluste renditud ruutmeetrite kohta, samas kui semantiline otsing ei saanud vektorpoest õiget teavet manustamise tõlke tõttu. Seetõttu ei saanud FM õiget vastust anda, kuna sellel polnud õigeid ja kõige asjakohasemaid otsingutulemusi.

Kuid üldisemate küsimuste puhul, mis ei hõlma selliseid üksusi nagu physical stores or North America, annavad nii hübriid- kui ka semantiline otsing sarnaseid tulemusi.

Järgnevalt on toodud mõne päringu näidisvastused, mis näitavad juhtumeid, mil nii hübriid- kui ka semantiline otsing annavad sarnaseid tulemusi.

Küsimus Semantiline otsing: RAG API Hübriidotsing: RAG API
Kuidas Amazon arendajaid ja ettevõtteid teenindab? Teenindame igas suuruses arendajaid ja ettevõtteid, sealhulgas idufirmasid, valitsusasutusi ja akadeemilisi asutusi, AWS-i kaudu, mis pakub laia valikut tellitavaid tehnoloogiateenuseid, sealhulgas arvutus-, salvestus-, andmebaasi-, analüüsi- ja masinõpet ning muud teenused Teenindame igas suuruses arendajaid ja ettevõtteid, sealhulgas idufirmasid, valitsusasutusi ja akadeemilisi asutusi, AWS-i kaudu, mis pakub laia valikut tellitavaid tehnoloogiateenuseid, sealhulgas arvutus-, salvestus-, andmebaasi-, analüüsi- ja masinõpet ning muud teenused.
Kes on Amazoni tegevjuhid ja direktorid 24. jaanuari 2024 seisuga? Amazoni tegevjuhid on 2024. aasta seisuga Andrew R. Jassy presidendi ja tegevjuhina, Douglas J. Herrington ülemaailmse Amazon Storesi tegevjuhina, Brian T. Olsavsky vanemasepresidendina ja finantsdirektorina ning Shelley L. Reynolds asepresidendina , ülemaailmne kontroller ja peaarvepidaja, Adam N. Selipsky Amazon Web Servicesi tegevjuhina ja David A. Zapolsky ülemaailmse avaliku poliitika osakonna vanemasepresidendina ja peajuristina. Alates 2024. aastast töötab Amazon.com tegevjuhina Jeffrey P. Bezos. Andrew R. Jassy on president ja tegevjuht. Teiste tegevjuhtide hulka kuuluvad Douglas J. Herrington ülemaailmse Amazon Storesi tegevjuhina, Brian T. Olsavsky vanemasepresident ja finantsdirektor, Shelley L. Reynolds asepresident, ülemaailmne kontroller ja peaarvepidaja ning Adam N. Selipsky tegevjuht Amazoni veebiteenused. David A. Zapolsky on ülemaailmse avaliku poliitika vanemasepresident ja peajurist

Kasutage Amazon Bedrocki konsooli kaudu hübriidotsingu ja semantilise otsingu valikuid

Hübriid- ja semantiliste otsinguvõimaluste kasutamiseks Amazon Bedrocki konsoolis toimige järgmiselt.

  1. Amazon Bedrocki konsoolil valige Teadmistepagas navigeerimispaanil.
  2. Valige loodud teadmistebaas.
  3. Vali Testi teadmistebaasi.
  4. Valige konfiguratsioonide ikoon.
    Amazon Bedrocki teadmistebaasid toetavad nüüd hübriidotsingut | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  5. eest Otsingu tüüp¸ vali Hübriidotsing (semantiline ja tekst).
    Amazon Bedrocki teadmistebaasid toetavad nüüd hübriidotsingut | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Vaikimisi saate oma päringule genereeritud vastuse saamiseks valida FM-i. Kui soovite näha ainult allalaaditud tulemusi, saate sisse lülitada Loo vastus välja, et saada ainult allalaaditud tulemusi.

Amazon Bedrocki teadmistebaasid toetavad nüüd hübriidotsingut | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järeldus

Selles postituses käsitlesime Amazon Bedrocki teadmistebaaside uut päringufunktsiooni, mis võimaldab hübriidotsingut. Õppisime, kuidas konfigureerida hübriidotsingu valikut SDK-s ja Amazon Bedrocki konsoolis. See aitab ületada mõningaid piiranguid, mis tulenevad üksnes semantilisele otsingule tuginemisest, eriti kui otsite suurest erineva sisuga dokumendikogust. Hübriidotsingu kasutamine sõltub dokumendi tüübist ja kasutusjuhtumist, mida proovite rakendada.

Lisaressursside saamiseks vaadake järgmist.

viited

RAG torujuhtmete otsingu jõudluse parandamine hübriidotsingu abil


Autoritest

Amazon Bedrocki teadmistebaasid toetavad nüüd hübriidotsingut | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Mani Khanuja on Tech Lead – Generative AI Specialists, raamatu Applied Machine Learning and High Performance Computing on AWS autor ning Women in Manufacturing Education Foundationi juhatuse liige. Ta juhib masinõppeprojekte erinevates valdkondades, nagu arvutinägemine, loomuliku keele töötlemine ja generatiivne AI. Ta esineb sise- ja väliskonverentsidel, nagu AWS re:Invent, Women in Manufacturing West, YouTube'i veebiseminarid ja GHC 23. Vabal ajal meeldib talle rannas pikki jookse teha.

Amazon Bedrocki teadmistebaasid toetavad nüüd hübriidotsingut | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Pallavi Nargund on AWS-i peamine lahenduste arhitekt. Pilvetehnoloogia võimaldajana töötab ta klientidega, et mõista nende eesmärke ja väljakutseid ning anda ettekirjutusi, kuidas AWS-i pakkumiste abil oma eesmärki saavutada. Ta on kirglik naiste vastu tehnoloogia vallas ja on Amazoni organisatsiooni Women in AI/ML tuumikliige. Ta esineb sise- ja väliskonverentsidel, nagu AWS re: Invent, AWS Summits ja veebiseminarid. Väljaspool tööd naudib ta vabatahtlikku tööd, aiatööd, jalgrattasõitu ja matkamist.

Ajatempel:

Veel alates AWS-i masinõpe