Baze znanja za Amazon Bedrock zdaj podpirajo hibridno iskanje | Spletne storitve Amazon

Baze znanja za Amazon Bedrock zdaj podpirajo hibridno iskanje | Spletne storitve Amazon

At AWS re: Izum 2023 smo objavili splošno razpoložljivost Baze znanja za Amazon Bedrock. Z bazo znanja lahko varno povežete temeljne modele (FM). Amazon Bedrock v podatke vašega podjetja za popolnoma upravljano Retrieval Augmented Generation (RAG).

V Prejšnja objavasmo opisali, kako baze znanja za Amazon Bedrock namesto vas upravljajo potek dela RAG od konca do konca, in delili podrobnosti o nekaterih nedavnih lansiranjih funkcij.

Za aplikacije, ki temeljijo na RAG, je natančnost ustvarjenega odgovora iz velikih jezikovnih modelov (LLM) odvisna od konteksta, ki je zagotovljen modelu. Kontekst se pridobi iz vektorske baze podatkov na podlagi uporabniške poizvedbe. Semantično iskanje se pogosto uporablja, ker lahko razume bolj človeška vprašanja – uporabnikova poizvedba ni vedno neposredno povezana s točnimi ključnimi besedami v vsebini, ki nanjo odgovarja. Semantično iskanje pomaga zagotoviti odgovore na podlagi pomena besedila. Vendar pa ima omejitve pri zajemanju vseh ustreznih ključnih besed. Njegovo delovanje je odvisno od kakovosti vdelanih besed, ki se uporabljajo za predstavitev pomena besedila. Za premagovanje takšnih omejitev bo kombinacija semantičnega iskanja z iskanjem po ključnih besedah ​​(hibridno) dala boljše rezultate.

V tej objavi razpravljamo o novi funkciji hibridnega iskanja, ki jo lahko izberete kot možnost poizvedbe poleg semantičnega iskanja.

Pregled hibridnega iskanja

Hibridno iskanje izkorišča prednosti več iskalnih algoritmov in združuje njihove edinstvene zmogljivosti za povečanje ustreznosti vrnjenih rezultatov iskanja. Za aplikacije, ki temeljijo na RAG, so zmožnosti semantičnega iskanja običajno kombinirane s tradicionalnim iskanjem na podlagi ključnih besed, da se izboljša ustreznost rezultatov iskanja. Omogoča iskanje tako po vsebini dokumentov kot po njihovem osnovnem pomenu. Na primer, razmislite o naslednji poizvedbi:

What is the cost of the book "<book_name>" on <website_name>?

V tej poizvedbi za ime knjige in ime spletnega mesta bo iskanje po ključnih besedah ​​dalo boljše rezultate, ker želimo stroške določene knjige. Vendar ima lahko izraz »strošek« sinonime, kot je »cena«, zato bo bolje uporabiti semantično iskanje, ki razume pomen besedila. Hibridno iskanje prinaša najboljše iz obeh pristopov: natančnost semantičnega iskanja in pokritost ključnih besed. Deluje odlično za aplikacije, ki temeljijo na RAG, kjer mora retriever obravnavati široko paleto poizvedb v naravnem jeziku. Ključne besede pomagajo pokriti specifične entitete v poizvedbi, kot so ime izdelka, barva in cena, medtem ko semantika bolje razume pomen in namen v poizvedbi. Na primer, če želite zgraditi chatbota za spletno mesto e-trgovine za obravnavo poizvedb strank, kot so pravilnik o vračilu ali podrobnosti o izdelku, bo najprimernejša uporaba hibridnega iskanja.

Primeri uporabe za hibridno iskanje

Sledi nekaj pogostih primerov uporabe hibridnega iskanja:

  • Odgovor na vprašanja o odprti domeni – To vključuje odgovarjanje na vprašanja o najrazličnejših temah. To zahteva iskanje po velikih zbirkah dokumentov z raznoliko vsebino, kot so podatki o spletnih mestih, ki lahko vključujejo različne teme, kot so trajnost, vodenje, finančni rezultati in drugo. Samo pomensko iskanje ne more dobro posplošiti za to nalogo, ker nima zmožnosti za leksikalno ujemanje nevidnih entitet, kar je pomembno za obravnavanje primerov izven domene. Zato lahko združevanje iskanja na podlagi ključnih besed s semantičnim iskanjem pomaga zožiti obseg in zagotoviti boljše rezultate za odgovarjanje na vprašanja odprte domene.
  • Klepetalni roboti, ki temeljijo na kontekstu – Pogovori lahko hitro spremenijo smer in pokrivajo nepredvidljive teme. Hibridno iskanje lahko bolje obravnava takšna odprta pogovorna okna.
  • Prilagojeno iskanje – Spletno iskanje po heterogenih vsebinah ima koristi od hibridnega pristopa. Semantično iskanje obravnava priljubljene glavne poizvedbe, medtem ko ključne besede pokrivajo redke dolge poizvedbe.

Čeprav hibridno iskanje ponuja širšo pokritost s kombiniranjem dveh pristopov, ima semantično iskanje prednosti glede natančnosti, ko je domena ozka in je semantika dobro definirana ali ko je malo prostora za napačno razlago, kot so sistemi odgovorov na vprašanja s faktoidnimi vprašanji.

Prednosti hibridnega iskanja

Iskanje po ključnih besedah ​​in semantično iskanje bosta vrnila ločen nabor rezultatov skupaj z njihovimi ocenami ustreznosti, ki se nato združijo, da vrnejo najbolj ustrezne rezultate. Baze znanja za Amazon Bedrock trenutno podpirajo štiri vektorske trgovine: Amazon OpenSearch brez strežnika, Izdaja Amazon Aurora, združljiva s PostgreSQL, Pinconein Redis Enterprise Cloud. Od tega pisanja je funkcija hibridnega iskanja na voljo za OpenSearch Serverless, kmalu pa bo na voljo podpora za druge vektorske trgovine.

Sledi nekaj prednosti uporabe hibridnega iskanja:

  • Izboljšana natančnost – Natančnost ustvarjenega odgovora FM je neposredno odvisna od ustreznosti pridobljenih rezultatov. Na podlagi vaših podatkov je lahko izziv izboljšati natančnost vaše aplikacije samo z uporabo semantičnega iskanja. Ključna prednost uporabe hibridnega iskanja je izboljšana kakovost pridobljenih rezultatov, kar posledično pomaga FM ustvariti natančnejše odgovore.
  • Razširjene možnosti iskanja – Iskanje po ključnih besedah ​​postavi širšo mrežo in najde dokumente, ki so lahko pomembni, vendar morda ne vsebujejo semantične strukture v celotnem dokumentu. Omogoča vam iskanje po ključnih besedah ​​in pomenskem pomenu besedila, s čimer razširite možnosti iskanja.

V naslednjih razdelkih prikazujemo, kako uporabljati hibridno iskanje z bazami znanja za Amazon Bedrock.

Uporabite možnosti hibridnega iskanja in semantičnega iskanja prek SDK

Ko pokličete Retrieve API, Knowledge Bases for Amazon Bedrock izbere pravo strategijo iskanja za vas, da vam ponudi najustreznejše rezultate. Imate možnost, da ga preglasite za uporabo hibridnega ali semantičnega iskanja v API-ju.

Pridobi API

API Retrieve je zasnovan za pridobivanje ustreznih rezultatov iskanja z zagotavljanjem uporabniške poizvedbe, ID-ja baze znanja in števila rezultatov, za katere želite, da API vrne. Ta API pretvarja uporabniške poizvedbe v vdelave, išče po bazi znanja z uporabo hibridnega ali semantičnega (vektorskega) iskanja in vrne ustrezne rezultate, kar vam daje več nadzora za ustvarjanje delovnih tokov po meri na vrhu rezultatov iskanja. Pridobljenim rezultatom lahko na primer dodate logiko naknadne obdelave ali dodate lasten poziv in se povežete s katerim koli FM, ki ga ponuja Amazon Bedrock, za generiranje odgovorov.

Da vam pokažemo primer preklapljanja med hibridnimi in semantičnimi (vektorskimi) iskalnimi možnostmi, smo ustvarili bazo znanja z uporabo Dokument Amazon 10K za leto 2023. Za več podrobnosti o ustvarjanju baze znanja glejte Zgradite kontekstualno aplikacijo chatbot z uporabo baz znanja za Amazon Bedrock.

Za prikaz vrednosti hibridnega iskanja uporabimo naslednjo poizvedbo:

As of December 31st 2023, what is the leased square footage for physical stores in North America?

Odgovor na prejšnjo poizvedbo vključuje nekaj ključnih besed, kot je date, physical storesin North America. Pravilen odgovor je 22,871 thousand square feet. Opazujmo razliko v rezultatih iskanja pri hibridnem in semantičnem iskanju.

Naslednja koda prikazuje, kako uporabiti hibridno ali semantično (vektorsko) iskanje z uporabo API-ja Retrieve z Boto3:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

O overrideSearchType možnost v retrievalConfiguration ponuja možnost uporabe enega ali drugega HYBRID or SEMANTIC. Privzeto bo izbral pravo strategijo za vas, da vam zagotovi najbolj ustrezne rezultate, in če želite preglasiti privzeto možnost za uporabo hibridnega ali semantičnega iskanja, lahko nastavite vrednost na HYBRID/SEMANTIC. Izhod iz Retrieve API vključuje pridobljene dele besedila, vrsto lokacije in URI izvornih podatkov ter ocene ustreznosti pridobitev. Rezultati pomagajo določiti, kateri deli se najbolje ujemajo z odgovorom na poizvedbo.

Sledijo rezultati za prejšnjo poizvedbo z uporabo hibridnega iskanja (z nekaterimi izhodi, redigiranimi zaradi kratkosti):

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

Sledijo rezultati semantičnega iskanja (z nekaterimi rezultati, redigiranimi zaradi kratkosti):

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

Kot lahko vidite v rezultatih, je hibridno iskanje uspelo pridobiti rezultat iskanja z zakupljenimi kvadratnimi metri za fizične trgovine v Severni Ameriki, kot je navedeno v uporabniški poizvedbi. Glavni razlog je bil, da je hibridno iskanje lahko združilo rezultate iz ključnih besed, kot so date, physical storesin North America v poizvedbi, medtem ko semantično iskanje ne. Zato, ko so rezultati iskanja razširjeni z uporabniško poizvedbo in pozivom, FM ne bo mogel zagotoviti pravilnega odgovora v primeru semantičnega iskanja.

Zdaj pa poglejmo RetrieveAndGenerate API s hibridnim iskanjem za razumevanje končnega odgovora, ki ga ustvari FM.

API RetrieveAndGenerate

O RetrieveAndGenerate API poizveduje po bazi znanja in ustvari odgovor na podlagi pridobljenih rezultatov. Določite ID baze znanja in FM, da ustvarite odgovor iz rezultatov. Amazon Bedrock pretvori poizvedbe v vdelave, poizveduje po bazi znanja na podlagi vrste iskanja in nato dopolni poziv FM z rezultati iskanja kot informacije o kontekstu in vrne odgovor, ustvarjen s FM.

Uporabimo poizvedbo »Od 31. decembra 2023, kakšna je zakupljena kvadratura fizičnih trgovin v Severni Ameriki?« in vprašaj RetrieveAndGenerate API za ustvarjanje odgovora z našo poizvedbo:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

Sledijo rezultati s hibridnim iskanjem:

22,871 thousand leased square feet

Sledijo rezultati s semantičnim iskanjem:

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

Dejanski odgovor na vprašanje je 22,871 thousand leased square feet, ki se ustvari s hibridnim iskanjem. Pridobljeni rezultati iskanja za hibridno iskanje so vključevali podatke o zakupljenih kvadratnih metrih za fizične trgovine v Severni Ameriki, medtem ko semantično iskanje ni moglo pridobiti pravih informacij iz vektorske trgovine zaradi prevoda vdelav. Zato FM ni mogel zagotoviti pravilnega odgovora, ker ni imel pravilnih in najbolj ustreznih rezultatov iskanja.

Vendar pa za bolj splošna vprašanja, ki ne vključujejo entitet, kot je npr physical stores or North America, tako hibridno kot semantično iskanje dajeta podobne rezultate.

Sledijo vzorci odgovorov na nekaj poizvedb, ki prikazujejo primere, ko tako hibridno kot semantično iskanje dajeta podobne rezultate.

Vprašanje Semantično iskanje: RAG API Hibridno iskanje: RAG API
Kako Amazon služi razvijalcem in podjetjem? Storimo razvijalce in podjetja vseh velikosti, vključno z novoustanovljenimi podjetji, vladnimi agencijami in akademskimi ustanovami, prek AWS, ki ponuja širok nabor tehnoloških storitev na zahtevo, vključno z računalništvom, shranjevanjem, bazo podatkov, analitiko in strojnim učenjem ter druge storitve Storimo razvijalce in podjetja vseh velikosti, vključno z novoustanovljenimi podjetji, vladnimi agencijami in akademskimi ustanovami, prek AWS, ki ponuja širok nabor tehnoloških storitev na zahtevo, vključno z računalništvom, shranjevanjem, bazo podatkov, analitiko in strojnim učenjem ter druge storitve.
Kdo so izvršni direktorji in direktorji Amazona od 24. januarja 2024? Med izvršnimi direktorji Amazona od leta 2024 so Andrew R. Jassy kot predsednik in glavni izvršni direktor, Douglas J. Herrington kot izvršni direktor Worldwide Amazon Stores, Brian T. Olsavsky kot višji podpredsednik in glavni finančni direktor, Shelley L. Reynolds kot podpredsednica , svetovni nadzornik in glavni računovodja, Adam N. Selipsky kot izvršni direktor Amazon Web Services in David A. Zapolsky kot višji podpredsednik za globalno javno politiko in generalni svetovalec. Od leta 2024 je Jeffrey P. Bezos izvršni predsednik Amazon.com. Andrew R. Jassy je predsednik in glavni izvršni direktor. Drugi izvršni direktorji so Douglas J. Herrington kot izvršni direktor Worldwide Amazon Stores, Brian T. Olsavsky kot višji podpredsednik in glavni finančni direktor, Shelley L. Reynolds kot podpredsednik, svetovni nadzornik in glavni računovodja ter Adam N. Selipsky kot izvršni direktor Spletne storitve Amazon. David A. Zapolsky je višji podpredsednik za globalno javno politiko in generalni svetovalec

Uporabite možnosti hibridnega iskanja in semantičnega iskanja prek konzole Amazon Bedrock

Če želite uporabiti možnosti hibridnega in semantičnega iskanja na konzoli Amazon Bedrock, izvedite naslednje korake:

  1. Na konzoli Amazon Bedrock izberite Baza znanja v podoknu za krmarjenje.
  2. Izberite bazo znanja, ki ste jo ustvarili.
  3. Izberite Preizkusite bazo znanja.
  4. Izberite ikono konfiguracij.
    Baze znanja za Amazon Bedrock zdaj podpirajo hibridno iskanje | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  5. za Vrsta iskanja¸ izberite Hibridno iskanje (semantično in besedilno).
    Baze znanja za Amazon Bedrock zdaj podpirajo hibridno iskanje | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Privzeto lahko izberete FM, da dobite ustvarjen odgovor za svojo poizvedbo. Če želite videti samo pridobljene rezultate, lahko preklopite Ustvari odgovor izklop, da dobite samo pridobljene rezultate.

Baze znanja za Amazon Bedrock zdaj podpirajo hibridno iskanje | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

zaključek

V tej objavi smo obravnavali novo funkcijo poizvedbe v zbirkah znanja za Amazon Bedrock, ki omogoča hibridno iskanje. Naučili smo se konfigurirati možnost hibridnega iskanja v SDK in konzoli Amazon Bedrock. To pomaga premagati nekatere omejitve zanašanja zgolj na semantično iskanje, zlasti pri iskanju po velikih zbirkah dokumentov z raznoliko vsebino. Uporaba hibridnega iskanja je odvisna od vrste dokumenta in primera uporabe, ki ga poskušate implementirati.

Za dodatne vire glejte naslednje:

Reference

Izboljšanje zmogljivosti iskanja v cevovodih RAG s hibridnim iskanjem


O avtorjih

Baze znanja za Amazon Bedrock zdaj podpirajo hibridno iskanje | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Mani Khanuja je Tech Lead – Generative AI Specialists, avtorica knjige Applied Machine Learning and High Performance Computing on AWS in članica upravnega odbora Foundation Board of Women in Manufacturing Education Foundation. Vodi projekte strojnega učenja na različnih področjih, kot so računalniški vid, obdelava naravnega jezika in generativna umetna inteligenca. Govori na internih in zunanjih konferencah, kot so AWS re:Invent, Women in Manufacturing West, YouTube spletni seminarji in GHC 23. V prostem času se rada odpravi na dolge teke ob plaži.

Baze znanja za Amazon Bedrock zdaj podpirajo hibridno iskanje | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Pallavi Nargund je glavni arhitekt rešitev pri AWS. V svoji vlogi podpornice za tehnologijo v oblaku sodeluje s strankami, da bi razumela njihove cilje in izzive ter dala predpisane smernice za doseganje njihovih ciljev s ponudbami AWS. Navdušena je nad ženskami v tehnologiji in je osrednja članica organizacije Women in AI/ML pri Amazonu. Govori na notranjih in zunanjih konferencah, kot so AWS re:Invent, AWS Summits in spletni seminarji. Poleg dela se ukvarja s prostovoljstvom, vrtnarstvom, kolesarjenjem in pohodništvom.

Časovni žig:

Več od Strojno učenje AWS