Az Amazon Bedrock tudásbázisai mostantól támogatják a hibrid keresést | Amazon webszolgáltatások

Az Amazon Bedrock tudásbázisai mostantól támogatják a hibrid keresést | Amazon webszolgáltatások

At AWS re:Invent 2023-ban bejelentettük az általános elérhetőségét Tudásbázisok az Amazon Bedrock számára. A tudásbázis segítségével biztonságosan csatlakoztathatja az alapmodelleket (FM-eket). Amazon alapkőzet a vállalati adatokhoz a teljes körűen kezelt Retrieval Augmented Generation (RAG) számára.

egy előző poszt, leírtuk, hogy a Knowledge Bases for Amazon Bedrock hogyan kezeli a teljes körű RAG-munkafolyamatot az Ön helyett, és megosztottunk részleteket a legutóbbi funkciók bevezetéséről.

A RAG-alapú alkalmazások esetében a nagy nyelvi modellekből (LLM) generált válaszok pontossága a modellhez biztosított kontextustól függ. A kontextus lekérése a vektoradatbázisból történik a felhasználói lekérdezés alapján. A szemantikus keresést széles körben használják, mert több emberszerű kérdést is képes megérteni – a felhasználó lekérdezése nem mindig kapcsolódik közvetlenül a rá válaszoló tartalom pontos kulcsszavaihoz. A szemantikus keresés segít a szöveg jelentése alapján választ adni. Ennek azonban vannak korlátai az összes releváns kulcsszó rögzítésében. Teljesítménye a szöveg jelentését reprezentáló szóbeágyazások minőségén múlik. Az ilyen korlátok leküzdése érdekében a szemantikus keresés és a kulcsszavas keresés (hibrid) kombinálása jobb eredményeket ad.

Ebben a bejegyzésben a hibrid keresés új funkcióját tárgyaljuk, amelyet a szemantikus keresés mellett lekérdezési lehetőségként is kiválaszthat.

A hibrid keresés áttekintése

A hibrid keresés kihasználja a több keresési algoritmus erősségeit, egyedi képességeiket integrálva a visszaadott keresési eredmények relevanciájának fokozása érdekében. A RAG-alapú alkalmazások esetében a szemantikus keresési lehetőségeket általában a hagyományos kulcsszó alapú kereséssel kombinálják, hogy javítsák a keresési eredmények relevanciáját. Lehetővé teszi a keresést mind a dokumentumok tartalmában, mind azok mögöttes jelentésében. Vegyük például a következő lekérdezést:

What is the cost of the book "<book_name>" on <website_name>?

Ebben a könyvnévre és webhelynévre vonatkozó lekérdezésnél a kulcsszavas keresés jobb eredményt ad, mert szeretnénk az adott könyv költségét. A „költség” kifejezésnek azonban lehetnek szinonimái, például „ár”, ezért jobb a szemantikus keresés használata, amely megérti a szöveg jelentését. A hibrid keresés mindkét megközelítésből a legjobbat hozza: a szemantikai keresés pontosságát és a kulcsszavak lefedettségét. Kiválóan működik RAG-alapú alkalmazásokhoz, ahol a retrievernek sokféle természetes nyelvű lekérdezést kell kezelnie. A kulcsszavak segítenek lefedni a lekérdezés bizonyos entitásait, például a termék nevét, színét és árát, míg a szemantika jobban megérti a lekérdezés jelentését és szándékát. Például, ha chatbotot szeretne építeni egy e-kereskedelmi webhelyhez, hogy kezelje a vásárlói kérdéseket, például a visszaküldési szabályzatot vagy a termék részleteit, a hibrid keresés a legalkalmasabb.

Használjon eseteket a hibrid kereséshez

Íme néhány gyakori felhasználási eset a hibrid kereséshez:

  • Nyitott domain kérdésre válaszol – Ez magában foglalja a kérdések megválaszolását a legkülönfélébb témákban. Ehhez nagy, változatos tartalmú dokumentumgyűjteményben kell keresni, mint például a webhelyadatok, amelyek különböző témákat, például fenntarthatóságot, vezetést, pénzügyi eredményeket stb. tartalmazhatnak. A szemantikus keresés önmagában nem tud jól általánosítani erre a feladatra, mert hiányzik belőle a láthatatlan entitások lexikális egyeztetésének képessége, ami fontos a tartományon kívüli példák kezeléséhez. Ezért a kulcsszó alapú keresés és a szemantikus keresés kombinálása segíthet szűkíteni a hatókört, és jobb eredményeket biztosíthat a nyitott domain kérdéseinek megválaszolásához.
  • Kontextus alapú chatbotok – A beszélgetések gyorsan irányt változtathatnak, és kiszámíthatatlan témákat fedhetnek le. A hibrid keresés jobban tudja kezelni az ilyen nyílt végű párbeszédeket.
  • Személyre szabott keresés – A heterogén tartalom feletti webes méretű keresés előnyös a hibrid megközelítésből. A szemantikus keresés a népszerű fejlekérdezéseket kezeli, míg a kulcsszavak a ritka hosszú farkú lekérdezéseket takarják.

Bár a hibrid keresés szélesebb lefedettséget kínál két megközelítés kombinálásával, a szemantikus keresésnek vannak precíziós előnyei, ha a tartomány szűk és a szemantika jól meghatározott, vagy ha kevés a helye a félreértelmezésnek, mint például a tényszerű kérdésmegválaszoló rendszerek.

A hibrid keresés előnyei

Mind a kulcsszavas, mind a szemantikus keresés külön eredményhalmazt ad vissza a relevancia pontszámaikkal együtt, amelyeket azután kombinálva adják vissza a legrelevánsabb eredményeket. Az Amazon Bedrock tudásbázisai jelenleg négy vektortárat támogatnak: Amazon OpenSearch kiszolgáló nélküli, Amazon Aurora PostgreSQL-kompatibilis kiadás, Fenyőtobozés Redis Enterprise Cloud. Jelen pillanatban a hibrid keresési funkció elérhető az OpenSearch Serverless számára, és hamarosan más vektoráruházak támogatása is elérhető lesz.

Az alábbiakban bemutatjuk a hibrid keresés előnyeit:

  • Javított pontosság – Az FM-ről generált válasz pontossága közvetlenül függ a visszakeresett eredmények relevanciájától. Az Ön adatai alapján kihívást jelenthet az alkalmazás pontosságának javítása csak szemantikus kereséssel. A hibrid keresés használatának fő előnye, hogy jobb minőségű lekérdezett eredményeket kap, ami viszont segít az FM-nek pontosabb válaszok generálásában.
  • Bővített keresési lehetőségek – A kulcsszavas keresés szélesebb hálót vet ki, és olyan dokumentumokat talál, amelyek relevánsak lehetnek, de nem tartalmaznak szemantikai struktúrát a dokumentumban. Lehetővé teszi a kulcsszavakra, valamint a szöveg szemantikai jelentésére való keresést, ezáltal bővítve a keresési lehetőségeket.

A következő szakaszokban bemutatjuk, hogyan lehet hibrid keresést használni az Amazon Bedrock tudásbázisaival.

Használjon hibrid keresési és szemantikai keresési lehetőségeket az SDK-n keresztül

Amikor meghívja a Retrieve API-t, a Knowledge Bases for Amazon Bedrock kiválasztja az Ön számára megfelelő keresési stratégiát, hogy a legrelevánsabb találatokat adja meg. Lehetősége van felülbírálni, hogy hibrid vagy szemantikus keresést használjon az API-ban.

API lekérése

A Retrieve API célja a releváns keresési eredmények lekérése a felhasználói lekérdezés, a tudásbázis-azonosító és az API által visszaadni kívánt találatok számának megadásával. Ez az API a felhasználói lekérdezéseket beágyazásokká alakítja, hibrid kereséssel vagy szemantikus (vektoros) kereséssel keres a tudásbázisban, és visszaadja a releváns eredményeket, így nagyobb irányítást biztosítva egyéni munkafolyamatok létrehozásához a keresési eredményekre. Például hozzáadhat utófeldolgozási logikát a lekért eredményekhez, vagy hozzáadhat saját promptot, és csatlakozhat az Amazon Bedrock által biztosított bármely FM-hez a válaszok generálásához.

Hogy példát mutassunk a hibrid és a szemantikus (vektoros) keresési lehetőségek közötti váltásra, létrehoztunk egy tudásbázist a Amazon 10K dokumentum 2023-ra. A tudásbázis létrehozásával kapcsolatos további részletekért lásd: Kontextuális chatbot-alkalmazás létrehozása az Amazon Bedrock tudásbázisaival.

A hibrid keresés értékének bemutatására a következő lekérdezést használjuk:

As of December 31st 2023, what is the leased square footage for physical stores in North America?

Az előző lekérdezésre adott válasz néhány kulcsszót tartalmaz, például a date, physical storesés North America. A helyes válasz az 22,871 thousand square feet. Figyeljük meg a különbséget a keresési eredmények között mind a hibrid, mind a szemantikus keresés esetén.

A következő kód bemutatja, hogyan kell hibrid vagy szemantikus (vektoros) keresést használni a Retrieve API használatával a Boto3-mal:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

A overrideSearchType lehetőség a retrievalConfiguration lehetőséget kínál bármelyik használatára HYBRID or SEMANTIC. Alapértelmezés szerint a megfelelő stratégiát választja ki, hogy a legrelevánsabb eredményeket kapja, és ha felül szeretné bírálni a hibrid vagy szemantikus keresést használó alapértelmezett beállítást, akkor az értéket a következőre állíthatja: HYBRID/SEMANTIC. A kimenet a Retrieve Az API tartalmazza a beolvasott szövegrészeket, a forrásadatok helytípusát és URI-ját, valamint a visszakeresések relevancia pontszámait. A pontszámok segítenek meghatározni, hogy melyik darab felel meg a legjobban a lekérdezés válaszának.

A következők az előző lekérdezés eredményei a hibrid kereséssel (a kimenetek egy részét a rövidség kedvéért redukáltuk):

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

A szemantikai keresés eredményei a következők (a rövidség kedvéért a kimenetek egy részét módosítva):

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

Amint az az eredményekből is látható, a hibrid keresés képes volt lekérni a keresési eredményt az észak-amerikai fizikai üzletek bérelt négyzetmétereivel, ahogyan azt a felhasználói lekérdezés is említette. Ennek fő oka az volt, hogy a hibrid keresés képes volt egyesíteni az olyan kulcsszavak eredményeit, mint pl date, physical storesés North America a lekérdezésben, míg a szemantikus keresés nem. Ezért, ha a keresési eredményeket kiegészítik a felhasználói lekérdezéssel és a prompttal, az FM szemantikus keresés esetén nem tud megfelelő választ adni.

Most nézzük meg a RetrieveAndGenerate API hibrid kereséssel az FM által generált végső válasz megértéséhez.

RetrieveAndGenerate API

A RetrieveAndGenerate Az API lekérdez egy tudásbázist, és a lekért eredmények alapján választ generál. Meg kell adni a tudásbázis azonosítóját, valamint az FM-et, amely választ generál az eredményekből. Az Amazon Bedrock a lekérdezéseket beágyazásokká alakítja, lekérdezi a tudásbázist a keresés típusa alapján, majd kiegészíti az FM promptot a keresési eredményekkel kontextusinformációként, és visszaadja az FM által generált választ.

Használjuk a „31. december 2023-i állapot szerint mekkora az észak-amerikai fizikai üzletek bérelt alapterülete?” lekérdezést. és kérdezd meg a RetrieveAndGenerate API a válasz generálásához a lekérdezésünk segítségével:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

A hibrid keresés eredményei a következők:

22,871 thousand leased square feet

A szemantikus keresés eredményei a következők:

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

A tényleges válasz a kérdésre 22,871 thousand leased square feet, amelyet a hibrid keresés generál. A hibrid keresésre lekért keresési eredmények tartalmazták az észak-amerikai fizikai üzletek bérelt négyzetmétereire vonatkozó információkat, míg a szemantikus keresés nem tudta lekérni a megfelelő információkat a vektortárból a beágyazások fordítása miatt. Ezért az FM nem tudta megadni a megfelelő választ, mert nem a megfelelő és legrelevánsabb keresési eredményeket kapta.

Az olyan általánosabb kérdéseknél azonban, amelyek nem érintenek olyan entitásokat, mint pl physical stores or North America, a hibrid és a szemantikus keresés is hasonló eredményeket ad.

Az alábbiakban néhány lekérdezésből származó mintaválaszok láthatók, amelyek bemutatják azokat az eseteket, amikor a hibrid és a szemantikus keresés is hasonló eredményeket ad.

Kérdés Szemantikus keresés: RAG API Hibrid keresés: RAG API
Hogyan szolgálja ki az Amazon a fejlesztőket és a vállalkozásokat? Bármilyen méretű fejlesztőket és vállalkozásokat szolgálunk ki, beleértve az induló vállalkozásokat, a kormányzati szerveket és a felsőoktatási intézményeket, az AWS-n keresztül, amely igény szerinti technológiai szolgáltatások széles skáláját kínálja, beleértve a számítástechnikát, tárolást, adatbázist, elemzést és gépi tanulást. egyéb szolgáltatások Bármilyen méretű fejlesztőket és vállalkozásokat szolgálunk ki, beleértve az induló vállalkozásokat, a kormányzati szerveket és a felsőoktatási intézményeket, az AWS-n keresztül, amely igény szerinti technológiai szolgáltatások széles skáláját kínálja, beleértve a számítástechnikát, tárolást, adatbázist, elemzést és gépi tanulást. egyéb szolgáltatások.
Kik az Amazon ügyvezető tisztségviselői és igazgatói 24. január 2024-én? Az Amazon ügyvezető tisztségviselői 2024-től többek között Andrew R. Jassy elnök-vezérigazgató, Douglas J. Herrington a Worldwide Amazon Stores vezérigazgatója, Brian T. Olsavsky alelnök és pénzügyi vezérigazgató, Shelley L. Reynolds alelnök , Worldwide Controller és vezető számviteli tisztviselő, Adam N. Selipsky az Amazon Web Services vezérigazgatója, David A. Zapolsky pedig a globális közpolitikai részleg vezető alelnöke és általános jogtanácsos. 2024-től Jeffrey P. Bezos az Amazon.com ügyvezető elnöke. Andrew R. Jassy elnök-vezérigazgató. További ügyvezető tisztek közé tartozik Douglas J. Herrington a Worldwide Amazon Stores vezérigazgatójaként, Brian T. Olsavsky alelnökként és pénzügyi vezérigazgatóként, Shelley L. Reynolds alelnökként, globális kontrollerként és számviteli igazgatóként, valamint Adam N. Selipsky vezérigazgatóként. Amazon webszolgáltatások. David A. Zapolsky a globális közpolitikáért felelős vezető alelnökként és általános jogtanácsosként dolgozik

Használjon hibrid keresési és szemantikai keresési lehetőségeket az Amazon Bedrock konzolon keresztül

Ha hibrid és szemantikus keresési opciókat szeretne használni az Amazon Bedrock konzolon, hajtsa végre a következő lépéseket:

  1. Az Amazon Bedrock konzolon válassza a lehetőséget Blog a navigációs ablaktáblában.
  2. Válassza ki a létrehozott tudásbázist.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teszt tudásbázis.
  4. Válassza ki a konfigurációk ikont.
    Knowledge Bases for Amazon Bedrock now supports hybrid search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  5. A Keresés típusa¸ válassza ki Hibrid keresés (szemantikai és szöveges).
    Knowledge Bases for Amazon Bedrock now supports hybrid search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Alapértelmezés szerint kiválaszthat egy FM-et, hogy generált választ kapjon a lekérdezésére. Ha csak a letöltött eredményeket szeretné látni, válthat Válasz generálása kikapcsolva, hogy csak a letöltött eredményeket kapja meg.

Knowledge Bases for Amazon Bedrock now supports hybrid search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Következtetés

Ebben a bejegyzésben az Amazon Bedrock Knowledge Bases új lekérdezési funkciójával foglalkoztunk, amely lehetővé teszi a hibrid keresést. Megtanultuk, hogyan kell konfigurálni a hibrid keresési opciót az SDK-ban és az Amazon Bedrock konzolban. Ez segít leküzdeni a kizárólag szemantikai keresésre támaszkodó korlátokat, különösen a sokféle tartalmú dokumentum nagy gyűjteményében történő kereséskor. A hibrid keresés használata a dokumentum típusától és a megvalósítani kívánt használati esettől függ.

További forrásokért tekintse meg a következőket:

Referenciák

A RAG Pipelines visszakeresési teljesítményének javítása hibrid kereséssel


A szerzőkről

Knowledge Bases for Amazon Bedrock now supports hybrid search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Mani Khanuja Tech Lead – Generative AI Specialists, az Applied Machine Learning and High Performance Computing on AWS című könyv szerzője, valamint a Nők a Gyártási Oktatásban Alapítvány igazgatótanácsának tagja. Gépi tanulási projekteket vezet különböző területeken, mint például a számítógépes látás, a természetes nyelvi feldolgozás és a generatív mesterséges intelligencia. Belső és külső konferenciákon beszél, mint például az AWS re:Invent, a Women in Manufacturing West, a YouTube webináriumokon és a GHC 23-on. Szabadidejében szeret hosszasan futni a tengerparton.

Knowledge Bases for Amazon Bedrock now supports hybrid search | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Pallavi Nargund az AWS vezető megoldási építésze. Felhőtechnológia-segítőként dolgozik az ügyfelekkel annak érdekében, hogy megértsék céljaikat és kihívásaikat, és előíró útmutatást adjon a céljuk eléréséhez az AWS-ajánlatokkal. Szenvedélyesen rajong a nőkért a technológiában, és az Amazonnál a Women in AI/ML alaptagja. Felszólal olyan belső és külső konferenciákon, mint az AWS re:Invent, az AWS Summits és a webináriumok. A munkán kívül szívesen vállal önkéntes munkát, kertészkedik, kerékpároz és túrázik.

Időbélyeg:

Még több AWS gépi tanulás