בסיסי ידע עבור Amazon Bedrock תומך כעת בחיפוש היברידי | שירותי האינטרנט של אמזון

בסיסי ידע עבור Amazon Bedrock תומך כעת בחיפוש היברידי | שירותי האינטרנט של אמזון

At AWS re: המצאה 2023, הכרזנו על הזמינות הכללית של בסיסי ידע עבור Amazon Bedrock. עם בסיס ידע, אתה יכול לחבר בצורה מאובטחת מודלים של בסיס (FMs). סלע אמזון לנתוני החברה שלך לניהול מלא של Retrieval Augmented Generation (RAG).

ב הפוסט הקודם, תיארנו כיצד Bases Knowledge for Amazon Bedrock מנהל עבורכם את זרימת העבודה RAG מקצה לקצה ושיתפנו פרטים על כמה מההשקות האחרונות של התכונות.

עבור יישומים מבוססי RAG, הדיוק של התגובה שנוצרת ממודלים של שפה גדולה (LLMs) תלוי בהקשר המסופק למודל. ההקשר מאוחזר ממסד הנתונים הווקטוריים בהתבסס על שאילתת המשתמש. חיפוש סמנטי נמצא בשימוש נרחב מכיוון שהוא מסוגל להבין יותר שאלות דמויות אנושיות - שאילתת משתמש לא תמיד קשורה ישירות למילות המפתח המדויקות בתוכן שעונה עליה. חיפוש סמנטי עוזר לספק תשובות על סמך משמעות הטקסט. עם זאת, יש לו מגבלות בלכידת כל מילות המפתח הרלוונטיות. הביצועים שלו מסתמכים על איכות ההטמעות של המילה המשמשת לייצוג משמעות הטקסט. כדי להתגבר על מגבלות כאלה, שילוב של חיפוש סמנטי עם חיפוש מילות מפתח (היברידיות) ייתן תוצאות טובות יותר.

בפוסט זה, אנו דנים בתכונה החדשה של חיפוש היברידי, שתוכל לבחור כאפשרות שאילתה לצד חיפוש סמנטי.

סקירת חיפוש היברידי

חיפוש היברידי מנצל את היתרונות של אלגוריתמי חיפוש מרובים, ומשלב את היכולות הייחודיות שלהם כדי לשפר את הרלוונטיות של תוצאות החיפוש המוחזרות. עבור יישומים מבוססי RAG, יכולות חיפוש סמנטי משולבות בדרך כלל עם חיפוש מסורתי מבוסס מילות מפתח כדי לשפר את הרלוונטיות של תוצאות החיפוש. הוא מאפשר חיפוש הן בתוכן של מסמכים והן במשמעות הבסיסית שלהם. לדוגמה, שקול את השאילתה הבאה:

What is the cost of the book "<book_name>" on <website_name>?

בשאילתה זו לשם ספר ושם אתר, חיפוש מילות מפתח ייתן תוצאות טובות יותר, כי אנחנו רוצים את העלות של הספר הספציפי. עם זאת, למונח "עלות" עשויות להיות מילים נרדפות כגון "מחיר", ולכן עדיף להשתמש בחיפוש סמנטי, שמבין את משמעות הטקסט. חיפוש היברידי מביא את הטוב משתי הגישות: דיוק של חיפוש סמנטי וכיסוי של מילות מפתח. זה עובד מצוין עבור יישומים מבוססי RAG שבהם הרטריבר צריך לטפל במגוון רחב של שאילתות בשפה טבעית. מילות המפתח עוזרות לכסות ישויות ספציפיות בשאילתה כגון שם מוצר, צבע ומחיר, בעוד שהסמנטיקה מבינה טוב יותר את המשמעות והכוונה בתוך השאילתה. לדוגמה, אם אתה רוצה לבנות צ'אט בוט לאתר מסחר אלקטרוני כדי לטפל בשאלות לקוחות כגון מדיניות החזרה או פרטי המוצר, שימוש בחיפוש היברידי יתאים ביותר.

השתמש במקרים לחיפוש היברידי

להלן כמה מקרי שימוש נפוצים לחיפוש היברידי:

  • תשובה לשאלת דומיין פתוחה - זה כולל מענה על שאלות במגוון רחב של נושאים. הדבר מצריך חיפוש באוספים גדולים של מסמכים בעלי תוכן מגוון, כגון נתוני אתרים, שיכולים לכלול נושאים שונים כגון קיימות, מנהיגות, תוצאות פיננסיות ועוד. חיפוש סמנטי לבדו אינו יכול להכליל היטב עבור משימה זו, מכיוון שאין לו יכולת להתאמה מילונית של ישויות בלתי נראות, דבר שחשוב לטיפול בדוגמאות מחוץ לתחום. לכן, שילוב של חיפוש מבוסס מילות מפתח עם חיפוש סמנטי יכול לעזור לצמצם את ההיקף ולספק תוצאות טובות יותר למענה על שאלות בדומיין פתוח.
  • צ'אטבוטים מבוססי הקשר - שיחות יכולות לשנות כיוון במהירות ולכסות נושאים בלתי צפויים. חיפוש היברידי יכול להתמודד טוב יותר עם דיאלוגים פתוחים כאלה.
  • חיפוש מותאם אישית - חיפוש בקנה מידה אינטרנט על תוכן הטרוגני מרוויח מגישה היברידית. חיפוש סמנטי מטפל בשאילתות ראש פופולריות, בעוד שמילות מפתח מכסות שאילתות ארוכות זנב נדירות.

למרות שחיפוש היברידי מציע כיסוי רחב יותר על ידי שילוב של שתי גישות, לחיפוש סמנטי יש יתרונות דיוק כאשר התחום צר והסמנטיקה מוגדרת היטב, או כאשר יש מעט מקום לפרשנות שגויה, כמו מערכות מענה לשאלות עובדתיות.

היתרונות של חיפוש היברידי

גם מילות מפתח וגם חיפוש סמנטי יחזירו קבוצה נפרדת של תוצאות יחד עם ציוני הרלוונטיות שלהן, אשר משולבים לאחר מכן כדי להחזיר את התוצאות הרלוונטיות ביותר. בסיסי הידע עבור Amazon Bedrock תומך כיום בארבע חנויות וקטורים: Amazon OpenSearch ללא שרתים, מהדורה תואמת אמזון אורורה PostgreSQL, צנובר, ו Redis Enterprise Cloud. נכון לכתיבת שורות אלה, תכונת החיפוש ההיברידית זמינה עבור OpenSearch Serverless, עם תמיכה בחנויות וקטוריות אחרות בקרוב.

להלן כמה מהיתרונות של שימוש בחיפוש היברידי:

  • דיוק משופר - הדיוק של התגובה שנוצרת מה-FM תלוי ישירות ברלוונטיות של התוצאות שאוחזרו. בהתבסס על הנתונים שלך, זה יכול להיות מאתגר לשפר את הדיוק של היישום שלך רק באמצעות חיפוש סמנטי. היתרון העיקרי של שימוש בחיפוש היברידי הוא לקבל איכות משופרת של התוצאות שאוחזרו, מה שבתורו עוזר ל-FM ליצור תשובות מדויקות יותר.
  • יכולות חיפוש מורחבות - חיפוש מילות מפתח משליך רשת רחבה יותר ומוצא מסמכים שעשויים להיות רלוונטיים אך עשויים שלא להכיל מבנה סמנטי לאורך המסמך. זה מאפשר לך לחפש על מילות מפתח כמו גם את המשמעות הסמנטית של הטקסט, ובכך להרחיב את יכולות החיפוש.

בסעיפים הבאים, אנו מדגימים כיצד להשתמש בחיפוש היברידי עם בסיסי ידע עבור אמזון.

השתמש באפשרויות חיפוש היברידי וחיפוש סמנטי באמצעות SDK

כשאתה מתקשר ל-Retrieve API, Bases Knowledge for Amazon Bedrock בוחר את אסטרטגיית החיפוש המתאימה לך כדי לתת לך את התוצאות הרלוונטיות ביותר. יש לך אפשרות לעקוף אותו כדי להשתמש בחיפוש היברידי או סמנטי ב-API.

אחזר API

ה-API לאחזור נועד להביא תוצאות חיפוש רלוונטיות על ידי מתן שאילתת המשתמש, מזהה בסיס הידע ומספר התוצאות שברצונך שה-API יחזיר. ממשק API זה ממיר שאילתות משתמשים להטמעות, מחפש את בסיס הידע באמצעות חיפוש היברידי או חיפוש סמנטי (וקטורי), ומחזיר את התוצאות הרלוונטיות, מה שנותן לך שליטה רבה יותר לבנות זרימות עבודה מותאמות אישית על גבי תוצאות החיפוש. לדוגמה, אתה יכול להוסיף לוגיקה שלאחר עיבוד לתוצאות שאוחזרו או להוסיף הנחיה משלך ולהתחבר לכל FM שסופק על ידי Amazon Bedrock ליצירת תשובות.

כדי להראות לך דוגמה למעבר בין אפשרויות חיפוש היברידיות לסמנטיות (וקטוריות), יצרנו בסיס ידע באמצעות מסמך אמזון 10K לשנת 2023. לפרטים נוספים על יצירת בסיס ידע, עיין ב בנו אפליקציית צ'אט בוט קונטקסטואלית תוך שימוש בבסיסי ידע עבור Amazon Bedrock.

כדי להדגים את הערך של חיפוש היברידי, אנו משתמשים בשאילתה הבאה:

As of December 31st 2023, what is the leased square footage for physical stores in North America?

התשובה עבור השאילתה הקודמת כוללת כמה מילות מפתח, כגון date, physical stores, ו North America. התגובה הנכונה היא 22,871 thousand square feet. בואו נסתכל על ההבדל בתוצאות החיפוש הן עבור חיפוש היברידי והן עבור חיפוש סמנטי.

הקוד הבא מראה כיצד להשתמש בחיפוש היברידי או סמנטי (וקטורי) באמצעות ה-Retrieve API עם Boto3:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

השמיים overrideSearchType אפשרות ב retrievalConfiguration מציע את הבחירה להשתמש גם HYBRID or SEMANTIC. כברירת מחדל, הוא יבחר את האסטרטגיה הנכונה עבורך כדי לתת לך את התוצאות הרלוונטיות ביותר, ואם אתה רוצה לעקוף את אפשרות ברירת המחדל להשתמש בחיפוש היברידי או סמנטי, תוכל להגדיר את הערך ל HYBRID/SEMANTIC. הפלט של ה Retrieve API כולל את נתחי הטקסט שאוחזרו, סוג המיקום וה-URI של נתוני המקור וציוני הרלוונטיות של האחזורים. הציונים עוזרים לקבוע אילו נתחים תואמים בצורה הטובה ביותר את התגובה של השאילתה.

להלן התוצאות עבור השאילתה הקודמת באמצעות חיפוש היברידי (כאשר חלק מהפלט נכתב לקיצור):

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

להלן התוצאות עבור חיפוש סמנטי (כאשר חלק מהפלט נכתב לקיצור):

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

כפי שניתן לראות בתוצאות, חיפוש היברידי הצליח לאחזר את תוצאת החיפוש עם השטח המושכר עבור חנויות פיזיות בצפון אמריקה כפי שהוזכר בשאילתת המשתמש. הסיבה העיקרית הייתה שחיפוש היברידי הצליח לשלב את התוצאות ממילות מפתח כגון date, physical stores, ו North America בשאילתה, ואילו חיפוש סמנטי לא. לכן, כאשר תוצאות החיפוש מוגדלות עם שאילתת המשתמש וההנחיה, ה-FM לא יוכל לספק את התגובה הנכונה במקרה של חיפוש סמנטי.

עכשיו בואו נסתכל על RetrieveAndGenerate API עם חיפוש היברידי כדי להבין את התגובה הסופית שנוצרת על ידי ה-FM.

RetrieveAndGenerate API

השמיים RetrieveAndGenerate API שואל בסיס ידע ומייצר תגובה על סמך התוצאות שאוחזרו. אתה מציין את מזהה בסיס הידע וכן את ה-FM כדי ליצור תגובה מהתוצאות. Amazon Bedrock ממירה את השאילתות להטמעות, מבצעת שאילתות בבסיס הידע בהתבסס על סוג החיפוש, ולאחר מכן מגדילה את הנחיית FM עם תוצאות החיפוש כמידע הקשר ומחזירה את התגובה שנוצרה על ידי FM.

בואו נשתמש בשאילתה "נכון ל-31 בדצמבר 2023, מה השטח המושכר לחנויות פיזיות בצפון אמריקה?" ולשאול את RetrieveAndGenerate API ליצירת התגובה באמצעות השאילתה שלנו:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

להלן התוצאות באמצעות חיפוש היברידי:

22,871 thousand leased square feet

להלן התוצאות באמצעות חיפוש סמנטי:

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

התשובה האמיתית לשאילתה היא 22,871 thousand leased square feet, אשר נוצר על ידי החיפוש ההיברידי. תוצאות החיפוש שאוחזרו עבור חיפוש היברידי כללו את המידע על השטח המושכר עבור חנויות פיזיות בצפון אמריקה, בעוד שחיפוש סמנטי לא הצליח להביא את המידע הנכון מחנות הווקטור עקב תרגום ההטמעות. לכן, ה-FM לא יכול היה לספק את התגובה הנכונה כי לא היו לו את תוצאות החיפוש הנכונות והרלוונטיות ביותר.

עם זאת, לשאלות כלליות יותר שאינן מערבות ישויות כגון physical stores or North America, חיפוש היברידי וסמנטי נותנים תוצאות דומות.

להלן תשובות לדוגמה מכמה שאילתות המדגימות מקרים שבהם חיפוש היברידי וסמנטי מניבים תוצאות דומות.

שאלה חיפוש סמנטי: RAG API חיפוש היברידי: RAG API
כיצד אמזון משרתת את המפתחים והארגונים? אנו משרתים מפתחים וארגונים מכל הגדלים, כולל סטארט-אפים, סוכנויות ממשלתיות ומוסדות אקדמיים, באמצעות AWS, המציעה מערך רחב של שירותי טכנולוגיה לפי דרישה, כולל מחשוב, אחסון, מסד נתונים, ניתוח ולמידת מכונה, ו שירותים אחרים אנו משרתים מפתחים וארגונים מכל הגדלים, כולל סטארט-אפים, סוכנויות ממשלתיות ומוסדות אקדמיים, באמצעות AWS, המציעה מערך רחב של שירותי טכנולוגיה לפי דרישה, כולל מחשוב, אחסון, מסד נתונים, ניתוח ולמידת מכונה, ו שירותים אחרים.
מי הם המנהלים והדירקטורים של אמזון נכון ל-24 בינואר 2024? המנהלים של אמזון נכון לשנת 2024 כוללים את אנדרו ר. ג'סי כנשיא ומנכ"ל, דאגלס ג'יי הרינגטון כמנכ"ל Worldwide Amazon Stores, בריאן ט. אולבססקי כסגן נשיא בכיר ומנהל כספים ראשי, שלי ל. ריינולדס כסגנית נשיא , בקר עולמי ומנהל חשבונות ראשי, אדם נ. סליפסקי כמנכ"ל שירותי האינטרנט של אמזון, ודיוויד א. זפולסקי כסגן נשיא בכיר, מדיניות ציבורית גלובלית ויועץ משפטי כללי. החל משנת 2024, ג'פרי פ. בזוס משמש כיו"ר בכיר של Amazon.com. אנדרו ר. ג'סי משמש כנשיא ומנכ"ל. מנהלים בכירים אחרים כוללים את דאגלס ג'יי הרינגטון כמנכ"ל Worldwide Amazon Stores, בריאן ט. אולסבסקי כסגן נשיא בכיר ומנהל כספים ראשי, שלי ל. ריינולדס כסגנית נשיא, בקרה עולמית ומנהל חשבונות ראשי, ואדם נ. סליפסקי כמנכ"ל. שירותי האינטרנט של אמזון. דוד א. זפולסקי משמש כסגן נשיא בכיר, מדיניות ציבורית גלובלית ויועץ כללי

השתמש באפשרויות חיפוש היברידיות וחיפוש סמנטי דרך קונסולת Amazon Bedrock

כדי להשתמש באפשרויות חיפוש היברידיות וסמנטיות בקונסולת Amazon Bedrock, בצע את השלבים הבאים:

  1. בקונסולת Amazon Bedrock, בחר בסיס ידע בחלונית הניווט.
  2. בחר את בסיס הידע שיצרת.
  3. בחרו מבחן בסיס ידע.
  4. בחר את סמל התצורות.
    מאגרי ידע עבור אמזון יסודות תומכים כעת בחיפוש היברידי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  5. בעד סוג חיפושבחר חיפוש היברידי (סמנטי וטקסט).
    מאגרי ידע עבור אמזון יסודות תומכים כעת בחיפוש היברידי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כברירת מחדל, אתה יכול לבחור FM כדי לקבל תשובה עבור השאילתה שלך. אם אתה רוצה לראות רק את התוצאות שאוחזרו, אתה יכול להחליף צור תגובה כבוי כדי לקבל רק תוצאות מאוחזרות.

מאגרי ידע עבור אמזון יסודות תומכים כעת בחיפוש היברידי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

בפוסט זה, כיסינו את תכונת השאילתות החדשה ב- Knowledge Bases for Amazon Bedrock, המאפשרת חיפוש היברידי. למדנו כיצד להגדיר את אפשרות החיפוש ההיברידית ב-SDK ובקונסולת Amazon Bedrock. זה עוזר להתגבר על חלק מהמגבלות של הסתמכות על חיפוש סמנטי בלבד, במיוחד עבור חיפוש באוספים גדולים של מסמכים עם תוכן מגוון. השימוש בחיפוש היברידי תלוי בסוג המסמך ובמקרה השימוש שאתה מנסה ליישם.

למשאבים נוספים, עיין בפרטים הבאים:

הפניות

שיפור ביצועי השליפה בצינורות RAG עם חיפוש היברידי


על הכותבים

מאגרי ידע עבור אמזון יסודות תומכים כעת בחיפוש היברידי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.מני חנוג'ה היא מובילה טכנולוגית - מומחי בינה מלאכותית, מחברת הספר Applied Machine Learning and High Performance Computing on AWS, וחברה במועצת המנהלים של קרן החינוך לנשים בייצור. היא מובילה פרויקטים של למידת מכונה בתחומים שונים כגון ראייה ממוחשבת, עיבוד שפה טבעית ובינה מלאכותית יצירתית. היא מדברת בכנסים פנימיים וחיצוניים כגון AWS re:Invent, Women in Manufacturing West, סמינרים מקוונים של YouTube ו-GHC 23. בזמנה הפנוי היא אוהבת לצאת לריצות ארוכות לאורך החוף.

מאגרי ידע עבור אמזון יסודות תומכים כעת בחיפוש היברידי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.פאלאווי נרגונד הוא אדריכל פתרונות ראשי ב-AWS. בתפקידה כמאפשרת טכנולוגיית ענן, היא עובדת עם לקוחות כדי להבין את המטרות והאתגרים שלהם, ולתת הדרכה מרשימה להשגת המטרה שלהם עם הצעות AWS. היא נלהבת מנשים בטכנולוגיה והיא חברת ליבה של Women in AI/ML באמזון. היא מדברת בכנסים פנימיים וחיצוניים כמו AWS re:Invent, AWS Summits וסמינרים מקוונים. מחוץ לעבודה היא נהנית מהתנדבות, גינון, רכיבה על אופניים וטיולים.

בול זמן:

עוד מ למידת מכונות AWS