At AWS re: המצאה 2023, הכרזנו על הזמינות הכללית של בסיסי ידע עבור Amazon Bedrock. עם Base Knowledge for Amazon Bedrock, אתה יכול לחבר בצורה מאובטחת דגמי יסוד (FMs). סלע אמזון לנתוני החברה שלך באמצעות מודל Retrieval Augmented Generation (RAG) מנוהל במלואו.
עבור יישומים מבוססי RAG, הדיוק של התגובות שנוצרו מ-FM תלוי בהקשר המסופק למודל. הקשרים מאוחזרים ממאגרי וקטורים בהתבסס על שאילתות משתמשים. בתכונה שיצאה לאחרונה עבור Knowledge Bases for Amazon Bedrock, חיפוש היברידי, ניתן לשלב חיפוש סמנטי עם חיפוש מילות מפתח. עם זאת, במצבים רבים, ייתכן שיהיה עליך לאחזר מסמכים שנוצרו בתקופה מוגדרת או מתויגים בקטגוריות מסוימות. כדי לצמצם את תוצאות החיפוש, אתה יכול לסנן על סמך מטא נתונים של מסמכים כדי לשפר את דיוק האחזור, אשר בתורו מוביל לדורות FM רלוונטיים יותר בהתאמה לתחומי העניין שלך.
בפוסט זה, אנו דנים בתכונת סינון המטא נתונים המותאמת אישית החדשה ב- Knowledge Bases for Amazon Bedrock, שבה תוכל להשתמש כדי לשפר את תוצאות החיפוש על ידי סינון מראש של האחזורים שלך מחנויות וקטורים.
סקירה כללית של סינון מטא נתונים
לפני שחרורו של סינון מטא נתונים, כל הנתחים הרלוונטיים מבחינה סמנטית עד למקסימום המוגדר מראש יוחזרו כהקשר לשימוש ה-FM כדי ליצור תגובה. כעת, עם מסנני מטא נתונים, אתה יכול לאחזר לא רק נתחים רלוונטיים מבחינה סמנטית, אלא תת-קבוצה מוגדרת היטב של אותם צ'אקים רלוונטיים בהתבסס על מסנני מטא נתונים שיושמו וערכים משויכים.
עם תכונה זו, כעת תוכל לספק קובץ מטא נתונים מותאם אישית (כל אחד עד 10 KB) עבור כל מסמך במאגר הידע. אתה יכול להחיל מסננים על האחזורים שלך, להורות למאגר הוקטורים לסנן מראש על סמך מטא נתונים של מסמך ולאחר מכן לחפש מסמכים רלוונטיים. בדרך זו, יש לך שליטה על המסמכים שאוחזרו, במיוחד אם השאילתות שלך לא ברורות. לדוגמה, אתה יכול להשתמש במסמכים משפטיים עם מונחים דומים עבור הקשרים שונים, או סרטים בעלי עלילה דומה שיצאו בשנים שונות. בנוסף, על ידי הפחתת מספר הנתחים שבהם מתבצע חיפוש, אתה משיג יתרונות ביצועים כמו הפחתה במחזורי ה-CPU ועלות השאילתה בחנות הווקטורית, בנוסף לשיפור הדיוק.
כדי להשתמש בתכונת סינון המטא נתונים, עליך לספק קבצי מטא נתונים לצד קובצי נתוני המקור בעלי שם זהה לקובץ נתוני המקור ו .metadata.json
סִיוֹמֶת. מטא נתונים יכולים להיות מחרוזת, מספר או בוליאנית. להלן דוגמה לתוכן קובץ המטא נתונים:
תכונת סינון המטא נתונים של Knowledge Bases for Amazon Bedrock זמינה באזורי AWS במזרח ארה"ב (נ' וירג'יניה) ובמערב ארה"ב (אורגון).
להלן מקרי שימוש נפוצים לסינון מטא נתונים:
- מסמך צ'אטבוט עבור חברת תוכנה - זה מאפשר למשתמשים למצוא מידע על המוצר ומדריכים לפתרון בעיות. מסננים על מערכת ההפעלה או גרסת האפליקציה, למשל, יכולים לעזור להימנע מאחזור מסמכים מיושנים או לא רלוונטיים.
- חיפוש שיחה באפליקציה של ארגון - זה מאפשר למשתמשים לחפש במסמכים, קנבנים, תמלולי הקלטת פגישות ונכסים אחרים. באמצעות מסנני מטא נתונים על קבוצות עבודה, יחידות עסקיות או מזהי פרויקטים, אתה יכול להתאים אישית את חוויית הצ'אט ולשפר את שיתוף הפעולה. דוגמה לכך תהיה, "מה המצב של פרויקט ספינקס והסיכונים שעלו", שבו משתמשים יכולים לסנן מסמכים עבור פרויקט או סוג מקור ספציפי (כגון דואר אלקטרוני או מסמכי פגישה).
- חיפוש חכם למפתחי תוכנה - זה מאפשר למפתחים לחפש מידע על מהדורה ספציפית. מסננים על גרסת ההפצה, סוג המסמך (כגון קוד, הפניה ל-API או בעיה) יכולים לעזור באיתור מסמכים רלוונטיים.
סקירת פתרונות
בסעיפים הבאים, אנו מדגימים כיצד להכין מערך נתונים לשימוש כבסיס ידע, ולאחר מכן לבצע שאילתות באמצעות סינון מטא נתונים. אתה יכול לבצע שאילתות באמצעות ה- קונסולת הניהול של AWS או SDK.
הכן מערך נתונים עבור בסיסי ידע עבור Amazon Bedrock
לפוסט זה אנו משתמשים ב- מערך לדוגמה על משחקי וידאו בדיוניים כדי להמחיש כיצד להטמיע ולאחזר מטא נתונים באמצעות Knowledge Bases for Amazon Bedrock. אם אתה רוצה לעקוב אחרי חשבון AWS משלך, הורד את הקובץ.
אם ברצונך להוסיף מטא נתונים למסמכים שלך במאגר ידע קיים, צור את קובצי המטא נתונים עם שם הקובץ והסכימה הצפויים, ולאחר מכן דלג לשלב לסנכרון הנתונים שלך עם בסיס הידע כדי להתחיל את ההטמעה המצטברת.
במערך הנתונים לדוגמה שלנו, המסמך של כל משחק הוא קובץ CSV נפרד (לדוגמה, s3://$bucket_name/video_game/$game_id.csv
) עם העמודות הבאות:
title
, description
, genres
, year
, publisher
, score
למטא נתונים של כל משחק יש את הסיומת .metadata.json
(לדוגמה, s3://$bucket_name/video_game/$game_id.csv.metadata.json
) עם הסכימה הבאה:
צור בסיס ידע עבור Amazon Bedrock
להנחיות ליצירת בסיס ידע חדש, ראה צור בסיס ידע. עבור דוגמה זו, אנו משתמשים בהגדרות הבאות:
- על הגדר מקור נתונים עמוד, מתחת אסטרטגיית נתחים, בחר בלי חתיכות, כי כבר עיבדת מראש את המסמכים בשלב הקודם.
- ב דגם הטבעות סעיף, בחר הטבעות Titan G1 - טקסט.
- ב מסד נתונים וקטורי סעיף, בחר צור במהירות חנות וקטורית חדשה. תכונת סינון המטא נתונים זמינה עבור כל חנויות הווקטור הנתמכות.
סנכרן את מערך הנתונים עם בסיס הידע
לאחר שתיצור את בסיס הידע, וקובצי הנתונים וקובצי המטא נתונים שלך נמצאים ב- שירות אחסון פשוט של אמזון (Amazon S3), אתה יכול להתחיל את הבליעה המצטברת. להנחיות, ראה סנכרן כדי להטמיע את מקורות הנתונים שלך לתוך בסיס הידע.
שאילתה עם סינון מטא נתונים בקונסולת Amazon Bedrock
כדי להשתמש באפשרויות סינון המטא נתונים בקונסולת Amazon Bedrock, בצע את השלבים הבאים:
- בקונסולת Amazon Bedrock, בחר מאגרי ידע בחלונית הניווט.
- בחר את בסיס הידע שיצרת.
- בחרו מבחן בסיס ידע.
- בחר את תצורות סמל ולאחר מכן הרחב מסנן.
- הזן תנאי באמצעות הפורמט: מפתח = ערך (לדוגמה, ז'אנרים = אסטרטגיה) ולחץ זן.
- כדי לשנות את המפתח, הערך או האופרטור, בחר את התנאי.
- המשך עם התנאים הנותרים (לדוגמה, (ז'אנרים = אסטרטגיה ושנה >= 2023) או (דירוג >= 9))
- בסיום, הזן את השאילתה שלך בתיבת ההודעה, ולאחר מכן בחר הפעלה.
עבור פוסט זה, אנו נכנסים לשאילתה "משחק אסטרטגיה עם גרפיקה מגניבה שיצא לאחר 2023."
שאילתה עם סינון מטא נתונים באמצעות ה-SDK
כדי להשתמש ב-SDK, תחילה צור את הלקוח עבור סוכנים עבור Amazon Bedrock זמן ריצה:
לאחר מכן בנה את המסנן (להלן כמה דוגמאות):
העבירו את המסנן ל retrievalConfiguration
של API של אחזור or RetrieveAndGenerate API:
הטבלה הבאה מפרטת כמה תגובות עם תנאי סינון מטא נתונים שונים.
שאלה | סינון מטא נתונים | מסמכים שאוחזרו | תצפיות |
"משחק אסטרטגיה עם גרפיקה מגניבה שיצא לאחר 2023" | כבוי |
* Viking Saga: The Sea Raider, שנה:2023, ז'אנרים: אסטרטגיה * טירת ימי הביניים: מצור וכיבוש, שנה:2022, ז'אנרים: אסטרטגיה * מהפכה קיברנטית: עליית המכונות, שנה:2022, ז'אנרים: אסטרטגיה |
2/5 משחקים עומדים בתנאי (ז'אנרים = אסטרטגיה ושנה >= 2023) |
On | * Viking Saga: The Sea Raider, שנה:2023, ז'אנרים: אסטרטגיה * ממלכות פנטזיה: Chronicles of Eldoria, שנה:2023, ז'אנרים: אסטרטגיה |
2/2 משחקים עומדים בתנאי (ז'אנרים = אסטרטגיה ושנה >= 2023) |
בנוסף למטא נתונים מותאמים אישית, אתה יכול גם לסנן באמצעות קידומות S3 (שהן מטא נתונים מובנה, כך שאינך צריך לספק קבצי מטא נתונים). לדוגמה, אם אתה מארגן את מסמכי המשחק בקידומות לפי מפרסם (לדוגמה, s3://$bucket_name/video_game/$publisher/$game_id.csv
), תוכל לסנן עם בעל האתר הספציפי (לדוגמה, neo_tokyo_games
) באמצעות התחביר הבא:
לנקות את
כדי לנקות את המשאבים שלך, בצע את השלבים הבאים:
- מחק את מאגר הידע:
- בקונסולת Amazon Bedrock, בחר מאגרי ידע תחת תזמורת בחלונית הניווט.
- בחר את בסיס הידע שיצרת.
- שימו לב ל AWS זהות וניהול גישה (IAM) שם תפקיד השירות ב- סקירת מאגר הידע סָעִיף.
- ב מסד נתונים וקטורי סעיף, שימו לב לאוסף ARN.
- בחרו מחק, ולאחר מכן הזן מחק כדי לאשר.
- מחק את מסד הנתונים הווקטוריים:
- על שירות חיפוש פתוח של אמזון קונסולה, בחר קולקציות תחת ללא שרת בחלונית הניווט.
- הזן את האוסף ARN ששמרת בשורת החיפוש.
- בחר את האוסף ובחר מחק.
- הזן לאשר בבקשת האישור ולאחר מכן בחר מחק.
- מחק את תפקיד שירות IAM:
- במסוף IAM בחר תפקידים בחלונית הניווט.
- חפש את שם התפקיד שציינת קודם לכן.
- בחר את התפקיד ובחר מחק.
- הזן את שם התפקיד בבקשת האישור ומחק את התפקיד.
- מחק את מערך הנתונים לדוגמה:
- בקונסולת Amazon S3, נווט אל דלי ה-S3 שבו השתמשת.
- בחר את הקידומת והקבצים ולאחר מכן בחר מחק.
- הזן למחוק לצמיתות בבקשת האישור כדי למחוק.
סיכום
בפוסט זה, כיסינו את תכונת סינון המטא נתונים ב- Knowledge Bases for Amazon Bedrock. למדת כיצד להוסיף מטא נתונים מותאמים אישית למסמכים ולהשתמש בהם כמסננים תוך אחזור ושאילתה של המסמכים באמצעות מסוף Amazon Bedrock ו-SDK. זה עוזר לשפר את דיוק ההקשר, מה שהופך את תגובות השאילתה לרלוונטיות עוד יותר תוך השגת הפחתה בעלות השאילתה במסד הנתונים הוקטור.
למשאבים נוספים, עיין בפרטים הבאים:
על הכותבים
קורבוס לי הוא אדריכל בכיר ב-GenAI Labs Solutions שבסיסו בלונדון. הוא נלהב מעיצוב ופיתוח אבות טיפוס המשתמשים בבינה מלאכותית גנרטיבית כדי לפתור בעיות של לקוחות. הוא גם מתעדכן בפיתוחים האחרונים בתחום הבינה המלאכותית וטכניקות שליפה על ידי יישומם על תרחישים בעולם האמיתי.
אחמד אוויס הוא ארכיטקט פתרונות בכיר במעבדות AWS GenAI, שעוזר ללקוחות לבנות אבות טיפוס בינה מלאכותית לפתרון בעיות עסקיות. כשהוא לא משתף פעולה עם לקוחות, הוא נהנה לשחק עם ילדיו ולבשל.
כריס פקורה הוא מדען נתונים גנרטיבי בינה מלאכותית בשירותי האינטרנט של אמזון. הוא נלהב מבניית מוצרים ופתרונות חדשניים תוך התמקדות במדע אובססיבי של לקוחות. כשהוא לא מפעיל ניסויים ומתעדכן בהתפתחויות האחרונות ב- GenAI, הוא אוהב לבלות עם הילדים שלו.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/knowledge-bases-for-amazon-bedrock-now-supports-metadata-filtering-to-improve-retrieval-accuracy/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 10
- 100
- 12
- 14
- 150
- 19
- 2016
- 2023
- 28
- 500
- 7
- 9
- a
- אודות
- גישה
- חֶשְׁבּוֹן
- דיוק
- להשיג
- השגתי
- להוסיף
- תוספת
- נוסף
- יתרונות
- לאחר
- AI
- נתוני AI
- מיושר
- תעשיות
- מאפשר
- לאורך
- בַּצַד
- כְּבָר
- גם
- אמזון בעברית
- אמזון שירותי אינטרנט
- an
- ו
- הודיע
- כל
- API
- בקשה
- יישומים
- יישומית
- החל
- מריחה
- ARE
- AS
- נכסים
- המשויך
- At
- מוגבר
- זמינות
- זמין
- לְהִמָנַע
- AWS
- בָּר
- בסיס
- מבוסס
- BE
- כי
- להיות
- אריזה מקורית
- לִבנוֹת
- בִּניָן
- מובנה
- עסקים
- אבל
- by
- CAN
- מקרים
- קטגוריות
- מסוים
- שינוי
- צ'אט
- chatbot
- בחרו
- בחר
- לְנַקוֹת
- לקוחות
- שעון
- קוד
- שיתוף פעולה
- שיתוף פעולה
- אוסף
- עמודות
- לשלב
- Common
- חברה
- להשלים
- מצב
- תנאים
- לאשר
- אישור
- לְחַבֵּר
- קונסול
- לבנות
- תוכן
- הקשר
- הקשרים
- לִשְׁלוֹט
- קריר
- עלות
- מכוסה
- לִיצוֹר
- נוצר
- מנהג
- לקוח
- לקוחות
- מחזורי
- נתונים
- מדען נתונים
- מסד נתונים
- מוגדר
- להפגין
- לסמוך
- תכנון
- מפתחים
- מתפתח
- התפתחויות
- אחר
- לדון
- מסמך
- מסמכים
- לא
- להורדה
- כל אחד
- מוקדם יותר
- מזרח
- או
- אמייל
- זן
- שווים
- במיוחד
- ערב
- אֲפִילוּ
- דוגמה
- דוגמאות
- קיימים
- לְהַרְחִיב
- צפוי
- ניסיון
- ניסויים
- פנטזיה
- מאפיין
- מעטים
- בִּדְיוֹנִי
- שלח
- קבצים
- לסנן
- סינון
- מסננים
- ראשון
- התמקדות
- לעקוב
- הבא
- בעד
- פוּרמָט
- קרן
- החל מ-
- לגמרי
- g1
- מִשְׂחָק
- משחקים
- גנאי
- כללי
- ליצור
- נוצר
- דור
- דורות
- גנרטטיבית
- AI Generative
- ז'אנרים
- גרפי
- קבוצה
- מדריך
- יש
- he
- לעזור
- עזרה
- עוזר
- שֶׁלוֹ
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- ID
- זהות
- מזהה
- if
- להמחיש
- לשפר
- השבחה
- in
- מצטבר
- מידע
- חדשני
- הוראות
- אינטרסים
- אל תוך
- סוגיה
- jpg
- שמירה
- שומר
- מפתח
- הילדים
- ידע
- מעבדות
- האחרון
- ההתפתחויות האחרונות
- מוביל
- למד
- משפטי
- כמו
- רשימות
- לונדון
- נראה
- אוהב
- מכונה
- עשייה
- הצליח
- ניהול
- רב
- מקסימום
- מאי..
- של ימי הביניים
- לִפְגוֹשׁ
- מפגש
- הודעה
- מידע נוסף
- מודל
- מודלים
- יותר
- סרטים
- שם
- נווט
- ניווט
- צורך
- חדש
- נינג'ות
- הערות
- ציין
- עַכשָׁיו
- מספר
- מְיוּשָׁן
- of
- on
- רק
- פועל
- מערכת הפעלה
- מפעיל
- אפשרויות
- or
- אורגון
- אחר
- שלנו
- יותר
- שֶׁלוֹ
- עמוד
- זגוגית
- לוהט
- ביצועים
- תקופה
- לצמיתות
- אישית
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- משחק
- עלילה
- הודעה
- להכין
- ללחוץ
- קודם
- בעיות
- המוצר
- מידע על מוצר
- מוצרים
- פּרוֹיֶקט
- טיפוס
- לספק
- ובלבד
- מוציא לאור
- שאילתות
- שאלה
- סמרטוט
- מורם
- דירוג
- RE
- עולם אמיתי
- לאחרונה
- הקלטה
- הפחתה
- הפחתה
- להתייחס
- הפניה
- לחדד
- אזורים
- לשחרר
- שוחרר
- רלוונטי
- נותר
- משאבים
- תגובה
- תגובות
- תוצאות
- שליפה
- מַהְפֵּכָה
- לעלות
- סיכונים
- תפקיד
- ריצה
- זמן ריצה
- סָגָה
- אותו
- לִטעוֹם
- מערך נתונים לדוגמה
- הציל
- תרחישים
- מדע
- מַדְעָן
- ציון
- Sdk
- SEA
- חיפוש
- סעיף
- סעיפים
- מאובטח
- לִרְאוֹת
- בחר
- סמנטי
- לחצני מצוקה לפנסיונרים
- נפרד
- שרות
- שירותים
- הגדרות
- דומה
- פָּשׁוּט
- מצבים
- So
- תוכנה
- פתרונות
- לפתור
- כמה
- מָקוֹר
- מקורות
- ספציפי
- הוצאה
- התחלה
- מצב
- שלב
- צעדים
- אחסון
- חנות
- חנויות
- אִסטרָטֶגִיָה
- מחרוזת
- כזה
- לספק
- נתמך
- תומך
- סינכרון.
- תחביר
- מערכת
- שולחן
- תָג
- לקחת
- נבחרת
- טכניקות
- מונחים
- זֶה
- השמיים
- המקור
- אותם
- אז
- זֶה
- אלה
- דרך
- זמן
- ל
- תור
- סוג
- תחת
- יחידות
- us
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- משתמשים
- באמצעות
- ערך
- ערכים
- גרסה
- וִידֵאוֹ
- משחקי וידאו
- וירג'יניה
- רוצה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- מוגדר היטב
- מערב
- מתי
- אשר
- בזמן
- עם
- תיק עבודות
- היה
- שנה
- שנים
- אתה
- זפירנט
- רוכסן