אמזון קנדרה הוא שירות חיפוש חכם מדויק ופשוט לשימוש המופעל על ידי למידת מכונה (ML). אמזון קנדרה מציעה חבילה של מחברי מקור נתונים כדי לפשט את תהליך ההטמעה והאינדקס של התוכן שלך, בכל מקום בו הוא נמצא.
נתונים בעלי ערך בארגונים מאוחסנים במאגרים מובנים ובלתי מובנים כאחד. פתרון חיפוש ארגוני אמור להיות מסוגל לספק לך חוויה מנוהלת במלואה ולפשט את תהליך הוספת התוכן שלך לאינדקס ממגוון מקורות נתונים בארגון.
מאגר נתונים לא מובנה כזה הם אתרים פנימיים וחיצוניים. ייתכן שיהיה צורך לסרוק אתרים כדי ליצור עדכוני חדשות, לנתח שימוש בשפה או ליצור בוטים כדי לענות על שאלות על סמך נתוני האתר.
אנו נרגשים להכריז כי כעת תוכל להשתמש ב- Amazon Kendra Web Crawler החדש כדי לחפש תשובות מתוכן המאוחסן באתרים פנימיים וחיצוניים או ליצור צ'אטבוטים. בפוסט זה, אנו מראים כיצד לאינדקס מידע המאוחסן באתרים ולהשתמש בחיפוש החכם באמזון קנדרה כדי לחפש תשובות מתוכן המאוחסן באתרים פנימיים וחיצוניים. בנוסף, החיפוש החכם המופעל על ידי ML יכול לקבל במדויק תשובות לשאלות שלך ממסמכים לא מובנים עם תוכן נרטיבי בשפה טבעית, שעבורם חיפוש מילות מפתח אינו יעיל במיוחד.
סורק האינטרנט מציע את התכונות החדשות הבאות:
- תמיכה באימות בסיסי, NTLM/Kerberos, Form ו-SAML
- היכולת לציין 100 כתובות אתרים מקור ולאחסן את תצורת החיבור ב שירות אחסון פשוט של אמזון (אמזון S3)
- תמיכה בפרוקסי אינטרנט ואינטרנט עם היכולת לספק אישורי proxy
- תמיכה בסריקת תוכן דינמי, כגון אתר המכיל JavaScript
- תכונות מיפוי שדות וסינון ביטויים רגולריים
סקירת פתרונות
עם Amazon Kendra, אתה יכול להגדיר מספר מקורות נתונים כדי לספק מקום מרכזי לחיפוש במאגר המסמכים שלך. עבור הפתרון שלנו, אנו מדגימים כיצד להוסיף לאינדקס אתר נסרק באמצעות סורק האינטרנט של Amazon Kendra. הפתרון מורכב מהשלבים הבאים:
- בחר מנגנון אימות לאתר (אם נדרש) ואחסן את הפרטים בו מנהל סודות AWS.
- צור אינדקס אמזון קנדרה.
- צור מקור נתונים של סורק אינטרנט V2 דרך קונסולת אמזון קנדרה.
- הפעל שאילתה לדוגמה כדי לבדוק את הפתרון.
תנאים מוקדמים
כדי לנסות את סורק האינטרנט של Amazon Kendra, אתה צריך את הדברים הבאים:
אסוף פרטי אימות
עבור אתרים מוגנים ומאובטחים, סוגי האימות והסטנדרטים הבאים נתמכים:
- בסיסי
- NTLM/Kerberos
- אימות טופס
- SAML
אתה צריך את פרטי האימות בעת הגדרת מקור הנתונים.
עבור אימות בסיסי או NTLM, עליך לספק את סוד מנהל הסודות, שם המשתמש והסיסמה שלך.
אימות טופס ו-SAML דורשים מידע נוסף, כפי שמוצג בצילום המסך הבא. חלק מהתחומים אוהבים משתמש לחצן שם Xpath הם אופציונליים ותלויים אם האתר שאתה סורק משתמש בלחצן לאחר הזנת שם המשתמש. כמו כן, שימו לב שתצטרכו לדעת כיצד לקבוע את ה-Xpath של שדה שם המשתמש והסיסמה וכפתורי השליחה.
צור אינדקס אמזון קנדרה
כדי ליצור אינדקס אמזון קנדרה, בצע את השלבים הבאים:
- בקונסולת אמזון קנדרה, בחר צור אינדקס.
- בעד שם אינדקס, הזן שם עבור האינדקס (לדוגמה, Web Crawler).
- הזן תיאור אופציונלי.
- בעד שם התפקיד, הזן שם תפקיד של IAM.
- הגדר הגדרות הצפנה ותגים אופציונליים.
- בחרו הַבָּא.
- ב הגדר בקרת גישה למשתמש סעיף, השאר את ההגדרות בברירות המחדל שלהן ובחר הַבָּא.
- בעד מהדורות מתן, בחר מהדורת המפתח ולבחור הַבָּא.
- בדף הביקורת, בחר צור.
זה יוצר ומפיץ את תפקיד IAM ולאחר מכן יוצר את אינדקס אמזון קנדרה, שיכול לקחת עד 30 דקות.
צור מקור נתונים של Amazon Kendra Web Crawler
בצע את השלבים הבאים כדי ליצור את מקור הנתונים שלך:
- בקונסולת אמזון קנדרה, בחר מקורות מידע בחלונית הניווט.
- אתר את מחבר WebCrawler V2.0 אריח ובחר הוסף מחבר.
- בעד שם מקור הנתונים, הזן שם (לדוגמה, crawl-fda).
- הזן תיאור אופציונלי.
- בחרו הַבָּא.
- ב מָקוֹר בחר, בחר כתובת האתר למקור והזן כתובת URL. עבור פוסט זה, אנו משתמשים https://www.fda.gov/ ככתובת אתר למקור לדוגמה.
- ב אימות בקטע, בחר את האימות המתאים על סמך האתר שברצונך לסרוק. עבור פוסט זה, אנו בוחרים אין אימות כי זה אתר ציבורי ואינו זקוק לאימות.
- ב פרוקסי אינטרנט בסעיף, אתה יכול לציין סוד מנהל סודות (אם נדרש).
- בחרו צור והוסף סוד חדש.
- הזן את פרטי האימות שאספתם בעבר.
- בחרו שמור.
- ב תפקיד IAM סעיף, בחר צור תפקיד חדש והזן שם (לדוגמה,
AmazonKendra-Web Crawler-datasource-role
). - בחרו הַבָּא.
- ב היקף סנכרון הגדר את הגדרות הסנכרון שלך על סמך האתר שאתה סורק. עבור פוסט זה, אנו משאירים את כל הגדרות ברירת המחדל.
- בעד מצב סנכרון, בחר כיצד ברצונך לעדכן את האינדקס שלך. עבור פוסט זה, אנו בוחרים סנכרון מלא.
- בעד סנכרן את לוח ההפעלות, בחר הפעל לפי דרישה.
- בחרו הַבָּא.
- לחלופין, ניתן להגדיר מיפויי שדות. עבור פוסט זה, אנו שומרים על ברירות המחדל לעת עתה.
מיפוי שדות הוא תרגיל שימושי שבו אתה יכול להחליף את שמות השדות בערכים ידידותיים למשתמש ומתאימים לאוצר המילים של הארגון שלך.
- בחרו הַבָּא.
- בחרו הוסף מקור נתונים.
- כדי לסנכרן את מקור הנתונים, בחר סנכרן כעת בדף הפרטים של מקור הנתונים.
- המתן עד שהסנכרון יסתיים.
דוגמה לאתר מאומת
אם אתה רוצה לסרוק אתר שיש לו אימות, אז ב- אימות בשלבים הקודמים, עליך לציין את פרטי האימות. להלן דוגמה אם בחרת אימות טופס.
- ב מָקוֹר בחר, בחר כתובת האתר למקור והזן כתובת URL. עבור דוגמה זו, אנו משתמשים https://accounts.autodesk.com.
- ב אימות בחר, בחר אימות טופס.
- ב פרוקסי אינטרנט בקטע, ציין את סוד מנהל הסודות שלך. זה נדרש עבור כל אפשרות מלבד אין אימות.
- בחרו צור והוסף סוד חדש.
- הזן את פרטי האימות שאספתם בעבר.
- בחרו שמור.
בדוק את הפתרון
כעת, לאחר שהכנסת את התוכן מהאתר לאינדקס אמזון קנדרה שלך, אתה יכול לבדוק כמה שאילתות.
- עבור לאינדקס שלך ובחר חפש תוכן באינדקס.
- הזן שאילתת חיפוש לדוגמה ובדוק את תוצאות החיפוש שלך (השאילתה שלך תשתנה בהתאם לתוכן האתר שסרקת והשאילתה שהוזנת).
מזל טוב! השתמשת בהצלחה באמזון קנדרה כדי להציג תשובות ותובנות על סמך התוכן שנוסף לאינדקס מהאתר שסרקת.
לנקות את
כדי למנוע עלויות עתידיות, נקה את המשאבים שיצרת כחלק מפתרון זה. אם יצרת אינדקס חדש של אמזון קנדרה בזמן בדיקת הפתרון הזה, מחק אותו. אם הוספת רק מקור נתונים חדש באמצעות Amazon Kendra Web Crawler V2, מחק את מקור הנתונים הזה.
סיכום
עם Amazon Kendra Web Crawler V2 החדש, ארגונים יכולים לסרוק כל אתר שהוא ציבורי או מאחורי אימות ולהשתמש בו לחיפוש חכם המופעל על ידי Amazon Kendra.
כדי ללמוד על האפשרויות הללו ועוד, עיין ב- מדריך למפתחים של אמזון קנדרה. למידע נוסף על האופן שבו תוכל ליצור, לשנות או למחוק מטא נתונים ותוכן בעת הטמעת הנתונים שלך, עיין ב- העשרת המסמכים שלך במהלך הבליעה ו העשיר את התוכן והמטא נתונים שלך כדי לשפר את חווית החיפוש שלך עם העשרת מסמכים מותאמת אישית באמזון קנדרה.
על הכותבים
ג'יטן דדהיה הוא אדריכל פתרונות Sr. עם למעלה מ-20 שנות ניסיון בתעשיית התוכנה. הוא עבד עם לקוחות של שירותים פיננסיים גלובליים, וסיפק להם ייעוץ בנושא מודרניזציה על ידי שימוש בשירותים הניתנים על ידי AWS.
Gunwant Walbe הוא מהנדס פיתוח תוכנה ב- Amazon Web Services. הוא לומד נלהב ומעוניין לאמץ טכנולוגיות חדשות. הוא מפתח יישומים עסקיים מורכבים, וג'אווה היא שפת הבחירה העיקרית שלו.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/index-your-web-crawled-content-using-the-new-web-crawler-for-amazon-kendra/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 100
- 16
- 20
- שנים 20
- 30
- 7
- a
- יכולת
- יכול
- אודות
- גישה
- מדויק
- במדויק
- לרוחב
- להוסיף
- הוסיף
- תוספת
- נוסף
- מידע נוסף
- לְאַמֵץ
- עצה
- לאחר
- תעשיות
- גם
- אמזון בעברית
- אמזון קנדרה
- אמזון שירותי אינטרנט
- an
- לנתח
- ו
- להכריז
- לענות
- תשובות
- כל
- יישומים
- מתאים
- ARE
- AS
- At
- תודה
- מאומת
- אימות
- Autodesk
- לְהִמָנַע
- AWS
- מבוסס
- בסיסי
- BE
- כי
- מאחור
- שניהם
- בוטים
- עסקים
- יישומים עסקיים
- לַחְצָן
- by
- CAN
- מֶרכָּזִי
- chatbots
- בחירה
- בחרו
- בחר
- לקוחות
- COM
- להשלים
- מורכב
- תְצוּרָה
- הקשר
- מורכב
- קונסול
- תוכן
- תוכן
- לִשְׁלוֹט
- עלויות
- הסורק
- לִיצוֹר
- נוצר
- יוצר
- מנהג
- נתונים
- בְּרִירַת מֶחדָל
- מחדל
- להפגין
- תיאור
- פרטים
- לקבוע
- מפתח
- צעצועי התפתחות
- מפתחת
- מסמך
- מסמכים
- לא
- בְּמַהֲלָך
- דינמי
- מהדורה
- אפקטיבי
- הצף
- מהנדס
- להגביר את
- זן
- נכנס
- הזנת
- מִפְעָל
- דוגמה
- נרגש
- תרגיל
- ניסיון
- חיצוני
- ה-FDA
- תכונות
- שדה
- שדות
- סינון
- כספי
- שירותים פיננסיים
- מתאים
- הבא
- בעד
- טופס
- החל מ-
- לגמרי
- עתיד
- אסף
- לקבל
- גלוֹבָּלִי
- פיננסי גלובלי
- יש
- he
- מאוד
- שֶׁלוֹ
- איך
- איך
- HTML
- http
- HTTPS
- if
- in
- מדד
- -
- תעשייה
- מידע
- תובנות
- אינטליגנטי
- פנימי
- אינטרנט
- אל תוך
- IT
- Java
- jpg
- נִלהָב
- שמור
- לדעת
- שפה
- לִלמוֹד
- למידה
- יציאה
- כמו
- מכונה
- למידת מכונה
- הצליח
- מנהל
- מיפוי
- מאי..
- מנגנון
- מידע נוסף
- דקות
- ML
- מודרניזציה
- לשנות
- יותר
- מספר
- שם
- שמות
- נרטיב
- טבעי
- ניווט
- צורך
- חדש
- תכונות חדשות
- טכנולוגיות חדשות
- חדשות
- עַכשָׁיו
- of
- המיוחדות שלנו
- on
- רק
- אפשרות
- or
- ארגונים
- אחר
- שלנו
- הַחוּצָה
- יותר
- עמוד
- זגוגית
- חלק
- סיסמה
- מקום
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אפשרויות
- הודעה
- מופעל
- קודם
- קוֹדֶם
- יְסוֹדִי
- תהליך
- מוּגָן
- לספק
- ובלבד
- מתן
- פרוקסי
- ציבורי
- שאילתות
- שאלות
- להתייחס
- regex
- מאגר
- לדרוש
- נדרש
- משאבים
- תוצאות
- סקירה
- תפקיד
- הפעלה
- חיפוש
- סוד
- סודות
- סעיף
- לבטח
- אבטחה
- זרע
- נבחר
- שרות
- שירותים
- סט
- הצבה
- הגדרות
- צריך
- לְהַצִיג
- הראה
- פָּשׁוּט
- לפשט
- אתר
- אתרים
- תוכנה
- פיתוח תוכנה
- פִּתָרוֹן
- פתרונות
- כמה
- מָקוֹר
- מקורות
- תקנים
- התחלה
- צעדים
- אחסון
- חנות
- מאוחסן
- מובנה
- להגיש
- בהצלחה
- כזה
- מערכת
- נתמך
- משטח
- לקחת
- טכנולוגיות
- מבחן
- בדיקות
- מֵאֲשֶׁר
- זֶה
- השמיים
- שֶׁלָהֶם
- אותם
- אז
- אלה
- זֶה
- ל
- לנסות
- סוגים
- עדכון
- כתובת האתר
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- ידידותי למשתמש
- שימושים
- באמצעות
- ערכים
- מגוון
- מאוד
- באמצעות
- רוצה
- we
- אינטרנט
- שירותי אינטרנט
- אתר
- אתרים
- מתי
- אם
- אשר
- בזמן
- יצטרך
- עם
- עבד
- שנים
- אתה
- זפירנט