آمازون کندرا یک سرویس جستجوی هوشمند بسیار دقیق و ساده با استفاده از یادگیری ماشین (ML) است. آمازون کندرا مجموعه ای از اتصال دهنده های منبع داده را ارائه می دهد تا فرآیند دریافت و نمایه سازی محتوای شما را در هر کجا که باشد، ساده می کند.
داده های ارزشمند در سازمان ها هم در مخازن ساختاریافته و هم در مخازن بدون ساختار ذخیره می شوند. یک راه حل جستجوی سازمانی باید بتواند تجربه ای کاملاً مدیریت شده را برای شما فراهم کند و فرآیند نمایه سازی محتوای شما را از منابع مختلف داده در سازمان ساده کند.
یکی از این مخازن داده های بدون ساختار وب سایت های داخلی و خارجی هستند. ممکن است برای ایجاد فیدهای خبری، تجزیه و تحلیل استفاده از زبان یا ایجاد رباتها برای پاسخ به سؤالات بر اساس دادههای وبسایت، سایتها نیاز به خزیدن داشته باشند.
ما مشتاقیم اعلام کنیم که اکنون می توانید از خزنده وب جدید Amazon Kendra برای جستجوی پاسخ از محتوای ذخیره شده در وب سایت های داخلی و خارجی یا ایجاد ربات های گفتگو استفاده کنید. در این پست نحوه نمایه سازی اطلاعات ذخیره شده در وب سایت ها و استفاده از جستجوی هوشمند در آمازون کندرا برای جستجوی پاسخ از محتوای ذخیره شده در وب سایت های داخلی و خارجی را نشان می دهیم. علاوه بر این، جستجوی هوشمند مبتنی بر ML میتواند بهطور دقیق پاسخ سؤالات شما را از اسناد بدون ساختار با محتوای روایی زبان طبیعی دریافت کند، که جستجوی کلیدواژه برای آنها چندان مؤثر نیست.
Web Crawler ویژگی های جدید زیر را ارائه می دهد:
- پشتیبانی از احراز هویت پایه، NTLM/Kerberos، فرم و SAML
- امکان تعیین 100 نشانی وب اولیه و ذخیره پیکربندی اتصال در سرویس ذخیره سازی ساده آمازون (آمازون S3)
- پشتیبانی از پروکسی وب و اینترنت با قابلیت ارائه اعتبار پروکسی
- پشتیبانی از خزیدن محتوای پویا، مانند یک وب سایت حاوی جاوا اسکریپت
- ویژگی های نقشه برداری میدانی و فیلتر regex
بررسی اجمالی راه حل
با آمازون کندرا، می توانید چندین منبع داده را پیکربندی کنید تا مکانی مرکزی برای جستجو در مخزن اسناد خود ایجاد کنید. برای راه حل خود، نشان می دهیم که چگونه یک وب سایت خزیده شده را با استفاده از خزنده وب آمازون Kendra نمایه کنیم. راه حل شامل مراحل زیر است:
- مکانیزم احراز هویت را برای وب سایت (در صورت نیاز) انتخاب کنید و جزئیات را در آن ذخیره کنید مدیر اسرار AWS.
- یک نمایه آمازون کندرا ایجاد کنید.
- یک منبع داده وب خزنده V2 از طریق کنسول آمازون کندرا ایجاد کنید.
- یک پرس و جو نمونه را برای آزمایش راه حل اجرا کنید.
پیش نیازها
برای امتحان کردن خزنده وب Amazon Kendra به موارد زیر نیاز دارید:
جزئیات احراز هویت را جمع آوری کنید
برای وب سایت های محافظت شده و ایمن، انواع و استانداردهای احراز هویت زیر پشتیبانی می شوند:
- اساسی
- NTLM/Kerberos
- احراز هویت فرم
- SAML
هنگام تنظیم منبع داده، به اطلاعات احراز هویت نیاز دارید.
برای احراز هویت اولیه یا NTLM، باید راز، نام کاربری و رمز عبور Secrets Manager خود را ارائه دهید.
همانطور که در تصویر زیر نشان داده شده است، احراز هویت فرم و SAML به اطلاعات بیشتری نیاز دارد. برخی از زمینه ها مانند کاربر دکمه نام Xpath اختیاری هستند و بستگی به این دارد که سایتی که در حال خزیدن آن هستید پس از وارد کردن نام کاربری از دکمه استفاده می کند یا خیر. همچنین توجه داشته باشید که باید بدانید که چگونه Xpath فیلد نام کاربری و رمز عبور و دکمه های ارسال را تعیین کنید.
یک نمایه آمازون کندرا ایجاد کنید
برای ایجاد نمایه آمازون کندرا، مراحل زیر را انجام دهید:
- در کنسول آمازون کندرا، انتخاب کنید یک شاخص ایجاد کنید.
- برای نام فهرست، یک نام برای ایندکس وارد کنید (به عنوان مثال Web Crawler).
- توضیحات اختیاری را وارد کنید
- برای نام نقش، یک نام نقش IAM را وارد کنید.
- تنظیمات و برچسب های رمزگذاری اختیاری را پیکربندی کنید.
- را انتخاب کنید بعدی.
- در پیکربندی کنترل دسترسی کاربر بخش، تنظیمات را در حالت پیش فرض خود بگذارید و انتخاب کنید بعدی.
- برای تهیه نسخه ها، انتخاب کنید نسخه توسعه دهنده و انتخاب کنید بعدی.
- در صفحه بررسی، انتخاب کنید ساختن.
این باعث ایجاد و انتشار نقش IAM و سپس ایجاد نمایه آمازون کندرا می شود که می تواند تا 30 دقیقه طول بکشد.
یک منبع داده Amazon Kendra Web Crawler ایجاد کنید
مراحل زیر را برای ایجاد منبع داده خود کامل کنید:
- در کنسول آمازون کندرا، انتخاب کنید منابع داده در صفحه ناوبری
- تعیین محل رابط WebCrawler V2.0 کاشی و انتخاب کنید افزودن کانکتور.
- برای نام منبع داده، یک نام وارد کنید (به عنوان مثال، crawl-fda).
- توضیحات اختیاری را وارد کنید
- را انتخاب کنید بعدی.
- در منبع بخش، انتخاب کنید URL منبع و یک URL وارد کنید. برای این پست استفاده می کنیم https://www.fda.gov/ به عنوان نمونه URL منبع.
- در تصدیق بخش، احراز هویت مناسب را بر اساس سایتی که میخواهید خزیده کنید، انتخاب کنید. برای این پست، ما انتخاب می کنیم بدون احراز هویت زیرا یک سایت عمومی است و نیازی به احراز هویت ندارد.
- در پروکسی وب بخش، می توانید یک راز Secrets Manager (در صورت نیاز) را مشخص کنید.
- را انتخاب کنید راز جدید ایجاد و اضافه کنید.
- جزئیات احراز هویت را که قبلاً جمع آوری کرده اید وارد کنید.
- را انتخاب کنید ذخیره.
- در نقش IAM بخش، را انتخاب کنید یک نقش جدید ایجاد کنید و یک نام وارد کنید (مثلا
AmazonKendra-Web Crawler-datasource-role
). - را انتخاب کنید بعدی.
- در همگام سازی محدوده بخش، تنظیمات همگام سازی خود را بر اساس سایتی که در حال خزیدن هستید پیکربندی کنید. برای این پست تمام تنظیمات پیش فرض را گذاشته ایم.
- برای حالت همگام سازی، نحوه به روز رسانی نمایه خود را انتخاب کنید. برای این پست، ما انتخاب می کنیم همگام سازی کامل.
- برای همگام سازی برنامه اجرا، انتخاب کنید اجرا بر اساس تقاضا.
- را انتخاب کنید بعدی.
- به صورت اختیاری، میتوانید نقشههای میدانی را تنظیم کنید. برای این پست، فعلاً پیش فرض ها را حفظ می کنیم.
نگاشت فیلدها تمرین مفیدی است که در آن می توانید نام فیلدها را با مقادیری جایگزین کنید که کاربر پسند هستند و در واژگان سازمان شما مناسب هستند.
- را انتخاب کنید بعدی.
- را انتخاب کنید منبع داده را اضافه کنید.
- برای همگام سازی منبع داده، را انتخاب کنید اکنون همگام سازی کنید در صفحه جزئیات منبع داده
- صبر کنید تا همگام سازی کامل شود.
نمونه ای از یک وب سایت تایید شده
اگر می خواهید سایتی را که دارای احراز هویت است بخزید، در تصدیق بخش در مراحل قبل، باید جزئیات احراز هویت را مشخص کنید. در صورت انتخاب مثال زیر مثالی است احراز هویت فرم.
- در منبع بخش، انتخاب کنید URL منبع و یک URL وارد کنید. برای این مثال استفاده می کنیم https://accounts.autodesk.com.
- در تصدیق بخش، انتخاب کنید احراز هویت فرم.
- در پروکسی وب بخش، راز Secrets Manager خود را مشخص کنید. این برای هر گزینه ای غیر از بدون احراز هویت.
- را انتخاب کنید راز جدید ایجاد و اضافه کنید.
- جزئیات احراز هویت را که قبلاً جمع آوری کرده اید وارد کنید.
- را انتخاب کنید ذخیره.
محلول را تست کنید
اکنون که محتوای سایت را در فهرست آمازون کندرا وارد کرده اید، می توانید برخی از پرس و جوها را آزمایش کنید.
- به فهرست خود بروید و انتخاب کنید محتوای نمایه شده را جستجو کنید.
- یک جستجوی نمونه را وارد کنید و نتایج جستجوی خود را آزمایش کنید (پرسمان شما بر اساس محتویات سایتی که خزیده اید و پرس و جوی وارد شده متفاوت خواهد بود).
تبریک می گویم! شما با موفقیت آمازون کندرا برای ارائه پاسخ ها و بینش ها بر اساس محتوای فهرست شده از سایتی که خزیده اید، استفاده کرده اید.
پاک کردن
برای جلوگیری از متحمل شدن هزینه های آینده، منابعی را که به عنوان بخشی از این راه حل ایجاد کرده اید، پاکسازی کنید. اگر در حین آزمایش این راه حل یک نمایه جدید آمازون کندرا ایجاد کردید، آن را حذف کنید. اگر فقط یک منبع داده جدید با استفاده از Amazon Kendra Web Crawler V2 اضافه کرده اید، آن منبع داده را حذف کنید.
نتیجه
با نرم افزار جدید Amazon Kendra Web Crawler V2، سازمان ها می توانند هر وب سایتی را که عمومی یا پشت احراز هویت است را بررسی کنند و از آن برای جستجوی هوشمند که توسط Amazon Kendra پشتیبانی می شود استفاده کنند.
برای آشنایی با این احتمالات و موارد دیگر به ادامه مطلب مراجعه کنید راهنمای توسعه دهنده آمازون کندرا. برای اطلاعات بیشتر در مورد نحوه ایجاد، تغییر یا حذف فراداده و محتوا هنگام دریافت دادههای خود، به غنی سازی اسناد خود در حین مصرف و محتوا و ابرداده خود را غنی کنید تا تجربه جستجوی خود را با غنی سازی اسناد سفارشی در آمازون کندرا افزایش دهید.
درباره نویسنده
جیتن ددیا Sr. Solutions Architect با بیش از 20 سال تجربه در صنعت نرم افزار است. او با مشتریان خدمات مالی جهانی کار کرده است و با استفاده از خدمات ارائه شده توسط AWS به آنها مشاوره در مورد نوسازی ارائه کرده است.
گونوانت والبه مهندس توسعه نرم افزار در خدمات وب آمازون است. او یک یادگیرنده مشتاق و مشتاق به پذیرش فناوری های جدید است. او برنامه های تجاری پیچیده ای را توسعه می دهد و جاوا زبان اصلی انتخابی اوست.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/index-your-web-crawled-content-using-the-new-web-crawler-for-amazon-kendra/
- : دارد
- :است
- :نه
- :جایی که
- $UP
- 100
- 16
- 20
- سال 20
- 30
- 7
- a
- توانایی
- قادر
- درباره ما
- دسترسی
- دقیق
- به درستی
- در میان
- اضافه کردن
- اضافه
- اضافه
- اضافی
- اطلاعات اضافی
- اتخاذ
- نصیحت
- پس از
- معرفی
- همچنین
- آمازون
- آمازون کندرا
- آمازون خدمات وب
- an
- تحلیل
- و
- اعلام
- پاسخ
- پاسخ
- هر
- برنامه های کاربردی
- مناسب
- هستند
- AS
- At
- اتهام
- تأیید اعتبار
- تصدیق
- دریافت رمز عبور
- اجتناب از
- AWS
- مستقر
- اساسی
- BE
- زیرا
- پشت سر
- هر دو
- رباتها
- کسب و کار
- برنامه های تجاری
- دکمه
- by
- CAN
- مرکزی
- chatbots
- انتخاب
- را انتخاب کنید
- را انتخاب
- مشتریان
- COM
- کامل
- پیچیده
- پیکر بندی
- ارتباط
- تشکیل شده است
- کنسول
- محتوا
- محتویات
- کنترل
- هزینه
- خزنده
- ایجاد
- ایجاد شده
- ایجاد
- سفارشی
- داده ها
- به طور پیش فرض
- پیش فرض
- نشان دادن
- شرح
- جزئیات
- مشخص کردن
- توسعه دهنده
- پروژه
- توسعه
- سند
- اسناد و مدارک
- نمی کند
- در طی
- پویا
- چاپ
- موثر
- رمزگذاری
- مهندس
- بالا بردن
- وارد
- وارد
- وارد شدن
- سرمایه گذاری
- مثال
- برانگیخته
- ورزش
- تجربه
- خارجی
- FDA
- امکانات
- رشته
- زمینه
- فیلتر
- مالی
- خدمات مالی
- مناسب
- پیروی
- برای
- فرم
- از جانب
- کاملا
- آینده
- جمع آوری
- دریافت کنید
- جهانی
- مالی جهانی
- آیا
- he
- خیلی
- خود را
- چگونه
- چگونه
- HTML
- HTTP
- HTTPS
- if
- in
- شاخص
- نمایه شده
- صنعت
- اطلاعات
- بینش
- هوشمند
- داخلی
- اینترنت
- به
- IT
- جاوه
- JPG
- مشتاق
- نگاه داشتن
- دانستن
- زبان
- یاد گرفتن
- یادگیری
- ترک کردن
- پسندیدن
- دستگاه
- فراگیری ماشین
- اداره می شود
- مدیر
- نقشه برداری
- ممکن است..
- مکانیزم
- متاداده
- دقیقه
- ML
- مدرنیزه کردن
- تغییر
- بیش
- چندگانه
- نام
- نام
- روایت
- طبیعی
- جهت یابی
- نیاز
- جدید
- ویژگی های جدید
- فناوری های نوین
- اخبار
- اکنون
- of
- پیشنهادات
- on
- فقط
- گزینه
- or
- سازمان های
- دیگر
- ما
- خارج
- روی
- با ما
- قطعه
- بخش
- کلمه عبور
- محل
- افلاطون
- هوش داده افلاطون
- PlatoData
- فرصت
- پست
- صفحه اصلی
- قبلی
- قبلا
- اصلی
- روند
- محفوظ
- ارائه
- ارائه
- ارائه
- پروکسی
- عمومی
- نمایش ها
- سوالات
- مراجعه
- regex
- مخزن
- نیاز
- ضروری
- منابع
- نتایج
- این فایل نقد می نویسید:
- نقش
- دویدن
- جستجو
- راز
- اسرار
- بخش
- امن
- تیم امنیت لاتاری
- دانه
- انتخاب شد
- سرویس
- خدمات
- تنظیم
- محیط
- تنظیمات
- باید
- نشان
- نشان داده شده
- ساده
- ساده کردن
- سایت
- سایت
- نرم افزار
- توسعه نرم افزار
- راه حل
- مزایا
- برخی از
- منبع
- منابع
- استانداردهای
- شروع
- مراحل
- ذخیره سازی
- opbevare
- ذخیره شده
- ساخت یافته
- ارسال
- موفقیت
- چنین
- دنباله
- پشتیبانی
- سطح
- گرفتن
- فن آوری
- آزمون
- تست
- نسبت به
- که
- La
- شان
- آنها
- سپس
- اینها
- این
- به
- امتحان
- انواع
- بروزرسانی
- URL
- استفاده کنید
- استفاده
- کاربر
- کاربر پسند
- استفاده
- با استفاده از
- ارزشها
- تنوع
- بسیار
- از طريق
- می خواهم
- we
- وب
- خدمات وب
- سایت اینترنتی
- وب سایت
- چه زمانی
- چه
- که
- در حین
- اراده
- با
- مشغول به کار
- سال
- شما
- شما
- زفیرنت