Точний пошук відповідей за допомогою Amazon Kendra S3 Connector із підтримкою VPC

Перевидано Платоном

читають: 0

Амазонка Кендра це простий у використанні інтелектуальний пошуковий сервіс, який дозволяє інтегрувати можливості пошуку з вашими програмами, щоб користувачі могли знаходити інформацію, що зберігається в таких джерелах даних, як Служба простого зберігання Amazon , OneDrive та Google Drive; такі програми, як SalesForce, SharePoint і Service Now; і реляційні бази даних, як Служба реляційних баз даних Amazon (RDS Amazon). Використання конекторів Amazon Kendra дає змогу синхронізувати дані з кількох сховищ вмісту з індексом Amazon Kendra. Коли кінцеві користувачі ставлять запитання природною мовою, Amazon Kendra використовує алгоритми машинного навчання (ML), щоб зрозуміти контекст і отримати найбільш відповідні відповіді.

Коннектор S3 від Amazon Kendra підтримує індексування документів і пов’язаних із ними метаданих, що зберігаються у сегменті S3. Часто буває так, що ви хочете переконатися, що програми, які працюють усередині VPC, мають доступ лише до певних сегментів S3, і в багатьох випадках з’єднання не повинно проходити через Інтернет, щоб досягти публічних кінцевих точок. Однак багато клієнтів володіють кількома відрами S3, деякі з яких доступні Кінцеві точки VPC для Amazon S3. У цій публікації ми описуємо, як використовувати оновлений конектор Amazon Kendra S3 із підтримкою VPC для використання кінцевих точок VPC.

У цьому дописі наведено кроки, які допоможуть вам створити корпоративну пошукову систему на AWS за допомогою Amazon Kendra, підключивши документи, що зберігаються у сегменті S3, доступний лише з VPC. Для отримання додаткової інформації див покращення корпоративного пошуку за допомогою Amazon Kendra. У публікації також показано, як налаштувати ваш конектор для Amazon S3 і налаштувати, як ваш індекс синхронізується з джерелом даних, коли вміст джерела даних змінюється.

Огляд рішення

Існує три основні вдосконалення Роз'єм Amazon Kendra S3 :

Підтримка VPC – Роз’єм тепер підтримує використання вашого Віртуальна приватна хмара Amazon (Amazon VPC). Тепер ви можете безпечно підключитися до Amazon S3 за допомогою Кінцеві точки VPC для Amazon S3 вказавши підключення VPC, підмережу та групи безпеки.
Два режими синхронізації – Коли ви плануєте синхронізацію джерела даних в Amazon S3 з індексом Amazon Kendra, тепер ви можете вибрати режим повної синхронізації або режим синхронізації нових, змінених і видалених документів. У режимі повної синхронізації щоразу, коли запускається синхронізація, він сканує об’єкти в кожній папці в кореневому шляху, який було налаштовано для сканування, і повторно завантажує всі документи. Повне оновлення дає змогу скинути індекс без необхідності видалення та створення нового джерела даних. У режимі синхронізації нових, змінених і видалених документів щоразу, коли виконується завдання синхронізації, воно обробляє лише ті об’єкти, які було додано, змінено або видалено після останнього сканування. Поступове сканування може скоротити час виконання та витрати, якщо використовувати його з наборами даних, які регулярно додають нові об’єкти до існуючих джерел даних.
Додаткові шаблони включення та виключення для документів: на додаток до префіксів, ми представляємо шаблони для включення або виключення документів з вашого індексу. Підтримуються два типи шаблонів: глобус у стилі Unix або типи файлів. Тепер ви можете додати шаблон регулярного виразу, щоб включити певні папки або виключити папки, типи файлів або певні файли з джерела даних. Це може бути корисним для спільних сховищ даних, які містять вміст, що належить до різних категорій, класифікацій і типів файлів.

Передумови

Для цього покрокового керівництва ви повинні мати такі передумови:

Створіть і налаштуйте своє сховище документів

Перш ніж створити індекс у Amazon Kendra, потрібно завантажити документи у відро S3. У цьому розділі містяться інструкції зі створення сегмента S3, отримання файлів і завантаження їх у корзину. Після виконання всіх кроків у цьому розділі у вас є джерело даних, яке може використовувати Amazon Kendra.

на Консоль управління AWS, у списку «Регіон» виберіть Схід США (Північна Вірджинія) або будь-який регіон на ваш вибір Amazon Kendra доступний у.
Вибирати Послуги.
під зберіганнявиберіть S3.
На консолі Amazon S3 виберіть Створити відро.
під Загальна конфігурація, Надайте наступну інформацію:
- Для назви відра, вводити kendrapost-{your account id}.
- Для регіону виберіть той самий регіон, який ви використовуєте для розгортання індексу Amazon Kendra (у цій публікації використовується us-east-1).
- під налаштування ковша, та цінності Заблокувати публічний доступ, залиште все зі значеннями за замовчуванням.
під додаткові настройки, залиште все зі значеннями за замовчуванням.
Вибирати Створити відро.
Завантажити AWS_Whitepapers.zip і розпакуйте файли.
На консолі Amazon S3 виберіть сегмент, який ви щойно створили, і виберіть Завантажувати.
Завантажте папки Best Practices, Databases, General та Machine Learning з розпакованого файлу.

Тепер у вашому відрі ви повинні побачити чотири папки.

Додайте джерело даних

A джерело даних це місце, де зберігаються документи для індексації. Ви можете автоматично синхронізувати джерела даних з індексом Amazon Kendra, щоб переконатися, що пошуки правильно відображають нові, оновлені або видалені документи у вихідних сховищах.

Після виконання всіх кроків у цьому розділі ви матимете джерело даних, пов’язане з Amazon Kendra. Для отримання додаткової інформації див Додавання документів із джерела даних.

Перш ніж продовжити, переконайтеся, що створення індексу завершено та індекс відображається як Active. Для отримання додаткової інформації див Створення індексу.

На консолі Amazon Kendra перейдіть до свого покажчика (для цієї публікації kendra-blog-index).
на kendra-blog-index сторінку, виберіть Додайте джерела даних.
У Amazon S3 виберіть Додати роз'єм.

Додаткову інформацію про різні джерела даних, які підтримує Amazon Kendra, див Додавання документів із джерела даних.

У Вкажіть деталі джерела даних розділ, для Назва джерела даних, введіть aws_white_paper.
для Опис, введіть AWS White Paper documentation.
Вибирати МАЙБУТНІ.

Тепер ви створюєте Управління ідентифікацією та доступом AWS (IAM) для Amazon Kendra.

У Визначте доступ і безпеку сторінка, для Роль IAM розділ, вибрати Створіть нову роль.
Для назви ролі введіть source-role (назва вашої ролі містить префікс AmazonKendra-).
У Налаштуйте VPC і безпеку розділ, виберіть свій VPC, і введіть свій Підмережі та групи безпеки VPC.

Додаткову інформацію про підключення Amazon Kendra до віртуальної приватної хмари Amazon див Налаштування Amazon Kendra для використання VPC.

Вибирати МАЙБУТНІ.
У Налаштувати параметри синхронізації сторінка, для Введіть місце розташування джерела даних, введіть створений сегмент S3: kendrapost-{your account id}.
Залишати Розташування папки префікса файлів метаданих порожній.

За замовчуванням файли метаданих зберігаються в тому ж каталозі, що й документи. Якщо ви хочете помістити ці файли в іншу папку, ви можете додати префікс. Додаткову інформацію див Метадані документа Amazon S3.

для Виберіть ключ дешифрування, залиште його скасованим.
для Додаткова конфігурація, ви можете додати шаблон для включення або виключення певних папок або файлів. Для цієї публікації збережіть значення за замовчуванням.
для Режим синхронізації вибирати Синхронізація нових, змінених або видалених документів.
для частотавиберіть Запуск на вимогу.

Цей крок визначає частоту, з якою джерело даних синхронізується з індексом Amazon Kendra.

Вибирати МАЙБУТНІ.
У Встановити відображення полів сторінки, збережіть значення за замовчуванням.
Вибирати МАЙБУТНІ.
на Перегляньте та створіть сторінку, виберіть Додати джерело даних.
Поверніться до свого індексу Kendra.
Виберіть свій Джерело даних, Потім виберіть Синхронізуйте зараз щоб синхронізувати документи з індексом Amazon Kendra.

Тривалість цього процесу залежить від кількості документів, які ви індексуєте. Для цього випадку використання може тривати 15 хвилин, після чого ви побачите повідомлення про успішну синхронізацію. У розділі «Історія виконання синхронізації» можна побачити, що було синхронізовано 40 документів.

Тепер ваш індекс Amazon Kendra готовий для запитів природною мовою. Під час пошуку в індексі Amazon Kendra використовує всі надані дані та метадані, щоб отримати найточніші відповіді на ваш пошуковий запит. На консолі Amazon Kendra виберіть Пошук індексованого вмісту. У полі запиту почніть із такого запиту, як «Який сервіс AWS має 11 дев’яток надійності?»

Щоб отримати додаткові відомості про запит до індексу, див Запит індексу

Синхронізуйте зміни джерела даних для пошуку в індексі

Ваше джерело даних налаштовано на синхронізацію будь-яких нових, змінених або видалених даних. Перш ніж ви зможете поступово синхронізувати своє джерело даних з індексом в Amazon Kendra, вам потрібно завантажити нові документи в сегмент S3.

На консолі Amazon S3 виберіть сегмент, який ви щойно створили, і виберіть Завантажувати.
Завантажте папки Security та Well_Architected з розпакованого файлу.

Тепер ви можете синхронізувати нові документи, додані до сегмента S3:

На консолі Amazon Kendra виберіть Джерела даних а потім виберіть джерело даних S3.
Вибирати Синхронізувати зараз.

Тривалість цього процесу залежить від кількості документів, які ви індексуєте. Для цього випадку використання може зайняти 15 хвилин, після чого ви побачите повідомлення про те, що синхронізація пройшла успішно.

У Синхронізація історії виконання Ви можете побачити, що було синхронізовано 20 документів.

Переіндексуйте джерело даних

У випадку, коли джерело даних містить застарілу інформацію, тепер ви можете повторно індексувати джерело даних без видалення та створення нового джерела даних. Щоб змінити режим синхронізації та повторно індексувати джерело даних, виконайте такі дії:

На консолі Amazon Kendra виберіть Джерела даних а потім виберіть джерело даних S3.
на Дії меню, виберіть Змінити.
Вибирати МАЙБУТНІ перейти до Крок 3. Налаштуйте сторінку параметрів синхронізації.
Для режиму синхронізації виберіть Повна синхронізація.
для частотавиберіть Запуск на вимогу.
Вибирати МАЙБУТНІ.
У Встановити відображення полів сторінки, збережіть значення за замовчуванням.
Вибирати МАЙБУТНІ.
на Перегляньте та створіть сторінку, виберіть Оновити.

Тепер ви можете синхронізувати нові документи, додані до сегмента S3.

На консолі Amazon Kendra виберіть Джерела даних а потім виберіть джерело даних S3.
Вибирати Синхронізувати зараз.

У Синхронізація історії виконання ви можете побачити, що всі документи були синхронізовані незалежно від попереднього статусу синхронізації під зміненим стовпцем.

Прибирати

Щоб уникнути майбутніх витрат і видалити невикористані ролі та політики, видаліть створені вами ресурси:

Виберіть в індексі Amazon Kendra Індекси у навігаційній панелі.
Виберіть створений індекс і на Дії меню, виберіть видаляти.
Щоб підтвердити видалення, введіть Delete, коли буде запропоновано, і виберіть видаляти.

Зачекайте, поки не отримаєте повідомлення з підтвердженням; процес може тривати до 15 хвилин.

На консолі Amazon S3 видалити відро S3.
На консолі IAM, видалити відповідні ролі IAM.

Висновок

У цій публікації ви дізналися, як використовувати Amazon Kendra для розгортання служби пошуку підприємства за допомогою безпечного з’єднання з Amazon S3, яке не потребує інтернет-шлюзу чи пристрою трансляції мережевих адрес (NAT). Ви можете ввімкнути швидшу синхронізацію для своїх документів за допомогою режиму синхронізації.

Є багато додаткових функцій, які ми не розглянули. Наприклад:

Ви можете ввімкнути керування доступом на основі користувача для свого індексу Amazon Kendra та обмежити доступ до документів на основі елементів керування доступом, які ви вже налаштували.
Ви можете зіставити атрибути об’єкта з атрибутами індексу Amazon Kendra і ввімкнути їх для фасетування, пошуку та відображення в результатах пошуку.
Ви можете швидко знайти інформацію на веб-сторінках (HTML-таблиці) за допомогою табличного пошуку Amazon Kendra

Щоб дізнатися більше про Amazon Kendra, див Посібник розробника Amazon Kendra.

Про авторів

Маран Чандрасекаран є старшим архітектором рішень у Amazon Web Services, який працює з нашими корпоративними клієнтами. Поза роботою любить подорожувати.

Арджун Агравал є інженером-програмістом в AWS, зараз працює з командою Amazon Kendra над корпоративною пошуковою системою. Він захоплений новими технологіями та вирішенням реальних проблем. Поза роботою любить піші прогулянки та подорожі.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/

Часова мітка: Березня 2, 2023

Часова мітка: Вересень 14, 2023

Точний пошук відповідей за допомогою Amazon Kendra S3 Connector із підтримкою VPC

Перевидано Платоном

Огляд рішення

Передумови

Створіть і налаштуйте своє сховище документів

Додайте джерело даних

Синхронізуйте зміни джерела даних для пошуку в індексі

Переіндексуйте джерело даних

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

Перекладайте документи в реальному часі за допомогою Amazon Translate | Веб-сервіси Amazon

Представляємо налаштування популярності для Similar-Items в Amazon Personalize | Веб-сервіси Amazon

Упорядкуйте свої стенограми в абзаци за допомогою Amazon Transcribe | Веб-сервіси Amazon

Розподілене навчання за допомогою Amazon EKS і Torch Distributed Elastic

Налаштуйте проект узагальнення тексту з Hugging Face Transformers: Частина 2

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки