Амазон Кендра — это простая в использовании интеллектуальная служба поиска, которая позволяет интегрировать возможности поиска с вашими приложениями, чтобы пользователи могли находить информацию, хранящуюся в таких источниках данных, как Простой сервис хранения Amazon , OneDrive и Google Диск; такие приложения, как SalesForce, SharePoint и Service Now; и реляционные базы данных, такие как Сервис реляционной базы данных Amazon (Амазон РДС). Использование коннекторов Amazon Kendra позволяет синхронизировать данные из нескольких репозиториев контента с вашим индексом Amazon Kendra. Когда конечные пользователи задают вопросы на естественном языке, Amazon Kendra использует алгоритмы машинного обучения (ML), чтобы понимать контекст и возвращать наиболее релевантные ответы.
Коннектор Amazon Kendra S3 поддерживает индексирование документов и связанных с ними метаданных, хранящихся в корзине S3. Часто бывает так, что вы хотите убедиться, что приложения, работающие внутри VPC, имеют доступ только к определенным корзинам S3, и во многих случаях соединение не должно проходить через Интернет для достижения общедоступных конечных точек. Однако многие клиенты владеют несколькими корзинами S3, некоторые из которых доступны через Конечные точки VPC для Amazon S3. В этом посте мы расскажем, как использовать обновленный коннектор Amazon Kendra S3 с поддержкой VPC для использования конечных точек VPC.
В этом посте представлены шаги, которые помогут вам создать корпоративную поисковую систему на AWS с помощью Amazon Kendra путем подключения документов, хранящихся в корзине S3, доступной только из VPC. Для получения дополнительной информации см. расширение корпоративного поиска с помощью Amazon Kendra. В публикации также показано, как настроить коннектор для Amazon S3 и настроить синхронизацию индекса с источником данных при изменении содержимого источника данных.
Обзор решения
Есть три основных улучшения в Соединитель Amazon Kendra S3 :
- Поддержка VPC - Коннектор теперь поддерживает использование вашего Виртуальное частное облако Amazon (Amazon VPC). Теперь вы можете безопасно подключаться к Amazon S3, используя Конечные точки VPC для Amazon S3 указав подключение VPC, подсеть и группы безопасности.
- Два режима синхронизации – При планировании синхронизации источника данных в Amazon S3 с индексом Amazon Kendra теперь можно выбрать режим полной синхронизации или режим синхронизации новых, измененных и удаленных документов. В режиме полной синхронизации каждый раз, когда запускается синхронизация, она сканирует объекты в каждой папке по корневому пути, который был настроен для обхода, и повторно загружает все документы. Полное обновление позволяет сбросить индекс без необходимости удалять и создавать новый источник данных. В режиме синхронизации новых, измененных и удаленных документов при каждом запуске задания синхронизации обрабатываются только те объекты, которые были добавлены, изменены или удалены с момента последнего обхода. Добавочные обходы могут сократить время выполнения и затраты при использовании с наборами данных, которые регулярно добавляют новые объекты к существующим источникам данных.
- Дополнительные шаблоны включения и исключения для документов: в дополнение к префиксам мы вводим шаблоны для включения или исключения документов из вашего индекса. Два поддерживаемых типа шаблонов — это glob или типы файлов в стиле Unix. Теперь вы можете добавить шаблон регулярного выражения, чтобы включить определенные папки или исключить папки, типы файлов или определенные файлы из вашего источника данных. Это может быть полезно для общих репозиториев данных, содержащих контент, принадлежащий к разным категориям, классификации и типам файлов.
Предпосылки
Для этого прохождения у вас должны быть следующие предпосылки:
Создайте и настройте хранилище документов
Прежде чем вы сможете создать индекс в Amazon Kendra, вам необходимо загрузить документы в корзину S3. Этот раздел содержит инструкции для создания корзины S3, получения файлов и загрузки их в корзину. После выполнения всех шагов в этом разделе у вас есть источник данных, который может использовать Amazon Kendra.
- На Консоль управления AWS, в списке Регион выберите Восток США (Северная Вирджиния) или любой регион по вашему выбору, который Amazon Kendra доступен в.
- Выберите Услуги.
- Под Хранилище, выберите S3.
- На консоли Amazon S3 выберите Создать ведро.
- Под Общая конфигурация, Предоставьте следующую информацию:
- Для имени корзины, вводить
kendrapost-{your account id}.
- В качестве региона выберите тот же регион, который вы используете для развертывания индекса Amazon Kendra (в этом посте используется
us-east-1
). - Под Настройки ковша, для Заблокировать общий доступ, оставьте все со значениями по умолчанию.
- Для имени корзины, вводить
- Под Дополнительные параметры, оставьте все со значениями по умолчанию.
- Выберите Создать ведро.
- Скачать AWS_Whitepapers.zip и разархивируйте файлы.
- На консоли Amazon S3 выберите только что созданную корзину и выберите Загрузите.
- Загрузите папки
Best Practices
,Databases
,General
иMachine Learning
из разархивированного файла.
Теперь внутри вашего ведра вы должны увидеть четыре папки.
Добавить источник данных
A источник данных это место, где хранятся документы для индексации. Вы можете автоматически синхронизировать источники данных с индексом Amazon Kendra, чтобы в результатах поиска правильно отображались новые, обновленные или удаленные документы в исходных репозиториях.
После выполнения всех шагов в этом разделе у вас будет источник данных, связанный с Amazon Kendra. Для получения дополнительной информации см. Добавление документов из источника данных.
Прежде чем продолжить, убедитесь, что создание индекса завершено и индекс отображается как Активные, Для получения дополнительной информации см. Создание индекса.
- В консоли Amazon Kendra перейдите к своему индексу (для этого поста
kendra-blog-index
). - На
kendra-blog-index
выберите страницу Добавить источники данных. - Под Amazon S3 выберите Добавить разъем.
Для получения дополнительной информации о различных источниках данных, которые поддерживает Amazon Kendra, см. Добавление документов из источника данных.
- В Укажите сведения об источнике данных раздел, для Имя источника данных, войти
aws_white_paper
. - Что касается Описание, войти
AWS White Paper documentation
. - Выберите Следующая.
Теперь вы создаете Управление идентификацией и доступом AWS (IAM) для Amazon Kendra.
- В Определение доступа и безопасности страница, для Роль IAM раздел, выбрать Создать новую роль.
- В качестве имени роли введите
source-role
(название вашей роли начинается с префиксаAmazonKendra-
). - В Настройте VPC и безопасность раздел, выбери свой ВКК, и введите свой Подсети и группы безопасности VPC.
Дополнительные сведения о подключении Amazon Kendra к виртуальному частному облаку Amazon см. Настройка Amazon Kendra для использования VPC.
- Выберите Следующая.
- В Настройте параметры синхронизации страница, для Введите местоположение источника данныхвведите S3 bucket, который вы создали:
kendrapost-{your account id}
. - Оставлять Расположение папки префикса файлов метаданных пустой.
По умолчанию файлы метаданных хранятся в том же каталоге, что и документы. Если вы хотите поместить эти файлы в другую папку, вы можете добавить префикс. Для получения дополнительной информации см. Метаданные документа Amazon S3.
- Что касается Выберите ключ дешифрования, оставьте это невыбранным.
- Что касается Дополнительная конфигурацияВы можете добавить шаблон для включения или исключения определенных папок или файлов. Для этого поста сохраните значения по умолчанию.
- Что касается Режим синхронизации укажите Синхронизация новых, измененных или удаленных документов.
- Что касается частота, выберите Запуск по требованию.
На этом этапе определяется частота, с которой источник данных синхронизируется с индексом Amazon Kendra.
- Выберите Следующая.
- В Установить сопоставления полей страницу, оставьте значения по умолчанию.
- Выберите Следующая.
- На Просмотрите и создайте выберите страницу Добавить источник данных.
- Вернитесь к своему индексу Kendra.
- Выберите Источник данных, а затем выберите Синхронизировать сейчас синхронизировать документы с индексом Amazon Kendra.
Продолжительность этого процесса зависит от количества индексируемых документов. Для этого варианта использования это может занять 15 минут, после чего вы должны увидеть сообщение об успешной синхронизации. В разделе Sync run history вы можете увидеть, что было синхронизировано 40 документов.
Теперь ваш индекс Amazon Kendra готов к запросам на естественном языке. При поиске в индексе Amazon Kendra использует все предоставленные данные и метаданные, чтобы предоставить наиболее точные ответы на ваш поисковый запрос. На консоли Amazon Kendra выберите Поиск по проиндексированному контенту. В поле запроса начните с запроса, например «Какой сервис AWS имеет 11 девяток надежности?»
Дополнительные сведения о запросе индекса см. Запрос индекса
Синхронизировать изменения источника данных для поиска в индексе
Ваш источник данных настроен на синхронизацию любых новых, измененных или удаленных данных. Прежде чем вы сможете поэтапно синхронизировать источник данных с индексом в Amazon Kendra, вам необходимо загрузить новые документы в корзину S3.
- На консоли Amazon S3 выберите только что созданную корзину и выберите Загрузите.
- Загрузите папки
Security
иWell_Architected
из разархивированного файла.
Теперь вы можете синхронизировать новые документы, добавленные в корзину S3:
- На консоли Amazon Kendra выберите Источники данных а затем выберите источник данных S3.
- Выберите Синхронизировать сейчас.
Продолжительность этого процесса зависит от количества документов, которые вы индексируете. В этом случае это может занять 15 минут, после чего вы должны увидеть сообщение об успешной синхронизации.
В Синхронизация истории запуска В разделе можно увидеть, что было синхронизировано 20 документов.
Переиндексировать источник данных
В случае, когда в источнике данных содержится устаревшая информация, теперь вы можете переиндексировать источник данных, не удаляя и не создавая новый источник данных. Чтобы изменить режим синхронизации и переиндексировать источник данных, выполните следующие действия:
- На консоли Amazon Kendra выберите Источники данных а затем выберите источник данных S3.
- На Действия Меню, выберите Изменить.
- Выберите Следующая перейти к Шаг 3. Настройте страницу параметров синхронизации..
- Для режима синхронизации выберите Полная синхронизация.
- Что касается частота, выберите Запуск по требованию.
- Выберите Следующая.
- В Установить сопоставления полей страницу, оставьте значения по умолчанию.
- Выберите Следующая.
- На Просмотрите и создайте выберите страницу Обновление ПО.
Теперь вы можете синхронизировать новые документы, добавленные в корзину S3.
- На консоли Amazon Kendra выберите Источники данных а затем выберите источник данных S3.
- Выберите Синхронизировать сейчас.
В Синхронизация истории запуска разделе вы можете видеть, что все документы были синхронизированы независимо от предыдущего состояния синхронизации в измененном столбце.
Убирать
Чтобы избежать будущих расходов и удалить неиспользуемые роли и политики, удалите созданные ресурсы:
- В индексе Amazon Kendra выберите Индексы в навигационной панели.
- Выберите созданный вами индекс и на Действия Меню, выберите Удалить.
- Чтобы подтвердить удаление, введите Удалить при появлении запроса и выберите Удалить.
Подождите, пока вы не получите подтверждающее сообщение; Процесс может занять до 15 минут.
- На консоли Amazon S3 удалить корзину S3.
- На консоли IAM удалить соответствующие роли IAM.
Заключение
В этом посте вы узнали, как использовать Amazon Kendra для развертывания службы корпоративного поиска с помощью безопасного подключения к Amazon S3, для которого не требуется интернет-шлюз или устройство преобразования сетевых адресов (NAT). Вы можете включить более быструю синхронизацию для своих документов, используя режим синхронизации.
Есть много дополнительных функций, которые мы не рассмотрели. Например:
- Вы можете включить управление доступом на основе пользователей для своего индекса Amazon Kendra и ограничить доступ к документам на основе уже настроенных элементов управления доступом.
- Вы можете сопоставить атрибуты объекта с атрибутами индекса Amazon Kendra и включить их для фасетирования, поиска и отображения в результатах поиска.
- Вы можете быстро найти информацию с веб-страниц (HTML-таблиц) с помощью табличного поиска Amazon Kendra.
Чтобы узнать больше об Amazon Kendra, см. Руководство разработчика по Amazon Kendra.
Об авторах
Маран Чандрасекаран — старший архитектор решений в Amazon Web Services, работающий с нашими корпоративными клиентами. Вне работы любит путешествовать.
Арджун Агравал — инженер-программист в AWS, в настоящее время работает с командой Amazon Kendra над корпоративной поисковой системой. Он увлечен новыми технологиями и решением реальных проблем. Вне работы он любит ходить в походы и путешествовать.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/
- 10
- 100
- 11
- 7
- a
- О нас
- доступ
- доступной
- Учетная запись
- точный
- точно
- через
- добавленный
- дополнение
- дополнительный
- адрес
- После
- алгоритмы
- Все
- позволяет
- уже
- Amazon
- Амазон Кендра
- Амазон РДС
- Amazon Web Services
- и
- ответы
- Приложения
- связанный
- Атрибуты
- автоматически
- доступен
- AWS
- назад
- основанный
- основа
- до
- возможности
- случаев
- случаев
- категории
- определенный
- изменения
- расходы
- выбор
- Выберите
- классификация
- облако
- Column
- полный
- комплектующие
- подтвердить
- Свяжитесь
- Соединительный
- связи
- Консоли
- содержать
- содержит
- содержание
- контекст
- продолжающийся
- контроль
- контрольная
- соответствующий
- Цена
- чехол для варгана
- Создайте
- создали
- создание
- В настоящее время
- Клиенты
- данным
- База данных
- базы данных
- Наборы данных
- По умолчанию
- Определяет
- демонстрирует
- зависит
- развертывание
- описывать
- Застройщик
- устройство
- различный
- Дисплей
- документ
- Документация
- не
- управлять
- долговечность
- восток
- Простой в использовании
- включить
- позволяет
- Двигатель
- инженер
- Enter
- Предприятие
- Каждая
- многое
- пример
- существующий
- Особенности
- поле
- Файл
- Файлы
- Найдите
- после
- частота
- от
- полный
- будущее
- шлюз
- получить
- Группы
- имеющий
- помощь
- Поход
- история
- Как
- How To
- Однако
- HTML
- HTTPS
- Личность
- улучшение
- in
- включают
- включение
- индекс
- информация
- инструкции
- интегрировать
- Умный
- Интернет
- введение
- независимо
- IT
- работа
- Сохранить
- язык
- Фамилия
- УЧИТЬСЯ
- узнали
- изучение
- Оставлять
- связанный
- Список
- загрузка
- расположение
- машина
- обучение с помощью машины
- Главная
- сделать
- управление
- многих
- карта
- Меню
- сообщение
- Метаданные
- Минут
- ML
- режим
- Режимы
- модифицировало
- изменять
- БОЛЕЕ
- самых
- двигаться
- с разными
- имя
- натуральный
- Откройте
- Навигация
- Необходимость
- сеть
- сетей
- Новые
- номер
- объект
- объекты
- внешнюю
- собственный
- хлеб
- бумага & картон
- страстный
- путь
- шаблон
- паттеранами
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- сборах
- После
- предпосылки
- предыдущий
- частная
- проблемам
- процесс
- Процессы
- обеспечивать
- при условии
- приводит
- что такое варган?
- Вопросы
- быстрее
- быстро
- достигать
- готовый
- реальный мир
- уменьшить
- отражать
- область
- регулярный
- соответствующие
- требовать
- Полезные ресурсы
- ограничивать
- Итоги
- возвращают
- Роли
- роли
- корень
- Run
- Бег
- Salesforce
- то же
- сценарий
- график
- Поиск
- Поисковая система
- Раздел
- безопасный
- безопасно
- безопасность
- старший
- обслуживание
- Услуги
- набор
- настройки
- общие
- должен
- Шоу
- просто
- с
- So
- Software
- Инженер-программист
- Решения
- Решение
- некоторые
- Источник
- Источники
- конкретный
- Начало
- Статус:
- Шаг
- Шаги
- диск
- хранить
- магазины
- стиль
- подсети
- подсеть
- успешный
- такие
- поддержка
- Поддержанный
- Поддержка
- синхронизация
- взять
- команда
- Технологии
- Ассоциация
- Источник
- их
- три
- время
- в
- Переводы
- путешествовать
- Типы
- под
- понимать
- Юникс
- неиспользованный
- обновление
- us
- использование
- прецедент
- пользователей
- Наши ценности
- Виргиния
- Виртуальный
- прохождение
- Web
- веб-сервисы
- , которые
- белый
- технический документ
- в
- без
- Работа
- работает
- Ты
- ВАШЕ
- зефирнет
- ZIP