Получите ценную информацию из данных Amazon S3 с помощью интеллектуального поиска

Переиздано Платоном

Читают: 0

Амазон Кендра — это интеллектуальный поисковый сервис, основанный на машинном обучении (ML). Amazon Kendra переосмысливает корпоративный поиск для ваших веб-сайтов и приложений, чтобы ваши сотрудники и клиенты могли легко находить искомый контент, даже если он разбросан по нескольким местоположениям и репозиториям контента в вашей организации. Ключевые слова или вопросы на естественном языке можно использовать для поиска наиболее релевантных документов, основанных на ML, для предоставления ответов и ранжирования документов. Amazon Kendra может индексировать данные из Простой сервис хранения Amazon (Amazon S3) или из стороннего репозитория документов. Amazon S3 — это сервис хранения объектов, который предлагает масштабируемость и доступность, где вы можете хранить большие объемы данных, включая руководства по продуктам, документы по проектам и исследованиям и многое другое.

В этом посте вы можете узнать, как развернуть предоставленный AWS CloudFormation шаблон для индексации ваших документов в корзине Amazon S3. Шаблон создает источник данных Amazon Kendra для индекса и синхронизирует ваш источник данных в соответствии с вашими потребностями: по требованию, ежечасно, ежедневно, еженедельно или ежемесячно. AWS CloudFormation позволяет нам предоставлять инфраструктуру как код (IaC), чтобы вы могли тратить меньше времени на управление ресурсами, быстро реплицировать свою инфраструктуру, а также контролировать и отслеживать изменения в инфраструктуре.

Обзор решения

Шаблон CloudFormation настраивает источник данных Amazon Kendra с подключением к Amazon S3. Шаблон также создает одну роль для службы источника данных Amazon Kendra. Вы можете указать корзину S3, расписание синхронизации и шаблоны включения/исключения. Когда задание синхронизации завершится, вы сможете искать проиндексированное содержимое через консоль поиска. Следующая диаграмма иллюстрирует этот рабочий процесс.

Этот пост проведет вас к следующим шагам:

Разверните предоставленный шаблон.
Загрузите документы в созданную вами корзину S3. Если вы предоставляете корзину с документами, этот шаг можно пропустить.
Подождите, пока индекс завершит сканирование источника данных.

Предпосылки

Для этого прохождения у вас должны быть следующие предпосылки:

An Аккаунт AWS где предлагаемое решение может быть развернуто.
Индекс Amazon Kendra для присоединения источника данных к стеку.
Набор документов, которые используются для создания индекса Amazon Kendra. В этом решении вы используете сжатый файл технические документы AWS.

Разверните решение с помощью AWS CloudFormation

Чтобы развернуть шаблон CloudFormation, выполните следующие действия:

Выберите

Вы будете перенаправлены в консоль AWS CloudFormation.

Вы можете изменить параметры или использовать значения по умолчанию:
- Имя источника данных Amazon Kendra задается автоматически с использованием имени стека и связанного имени корзины.
- Что касается КендраИндексИд, введите идентификатор индекса Amazon Kendra, к которому будет присоединен источник данных.
- Вы также можете выбрать, когда вы хотите запустить синхронизацию источника данных, используя Расписание КендраСинк. По умолчанию установлено значение По требованию.
- Что касается S3BucketName, вы можете либо ввести корзину, которую вы уже создали, либо оставить ее пустой. Если вы оставите его пустым, для вас будет создано ведро. В любом случае корзина используется в качестве источника данных Amazon Kendra. Для этого поста мы оставляем его пустым.

Для развертывания источника данных Amazon Kendra, подключенного к индексу Amazon Kendra, стеку требуется около 5 минут.

На Выходы на вкладке стека CloudFormation скопируйте имя созданного сегмента, имя источника данных и идентификатор.

Созданный стек развертывает одну роль: <stack-name>-KendraDataSourceRole. Рекомендуется развертывать роль для каждого создаваемого вами источника данных. Эта роль предоставляет источник данных Amazon Kendra для добавления или удаления файлов из индекса Amazon Kendra для получения объектов из корзины Amazon S3.

Загрузить файлы в корзину S3

Amazon Kendra может обрабатывать несколько типов документов, таких как .html, .pdf, .csv, .json, .docx и .ppt. Вы также можете иметь комбинацию документов в одном индексе. Текст, содержащийся в этих документах, индексируется в предоставленном индексе Amazon Kendra. Вы можете искать ключевые слова в темах AWS, посвященных рекомендациям, базам данных, машинному обучению, безопасности и т. д., используя более 60 файлов PDF, которые вы можете скачать. Например, если вы хотите узнать, где можно найти дополнительную информацию о кэшировании в технических описаниях AWS, Amazon Kendra может помочь вам найти документы, связанные с базами данных и рекомендациями.

Когда вы загружаете Технические документы AWS.zip файл и распакуйте файл, вы увидите эти шесть папок: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Загрузите эти папки в корзину S3.

Синхронизируйте источник данных Amazon Kendra

Данные источника данных Amazon Kendra могут синхронизировать ваши данные на основе предварительно настроенного расписания или могут быть активированы вручную по требованию. По умолчанию шаблон CloudFormation настраивает источник данных на расписание синхронизации по запросу, которое будет запускаться вручную по мере необходимости.

Чтобы вручную запустить задание синхронизации из консоли AWS Amazon Kendra, перейдите к индексу Amazon Kendra, используемому как часть развертывания стека CloudFormation, в разделе Управление данными на панели навигации выберите Источники данных и затем выберите Синхронизировать сейчас. Это синхронизирует корзину S3 с источником данных.

Когда источник данных Amazon Kendra начнет синхронизироваться, вы должны увидеть Текущее состояние синхронизации as Синхронизация.

Когда источник данных завершится, Последний статус синхронизации отображается как Преемник и Текущее состояние синхронизации as Idle. Теперь вы можете искать проиндексированное содержимое.

Настроить расписание синхронизации

Шаблон позволяет запускать расписание каждый час в 0-ю минуту, например, в 13:00, 14:00 или 15:00. У вас также есть возможность запускать его ежедневно в 00:00 UTC. Еженедельные настройка запускается по понедельникам в 00:00 UTC, а Ежемесячно настройка запускается каждый первый день месяца в 00:00 UTC.

Чтобы изменить расписание после создания источника данных Amazon Kendra, на Действия Меню, выберите Редактировать, Под Настройте параметры синхронизации, вы найдете Расписание правила синхронизации .

Под частота, вы можете выбрать почасовой, ежедневно, еженедельно, ежемесячноили изготовленный на заказ, что позволяет планировать синхронизацию с точностью до минуты.

Добавить шаблоны исключения

Предоставленный шаблон CloudFormation позволяет добавлять шаблоны исключения. По умолчанию файлы .png и .jpg будут добавлены в ИсключениеШаблоны параметр. Дополнительные форматы файлов можно добавить в шаблон исключения в виде списка, разделенного запятыми. Сходным образом, Шаблоны включения Параметр может использоваться для добавления форматов файлов со списком запятых для настройки шаблона включения. Если вы не укажете шаблон включения, индексируются все файлы, кроме тех, которые включены в параметр исключения.

Убирать

Чтобы избежать затрат, вы можете удалить стек из консоли AWS CloudFormation. На Стеки страницу, выберите созданную стопку, выберите Удалитьи подтвердите удаление стека.

Если вы не предоставили корзину S3, стек создает корзину. Если корзина пуста, она автоматически удаляется. В противном случае вам нужно очистить папку и удалить ее вручную. Если вы предоставили корзину, даже если она пуста, она не будет удалена. Индекс Amazon Kendra не будет удален. Будет удален только источник данных Amazon Kendra, созданный стеком.

Заключение

В этом посте мы предоставили шаблон CloudFormation для простой синхронизации ваших текстовых документов в корзине S3 с вашим индексом Amazon Kendra. Это решение полезно, если у вас есть несколько корзин S3, которые вы хотите проиндексировать, потому что вы можете создать все необходимые компоненты для запроса документов с помощью нескольких щелчков мыши согласованным и повторяемым образом. Вы также можете увидеть, как текстовые документы на основе изображений могут обрабатываться в Amazon Kendra. Чтобы узнать больше о конкретных шаблонах расписания, см. Выражения расписания для правил.

Оставьте комментарий и узнайте больше о создании индекса Amazon Kendra в следующем Семинар Amazon Kendra Essentials+.

Особая благодарность Jose Mauricio Mani Yanez за помощь в создании примера кода и компиляции контента для этого поста.

Об авторе

Раджеш Кумар Рави является специалистом по архитектуре решений AI/ML в Amazon Web Services, специализирующимся на интеллектуальном поиске документов с помощью Amazon Kendra и генеративном искусственном интеллекте. Он строитель и решает проблемы, а также способствует развитию новых идей. Он любит гулять и любит совершать короткие походы вне работы.

SEO-контент и PR-распределение. Получите усиление сегодня.
ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
Чеканка будущего с Эдриенн Эшли. Доступ здесь.
Покупайте и продавайте акции компаний PREIPO® с помощью PREIPO®. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/unlock-insights-from-your-amazon-s3-data-with-intelligent-search/

Отметка времени: 12 мая 2023

Отметка времени: Декабрь 6, 2023

Переиздано Платоном

Повысьте точность расшифровки разговоров между клиентом и агентом с помощью пользовательского словаря в Amazon Transcribe.

Точная настройка моделей Whisper на Amazon SageMaker с помощью LoRA | Веб-сервисы Amazon

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для обучения и экспериментов с машинным обучением.

Оптимизируйте затраты на развертывание базовых моделей Amazon SageMaker JumpStart с помощью асинхронных конечных точек Amazon SageMaker | Веб-сервисы Amazon

Создайте приложение для суммирования документов HCLS с помощью Falcon с помощью Amazon SageMaker JumpStart | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись