Упростите подготовку данных для генеративного искусственного интеллекта с помощью Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

Генеративный искусственный интеллект (генеративный ИИ) модели продемонстрировали впечатляющие возможности создания высококачественного текста, изображений и другого контента. Однако для полной реализации своего потенциала этим моделям требуются огромные объемы чистых, структурированных обучающих данных. Большинство реальных данных существует в неструктурированных форматах, таких как PDF-файлы, которые требуют предварительной обработки, прежде чем их можно будет эффективно использовать.

По IDCСегодня неструктурированные данные составляют более 80% всех бизнес-данных. Сюда входят такие форматы, как электронные письма, PDF-файлы, отсканированные документы, изображения, аудио, видео и многое другое. Хотя эти данные содержат ценную информацию, их неструктурированный характер затрудняет их интерпретацию и обучение алгоритмам ИИ. Согласно Опрос Deloitte 2019 г., только 18% предприятий сообщили, что могут воспользоваться преимуществами неструктурированных данных.

Поскольку внедрение ИИ продолжает ускоряться, разработка эффективных механизмов обработки и обучения на основе неструктурированных данных станет еще более важной в будущем. Это может включать в себя более совершенные инструменты предварительной обработки, методы полуконтролируемого обучения и достижения в области обработки естественного языка. Компании, которые наиболее эффективно используют свои неструктурированные данные, получат значительные конкурентные преимущества от ИИ. Чистые данные важны для хорошей производительности модели. Извлеченные тексты по-прежнему содержат большое количество тарабарщины и шаблонного текста (например, чтение HTML). Данные, полученные из Интернета, часто содержат множество дубликатов. Данные из социальных сетей, обзоров или любого пользовательского контента также могут содержать токсичный и предвзятый контент, и вам может потребоваться отфильтровать их с помощью некоторых этапов предварительной обработки. Также может быть много некачественного контента или текстов, созданных ботами, которые можно отфильтровать с помощью сопутствующих метаданных (например, отфильтровать ответы службы поддержки клиентов, получившие низкие оценки клиентов).

Подготовка данных важна на нескольких этапах поисковой дополненной генерации (КГР) модели. Документы-источники знаний нуждаются в предварительной обработке, такой как очистка текста и создание семантических вложений, чтобы их можно было эффективно индексировать и извлекать. Запрос пользователя на естественном языке также требует предварительной обработки, поэтому его можно закодировать в вектор и сравнить с внедрениями документа. После получения соответствующих контекстов им может потребоваться дополнительная предварительная обработка, например усечение, прежде чем они будут объединены с запросом пользователя для создания окончательного запроса для базовой модели. Холст Amazon SageMaker теперь поддерживает комплексные возможности подготовки данных на базе Обработчик данных Amazon SageMaker. Благодаря этой интеграции SageMaker Canvas предоставляет клиентам комплексное рабочее пространство без программирования для подготовки данных, построения и использования моделей машинного обучения и базовых моделей, чтобы ускорить переход от данных к бизнес-аналитике. Теперь вы можете легко находить и агрегировать данные из более чем 50 источников данных, а также исследовать и готовить данные с помощью более 300 встроенных методов анализа и преобразований в визуальном интерфейсе SageMaker Canvas.

Обзор решения

В этом посте мы работаем с набором данных документации PDF —Коренная порода Амазонки гид пользователя. Далее мы покажем, как предварительно обработать набор данных для RAG. В частности, мы очищаем данные и создаем артефакты RAG, чтобы ответить на вопросы о содержимом набора данных. Рассмотрим следующую проблему машинного обучения (ML): пользователь задает вопрос о большой языковой модели (LLM): «Как фильтровать и искать модели в Amazon Bedrock?». LLM не видел документацию на этапе обучения или тонкой настройки, поэтому не сможет ответить на вопрос и, скорее всего, у него будут галлюцинации. Наша цель в этом посте — найти соответствующий фрагмент текста в PDF-файле (например, RAG) и прикрепить его к подсказке, что позволит LLM ответить на вопросы, относящиеся к этому документу.

Ниже мы покажем, как можно выполнить все эти основные этапы предварительной обработки из Холст Amazon SageMaker (питание от Обработчик данных Amazon SageMaker):

Извлечение текста из PDF-документа (на базе Textract)
Удаление конфиденциальной информации (при поддержке Comprehend)
Разбивайте текст на части.
Создавайте вложения для каждой части (при поддержке Bedrock).
Загрузить встраивание в векторную базу данных (на базе OpenSearch)

Упростите подготовку данных для генеративного ИИ с помощью Amazon SageMaker Data Wrangler | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Предпосылки

Для этого пошагового руководства у вас должно быть следующее:

Внимание: Создайте домены OpenSearch Service, следуя инструкциям. здесь. Для простоты давайте выберем вариант с главным именем пользователя и паролем для детального контроля доступа. После создания домена создайте векторный индекс со следующими сопоставлениями, и векторное измерение 1536 будет согласовано с встраиваниями Amazon Titan:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Прохождение

Создайте поток данных

В этом разделе мы расскажем, как построить поток данных для извлечения текста и метаданных из PDF-файлов, очистки и обработки данных, создания вложений с помощью Amazon Bedrock и индексирования данных в Amazon OpenSearch.

Запустите холст SageMaker

Чтобы запустить SageMaker Canvas, выполните следующие действия:

На Амазонке Консоль SageMaker, выберите Домены в навигационной панели.
Выберите свой домен.
В меню запуска выберите холст.

Создать поток данных

Выполните следующие шаги, чтобы создать поток данных в SageMaker Canvas:

На домашней странице SageMaker Canvas выберите Обработчик данных.
Выберите Создавай в правой части страницы, затем укажите имя потока данных и выберите Создавай.
Это попадет на страницу потока данных.
Выберите Даты импорта, выберите табличные данные.

Теперь давайте импортируем данные из корзины Amazon S3:

Выберите Даты импорта и табличный из раскрывающегося списка.
Источник данных и Amazon S3 из раскрывающегося списка.
Перейдите к файлу метаданных с расположением файлов PDF и выберите файл.
Теперь файл метаданных загружается в поток данных для подготовки данных, и мы можем приступить к добавлению следующих шагов по преобразованию данных и индекса в Amazon. Открытый поиск. В этом случае файл имеет следующие метаданные с указанием местоположения каждого файла в каталоге Amazon S3.

Чтобы добавить новое преобразование, выполните следующие шаги:

Нажми плюсик и выбери Добавить преобразование.
Выберите Добавить шаг , а затем выбрать Пользовательское преобразование.
Вы можете создать собственное преобразование, используя Pandas, PySpark, пользовательские функции Python и SQL PySpark. Выбирать Питон (PySpark) для этого варианта использования.
Введите имя для шага. В примерах фрагментов кода просмотрите и выберите извлечь текст из пдф. Внесите необходимые изменения во фрагмент кода и выберите Добавить.
Давайте добавим шаг для удаления данных личной информации (PII) из извлеченных данных, используя Amazon Comprehend. Выберите Добавить шаг , а затем выбрать Пользовательское преобразование, И выберите Питон (PySpark).

В примерах фрагментов кода просмотрите и выберите маска PII. Внесите необходимые изменения во фрагмент кода и выберите Добавить.

Следующий шаг — разбить текстовое содержимое на части. Выбирать Добавить шаг , а затем выбрать Пользовательское преобразование, И выберите Питон (PySpark).

В примерах фрагментов кода просмотрите и выберите Кусочек текста. Внесите необходимые изменения во фрагмент кода и выберите Добавить.

Давайте преобразуем текстовое содержимое в векторные представления, используя Коренная порода Амазонки Модель Titan Embeddings. Выбирать Добавить шаг , а затем выбрать Пользовательское преобразование, И выберите Питон (PySpark).

В примерах фрагментов кода просмотрите и выберите Создайте встраивание текста с помощью Bedrock. Внесите необходимые изменения во фрагмент кода и выберите Добавить.

Теперь у нас есть векторные вложения для содержимого PDF-файла. Давайте продолжим и проиндексируем данные в Amazon OpenSearch. Выбирать Добавить шаг , а затем выбрать Пользовательское преобразование, И выберите Питон (PySpark). Вы можете переписать следующий код, чтобы использовать предпочитаемую вами векторную базу данных. Для простоты мы используем главное имя пользователя и пароль для доступа к API OpenSearch. Для производственных рабочих нагрузок выберите вариант в соответствии с политикой вашей организации.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Наконец, созданный поток данных будет следующим:

С помощью этого потока данных данные из PDF-файла считываются и индексируются с помощью векторных вложений в Amazon OpenSearch. Теперь пришло время создать файл с запросами для запроса индексированных данных и сохранить его в хранилище Amazon S3. Мы направим наш поток данных поиска на файл и выведем файл с соответствующими результатами в новом файле в расположении Amazon S3.

Подготовка приглашения

После того, как мы создадим базу знаний из нашего PDF-файла, мы можем протестировать ее, выполнив поиск в базе знаний по нескольким примерным запросам. Мы будем обрабатывать каждый запрос следующим образом:

Создание встраивания для запроса (на базе Amazon Bedrock)
База данных векторов запросов для контекста ближайшего соседа (на базе Amazon OpenSearch)
Объедините запрос и контекст в подсказку.
Запрос LLM с помощью подсказки (на базе Amazon Bedrock)
На домашней странице SageMaker Canvas выберите Подготовка данных.
Выберите Создавай в правой части страницы, затем укажите имя потока данных и выберите Создавай.

Теперь давайте загрузим вопросы пользователя, а затем создадим подсказку, объединив вопрос и аналогичные документы. Это приглашение предоставляется LLM для генерации ответа на вопрос пользователя.

Давайте загрузим CSV-файл с вопросами пользователей. Выбирать Импортировать данные и табличный из раскрывающегося списка.
Источник данных, и Amazon S3 из раскрывающегося списка. Альтернативно вы можете загрузить файл с запросами пользователей.
Давайте добавим пользовательское преобразование для преобразования данных в векторные внедрения с последующим поиском связанных внедрений из Amazon OpenSearch перед отправкой запроса в Amazon Bedrock с запросом и контекстом из базы знаний. Чтобы создать внедрения для запроса, вы можете использовать тот же фрагмент кода примера. Создание встраивания текста с помощью Bedrock упомянуто в шаге №7 выше.

Давайте вызовем API Amazon OpenSearch для поиска соответствующих документов на предмет сгенерированных векторных вложений. Добавьте собственное преобразование с помощью Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Давайте добавим пользовательское преобразование для вызова API Amazon Bedrock для ответа на запрос, передавая документы из базы знаний Amazon OpenSearch. В примерах фрагментов кода просмотрите и выберите Запрос Bedrock с контекстом. Внесите необходимые изменения во фрагмент кода и выберите Добавить.

Вкратце, поток данных ответов на вопросы на основе RAG выглядит следующим образом:

Специалисты по машинному обучению тратят много времени на разработку кода проектирования функций, применение его к своим исходным наборам данных, обучение моделей на основе спроектированных наборов данных и оценку точности модели. Учитывая экспериментальный характер этой работы, даже самый маленький проект приводит к множеству итераций. Один и тот же код разработки функций часто запускается снова и снова, тратя время и вычислительные ресурсы на повторение одних и тех же операций. В крупных организациях это может привести к еще большей потере производительности, поскольку разные команды часто выполняют одинаковые задания или даже пишут дублирующийся код разработки функций, поскольку у них нет знаний о предыдущей работе. Чтобы избежать повторной обработки функций, мы экспортируем наш поток данных на Amazon. Конвейер SageMaker. Давайте выберем Кнопка + справа от запроса. Выберите поток данных экспорта и выберите Запуск конвейера SageMaker (через блокнот Jupyter).

Убираться

Чтобы избежать будущих расходов, удалите или закройте ресурсы, созданные вами во время подписки на этот пост. Ссылаться на Выход из Amazon SageMaker Canvas Больше подробностей.

Заключение

В этом посте мы показали вам, как можно использовать комплексные возможности Amazon SageMaker Canvas, взяв на себя роль специалиста по обработке данных, готовящего данные для LLM. Интерактивная подготовка данных позволила быстро очистить, преобразовать и проанализировать данные для разработки информативных функций. Устранив сложности кодирования, SageMaker Canvas позволил быстро выполнить итерацию для создания высококачественного набора обучающих данных. Этот ускоренный рабочий процесс привел непосредственно к созданию, обучению и развертыванию эффективной модели машинного обучения для повышения эффективности бизнеса. Благодаря комплексной подготовке данных и унифицированному опыту от данных до аналитики, SageMaker Canvas дает пользователям возможность улучшить результаты машинного обучения.

Мы рекомендуем вам узнать больше, изучив Обработчик данных Amazon SageMaker, Холст Amazon SageMaker, Амазонка Титан модели, Коренная порода Амазонки, и Amazon Служба открытого поиска чтобы создать решение, используя пример реализации, представленный в этом посте, и набор данных, соответствующий вашему бизнесу. Если у вас есть вопросы или предложения, пожалуйста, оставьте комментарий.

Об авторах

Аджай Говиндарам является старшим архитектором решений в AWS. Он работает со стратегическими клиентами, которые используют AI/ML для решения сложных бизнес-задач. Его опыт заключается в обеспечении технического руководства, а также помощи в проектировании развертывания приложений AI/ML от скромных до крупномасштабных. Его знания варьируются от архитектуры приложений до больших данных, аналитики и машинного обучения. Ему нравится слушать музыку во время отдыха, отдыхать на свежем воздухе и проводить время со своими близкими.

Никита Ивкин является старшим научным сотрудником в Amazon SageMaker Data Wrangler и интересуется машинным обучением и алгоритмами очистки данных.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/simplify-data-prep-for-gen-ai-with-amazon-sagemaker-data-wrangler/

Отметка времени: 27 ноября 2023

Больше от Машинное обучение AWS

Обеспечьте обнаружение и повторное использование функций в вашей организации с помощью Amazon SageMaker Feature Store и его возможностей метаданных на уровне функций PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Содействуйте обнаружению и повторному использованию функций в вашей организации с помощью Amazon SageMaker Feature Store и его возможностей метаданных на уровне функций.

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1606966

Отметка времени: Август 3, 2022

Защитите свои индексы Amazon Kendra с помощью ACL, используя общий секретный ключ JWT.

Машинное обучение AWS

Исходный узел: 1819917

Отметка времени: 29 Марта, 2023

Переиздано Платоном

Содействуйте обнаружению и повторному использованию функций в вашей организации с помощью Amazon SageMaker Feature Store и его возможностей метаданных на уровне функций.

Точная настройка и развертывание модели сумматора с использованием контейнеров Hugging Face Amazon SageMaker с собственным сценарием.

Используйте Amazon Lex для захвата улиц

Обнаружение аномалий с помощью Amazon SageMaker Edge Manager с использованием AWS IoT Greengrass V2

Комплексное решение бизнес-задач с помощью машинного обучения в решениях Amazon SageMaker JumpStart.

Точный поиск ответов с помощью Amazon Kendra S3 Connector с поддержкой VPC

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись