Поговорите со своей презентацией, используя модели мультимодального фундамента, размещенные на Amazon Bedrock – Часть 2

Переиздано Платоном

Читают: 0

In Часть 1 этой серии мы представили решение, в котором использовалось Мультимодальные встраивания Amazon Titan модель для преобразования отдельных слайдов из набора слайдов во вложения. Мы сохранили вложения в векторной базе данных, а затем использовали Большой помощник по языку и зрению (LLaVA 1.5-7b) модель для генерации текстовых ответов на вопросы пользователей на основе наиболее похожего слайда, полученного из векторной базы данных. Мы использовали сервисы AWS, включая Коренная порода Амазонки, Создатель мудреца Амазонкии Amazon OpenSearch без сервера в этом растворе.

В этом посте мы демонстрируем другой подход. Мы используем Антропный Клод 3 Сонет модель для создания текстовых описаний для каждого слайда в наборе слайдов. Эти описания затем преобразуются во встраивания текста с помощью Встраивание текста Amazon Titan модель и сохраняется в векторной базе данных. Затем мы используем модель Claude 3 Sonnet для генерации ответов на вопросы пользователей на основе наиболее релевантного текстового описания, полученного из векторной базы данных.

Вы можете протестировать оба подхода для своего набора данных и оценить результаты, чтобы увидеть, какой подход дает наилучшие результаты. В третьей части этой серии мы оцениваем результаты обоих методов.

Обзор решения

Решение обеспечивает реализацию ответа на вопросы с использованием информации, содержащейся в текстовых и визуальных элементах слайдов. В основе конструкции лежит концепция извлечения дополненной генерации (RAG). Традиционно RAG ассоциировался с текстовыми данными, которые могут обрабатываться большими языковыми моделями (LLM). В этой серии мы расширяем RAG, включив в него также изображения. Это обеспечивает мощные возможности поиска для извлечения контекстуально релевантного контента из визуальных элементов, таких как таблицы и графики, вместе с текстом.

Это решение включает в себя следующие компоненты:

Amazon Titan Text Embeddings — это модель внедрения текста, которая преобразует текст на естественном языке, включая отдельные слова, фразы и даже большие документы, в числовые представления, которые можно использовать для таких вариантов использования, как поиск, персонализация и кластеризация на основе семантического сходства.
Claude 3 Sonnet — это новое поколение современных моделей от Anthropic. Sonnet — это универсальный инструмент, который может решать широкий спектр задач: от сложных рассуждений и анализа до быстрого получения результатов, а также эффективного поиска и извлечения огромных объемов информации.
OpenSearch Serverless — это бессерверная конфигурация Amazon OpenSearch Service по требованию. Мы используем OpenSearch Serverless в качестве векторной базы данных для хранения вложений, созданных с помощью модели Amazon Titan Text Embeddings. Индекс, созданный в бессерверной коллекции OpenSearch, служит хранилищем векторов для нашего решения RAG.
Прием Amazon OpenSearch (OSI) — это полностью управляемый бессерверный сборщик данных, который доставляет данные в домены службы OpenSearch и бессерверные коллекции OpenSearch. В этом посте мы используем API-интерфейс конвейера OSI для доставки данных в бессерверное векторное хранилище OpenSearch.

Конструкция решения состоит из двух частей: приема и взаимодействия с пользователем. Во время приема мы обрабатываем входной набор слайдов, преобразуя каждый слайд в изображение, генерируя описания и встраивания текста для каждого изображения. Затем мы заполняем хранилище векторных данных вставками и текстовым описанием для каждого слайда. Эти шаги выполняются до шагов взаимодействия с пользователем.

На этапе взаимодействия с пользователем вопрос пользователя преобразуется во встраивание текста. В векторной базе данных выполняется поиск по сходству, чтобы найти текстовое описание, соответствующее слайду, которое потенциально может содержать ответы на вопрос пользователя. Затем мы предоставляем описание слайда и вопрос пользователя модели Claude 3 Sonnet, чтобы сгенерировать ответ на запрос. Весь код для этого поста доступен в GitHub Сделки РЕПО.

На следующей диаграмме показана архитектура приема.

Рабочий процесс состоит из следующих шагов:

Слайды преобразуются в файлы изображений (по одному на слайд) в формате JPG и передаются в модель Claude 3 Sonnet для создания текстового описания.
Данные отправляются в модель Amazon Titan Text Embeddings для создания вложений. В этой серии мы используем слайд-колоду Обучение и развертывание Stable Diffusion с помощью AWS Trainium и AWS Inferentia на саммите AWS в Торонто, июнь 2023 г., чтобы продемонстрировать решение. В демонстрационном наборе 31 слайд, поэтому мы генерируем 31 набор векторных вложений, каждый из которых имеет 1536 измерений. Мы добавляем дополнительные поля метаданных для выполнения расширенных поисковых запросов, используя мощные возможности поиска OpenSearch.
Вложения встраиваются в конвейер OSI с помощью вызова API.
Конвейер OSI принимает данные в виде документов в бессерверный индекс OpenSearch. Индекс настроен как приемник для этого конвейера и создается как часть бессерверной коллекции OpenSearch.

На следующей диаграмме показана архитектура взаимодействия с пользователем.

Рабочий процесс состоит из следующих шагов:

Пользователь отправляет вопрос, связанный с загруженным набором слайдов.
Пользовательский ввод преобразуется во внедрения с использованием модели Amazon Titan Text Embeddings, доступ к которой осуществляется с помощью Amazon Bedrock. С использованием этих вложений выполняется векторный поиск OpenSearch Service. Мы выполняем поиск по k-ближайшим соседям (k-NN), чтобы получить наиболее релевантные вложения, соответствующие запросу пользователя.
Метаданные ответа от OpenSearch Serverless содержат путь к изображению и описание, соответствующее наиболее релевантному слайду.
Подсказка создается путем объединения вопроса пользователя и описания изображения. Приглашение предоставлено Сонету Клода 3, размещенному на Amazon Bedrock.
Результат этого вывода возвращается пользователю.

В следующих разделах мы обсуждаем шаги для обоих этапов и приводим подробную информацию о результатах.

Предпосылки

Чтобы реализовать решение, представленное в этом посте, у вас должен быть Аккаунт AWS и знакомство с FM, Amazon Bedrock, SageMaker и OpenSearch Service.

В этом решении используются модели Claude 3 Sonnet и Amazon Titan Text Embeddings, размещенные на Amazon Bedrock. Убедитесь, что эти модели доступны для использования, перейдя к Доступ к модели странице на консоли Amazon Bedrock.

Если модели включены, Статус доступа заявит Доступ предоставлен.

Если модели недоступны, включите доступ, выбрав Управление доступом к модели, выбираем модели и выбираем Запросить доступ к модели. Модели сразу же доступны для использования.

Используйте AWS CloudFormation для создания стека решений

Вы можете использовать AWS CloudFormation для создания стека решений. Если вы создали решение для части 1 в той же учетной записи AWS, обязательно удалите его перед созданием этого стека.

AWS Регион	Ссылка
`us-east-1`
`us-west-2`

После успешного создания стека перейдите на вкладку «Выводы» стека в консоли AWS CloudFormation и запишите значения для MultimodalCollectionEndpoint и OpenSearchPipelineEndpoint. Вы используете их в последующих шагах.

Шаблон CloudFormation создает следующие ресурсы:

Роли IAM - Следующее Управление идентификацией и доступом AWS (IAM) роли созданы. Обновите эти роли, чтобы применить разрешения с наименьшими привилегиями, как описано в разделе Лучшие практики безопасности.
- SMExecutionRole Простой сервис хранения Amazon (Amazon S3), SageMaker, OpenSearch Service и Amazon Bedrock, полный доступ.
- OSPipelineExecutionRole с доступом к корзине S3 и действиям OSI.
Блокнот SageMaker – Весь код для этого поста выполняется с использованием этого блокнота.
Бессерверная коллекция OpenSearch – Это векторная база данных для хранения и извлечения вложений.
конвейер OSI – Это конвейер для приема данных в OpenSearch Serverless.
Ковш S3 – Все данные для этого поста хранятся в этом ведре.

Шаблон CloudFormation устанавливает конфигурацию конвейера, необходимую для настройки конвейера OSI с использованием HTTP в качестве источника и индекса OpenSearch Serverless в качестве приемника. Блокнот SageMaker 2_data_ingestion.ipynb показывает, как принимать данные в конвейер с помощью Запросы HTTP-библиотека.

Шаблон CloudFormation также создает сеть, шифрование и доступ к данным политики, необходимые для вашей бессерверной коллекции OpenSearch. Обновите эти политики, чтобы применить разрешения с наименьшими привилегиями.

Имя шаблона CloudFormation и имя индекса OpenSearch Service указаны в записной книжке SageMaker. 3_rag_inference.ipynb. Если вы измените имена по умолчанию, обязательно обновите их в записной книжке.

Проверить решение

После создания стека CloudFormation вы можете протестировать решение. Выполните следующие шаги:

На консоли SageMaker выберите Ноутбуки в навигационной панели.
Выберите MultimodalNotebookInstance , а затем выбрать Откройте ЮпитерЛаб.
In File Browser, перейдите в папку записных книжек, чтобы просмотреть записные книжки и вспомогательные файлы.

Ноутбуки пронумерованы в той последовательности, в которой они запускаются. Инструкции и комментарии в каждом блокноте описывают действия, выполняемые этим блокнотом. Мы запускаем эти блокноты один за другим.

Выберите 1_data_prep.ipynb чтобы открыть его в JupyterLab.
На Run Меню, выберите Запустить все ячейки чтобы запустить код в этом блокноте.

Этот блокнот загрузит общедоступный файл слайд-колода, конвертируйте каждый слайд в формат файла JPG и загрузите его в корзину S3.

Выберите 2_data_ingestion.ipynb чтобы открыть его в JupyterLab.
На Run Меню, выберите Запустить все ячейки чтобы запустить код в этом блокноте.

В этом блокноте вы создадите индекс в бессерверной коллекции OpenSearch. Этот индекс хранит данные внедрения для набора слайдов. См. следующий код:

session = boto3.Session()
credentials = session.get_credentials()
auth = AWSV4SignerAuth(credentials, g.AWS_REGION, g.OS_SERVICE)

os_client = OpenSearch(
  hosts = [{'host': host, 'port': 443}],
  http_auth = auth,
  use_ssl = True,
  verify_certs = True,
  connection_class = RequestsHttpConnection,
  pool_maxsize = 20
)

index_body = """
{
  "settings": {
    "index.knn": true
  },
  "mappings": {
    "properties": {
      "vector_embedding": {
        "type": "knn_vector",
        "dimension": 1536,
        "method": {
          "name": "hnsw",
          "engine": "nmslib",
          "parameters": {}
        }
      },
      "image_path": {
        "type": "text"
      },
      "slide_text": {
        "type": "text"
      },
      "slide_number": {
        "type": "text"
      },
      "metadata": { 
        "properties" :
          {
            "filename" : {
              "type" : "text"
            },
            "desc":{
              "type": "text"
            }
          }
      }
    }
  }
}
"""
index_body = json.loads(index_body)
try:
  response = os_client.indices.create(index_name, body=index_body)
  logger.info(f"response received for the create index -> {response}")
except Exception as e:
  logger.error(f"error in creating index={index_name}, exception={e}")

Вы используете модели Claude 3 Sonnet и Amazon Titan Text Embeddings для преобразования изображений JPG, созданных в предыдущем блокноте, в векторные внедрения. Эти внедрения и дополнительные метаданные (например, путь S3 и описание файла изображения) хранятся в индексе вместе с внедрениями. Следующий фрагмент кода показывает, как Claude 3 Sonnet генерирует описания изображений:

def get_img_desc(image_file_path: str, prompt: str):
    # read the file, MAX image size supported is 2048 * 2048 pixels
    with open(image_file_path, "rb") as image_file:
        input_image_b64 = image_file.read().decode('utf-8')
  
    body = json.dumps(
        {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 1000,
            "messages": [
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "image",
                            "source": {
                                "type": "base64",
                                "media_type": "image/jpeg",
                                "data": input_image_b64
                            },
                        },
                        {"type": "text", "text": prompt},
                    ],
                }
            ],
        }
    )
    
    response = bedrock.invoke_model(
        modelId=g.CLAUDE_MODEL_ID,
        body=body
    )

    resp_body = json.loads(response['body'].read().decode("utf-8"))
    resp_text = resp_body['content'][0]['text'].replace('"', "'")

    return resp_text

Описания изображений передаются в модель Amazon Titan Text Embeddings для создания векторных вложений. Эти внедрения и дополнительные метаданные (например, путь S3 и описание файла изображения) хранятся в индексе вместе с внедрениями. В следующем фрагменте кода показан вызов модели Amazon Titan Text Embeddings:

def get_text_embedding(bedrock: botocore.client, prompt_data: str) -> np.ndarray:
    body = json.dumps({
        "inputText": prompt_data,
    })    
    try:
        response = bedrock.invoke_model(
            body=body, modelId=g.TITAN_MODEL_ID, accept=g.ACCEPT_ENCODING, contentType=g.CONTENT_ENCODING
        )
        response_body = json.loads(response['body'].read())
        embedding = response_body.get('embedding')
    except Exception as e:
        logger.error(f"exception={e}")
        embedding = None

    return embedding

Данные принимаются в бессерверный индекс OpenSearch путем вызова API к конвейеру OSI. В следующем фрагменте кода показан вызов, выполненный с использованием HTTP-библиотеки Requests:

data = json.dumps([{
    "image_path": input_image_s3, 
    "slide_text": resp_text, 
    "slide_number": slide_number, 
    "metadata": {
        "filename": obj_name, 
        "desc": "" 
    }, 
    "vector_embedding": embedding
}])

r = requests.request(
    method='POST', 
    url=osi_endpoint, 
    data=data,
    auth=AWSSigV4('osis'))

Выберите 3_rag_inference.ipynb чтобы открыть его в JupyterLab.
На Run Меню, выберите Запустить все ячейки чтобы запустить код в этом блокноте.

В этом блокноте реализовано решение RAG: вы конвертируете вопрос пользователя во встраивания, находите похожее описание изображения в векторной базе данных и предоставляете полученное описание Claude 3 Sonnet для генерации ответа на вопрос пользователя. Вы используете следующий шаблон приглашения:

  llm_prompt: str = """

  Human: Use the summary to provide a concise answer to the question to the best of your abilities. If you cannot answer the question from the context then say I do not know, do not make up an answer.
  <question>
  {question}
  </question>

  <summary>
  {summary}
  </summary>

  Assistant:"""

Следующий фрагмент кода описывает рабочий процесс RAG:

def get_llm_response(bedrock: botocore.client, question: str, summary: str) -> str:
    prompt = llm_prompt.format(question=question, summary=summary)
    
    body = json.dumps(
    {
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 1000,
        "messages": [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": prompt},
                ],
            }
        ],
    })
        
    try:
        response = bedrock.invoke_model(
        modelId=g.CLAUDE_MODEL_ID,
        body=body)

        response_body = json.loads(response['body'].read().decode("utf-8"))
        llm_response = response_body['content'][0]['text'].replace('"', "'")
        
    except Exception as e:
        logger.error(f"exception while slide_text={summary[:10]}, exception={e}")
        llm_response = None

    return llm_response


# create prompt and convert to embeddings question: str = "How does Inf2 compare in performance to comparable EC2 instances? I need numbers." text_embedding = get_text_embedding(bedrock, question) # vector db search vector_db_response: Dict = find_similar_data(text_embeddings) # download image for local notebook display s3_img_path = vector_db_response.get('hits', {}).get('hits')[0].get('_source').get('image_path') logger.info(f"going to answer the question="{question}" using the image "{s3_img_path}"") !aws s3 cp {s3_img_path} . local_img_path = os.path.basename(s3_img_path) display(filename=local_img_path) # Ask Claude 3 Sonnet slide_text = vector_db_response.get('hits', {}).get('hits')[0].get('_source').get('slide_text') llm_response = get_llm_response(bedrock, question, slide_text) print(llm_response)

Итоги

В следующей таблице приведены некоторые вопросы и ответы пользователей, созданные нашей реализацией. Question столбец фиксирует вопрос пользователя, а столбец Ответ столбец — это текстовый ответ, сгенерированный Сонетом Клода 3. Фото товара В столбце показано совпадение слайдов k-NN, полученное в результате бессерверного векторного поиска OpenSearch.

Результаты мультимодального RAG

Question	Ответ	Фото товара
Как Inf2 сравнивается по производительности с сопоставимыми экземплярами EC2? Мне нужны цифры.	На основе информации, представленной в обзоре, ключевые показатели производительности инстансов Amazon EC2 Inf2 по сравнению с другими инстансами следующие: 1. Пропускная способность выше до 4 раз. 2. Задержка до 10 раз ниже. В сводке не приводятся конкретные цифры для сравнения экземпляров Inf2 с другими типами экземпляров EC2. Тем не менее, в нем подчеркиваются улучшения пропускной способности и задержки как основные преимущества производительности инстансов Inf2 по сравнению с сопоставимыми инстансами для запуска генеративных моделей искусственного интеллекта.
Что же предоставляют сервисы AWS AI/ML в соответствии с маховиком AI/ML?	Судя по резюме, сервисы AWS AI/ML предоставляют ряд возможностей, которые подпитывают маховик AI/ML. Этот маховик состоит из инноваций в разработке новых и более совершенных алгоритмов, позволяющих использовать больше вариантов использования и приложений, стимулируя более широкое внедрение и спрос, что, в свою очередь, приводит к дальнейшим инвестициям в исследования и оптимизацию для стимулирования большего количества инноваций. Сервисы AWS AI/ML предлагают инструменты, ресурсы и инфраструктуру для поддержки непрерывного цикла инноваций, разработки приложений, внедрения и реинвестирования в области искусственного интеллекта и машинного обучения.
Насколько больше параметров у GPT-2 по сравнению с GPT-3? Какова численная разница между размером параметра GPT-2 и GPT-3?	Согласно информации, представленной в сводке, GPT-3 от 2020 года имел 175B (175 миллиардов) параметров, а GPT-2 от 2019 года — 1.5B (1.5 миллиарда) параметров. Таким образом, числовая разница между размером параметров GPT-2 и GPT-3 составляет 173.5 миллиарда параметров. GPT-3 имеет примерно в 115 раз больше параметров, чем GPT-2.
Что такое кварки в физике элементарных частиц?	К сожалению, данная сводка не содержит никакой информации о кварках в физике элементарных частиц. В резюме описывается изображение, связанное с развитием технологий обработки естественного языка и генеративного искусственного интеллекта, но ничего не упоминается о физике элементарных частиц или концепции кварков.

Запросите свой индекс

Вы можете использовать панели мониторинга OpenSearch для взаимодействия с API OpenSearch и запуска быстрых тестов вашего индекса и полученных данных.

уборка

Чтобы избежать будущих расходов, удалите ресурсы. Это можно сделать, удалив стек с помощью консоли AWS CloudFormation.

Заключение

Предприятия постоянно создают новый контент, а слайды — это распространенный способ обмена и распространения информации внутри организации, а также за ее пределами среди клиентов или на конференциях. Со временем богатая информация может остаться скрытой в нетекстовых формах, таких как графики и таблицы, в этих слайдах.

Вы можете использовать это решение и возможности мультимодальных FM, таких как Amazon Titan Text Embeddings и Claude 3 Sonnet, чтобы найти новую информацию или раскрыть новые взгляды на контент в слайдах. Вы можете опробовать различные модели Claude, доступные на Amazon Bedrock, обновив CLAUDE_MODEL_ID в globals.py .

Это вторая часть серии из трёх частей. В части 2 мы использовали мультимодальные встраивания Amazon Titan и модель LLaVA. В части 1 мы сравним подходы из части 3 и части 1.

Части этого кода опубликованы под лицензией Лицензия Апач 2.0.

Об авторах

Поговорите со своей слайд-презентацией, используя мультимодальные модели фундамента, размещенные на Amazon Bedrock – Часть 2 | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Амит Арора является архитектором-специалистом по искусственному интеллекту и машинному обучению в Amazon Web Services, помогая корпоративным клиентам использовать облачные сервисы машинного обучения для быстрого масштабирования своих инноваций. Он также является адъюнкт-лектором программы MS по науке о данных и аналитике в Джорджтаунском университете в Вашингтоне, округ Колумбия.

Поговорите со своей слайд-презентацией, используя мультимодальные модели фундамента, размещенные на Amazon Bedrock – Часть 2 | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Манджу Прасад — старший архитектор решений в Amazon Web Services. Она специализируется на предоставлении технических рекомендаций в различных технических областях, включая AI/ML. До прихода в AWS она проектировала и создавала решения для компаний сектора финансовых услуг, а также для стартапов. Она с энтузиазмом делится знаниями и поощряет интерес к новым талантам.

Поговорите со своей слайд-презентацией, используя мультимодальные модели фундамента, размещенные на Amazon Bedrock – Часть 2 | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Арчана Инапуди — старший архитектор решений в AWS, занимающийся поддержкой стратегического клиента. Она имеет более чем десятилетний опыт работы в различных отраслях, руководя стратегическими техническими инициативами. Арчана — амбициозный член технического сообщества AI/ML в AWS. До прихода в AWS Арчана руководил переходом от традиционных разрозненных источников данных к Hadoop в медицинской компании. Она увлечена использованием технологий для ускорения роста, повышения ценности для клиентов и достижения бизнес-результатов.

Поговорите со своей слайд-презентацией, используя мультимодальные модели фундамента, размещенные на Amazon Bedrock – Часть 2 | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Антара Раиса — архитектор решений искусственного интеллекта и машинного обучения в Amazon Web Services, занимающийся поддержкой стратегических клиентов из Далласа, штат Техас. У нее также есть предыдущий опыт работы с крупными корпоративными партнерами в AWS, где она работала архитектором решений для успеха партнеров для клиентов, ориентированных на цифровые технологии.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/talk-to-your-slide-deck-using-multimodal-foundation-models-hosted-on-amazon-bedrock-and-amazon-sagemaker-part-2/

Отметка времени: 19 апреля 2024

Отметка времени: 9 января, 2023

Переиздано Платоном

Получите ценную информацию от Zendesk с помощью интеллектуального поиска Amazon Kendra

Выберите определенные временные ряды для прогнозирования с помощью Amazon Forecast

Запустите сегментацию изображений с помощью Amazon SageMaker JumpStart

Ускорьте прогнозирование временных рядов до 50 процентов с помощью пользовательского интерфейса Amazon SageMaker Canvas и API-интерфейсов AutoML | Веб-сервисы Amazon

Повышение эффективности: Использование возможностей выборочного выполнения в конвейерах Amazon SageMaker | Веб-сервисы Амазонки

Создавайте, обучайте и развертывайте языковую модель с миллиардами параметров на терабайтах данных с помощью TensorFlow и Amazon SageMaker.

Получите более точные результаты поиска с Amazon Kendra Intelligent Ranking и подключаемым модулем OpenSearch

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись