Fale com sua apresentação de slides usando modelos de base multimodal hospedados no Amazon Bedrock – Parte 2

Republicado por Platão

seguidores: 0

In Parte 1 desta série, apresentamos uma solução que utilizou o Incorporações multimodais do Amazon Titan modelo para converter slides individuais de uma apresentação de slides em incorporações. Armazenamos os embeddings em um banco de dados vetorial e então usamos o Grande Assistente de Linguagem e Visão (LLaVA 1.5-7b) modelo para gerar respostas de texto às perguntas do usuário com base no slide mais semelhante recuperado do banco de dados vetorial. Usamos serviços AWS, incluindo Rocha Amazônica, Amazon Sage Maker e Amazon OpenSearch sem servidor nesta solução.

Neste post, demonstramos uma abordagem diferente. Nós usamos o Soneto antrópico de Claude 3 modelo para gerar descrições de texto para cada slide na apresentação de slides. Essas descrições são então convertidas em incorporações de texto usando o Incorporações de texto do Amazon Titan modelo e armazenado em um banco de dados vetorial. Em seguida, usamos o modelo Claude 3 Sonnet para gerar respostas às perguntas dos usuários com base na descrição de texto mais relevante recuperada do banco de dados vetorial.

Você pode testar ambas as abordagens para seu conjunto de dados e avaliar os resultados para ver qual abordagem oferece os melhores resultados. Na Parte 3 desta série, avaliamos os resultados de ambos os métodos.

Visão geral da solução

A solução fornece uma implementação para responder perguntas usando informações contidas em texto e elementos visuais de uma apresentação de slides. O design baseia-se no conceito de Geração Aumentada de Recuperação (RAG). Tradicionalmente, o RAG tem sido associado a dados textuais que podem ser processados por grandes modelos de linguagem (LLMs). Nesta série, estendemos o RAG para incluir imagens também. Isso fornece um poderoso recurso de pesquisa para extrair conteúdo contextualmente relevante de elementos visuais, como tabelas e gráficos, juntamente com texto.

Esta solução inclui os seguintes componentes:

Amazon Titan Text Embeddings é um modelo de embeddings de texto que converte texto em linguagem natural, incluindo palavras isoladas, frases ou até mesmo documentos grandes, em representações numéricas que podem ser usadas para potencializar casos de uso como pesquisa, personalização e clustering com base na similaridade semântica.
Claude 3 Sonnet é a próxima geração de modelos de última geração da Anthropic. Sonnet é uma ferramenta versátil que pode lidar com uma ampla gama de tarefas, desde raciocínio e análise complexos até resultados rápidos, bem como pesquisa e recuperação eficientes em grandes quantidades de informações.
OpenSearch Serverless é uma configuração sem servidor sob demanda para Amazon OpenSearch Service. Usamos OpenSearch Serverless como banco de dados vetorial para armazenar embeddings gerados pelo modelo Amazon Titan Text Embeddings. Um índice criado na coleção OpenSearch Serverless serve como armazenamento de vetores para nossa solução RAG.
Ingestão do Amazon OpenSearch (OSI) é um coletor de dados totalmente gerenciado e sem servidor que fornece dados para domínios do OpenSearch Service e coleções do OpenSearch Serverless. Nesta postagem, usamos uma API de pipeline OSI para entregar dados ao armazenamento de vetores OpenSearch Serverless.

O design da solução consiste em duas partes: ingestão e interação do usuário. Durante a ingestão, processamos a apresentação de slides de entrada convertendo cada slide em uma imagem, gerando descrições e incorporações de texto para cada imagem. Em seguida, preenchemos o armazenamento de dados vetoriais com os embeddings e a descrição de texto de cada slide. Essas etapas são concluídas antes das etapas de interação do usuário.

Na fase de interação do usuário, uma pergunta do usuário é convertida em incorporações de texto. Uma pesquisa de similaridade é executada no banco de dados vetorial para encontrar uma descrição de texto correspondente a um slide que possa conter respostas à pergunta do usuário. Em seguida, fornecemos a descrição do slide e a pergunta do usuário ao modelo Claude 3 Sonnet para gerar uma resposta à consulta. Todo o código deste post está disponível no GitHub descanso.

O diagrama a seguir ilustra a arquitetura de ingestão.

O fluxo de trabalho consiste nas seguintes etapas:

Os slides são convertidos em arquivos de imagem (um por slide) no formato JPG e passados para o modelo Claude 3 Sonnet para gerar a descrição do texto.
Os dados são enviados ao modelo Amazon Titan Text Embeddings para gerar embeddings. Nesta série, usamos a apresentação de slides Treine e implante o Stable Diffusion usando AWS Trainium e AWS Inferentia do AWS Summit em Toronto, junho de 2023, para demonstrar a solução. O deck de amostras possui 31 slides, portanto geramos 31 conjuntos de embeddings vetoriais, cada um com 1536 dimensões. Adicionamos campos de metadados adicionais para realizar consultas de pesquisa avançadas usando os poderosos recursos de pesquisa do OpenSearch.
Os embeddings são ingeridos em um pipeline OSI usando uma chamada de API.
O pipeline OSI ingere os dados como documentos em um índice OpenSearch Serverless. O índice é configurado como coletor para esse pipeline e é criado como parte da coleção OpenSearch Serverless.

O diagrama a seguir ilustra a arquitetura de interação do usuário.

O fluxo de trabalho consiste nas seguintes etapas:

Um usuário envia uma pergunta relacionada à apresentação de slides que foi processada.
A entrada do usuário é convertida em embeddings usando o modelo Amazon Titan Text Embeddings acessado usando Amazon Bedrock. Uma pesquisa vetorial do OpenSearch Service é realizada usando esses embeddings. Realizamos uma pesquisa de k-vizinho mais próximo (k-NN) para recuperar os embeddings mais relevantes que correspondem à consulta do usuário.
Os metadados da resposta do OpenSearch Serverless contêm um caminho para a imagem e uma descrição correspondente ao slide mais relevante.
Um prompt é criado combinando a pergunta do usuário e a descrição da imagem. O prompt é fornecido a Claude 3 Sonnet hospedado no Amazon Bedrock.
O resultado desta inferência é retornado ao usuário.

Discutiremos as etapas de ambos os estágios nas seções a seguir e incluímos detalhes sobre o resultado.

Pré-requisitos

Para implementar a solução fornecida neste post, você deve ter um Conta da AWS e familiaridade com FMs, Amazon Bedrock, SageMaker e OpenSearch Service.

Esta solução usa os modelos Claude 3 Sonnet e Amazon Titan Text Embeddings hospedados no Amazon Bedrock. Certifique-se de que esses modelos estejam habilitados para uso navegando até o Acesso ao modelo página no console do Amazon Bedrock.

Se os modelos estiverem habilitados, o Status de acesso irá declarar Acesso concedido.

Se os modelos não estiverem disponíveis, habilite o acesso escolhendo Gerenciar o acesso ao modelo, selecionando os modelos e escolhendo Solicitar acesso ao modelo. Os modelos são habilitados para uso imediato.

Use o AWS CloudFormation para criar a pilha de soluções

Você pode usar o AWS CloudFormation para criar a pilha de soluções. Se você criou a solução para a Parte 1 na mesma conta da AWS, exclua-a antes de criar esta pilha.

Região AWS	Ligação
`us-east-1`
`us-west-2`

Depois que a pilha for criada com sucesso, navegue até a guia Saídas da pilha no console do AWS CloudFormation e anote os valores para MultimodalCollectionEndpoint e OpenSearchPipelineEndpoint. Você os usa nas etapas subsequentes.

O modelo do CloudFormation cria os seguintes recursos:

Papéis IAM - A seguir Gerenciamento de acesso e identidade da AWS (IAM) são criadas. Atualize essas funções para aplicar permissões de privilégio mínimo, conforme discutido em Práticas recomendadas de segurança.
- SMExecutionRole de Serviço de armazenamento simples da Amazon (Amazon S3), SageMaker, OpenSearch Service e Amazon Bedrock acesso total.
- OSPipelineExecutionRole com acesso ao bucket S3 e ações OSI.
Caderno SageMaker – Todo o código deste post é executado usando este notebook.
Coleção sem servidor do OpenSearch – Este é o banco de dados vetorial para armazenar e recuperar embeddings.
Pipeline OSI – Este é o pipeline para ingestão de dados no OpenSearch Serverless.
Caçamba S3 – Todos os dados desta postagem são armazenados neste bucket.

O modelo CloudFormation define a configuração do pipeline necessária para configurar o pipeline OSI com HTTP como origem e o índice OpenSearch Serverless como coletor. O caderno SageMaker 2_data_ingestion.ipynb exibe como ingerir dados no pipeline usando o pedidos Biblioteca HTTP.

O modelo CloudFormation também cria rede, criptografia e acesso a dados políticas necessárias para sua coleção do OpenSearch Serverless. Atualize essas políticas para aplicar permissões de privilégio mínimo.

O nome do modelo CloudFormation e o nome do índice do OpenSearch Service são referenciados no notebook SageMaker 3_rag_inference.ipynb. Se você alterar os nomes padrão, certifique-se de atualizá-los no notebook.

Teste a solução

Depois de criar a pilha do CloudFormation, você poderá testar a solução. Conclua as seguintes etapas:

No console SageMaker, escolha Notebooks no painel de navegação.
Selecionar MultimodalNotebookInstance e escolha Abra o JupyterLab.
In Navegador de Arquivos, vá até a pasta de notebooks para ver os notebooks e os arquivos de suporte.

Os notebooks são numerados na sequência em que são executados. As instruções e comentários em cada bloco de notas descrevem as ações executadas por esse bloco de notas. Executamos esses notebooks um por um.

Escolha 1_data_prep.ipynb para abri-lo no JupyterLab.
No Execute menu, escolha Executar todas as células para executar o código neste notebook.

Este notebook fará o download de um arquivo disponível publicamente conjunto de slides, converta cada slide no formato de arquivo JPG e carregue-os no bucket S3.

Escolha 2_data_ingestion.ipynb para abri-lo no JupyterLab.
No Execute menu, escolha Executar todas as células para executar o código neste notebook.

Neste notebook, você cria um índice na coleção OpenSearch Serverless. Este índice armazena os dados de incorporação da apresentação de slides. Veja o seguinte código:

session = boto3.Session()
credentials = session.get_credentials()
auth = AWSV4SignerAuth(credentials, g.AWS_REGION, g.OS_SERVICE)

os_client = OpenSearch(
  hosts = [{'host': host, 'port': 443}],
  http_auth = auth,
  use_ssl = True,
  verify_certs = True,
  connection_class = RequestsHttpConnection,
  pool_maxsize = 20
)

index_body = """
{
  "settings": {
    "index.knn": true
  },
  "mappings": {
    "properties": {
      "vector_embedding": {
        "type": "knn_vector",
        "dimension": 1536,
        "method": {
          "name": "hnsw",
          "engine": "nmslib",
          "parameters": {}
        }
      },
      "image_path": {
        "type": "text"
      },
      "slide_text": {
        "type": "text"
      },
      "slide_number": {
        "type": "text"
      },
      "metadata": { 
        "properties" :
          {
            "filename" : {
              "type" : "text"
            },
            "desc":{
              "type": "text"
            }
          }
      }
    }
  }
}
"""
index_body = json.loads(index_body)
try:
  response = os_client.indices.create(index_name, body=index_body)
  logger.info(f"response received for the create index -> {response}")
except Exception as e:
  logger.error(f"error in creating index={index_name}, exception={e}")

Você usa os modelos Claude 3 Sonnet e Amazon Titan Text Embeddings para converter as imagens JPG criadas no notebook anterior em embeddings vetoriais. Esses embeddings e metadados adicionais (como o caminho S3 e a descrição do arquivo de imagem) são armazenados no índice junto com os embeddings. O trecho de código a seguir mostra como Claude 3 Sonnet gera descrições de imagens:

def get_img_desc(image_file_path: str, prompt: str):
    # read the file, MAX image size supported is 2048 * 2048 pixels
    with open(image_file_path, "rb") as image_file:
        input_image_b64 = image_file.read().decode('utf-8')
  
    body = json.dumps(
        {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 1000,
            "messages": [
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "image",
                            "source": {
                                "type": "base64",
                                "media_type": "image/jpeg",
                                "data": input_image_b64
                            },
                        },
                        {"type": "text", "text": prompt},
                    ],
                }
            ],
        }
    )
    
    response = bedrock.invoke_model(
        modelId=g.CLAUDE_MODEL_ID,
        body=body
    )

    resp_body = json.loads(response['body'].read().decode("utf-8"))
    resp_text = resp_body['content'][0]['text'].replace('"', "'")

    return resp_text

As descrições das imagens são passadas para o modelo Amazon Titan Text Embeddings para gerar embeddings vetoriais. Esses embeddings e metadados adicionais (como o caminho S3 e a descrição do arquivo de imagem) são armazenados no índice junto com os embeddings. O snippet de código a seguir mostra a chamada para o modelo Amazon Titan Text Embeddings:

def get_text_embedding(bedrock: botocore.client, prompt_data: str) -> np.ndarray:
    body = json.dumps({
        "inputText": prompt_data,
    })    
    try:
        response = bedrock.invoke_model(
            body=body, modelId=g.TITAN_MODEL_ID, accept=g.ACCEPT_ENCODING, contentType=g.CONTENT_ENCODING
        )
        response_body = json.loads(response['body'].read())
        embedding = response_body.get('embedding')
    except Exception as e:
        logger.error(f"exception={e}")
        embedding = None

    return embedding

Os dados são ingeridos no índice OpenSearch Serverless fazendo uma chamada de API para o pipeline OSI. O trecho de código a seguir mostra a chamada feita usando a biblioteca HTTP Requests:

data = json.dumps([{
    "image_path": input_image_s3, 
    "slide_text": resp_text, 
    "slide_number": slide_number, 
    "metadata": {
        "filename": obj_name, 
        "desc": "" 
    }, 
    "vector_embedding": embedding
}])

r = requests.request(
    method='POST', 
    url=osi_endpoint, 
    data=data,
    auth=AWSSigV4('osis'))

Escolha 3_rag_inference.ipynb para abri-lo no JupyterLab.
No Execute menu, escolha Executar todas as células para executar o código neste notebook.

Este notebook implementa a solução RAG: você converte a pergunta do usuário em embeddings, encontra uma descrição de imagem semelhante no banco de dados vetorial e fornece a descrição recuperada ao Claude 3 Sonnet para gerar uma resposta à pergunta do usuário. Você usa o seguinte modelo de prompt:

  llm_prompt: str = """

  Human: Use the summary to provide a concise answer to the question to the best of your abilities. If you cannot answer the question from the context then say I do not know, do not make up an answer.
  <question>
  {question}
  </question>

  <summary>
  {summary}
  </summary>

  Assistant:"""

O trecho de código a seguir fornece o fluxo de trabalho RAG:

def get_llm_response(bedrock: botocore.client, question: str, summary: str) -> str:
    prompt = llm_prompt.format(question=question, summary=summary)
    
    body = json.dumps(
    {
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 1000,
        "messages": [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": prompt},
                ],
            }
        ],
    })
        
    try:
        response = bedrock.invoke_model(
        modelId=g.CLAUDE_MODEL_ID,
        body=body)

        response_body = json.loads(response['body'].read().decode("utf-8"))
        llm_response = response_body['content'][0]['text'].replace('"', "'")
        
    except Exception as e:
        logger.error(f"exception while slide_text={summary[:10]}, exception={e}")
        llm_response = None

    return llm_response


# create prompt and convert to embeddings question: str = "How does Inf2 compare in performance to comparable EC2 instances? I need numbers." text_embedding = get_text_embedding(bedrock, question) # vector db search vector_db_response: Dict = find_similar_data(text_embeddings) # download image for local notebook display s3_img_path = vector_db_response.get('hits', {}).get('hits')[0].get('_source').get('image_path') logger.info(f"going to answer the question="{question}" using the image "{s3_img_path}"") !aws s3 cp {s3_img_path} . local_img_path = os.path.basename(s3_img_path) display(filename=local_img_path) # Ask Claude 3 Sonnet slide_text = vector_db_response.get('hits', {}).get('hits')[0].get('_source').get('slide_text') llm_response = get_llm_response(bedrock, question, slide_text) print(llm_response)

Resultados

A tabela a seguir contém algumas perguntas e respostas de usuários geradas por nossa implementação. O Questão coluna captura a pergunta do usuário e a Resposta coluna é a resposta textual gerada por Claude 3 Sonnet. O Imagem coluna mostra a correspondência de slide k-NN retornada pela pesquisa vetorial OpenSearch Serverless.

Resultados RAG multimodais

Questão	Resposta	Imagem
Como o Inf2 se compara em desempenho a instâncias EC2 comparáveis? Eu preciso de números.	Com base nas informações fornecidas no resumo, os principais números de comparação de desempenho fornecidos para as instâncias Inf2 do Amazon EC2 em comparação com outras instâncias são: 1. Taxa de transferência até 4x maior. 2. Latência até 10x menor. O resumo não fornece números específicos comparando as instâncias Inf2 com outros tipos de instância EC2. No entanto, destaca as melhorias no rendimento e na latência como as principais vantagens de desempenho das instâncias Inf2 em relação às instâncias comparáveis para a execução de modelos generativos de IA.
De acordo com o volante AI/ML, o que os serviços AWS AI/ML oferecem?	Com base no resumo, os serviços de IA/ML da AWS fornecem uma variedade de recursos que alimentam um volante de IA/ML. Este volante consiste na inovação no desenvolvimento de algoritmos novos e melhores, permitindo mais casos de utilização e aplicações, impulsionando uma adoção e procura mais amplas, o que por sua vez leva a mais investimentos em investigação e otimização para impulsionar mais inovação. Os serviços de IA/ML da AWS parecem oferecer ferramentas, recursos e infraestrutura para apoiar esse ciclo contínuo de inovação, desenvolvimento de aplicativos, adoção e reinvestimento no campo da inteligência artificial e do aprendizado de máquina.
Comparado ao GPT-2, quantos parâmetros a mais o GPT-3 possui? Qual é a diferença numérica entre o tamanho do parâmetro GPT-2 e GPT-3?	De acordo com as informações fornecidas no resumo, o GPT-3 de 2020 tinha 175B (175 bilhões) de parâmetros, enquanto o GPT-2 de 2019 tinha 1.5B (1.5 bilhão) de parâmetros. Portanto, a diferença numérica entre o tamanho dos parâmetros do GPT-2 e do GPT-3 é de 173.5 bilhões de parâmetros. O GPT-3 possui aproximadamente 115 vezes mais parâmetros que o GPT-2.
O que são quarks na física de partículas?	Infelizmente, o resumo fornecido não contém nenhuma informação sobre quarks na física de partículas. O resumo descreve uma imagem relacionada à progressão do processamento de linguagem natural e das tecnologias generativas de IA, mas não menciona nada sobre física de partículas ou o conceito de quarks.

Consulte seu índice

Você pode usar o OpenSearch Dashboards para interagir com a API OpenSearch para executar testes rápidos em seu índice e dados ingeridos.

Limpar

Para evitar incorrer em cobranças futuras, exclua os recursos. Você pode fazer isso excluindo a pilha usando o console do AWS CloudFormation.

Conclusão

As empresas geram novos conteúdos o tempo todo, e as apresentações de slides são uma forma comum de compartilhar e disseminar informações internamente na organização e externamente com clientes ou em conferências. Com o tempo, informações valiosas podem permanecer ocultas em modalidades não textuais, como gráficos e tabelas nessas apresentações de slides.

Você pode usar esta solução e o poder dos FMs multimodais, como o Amazon Titan Text Embeddings e o Claude 3 Sonnet, para descobrir novas informações ou descobrir novas perspectivas sobre o conteúdo em apresentações de slides. Você pode experimentar diferentes modelos Claude disponíveis no Amazon Bedrock atualizando o CLAUDE_MODEL_ID no globals.py arquivo.

Esta é a Parte 2 de uma série de três partes. Usamos o Amazon Titan Multimodal Embeddings e o modelo LLaVA na Parte 1. Na Parte 3, compararemos as abordagens da Parte 1 e da Parte 2.

Partes deste código são liberadas sob o Licença Apache 2.0.

Sobre os autores

Fale com sua apresentação de slides usando modelos de base multimodais hospedados no Amazon Bedrock – Parte 2 | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Amit Arora é um arquiteto especialista em IA e ML na Amazon Web Services, ajudando clientes corporativos a usar serviços de aprendizado de máquina baseados em nuvem para dimensionar rapidamente suas inovações. Ele também é professor adjunto no programa de ciência e análise de dados MS na Georgetown University em Washington DC

Fale com sua apresentação de slides usando modelos de base multimodais hospedados no Amazon Bedrock – Parte 2 | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Manju Prasad é arquiteto de soluções sênior na Amazon Web Services. Ela se concentra em fornecer orientação técnica em uma variedade de domínios técnicos, incluindo IA/ML. Antes de ingressar na AWS, ela projetou e construiu soluções para empresas do setor de serviços financeiros e também para uma startup. Ela é apaixonada por compartilhar conhecimento e promover o interesse em talentos emergentes.

Fale com sua apresentação de slides usando modelos de base multimodais hospedados no Amazon Bedrock – Parte 2 | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Archana Inapudi é arquiteto de soluções sênior na AWS, dando suporte a um cliente estratégico. Ela tem mais de uma década de experiência em vários setores liderando iniciativas técnicas estratégicas. Archana é um aspirante a membro da comunidade de campo técnico de IA/ML da AWS. Antes de ingressar na AWS, Archana liderou uma migração de fontes de dados tradicionais isoladas para o Hadoop em uma empresa de saúde. Ela é apaixonada por usar a tecnologia para acelerar o crescimento, agregar valor aos clientes e alcançar resultados de negócios.

Fale com sua apresentação de slides usando modelos de base multimodais hospedados no Amazon Bedrock – Parte 2 | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Antara Raisa é arquiteto de soluções de IA e ML na Amazon Web Services, oferecendo suporte a clientes estratégicos baseados em Dallas, Texas. Ela também tem experiência anterior trabalhando com grandes parceiros empresariais na AWS, onde trabalhou como Partner Success Solutions Architect para clientes centrados no digital.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/talk-to-your-slide-deck-using-multimodal-foundation-models-hosted-on-amazon-bedrock-and-amazon-sagemaker-part-2/

Carimbo de hora: 19 de abril de 2024

Carimbo de hora: 9 de janeiro de 2023

Republicado por Platão

Descubra insights do Zendesk com a pesquisa inteligente do Amazon Kendra

Escolha séries temporais específicas para prever com o Amazon Forecast

Execute a segmentação de imagens com o Amazon SageMaker JumpStart

Acelere sua previsão de série temporal em até 50% com a UI do Amazon SageMaker Canvas e APIs AutoML | Amazon Web Services

Desbloqueando a eficiência: aproveitando o poder da execução seletiva nos pipelines do Amazon SageMaker | Amazon Web Services

Crie, treine e implante um modelo de linguagem de bilhões de parâmetros em terabytes de dados com o TensorFlow e o Amazon SageMaker

Obtenha resultados de pesquisa mais inteligentes com o plug-in Amazon Kendra Intelligent Ranking e OpenSearch

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta