Crie facilmente pesquisa semântica de imagens usando Amazon Titan

Republicado por Platão

seguidores: 0

Os editores digitais estão continuamente procurando maneiras de simplificar e automatizar seus fluxos de trabalho de mídia para gerar e publicar novos conteúdos o mais rápido possível, mas sem abrir mão da qualidade.

Adicionar imagens para capturar a essência do texto pode melhorar a experiência de leitura. As técnicas de aprendizado de máquina podem ajudá-lo a descobrir essas imagens. “Uma imagem marcante é uma das formas mais eficazes de captar a atenção do público e criar envolvimento com a sua história, mas também tem que fazer sentido. "

A num post anterior discutimos como você pode usar os serviços de aprendizado de máquina (ML) da Amazon para ajudá-lo a encontrar as melhores imagens a serem colocadas ao longo de um artigo ou sinopse de TV sem digitar palavras-chave. Na postagem anterior você usou Reconhecimento da Amazônia para extrair metadados de uma imagem. Em seguida, você usou um modelo de incorporação de texto para gerar uma incorporação de palavras dos metadados que poderia ser usada posteriormente para ajudar a encontrar as melhores imagens.

Nesta postagem, você verá como usar os modelos básicos do Amazon Titan para entender rapidamente um artigo e encontrar as melhores imagens para acompanhá-lo. Desta vez, você gera a incorporação diretamente da imagem.

Um conceito-chave na pesquisa semântica são os embeddings. Uma incorporação é uma representação numérica de alguma entrada – uma imagem, texto ou ambos – na forma de um vetor. Quando você tem muitos vetores, pode medir a distância entre eles, e os vetores próximos são semanticamente semelhantes ou relacionados.

Rocha Amazônica é um serviço totalmente gerenciado que oferece uma escolha de modelos básicos (FMs) de alto desempenho de empresas líderes de IA, incluindo AI21 Labs, Anthropic, Cohere, Meta, Stability AI e Amazon com uma única API, juntamente com um amplo conjunto de recursos para ajudam você a criar aplicativos generativos de IA, simplificando o desenvolvimento e mantendo a privacidade e a segurança.

Titã Amazona adicionou recentemente um novo modelo de incorporação à sua coleção, Titan Multimodal Embeddings. Este novo modelo pode ser usado para pesquisa multimodal, sistemas de recomendação e outras aplicações downstream.

Os modelos multimodais podem compreender e analisar dados em múltiplas modalidades, como texto, imagem, vídeo e áudio. Este modelo mais recente do Amazon Titan pode aceitar texto, imagens ou ambos. Isso significa que você usa o mesmo modelo para gerar embeddings de imagens e texto e usa esses embeddings para calcular o quão semelhantes os dois são.

Visão geral da solução

Na captura de tela a seguir, você pode ver como pegar um miniartigo, realizar uma pesquisa e encontrar imagens que ressoem com o artigo. Neste exemplo, você pega uma frase que descreve Werner Vogels usando lenços brancos enquanto viajava pela Índia. O vetor da frase está semanticamente relacionado aos vetores das imagens de Werner usando lenço e, portanto, retornado como as imagens de topo nesta pesquisa.

Em um nível alto, uma imagem é carregada para Serviço de armazenamento simples da Amazon (Amazon S3) e os metadados são extraídos incluindo a incorporação da imagem.

Para extrair metadados textuais da imagem, você usa o recurso de reconhecimento de celebridades e os votos de recurso de detecção de rótulo in Reconhecimento da Amazônia. O Amazon Rekognition reconhece automaticamente dezenas de milhares de personalidades conhecidas em imagens e vídeos usando ML. Você usa esse recurso para reconhecer qualquer celebridade nas imagens e armazenar esses metadados em Serviço Amazon OpenSearch. A detecção de rótulo encontra objetos e conceitos da imagem, como a captura de tela anterior, onde você tem os metadados do rótulo abaixo da imagem.

Você usa o modelo Titan Multimodal Embeddings para gerar uma incorporação da imagem que também é metadado pesquisável.

Todos os metadados são então armazenados em Serviço OpenSearch para consultas de pesquisa posteriores quando você precisar encontrar uma imagem ou imagens.

A segunda parte da arquitetura é enviar um artigo para encontrar essas imagens recém-ingeridas.

Quando o artigo for enviado, você precisará extrair e transformar o artigo em uma entrada de pesquisa para o OpenSearch Service. Você usa Amazon Comprehend para detectar quaisquer nomes no texto que possam ser celebridades em potencial. Você resume o artigo, pois provavelmente escolherá apenas uma ou duas imagens para capturar a essência do artigo. Gerar um resumo do texto é uma boa forma de garantir que a incorporação está capturando os pontos pertinentes da história. Para isso, você usa o Amazon Titan Text G1 – Expresso modelo com um prompt como “Forneça um resumo do texto a seguir. Não adicione nenhuma informação que não esteja mencionada no texto abaixo.” Com o artigo resumido, você usa o modelo Amazon Titan Multimodal Embeddings para gerar uma incorporação do artigo resumido. O modelo de incorporação também possui uma contagem máxima de entrada de token, portanto, resumir o artigo é ainda mais importante para garantir que você possa obter o máximo possível de informações capturadas na incorporação. Em termos simples, um token é uma única palavra, subpalavra ou caractere.

Em seguida, você realiza uma pesquisa no OpenSearch Service com os nomes e a incorporação do artigo para recuperar imagens que sejam semanticamente semelhantes à presença de determinada celebridade, se presente.

Como usuário, você está apenas pesquisando imagens usando um artigo como entrada.

Passo a passo

O diagrama a seguir mostra a arquitetura para entregar esse caso de uso.

As etapas a seguir abordam a sequência de ações (representadas no diagrama) que permitem a pesquisa semântica de imagens e celebridades.

Você carrega uma imagem em um Amazon S3 balde.
Amazon Event Bridge escuta esse evento e inicia uma etapa do AWS Step Functions.
A etapa Step Functions leva o Amazon S3 detalhes da imagem e executa três ações paralelas:
1. Uma chamada de API para Reconhecimento da Amazônia Detectar rótulos para extrair metadados de objetos
2. Uma chamada de API para Reconhecimento da Amazônia Reconhecer Celebridades APIs para extrair qualquer celebridade conhecida
3. A AWS Lambda A função redimensiona a imagem para as dimensões máximas aceitas para o modelo de incorporação de ML e gera uma incorporação diretamente da entrada da imagem.
A Lambda A função então insere os metadados do objeto de imagem e nomes de celebridades, se presentes, e a incorporação como um vetor k-NN em um índice do OpenSearch Service.
Amazon S3 hospeda um site estático simples, distribuído por um Amazon CloudFront. A interface do usuário (IU) front-end permite que você se autentique com o aplicativo usando Amazon Cognito para procurar imagens.
Você envia um artigo ou algum texto usando a IU.
Outro Lambda chamadas de função Amazon Comprehend para detectar quaisquer nomes no texto como celebridades em potencial.
A função então resume o texto para obter os pontos pertinentes do artigo usando Titan Text G1 – Express.
A função gera uma incorporação do artigo resumido usando o modelo Amazon Titan Multimodal Embeddings.
A função então pesquisa o Serviço OpenSearch índice de imagens para imagens que correspondem ao nome da celebridade e ao k-vizinhos mais próximos para o vetor usando similaridade de cosseno utilização K-NN exato com script de pontuação.
Amazon CloudWatch e Raio-X da AWS proporcionam observabilidade do fluxo de trabalho de ponta a ponta para alertá-lo sobre quaisquer problemas.

A figura a seguir mostra o designer visual do fluxo de trabalho do Step Functions.

Aqui está um exemplo de incorporação:

{"Embedding_Results": [-0.40342346, 0.073382884, 0.22957325, -0.014249567, 0.042733602, -0.102064356, 0.21086141, -0.4672587, 0.17779616, 0.08438544, -0.58220416, -0.010788828, -0.28306714, 0.4242958, -0.01655291,....

A matriz de números anterior é o que captura o significado do objeto de texto ou imagem em uma forma na qual você pode realizar cálculos e funções.

Os embeddings têm alta dimensionalidade, de algumas centenas a muitos milhares de dimensões. Este modelo possui dimensionalidade de 1,024, ou seja, o array anterior terá 1,024 elementos que capturam a semântica do determinado objeto.

Incorporação multimodal versus incorporação de texto

Discutimos duas opções na entrega de pesquisa semântica de imagens, onde a principal diferença é como você gera os embeddings das imagens. Na nossa num post anterior, você gera uma incorporação a partir dos metadados textuais, que são extraídos usando o Amazon Rekognition. Neste post, você utiliza o modelo Titan Multimodal Embeddings, podendo gerar um embedding da imagem diretamente.

Fazendo um teste rápido e executando uma consulta na IU em relação às duas abordagens, você pode ver que os resultados são visivelmente diferentes. O artigo de consulta de exemplo é “Werner Vogels adora usar lenços brancos enquanto viaja pela Índia”.

O resultado do modelo multimodal pontua mais as imagens com lenço presente. A palavra lenço está presente em nosso artigo submetido, e a incorporação reconheceu isso.

Na IU, você pode ver os metadados extraídos pelo Amazon Rekognition, e os metadados não incluem a palavra cachecol e, portanto, perderam algumas informações da imagem, o que você pode presumir que o modelo de incorporação de imagem não tem e, portanto, o modelo multimodal pode ter uma vantagem dependendo do caso de uso. Usando o Amazon Rekognition, você pode filtrar os objetos detectados na imagem antes de criar uma incorporação e, portanto, ter outros casos de uso aplicáveis que podem funcionar melhor dependendo do resultado desejado.

A figura a seguir mostra os resultados do modelo Amazon Titan Multimodal Embeddings.

A figura a seguir mostra os resultados do modelo de incorporação de texto do Amazon Titan usando os metadados extraídos do Amazon Rekognition para gerar a incorporação.

Pré-requisitos

Para este passo a passo, você deve ter os seguintes pré-requisitos:

An Conta da AWS
Interface de linha de comando do modelo de aplicativo sem servidor da AWS (AWS SAM CLI)
- A solução usa a CLI do AWS SAM para implantação.
- Certifique-se de estar usando a versão mais recente do AWS SAM CLI.
Estivador
- A solução usa a opção AWS SAM CLI para criar dentro de um contêiner para evitar a necessidade de dependências locais. Você precisa do Docker para isso.
Node
- O front-end desta solução é uma aplicação web React que pode ser executada localmente usando Node.
npm
- A instalação dos pacotes necessários para executar o aplicativo da web localmente ou construí-lo para implantação remota requer npm.

Crie e implante o aplicativo full stack

Clonar o repositório

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

Mude o diretório para o projeto recém-clonado.
```
cd semantic-image-search-for-articles
```
Execute npm install para baixar todos os pacotes necessários para executar o aplicativo.
```
npm install
```
Execute um script de implantação que execute uma série de scripts em sequência que farão uma Sam construir, Sam implantar, atualize os arquivos de configuração e hospede os arquivos do aplicativo web no Amazon S3, prontos para veiculação por meio do Amazon CloudFront
```
npm run deploy
```
Uma das saídas finais do script é uma URL do Amazon CloudFront, que é como você acessará o aplicativo. Você deve criar um novo usuário no AWS Management Console para fazer login. Anote o URL para usar mais tarde.

A captura de tela a seguir mostra como o script usou o AWS SAM para implantar sua pilha e gerou um URL do Amazon CloudFront que você pode usar para acessar o aplicativo.

Crie um novo usuário para fazer login no aplicativo

Vou ao Amazon Cognito console e selecione seu novo Grupo de usuários.
Crie um novo usuário com uma nova senha.

Faça login e teste o aplicativo da web

Encontre o Amazon CloudFront URL para acessar a página de login. Isso é exibido na linha final, conforme mostrado na imagem anterior.
Digite sua nova combinação de nome de usuário e senha para fazer login.
Faça upload de algumas imagens de exemplo usando a IU.
1. Escolha Escolha o arquivo e depois escolha Escolher arquivo.
  Observação: Você também pode fazer upload em massa diretamente para o bucket do S3 adicionando arquivos ao /carregamentos pasta.
2. Escreva ou copie e cole um artigo e escolha Submeter para ver se as imagens são devolvidas na ordem esperada.

Limpando

Para evitar incorrer em cobranças futuras, exclua os recursos.

Encontre o bucket S3 implantado com esta solução e esvazie-o.
Acesse o console do CloudFormation, escolha a pilha que você implantou por meio do script de implantação mencionado anteriormente e exclua a pilha.

Conclusão

Nesta postagem, você viu como usar Amazon Rekognition, Amazon Comprehend, Amazon Bedrock e OpenSearch Service para extrair metadados de suas imagens e, em seguida, usar técnicas de ML para descobrir automaticamente conteúdo intimamente relacionado usando celebridades e pesquisa semântica. Isto é particularmente importante na indústria editorial, onde a velocidade é importante para disponibilizar novos conteúdos rapidamente e para múltiplas plataformas.

Na próxima etapa, implante a solução em sua conta da AWS e carregue algumas de suas próprias imagens para testar como a pesquisa semântica pode funcionar para você. Deixe-me saber alguns de seus comentários nos comentários abaixo.

Sobre os autores

Marcos Watkins é arquiteto de soluções na equipe de mídia e entretenimento, apoiando seus clientes na solução de muitos problemas de dados e ML. Longe da vida profissional, adora ficar com a família e ver os dois filhos crescerem.

Dan Johns é engenheiro arquiteto de soluções, apoiando seus clientes na construção da AWS e no atendimento aos requisitos de negócios. Longe da vida profissional, adora ler, estar com a família e automatizar tarefas dentro de casa.