Pesquisa semântica de imagens para artigos usando Amazon Rekognition, Amazon SageMaker Foundation Models e Amazon OpenSearch Service

Republicado por Platão

seguidores: 0

Os editores digitais estão continuamente procurando maneiras de simplificar e automatizar seus fluxos de trabalho de mídia para gerar e publicar novos conteúdos o mais rápido possível.

Os editores podem ter repositórios contendo milhões de imagens e, para economizar dinheiro, precisam poder reutilizar essas imagens em artigos. Encontrar a imagem que melhor corresponde a um artigo em repositórios desta escala pode ser uma tarefa manual demorada, repetitiva e que pode ser automatizada. Ele também depende da marcação correta das imagens no repositório, o que também pode ser automatizado (para uma história de sucesso de cliente, consulte Aller Media obtém sucesso com KeyCore e AWS).

Neste post, mostramos como usar Reconhecimento da Amazônia, JumpStart do Amazon SageMaker e Serviço Amazon OpenSearch para resolver esse problema de negócios. O Amazon Rekognition facilita a adição de capacidade de análise de imagens às suas aplicações sem qualquer conhecimento de machine learning (ML) e vem com diversas APIs para atender a casos de uso, como detecção de objetos, moderação de conteúdo, detecção e análise facial e reconhecimento de texto e celebridades, que usamos neste exemplo. SageMaker JumpStart é um serviço de baixo código que vem com soluções pré-construídas, notebooks de exemplo e muitos modelos pré-treinados de última geração de fontes disponíveis publicamente que são fáceis de implantar com um único clique em sua conta AWS . Esses modelos foram empacotados para serem implementados com segurança e facilidade por meio de Amazon Sage Maker APIs. O novo SageMaker JumpStart Foundation Hub permite implantar facilmente grandes modelos de linguagem (LLM) e integrá-los aos seus aplicativos. O OpenSearch Service é um serviço totalmente gerenciado que simplifica a implantação, o dimensionamento e a operação do OpenSearch. O OpenSearch Service permite armazenar vetores e outros tipos de dados em um índice e oferece funcionalidades avançadas que permitem pesquisar documentos usando vetores e medir a relação semântica, que usamos nesta postagem.

O objetivo final deste post é mostrar como podemos trazer à tona um conjunto de imagens semanticamente semelhantes a algum texto, seja um artigo ou uma sinopse de TV.

A captura de tela a seguir mostra um exemplo de como usar um miniartigo como entrada de pesquisa, em vez de usar palavras-chave, e ser capaz de exibir imagens semanticamente semelhantes.

Visão geral da solução

A solução está dividida em duas seções principais. Primeiro, você extrai metadados de rótulos e celebridades das imagens usando o Amazon Rekognition. Em seguida, você gera uma incorporação dos metadados usando um LLM. Você armazena os nomes das celebridades e a incorporação dos metadados no OpenSearch Service. Na segunda seção principal, você tem uma API para consultar imagens no índice do OpenSearch Service usando os recursos de pesquisa inteligente do OpenSearch para encontrar imagens semanticamente semelhantes ao seu texto.

Esta solução usa nossos serviços orientados a eventos Amazon Event Bridge, Funções de etapa da AWS e AWS Lambda para orquestrar o processo de extração de metadados das imagens usando o Amazon Rekognition. O Amazon Rekognition realizará duas chamadas de API para extrair rótulos e celebridades conhecidas da imagem.

API de detecção de celebridades do Amazon Rekognition, retorna vários elementos na resposta. Para esta postagem, você usa o seguinte:

Nome, ID e URLs – O nome da celebridade, um ID exclusivo do Amazon Rekognition e uma lista de URLs, como o IMDb da celebridade ou o link da Wikipedia para obter mais informações.
Match Confidence – Uma pontuação de confiança de correspondência que pode ser usada para controlar o comportamento da API. Recomendamos aplicar um limite adequado a esta pontuação em sua aplicação para escolher seu ponto operacional preferido. Por exemplo, ao definir um limite de 99%, você pode eliminar mais falsos positivos, mas pode perder algumas possíveis correspondências.

Na sua segunda chamada de API, API de detecção de rótulos do Amazon Rekognition, retorna vários elementos na resposta. Você usa o seguinte:

Nome – O nome do rótulo detectado
Confiança – O nível de confiança no rótulo atribuído a um objeto detectado

Um conceito-chave na pesquisa semântica são os embeddings. Uma incorporação de palavras é uma representação numérica de uma palavra ou grupo de palavras, na forma de um vetor. Quando você tem muitos vetores, pode medir a distância entre eles, e os vetores próximos são semanticamente semelhantes. Portanto, se você gerar uma incorporação de todos os metadados de suas imagens, e depois gerar uma incorporação de seu texto, seja um artigo ou uma sinopse de TV por exemplo, usando o mesmo modelo, você poderá encontrar imagens semanticamente semelhantes às suas. dado texto.

Existem muitos modelos disponíveis no SageMaker JumpStart para gerar embeddings. Para esta solução, você usa incorporação GPT-J 6B de Abraçando o rosto. Produz embeddings de alta qualidade e possui uma das principais métricas de desempenho de acordo com o Hugging Face's resultados da avaliação. Rocha Amazônica é outra opção, ainda em pré-visualização, onde você pode escolher o modelo Amazon Titan Text Embeddings para gerar os embeddings.

Você usa o modelo pré-treinado GPT-J do SageMaker JumpStart para criar uma incorporação dos metadados da imagem e armazená-los como um vetor k-NN no índice do OpenSearch Service, junto com o nome da celebridade em outro campo.

A segunda parte da solução é devolver ao usuário as 10 principais imagens que sejam semanticamente semelhantes ao seu texto, seja um artigo ou uma sinopse de TV, incluindo quaisquer celebridades, se presentes. Ao escolher uma imagem para acompanhar um artigo, você deseja que a imagem ressoe com os pontos pertinentes do artigo. O SageMaker JumpStart hospeda muitos modelos de resumo que podem pegar um longo corpo de texto e reduzi-lo aos pontos principais do original. Para o modelo de compactação, você usa o Laboratórios AI21 Resuma o modelo. Este modelo fornece recapitulações de artigos de notícias de alta qualidade e o texto fonte pode conter cerca de 10,000 palavras, o que permite ao usuário resumir o artigo inteiro de uma só vez.

Para detectar se o texto contém algum nome, celebridades potencialmente conhecidas, você usa Amazon Comprehend que pode extrair entidades-chave de uma sequência de texto. Em seguida, você filtra pela entidade Person, que usa como parâmetro de pesquisa de entrada.

Então você pega o artigo resumido e gera um embedding para usar como outro parâmetro de pesquisa de entrada. É importante observar que você usa o mesmo modelo implantado na mesma infraestrutura para gerar a incorporação do artigo como fez para as imagens. Você então usa K-NN exato com script de pontuação para que você possa pesquisar por dois campos: nomes de celebridades e o vetor que capturou a informação semântica do artigo. Consulte esta postagem, Explicação dos recursos de banco de dados de vetores do Amazon OpenSearch Service, sobre a escalabilidade do script Score e como essa abordagem em índices grandes pode levar a altas latências.

Passo a passo

O diagrama a seguir ilustra a arquitetura da solução.

Seguindo as etiquetas numeradas:

Você carrega uma imagem em um Amazon S3 balde
Amazon Event Bridge escuta esse evento e, em seguida, aciona um Função AWS Step execução
A Step Function pega a entrada da imagem, extrai os metadados do rótulo e da celebridade
A AWS Lambda função pega os metadados da imagem e gera uma incorporação
A Lambda A função então insere o nome da celebridade (se presente) e a incorporação como um vetor k-NN em um índice do OpenSearch Service
Amazon S3 hospeda um site estático simples, servido por um Amazon CloudFront distribuição. A interface do usuário (IU) front-end permite que você se autentique com o aplicativo usando Amazon Cognito para procurar imagens
Você envia um artigo ou algum texto por meio da IU
Outro Lambda chamadas de função Amazon Comprehend para detectar quaisquer nomes no texto
A função então resume o texto para obter os pontos pertinentes do artigo
A função gera uma incorporação do artigo resumido
A função então pesquisa Serviço OpenSearch índice de imagem para qualquer imagem que corresponda ao nome da celebridade e aos k vizinhos mais próximos do vetor usando similaridade de cosseno
Amazon CloudWatch e Raio-X da AWS fornecem observabilidade do fluxo de trabalho de ponta a ponta para alertá-lo sobre quaisquer problemas.

Extraia e armazene os principais metadados da imagem

As APIs DetectLabels e RecognizeCelebrities do Amazon Rekognition fornecem os metadados de suas imagens – rótulos de texto que você pode usar para formar uma frase a partir da qual gerar uma incorporação. O artigo fornece uma entrada de texto que você pode usar para gerar uma incorporação.

Gerar e armazenar embeddings de palavras

A figura a seguir demonstra a plotagem dos vetores de nossas imagens em um espaço bidimensional, onde para auxílio visual classificamos os embeddings por sua categoria primária.

Você também gera uma incorporação deste artigo recém-escrito, para que possa pesquisar no OpenSearch Service as imagens mais próximas do artigo neste espaço vetorial. Usando o algoritmo k-vizinhos mais próximos (k-NN), você define quantas imagens retornar em seus resultados.

Ampliando a figura anterior, os vetores são classificados com base na distância do artigo e, em seguida, retornam as K imagens mais próximas, onde K é 10 neste exemplo.

O OpenSearch Service oferece a capacidade de armazenar vetores grandes em um índice e também oferece a funcionalidade de executar consultas no índice usando k-NN, de forma que você possa consultar com um vetor para retornar os k documentos mais próximos que possuem vetores próximos. usando várias medidas. Para este exemplo, usamos similaridade de cosseno.

Detectar nomes no artigo

Você usa o Amazon Comprehend, um serviço de processamento de linguagem natural (PNL) de IA, para extrair as principais entidades do artigo. Neste exemplo, você usa o Amazon Comprehend para extrair entidades e filtrar pela entidade Person, que retorna quaisquer nomes que o Amazon Comprehend possa encontrar na história do jornalista, com apenas algumas linhas de código:

def get_celebrities(payload): response = comprehend_client.detect_entities( Text=' '.join(payload["text_inputs"]), LanguageCode="en", ) celebrities = "" for entity in response["Entities"]: if entity["Type"] == "PERSON": celebrities += entity["Text"] + " " return celebrities

Neste exemplo, você carrega uma imagem para Serviço de armazenamento simples da Amazon (Amazon S3), que aciona um fluxo de trabalho onde você extrai metadados da imagem, incluindo rótulos e quaisquer celebridades. Em seguida, você transforma os metadados extraídos em uma incorporação e armazena todos esses dados no OpenSearch Service.

Resuma o artigo e gere uma incorporação

Resumir o artigo é um passo importante para garantir que a palavra incorporação esteja capturando os pontos pertinentes do artigo e, portanto, retornando imagens que ressoem com o tema do artigo.

O modelo AI21 Labs Summarize é muito simples de usar, sem qualquer prompt e apenas algumas linhas de código:

def summarise_article(payload): sagemaker_endpoint_summarise = os.environ["SAGEMAKER_ENDPOINT_SUMMARIZE"] response = ai21.Summarize.execute( source=payload, sourceType="TEXT", destination=ai21.SageMakerDestination(sagemaker_endpoint_summarise) ) response_summary = response.summary return response_summary

Em seguida, você usa o modelo GPT-J para gerar a incorporação

def get_vector(payload_summary): sagemaker_endpoint = os.environ["SAGEMAKER_ENDPOINT_VECTOR"] response = sm_runtime_client.invoke_endpoint( EndpointName=sagemaker_endpoint, ContentType="application/json", Body=json.dumps(payload_summary).encode("utf-8"), ) response_body = json.loads((response["Body"].read())) return response_body["embedding"][0]

Em seguida, você pesquisa suas imagens no OpenSearch Service

A seguir está um trecho de exemplo dessa consulta:

def search_document_celeb_context(person_names, vector): results = wr.opensearch.search( client=os_client, index="images", search_body={ "size": 10, "query": { "script_score": { "query": { "match": {"celebrities": person_names } }, "script": { "lang": "knn", "source": "knn_score", "params": { "field": "image_vector", "query_value": vector, "space_type": "cosinesimil" } } } } }, ) return results.drop(columns=["image_vector"]).to_dict()

A arquitetura contém um aplicativo web simples para representar um sistema de gerenciamento de conteúdo (CMS).

Para um artigo de exemplo, usamos a seguinte entrada:

“Werner Vogels adorava viajar pelo mundo em seu Toyota. Vemos seu Toyota aparecer em muitas cenas enquanto ele dirige para encontrar vários clientes em suas cidades de origem.”

Nenhuma das imagens possui metadados com a palavra “Toyota”, mas a semântica da palavra “Toyota” é sinônimo de carros e direção. Portanto, com este exemplo, podemos demonstrar como podemos ir além da busca por palavras-chave e retornar imagens semanticamente semelhantes. Na captura de tela da IU acima, a legenda abaixo da imagem mostra os metadados extraídos pelo Amazon Rekognition.

Você pode incluir esta solução em um fluxo de trabalho maior onde você usa os metadados já extraídos de suas imagens para começar a usar a pesquisa vetorial junto com outros termos-chave, como nomes de celebridades, para retornar as imagens e documentos com melhor ressonância para sua consulta de pesquisa.

Conclusão

Nesta postagem, mostramos como você pode usar Amazon Rekognition, Amazon Comprehend, SageMaker e OpenSearch Service para extrair metadados de suas imagens e, em seguida, usar técnicas de ML para descobri-las automaticamente usando pesquisa semântica e de celebridades. Isto é particularmente importante na indústria editorial, onde a velocidade é importante para disponibilizar novos conteúdos rapidamente e para múltiplas plataformas.

Para obter mais informações sobre como trabalhar com ativos de mídia, consulte A inteligência de mídia ficou mais inteligente com o Media2Cloud 3.0.

Sobre o autor

Marcos Watkins é arquiteto de soluções na equipe de mídia e entretenimento, apoiando seus clientes na solução de muitos problemas de dados e ML. Longe da vida profissional, adora ficar com a família e ver os dois filhos crescerem.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Automotivo / EVs, Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
ChartPrime. Eleve seu jogo de negociação com ChartPrime. Acesse aqui.
BlockOffsets. Modernizando a Propriedade de Compensação Ambiental. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/semantic-image-search-for-articles-using-amazon-rekognition-amazon-sagemaker-foundation-models-and-amazon-opensearch-service/

Carimbo de hora: 8 de Setembro de 2023

Republicado por Platão

Salve a data: Junte-se à AWS no NVIDIA GTC, de 19 a 22 de setembro

MLOps na borda com Amazon SageMaker Edge Manager e AWS IoT Greengrass

URLs pré-assinados seguros do Amazon SageMaker Studio Parte 2: API privada com autenticação JWT

Aumente as transações de fraude usando dados sintéticos no Amazon SageMaker

Introdução à implantação de modelos em tempo real no Amazon SageMaker

A localização da AWS usa o Amazon Translate para dimensionar a localização

Execute e otimize a inferência de vários modelos com endpoints de vários modelos do Amazon SageMaker

Habilitar CI/CD de endpoints multirregionais do Amazon SageMaker

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta