使用 Amazon Rekognition、Amazon SageMaker Foundation 模型和 Amazon OpenSearch Service 对文章进行语义图像搜索

由柏拉图重新发布

关注： 0

数字出版商一直在寻找方法来简化和自动化他们的媒体工作流程，以便尽可能快地生成和发布新内容。

出版商可以拥有包含数百万张图像的存储库，为了节省资金，他们需要能够在文章中重复使用这些图像。在这种规模的存储库中查找与文章最匹配的图像可能是一项耗时、重复的手动任务，但可以自动化。它还依赖于存储库中正确标记的图像，这也可以自动化（有关客户成功案例，请参阅 Aller Media 借助 KeyCore 和 AWS 取得成功).

在这篇文章中，我们演示了如何使用亚马逊重新认识, 亚马逊SageMaker JumpStart及亚马逊开放搜索服务来解决这个业务问题。 Amazon Rekognition 可以轻松地将图像分析功能添加到您的应用程序中，无需任何机器学习 (ML) 专业知识，并附带各种 API 来满足对象检测、内容审核、人脸检测和分析以及文本和名人识别等用例，我们在这个例子中使用。 SageMaker JumpStart 是一项低代码服务，附带预构建的解决方案、示例笔记本以及来自公开可用来源的许多最先进的预训练模型，只需单击一下您的 AWS 账户即可轻松部署。这些模型已打包，可以通过以下方式安全、轻松地部署亚马逊SageMaker 蜜蜂。新的 SageMaker JumpStart Foundation Hub 可让您轻松部署大型语言模型 (LLM) 并将其与您的应用程序集成。 OpenSearch 服务是一项完全托管的服务，可以轻松部署、扩展和操作 OpenSearch。 OpenSearch 服务允许您在索引中存储向量和其他数据类型，并提供丰富的功能，允许您使用向量搜索文档并测量语义相关性（我们在本文中使用）。

这篇文章的最终目标是展示我们如何呈现一组在语义上与某些文本（无论是文章还是电视概要）相似的图像。

下面的屏幕截图显示了一个示例，该示例使用一篇迷你文章作为搜索输入，而不是使用关键字，并且能够显示语义相似的图像。

解决方案概述

该解决方案分为两个主要部分。首先，您使用 Amazon Rekognition 从图像中提取标签和名人元数据。然后，您可以使用 LLM 生成元数据的嵌入。您将名人姓名以及元数据嵌入存储在 OpenSearch 服务中。在第二个主要部分中，您有一个 API 可以使用 OpenSearch 的智能搜索功能来查询 OpenSearch 服务索引中的图像，以查找语义上与您的文本相似的图像。

该解决方案使用我们的事件驱动服务亚马逊EventBridge, AWS步骤功能及 AWS Lambda 协调使用 Amazon Rekognition 从图像中提取元数据的过程。 Amazon Rekognition 将执行两个 API 调用以从图像中提取标签和已知名人。

Amazon Rekognition 名人检测 API，返回响应中的多个元素。对于这篇文章，您使用以下内容：

名称、ID 和网址 – 名人姓名、唯一的 Amazon Rekognition ID 和 URL 列表，例如名人的 IMDb 或维基百科链接以获取更多信息。
匹配置信度 – 可用于控制 API 行为的匹配置信度分数。我们建议在您的应用中对此分数应用合适的阈值，以选择您的首选工作点。例如，通过设置 99% 的阈值，您可以消除更多误报，但可能会错过一些潜在的匹配项。

在第二个 API 调用中， Amazon Rekognition 标签检测 API，返回响应中的多个元素。您使用以下内容：

名称 – 检测到的标签名称
置信度 – 分配给检测到的对象的标签的置信度

语义搜索中的一个关键概念是嵌入。词嵌入是一个词或词组的数字表示，以向量的形式。当你有很多向量时，你可以测量它们之间的距离，距离接近的向量在语义上是相似的。因此，如果您使用相同的模型生成所有图像元数据的嵌入，然后生成文本（例如文章或电视概要）的嵌入，则您可以找到在语义上与您的文本相似的图像。给定的文本。

SageMaker JumpStart 中有许多模型可用于生成嵌入。对于此解决方案，您使用 GPT-J 6B Embedding 拥抱脸。它可以生成高质量的嵌入，并且根据 Hugging Face 的数据，它是顶级性能指标之一评价结果. 亚马逊基岩是另一个选项，仍处于预览阶段，您可以在其中选择 Amazon Titan Text Embeddings 模型来生成嵌入。

您使用 SageMaker JumpStart 中的 GPT-J 预训练模型来创建图像元数据的嵌入，并将其存储为 k-NN向量在您的 OpenSearch Service 索引中，以及另一个字段中的名人姓名。

该解决方案的第二部分是向用户返回在语义上与其文本相似的前 10 张图像，无论是文章还是电视概要，包括任何名人（如果有）。选择文章附带的图像时，您希望该图像与文章中的相关要点产生共鸣。 SageMaker JumpStart 托管许多摘要模型，这些模型可以采用较长的文本正文并将其从原始文本缩减为要点。对于汇总模型，您可以使用 AI21 实验室总结模型。该模型提供高质量的新闻文章摘要，源文本可包含大约 10,000 个单词，允许用户一次性总结整篇文章。

要检测文本是否包含任何姓名、可能已知的名人，您可以使用亚马逊领悟可以提取关键实体来自文本字符串。然后，您可以按 Person 实体进行过滤，并将其用作输入搜索参数。

然后，您获取摘要文章并生成嵌入以用作另一个输入搜索参数。请务必注意，您使用部署在同一基础设施上的相同模型来生成文章的嵌入，就像对图像所做的那样。然后你使用带有评分脚本的精确 k-NN 这样你就可以通过两个字段进行搜索：名人姓名和捕获文章语义信息的向量。参考这篇文章， Amazon OpenSearch Service 的矢量数据库功能说明，关于 Score 脚本的可扩展性以及这种对大型索引的方法可能如何导致高延迟。

演练

下图说明了解决方案体系结构。

遵循编号标签：

您将图像上传到 Amazon S3 桶
亚马逊EventBridge 监听这个事件，然后触发 AWS 步骤函数 执行
Step Function 接受图像输入，提取标签和名人元数据
AWS Lambda 函数获取图像元数据并生成嵌入
LAMBDA 然后，函数将名人姓名（如果存在）和嵌入作为 k-NN 向量插入到 OpenSearch 服务索引中
Amazon S3 托管一个简单的静态网站，由 亚马逊的CloudFront的 分配。前端用户界面 (UI) 允许您使用以下方式对应用程序进行身份验证 亚马逊Cognito 搜索图像
您通过 UI 提交文章或一些文本
另一个 LAMBDA 函数调用 亚马逊领悟 检测文本中的任何名称
然后该函数总结文本以从文章中获取相关要点
该函数生成摘要文章的嵌入
该函数然后搜索 开放搜索服务 与名人姓名匹配的任何图像的图像索引以及使用余弦相似度的向量的 k-近邻
亚马逊CloudWatch 和 AWS X 射线 让您能够观察到端到端的工作流程，以提醒您任何问题。

提取并存储关键图像元数据

Amazon Rekognition DetectLabels 和 RecognizeCelebrities API 为您提供图像中的元数据 - 文本标签，您可以使用它们来形成句子以生成嵌入。本文为您提供了一个文本输入，您可以使用它来生成嵌入。

生成并存储词嵌入

下图演示了在二维空间中绘制图像的向量，为了视觉辅助，我们已按其主要类别对嵌入进行了分类。

您还可以生成这篇新撰写的文章的嵌入，以便您可以在 OpenSearch Service 中搜索该向量空间中距离该文章最近的图像。使用 k 最近邻 (k-NN) 算法，您可以定义要在结果中返回的图像数量。

放大上图，根据向量与文章的距离进行排序，然后返回 K 个最近的图像，本例中 K 为 10。

OpenSearch 服务提供在索引中存储大型向量的功能，还提供使用 k-NN 对索引运行查询的功能，这样您就可以使用向量进行查询，以返回距离向量较近的 k 最近文档使用各种测量。对于这个例子，我们使用余弦相似度.

检测文章中的姓名

您使用 Amazon Comprehend（一项 AI 自然语言处理 (NLP) 服务）从文章中提取关键实体。在此示例中，您使用 Amazon Comprehend 提取实体并按实体 Person 进行过滤，该实体返回 Amazon Comprehend 可以在记者报道中找到的任何名称，只需几行代码：

def get_celebrities(payload): response = comprehend_client.detect_entities( Text=' '.join(payload["text_inputs"]), LanguageCode="en", ) celebrities = "" for entity in response["Entities"]: if entity["Type"] == "PERSON": celebrities += entity["Text"] + " " return celebrities

在此示例中，您将图像上传到亚马逊简单存储服务 (Amazon S3)，它会触发一个工作流程，您可以在其中从图像中提取元数据，包括标签和任何名人。然后，您将提取的元数据转换为嵌入并将所有这些数据存储在 OpenSearch 服务中。

总结文章并生成嵌入

总结文章是确保词嵌入捕获文章的相关要点，从而返回与文章主题产生共鸣的图像的重要一步。

AI21 Labs Summarize模型使用起来非常简单，没有任何提示，只需几行代码：

def summarise_article(payload): sagemaker_endpoint_summarise = os.environ["SAGEMAKER_ENDPOINT_SUMMARIZE"] response = ai21.Summarize.execute( source=payload, sourceType="TEXT", destination=ai21.SageMakerDestination(sagemaker_endpoint_summarise) ) response_summary = response.summary return response_summary

然后使用 GPT-J 模型生成嵌入

def get_vector(payload_summary): sagemaker_endpoint = os.environ["SAGEMAKER_ENDPOINT_VECTOR"] response = sm_runtime_client.invoke_endpoint( EndpointName=sagemaker_endpoint, ContentType="application/json", Body=json.dumps(payload_summary).encode("utf-8"), ) response_body = json.loads((response["Body"].read())) return response_body["embedding"][0]

然后，您可以在 OpenSearch Service 中搜索您的图像

以下是该查询的示例片段：

def search_document_celeb_context(person_names, vector): results = wr.opensearch.search( client=os_client, index="images", search_body={ "size": 10, "query": { "script_score": { "query": { "match": {"celebrities": person_names } }, "script": { "lang": "knn", "source": "knn_score", "params": { "field": "image_vector", "query_value": vector, "space_type": "cosinesimil" } } } } }, ) return results.drop(columns=["image_vector"]).to_dict()

该架构包含一个简单的 Web 应用程序来代表内容管理系统 (CMS)。

对于示例文章，我们使用以下输入：

“沃纳·沃格斯喜欢开着他的丰田汽车环游世界。当他开车去见各种客户的家乡时，我们看到他的丰田车出现在许多场景中。”

这些图像都没有任何包含“丰田”一词的元数据，但“丰田”一词的语义是汽车和驾驶的同义词。因此，通过这个例子，我们可以演示如何超越关键字搜索并返回语义相似的图像。在上面的 UI 屏幕截图中，图像下方的标题显示 Amazon Rekognition 提取的元数据。

您可以将此解决方案包含在更大的工作流程您可以使用从图像中提取的元数据开始使用矢量搜索以及其他关键术语（例如名人姓名），以便为您的搜索查询返回最能引起共鸣的图像和文档。

结论

在这篇文章中，我们展示了如何使用 Amazon Rekognition、Amazon Comprehend、SageMaker 和 OpenSearch Service 从图像中提取元数据，然后使用 ML 技术通过名人和语义搜索自动发现它们。这在出版业中尤为重要，因为在出版业中，速度对于快速将新鲜内容发布到多个平台至关重要。

有关使用媒体资产的更多信息，请参阅 Media2Cloud 3.0 使媒体智能变得更加智能.

关于作者

马克·沃特金斯 是媒体和娱乐团队的解决方案架构师，支持他的客户解决许多数据和机器学习问题。远离职业生涯，他喜欢与家人共度时光，看着他的两个小孩长大。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。汽车/电动汽车，碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
图表Prime。使用 ChartPrime 提升您的交易游戏。访问这里。
块偏移量。现代化环境抵消所有权。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/semantic-image-search-for-articles-using-amazon-rekognition-amazon-sagemaker-foundation-models-and-amazon-opensearch-service/

时间戳记： 2023 年 9 月 8 日

由柏拉图重新发布

保存日期：19 月 22 日至 XNUMX 日在 NVIDIA GTC 加入 AWS

使用 Amazon SageMaker Edge Manager 和 AWS IoT Greengrass 在边缘进行 MLOps

保护 Amazon SageMaker Studio 预签名 URL 第 2 部分：使用 JWT 身份验证的私有 API

在 Amazon SageMaker 中使用合成数据增强欺诈交易

开始在 Amazon SageMaker 上部署实时模型

AWS Localization 使用 Amazon Translate 扩展本地化

使用 Amazon SageMaker 多模型终端节点运行和优化多模型推理

启用多区域 Amazon SageMaker 终端节点的 CI/CD

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理