数字出版商不断寻找简化和自动化其媒体工作流程的方法,以尽可能快地生成和发布新内容,但又不牺牲质量。
添加图像来捕捉文本的本质可以改善阅读体验。 机器学习技术可以帮助您发现此类图像。 “引人注目的图像是吸引观众注意力并激发他们对故事的参与度的最有效方法之一,但它也必须有意义设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“
以前的帖子 讨论了如何使用 Amazon 机器学习 (ML) 服务来帮助您找到要在文章或电视概要中放置的最佳图像,而无需输入关键字。在上一篇文章中,您使用了 亚马逊重新认识 从图像中提取元数据。 然后,您使用文本嵌入模型生成元数据的词嵌入,稍后可以使用该元数据来帮助找到最佳图像。
在这篇文章中,您将了解如何使用 Amazon Titan 基础模型来快速理解文章并找到与其配套的最佳图像。 这次,您直接从图像生成嵌入。
语义搜索中的一个关键概念是嵌入。 嵌入是某些输入(图像、文本或两者)以向量形式的数字表示。 当你有很多向量时,你可以测量它们之间的距离,距离接近的向量在语义上相似或相关。
亚马逊基岩 是一项完全托管的服务,通过单一 API 提供来自领先 AI 公司(包括 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon)的高性能基础模型 (FM) 选择,以及广泛的功能帮助您构建生成式 AI 应用程序,简化开发,同时维护隐私和安全。
亚马逊泰坦 最近在其系列中添加了一个新的嵌入模型:Titan Multimodal Embeddings。 这种新模型可用于多模态搜索、推荐系统和其他下游应用。
多模态模型可以理解和分析多种模态的数据,例如文本、图像、视频和音频。这款最新的 Amazon Titan 模型可以接受文本、图像或两者。这意味着您使用相同的模型来生成图像和文本的嵌入,并使用这些嵌入来计算两者的相似程度。
解决方案概述
在下面的屏幕截图中,您可以看到如何拍摄一篇迷你文章,执行搜索并找到与该文章产生共鸣的图像。 在此示例中,您使用一个句子来描述 Werner Vogels 在印度旅行时戴着白色围巾。 该句子的向量在语义上与 Werner 戴着围巾的图像向量相关,因此作为本次搜索中的顶部图像返回。
在较高级别上,图像被上传到 亚马逊简单存储服务(Amazon S3) 并且提取元数据,包括图像的嵌入。
要从图像中提取文本元数据,您可以使用 名人识别功能 和 标签检测功能 in 亚马逊重新认识。 Amazon Rekognition 使用 ML 自动识别图像和视频中的数以万计的知名人物。 您可以使用此功能来识别图像中的任何名人并将此元数据存储在 亚马逊开放搜索服务。 标签检测从图像中查找对象和概念,例如前面的屏幕截图,其中图像下方有标签元数据。
您使用 Titan Multimodal Embeddings 模型来生成图像的嵌入,这也是可搜索的元数据。
然后所有元数据都存储在 开放搜索服务 当您需要查找一个或多个图像时,供以后的搜索查询使用。
该架构的第二部分是提交一篇文章来查找这些新摄取的图像。
提交文章后,您需要提取文章并将其转换为 OpenSearch Service 的搜索输入。 你用 亚马逊领悟 检测文本中可能是潜在名人的任何名字。 您对文章进行总结,因为您可能只会选择一两张图像来捕捉文章的精髓。 生成文本摘要是确保嵌入捕获故事相关要点的好方法。 为此,您使用 亚马逊 Titan Text G1 – Express 模型带有提示,例如“请提供以下文本的摘要。不要添加以下文本中未提及的任何信息。”对于摘要文章,您可以使用 Amazon Titan Multimodal Embeddings 模型生成摘要文章的嵌入。嵌入模型还具有最大令牌输入计数,因此总结文章对于确保您可以在嵌入中获取尽可能多的信息更为重要。简单来说,标记是单个单词、子单词或字符。
然后,您使用文章中的名称和嵌入对 OpenSearch Service 执行搜索,以检索在语义上与给定名人(如果存在)的存在相似的图像。
作为用户,您只需使用文章作为输入来搜索图像。
演练
下图显示了交付此用例的架构。
以下步骤介绍了启用语义图像和名人搜索的操作序列(如图所示)。
- 您将图像上传到 Amazon S3 桶。
- 亚马逊EventBridge 侦听此事件,然后启动 AWS Step Functions 步骤。
- Step Functions 步骤采用 Amazon S3 图像详细信息并运行三个并行操作:
- API 调用 亚马逊重新认识 检测标签 提取对象元数据
- API 调用 亚马逊重新认识 认识名人 用于提取任何已知名人的 API
- A AWS Lambda 函数将图像大小调整为 ML 嵌入模型可接受的最大尺寸,并直接从图像输入生成嵌入。
- LAMBDA 然后,函数插入图像对象元数据和名人姓名(如果存在),并将其作为 k-NN 向量嵌入到 OpenSearch 服务索引中。
- Amazon S3 托管一个简单的静态网站,由 亚马逊的CloudFront的。 前端用户界面 (UI) 允许您使用以下方式对应用程序进行身份验证 亚马逊Cognito 来搜索图像。
- 您使用 UI 提交文章或一些文本。
- 另一个 LAMBDA 函数调用 亚马逊领悟 检测文本中的任何名字作为潜在的名人。
- 然后,该函数使用 Titan Text G1 – Express 总结文本以从文章中获取相关要点。
- 该函数使用 Amazon Titan Multimodal Embeddings 模型生成摘要文章的嵌入。
- 然后该函数搜索 开放搜索服务 与名人姓名和照片相匹配的图像索引 k最近邻居 对于向量使用 余弦相似度 运用 带有评分脚本的精确 k-NN.
- 亚马逊CloudWatch 和 AWS X 射线 使您能够观察端到端工作流程,以提醒您任何问题。
下图显示了 Step Functions 工作流程的可视化工作流程设计器。
这是嵌入的示例:
前面的数字数组以您可以执行计算和函数的形式从文本或图像对象中捕获含义。
嵌入具有从几百到几千维的高维数。该模型的维度为 1,024,也就是说,前面的数组将有 1,024 个元素来捕获给定对象的语义。
多模态嵌入与文本嵌入
我们讨论提供语义图像搜索的两种选项,其中主要区别在于如何生成图像嵌入。 在我们的 以前的帖子,您可以从使用 Amazon Rekognition 提取的文本元数据生成嵌入。 在本文中,您将使用 Titan Multimodal Embeddings 模型,并且可以直接生成图像的嵌入。
对这两种方法进行快速测试并在 UI 中运行查询,您可以看到结果明显不同。 示例查询文章是“Werner Vogels 在印度旅行时喜欢戴白色围巾”。
多模态模型的结果对存在围巾的图像评分较高。 这个单词 围巾 存在于我们提交的文章中,并且嵌入已经识别了这一点。
在 UI 中,您可以看到 Amazon Rekognition 提取的元数据,并且该元数据不包含“围巾”一词,因此丢失了图像中的一些信息,您可以假设图像嵌入模型没有丢失这些信息,因此多模态模型根据用例,可能会有优势。 使用 Amazon Rekognition,您可以在创建嵌入之前过滤图像中检测到的对象,因此根据您所需的结果,可以有其他可能效果更好的适用用例。
下图显示了 Amazon Titan Multimodal Embeddings 模型的结果。
下图显示了 Amazon Titan 文本嵌入模型使用 Amazon Rekognition 提取的元数据生成嵌入的结果。
先决条件
对于本演练,您必须具备以下先决条件:
- An AWS账户
- AWS 无服务器应用程序模型命令行界面 (AWS SAM CLI)
- 该解决方案使用 AWS SAM CLI 进行部署。
- 确保您使用的是最新版本的 AWS SAM CLI.
- 码头工人
- 该解决方案使用 AWS SAM CLI 选项在容器内构建,以避免需要本地依赖项。 为此你需要 Docker。
- Node
- 该解决方案的前端是一个 React Web 应用程序,可以使用 Node.js 在本地运行。
- NPM
- 本地运行 Web 应用程序或构建远程部署所需的软件包的安装需要 npm。
构建和部署全栈应用程序
- 克隆存储库
- 将目录更改为新克隆的项目。
- 运行 npm install 以下载运行应用程序所需的所有包。
- 运行一个部署脚本,该脚本按顺序运行一系列脚本,这将执行 山姆构建, 山姆部署、更新配置文件,然后将 Web 应用程序文件托管在 Amazon S3 中,准备通过 Amazon CloudFront 提供服务
- 该脚本的最终输出之一是 Amazon CloudFront URL,这是您访问应用程序的方式。 您必须在 AWS 管理控制台中创建一个新用户才能登录。 记下 URL 以供稍后使用。
以下屏幕截图显示了脚本如何使用 AWS SAM 部署堆栈并输出可用于访问应用程序的 Amazon CloudFront URL。
创建新用户以登录应用程序
- 去 亚马逊Cognito 控制台并选择您的新 用户池.
- 使用新密码创建一个新用户。
登录并测试 Web 应用程序
- 找出 亚马逊的CloudFront的 用于访问登录页面的 URL。 这是最后一行的输出,如前面的屏幕截图所示。
- 输入您的新用户名和密码组合以登录。
- 使用 UI 上传一些示例图像。
- 选择文件 然后选择 上传.
请注意: 您还可以通过将文件添加到 /上传 文件夹中。 - 编写或复制并粘贴文章并选择 提交 查看图像是否按预期顺序返回。
- 选择文件 然后选择 上传.
打扫干净
为避免将来产生费用,请删除资源。
- 找到使用此解决方案部署的 S3 存储桶并清空该存储桶。
- 转到 CloudFormation 控制台,选择您通过前面提到的部署脚本部署的堆栈,然后删除该堆栈。
结论
在本文中,您了解了如何使用 Amazon Rekognition、Amazon Comprehend、Amazon Bedrock 和 OpenSearch Service 从图像中提取元数据,然后使用 ML 技术通过名人和语义搜索自动发现密切相关的内容。 这在出版业中尤为重要,因为在出版业中,速度对于快速将新鲜内容发布到多个平台至关重要。
下一步,在您的 AWS 账户中部署该解决方案并上传一些您自己的图像,以测试语义搜索如何为您工作。 请在下面的评论中告诉我您的一些反馈。
作者简介
马克·沃特金斯 是媒体和娱乐团队的解决方案架构师,支持他的客户解决许多数据和机器学习问题。 远离职业生涯,他喜欢与家人共度时光,看着他的两个小孩长大。
丹·约翰斯 是一名解决方案架构师工程师,支持客户在 AWS 上进行构建并满足业务需求。 远离职业生活,他喜欢阅读、与家人共度时光以及自动化家里的任务。
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 100
- 24
- 7
- a
- 接受
- 公认
- ACCESS
- 陪
- 账号管理
- 行动
- 加
- 添加
- 添加
- 优点
- 驳
- AI
- 警惕
- 所有类型
- 允许
- 沿
- 还
- Amazon
- 亚马逊领悟
- 亚马逊机器学习
- 亚马逊重新认识
- 亚马逊网络服务
- an
- 分析
- 和
- 人类的
- 任何
- API
- APIs
- 相应
- 应用领域
- 应用领域
- 方法
- 架构
- 保健
- 围绕
- 排列
- 刊文
- AS
- 承担
- 关注我们
- 音频
- 认证
- 自动化
- 自动
- 自动化
- 避免
- 远离
- AWS
- AWS管理控制台
- AWS步骤功能
- BE
- before
- 如下。
- 最佳
- 更好
- 之间
- 都
- 广阔
- 建立
- 商业
- 但是
- by
- 计算
- 计算
- 呼叫
- 呼叫
- CAN
- 可以得到
- 能力
- 捕获
- 捕获
- 捕获
- 捕获
- 案件
- 例
- 名人
- 名人
- 字符
- 收费
- 选择
- 关闭
- 密切
- CO
- 采集
- 组合
- 注释
- 公司
- 理解
- 概念
- 概念
- 配置
- 安慰
- 容器
- 内容
- 一直
- 可以
- 创建信息图
- 创造
- 合作伙伴
- data
- 交付
- 交付
- 依赖
- 根据
- 部署
- 部署
- 部署
- 设计师
- 期望
- 详情
- 检测
- 检测
- 检测
- 研发支持
- 差异
- 不同
- 尺寸
- 直接
- 直接
- 通过各种方式找到
- 讨论
- 讨论
- 距离
- 分布
- do
- 码头工人
- 不会
- 下载
- 容易
- 有效
- 分子
- 嵌入
- enable
- 结束
- 端至端
- 订婚
- 工程师
- 娱乐
- 本质
- 甚至
- 活动
- 例子
- 预期
- 体验
- 特快
- 提取
- 家庭
- 专栏
- 反馈
- 少数
- 数字
- 档
- 过滤
- 最后
- 找到最适合您的地方
- 发现
- 以下
- 针对
- 申请
- 基金会
- 新鲜
- 止
- 前
- 前端
- ,
- 全栈
- 充分
- 功能
- 功能
- 未来
- g1
- 生成
- 产生
- 发电
- 生成的
- 生成式人工智能
- 得到
- 越来越
- 给
- 特定
- 非常好
- 成长
- 有
- he
- 帮助
- 于是
- 高
- 高绩效
- 更高
- 他的
- 主页
- 主持人
- 为了
- 创新中心
- How To
- HTML
- HTTPS
- 百
- if
- 图片
- 图片搜索
- 图片
- 重要
- 改善
- in
- 包括
- 包含
- 指数
- 印度
- 行业中的应用:
- 信息
- 同修
- 输入
- 刀片
- 内
- 安装
- 安装
- 接口
- 成
- 问题
- IT
- 它的
- 新闻学
- JPG
- 只是
- 键
- 关键词
- 知道
- 已知
- 标签
- 实验室
- 后来
- 最新
- 领导
- 学习
- 让
- Level
- 生活
- 容易
- Line
- 监听
- 小
- 本地
- 当地
- 寻找
- 爱
- 机
- 机器学习
- 主要
- 维护
- 使
- 管理
- 颠覆性技术
- 许多
- 匹配
- 事项
- 最多
- me
- 意
- 手段
- 衡量
- 媒体
- 提到
- 元
- 元数据
- 可能
- 错过
- ML
- 模型
- 模型
- 更多
- 最先进的
- 许多
- 多
- 必须
- 姓名
- 名称
- 需求
- 全新
- 新
- 下页
- 节点
- 注意
- 明显
- 数字
- 对象
- 对象
- of
- 优惠精选
- on
- 一
- 那些
- 仅由
- 附加选项
- 附加选项
- or
- 秩序
- 其他名称
- 我们的
- 输出
- 成果
- 产量
- 输出
- 己
- 包
- 页
- 并行
- 部分
- 尤其
- 密码
- 演出
- 个性
- 选择
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 可能
- 帖子
- 潜力
- 先决条件
- 存在
- 当下
- 以前
- 先前
- 隐私
- 隐私和安全
- 问题
- 所以专业
- 项目
- 提供
- 发布
- 出版商
- 出版
- 质量
- 查询
- 快速
- 很快
- 急速
- 应对
- 阅读
- 准备
- 最近
- 承认
- 承认
- 确认
- 认识
- 推荐
- 有关
- 远程
- 知识库
- 表示
- 要求
- 必须
- 岗位要求
- 共鸣
- 资源
- 导致
- 成果
- 运行
- 运行
- 运行
- Sam
- 同
- 锯
- 围巾
- 得分
- 脚本
- 脚本
- 搜索
- 搜索
- 搜索
- 其次
- 保安
- 看到
- 选择
- 语义
- 句子
- 序列
- 系列
- 无服务器
- 服务
- 特色服务
- 服务
- 集
- 如图
- 作品
- 签署
- 类似
- 简易
- 简化
- 单
- 方案,
- 解决方案
- 解决
- 一些
- 速度
- 花费
- 稳定性
- 堆
- 堆栈
- 静止
- 步
- 步骤
- 存储
- 商店
- 存储
- 故事
- 精简
- 提交
- 提交
- 这样
- 总结
- 概要
- 支持
- 肯定
- 概要
- 产品
- 采取
- 需要
- 谈论
- 任务
- 团队
- 技术
- HAST
- 条款
- test
- 测试
- 文本
- 文字的
- 这
- 其
- 他们
- 然后
- 因此
- 博曼
- 他们
- Free Introduction
- 那些
- 数千
- 三
- 通过
- 次
- 泰坦
- 至
- 象征
- 最佳
- 改造
- 旅行
- tv
- 二
- ui
- 理解
- 更新
- 上传
- 网址
- 使用
- 用例
- 用过的
- 用户
- 用户界面
- 使用
- 运用
- 版本
- 与
- 视频
- 视频
- 视觉
- 演练
- 观看
- 方法..
- 方法
- 卷筒纸
- Web应用程序
- Web服务
- 您的网站
- 知名
- 什么是
- ,尤其是
- 这
- 而
- 白色
- 维基百科上的数据
- 将
- 中
- 也完全不需要
- Word
- 工作
- 工作流程
- 工作流程
- 完全
- 您一站式解决方案
- 和风网