亚马逊基岩 提供来自亚马逊和其他领先人工智能公司的广泛高性能基础模型,包括 人类的, AI21, 元, 凝聚力及 稳定人工智能,并涵盖广泛的用例,包括文本和图像生成、搜索、聊天、推理和代理等。新的 亚马逊泰坦图像生成器 模型允许内容创建者使用简单的英文文本提示快速生成高质量、逼真的图像。先进的人工智能模型可以理解多个对象的复杂指令,并返回适合的工作室质量图像 广告, 电子商务, 和 娱乐。主要功能包括通过迭代提示、自动背景编辑以及生成同一场景的多个变体来细化图像的能力。创作者还可以使用自己的数据自定义模型,以特定风格输出品牌图像。重要的是,Titan Image Generator 具有内置的保护措施,例如所有人工智能生成的图像上的隐形水印,以鼓励 负责任地使用 并减少虚假信息的传播。这项创新技术可以大批量生产定制图像 任何行业 更方便、更高效。
新的 Amazon Titan 多模式嵌入 模型通过理解文本、图像或两者来帮助构建更准确的搜索和推荐。它将图像和英文文本转换为语义向量,捕获数据中的含义和关系。您可以结合文本和图像(例如产品描述和照片)来更有效地识别商品。这些矢量提供快速、准确的搜索体验。 Titan Multimodal Embeddings 在向量维度上非常灵活,可以根据性能需求进行优化。异步 API 和 亚马逊开放搜索服务 连接器可以轻松地将模型集成到您的神经搜索应用程序中。
在这篇文章中,我们将介绍如何通过 AWS Python SDK 使用 Titan 图像生成器和 Titan 多模态嵌入模型。
图像生成和编辑
在本部分中,我们将演示使用 AWS 开发工具包生成新图像并对现有图像执行 AI 支持的编辑的基本编码模式。代码示例以 Python 形式提供,JavaScript (Node.js) 也可在此处使用 GitHub存储库.
在编写使用 Amazon Bedrock API 的脚本之前,您需要在您的环境中安装适当版本的 AWS 开发工具包。对于 Python 脚本,您可以使用 适用于Python的AWS开发工具包(Boto3)。 Python 用户可能还想安装 枕头模块,这方便了加载和保存图像等图像操作。有关设置说明,请参阅 GitHub存储库.
此外,还允许访问 Amazon Titan Image Generator 和 Titan Multimodal Embeddings 模型。欲了解更多信息,请参阅 模型访问.
辅助函数
以下函数设置 Amazon Bedrock Boto3 运行时客户端并通过获取不同配置的负载生成图像(我们将在本文后面讨论):
从文本生成图像
从文本提示生成新图像的脚本遵循以下实现模式:
- 配置文本提示和可选的否定文本提示。
- 使用
BedrockRuntime
客户端调用 Titan Image Generator 模型。 - 解析并解码响应。
- 将生成的图像保存到磁盘。
文本到图像
以下是Titan Image Generator模型的典型图像生成脚本:
这将产生类似于以下的图像。
响应图像 1 | 响应图像 2 |
图像变体
图像变体提供了一种生成现有图像的细微变体的方法。以下代码片段使用上一示例中生成的图像之一来创建变体图像:
这将产生类似于以下的图像。
原始图像 | 响应图像 1 | 响应图像 2 |
编辑现有图像
Titan 图像生成器模型允许您添加、删除或替换现有图像中的元素或区域。您可以通过提供以下选项之一来指定要影响的区域:
- 蒙版图片 – 蒙版图像是二值图像,其中 0 值像素代表要影响的区域,255 值像素代表应保持不变的区域。
- 面膜提示 – 掩码提示是您想要影响的元素的自然语言文本描述,它使用内部文本到分段模型。
有关更多信息,请参阅 及时的工程指南.
对图像应用编辑的脚本遵循以下实现模式:
- 从磁盘加载要编辑的图像。
- 将图像转换为 Base64 编码的字符串。
- 通过以下方法之一配置掩码:
- 从磁盘加载蒙版图像,将其编码为 base64 并将其设置为
maskImage
参数。 - 设置
maskText
参数到要影响的元素的文本描述。
- 从磁盘加载蒙版图像,将其编码为 base64 并将其设置为
- 使用以下选项之一指定要生成的新内容:
- 要添加或替换元素,请设置
text
参数来描述新内容。 - 要删除元素,请省略
text
参数完全。
- 要添加或替换元素,请设置
- 使用
BedrockRuntime
客户端调用 Titan Image Generator 模型。 - 解析并解码响应。
- 将生成的图像保存到磁盘。
对象编辑:使用蒙版图像进行修复
以下是使用 Titan Image Generator 模型的典型图像编辑脚本 maskImage
。我们采用之前生成的图像之一并提供蒙版图像,其中 0 值像素渲染为黑色,255 值像素渲染为白色。我们还使用文本提示将图像中的一只狗替换为一只猫。
这将产生类似于以下的图像。
原始图像 | 遮罩图像 | 编辑图像 |
对象移除:使用蒙版提示进行修复
在另一个例子中,我们使用 maskPrompt
指定图像中要编辑的对象(取自前面的步骤)。通过省略文本提示,该对象将被删除:
这将产生类似于以下的图像。
原始图像 | 响应图像 |
背景编辑:Outpainting
当您想要替换图像的背景时,外画非常有用。您还可以扩展图像的边界以获得缩小效果。在下面的示例脚本中,我们使用 maskPrompt
指定要保留哪个对象;你也可以使用 maskImage
。 参数 outPaintingMode
指定是否允许修改蒙版内的像素。如果设置为 DEFAULT
,允许修改掩模内部的像素,以便重建图像整体一致。如果 maskImage
提供的并不表示具有像素级精度的对象。如果设置为 PRECISE
,防止修改掩模内部的像素。如果使用 maskPrompt
或者 maskImage
以像素级精度表示对象。
这将产生类似于以下的图像。
原始图像 | 文本 | 响应图像 |
“海滩” | ||
“森林” |
另外,不同值的影响 outPaintingMode
,一个 maskImage
不以像素级精度勾勒出对象的轮廓,如下所示。
本节概述了可以使用 Titan Image Generator 模型执行的操作。具体来说,这些脚本演示了文本到图像、图像变化、修复和修复任务。您应该能够通过参考这些任务类型的参数详细信息来调整您自己的应用程序的模式 Amazon Titan 图像生成器文档.
多模态嵌入和搜索
您可以使用 Amazon Titan 多模态嵌入模型来执行图像搜索和基于相似性的推荐等企业任务,并且它具有内置的缓解措施,有助于减少搜索结果中的偏差。有多种嵌入维度大小可针对不同需求实现最佳延迟/准确性权衡,并且所有嵌入维度大小都可以使用简单的 API 进行自定义,以适应您自己的数据,同时保持数据安全和隐私。 Amazon Titan Multimodal Embeddings 作为简单的 API 提供,用于实时或异步批量转换搜索和推荐应用程序,并且可以连接到不同的矢量数据库,包括 亚马逊开放搜索服务.
辅助函数
以下函数将图像(以及可选的文本)转换为多模式嵌入:
以下函数返回给定查询多模态嵌入的最相似的多模态嵌入。请注意,在实践中,您可以使用托管矢量数据库,例如 OpenSearch Service。以下示例用于说明目的:
综合数据集
为了说明目的,我们使用 亚马逊基岩中的 Anthropic 的 Claude 2.1 模型 使用以下提示随机生成七种不同的产品,每种产品都有三种变体:
Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.
以下是返回的输出列表:
将上述响应分配给变量 response_cat
。然后我们使用 Titan Image Generator 模型为每个项目创建产品图像:
所有生成的图像都可以在本文末尾的附录中找到。
多模式数据集索引
使用以下代码进行多模式数据集索引:
多模态搜索
使用以下代码进行多模式搜索:
以下是一些搜索结果。
结论
该文章介绍了 Amazon Titan 图像生成器和 Amazon Titan 多模式嵌入模型。 Titan 图像生成器使您能够根据文本提示创建自定义的高质量图像。主要功能包括迭代提示、自动后台编辑和数据定制。它具有隐形水印等保护措施,以鼓励负责任的使用。 Titan 多模态嵌入将文本、图像或两者都转换为语义向量,以支持准确的搜索和推荐。然后,我们提供了使用这些服务的 Python 代码示例,并演示了根据文本提示生成图像并迭代这些图像;通过添加、删除或替换蒙版图像或蒙版文本指定的元素来编辑现有图像;从文本、图像或两者创建多模态嵌入;并搜索与查询类似的多模态嵌入。我们还演示了如何使用使用 Titan Multimodal Embeddings 进行索引和搜索的合成电子商务数据集。这篇文章的目的是让开发人员能够开始在他们的应用程序中使用这些新的人工智能服务。代码模式可以用作自定义实现的模板。
所有代码都可以在 GitHub存储库. 有关详细信息,请参阅 亚马逊基岩用户指南.
作者简介
罗希特·米塔尔 是 Amazon AI 的首席产品经理,负责构建多模式基础模型。他最近领导推出了 Amazon Titan Image Generator 模型,作为 Amazon Bedrock 服务的一部分。他在 AI/ML、NLP 和搜索方面拥有丰富经验,有兴趣构建通过创新技术解决客户痛点的产品。
阿什温·斯瓦米纳坦博士 是一名计算机视觉和机器学习研究员、工程师和经理,拥有 12 年以上行业经验和 5 年以上学术研究经验。扎实的基础知识和经过验证的快速获取知识并为新兴领域做出贡献的能力。
谢玉生博士 是 Amazon AGI 的首席应用科学家。他的工作重点是构建多模式基础模型。在加入 AGI 之前,他在 AWS 领导各种多模式 AI 开发,例如 Amazon Titan Image Generator 和 Amazon Textract Queries。
杨浩博士 是亚马逊的首席应用科学家。他的主要研究兴趣是对象检测和有限注释学习。工作之余,郝喜欢看电影、摄影和户外活动。
达维德·莫多洛博士 是 Amazon AGI 的应用科学经理,致力于构建大型多模式基础模型。在加入 Amazon AGI 之前,他在 AWS AI 实验室(Amazon Bedrock 和 Amazon Rekognition)担任经理/主管 7 年。工作之余,他喜欢旅行和参加任何类型的运动,尤其是足球。
孙百川博士, 目前担任 AWS 的高级 AI/ML 解决方案架构师,专注于生成式 AI,并运用他在数据科学和机器学习方面的知识来提供实用的、基于云的业务解决方案。凭借管理咨询和人工智能解决方案架构方面的经验,他解决了一系列复杂的挑战,包括机器人计算机视觉、时间序列预测和预测性维护等。他的工作建立在项目管理、软件研发和学术追求的坚实背景之上。工作之余,孙博士喜欢旅行以及与家人和朋友共度时光。
朱凯博士 目前在 AWS 担任云支持工程师,帮助客户解决 SageMaker、Bedrock 等 AI/ML 相关服务中的问题。他是 SageMaker 主题专家。他在数据科学和数据工程方面拥有丰富的经验,对构建生成式人工智能驱动的项目感兴趣。
克里斯·舒尔茨 25 年来,我们通过将新兴技术与世界一流的设计相结合,将引人入胜的用户体验变为现实。作为高级产品经理,Kris 帮助设计和构建 AWS 服务,为媒体和娱乐、游戏和空间计算提供支持。
附录
在以下部分中,我们将演示具有挑战性的示例用例,例如文本插入、手和反射,以突出 Titan 图像生成器模型的功能。我们还包括前面示例中生成的示例输出图像。
文本
Titan 图像生成器模型擅长复杂的工作流程,例如将可读文本插入图像中。此示例演示了 Titan 在图像中以一致的风格清晰渲染大写和小写字母的能力。
一只戴着棒球帽的柯基犬,上面写着“genai” | 一个快乐的男孩竖起大拇指,身穿印有“生成人工智能”字样的 T 恤 |
手
Titan Image Generator 模型还能够生成详细的 AI 图像。该图像显示了具有可见细节的真实手和手指,超越了可能缺乏这种特异性的更基本的人工智能图像生成。在以下示例中,请注意姿势和解剖结构的精确描述。
从上面看一个人的手 | 仔细观察一个人拿着咖啡杯的手 |
镜子
Titan 图像生成器模型生成的图像在空间上排列对象并准确反映镜像效果,如以下示例所示。
一只可爱的毛茸茸的白猫用后腿站立,好奇地凝视着华丽的金色镜子。猫在倒影中看到了自己 | 美丽的天空湖,水面上的倒影 |
合成产品图像
以下是本文前面为 Titan 多模态嵌入模型生成的产品图像。
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 10
- 100
- 12
- 125
- 14
- 15%
- 16
- 17
- 19
- 24
- 25
- 300
- 31
- 7
- a
- 对,能力--
- Able
- 以上
- 学者
- 学术研究
- ACCESS
- 无障碍
- 精准的
- 准确
- 演戏
- 活动
- 活动
- 适应
- 加
- 添加
- 增加
- 地址
- 可调整的
- 高级
- 影响
- 中介代理
- 德盛
- AI
- 人工智能服务
- AI供电
- AI / ML
- 瞄准
- 所有类型
- 让
- 允许
- 允许
- 还
- Amazon
- 亚马逊重新认识
- 亚马逊Textract
- 亚马逊网络服务
- 其中
- an
- 分析
- 解剖学
- 和
- 另一个
- 任何
- API
- APIs
- 应用领域
- 应用的
- 适用
- 使用
- 适当
- 架构
- 保健
- 国家 / 地区
- 地区
- 排列
- AS
- At
- 汽车
- 自动表
- 可使用
- AWS
- 背景
- 坏
- 当前余额
- 棒球
- 基本包
- BE
- 海滩
- before
- 最佳
- 超越
- 偏见
- 黑色
- 蓝色
- 身体
- 都
- 界限
- 瞻
- 广阔
- 棕色
- 建立
- 建筑物
- 内建的
- 商业
- by
- 日历
- 相机
- CAN
- 帆布
- 帽
- 能力
- 捕获
- 携带
- 携带
- 汽车
- 例
- 喵星人
- 挑战
- 挑战
- 即时通话
- 程
- 经典
- 明确地
- 客户
- 关闭
- 关闭
- 云端技术
- 码
- 编码
- 咖啡
- 颜色
- 结合
- 结合
- 购买的订单均
- 紧凑
- 公司
- 完全
- 复杂
- 一台
- 计算机视觉
- 计算
- 已联繫
- 一贯
- 咨询
- 内容
- 内容创作者
- 贡献
- 控制
- Counter
- 外壳
- 盖
- 创建信息图
- 创造
- 创作者
- 船员
- 目前
- 习俗
- 顾客
- 合作伙伴
- 定制
- 定制
- 定制
- 定制
- data
- 数据科学
- 数据安全
- 数据安全和隐私
- 数据库
- 数据库
- 默认
- 演示
- 证明
- 演示
- 牛仔布
- 描述
- 设计
- 细节
- 详细
- 详情
- 检测
- 开发
- 研发支持
- 信息通信技术部
- 不同
- 尺寸
- 尺寸
- 讨论
- 造谣
- 距离
- 不会
- 狗
- 不
- 向下
- dr
- 电子商务行业
- 每
- 此前
- 易
- 环保
- 电子商务
- 效果
- 只
- 影响
- 高效
- 或
- element
- 分子
- 其他
- 嵌入
- 新兴经济体的新市场。
- 新兴技术
- enable
- 使
- 使
- 编码
- 鼓励
- 结束
- 从事
- 工程师
- 工程师
- 英语
- 企业
- 娱乐
- 环境
- 特别
- 等
- 例子
- 例子
- 独家
- 现有
- 体验
- 有经验
- 体验
- 技术专家
- 延长
- 面孔
- 功能有助于
- 面对
- 家庭
- 专栏
- 特征
- 薄膜
- 适合
- 柔软
- 浮动
- 重点
- 聚焦
- 遵循
- 以下
- 如下
- 针对
- 森林
- 发现
- 基金会
- 基础
- 朋友
- 止
- 前
- ,
- 功能
- 基本原理
- Gain增益
- 赌博
- 生成
- 产生
- 产生
- 发电
- 代
- 生成的
- 生成式人工智能
- 发电机
- 特定
- 给予
- 玻璃
- 去
- 黄金
- 金色的
- GPS
- 灰色
- 绿色
- 接地
- 指导
- 指南
- 手
- 处理
- 手
- 快乐
- he
- 胸襟
- 高度
- 帮助
- 帮助
- 高绩效
- 高品质
- 近期亮点
- 他的
- 保持
- 创新中心
- How To
- HTML
- HTTPS
- 鉴定
- if
- 图片
- 图片搜索
- 图片
- 履行
- 实现
- 进口
- 重要的
- in
- 包括
- 包括
- 包含
- 索引
- 指标
- 行业中的应用:
- 信息
- 创新
- 创新技术
- 输入
- 内
- 安装
- 说明
- 整合
- 集成
- 有兴趣
- 利益
- 室内
- 成
- 推出
- 无形
- 问题
- IT
- 项目
- 迭代
- 它的
- JavaScript的
- 牛仔裤
- 加盟
- JPG
- JSON
- 保持
- 键
- 类
- 知识
- 实验室
- 缺乏
- 湖泊
- 语言
- 笔记本电脑
- 大
- 后来
- 发射
- 领导
- 学习
- 导致
- 腿
- 生活
- 喜欢
- 有限
- 清单
- 装载
- 看
- 低
- 机
- 机器学习
- 制成
- 主要
- 保养
- 使
- 制造者
- 制作
- 管理
- 颠覆性技术
- 经理
- 面膜
- 匹配
- 火柴
- 材料
- Matt
- 问题
- 最大
- 最多
- 可能..
- 意
- 媒体
- 网格
- 方法
- 镜面
- 减轻
- 减轻
- 模型
- 模型
- 改性
- 显示器
- 更多
- 多
- 音乐
- 自然
- 需求
- 需要
- 负
- 氖
- 神经
- 全新
- 较新
- NLP
- 节点
- Node.js的
- 不包含
- 注意
- 注意..
- 通知
- 数
- 麻木
- 对象
- 物体检测
- 对象
- of
- on
- 一
- 在线
- 仅由
- 运营
- 优化
- 附加选项
- 附加选项
- or
- 其他名称
- 其它
- 轮廓
- 产量
- 输出
- 学校以外
- 超过
- 最划算
- 简介
- 己
- 面包
- 参数
- 部分
- 模式
- 模式
- 演出
- 性能
- 电话
- 摄影
- 图片
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 请
- 口袋
- 点
- 提出
- 帖子
- 功率
- 供电
- 实用
- 在练习上
- 精确的
- 平台精度
- 高级版
- 防止
- 以前
- 校长
- 隐私
- 生产
- 生成
- 生产
- 产品
- 产品经理
- 核心产品
- 可编程
- 项目
- 项目管理
- 项目
- 提示
- 成熟
- 提供
- 提供
- 提供
- 优
- 目的
- 蟒蛇
- 质量
- 查询
- 询问
- 很快
- R
- 研发
- 随机
- 范围
- 率
- RE
- 实时的
- 现实
- 最近
- 推荐
- 建议
- 建议
- 红色
- 减少
- 参考
- 引用
- 提炼
- 反映
- 反射
- 有关
- 关系
- 放宽
- 留
- 切除
- 去掉
- 去除
- 删除
- 给予
- 呈现
- 更换
- 代表
- 表示
- 代表
- 必须
- 研究
- 研究员
- 响应
- 提供品牌战略规划
- 导致
- 成果
- 回报
- 回报
- 撕开
- 机器人
- 角色
- 粉色
- 圆
- 运行
- s
- 保障
- sagemaker
- 同
- 样品
- 保存
- 鳞片
- 现场
- 科学
- 科学家
- 舀
- 脚本
- 脚本
- SDK
- 搜索
- 搜索
- 部分
- 部分
- 保安
- 种子
- 看到
- 语义
- 前辈
- 句子
- 分开
- 系列
- 服务
- 服务
- 特色服务
- 服务
- 集
- 套数
- 设置
- 格局
- XNUMX所
- 商城
- 短
- 应该
- 作品
- 侧
- 白银
- 类似
- 简易
- 单
- 尺寸
- 尺寸
- 天空
- 睡觉
- 运动鞋
- 片段
- So
- 足球
- 软件
- 固体
- 方案,
- 解决方案
- 解决
- 一些
- 太空
- 空间的
- 空间计算
- 具体的
- 特别是
- 特异性
- 指定
- 花费
- 花费
- 运动
- 传播
- 标准
- 看台
- 开始
- 步
- 步骤
- 直
- 街头
- 串
- 强烈
- 强大的基础
- 样式
- 主题
- 这样
- 合适的
- 周日
- SUPPORT
- 支持
- 合成的
- 采取
- 拍摄
- 服用
- 坦克
- 任务
- 任务
- 技术
- 专业技术
- 模板
- 文本
- 这
- 区域
- 其
- 然后
- 那里。
- 博曼
- Free Introduction
- 那些
- 三
- 通过
- 次
- 时间序列
- 泰坦
- 标题
- 标题
- 至
- 令牌
- 最佳
- 跟踪
- 跟踪
- 改造
- 旅行
- 旅游
- 树
- 二
- 类型
- 类型
- 普遍
- 理解
- 理解
- 城市
- 使用
- 用过的
- 有用
- 用户
- 用户
- 使用
- 运用
- 价值观
- 变量
- 变种
- 变化
- 各个
- 版本
- 通过
- 可见
- 愿景
- 体积
- 走
- 步行
- 想
- 温暖
- 是
- 了解
- 观看
- 水
- 水印
- 方法..
- we
- 卷筒纸
- Web服务
- 什么是
- ,尤其是
- 是否
- 这
- 而
- 白色
- 宽
- 大范围
- 宽度
- 将
- 中
- 工作
- 工作流程
- 加工
- 合作
- 世界
- 写
- X
- 年
- 瑜伽
- 完全
- 您一站式解决方案
- 和风网