通过检索增强生成改善您的稳定扩散提示 | 亚马逊网络服务

通过检索增强生成改善您的稳定扩散提示 | 亚马逊网络服务

文本到图像生成是一个快速发展的人工智能领域,其应用范围广泛,例如媒体和娱乐、游戏、电子商务产品可视化、广告和营销、建筑设计和可视化、艺术创作和医学成像。

稳定扩散 是一种文本到图像模型,使您能够在几秒钟内创建高质量的图像。 2022 年 XNUMX 月,我们 公布 AWS 客户可以从文本生成图像 稳定扩散 模特儿 亚马逊SageMaker JumpStart,一个提供模型、算法和解决方案的机器学习 (ML) 中心。随着 2023 年 XNUMX 月引入 亚马逊基岩,一项完全托管的服务,可通过便捷的 API 访问尖端基础模型,包括稳定扩散。

随着越来越多的客户开始进行文本到图像的工作,一个常见的障碍出现了——如何制作提示来生成高质量、以目的为导向的图像。这一挑战通常需要大量的时间和资源,因为用户会开始迭代的实验之旅,以发现与他们的愿景相符的提示。

检索增强生成 (RAG) 是一个过程,其中语言模型从外部数据源检索上下文文档,并使用此信息生成更准确、信息更丰富的文本。该技术对于知识密集型自然语言处理(NLP)任务特别有用。现在,我们将其变革性的触角扩展到文本到图像生成的世界。在这篇文章中,我们演示了如何利用 RAG 的强大功能来增强发送到稳定扩散模型的提示。您可以在 Amazon Bedrock 以及 SageMaker JumpStart 上创建自己的 AI 助手,利用大型语言模型 (LLM) 在几分钟内快速生成。

制作文本到图像提示的方法

乍一看,为文本到图像模型创建提示似乎很简单,但这是一项看似复杂的任务。这不仅仅是输入几个单词并期望模型能够呈现出与您的心理形象相符的图像。有效的提示应提供清晰的指示,同时留有创造力的空间。它们必须平衡特异性和模糊性,并且应该根据所使用的特定模型进行定制。为了应对快速工程的挑战,业界探索了多种方法:

  • 提示库 – 一些公司整理了预先编写的提示库,您可以访问和自定义这些提示。这些库包含针对各种用例量身定制的各种提示,允许您选择或调整符合您的特定需求的提示。
  • 提示模板和指南 – 许多公司和组织为用户提供了一组预定义的提示模板和指南。这些模板提供了用于编写提示的结构化格式,使编写有效的说明变得简单。
  • 社区和用户贡献 – 众包平台和用户社区通常在改进提示方面发挥着重要作用。用户可以与社区分享他们经过微调的模型、成功的提示、技巧和最佳实践,帮助其他人学习和完善他们的提示写作技能。
  • 模型微调 – 公司可以微调其文本到图像模型,以更好地理解和响应特定类型的提示。微调可以提高特定领域或用例的模型性能。

这些行业方法的共同目标是使制作有效的文本到图像提示的过程更容易访问、用户友好且高效,最终增强文本到图像生成模型在广泛应用中的可用性和多功能性。

使用RAG进行提示设计

在本节中,我们将深入研究 RAG 技术如何在即时工程中改变游戏规则,并与这些现有方法协调工作。通过将RAG无缝集成到流程中,我们可以简化并提高提示设计的效率。

提示数据库中的语义搜索

想象一下,一家公司在其提示库中积累了大量提示存储库,或者创建了大量提示模板,每个模板都是针对特定用例和目标而设计的。传统上,为文本到图像提示寻找灵感的用户会手动浏览这些库,通常会筛选大量选项列表。这个过程可能既耗时又低效。通过使用文本嵌入模型嵌入提示库中的提示,公司可以构建语义搜索引擎。它的工作原理如下:

  • 嵌入提示 – 该公司使用文本嵌入将其库中的每个提示转换为数字表示。这些嵌入捕获了提示的语义和上下文。
  • 用户查询 – 当用户提供自己的提示或描述他们想要的图像时,系统也可以分析和嵌入他们的输入。
  • 语义搜索 – 使用嵌入,系统执行语义搜索。它根据用户的查询从提示库中检索最相关的提示,同时考虑用户的输入和提示库中的历史数据。

通过在提示库中实施语义搜索,公司使员工能够轻松访问大量提示。这种方法不仅可以加速快速创作,还可以鼓励文本到图像生成的创造力和一致性。

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

语义搜索提示生成

尽管语义搜索简化了查找相关提示的过程,但 RAG 更进一步,使用这些搜索结果生成优化的提示。它的工作原理如下:

  • 语义搜索结果 – 从库中检索到最相关的提示后,系统将这些提示与用户的原始输入一起呈现给用户。
  • 文本生成模型 – 用户可以从搜索结果中选择提示或提供有关其偏好的进一步上下文。系统将选定的提示和用户的输入输入到 LLM 中。
  • 优化提示 – 法学硕士凭借对语言细微差别的理解,精心设计了一个优化的提示,该提示结合了所选提示和用户输入的元素。这个新的提示是根据用户的要求定制的,旨在产生所需的图像输出。

语义搜索与提示生成相结合,不仅简化了查找提示的过程,而且保证了生成的提示具有高度相关性和有效性。它使您能够微调和自定义提示,最终改善文本到图像的生成结果。以下是使用语义搜索和提示生成的提示从 Stable Diffusion XL 生成的图像示例。

原始提示 语义搜索提示 LLM优化提示

一只小狗的卡通

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

  • 一只狗在餐桌上吃三明治的可爱卡通片
  • 朋克狗的卡通插图,动漫风格,白色背景
  • 一个男孩和他的狗沿着森林小巷行走的漫画

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

动画风格的卡通场景,一个男孩与他可爱的宠物狗手牵手沿着森林小巷快乐地行走。

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

跨不同行业的基于 RAG 的提示设计应用

在探索我们建议的 RAG 架构的应用之前,让我们先从图像生成模型最适用的行业开始。在广告技术中,速度和创造力至关重要。基于 RAG 的提示生成可以通过生成提示建议来为广告活动快速创建许多图像,从而增加即时价值。人类决策者可以通过自动生成的图像来选择活动的候选图像。此功能可以是独立的应用程序,也可以嵌入到当前可用的流行软件工具和平台中。

稳定扩散模型可以提高生产力的另一个行业是媒体和娱乐。例如,RAG 架构可以协助创建化身的用例。从简单的提示开始,RAG 可以为头像创意添加更多的色彩和特征。它可以生成许多候选提示并提供更多创意想法。从这些生成的图像中,您可以找到最适合给定应用程序的图像。它通过自动生成许多提示建议来提高生产力。它可以提出的变化是解决方案的直接好处。

解决方案概述

使客户能够构建自己的基于 RAG 的 AI 助手,以便在 AWS 上进行快速设计,这证明了现代技术的多功能性。 AWS 提供了大量的选项和服务来促进这一努力。以下参考架构图展示了用于 AWS 上提示设计的 RAG 应用程序。

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

在为您的 AI 助手选择合适的法学硕士时,AWS 提供了一系列选择来满足您的特定要求。

首先,您可以选择通过 SageMaker JumpStart 使用专用实例获得 LLM。这些实例支持各种模型,包括 Falcon、Llama 2、Bloom Z 和 Flan-T5,您也可以探索专有模型,例如 Cohere 的 Command 和多语言嵌入或 AI2 Labs 的 Jurassic-21。

如果您更喜欢更简单的方法,AWS 提供以下方面的法学硕士: 亚马逊基岩,具有像这样的模型 亚马逊泰坦 和人性化的克劳德。这些模型可以通过简单的 API 调用轻松访问,让您轻松利用它们的强大功能。选项的灵活性和多样性确保您可以自由选择最符合您即时设计目标的法学硕士,无论您是寻求开放容器的创新还是专有模型的强大功能。

在构建基本矢量数据库时,AWS 通过其本机服务提供了多种选项。您可以选择 亚马逊开放搜索服务, 亚马逊极光适用于 PostgreSQL 的 Amazon 关系数据库服务 (Amazon RDS),每个都提供强大的功能来满足您的特定需求。或者,您也可以探索 Pinecone、Weaviate、Elastic、Milvus 或 Chroma 等 AWS 合作伙伴提供的产品,它们为高效矢量存储和检索提供专门的解决方案。

为了帮助您开始构建基于 RAG 的 AI 助手以进行快速设计,我们在我们的 GitHub上 存储库。本演示使用以下资源:

  • 图像生成:Amazon Bedrock 上的 Stable Diffusion XL
  • 文本嵌入:Amazon Bedrock 上的 Amazon Titan
  • 文本生成:Amazon Bedrock 上的 Claude 2
  • 矢量数据库:FAISS,一个用于高效相似性搜索的开源库
  • 提示库:来自的提示示例 扩散数据库,第一个用于文本到图像生成模型的大规模提示图库数据集

此外,我们还整合了 LangChain 来实现 LLM,并结合 Streamit 来构建 Web 应用程序组件,从而提供无缝且用户友好的体验。

先决条件

您需要具备以下条件才能运行此演示应用程序:

  • 一个AWS账户
  • 对如何导航有基本了解 亚马逊SageMaker Studio
  • 基本了解如何从以下位置下载存储库 GitHub上
  • 在终端上运行命令的基本知识

运行演示应用程序

您可以根据说明下载所有必要的代码 GitHub上 回购。应用程序部署后,您将看到类似以下屏幕截图的页面。

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

通过此演示,我们的目标是使实施过程变得易于理解和易于理解,为您提供实践经验,以开启您进入 RAG 世界的旅程并在 AWS 上进行提示设计。

清理

试用该应用程序后,通过停止该应用程序来清理资源。

结论

RAG 已成为提示设计领域改变游戏规则的范例,重振了 Stable Diffusion 的文本到图像功能。通过将 RAG 技术与现有方法相协调并使用 AWS 强大的资源,我们发现了一条简化创造力和加速学习的途径。

如需其他资源,请访问以下网址:


关于作者

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。詹姆斯·易 是 Amazon Web Services 新兴技术团队的高级 AI/ML 合作伙伴解决方案架构师。 他热衷于与企业客户和合作伙伴一起设计、部署和扩展 AI/ML 应用程序,以获取他们的商业价值。 工作之余,他喜欢踢足球、旅行和与家人共度时光。

通过检索增强生成改善您的稳定扩散提示 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。鲁米奥尔森 是 AWS 合作伙伴计划的解决方案架构师。 她目前的职位专门研究无服务器和机器学习解决方案,并具有自然语言处理技术的背景。 她大部分业余时间都和女儿一起探索太平洋西北地区的自然风光。

时间戳记:

更多来自 AWS机器学习