検索拡張生成を使用して安定した拡散プロンプトを改善する | アマゾン ウェブ サービス

検索拡張生成を使用して安定した拡散プロンプトを改善する | アマゾン ウェブ サービス

テキストから画像への生成は、メディアとエンターテイメント、ゲーム、e コマース製品のビジュアライゼーション、広告とマーケティング、建築デザインとビジュアライゼーション、芸術作品、医療画像など、さまざまな分野で応用されている人工知能の急速に成長している分野です。

安定拡散 は、数秒以内に高品質の画像を作成できるテキストから画像へのモデルです。 2022 年 XNUMX 月には、 発表の AWS のお客様は、テキストから画像を生成できる 安定拡散 モデルイン Amazon SageMaker ジャンプスタート、モデル、アルゴリズム、ソリューションを提供する機械学習 (ML) ハブです。進化は 2023 年 XNUMX 月にも続き、 アマゾンの岩盤は、便利な API を通じて安定拡散を含む最先端の基盤モデルへのアクセスを提供するフルマネージド サービスです。

テキストから画像への変換に取り組む顧客の数が増え続けるにつれ、共通のハードルが生じます。それは、高品質で目的に沿った画像を生み出す力を発揮するプロンプトをどのように作成するかということです。ユーザーは自分のビジョンに合ったプロンプトを見つけるために反復的な実験の旅に乗り出すため、この課題には多くの場合、かなりの時間とリソースが必要になります。

取得拡張生成 (RAG) は、言語モデルが外部データ ソースからコンテキスト ドキュメントを取得し、この情報を使用してより正確で有益なテキストを生成するプロセスです。この手法は、知識集約型の自然言語処理 (NLP) タスクに特に役立ちます。私たちは現在、その革新的なタッチをテキストから画像への生成の世界に拡張しています。この投稿では、RAG の力を利用して安定拡散モデルに送信されるプロンプトを強化する方法を説明します。 Amazon Bedrock および SageMaker JumpStart の大規模言語モデル (LLM) を使用して、プロンプトを生成する独自の AI アシスタントを数分で作成できます。

テキストから画像へのプロンプトを作成するアプローチ

テキストから画像へのモデルのプロンプトの作成は、一見すると簡単そうに見えますが、一見複雑なタスクです。単にいくつかの単語を入力し、モデルがあなたの心のイメージと一致するイメージを思い起こさせることを期待するだけではありません。効果的なプロンプトでは、創造性の余地を残しながら明確な指示を提供する必要があります。特異性と曖昧性のバランスをとる必要があり、使用される特定のモデルに合わせて調整する必要があります。迅速なエンジニアリングという課題に対処するために、業界はさまざまなアプローチを検討してきました。

  • プロンプトライブラリ – 一部の企業では、アクセスしてカスタマイズできる、事前に作成されたプロンプトのライブラリを厳選しています。これらのライブラリには、さまざまなユースケースに合わせた幅広いプロンプトが含​​まれており、特定のニーズに合わせてプロンプトを選択または適応させることができます。
  • プロンプトのテンプレートとガイドライン – 多くの企業や組織は、事前定義されたプロンプト テンプレートとガイドラインのセットをユーザーに提供しています。これらのテンプレートは、プロンプトを作成するための構造化された形式を提供し、効果的な指示を簡単に作成できるようにします。
  • コミュニティとユーザーの貢献 – クラウドソーシングのプラットフォームとユーザー コミュニティは、プロンプトの改善に重要な役割を果たすことがよくあります。ユーザーは、微調整されたモデル、成功したプロンプト、ヒント、ベスト プラクティスをコミュニティと共有し、他の人がプロンプト作成スキルを学び、磨くのを助けることができます。
  • モデルの微調整 – 企業は、特定の種類のプロンプトをよりよく理解し、応答するために、テキストから画像へのモデルを微調整する場合があります。微調整により、特定のドメインまたはユースケースのモデルのパフォーマンスを向上させることができます。

これらの業界のアプローチは集合的に、効果的なテキストから画像へのプロンプトを作成するプロセスをよりアクセスしやすく、ユーザーフレンドリーで効率的なものにし、最終的には幅広いアプリケーションに対するテキストから画像への生成モデルの使いやすさと汎用性を高めることを目的としています。

RAG を使用したプロンプト設計

このセクションでは、RAG テクニックがこれらの既存のアプローチと調和して機能し、プロンプト エンジニアリングにおいてゲームチェンジャーとしてどのように機能するかを詳しく掘り下げます。 RAG をプロセスにシームレスに統合することで、迅速な設計を合理化し、効率を高めることができます。

プロンプトデータベースでのセマンティック検索

プロンプトの膨大なリポジトリをプロンプト ライブラリに蓄積しているか、それぞれが特定の使用例や目的に合わせて設計された多数のプロンプト テンプレートを作成している企業を想像してください。従来、テキストから画像へのプロンプトのインスピレーションを求めるユーザーは、これらのライブラリを手動で参照し、多くの場合オプションの広範なリストをふるいにかけていました。このプロセスは時間がかかり、非効率的になる可能性があります。テキスト埋め込みモデルを使用してプロンプト ライブラリからプロンプトを埋め込むことで、企業はセマンティック検索エンジンを構築できます。仕組みは次のとおりです。

  • プロンプトの埋め込み – 同社はテキスト埋め込みを使用して、ライブラリ内の各プロンプトを数値表現に変換します。これらの埋め込みは、プロンプトの意味論的な意味とコンテキストをキャプチャします。
  • ユーザークエリ – ユーザーが独自のプロンプトを提供したり、希望するイメージを説明したりすると、システムはその入力を分析して埋め込むこともできます。
  • セマンティック検索 – 埋め込みを使用して、システムはセマンティック検索を実行します。ユーザーの入力とプロンプト ライブラリ内の履歴データの両方を考慮して、ユーザーのクエリに基づいてライブラリから最も関連性の高いプロンプトを取得します。

プロンプト ライブラリにセマンティック検索を実装することで、企業は従業員が膨大なプロンプトの宝庫に簡単にアクセスできるようになります。このアプローチは、迅速な作成を加速するだけでなく、テキストから画像への生成における創造性と一貫性を促進します。y

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

セマンティック検索からの即時生成

セマンティック検索は関連するプロンプトを見つけるプロセスを合理化しますが、RAG はこれらの検索結果を使用して最適化されたプロンプトを生成することで、さらに一歩進んでいます。仕組みは次のとおりです。

  • セマンティック検索結果 – ライブラリから最も関連性の高いプロンプトを取得した後、システムはこれらのプロンプトをユーザーの元の入力とともにユーザーに表示します。
  • テキスト生成モデル – ユーザーは検索結果からプロンプトを選択することも、好みに関する詳細なコンテキストを提供することもできます。システムは、選択されたプロンプトとユーザーの入力の両方を LLM にフィードします。
  • 最適化されたプロンプト – LLM は言語のニュアンスを理解し、選択したプロンプトとユーザーの入力の要素を組み合わせた最適化されたプロンプトを作成します。この新しいプロンプトはユーザーの要件に合わせて調整されており、目的の画像出力が得られるように設計されています。

セマンティック検索とプロンプト生成を組み合わせると、プロンプトを見つけるプロセスが簡素化されるだけでなく、生成されるプロンプトの関連性が高く、効果的であることが保証されます。これにより、プロンプトを微調整してカスタマイズできるようになり、最終的にはテキストから画像への生成結果が向上します。以下は、セマンティック検索とプロンプト生成からのプロンプトを使用して、Stable Diffusion XL から生成されたイメージの例です。

元のプロンプト セマンティック検索からのプロンプト LLM による最適化されたプロンプト

小さな犬の漫画

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

  • 夕食のテーブルでサンドイッチを持っている犬のかわいい漫画
  • パンク犬、アニメ スタイル、白い背景の漫画イラスト
  • 森の小道を歩く少年とその犬の漫画

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

かわいいペットの犬と手をつないで森の小道を楽しそうに歩く少年の漫画のシーンをアニメーション スタイルで表現したもの。

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

さまざまな業界にわたる RAG ベースの即時設計アプリケーション

私たちが提案する RAG アーキテクチャのアプリケーションを検討する前に、画像生成モデルが最も適用できる業界から始めましょう。アドテックでは、スピードと創造性が非常に重要です。 RAG ベースのプロンプト生成では、広告キャンペーン用に多くの画像を迅速に作成するためのプロンプト提案を生成することで、即座に価値を追加できます。人間の意思決定者は、自動生成された画像を調べて、キャンペーンの候補画像を選択できます。この機能は、スタンドアロン アプリケーションにすることも、現在利用可能な一般的なソフトウェア ツールやプラットフォームに組み込むこともできます。

安定拡散モデルが生産性を向上できるもう 1 つの業界は、メディアとエンターテイメントです。 RAG アーキテクチャは、たとえばアバター作成のユースケースを支援できます。 RAG は、単純なプロンプトから開始して、アバターのアイデアにさらに多くの色と特徴を追加できます。多くの候補プロンプトを生成し、より創造的なアイデアを提供できます。これらの生成されたイメージから、特定のアプリケーションに最適なものを見つけることができます。多くのプロンプト提案を自動的に生成することにより、生産性が向上します。考えられるバリエーションは、ソリューションの即時の利益となります。

ソリューションの概要

お客様が AWS 上で迅速な設計を行うための独自の RAG ベースの AI アシスタントを構築できることは、最新テクノロジーの多用途性の証です。 AWS は、この取り組みを促進するためのオプションとサービスを豊富に提供しています。次の参照アーキテクチャ図は、AWS でのプロンプト設計用の RAG アプリケーションを示しています。

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

AI アシスタントに適切な LLM を選択する場合、AWS は特定の要件に応える幅広い選択肢を提供します。

まず、専用インスタンスを利用して、SageMaker JumpStart を通じて利用可能な LLM を選択できます。これらのインスタンスは、Falcon、Llama 2、Bloom Z、Flan-T5 などのさまざまなモデルをサポートしています。また、Cohere のコマンドと多言語埋め込み、AI2 Labs の Jurassic-21 などの独自のモデルを探索することもできます。

より簡素化されたアプローチを希望する場合は、AWS が LLM を提供しています。 アマゾンの岩盤、次のようなモデルが登場します アマゾンタイタン そして人間のクロード。これらのモデルは簡単な API 呼び出しを通じて簡単にアクセスできるため、その機能を簡単に活用できます。オプションの柔軟性と多様性により、オープン コンテナによるイノベーションを求めている場合でも、独自モデルの堅牢な機能を求めている場合でも、プロンプトの設計目標に最も合致する LLM を自由に選択できます。

重要なベクトル データベースの構築に関しては、AWS はネイティブ サービスを通じて多数のオプションを提供します。選択できます AmazonOpenSearchサービス, アマゾンオーロラまたは PostgreSQL用のAmazonリレーショナルデータベースサービス(Amazon RDS)それぞれが、特定のニーズに合わせた堅牢な機能を提供します。あるいは、効率的なベクトルの保存と取得のための特殊なソリューションを提供する、Pinecone、Weaviate、Elastic、Milvus、または Chroma などの AWS パートナーの製品を探索することもできます。

迅速な設計のための RAG ベースの AI アシスタントの構築を開始できるように、包括的なデモをまとめました。 GitHubの リポジトリ。このデモでは次のリソースを使用します。

  • 画像生成: Amazon Bedrock の Stable Diffusion XL
  • テキストの埋め込み: Amazon Bedrock の Amazon Titan
  • テキスト生成: Amazon Bedrock の Claude 2
  • ベクトル データベース: FAISS、効率的な類似性検索のためのオープン ソース ライブラリ
  • プロンプト ライブラリ: プロンプトの例 拡散DB、テキストから画像への生成モデル用の最初の大規模なプロンプト ギャラリー データセット

さらに、LLM 実装には LangChain を、Web アプリケーション コンポーネントには Streamit を組み込み、シームレスでユーザーフレンドリーなエクスペリエンスを提供します。

前提条件

このデモ アプリケーションを実行するには、次のものが必要です。

  • AWSアカウント
  • ナビゲーション方法の基本的な理解 Amazon SageMakerスタジオ
  • リポジトリをダウンロードする方法の基本的な理解 GitHubの
  • ターミナル上でコマンドを実行するための基本的な知識

デモアプリケーションを実行する

必要なコードはすべて、次の手順に従ってダウンロードできます。 GitHubの レポ。アプリケーションがデプロイされると、次のスクリーンショットのようなページが表示されます。

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

このデモンストレーションでは、実装プロセスをアクセスしやすく理解しやすくし、RAG の世界への旅を開始し、AWS での迅速な設計を開始するための実践的な体験を提供することを目指しています。

クリーンアップ

アプリを試した後、アプリケーションを停止してリソースをクリーンアップします。

まとめ

RAG は、プロンプト デザインの世界で革新的なパラダイムとして登場し、Stable Diffusion のテキストから画像への機能を活性化します。 RAG テクニックを既存のアプローチと調和させ、AWS の堅牢なリソースを使用することで、私たちは創造性を合理化し、学習を加速する道を発見しました。

追加のリソースについては、以下を参照してください。


著者について

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ジェームス・イー アマゾンウェブサービスのエマージングテクノロジーチームのシニアAI/MLパートナーソリューションアーキテクトです。 彼は、企業の顧客やパートナーと協力してAI / MLアプリケーションを設計、展開、スケーリングし、ビジネス価値を引き出すことに情熱を注いでいます。 仕事以外では、サッカーをしたり、旅行したり、家族と過ごしたりしています。

検索拡張生成を使用して安定した拡散プロンプトを改善する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ルミオルセン AWSパートナープログラムのソリューションアーキテクトです。 彼女は現在の役割でサーバーレスおよび機械学習ソリューションを専門としており、自然言語処理技術のバックグラウンドを持っています。 彼女は余暇のほとんどを娘と過ごし、太平洋岸北西部の自然を探索しています。

タイムスタンプ:

より多くの AWS機械学習