テキストから画像への生成は、メディアとエンターテイメント、ゲーム、e コマース製品のビジュアライゼーション、広告とマーケティング、建築デザインとビジュアライゼーション、芸術作品、医療画像など、さまざまな分野で応用されている人工知能の急速に成長している分野です。
安定拡散 は、数秒以内に高品質の画像を作成できるテキストから画像へのモデルです。 2022 年 XNUMX 月には、 発表の AWS のお客様は、テキストから画像を生成できる 安定拡散 モデルイン Amazon SageMaker ジャンプスタート、モデル、アルゴリズム、ソリューションを提供する機械学習 (ML) ハブです。進化は 2023 年 XNUMX 月にも続き、 アマゾンの岩盤は、便利な API を通じて安定拡散を含む最先端の基盤モデルへのアクセスを提供するフルマネージド サービスです。
テキストから画像への変換に取り組む顧客の数が増え続けるにつれ、共通のハードルが生じます。それは、高品質で目的に沿った画像を生み出す力を発揮するプロンプトをどのように作成するかということです。ユーザーは自分のビジョンに合ったプロンプトを見つけるために反復的な実験の旅に乗り出すため、この課題には多くの場合、かなりの時間とリソースが必要になります。
取得拡張生成 (RAG) は、言語モデルが外部データ ソースからコンテキスト ドキュメントを取得し、この情報を使用してより正確で有益なテキストを生成するプロセスです。この手法は、知識集約型の自然言語処理 (NLP) タスクに特に役立ちます。私たちは現在、その革新的なタッチをテキストから画像への生成の世界に拡張しています。この投稿では、RAG の力を利用して安定拡散モデルに送信されるプロンプトを強化する方法を説明します。 Amazon Bedrock および SageMaker JumpStart の大規模言語モデル (LLM) を使用して、プロンプトを生成する独自の AI アシスタントを数分で作成できます。
テキストから画像へのプロンプトを作成するアプローチ
テキストから画像へのモデルのプロンプトの作成は、一見すると簡単そうに見えますが、一見複雑なタスクです。単にいくつかの単語を入力し、モデルがあなたの心のイメージと一致するイメージを思い起こさせることを期待するだけではありません。効果的なプロンプトでは、創造性の余地を残しながら明確な指示を提供する必要があります。特異性と曖昧性のバランスをとる必要があり、使用される特定のモデルに合わせて調整する必要があります。迅速なエンジニアリングという課題に対処するために、業界はさまざまなアプローチを検討してきました。
- プロンプトライブラリ – 一部の企業では、アクセスしてカスタマイズできる、事前に作成されたプロンプトのライブラリを厳選しています。これらのライブラリには、さまざまなユースケースに合わせた幅広いプロンプトが含まれており、特定のニーズに合わせてプロンプトを選択または適応させることができます。
- プロンプトのテンプレートとガイドライン – 多くの企業や組織は、事前定義されたプロンプト テンプレートとガイドラインのセットをユーザーに提供しています。これらのテンプレートは、プロンプトを作成するための構造化された形式を提供し、効果的な指示を簡単に作成できるようにします。
- コミュニティとユーザーの貢献 – クラウドソーシングのプラットフォームとユーザー コミュニティは、プロンプトの改善に重要な役割を果たすことがよくあります。ユーザーは、微調整されたモデル、成功したプロンプト、ヒント、ベスト プラクティスをコミュニティと共有し、他の人がプロンプト作成スキルを学び、磨くのを助けることができます。
- モデルの微調整 – 企業は、特定の種類のプロンプトをよりよく理解し、応答するために、テキストから画像へのモデルを微調整する場合があります。微調整により、特定のドメインまたはユースケースのモデルのパフォーマンスを向上させることができます。
これらの業界のアプローチは集合的に、効果的なテキストから画像へのプロンプトを作成するプロセスをよりアクセスしやすく、ユーザーフレンドリーで効率的なものにし、最終的には幅広いアプリケーションに対するテキストから画像への生成モデルの使いやすさと汎用性を高めることを目的としています。
RAG を使用したプロンプト設計
このセクションでは、RAG テクニックがこれらの既存のアプローチと調和して機能し、プロンプト エンジニアリングにおいてゲームチェンジャーとしてどのように機能するかを詳しく掘り下げます。 RAG をプロセスにシームレスに統合することで、迅速な設計を合理化し、効率を高めることができます。
プロンプトデータベースでのセマンティック検索
プロンプトの膨大なリポジトリをプロンプト ライブラリに蓄積しているか、それぞれが特定の使用例や目的に合わせて設計された多数のプロンプト テンプレートを作成している企業を想像してください。従来、テキストから画像へのプロンプトのインスピレーションを求めるユーザーは、これらのライブラリを手動で参照し、多くの場合オプションの広範なリストをふるいにかけていました。このプロセスは時間がかかり、非効率的になる可能性があります。テキスト埋め込みモデルを使用してプロンプト ライブラリからプロンプトを埋め込むことで、企業はセマンティック検索エンジンを構築できます。仕組みは次のとおりです。
- プロンプトの埋め込み – 同社はテキスト埋め込みを使用して、ライブラリ内の各プロンプトを数値表現に変換します。これらの埋め込みは、プロンプトの意味論的な意味とコンテキストをキャプチャします。
- ユーザークエリ – ユーザーが独自のプロンプトを提供したり、希望するイメージを説明したりすると、システムはその入力を分析して埋め込むこともできます。
- セマンティック検索 – 埋め込みを使用して、システムはセマンティック検索を実行します。ユーザーの入力とプロンプト ライブラリ内の履歴データの両方を考慮して、ユーザーのクエリに基づいてライブラリから最も関連性の高いプロンプトを取得します。
プロンプト ライブラリにセマンティック検索を実装することで、企業は従業員が膨大なプロンプトの宝庫に簡単にアクセスできるようになります。このアプローチは、迅速な作成を加速するだけでなく、テキストから画像への生成における創造性と一貫性を促進します。y
セマンティック検索からの即時生成
セマンティック検索は関連するプロンプトを見つけるプロセスを合理化しますが、RAG はこれらの検索結果を使用して最適化されたプロンプトを生成することで、さらに一歩進んでいます。仕組みは次のとおりです。
- セマンティック検索結果 – ライブラリから最も関連性の高いプロンプトを取得した後、システムはこれらのプロンプトをユーザーの元の入力とともにユーザーに表示します。
- テキスト生成モデル – ユーザーは検索結果からプロンプトを選択することも、好みに関する詳細なコンテキストを提供することもできます。システムは、選択されたプロンプトとユーザーの入力の両方を LLM にフィードします。
- 最適化されたプロンプト – LLM は言語のニュアンスを理解し、選択したプロンプトとユーザーの入力の要素を組み合わせた最適化されたプロンプトを作成します。この新しいプロンプトはユーザーの要件に合わせて調整されており、目的の画像出力が得られるように設計されています。
セマンティック検索とプロンプト生成を組み合わせると、プロンプトを見つけるプロセスが簡素化されるだけでなく、生成されるプロンプトの関連性が高く、効果的であることが保証されます。これにより、プロンプトを微調整してカスタマイズできるようになり、最終的にはテキストから画像への生成結果が向上します。以下は、セマンティック検索とプロンプト生成からのプロンプトを使用して、Stable Diffusion XL から生成されたイメージの例です。
元のプロンプト | セマンティック検索からのプロンプト | LLM による最適化されたプロンプト |
小さな犬の漫画 |
|
かわいいペットの犬と手をつないで森の小道を楽しそうに歩く少年の漫画のシーンをアニメーション スタイルで表現したもの。 |
さまざまな業界にわたる RAG ベースの即時設計アプリケーション
私たちが提案する RAG アーキテクチャのアプリケーションを検討する前に、画像生成モデルが最も適用できる業界から始めましょう。アドテックでは、スピードと創造性が非常に重要です。 RAG ベースのプロンプト生成では、広告キャンペーン用に多くの画像を迅速に作成するためのプロンプト提案を生成することで、即座に価値を追加できます。人間の意思決定者は、自動生成された画像を調べて、キャンペーンの候補画像を選択できます。この機能は、スタンドアロン アプリケーションにすることも、現在利用可能な一般的なソフトウェア ツールやプラットフォームに組み込むこともできます。
安定拡散モデルが生産性を向上できるもう 1 つの業界は、メディアとエンターテイメントです。 RAG アーキテクチャは、たとえばアバター作成のユースケースを支援できます。 RAG は、単純なプロンプトから開始して、アバターのアイデアにさらに多くの色と特徴を追加できます。多くの候補プロンプトを生成し、より創造的なアイデアを提供できます。これらの生成されたイメージから、特定のアプリケーションに最適なものを見つけることができます。多くのプロンプト提案を自動的に生成することにより、生産性が向上します。考えられるバリエーションは、ソリューションの即時の利益となります。
ソリューションの概要
お客様が AWS 上で迅速な設計を行うための独自の RAG ベースの AI アシスタントを構築できることは、最新テクノロジーの多用途性の証です。 AWS は、この取り組みを促進するためのオプションとサービスを豊富に提供しています。次の参照アーキテクチャ図は、AWS でのプロンプト設計用の RAG アプリケーションを示しています。
AI アシスタントに適切な LLM を選択する場合、AWS は特定の要件に応える幅広い選択肢を提供します。
まず、専用インスタンスを利用して、SageMaker JumpStart を通じて利用可能な LLM を選択できます。これらのインスタンスは、Falcon、Llama 2、Bloom Z、Flan-T5 などのさまざまなモデルをサポートしています。また、Cohere のコマンドと多言語埋め込み、AI2 Labs の Jurassic-21 などの独自のモデルを探索することもできます。
より簡素化されたアプローチを希望する場合は、AWS が LLM を提供しています。 アマゾンの岩盤、次のようなモデルが登場します アマゾンタイタン そして人間のクロード。これらのモデルは簡単な API 呼び出しを通じて簡単にアクセスできるため、その機能を簡単に活用できます。オプションの柔軟性と多様性により、オープン コンテナによるイノベーションを求めている場合でも、独自モデルの堅牢な機能を求めている場合でも、プロンプトの設計目標に最も合致する LLM を自由に選択できます。
重要なベクトル データベースの構築に関しては、AWS はネイティブ サービスを通じて多数のオプションを提供します。選択できます AmazonOpenSearchサービス, アマゾンオーロラまたは PostgreSQL用のAmazonリレーショナルデータベースサービス(Amazon RDS)それぞれが、特定のニーズに合わせた堅牢な機能を提供します。あるいは、効率的なベクトルの保存と取得のための特殊なソリューションを提供する、Pinecone、Weaviate、Elastic、Milvus、または Chroma などの AWS パートナーの製品を探索することもできます。
迅速な設計のための RAG ベースの AI アシスタントの構築を開始できるように、包括的なデモをまとめました。 GitHubの リポジトリ。このデモでは次のリソースを使用します。
- 画像生成: Amazon Bedrock の Stable Diffusion XL
- テキストの埋め込み: Amazon Bedrock の Amazon Titan
- テキスト生成: Amazon Bedrock の Claude 2
- ベクトル データベース: FAISS、効率的な類似性検索のためのオープン ソース ライブラリ
- プロンプト ライブラリ: プロンプトの例 拡散DB、テキストから画像への生成モデル用の最初の大規模なプロンプト ギャラリー データセット
さらに、LLM 実装には LangChain を、Web アプリケーション コンポーネントには Streamit を組み込み、シームレスでユーザーフレンドリーなエクスペリエンスを提供します。
前提条件
このデモ アプリケーションを実行するには、次のものが必要です。
- AWSアカウント
- ナビゲーション方法の基本的な理解 Amazon SageMakerスタジオ
- リポジトリをダウンロードする方法の基本的な理解 GitHubの
- ターミナル上でコマンドを実行するための基本的な知識
デモアプリケーションを実行する
必要なコードはすべて、次の手順に従ってダウンロードできます。 GitHubの レポ。アプリケーションがデプロイされると、次のスクリーンショットのようなページが表示されます。
このデモンストレーションでは、実装プロセスをアクセスしやすく理解しやすくし、RAG の世界への旅を開始し、AWS での迅速な設計を開始するための実践的な体験を提供することを目指しています。
クリーンアップ
アプリを試した後、アプリケーションを停止してリソースをクリーンアップします。
まとめ
RAG は、プロンプト デザインの世界で革新的なパラダイムとして登場し、Stable Diffusion のテキストから画像への機能を活性化します。 RAG テクニックを既存のアプローチと調和させ、AWS の堅牢なリソースを使用することで、私たちは創造性を合理化し、学習を加速する道を発見しました。
追加のリソースについては、以下を参照してください。
著者について
ジェームス・イー アマゾンウェブサービスのエマージングテクノロジーチームのシニアAI/MLパートナーソリューションアーキテクトです。 彼は、企業の顧客やパートナーと協力してAI / MLアプリケーションを設計、展開、スケーリングし、ビジネス価値を引き出すことに情熱を注いでいます。 仕事以外では、サッカーをしたり、旅行したり、家族と過ごしたりしています。
ルミオルセン AWSパートナープログラムのソリューションアーキテクトです。 彼女は現在の役割でサーバーレスおよび機械学習ソリューションを専門としており、自然言語処理技術のバックグラウンドを持っています。 彼女は余暇のほとんどを娘と過ごし、太平洋岸北西部の自然を探索しています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/improve-your-stable-diffusion-prompts-with-retrieval-augmented-generation/
- :持っている
- :は
- :not
- :どこ
- $UP
- 100
- 14
- 2022
- 2023
- 210
- 7
- a
- 私たちについて
- 加速された
- 加速する
- アクセス
- アクセス可能な
- 累積された
- 正確な
- 越えて
- 適応する
- 加えます
- NEW
- 住所
- 広告
- 広告運用
- 後
- AI
- AIアシスタント
- AI / ML
- 目指す
- アルゴリズム
- 整列する
- 整列
- すべて
- 許可
- 並んで
- また
- Amazon
- アマゾンRDS
- Amazon Webサービス
- 曖昧さ
- an
- 分析します
- および
- アニメーション
- アニメ
- 人間原理
- API
- アプリ
- 適用可能な
- 申し込み
- アプローチ
- アプローチ
- 4月
- 建築の
- 建築
- です
- エリア
- 人工の
- 人工知能
- 芸術的
- AS
- アシスト
- アシスタント
- At
- 増強された
- 自動的に
- 利用できます
- アバター
- AWS
- 背景
- ベース
- BE
- さ
- 恩恵
- BEST
- ベストプラクティス
- より良いです
- ブルーム
- 両言語で
- ビルド
- 建物
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- キャンペーン
- 缶
- 候補者
- 機能
- キャプチャー
- 漫画
- 例
- 応じます
- 挑戦する
- チェンジャー
- 特性
- 選択肢
- 選択する
- クリア
- コード
- 集合的に
- カラー
- 組み合わせ
- 組み合わせ
- 来ます
- comes
- コマンドと
- コミュニティ
- コミュニティ
- 企業
- 会社
- 複雑な
- コンポーネント
- 包括的な
- かなりの
- 考えると
- 構築する
- 含む
- コンテナ
- コンテキスト
- 文脈上の
- 継続します
- 貢献
- 便利
- 変換
- クラフト
- 作ります
- 作成した
- 創造
- 創作
- クリエイティブ
- 創造性
- 重大な
- 電流プローブ
- 現在
- Customers
- カスタマイズ
- 最先端
- データ
- データベース
- 決定を下す人
- 専用の
- 掘り下げる
- 需要
- デモ
- 実証します
- 展開します
- 展開
- 派生する
- 説明する
- 設計
- 設計
- 希望
- 夕食
- 発見する
- 異なる
- 多様性
- ドキュメント
- 犬
- ドメイン
- ダウン
- ダウンロード
- 各
- 簡単に
- eコマース
- 効果的な
- 効率
- 効率的な
- 楽
- 要素は
- 乗り出す
- 埋め込みます
- 埋め込まれた
- 埋め込み
- 登場
- 新興の
- 新技術
- 社員
- エンパワー
- 力を与える
- 励ます
- 将来
- 努力
- エンジン
- エンジニアリング
- 高めます
- 強化
- 確保
- 確実に
- Enterprise
- エンターテインメント
- 本質的な
- 増え続ける
- 進化
- 例
- 例
- 既存の
- 期待して
- 体験
- 探る
- 調査済み
- 探る
- 伸ばす
- 広範囲
- 外部
- 容易にする
- 家族
- 特徴
- 特徴
- 特色
- 少数の
- フィールド
- もう完成させ、ワークスペースに掲示しましたか?
- 発見
- 名
- フィット
- 柔軟性
- フォロー中
- 森林
- Foundation
- 自由
- から
- 完全に
- さらに
- Gallery
- ゲーム
- ゲームチェンジャー
- 賭博
- 生成する
- 生成された
- 生成
- 世代
- 生々しい
- 取得する
- 与えられた
- ひと目
- Go
- 目標
- 成長
- ガイドライン
- ハンド
- 実践的な
- 和(調和)
- ハーネス
- 持ってる
- 持って
- he
- 助けます
- 助け
- 彼女の
- 高品質
- 非常に
- 彼の
- 歴史的
- 認定条件
- How To
- HTML
- HTTPS
- ハブ
- 人間
- ハードル
- 考え
- 説明する
- 画像
- 画像
- イメージング
- 即時の
- 実装
- 実装
- 改善します
- 改善されました
- 改善
- in
- 含めて
- Incorporated
- 増加
- 産業を変えます
- 非効率的な
- 情報
- 有益な
- 革新的手法
- ひらめき
- インスタント
- 説明書
- 統合
- インテリジェンス
- に
- 概要
- IT
- ITS
- 旅
- JPG
- ただ
- 知識
- ラボ
- レーン
- 言語
- 大
- 大規模
- 主要な
- LEARN
- 学習
- 残す
- ライブラリ
- 図書館
- ような
- リスト
- 少し
- ラマ
- LLM
- 機械
- 機械学習
- make
- 作成
- マネージド
- 手動で
- 多くの
- マーケティング
- 五月..
- 意味
- メディア
- 医療の
- メンタル
- 分
- ML
- モデル
- モダン
- 他には?
- 最も
- ずっと
- 多数
- しなければなりません
- ネイティブ
- ナチュラル
- 自然言語処理
- 自然
- ナビゲート
- 必要
- 必要
- ニーズ
- 新作
- NLP
- 11月
- 今
- ニュアンス
- 数
- 目的
- of
- 提供
- 提供すること
- オファー
- 頻繁に
- on
- の
- 開いた
- オープンソース
- 最適化
- オプション
- or
- 組織
- オリジナル
- その他
- 私たちの
- でる
- 出力
- 外側
- 自分の
- 太平洋
- ページ
- パラダイム
- 特定の
- 特に
- パートナー
- パートナー
- 情熱的な
- 経路
- 完璧
- パフォーマンス
- 実行する
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 再生
- 過多
- 人気
- ポスト
- 電力
- プラクティス
- 好む
- プ
- プレゼント
- プロセス
- 処理
- プロダクト
- 生産性
- 製品
- 演奏曲目
- プロンプト
- 所有権
- 提供します
- は、大阪で
- 提供
- 置きます
- すぐに
- 範囲
- 急速に
- 参照
- リファイン
- 関連した
- 倉庫
- 表現
- 要件
- リソース
- 反応します
- 結果
- 右
- 堅牢な
- 職種
- ルーム
- ラン
- ランニング
- セージメーカー
- 規模
- シーン
- シームレス
- シームレス
- を検索
- 検索エンジン
- 秒
- セクション
- を求める
- 思われる
- select
- 選択
- 選択
- シニア
- 送信
- 役立つ
- サーバレス
- サービス
- サービス
- セッションに
- シェアする
- 彼女
- すべき
- 重要
- 簡単な拡張で
- 簡略化されました
- 簡素化する
- スキル
- サッカー
- ソフトウェア
- 溶液
- ソリューション
- 一部
- ソース
- 専門の
- 専門にする
- 特定の
- 特異性
- スペクトラム
- スピード
- 支出
- 安定した
- スタンドアロン
- start
- 開始
- 起動
- 手順
- 停止
- ストレージ利用料
- 簡単な
- 流線
- 合理化された
- 流線
- 構造化された
- 成功した
- そのような
- スーツ
- サポート
- テーラード
- 取り
- 仕事
- タスク
- チーム
- 技術
- テクニック
- テクノロジー
- テクノロジー
- テンプレート
- 遺言
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- 世界
- アプリ環境に合わせて
- ボーマン
- 彼ら
- この
- 介して
- 時間
- 時間がかかる
- ヒント
- タイタン
- 〜へ
- 一緒に
- 豊富なツール群
- touch
- 伝統的に
- 変形させる
- 旅行
- 試します
- 最終的に
- 発見
- わかる
- 理解する
- 使いやすさ
- つかいます
- 中古
- ユーザー
- 「DeckleBenchは非常に使いやすく最適なソリューションを簡単に見つけることができるため、稼働率が向上しコストも削減した。当社の旧システムは良かったが改善は期待していなかった。
- users
- 使用されます
- 活用
- 値
- 価値観
- 多様
- さまざまな
- 広大な
- 汎用性
- ビジョン
- 訪問
- 可視化
- ウォーキング
- we
- ウェブ
- ウェブアプリケーション
- Webサービス
- WELL
- いつ
- かどうか
- which
- while
- 白
- ワイド
- 広い範囲
- 意志
- 以内
- 言葉
- 仕事
- ワーキング
- 作品
- 世界
- でしょう
- 書き込み
- 産出
- You
- あなたの
- ゼファーネット