デジタル パブリッシャーは、メディア ワークフローを合理化および自動化し、品質を損なうことなく、新しいコンテンツをできるだけ早く生成して公開する方法を継続的に模索しています。
画像を追加してテキストの本質を捉えると、読書体験が向上します。 機械学習技術は、そのような画像を発見するのに役立ちます。 「印象的な画像は、視聴者の注意を引き、ストーリーへの関心を生み出す最も効果的な方法の XNUMX つですが、それは意味のあるものでもなければなりませんに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」
以前の投稿 Amazon 機械学習 (ML) サービスを使用して、キーワードを入力せずに、記事やテレビの概要に沿って配置する最適な画像を見つける方法について説明しました。前回の投稿では、 Amazonの再認識 画像からメタデータを抽出します。 次に、テキスト埋め込みモデルを使用して、後で最適な画像を見つけるために使用できるメタデータの単語埋め込みを生成しました。
この投稿では、Amazon Titan 基礎モデルを使用して記事をすばやく理解し、それに付随する最適な画像を見つける方法を説明します。 今回は、画像から直接埋め込みを生成します。
セマンティック検索の重要な概念は埋め込みです。 埋め込みとは、何らかの入力 (画像、テキスト、またはその両方) をベクトルの形式で数値表現したものです。 多数のベクトルがある場合、それらの間の距離を測定でき、距離が近いベクトルは意味的に類似しているか関連しています。
アマゾンの岩盤 は、AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Amazon などの大手 AI 企業の高性能基盤モデル (FM) を XNUMX つの API で選択できるフルマネージド サービスであり、幅広い機能セットを提供します。生成 AI アプリケーションの構築を支援し、プライバシーとセキュリティを維持しながら開発を簡素化します。
アマゾンタイタン は最近、新しい埋め込みモデル、Titan Multimodal Embeddings をコレクションに追加しました。 この新しいモデルは、マルチモーダル検索、推奨システム、その他の下流アプリケーションに使用できます。
マルチモーダル モデルは、テキスト、画像、ビデオ、オーディオなどの複数のモダリティのデータを理解して分析できます。この最新の Amazon Titan モデルは、テキスト、画像、またはその両方を受け入れることができます。これは、同じモデルを使用して画像とテキストの埋め込みを生成し、それらの埋め込みを使用して 2 つがどの程度類似しているかを計算することを意味します。
ソリューションの概要
次のスクリーンショットでは、ミニ記事を取得し、検索を実行し、記事に共感する画像を見つける方法を示しています。 この例では、インドを旅行中に白いスカーフを着用したヴェルナー フォーゲルスを説明する文を取り上げます。 この文のベクトルは、スカーフを巻いたヴェルナーの画像のベクトルに意味的に関連しているため、この検索のトップ画像として返されます。
大まかに言うと、画像は次の場所にアップロードされます。 Amazon Simple Storage Service(Amazon S3) 画像の埋め込みを含むメタデータが抽出されます。
画像からテキストのメタデータを抽出するには、 有名人認識機能 と ラベル検出機能 in Amazonの再認識。 Amazon Rekognition は、ML を使用して、画像やビデオ内の何万もの有名な人物を自動的に認識します。 この機能を使用して、画像内の有名人を認識し、このメタデータを次の場所に保存します。 AmazonOpenSearchサービス。 ラベル検出は、画像の下にラベル メタデータがある前述のスクリーンショットなど、画像からオブジェクトと概念を検出します。
Titan Multimodal Embeddings モデルを使用して、検索可能なメタデータでもある画像の埋め込みを生成します。
すべてのメタデータは次の場所に保存されます。 OpenSearch サービス 後で画像を検索する必要がある場合の検索クエリに使用します。
アーキテクチャの XNUMX 番目の部分は、これらの新しく取り込まれた画像を見つけるために記事を送信することです。
記事が送信されたら、記事を抽出して OpenSearch サービスの検索入力に変換する必要があります。 あなたが使う Amazon Comprehend テキスト内の潜在的な有名人である可能性のある名前を検出します。 記事の本質を捉えるために画像を XNUMX つまたは XNUMX つだけ選択する可能性が高いため、記事を要約します。 テキストの要約を生成することは、埋め込みがストーリーの関連ポイントを確実に捉えていることを確認するための良い方法です。 このためには、 Amazon Titan Text G1 – Express モデルに「次のテキストの概要を入力してください。」などのプロンプトが表示されます。以下の本文に記載されていない情報は追加しないでください。」要約記事では、Amazon Titan マルチモーダル埋め込みモデルを使用して、要約記事の埋め込みを生成します。埋め込みモデルには最大トークン入力数もあるため、埋め込みでできるだけ多くの情報を取得できるようにするには、記事を要約することがさらに重要です。簡単に言えば、トークンは単一の単語、サブワード、または文字です。
次に、名前と記事の埋め込みを使用して OpenSearch サービスに対して検索を実行し、指定された有名人の存在に意味的に類似する画像を取得します (存在する場合)。
ユーザーは、記事を入力として使用して画像を検索しているだけです。
チュートリアル
次の図は、このユースケースを実現するためのアーキテクチャを示しています。
次の手順では、セマンティック画像と有名人の検索を可能にする一連のアクション (図に示されている) について説明します。
- 画像をアップロードすると、 アマゾンS3 バケツ。
- アマゾンイベントブリッジ このイベントをリッスンし、AWS Step Functions ステップを開始します。
- Step Functions ステップは、 アマゾンS3 画像の詳細を確認し、XNUMX つの並行アクションを実行します。
- ラムダ 次に、この関数は、画像オブジェクトのメタデータと有名人名 (存在する場合) を挿入し、k-NN ベクトルとして埋め込みを OpenSearch Service インデックスに挿入します。
- アマゾンS3 によって配布される単純な静的 Web サイトをホストします。 アマゾンCloudFrontの。 フロントエンド ユーザー インターフェイス (UI) を使用すると、アプリケーションで認証を行うことができます。 アマゾンコグニート 画像を検索します。
- UI を使用して記事またはテキストを送信します。
- 別の ラムダ 関数呼び出し Amazon Comprehend テキスト内の名前を潜在的な有名人として検出します。
- 次に、この関数は Titan Text G1 – Express を使用してテキストを要約し、記事から関連するポイントを取得します。
- この関数は、Amazon Titan マルチモーダル埋め込みモデルを使用して、要約記事の埋め込みを生成します。
- 次に、関数は OpenSearch サービス 有名人の名前と一致する画像の画像インデックス k最近傍 ベクトルの場合は、 コサイン類似性 スコアリング スクリプトを使用した正確な k-NN.
- アマゾンクラウドウォッチ および AWS X 線 エンドツーエンドのワークフローを監視して、問題があれば警告します。
次の図は、Step Functions ワークフローのビジュアル ワークフロー デザイナーを示しています。
埋め込みの例を次に示します。
前述の数値の配列は、計算や関数を実行できる形式でテキストまたは画像オブジェクトから意味を取得するものです。
埋め込みは数百次元から数千次元までの高次元性を持っています。このモデルの次元は 1,024 です。つまり、前述の配列には、指定されたオブジェクトのセマンティクスをキャプチャする 1,024 個の要素が含まれます。
マルチモーダル埋め込みとテキスト埋め込み
セマンティック画像検索を提供する際の XNUMX つのオプションについて説明します。主な違いは、画像の埋め込みを生成する方法です。 私たちの中で 以前の投稿では、Amazon Rekognition を使用して抽出されたテキストのメタデータから埋め込みを生成します。 この投稿では、Titan マルチモーダル エンベディング モデルを使用し、画像の埋め込みを直接生成できます。
簡単なテストを実行し、XNUMX つのアプローチに対して UI でクエリを実行すると、結果が著しく異なることがわかります。 クエリ記事の例は、「ヴェルナー フォーゲルスはインドを旅行するときに白いスカーフを着るのが大好きです。」です。
マルチモーダル モデルの結果では、スカーフが存在する画像のスコアが高くなります。 言葉 スカーフ 送信された記事に が存在し、埋め込みがそれを認識しました。
UI では、Amazon Rekognition によって抽出されたメタデータが表示されます。メタデータにはスカーフという単語が含まれていないため、画像から一部の情報が欠落しています。画像埋め込みモデルには欠落していると想定でき、したがってマルチモーダル モデルは欠落していると考えられます。ユースケースによっては利点があるかもしれません。 Amazon Rekognition を使用すると、埋め込みを作成する前に画像内で検出されたオブジェクトをフィルタリングできるため、目的の結果に応じてより適切に機能する可能性のある他の適用可能なユースケースが得られます。
次の図は、Amazon Titan マルチモーダル埋め込みモデルの結果を示しています。
次の図は、Amazon Rekognition で抽出されたメタデータを使用して埋め込みを生成した、Amazon Titan テキスト埋め込みモデルの結果を示しています。
前提条件
このウォークスルーでは、次の前提条件が必要です。
- An AWSアカウント
- AWS サーバーレス アプリケーション モデル コマンドライン インターフェイス (AWS SAM CLI))
- このソリューションは、デプロイメントに AWS SAM CLI を使用します。
- 最新バージョンの AWS SAM CLI を使用していることを確認してください.
- デッカー
- このソリューションでは、AWS SAM CLI オプションを使用してコンテナ内に構築し、ローカル依存関係の必要性を回避します。 これには Docker が必要です。
- Node
- このソリューションのフロントエンドは、Node.js を使用してローカルで実行できる React Web アプリケーションです。
- npm
- Web アプリケーションをローカルで実行するか、リモート展開用にビルドするために必要なパッケージのインストールには、npm が必要です。
フルスタック アプリケーションを構築してデプロイする
- リポジトリをクローンする
- 新しく複製されたプロジェクトにディレクトリを変更します。
- npm install を実行して、アプリケーションの実行に必要なすべてのパッケージをダウンロードします。
- 一連のスクリプトを順番に実行するデプロイ スクリプトを実行します。 サムビルド, サムデプロイ、設定ファイルを更新し、Amazon CloudFront を通じて提供できるように Amazon S3 でウェブ アプリケーション ファイルをホストします。
- スクリプトからの最終出力の XNUMX つは Amazon CloudFront URL であり、これがアプリケーションへのアクセス方法です。 AWS マネジメントコンソールでサインインに使用する新しいユーザーを作成する必要があります。 後で使用するために URL をメモしておきます。
次のスクリーンショットは、スクリプトが AWS SAM を使用してスタックをデプロイし、アプリケーションへのアクセスに使用できる Amazon CloudFront URL を出力した様子を示しています。
アプリケーションにサインインするための新しいユーザーを作成します
- に行きます アマゾンコグニート コンソールを開き、新しいものを選択します ユーザープール.
- 新しいパスワードで新しいユーザーを作成します。
Web アプリケーションにサインインしてテストする
- 見つける アマゾンCloudFrontの サインイン ページにアクセスするための URL。 前のスクリーンショットに示すように、これは最終行に出力されます。
- 新しいユーザー名とパスワードの組み合わせを入力してサインインします。
- UI を使用してサンプル画像をアップロードします。
- 選択する ファイルを選ぶ それから、 アップロード.
注: ファイルを /アップロード フォルダにコピーします。 - 記事を書くかコピー&ペーストして選択します 送信 画像が期待どおりの順序で返されるかどうかを確認します。
- 選択する ファイルを選ぶ それから、 アップロード.
清掃
今後料金が発生しないようにするには、リソースを削除してください。
- このソリューションでデプロイされた S3 バケットを見つけて、バケットを空にします。
- CloudFormation コンソールに移動し、前述のデプロイ スクリプトを通じてデプロイしたスタックを選択し、スタックを削除します。
まとめ
この投稿では、Amazon Rekognition、Amazon Comprehend、Amazon Bedrock、OpenSearch Service を使用して画像からメタデータを抽出し、ML 技術を使用して有名人検索とセマンティック検索を使用して密接に関連するコンテンツを自動的に検出する方法を説明しました。 これは、新鮮なコンテンツを迅速に複数のプラットフォームに配信するためにスピードが重要となる出版業界では特に重要です。
次のステップとして、AWS アカウントにソリューションをデプロイし、セマンティック検索がどのように機能するかをテストするために独自のイメージをいくつかアップロードします。 以下のコメント欄でフィードバックをお聞かせください。
著者について
マークワトキンス は、メディアおよびエンターテイメント チームのソリューション アーキテクトとして、顧客が多くのデータと ML の問題を解決できるようサポートしています。 プロとしての生活から離れて、彼は家族と時間を過ごし、XNUMX 人の幼い子供の成長を見るのが大好きです。
ダン・ジョンズ は、ソリューション アーキテクト エンジニアであり、顧客が AWS 上に構築し、ビジネス要件を満たせるようにサポートしています。 仕事から離れて、彼は読書、家族との時間を過ごすこと、そして家庭内のタスクを自動化することが大好きです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/easily-build-semantic-image-search-using-amazon-titan/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 100
- 24
- 7
- a
- 同意
- 一般に認められた
- アクセス
- 同行する
- 行動
- 加えます
- 追加されました
- 追加
- 利点
- に対して
- AI
- 警告
- すべて
- ことができます
- 沿って
- また
- Amazon
- Amazon Comprehend
- アマゾン機械学習
- Amazonの再認識
- Amazon Webサービス
- an
- 分析します
- および
- 人間原理
- どれか
- API
- API
- 適用可能な
- 申し込み
- アプローチ
- 建築
- です
- 周りに
- 配列
- 記事
- AS
- 引き受けます
- 注意
- オーディオ
- 認証
- 自動化する
- 自動的に
- 自動化する
- 避ける
- 離れて
- AWS
- AWSマネジメントコンソール
- AWSステップ関数
- BE
- 以下
- BEST
- より良いです
- の間に
- 両言語で
- 広い
- ビルド
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 計算する
- 計算
- コール
- コール
- 缶
- 取得することができます
- 機能
- キャプチャー
- 捕捉した
- キャプチャ
- キャプチャ
- 場合
- 例
- 有名人
- セレブリティ
- 文字
- 課金
- 選択
- 選択する
- 閉じる
- 密接に
- CO
- コレクション
- 組み合わせ
- 注釈
- 企業
- 理解する
- コンセプト
- コンセプト
- 領事
- コンテナ
- コンテンツ
- 連続的に
- 可能性
- 作ります
- 作成
- Customers
- データ
- 配信する
- 配信する
- 依存関係
- によっては
- 展開します
- 展開
- 展開
- デザイナー
- 希望
- 細部
- 検出
- 検出された
- 検出
- 開発
- 違い
- 異なります
- 大きさ
- 直接
- 直接に
- 発見する
- 話し合います
- 議論する
- 距離
- 配布
- do
- デッカー
- そうではありません
- ダウンロード
- 簡単に
- 効果的な
- 要素は
- 埋め込み
- enable
- end
- 端から端まで
- 婚約
- エンジニア
- エンターテインメント
- 本質
- さらに
- イベント
- 例
- 予想される
- 体験
- 表現します
- エキス
- 家族
- 特徴
- フィードバック
- 少数の
- フィギュア
- filter
- ファイナル
- もう完成させ、ワークスペースに掲示しましたか?
- 発見
- フォロー中
- フォーム
- Foundation
- 新鮮な
- から
- フロント
- フロントエンド
- フル
- フルスタック
- 完全に
- function
- 機能
- 未来
- g1
- 生成する
- 生成
- 生成
- 生々しい
- 生成AI
- 取得する
- 受け
- 与える
- 与えられた
- 良い
- 成長
- 持ってる
- he
- 助けます
- それゆえ
- ハイ
- 高性能
- より高い
- 彼の
- ホーム
- host
- ホスト
- 認定条件
- How To
- HTML
- HTTPS
- 百
- if
- 画像
- 画像検索
- 画像
- 重要
- 改善します
- in
- include
- 含めて
- index
- インド
- 産業を変えます
- 情報
- 開始する
- インサート
- 内部
- install
- インストール
- インタフェース
- に
- 問題
- IT
- ITS
- ジャーナリズム
- JPG
- ただ
- キー
- キーワード
- 知っている
- 既知の
- ラベル
- ラボ
- 後で
- 最新の
- 主要な
- 学習
- う
- レベル
- 生活
- 可能性が高い
- LINE
- 聞く
- 少し
- ローカル
- 局部的に
- 探して
- で
- 機械
- 機械学習
- メイン
- 保守
- make
- マネージド
- 管理
- 多くの
- マッチング
- 事態
- me
- 意味
- 手段
- だけど
- メディア
- 言及した
- Meta
- かもしれない
- 逃した
- ML
- モデル
- 他には?
- 最も
- ずっと
- の試合に
- しなければなりません
- 名
- 名
- 必要
- 新作
- 新しく
- 次の
- 注意
- 著しく
- 番号
- オブジェクト
- オブジェクト
- of
- オファー
- on
- ONE
- もの
- の
- オプション
- オプション
- or
- 注文
- その他
- 私たちの
- でる
- 結果
- 出力
- outputs
- 自分の
- パッケージ
- ページ
- 並列シミュレーションの設定
- 部
- 特に
- パスワード
- 実行する
- パーソナリティ
- ピッキング
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- 可能
- ポスト
- 潜在的な
- 前提条件
- プレゼンス
- 現在
- 前
- 前に
- プライバシー
- プライバシーとセキュリティ
- 問題
- プロ
- プロジェクト
- 提供します
- パブリッシュ
- 出版社
- 出版
- 品質
- クエリ
- クイック
- すぐに
- 急速に
- 反応する
- リーディング
- 準備
- 最近
- 認識
- 認識する
- 認識
- 認識
- おすすめ
- 関連する
- リモート
- 倉庫
- 表現
- 必要とする
- の提出が必要です
- 要件
- 共鳴する
- リソース
- 結果
- 結果
- ラン
- ランニング
- runs
- サム
- 同じ
- 見ました
- スカーフ
- 得点
- スクリプト
- スクリプト
- を検索
- 検索
- 検索
- 二番
- セキュリティ
- select
- 意味論
- 文
- シーケンス
- シリーズ
- サーバレス
- サービス
- サービス
- サービング
- セッションに
- 示す
- 作品
- 符号
- 同様の
- 簡単な拡張で
- 単純化
- 溶液
- ソリューション
- 解決する
- 一部
- スピード
- 支出
- 安定性
- スタック
- スタック
- 静的な
- 手順
- ステップ
- ストレージ利用料
- 店舗
- 保存され
- ストーリー
- 流線
- 提出する
- 提出された
- そのような
- まとめる
- 概要
- 支援する
- 確か
- 概要
- システム
- 取る
- 取り
- Talk
- タスク
- チーム
- テクニック
- 十
- 条件
- test
- テスト
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト
- それ
- アプリ環境に合わせて
- それら
- その後
- したがって、
- ボーマン
- 彼ら
- この
- それらの
- 数千
- 三
- 介して
- 時間
- タイタン
- 〜へ
- トークン
- top
- 最適化の適用
- 旅行
- tv
- 2
- ui
- わかる
- アップデイト
- アップロード
- URL
- つかいます
- 使用事例
- 中古
- ユーザー
- ユーザーインターフェース
- 使用されます
- バージョン
- 対
- ビデオ
- 動画
- ビジュアル
- ウォークスルー
- 見ている
- 仕方..
- 方法
- ウェブ
- ウェブアプリケーション
- Webサービス
- ウェブサイト
- 周知
- この試験は
- いつ
- which
- while
- 白
- Wikipedia
- 意志
- 以内
- 無し
- Word
- 仕事
- ワークフロー
- ワークフロー
- You
- あなたの
- ゼファーネット