デジタル パブリッシャーは、可能な限り迅速に新しいコンテンツを生成して公開するために、メディア ワークフローを合理化および自動化する方法を常に模索しています。
出版社は何百万もの画像を含むリポジトリを持つことができますが、コストを節約するには、記事全体でこれらの画像を再利用できる必要があります。 この規模のリポジトリで記事に最も一致する画像を見つけるのは、時間のかかる繰り返しの手動タスクになる可能性がありますが、自動化できます。 また、リポジトリ内の画像が正しくタグ付けされていることにも依存しますが、これは自動化することもできます (お客様の成功事例については、「 Aller Media は KeyCore と AWS で成功を収める).
この投稿では、使用方法を示します Amazonの再認識, Amazon SageMaker ジャンプスタート, AmazonOpenSearchサービス このビジネス上の問題を解決するために。 Amazon Rekognition を使用すると、機械学習 (ML) の専門知識がなくても画像分析機能をアプリケーションに簡単に追加でき、オブジェクト検出、コンテンツモデレーション、顔検出と分析、テキストと有名人の認識などのユースケースを実現するさまざまな API が付属しています。この例では を使用します。 SageMaker JumpStart は、事前に構築されたソリューション、サンプルノートブック、公的に入手可能なソースからの多くの最先端の事前トレーニング済みモデルを備えたローコードサービスで、ワンクリックで AWS アカウントに簡単にデプロイできます。 。 これらのモデルは、次の方法で安全かつ簡単に導入できるようにパッケージ化されています。 アマゾンセージメーカー API。 新しい SageMaker JumpStart Foundation Hub を使用すると、大規模言語モデル (LLM) を簡単にデプロイし、アプリケーションと統合できます。 OpenSearch Service は、OpenSearch の展開、拡張、運用を簡単にするフルマネージド サービスです。 OpenSearch サービスを使用すると、ベクトルやその他のデータ型をインデックスに保存でき、ベクトルを使用してドキュメントを検索したり、この投稿で使用する意味的な関連性を測定したりできる豊富な機能が提供されます。
この投稿の最終目標は、記事やテレビの概要など、何らかのテキストに意味的に類似した一連の画像を表示する方法を示すことです。
次のスクリーンショットは、キーワードを使用するのではなくミニ記事を検索入力として使用し、意味的に類似した画像を表示できる例を示しています。
ソリューションの概要
このソリューションは XNUMX つの主要なセクションに分かれています。 まず、Amazon Rekognition を使用して、画像からラベルと有名人のメタデータを抽出します。 次に、LLM を使用してメタデータの埋め込みを生成します。 有名人の名前とメタデータの埋め込みを OpenSearch Service に保存します。 XNUMX 番目のメイン セクションには、OpenSearch のインテリジェントな検索機能を使用して、OpenSearch Service インデックスに画像のクエリを実行し、テキストに意味的に類似した画像を見つけるための API があります。
このソリューションはイベント駆動型サービスを使用します アマゾンイベントブリッジ, AWSステップ関数, AWSラムダ Amazon Rekognition を使用して画像からメタデータを抽出するプロセスを調整します。 Amazon Rekognition は XNUMX つの API 呼び出しを実行して、画像からラベルと既知の有名人を抽出します。
Amazon Rekognition 有名人検出 API、応答で多数の要素を返します。 この投稿では、次のものを使用します。
- 名前、ID、および URL – 有名人の名前、一意の Amazon Rekognition ID、および有名人の IMDb や Wikipedia リンクなどの URL のリストで、詳細情報を入手できます。
- マッチコンフィデンス – API の動作を制御するために使用できる一致信頼スコア。 アプリケーションでこのスコアに適切なしきい値を適用して、好みの動作点を選択することをお勧めします。 たとえば、しきい値を 99% に設定すると、より多くの誤検知を排除できますが、一部の潜在的な一致を見逃す可能性があります。
XNUMX 番目の API 呼び出しでは、 Amazon Rekognition ラベル検出 API、応答で多数の要素を返します。 次のものを使用します。
セマンティック検索の重要な概念は埋め込みです。 単語の埋め込みは、単語または単語のグループをベクトル形式で数値表現したものです。 多数のベクトルがある場合、それらの間の距離を測定でき、距離が近いベクトルは意味的に類似しています。 したがって、すべての画像のメタデータの埋め込みを生成してから、同じモデルを使用して、記事やテレビの概要などのテキストの埋め込みを生成すると、意味的に類似した画像を見つけることができます。与えられたテキスト。
SageMaker JumpStart 内には、埋め込みを生成するために利用できるモデルが多数あります。 このソリューションでは、GPT-J 6B Embedding を使用します。 ハグ顔。 高品質の埋め込みを生成し、Hugging Face によると最高のパフォーマンス指標の XNUMX つを備えています。 評価結果. アマゾンの岩盤 これはまだプレビュー段階の別のオプションで、Amazon Titan Text Embeddings モデルを選択して埋め込みを生成できます。
SageMaker JumpStart の GPT-J 事前トレーニング済みモデルを使用して、画像メタデータの埋め込みを作成し、これを k-NN ベクトル OpenSearch サービスのインデックスに登録され、別のフィールドに有名人の名前が表示されます。
解決策の 10 番目の部分は、記事やテレビのあらすじなど、テキストに意味的に似ている上位 XNUMX 個の画像をユーザーに返します。有名人がいる場合はその画像も含まれます。 記事に付随する画像を選択するときは、その画像が記事の関連ポイントと共鳴するようにする必要があります。 SageMaker JumpStart は、長いテキスト本文を元のテキストから要点に減らすことができる多くの要約モデルをホストします。 要約モデルには、 AI21ラボ モデルをまとめます。 このモデルは、ニュース記事の高品質な要約を提供し、ソース テキストには約 10,000 語を含めることができるため、ユーザーは記事全体を一度に要約することができます。
テキストに名前、潜在的に知られている有名人が含まれているかどうかを検出するには、次を使用します。 Amazon Comprehend 抽出できるのは 主要なエンティティ テキスト文字列から。 次に、入力検索パラメーターとして使用する Person エンティティでフィルター処理します。
次に、要約された記事を取得し、別の入力検索パラメーターとして使用する埋め込みを生成します。 画像の場合と同じように、同じインフラストラクチャにデプロイされた同じモデルを使用して記事の埋め込みを生成することに注意することが重要です。 次に使用します スコアリング スクリプトを使用した正確な k-NN これにより、有名人の名前と記事の意味情報をキャプチャしたベクトルという XNUMX つのフィールドで検索できるようになります。 この投稿を参照してください、 Amazon OpenSearch Service のベクトルデータベース機能の説明、Score スクリプトのスケーラビリティと、大規模なインデックスに対するこのアプローチがどのように高いレイテンシを引き起こす可能性があるかについて説明します。
チュートリアル
次の図は、ソリューションのアーキテクチャを示しています。
番号付きラベルに続いて、次のようにします。
- 画像をアップロードすると、 アマゾンS3 バケット
- アマゾンイベントブリッジ このイベントをリッスンして、 AWSステップ関数 実行
- Step Function は画像入力を受け取り、ラベルと有名人のメタデータを抽出します。
- AWSラムダ 関数は画像メタデータを取得し、埋め込みを生成します
- ラムダ 次に、関数は有名人の名前 (存在する場合) と埋め込みを k-NN ベクトルとして OpenSearch サービスのインデックスに挿入します。
- アマゾンS3 によって提供される単純な静的 Web サイトをホストします。 アマゾンCloudFrontの 分布。 フロントエンド ユーザー インターフェイス (UI) を使用すると、アプリケーションで認証を行うことができます。 アマゾンコグニート 画像を検索するには
- UI 経由で記事またはテキストを送信します。
- 別の ラムダ 関数呼び出し Amazon Comprehend テキスト内の名前を検出するには
- 次に、この関数はテキストを要約して、記事から関連するポイントを取得します。
- この関数は要約記事の埋め込みを生成します
- 次に、関数は検索します OpenSearch サービス 有名人の名前に一致する画像の画像インデックスと、コサイン類似度を使用したベクトルの k 最近傍
- アマゾンクラウドウォッチ および AWS X 線 エンドツーエンドのワークフローを監視できるようになり、問題があれば警告します。
主要な画像メタデータを抽出して保存する
Amazon Rekognition DetectLabels および RecognizeCelebrities API は、画像からメタデータ、つまり埋め込みを生成するための文を形成するために使用できるテキストラベルを提供します。 この記事では、埋め込みを生成するために使用できるテキスト入力を提供します。
単語埋め込みを生成して保存する
次の図は、画像のベクトルを 2 次元空間にプロットする方法を示しています。ここでは、視覚的にわかりやすくするために、埋め込みを主なカテゴリごとに分類しています。
また、この新しく書かれた記事の埋め込みも生成して、OpenSearch サービスでこのベクトル空間内の記事に最も近い画像を検索できるようにします。 k 最近傍 (k-NN) アルゴリズムを使用して、結果で返す画像の数を定義します。
上の図を拡大すると、ベクトルは記事からの距離に基づいてランク付けされ、K に最も近い画像が返されます。この例では K は 10 です。
OpenSearch サービスは、大きなベクトルをインデックスに格納する機能を提供します。また、k-NN を使用してインデックスに対してクエリを実行する機能も提供します。これにより、ベクトルを使用してクエリを実行し、近い距離にベクトルを持つ k に最も近いドキュメントを返すことができます。さまざまな測定を使用して。 この例では、 コサイン類似性.
記事内の名前を検出する
AI 自然言語処理 (NLP) サービスである Amazon Comprehend を使用して、記事から主要なエンティティを抽出します。 この例では、Amazon Comprehend を使用してエンティティを抽出し、エンティティ person でフィルタリングします。これにより、Amazon Comprehend がジャーナリストの記事内で見つけられる名前が返されます。わずか数行のコードです。
この例では、画像をアップロードします Amazon シンプル ストレージ サービス (Amazon S3)、ラベルや有名人などのメタデータを画像から抽出するワークフローをトリガーします。 次に、抽出されたメタデータを埋め込みに変換し、このデータすべてを OpenSearch サービスに保存します。
記事を要約して埋め込みを生成する
記事の要約は、単語の埋め込みが記事の関連ポイントを確実に捉え、記事のテーマに共鳴する画像を返すための重要なステップです。
AI21 Labs Summarize モデルは、プロンプトなしで数行のコードを記述するだけで非常に簡単に使用できます。
次に、GPT-J モデルを使用して埋め込みを生成します。
次に、OpenSearch Service で画像を検索します。
以下はそのクエリのスニペットの例です。
このアーキテクチャには、コンテンツ管理システム (CMS) を表す単純な Web アプリが含まれています。
記事の例では、次の入力を使用しました。
「ヴェルナー・フォーゲルスは、トヨタで世界中を旅するのが大好きでした。 私たちは、彼が運転して地元のさまざまな顧客に会いに行くときに、彼のトヨタが多くのシーンで登場するのを目にします。」
どの画像にも「トヨタ」という単語のメタデータはありませんが、「トヨタ」という単語の意味は車や運転と同義です。 したがって、この例では、キーワード検索を超えて、意味的に類似した画像を返す方法を実証できます。 上の UI のスクリーンショットでは、画像の下のキャプションに Amazon Rekognition が抽出したメタデータが示されています。
このソリューションを より大きなワークフロー ここでは、画像から既に抽出したメタデータを使用して、有名人の名前などの他のキーワードとともにベクトル検索を開始し、検索クエリに対して最も共感を呼ぶ画像とドキュメントを返します。
まとめ
この投稿では、Amazon Rekognition、Amazon Comprehend、SageMaker、OpenSearch Service を使用して画像からメタデータを抽出し、ML 技術を使用して有名人検索とセマンティック検索を使用して画像を自動的に検出する方法を説明しました。 これは、新鮮なコンテンツを迅速に複数のプラットフォームに配信するためにスピードが重要となる出版業界では特に重要です。
メディア アセットの操作の詳細については、次を参照してください。 Media2Cloud 3.0 でメディア インテリジェンスがさらにスマートに.
著者について
マークワトキンス は、メディアおよびエンターテイメント チームのソリューション アーキテクトとして、顧客が多くのデータと ML の問題を解決できるようサポートしています。 プロとしての生活から離れて、彼は家族と時間を過ごし、XNUMX 人の幼い子供の成長を見るのが大好きです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- チャートプライム。 ChartPrime でトレーディング ゲームをレベルアップしましょう。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/semantic-image-search-for-articles-using-amazon-rekognition-amazon-sagemaker-foundation-models-and-amazon-opensearch-service/
- :持っている
- :は
- :どこ
- $UP
- 000
- 10
- 100
- 11
- 12
- 13
- 20
- 610
- 7
- a
- できる
- 私たちについて
- 上記の.
- 同行する
- 従った
- 越えて
- 加えます
- に対して
- AI
- 援助
- 警告
- アルゴリズム
- すべて
- ことができます
- 沿って
- 既に
- また
- Amazon
- Amazon Comprehend
- AmazonOpenSearchサービス
- Amazonの再認識
- アマゾンセージメーカー
- Amazon Webサービス
- an
- 分析
- および
- 別の
- どれか
- API
- API
- アプリ
- 申し込み
- 適用
- アプローチ
- 建築
- です
- 周りに
- 記事
- 物品
- AS
- 資産
- 割り当てられた
- 認証
- 自動化する
- 自動化
- 自動的に
- 利用できます
- 離れて
- AWS
- ベース
- BE
- き
- 行動
- さ
- BEST
- の間に
- 越えて
- ボディ
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- コール
- 缶
- 機能
- 機能
- 捕捉した
- キャプチャ
- 自動車
- 例
- カテゴリー
- 有名人
- セレブリティ
- 選択する
- 選択する
- 分類された
- クリック
- 閉じる
- Cms
- コード
- 来ます
- comes
- 理解する
- コンセプト
- 信頼
- 含む
- 含まれています
- コンテンツ
- 連続的に
- コントロール
- 可能性
- 作ります
- 顧客
- お客様の成功
- Customers
- データ
- データベース
- 定義します
- 実証します
- 実証
- 展開します
- 展開
- 検出
- 検出された
- 検出
- DID
- 発見する
- 距離
- ディストリビューション
- 分割された
- ドキュメント
- ドライブ
- 運転
- 簡単に
- 簡単に
- 要素は
- 排除する
- 埋め込み
- end
- エンターテインメント
- 全体
- エンティティ
- エンティティ
- イベント
- 例
- 専門知識
- エキス
- 抽出物
- 顔
- false
- 家族
- 少数の
- フィールド
- フィールズ
- フィギュア
- filter
- もう完成させ、ワークスペースに掲示しましたか?
- 発見
- 発見
- 名
- フォロー中
- フォーム
- Foundation
- 新鮮な
- から
- 完全に
- function
- 機能性
- さらに
- 生成する
- 生成
- 取得する
- 受け
- 与える
- 与えられた
- 与える
- 世界
- Go
- 目標
- グループ
- 成長
- 持ってる
- he
- ハイ
- 高品質
- 彼の
- ホーム
- ホスト
- 認定条件
- How To
- HTML
- HTTP
- HTTPS
- ハブ
- ID
- if
- 説明する
- 画像
- 画像検索
- 画像
- 重要
- in
- include
- 含めて
- index
- インデックス
- 産業を変えます
- 情報
- インフラ関連事業
- インサート
- 統合する
- インテリジェンス
- インテリジェント-
- インタフェース
- に
- 問題
- IT
- ジャーナリスト
- JPG
- JSON
- ただ
- キー
- キーワード
- 既知の
- ラベル
- ラベル
- ラボ
- 言語
- 言語
- 大
- つながる
- 学習
- レベル
- 生活
- ライン
- LINK
- リスト
- 少し
- LLM
- 長い
- 探して
- 愛され
- で
- 機械
- 機械学習
- メイン
- make
- 作る
- マネージド
- 管理
- マニュアル
- 多くの
- 一致
- マッチング
- 事態
- 五月..
- だけど
- 測定結果
- 計測
- メディア
- 大会
- メトリック
- 何百万
- ML
- モデル
- 節度
- お金
- 他には?
- の試合に
- 名
- 名
- ナチュラル
- 自然言語処理
- 必要
- 隣人
- 新作
- 新しく
- ニュース
- NLP
- 数
- 数の
- オブジェクト
- オブジェクト検出
- of
- オファー
- on
- ONE
- もの
- 操作する
- オペレーティング
- オプション
- or
- 注文
- オリジナル
- OS
- その他
- 私たちの
- でる
- パッケージ化された
- パラメーター
- 部
- 特に
- 実行する
- パフォーマンス
- 人
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- ポイント
- ポスト
- 潜在的な
- :
- 優先
- 現在
- プレビュー
- 主要な
- 問題
- 問題
- プロセス
- 処理
- 生産する
- プロ
- は、大阪で
- 公然と
- パブリッシュ
- 出版社
- 出版
- クエリ
- すぐに
- ランク
- 急速に
- むしろ
- 認識
- 推奨する
- 減らします
- 参照する
- 反復的な
- 倉庫
- 表す
- 表現
- 共鳴する
- 共振
- 応答
- 結果
- return
- 返す
- 収益
- 再利用
- 富裕層
- 大体
- ラン
- セージメーカー
- 同じ
- Save
- スケーラビリティ
- 規模
- シーン
- スコア
- 得点
- スクリプト
- を検索
- 検索
- 二番
- セクション
- セクション
- しっかりと
- 意味論
- 文
- サービス
- サービス
- セッションに
- 設定
- 表示する
- 示されました
- 作品
- 同様の
- 簡単な拡張で
- サイズ
- 賢い
- スニペット
- So
- 溶液
- ソリューション
- 解決する
- 一部
- ソース
- ソース
- スペース
- スピード
- 支出
- start
- 最先端の
- 手順
- まだ
- ストレージ利用料
- 店舗
- ストーリー
- 簡単な
- 流線
- 文字列
- 提出する
- 成功
- サクセスストーリー
- そのような
- 適当
- まとめる
- 概要
- 支援する
- 確か
- 表面
- 同義語
- 概要
- 取る
- 取り
- 取得
- 仕事
- チーム
- テクニック
- 条件
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- ソース
- アプリ環境に合わせて
- それら
- テーマ
- その後
- したがって、
- ボーマン
- 彼ら
- この
- しきい値
- 時間
- 時間がかかる
- タイタン
- 〜へ
- top
- トップ10
- 町
- トヨタ
- 最適化の適用
- tv
- 2
- type
- ui
- 下
- ユニーク
- つかいます
- 中古
- ユーザー
- ユーザーインターフェース
- 使用されます
- さまざまな
- 非常に
- 、
- 欲しいです
- 見ている
- 方法
- we
- ウェブ
- Webサービス
- ウェブサイト
- いつ
- which
- Wikipedia
- 意志
- 以内
- 無し
- Word
- 言葉
- ワークフロー
- ワークフロー
- ワーキング
- 書かれた
- You
- あなたの
- ゼファーネット