自由形式のテキスト文書のリポジトリで洞察を検索することは、干し草の山から針を見つけることに似ています。 従来のアプローチでは、文字数カウントやその他の基本的な分析を使用してドキュメントを解析することが考えられますが、Amazon AI と機械学習 (ML) ツールの力を利用して、コンテンツについてのより深い理解を収集できます。
Amazon Comprehend は、自然言語処理 (NLP) を使用してドキュメントの内容に関する洞察を抽出する、完全にマネージドされたサービスです。 Amazon Comprehend は、ドキュメント内のエンティティ、キーフレーズ、感情、テーマ、カスタム要素を認識することで洞察を開発します。 Amazon Comprehend は、ドキュメント構造とエンティティの関係の理解に基づいて、新しい洞察を作成できます。 たとえば、Amazon Comprehend を使用すると、ドキュメント リポジトリ全体をスキャンしてキーフレーズを見つけることができます。
Amazon Comprehend を使用すると、ML の専門家でなくても、通常は何時間もかかるタスクを簡単に実行できます。 Amazon Comprehend を使用すると、独自のモデルのクリーンアップ、構築、トレーニングに必要な時間の多くが削減されます。 NLP またはその他のドメインでより深いカスタム モデルを構築するには、 アマゾンセージメーカー 必要に応じて、より従来型の ML ワークフローでモデルを構築、トレーニング、デプロイできるようになります。
この投稿では、Amazon Comprehend とその他の AWS のサービスを使用して、ドキュメントのリポジトリを分析し、そこから新しい洞察を抽出します。 次に、使用します アマゾンクイックサイト シンプルかつ強力なワード クラウド ビジュアルを生成して、テーマやトレンドを簡単に特定できます。
ソリューションの概要
次の図は、ソリューションのアーキテクチャを示しています。
まず、分析するデータを収集し、それを Amazon シンプル ストレージ サービス AWS アカウントの (Amazon S3) バケット。 この例では、テキスト形式のファイルを使用します。 その後、データは Amazon Comprehend によって分析されます。 Amazon Comprehend は、次を使用してデータベース形式に変換および処理する必要がある JSON 形式の出力を作成します。 AWSグルー。 データを検証し、次を使用して特定の形式のデータ テーブルを抽出します。 アマゾンアテナ ワードクラウドを使用した QuickSight 分析用。 ビジュアライゼーションの詳細については、以下を参照してください。 Amazon QuickSight でのデータの視覚化.
前提条件
このチュートリアルでは、次の前提条件を満たしている必要があります。
S3 バケットにデータをアップロードする
データを S3 バケットにアップロードします。 この投稿では、米国憲法の UTF-8 形式のテキストを入力ファイルとして使用します。 これで、データを分析して視覚化を作成する準備が整います。
Amazon Comprehend を使用してデータを分析する
Amazon Comprehend を使用して処理できるテキストベースの情報や画像情報は数多くあります。 テキストファイル以外にも使用できるのは、 Amazon Comprehend によるワンステップの分類とエンティティ認識 画像ファイル、PDF ファイル、および Microsoft Word ファイルを入力として受け入れるには、この投稿では説明しません。
データを分析するには、次の手順を実行します。
- Amazon Comprehendコンソールで、 分析ジョブ ナビゲーションペインに表示されます。
- 選択する 分析ジョブを作成する.
- 仕事の名前を入力してください。
- 分析タイプ、選択する キーフレーズ.
- 言語設定¸選ぶ 英語.
- 入力データの場所では、前提条件として作成したフォルダーを指定します。
- 出力データの場所では、前提条件として作成したフォルダーを指定します。
- 選択する IAMロールを作成する.
- ロール名の接尾辞を入力します。
- 選択する ジョブを作成.
ジョブが実行され、ステータスが画面に表示されます。 分析ジョブ ページで見やすくするために変数を解析したりすることができます。
分析ジョブが完了するまで待ちます。 Amazon Comprehend はファイルを作成し、指定した出力データフォルダーに配置します。 ファイルは .gz または GZIP 形式です。
このファイルをダウンロードして、非圧縮形式に変換する必要があります。 Amazon S3 コンソールを使用して、データフォルダーまたは S3 バケットからオブジェクトをダウンロードできます。
- Amazon S3 コンソールで、オブジェクトを選択し、 ダウンロード。 オブジェクトを特定のフォルダーにダウンロードする場合は、 ダウンロード メニュー。
- ファイルをローカル コンピューターにダウンロードした後、zip ファイルを開いて、非圧縮ファイルとして保存します。
非圧縮ファイルは、AWS Glue クローラーが処理できる前に、出力フォルダーにアップロードする必要があります。 この例では、後の手順で使用するのと同じ出力フォルダーに非圧縮ファイルをアップロードします。
- Amazon S3 コンソールで、S3 バケットに移動し、 アップロード.
- 選択する ファイルを追加.
- ローカル コンピューターから非圧縮ファイルを選択します。
- 選択する アップロード.
ファイルをアップロードした後、元の zip ファイルを削除します。
- Amazon S3 コンソールでバケットを選択し、 削除.
- ファイルを完全に削除するには、テキスト ボックスにファイル名を入力してファイル名を確認します。
- 選択する オブジェクトを削除する.
これにより、出力フォルダーに XNUMX つのファイル (非圧縮ファイル) が残ります。
AWS Glue を使用して JSON データをテーブル形式に変換する
このステップでは、Athena への入力として使用する Amazon Comprehend 出力を準備します。 Amazon Comprehend の出力は JSON 形式です。 AWS Glue を使用して、JSON をデータベース構造に変換し、最終的に QuickSight で読み取ることができます。
- AWS Glue コンソールで、選択します Crawlers ナビゲーションペインに表示されます。
- 選択する クローラーを作成する.
- クローラーの名前を入力します。
- 選択する Next.
- データは既に Glue テーブルにマップされていますか選択 未.
- データソースを追加します。
- S3パス、Amazon Comprehend 出力データフォルダーの場所を入力します。
必ず末尾に追加してください /
パス名に。 AWS Glue は、すべてのファイルのフォルダー パスを検索します。
- 選択 すべてのサブフォルダーをクロールする.
- 選択する S3 データ ソースを追加する.
- 新しいを作成します AWS IDおよびアクセス管理 クローラーの (IAM) ロール。
- IAM ロールの名前を入力します。
- 選択する 選択した IAM ロールを更新する 新しいロールがクローラーに割り当てられていることを確認します。
- 選択する Next 出力 (データベース) 情報を入力します。
- 選択する データベースを追加する.
- データベース名を入力します。
- 選択する Next.
- 選択する クローラーを作成する.
- 選択する クローラーを実行する クローラーを実行します。
クローラーのステータスは AWS Glue コンソールで監視できます。
Athena を使用して QuickSight 用のテーブルを準備する
Athena は、AWS Glue クローラーが作成したデータベース テーブルからデータを抽出し、QuickSight がワード クラウドの作成に使用する形式を提供します。
- Athenaコンソールで、 クエリエディタ ナビゲーションペインに表示されます。
- 情報元、選択する AWSデータカタログ.
- データベース、クローラーが作成したデータベースを選択します。
QuickSight と互換性のあるテーブルを作成するには、配列からデータのネストを解除する必要があります。
- 最初のステップは、関連する Amazon Comprehend データを含む一時データベースを作成することです。
- 次のステートメントは、少なくとも XNUMX つの単語からなるフレーズに制限し、フレーズの頻度によってグループ化します。
QuickSight を使用して出力を視覚化する
最後に、分析から視覚的な出力を作成できます。
- QuickSightコンソールで、 新しい分析.
- 選択する 新しいデータセット.
- データセットを作成する、選択する 新しいデータソースから.
- 選択する アテナ データソースとして。
- データ ソースの名前を入力し、選択します データソースを作成する.
- 選択する 視覚化する.
QuickSight が Athena テーブルが保存されている S3 バケットにアクセスできることを確認してください。
- QuickSight コンソールで、ユーザー プロファイル アイコンを選択し、 QuickSightを管理する.
- 選択する セキュリティと権限.
- セクションを探す AWSサービスへのQuickSightアクセス.
AWS サービスへのアクセスを設定することにより、QuickSight はそれらのサービスのデータにアクセスできるようになります。 ユーザーおよびグループによるアクセスは、オプションを通じて制御できます。
- Amazon S3 にアクセスが許可されていることを確認します。
これでワードクラウドを作成できるようになりました。
- 下のワードクラウドを選択してください ビジュアルタイプ.
- テキストを次の場所にドラッグします グループ化する そして数えます サイズ.
ビジュアライゼーションでオプション メニュー (XNUMX つのドット) を選択して、編集オプションにアクセスします。 たとえば、「その他」という用語を表示から非表示にしたい場合があります。 ビジュアルのタイトルやサブタイトルなどの項目を編集することもできます。 ワード クラウドを PDF としてダウンロードするには、 ダウンロード QuickSight ツールバーの
クリーンアップ
継続的な料金の発生を避けるには、それぞれのサービス コンソールにプロビジョニングされた未使用のデータとプロセスまたはリソースを削除します。
まとめ
Amazon Comprehend は NLP を使用してドキュメントの内容に関する洞察を抽出します。 文書内のエンティティ、キーフレーズ、言語、感情、その他の共通要素を認識することで洞察を深めます。 Amazon Comprehend を使用すると、ドキュメントの構造の理解に基づいて新しい製品を作成できます。 たとえば、Amazon Comprehend を使用すると、ドキュメント リポジトリ全体をスキャンしてキーフレーズを見つけることができます。
この投稿では、AWS ツールと QuickSight を使用してデータを視覚化する Amazon Comprehend からのテキストコンテンツ分析を視覚化するためのワードクラウドを構築する手順について説明しました。
コメントセクションを通じて連絡を取り合いましょう!
著者について
クリス・ゲドマン は、アマゾン ウェブ サービスの小売および日用品部門の米国東部セールス リーダーです。 仕事以外の時は、友人や家族と過ごす時間を楽しんでおり、特に夏はケープコッドで過ごします。 クリスは一時的に引退した忍者戦士ですが、今のところは XNUMX 人の息子を見て指導するのが大好きです。
クラーク・ルファバー アマゾン ウェブ サービスのソリューション アーキテクトのリーダーで、東部地域の企業顧客をサポートしています。 Clark はニューイングランドに拠点を置き、キッチンでレシピを作成することに時間を費やしています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- チャートプライム。 ChartPrime でトレーディング ゲームをレベルアップしましょう。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :持っている
- :は
- :not
- :どこ
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- 私たちについて
- 同意
- アクセス
- 加えます
- 添加
- AI
- すべて
- 既に
- また
- Amazon
- Amazon Comprehend
- アマゾンクイックサイト
- Amazon Webサービス
- an
- 分析
- 分析します
- 分析
- および
- どれか
- アプローチ
- 建築
- です
- AS
- 割り当てられた
- At
- 避ける
- AWS
- AWSグルー
- ベース
- 基本
- BE
- 始まる
- ボックス
- ビルド
- 建物
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- 課金
- 選択する
- 選ばれた
- 分類
- クラウド
- コーチング
- 注釈
- コマンドと
- 互換性のあります
- コンプリート
- 理解する
- コンピュータ
- 領事
- 憲法
- コンテンツ
- 制御
- 従来の
- 変換
- 変換
- カウント
- CPG
- クローラー
- 作ります
- 作成した
- 作成します。
- Cross
- カスタム
- Customers
- データ
- データベース
- より深い
- 展開します
- 記載された
- 希望
- 開発
- 議論する
- ディスプレイ
- 表示される
- do
- ドキュメント
- ドキュメント
- ドメイン
- ダウンロード
- 簡単に
- 東
- 要素は
- 排除
- 可能
- イングランド
- 入力します
- 入る
- Enterprise
- 全体
- エンティティ
- エンティティ
- 特に
- 例
- 専門家
- エキス
- 家族
- File
- 発見
- 名
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- 周波数
- 友達
- から
- 完全に
- 集める
- 生成する
- 付与された
- グループ
- グループの
- 持ってる
- he
- 隠す
- 彼の
- HOURS
- HTML
- HTTP
- HTTPS
- ICON
- アイデンティティ
- if
- 説明する
- 画像
- in
- 情報
- 洞察
- に
- IT
- リーディングシート
- ジョブ
- join
- JPG
- JSON
- キー
- 言語
- 後で
- リーダー
- 学習
- 最低
- コメントを残す
- ことができます
- ような
- 制限
- 負荷
- ローカル
- 場所
- で
- 機械
- 機械学習
- マネージド
- 多くの
- メニュー
- Microsoft
- かもしれない
- ML
- モデル
- モニター
- 他には?
- ずっと
- しなければなりません
- 名
- ナチュラル
- 自然言語処理
- ナビゲート
- ナビゲーション
- 必要とされる
- ニーズ
- 新作
- 新製品
- 忍者
- NLP
- 通常は
- 今
- オブジェクト
- of
- on
- ONE
- 継続
- 開いた
- オプション
- or
- 注文
- オリジナル
- その他
- 出力
- 自分の
- ページ
- ペイン
- path
- 永久に
- フレーズ
- 場所
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポスト
- 電力
- 強力な
- 準備
- 前提条件
- プロセス
- 処理済み
- ラボレーション
- 処理
- 製品
- プロフィール
- 提供します
- 提供
- 読む
- 準備
- 認識
- 参照する
- 地域
- の関係
- 関連した
- 残り
- 倉庫
- リソース
- それらの
- 小売
- 職種
- ラン
- セールス
- 同じ
- Save
- スキャン
- スコア
- を検索
- セクション
- 感情
- 思い
- サービス
- サービス
- すべき
- 簡単な拡張で
- 溶液
- ソリューション
- ソース
- 特定の
- 支出
- Spot
- ステートメント
- Status:
- 滞在
- 手順
- ステップ
- ストレージ利用料
- 保存され
- 構造
- そのような
- 支援する
- 確か
- テーブル
- 取る
- タスク
- 一時的
- 期間
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- それ
- アプリ環境に合わせて
- テーマ
- その後
- この
- それらの
- 三
- 介して
- 時間
- 役職
- 〜へ
- 豊富なツール群
- touch
- 伝統的な
- 引きずる
- トレーニング
- 変換
- トレンド
- 2
- 最終的に
- 下
- 理解する
- 未使用
- アップロード
- us
- つかいます
- 中古
- ユーザー
- users
- 使用されます
- 確認する
- 、
- 可視化
- 視覚化する
- ウォークスルー
- 欲しいです
- 見ている
- we
- ウェブ
- Webサービス
- いつ
- which
- 意志
- Word
- 言葉
- ワークフロー
- ワーキング
- まだ
- You
- あなたの
- ゼファーネット