人の言葉は、その人をユニークにする特徴の一部です。 多くの場合、XNUMXつの特定のアイデアを表現する方法は無数にあります。 企業が顧客とコミュニケーションをとるときは、顧客が伝えようとしている情報を最もよく表す方法でメッセージを配信することが重要です。 これは、プロの言語翻訳に関してはさらに重要になります。 翻訳システムとサービスの顧客は、正確で高度にカスタマイズされた出力を期待しています。 これを実現するために、多くの場合、翻訳メモリ(TM)と呼ばれる以前の翻訳出力を再利用し、それらを新しい入力テキストと比較します。 コンピュータ支援翻訳では、この手法は次のように知られています。 あいまい一致。 ファジーマッチングの主な機能は、翻訳プロセスを高速化することで翻訳者を支援することです。 翻訳されているテキストの完全一致がTMデータベースで見つからない場合、翻訳管理システム(TMS)には、完全に一致しないものを検索するオプションがあります。 一致する可能性のあるものは、最終的な翻訳の追加入力として翻訳者に提供されます。 次のような機械翻訳機能でワークフローを強化する翻訳者 Amazon翻訳 多くの場合、ファジーマッチングデータが自動翻訳ソリューションの一部として使用されることを期待しています。
この投稿では、翻訳メモリのあいまい一致品質スコアに従ってAmazonTranslateからの出力をカスタマイズする方法を学習します。
翻訳品質の一致
XMLローカリゼーション交換ファイル形式(XLIFF)標準は、TMSとAmazonTranslate間のデータ交換フォーマットとしてよく使用されます。 TMSによって生成されたXLIFFファイルには、利用可能なTMに基づく一致品質スコアとともに、ソースおよびターゲットのテキストデータが含まれています。 これらのスコア(通常はパーセンテージで表されます)は、翻訳メモリが翻訳対象のテキストにどれだけ近いかを示します。
非常に厳しい要件を持つ一部の顧客は、一致品質スコアが特定のしきい値を下回っている場合にのみ機械翻訳を使用することを望んでいます。 このしきい値を超えると、彼らは自分たちの翻訳メモリが優先されることを期待しています。 翻訳者は、TMS内で、またはテキストデータを変更することにより、これらの設定を手動で適用する必要があることがよくあります。 このフローを次の図に示します。 機械翻訳システムは、翻訳データ(テキストとあいまい一致スコア)を処理します。これらのデータは、翻訳者が希望する品質しきい値に基づいて確認し、手動で編集します。 機械翻訳ステップの一部としてしきい値を適用すると、これらの手動ステップを削除できるため、効率が向上し、コストが最適化されます。
この投稿で紹介するソリューションでは、一致品質スコアのしきい値に基づいてルールを適用し、特定の入力テキストをAmazonTranslateで機械翻訳するかどうかを決定できます。 機械翻訳されていない場合、結果のテキストは最終出力を確認する翻訳者の裁量に任されます。
ソリューションアーキテクチャ
図2に示すソリューションアーキテクチャは、次のサービスを活用しています。
- Amazon シンプル ストレージ サービス –AmazonS3バケットには次のコンテンツが含まれています。
- あいまい一致しきい値構成ファイル
- 翻訳する原文
- AmazonTranslateの入力データと出力データの場所
- AWS システム マネージャー - を使用しております パラメータストア 一致品質のしきい値構成値を格納するパラメーター
- AWSラムダ –XNUMXつのLambda関数を使用します。
- XNUMXつの関数は、品質一致しきい値構成ファイルを前処理し、データをパラメーターストアに保持します
- XNUMXつの関数が非同期翻訳ジョブを自動的に作成します
- Amazon シンプル キュー サービス – Amazon SQSキューは、新しいファイルがソースバケットに入った結果として変換フローをトリガーします
最初に、設定ファイルを編集してあいまい一致しきい値設定S3バケットにアップロードすることにより、翻訳ジョブの品質しきい値を設定します。 以下は、CSV形式の設定例です。 わかりやすくするためにCSVを選択しましたが、どの形式でも使用できます。 各行は、特定の翻訳ジョブに適用されるしきい値、または任意のジョブのデフォルト値として適用されるしきい値を表します。
構成ファイルの仕様は次のとおりです。
- 列1には、入力データとしてAmazon Translateジョブに提供されたXLIFFファイルの名前(拡張子なし)を入力する必要があります。
- 列2には、品質一致率のしきい値を入力する必要があります。 この値を下回るスコアには、機械翻訳が使用されます。
- 名前が構成ファイルにリストされている名前と一致しないすべてのXLIFFファイルには、デフォルトのしきい値(キーワードのある行)が使用されます。
default
列1に設定します。
新しいファイルがアップロードされると、AmazonS3はパラメーターの処理を担当するLambda関数をトリガーします。 この関数は、将来の使用のために、しきい値パラメーターを読み取ってパラメーターストアに格納します。 パラメータストアを使用すると、新しい翻訳ジョブが開始されるたびに冗長なAmazonS3GETリクエストを実行することを回避できます。 サンプル構成ファイルは、次のスクリーンショットに示すパラメータータグを生成します。
ジョブ初期化Lambda関数は、Amazon Translateを呼び出す前に、これらのパラメーターを使用してデータを前処理します。 次のコードに示すように、英語からスペイン語への翻訳XLIFF入力ファイルを使用します。 これには、翻訳される最初のテキストが含まれ、いわゆるものに分解されます。 セグメント、ソースタグで表されます。
ソーステキストは、事前に翻訳メモリと事前に照合されています。 データには、潜在的な翻訳の選択肢が含まれています。 <alt-trans>
タグ-一致品質属性とともに、パーセンテージで表されます。 ビジネスルールは次のとおりです。
- 代替の翻訳で受信されたセグメントと、しきい値を下回る一致品質は、変更されていないか、空です。 これは、Amazon Translateに、翻訳する必要があることを通知します。
- しきい値を超える一致品質の代替翻訳で受信されたセグメントには、提案されたターゲットテキストが事前に入力されています。 AmazonTranslateはそれらのセグメントをスキップします。
このジョブに設定された品質一致しきい値が80%であると仮定します。 一致品質が99%の最初のセグメントは機械翻訳されていませんが、XNUMX番目のセグメントは、一致品質が定義されたしきい値を下回っているためです。 この設定では、AmazonTranslateは次の出力を生成します。
XNUMX番目のセグメントでは、Amazon Translateが最初に提案されたターゲットテキストを上書きします(Selección
)より高品質の翻訳: Visita de selección
.
このユースケースのXNUMXつの可能な拡張は、翻訳された出力を再利用し、独自の翻訳メモリを作成することです。 Amazon Translateは、翻訳メモリを使用した機械翻訳のカスタマイズをサポートしています。 並列データ 特徴。 初期の低品質スコアのために以前に機械翻訳されたテキストセグメントは、新しい翻訳プロジェクトで再利用できます。
次のセクションでは、このソリューションを展開してテストするプロセスについて説明します。 あなたが使う AWS CloudFormation 構成可能な品質一致しきい値でパーソナライズされた非同期翻訳ジョブを起動するためのスクリプトとデータサンプル。
前提条件
このウォークスルーでは、 AWSアカウント。 まだアカウントをお持ちでない場合は、 XNUMXつを作成してアクティブ化します.
AWSCloudFormationスタックを起動します
- 選択する 発射スタック:
- スタック名、名前を入力します。
- 構成バケット名、しきい値設定ファイルを含むS3バケットを入力します。
- パラメータストアルート、Lambda関数を処理するパラメーターによって作成されたパラメーターのルートパスを入力します。
- キュー名、作成したSQSキューに入り、ソースバケットからジョブ初期化Lambda関数に新しいファイル通知を送信します。 設定ファイルを読み込む機能です。
- ソースバケット名、変換するXLIFFファイルを含むS3バケットを入力します。 既存のバケットを使用する場合は、CreateSourceBucketパラメーターの値をNoに変更する必要があります。
- ワーキングバケット名、AmazonTranslateが入力データと出力データに使用するS3バケットを入力します。
- 選択する Next.
- オプションで スタック オプション ページに、作成しようとしているリソースに割り当てる可能性のあるタグのキー名と値を追加します。
- 選択する Next.
- ソフトウェア設定ページで、下図のように レビュー このテンプレートにより、AWSCloudFormationがIAMリソースを作成する可能性があることを認めます.
- 他の設定を確認してから、 スタックを作成.
AWS CloudFormationは、お客様に代わってリソースを作成するのに数分かかります。 あなたはで進捗状況を見ることができます イベント AWSCloudFormationコンソールのタブ。 スタックが作成されると、次のように表示されます。 CREATE_COMPLETE
のメッセージ Status: の列 概要 タブには何も表示されないことに注意してください。
ソリューションをテストする
簡単な例を見てみましょう。
- 以下をダウンロードする サンプルデータ.
- コンテンツを解凍します。
XLIFF形式の.xlfファイルと、拡張子が.cfgのしきい値構成ファイルのXNUMXつのファイルが必要です。 以下はXLIFFファイルの抜粋です。
- Amazon S3コンソールで、品質しきい値設定ファイルを前に指定した設定バケットにアップロードします。
に設定された値 test_En_to_Fr
75%です。 SystemsManagerコンソールの[パラメータストア]セクションでパラメータを確認できるはずです。
- 引き続きAmazonS3コンソールで、ソースとして設定したS3バケットに.xlfファイルをアップロードします。 ファイルがという名前のフォルダの下にあることを確認してください
translate
(例えば、<my_bucket>/translate/test_En_to_Fr.xlf
).
これにより、翻訳フローが開始されます。
- Amazon翻訳コンソールを開きます。
新しいジョブが進行中のステータスで表示されます。
- ジョブが完了したら、ジョブのリンクをクリックして出力を確認します。 すべてのセグメントが翻訳されている必要があります。
すべてのセグメントが翻訳されている必要があります。 翻訳されたXLIFFファイルで、次の名前の追加属性を持つセグメントを探します lscustom:match-quality
、次のスクリーンショットに示すように。 これらのカスタム属性は、スコアに基づいて提案された翻訳が保持されたセグメントを識別します。
これらは、品質しきい値に従って翻訳メモリから導出されました。 他のすべてのセグメントは機械翻訳されました。
これで、構成可能な翻訳メモリの一致品質のしきい値を適用する自動非同期翻訳ジョブアシスタントを展開してテストしました。 よくやった!
掃除
ソリューションをアカウントにデプロイした場合は、予期しないコストを回避するために、CloudFormationスタックを削除することを忘れないでください。 事前にS3バケットを手動で空にする必要があります。
まとめ
この投稿では、標準のXLIFFあいまい一致品質メトリックに基づいてAmazon翻訳翻訳ジョブをカスタマイズする方法を学びました。 このソリューションを使用すると、Amazon Translateの使用を最適化しながら、機械翻訳されたテキストのレビューに伴う手作業を大幅に削減できます。 また、以下で説明するように、データ取り込みの自動化とワークフローのオーケストレーション機能を使用してソリューションを拡張することもできます。 完全に自動化された翻訳システムアシスタントで翻訳ジョブをスピードアップ.
著者について
ナルシスゼクパ ボストンを拠点とするソリューションアーキテクトです。 彼は、アーキテクチャガイドラインを提供し、革新的でスケーラブルなソリューションを設計することにより、米国北東部のお客様がAWSクラウドの採用を加速するのを支援しています。 ナルシスが建物を建てていないときは、家族と過ごしたり、旅行したり、料理をしたり、バスケットボールをしたりしています。
ディミトリ・レスタイノ ニューヨークのブルックリンを拠点とするAWSのソリューションアーキテクトです。 彼は主に北東部のヘルスケアおよび金融サービス会社と協力し、顧客に最適なサービスを提供する革新的で創造的なソリューションの設計を支援しています。 彼はソフトウェア開発のバックグラウンドから来て、サーバーレステクノロジーが世界にもたらすことができる新しい可能性に興奮しています。 仕事以外では、彼はニューヨークのフードシーンをハイキングして探索するのが大好きです。
- "
- 100
- 420
- 7
- 私たちについて
- 加速する
- 従った
- 正確な
- 達成する
- NEW
- 養子縁組
- すべて
- 代替案
- しかし
- Amazon
- 適用
- 建築の
- 建築
- アシスタント
- 属性
- 自動化
- オートメーション
- 利用できます
- AWS
- 背景
- バスケットボール
- さ
- 以下
- BEST
- 越えて
- 国境
- ボストン
- 建物
- ビジネス
- 機能
- 原因となる
- 一定
- 変化する
- チャージ
- 選択する
- クラウド
- コード
- コラム
- 到来
- 企業
- 同意
- 領事
- 含まれています
- コンテンツ
- 可能性
- 作ります
- 作成した
- 作成します。
- クリエイティブ
- 重大な
- カスタム
- Customers
- データ
- データベース
- 配信
- 展開
- 展開する
- 記載された
- 設計
- 開発
- 異なります
- 裁量
- そうではありません
- ダウン
- ドライブ
- 効率
- 英語
- 入力します
- 例
- 交換
- 興奮した
- 期待する
- 探る
- 表現
- 伸ばす
- 家族
- 特徴
- フィギュア
- ファイナンシャル
- 金融業務
- 会社
- 名
- フロー
- フォロー中
- 次
- フード
- 形式でアーカイブしたプロジェクトを保存します.
- 発見
- フランス語
- function
- 機能
- 未来
- 素晴らしい
- 大いに
- グループ
- ガイドライン
- ヘルスケア
- 助け
- ことができます
- より高い
- 非常に
- 認定条件
- How To
- HTTPS
- アイデア
- 識別する
- 識別
- 重要
- include
- 情報
- 革新的な
- 関係する
- IT
- ジョブ
- Jobs > Create New Job
- キー
- 既知の
- 労働
- 言語
- 起動する
- LEARN
- 学んだ
- レバレッジ
- LINE
- LINK
- リストされた
- 機械
- 管理
- マネージャー
- マニュアル
- 手動で
- 一致
- マッチング
- メモリ
- メトリック
- かもしれない
- 他には?
- 名
- ニューヨーク
- ノース
- NYC
- 最適化
- オプション
- 編成
- その他
- 自分の
- 部
- 割合
- 実行
- 個人
- 再生
- の可能性
- 可能
- 潜在的な
- 前
- 主要な
- プロセス
- ラボレーション
- 処理
- 生産された
- プロ
- プロジェクト(実績作品)
- 提供
- 品質
- 受け
- 減らします
- で表さ
- 表し
- リクエスト
- 要件
- リソース
- 結果
- レビュー
- ルール
- ド電源のデ
- シーン
- を検索
- セグメント
- セグメント
- サーバレス
- サービス
- セッションに
- 示す
- 簡単な拡張で
- ソフトウェア
- ソフトウェア開発
- 固体
- 溶液
- ソリューション
- 仕様
- 支出
- スタック
- 標準
- 開始
- Status:
- ストレージ利用料
- 店舗
- 店舗
- サポート
- システム
- ターゲット
- テクノロジー
- テスト
- ソース
- 世界
- しきい値
- 介して
- 時間
- インタビュー
- 旅行
- 私達
- ユニーク
- つかいます
- 値
- よく見る
- この試験は
- 何ですか
- かどうか
- while
- 誰
- 以内
- 仕事
- 作品
- 世界
- XML