Personalisasi Hasil Terjemahan Mesin Anda Dengan Menggunakan Pencocokan Fuzzy Dengan Amazon Translate

Diterbitkan Ulang Oleh Plato

Followers: 0

Bahasa sehari-hari seseorang adalah bagian dari karakteristik yang membuatnya unik. Seringkali ada banyak cara berbeda untuk mengekspresikan satu ide tertentu. Ketika sebuah perusahaan berkomunikasi dengan pelanggan mereka, sangat penting bahwa pesan disampaikan dengan cara yang paling mewakili informasi yang mereka coba sampaikan. Ini menjadi lebih penting dalam hal penerjemahan bahasa profesional. Pelanggan sistem dan layanan terjemahan mengharapkan hasil yang akurat dan sangat disesuaikan. Untuk mencapai ini, mereka sering menggunakan kembali keluaran terjemahan sebelumnya—disebut memori terjemahan (TM)—dan membandingkannya dengan teks masukan baru. Dalam penerjemahan dengan bantuan komputer, teknik ini dikenal sebagai pencocokan kabur. Fungsi utama dari fuzzy matching adalah untuk membantu penerjemah dengan mempercepat proses penerjemahan. Ketika kecocokan tepat tidak dapat ditemukan di database TM untuk teks yang diterjemahkan, sistem manajemen terjemahan (TMS) sering kali memiliki opsi untuk mencari kecocokan yang kurang tepat. Kecocokan potensial diberikan kepada penerjemah sebagai masukan tambahan untuk terjemahan akhir. Penerjemah yang meningkatkan alur kerja mereka dengan kemampuan terjemahan mesin seperti Amazon Terjemahan sering mengharapkan data pencocokan fuzzy untuk digunakan sebagai bagian dari solusi terjemahan otomatis.

Dalam posting ini, Anda mempelajari cara menyesuaikan output dari Amazon Translate menurut skor kualitas pencocokan fuzzy memori terjemahan.

Pencocokan Kualitas Terjemahan

Format File Pertukaran Pelokalan XML (XLIF) standar sering digunakan sebagai format pertukaran data antara TMS dan Amazon Translate. File XLIFF yang dihasilkan oleh TMS mencakup data teks sumber dan target bersama dengan skor kualitas kecocokan berdasarkan TM yang tersedia. Skor ini—biasanya dinyatakan sebagai persentase—menunjukkan seberapa dekat memori terjemahan dengan teks yang sedang diterjemahkan.

Beberapa pelanggan dengan persyaratan yang sangat ketat hanya ingin terjemahan mesin digunakan ketika skor kualitas kecocokan berada di bawah ambang batas tertentu. Di luar ambang batas ini, mereka mengharapkan memori terjemahan mereka sendiri yang diutamakan. Penerjemah sering kali perlu menerapkan preferensi ini secara manual baik dalam TMS mereka atau dengan mengubah data teks. Aliran ini digambarkan dalam diagram berikut. Sistem terjemahan mesin memproses data terjemahan—teks dan skor kecocokan fuzzy—yang kemudian ditinjau dan diedit secara manual oleh penerjemah, berdasarkan ambang batas kualitas yang diinginkan. Menerapkan ambang batas sebagai bagian dari langkah terjemahan mesin memungkinkan Anda menghapus langkah-langkah manual ini, yang meningkatkan efisiensi dan mengoptimalkan biaya.

Gambar 1: Alur Tinjauan Terjemahan Mesin

Solusi yang disajikan dalam posting ini memungkinkan Anda untuk menerapkan aturan berdasarkan ambang batas skor kualitas kecocokan untuk mendorong apakah teks input yang diberikan harus diterjemahkan dengan mesin oleh Amazon Translate atau tidak. Ketika tidak diterjemahkan dengan mesin, teks yang dihasilkan diserahkan kepada kebijaksanaan penerjemah yang meninjau hasil akhir.

Arsitektur Solusi

Arsitektur solusi yang diilustrasikan pada Gambar 2 memanfaatkan layanan berikut:

Layanan Penyimpanan Sederhana Amazon – Bucket Amazon S3 berisi konten berikut:
- File konfigurasi ambang batas pencocokan fuzzy
- Teks sumber yang akan diterjemahkan
- Lokasi data input dan output Amazon Translate
Manajer Sistem AWS - Kita gunakan Toko Parameter parameter untuk menyimpan nilai konfigurasi ambang batas kualitas yang cocok
AWS Lambda – Kami menggunakan dua fungsi Lambda:
- Satu fungsi memproses file konfigurasi ambang batas kecocokan kualitas dan menyimpan data ke dalam Parameter Store
- Satu fungsi secara otomatis membuat pekerjaan terjemahan asinkron
Layanan Antrian Sederhana Amazon – Antrean Amazon SQS memicu aliran terjemahan sebagai akibat dari file baru yang masuk ke bucket sumber

Gambar 2: Arsitektur Solusi

Anda terlebih dahulu menyiapkan ambang batas kualitas untuk tugas terjemahan Anda dengan mengedit file konfigurasi dan mengunggahnya ke dalam keranjang S3 konfigurasi ambang batas pencocokan fuzzy. Berikut ini adalah contoh konfigurasi dalam format CSV. Kami memilih CSV untuk kesederhanaan, meskipun Anda dapat menggunakan format apa pun. Setiap baris mewakili ambang batas untuk diterapkan pada pekerjaan terjemahan tertentu atau sebagai nilai default untuk pekerjaan apa pun.

default, 75
SourceMT-Test, 80

Spesifikasi dari file konfigurasi adalah sebagai berikut:

Kolom 1 harus diisi dengan nama file XLIFF—tanpa ekstensi—yang disediakan untuk pekerjaan Amazon Translate sebagai data input.
Kolom 2 harus diisi dengan ambang persentase kecocokan kualitas. Untuk setiap skor di bawah nilai ini, terjemahan mesin digunakan.
Untuk semua file XLIFF yang namanya tidak cocok dengan nama apa pun yang tercantum dalam file konfigurasi, ambang default digunakan—baris dengan kata kunci default diatur di Kolom 1.

Gambar 3: Parameter yang dibuat secara otomatis di Penyimpanan Parameter Manajer Sistem

Saat file baru diunggah, Amazon S3 memicu fungsi Lambda yang bertugas memproses parameter. Fungsi ini membaca dan menyimpan parameter ambang batas ke dalam Penyimpanan Parameter untuk penggunaan di masa mendatang. Menggunakan Parameter Store menghindari melakukan permintaan GET Amazon S3 yang berlebihan setiap kali pekerjaan terjemahan baru dimulai. File konfigurasi sampel menghasilkan tag parameter yang ditunjukkan pada tangkapan layar berikut.

Fungsi Lambda inisialisasi pekerjaan menggunakan parameter ini untuk melakukan praproses data sebelum menjalankan Amazon Translate. Kami menggunakan file input XLIFF terjemahan Inggris-ke-Spanyol, seperti yang ditunjukkan pada kode berikut. Ini berisi teks awal yang akan diterjemahkan, dipecah menjadi apa yang disebut sebagai segmen, diwakili dalam tag sumber.

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match"/> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Teks sumber telah dicocokkan sebelumnya dengan memori terjemahan. Data berisi alternatif terjemahan potensial—diwakili sebagai <alt-trans> tag—di samping atribut kualitas kecocokan, yang dinyatakan sebagai persentase. Aturan bisnisnya adalah sebagai berikut:

Segmen yang diterima dengan terjemahan alternatif dan kualitas kecocokan di bawah ambang batas tidak tersentuh atau kosong. Ini menandakan ke Amazon Translate bahwa mereka harus diterjemahkan.
Segmen yang diterima dengan terjemahan alternatif dengan kualitas kecocokan di atas ambang telah diisi sebelumnya dengan teks target yang disarankan. Amazon Translate melewatkan segmen tersebut.

Mari kita asumsikan ambang kecocokan kualitas yang dikonfigurasi untuk pekerjaan ini adalah 80%. Segmen pertama dengan kualitas kecocokan 99% bukan terjemahan mesin, sedangkan segmen kedua, karena kualitas kecocokannya di bawah ambang batas yang ditentukan. Dalam konfigurasi ini, Amazon Translate menghasilkan output berikut:

<group id="g8"> <trans-unit id="t8" translate="yes"> <source>Consent Form</source> <target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target> <alt-trans extype="fuzzy-match" match-quality="99%" > <source>CONSENT FORM</source> <target>FORMULARIO DE CONSENTIMIENTO</target> </alt-trans> </trans-unit>
</group> <group id="g67"> <trans-unit id="t110" translate="yes"> <source>Screening Visit:</source> <target state-qualifier="fuzzy-match">Visita de selección</target> <alt-trans extype="fuzzy-match" match-quality="50%"> <source>Screening Visit</source> <target>Selección</target> </alt-trans> </trans-unit>
</group>

Di segmen kedua, Amazon Translate menimpa teks target yang awalnya disarankan (Selección) dengan terjemahan berkualitas lebih tinggi: Visita de selección.

Salah satu kemungkinan ekstensi untuk kasus penggunaan ini adalah menggunakan kembali output yang diterjemahkan dan membuat memori terjemahan kita sendiri. Amazon Translate mendukung penyesuaian terjemahan mesin menggunakan memori terjemahan berkat data paralel fitur. Segmen teks yang sebelumnya diterjemahkan dengan mesin karena skor awalnya berkualitas rendah kemudian dapat digunakan kembali dalam proyek terjemahan baru.

Di bagian berikut, kami memandu Anda melalui proses penerapan dan pengujian solusi ini. Kau gunakan Formasi AWS Cloud skrip dan sampel data untuk meluncurkan pekerjaan terjemahan asinkron yang dipersonalisasi dengan ambang kecocokan kualitas yang dapat dikonfigurasi.

Prasyarat

Untuk panduan ini, Anda harus memiliki Akun AWS. Jika Anda belum memiliki akun, Anda bisa buat dan aktifkan satu.

Luncurkan tumpukan AWS CloudFormation

Pilih Luncurkan Stack:
Untuk Nama tumpukan, masukkan nama.
Untuk ConfigBucketName, masukkan bucket S3 yang berisi file konfigurasi ambang.
Untuk ParameterStoreRoot, masukkan jalur root parameter yang dibuat oleh parameter yang memproses fungsi Lambda.
Untuk Nama Antrian, masukkan antrean SQS yang Anda buat untuk memposting pemberitahuan file baru dari bucket sumber ke fungsi Lambda inisialisasi pekerjaan. Ini adalah fungsi yang membaca file konfigurasi.
Untuk SourceBucketName, masukkan bucket S3 yang berisi file XLIFF yang akan diterjemahkan. Jika Anda lebih suka menggunakan bucket yang sudah ada sebelumnya, Anda perlu mengubah nilai parameter CreateSourceBucket ke No.
Untuk NamaBucket Kerja, masukkan bucket S3 yang digunakan Amazon Translate untuk data input dan output.
Pilih Selanjutnya.

Gambar 4: Detail tumpukan CloudFormation
Opsional di Tumpukan Opsi halaman, tambahkan nama dan nilai kunci untuk tag yang mungkin ingin Anda tetapkan ke sumber daya yang akan dibuat.
Pilih Selanjutnya.
pada ULASAN halaman, pilih Saya mengakui bahwa template ini dapat menyebabkan AWS CloudFormation membuat sumber daya IAM.
Tinjau pengaturan lainnya, lalu pilih Buat tumpukan.

AWS CloudFormation membutuhkan waktu beberapa menit untuk membuat sumber daya atas nama Anda. Anda dapat melihat perkembangannya di Acara tab di konsol AWS CloudFormation. Ketika tumpukan telah dibuat, Anda dapat melihat CREATE_COMPLETE pesan di Status kolom pada Ringkasan Tab.

Uji solusinya

Mari kita lihat contoh sederhana.

Download yang berikut ini contoh data.
Buka zip konten.

Seharusnya ada dua file: file .xlf dalam format XLIFF, dan file konfigurasi ambang dengan .cfg sebagai ekstensi. Berikut ini adalah kutipan dari file XLIFF.

Gambar 5: Ekstrak file sampel bahasa Inggris ke Prancis

Di konsol Amazon S3, unggah file konfigurasi ambang batas kualitas ke dalam keranjang konfigurasi yang Anda tentukan sebelumnya.

Nilai yang ditetapkan untuk test_En_to_Fr adalah 75%. Anda seharusnya dapat melihat parameter pada konsol Manajer Sistem di bagian Penyimpanan Parameter.

Masih di konsol Amazon S3, unggah file .xlf ke dalam bucket S3 yang Anda konfigurasikan sebagai sumber. Pastikan file berada di bawah folder bernama translate (sebagai contoh, <my_bucket>/translate/test_En_to_Fr.xlf).

Ini memulai aliran terjemahan.

Buka konsol Amazon Translate.

Pekerjaan baru akan muncul dengan status Sedang Berlangsung.

Gambar 6: Pekerjaan penerjemahan yang sedang berlangsung di konsol Amazon Translate

Setelah pekerjaan selesai, klik tautan pekerjaan dan lihat hasilnya. Semua segmen seharusnya sudah diterjemahkan.

Semua segmen seharusnya sudah diterjemahkan. Dalam file XLIFF yang diterjemahkan, cari segmen dengan atribut tambahan bernama lscustom:match-quality, seperti yang ditunjukkan pada tangkapan layar berikut. Atribut khusus ini mengidentifikasi segmen tempat terjemahan yang disarankan dipertahankan berdasarkan skor.

Gambar 7: Atribut khusus yang mengidentifikasi segmen tempat terjemahan yang disarankan dipertahankan berdasarkan skor

Ini berasal dari memori terjemahan sesuai dengan ambang batas kualitas. Semua segmen lainnya diterjemahkan dengan mesin.

Anda sekarang telah menerapkan dan menguji asisten pekerjaan terjemahan asinkron otomatis yang menerapkan ambang batas kualitas kecocokan memori terjemahan yang dapat dikonfigurasi. Kerja bagus!

Membersihkan

Jika Anda menerapkan solusi ke akun Anda, jangan lupa untuk menghapus tumpukan CloudFormation untuk menghindari biaya tak terduga. Anda harus mengosongkan ember S3 secara manual sebelumnya.

Kesimpulan

Dalam posting ini, Anda mempelajari cara menyesuaikan pekerjaan terjemahan Amazon Translate Anda berdasarkan metrik kualitas pencocokan fuzzy XLIFF standar. Dengan solusi ini, Anda dapat sangat mengurangi tenaga kerja manual yang terlibat dalam meninjau teks terjemahan mesin sambil juga mengoptimalkan penggunaan Amazon Translate Anda. Anda juga dapat memperluas solusi dengan otomatisasi penyerapan data dan kemampuan orkestrasi alur kerja, seperti yang dijelaskan dalam Percepat Pekerjaan Terjemahan dengan Asisten Sistem Terjemahan Otomatis.

Tentang Penulis

Narsis Zekpa adalah Arsitek Solusi yang berbasis di Boston. Dia membantu pelanggan di Timur Laut AS mempercepat adopsi AWS Cloud mereka, dengan memberikan panduan arsitektur, merancang solusi yang inovatif, dan skalabel. Ketika Narcisse tidak membangun, dia menikmati menghabiskan waktu bersama keluarganya, bepergian, memasak, dan bermain bola basket.

Dimitri Restino adalah Arsitek Solusi di AWS, yang berbasis di Brooklyn, New York. Dia bekerja terutama dengan perusahaan Layanan Kesehatan dan Keuangan di Timur Laut, membantu merancang solusi inovatif dan kreatif untuk melayani pelanggan mereka dengan sebaik-baiknya. Berasal dari latar belakang pengembangan perangkat lunak, ia senang dengan kemungkinan baru yang dapat dihadirkan oleh teknologi tanpa server ke dunia. Di luar pekerjaan, dia suka mendaki dan menjelajahi dunia kuliner NYC.

Stempel Waktu: 16 Mei 2022

Diterbitkan Ulang Oleh Plato

Startup di seluruh AWS Accelerators menggunakan AI dan ML untuk menyelesaikan tantangan pelanggan yang sangat penting

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML

Memperkenalkan Fortuna: Perpustakaan untuk kuantifikasi ketidakpastian

Rekomendasi daya dan pencarian menggunakan grafik pengetahuan IMDb – Bagian 3

Prediksi harga real estat perumahan di ImmoScout24 dengan Amazon SageMaker

Model dasar AI21 Jurassic-1 kini tersedia di Amazon SageMaker

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun