Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Bangun alur kerja terjemahan dokumen multibahasa dengan penyesuaian khusus domain dan bahasa tertentu

Di dunia digital, memberikan informasi dalam bahasa lokal bukanlah hal baru, tetapi bisa menjadi tugas yang membosankan dan mahal. Kemajuan dalam pembelajaran mesin (ML) dan pemrosesan bahasa alami (NLP) telah membuat tugas ini jauh lebih mudah dan lebih murah.

Kami telah melihat peningkatan adopsi ML untuk data multi-bahasa dan beban kerja pemrosesan dokumen. Pelanggan perusahaan dan pemerintah memigrasikan beban kerja terjemahan manual mereka untuk memanfaatkan layanan terjemahan ML otomatis. Amazon Terjemahan adalah terjemahan mesin saraf layanan yang memberikan terjemahan bahasa yang cepat, berkualitas tinggi, dan terjangkau antara beberapa ribu pasangan bahasa yang dapat digunakan untuk tugas terjemahan sinkron (waktu nyata) atau asinkron. Untuk daftar lengkap pasangan terjemahan yang tersedia, lihat Bahasa dan kode bahasa yang didukung.

Pelanggan yang bermigrasi dan memodernisasi beban kerja terjemahan mereka memerlukan kemampuan untuk menyesuaikan terjemahan untuk domain bisnis mereka. Beban kerja penerjemahan mungkin juga memerlukan kemampuan untuk beradaptasi dengan dialek atau penggunaan bahasa daerah. Misalnya, terjemahan bahasa Spanyol dari "lansia" adalah anciano(a) tetapi di Puerto Rico kata envejeciente lebih disukai.

Dalam posting ini, kami mendemonstrasikan cara menggabungkan fitur Active Custom Translation (ACT) Amazon Translate. Kami mengusulkan solusi untuk membuat alur kerja terjemahan dokumen multibahasa dengan penyesuaian khusus domain dan bahasa yang dapat Anda tinjau dan tingkatkan sesuai kebutuhan untuk terus meningkatkan hasil dan menyenangkan pengguna akhir.

Ikhtisar solusi

ACT menghasilkan keluaran terjemahan khusus tanpa perlu membangun dan memelihara model terjemahan khusus. Menggunakan ACT, Amazon Translate akan menggunakan contoh terjemahan pilihan Anda sebagai data paralel untuk menyesuaikan hasil terjemahan Anda, menghilangkan waktu dan biaya yang diperlukan untuk membangun dan melatih model pembelajaran mesin baru.

Solusi yang tercakup dalam posting ini menjelaskan cara membuat alur kerja human-in-the-loop menggunakan Amazon Augmented AI (Amazon A2I) untuk terus meningkatkan terjemahan yang disesuaikan. Amazon A2I menyediakan cara sederhana untuk mengintegrasikan pengawasan manusia ke dalam alur kerja ML Anda, tanpa memerlukan pengalaman ML. Amazon A2I mempermudah pengintegrasian penilaian manusia dan AI ke dalam aplikasi ML apa pun, terlepas dari apakah itu dijalankan di AWS atau di platform lain.

Untuk informasi lebih lanjut lihat Merancang alur kerja ulasan manusia dengan Amazon Translate dan Amazon Augmented AI pos.

Diagram berikut menampilkan aliran perintah dan aliran data dari solusi. Alur perintah menunjukkan urutan logis peristiwa dalam alur kerja. Aliran data menunjukkan bagaimana data dibuat atau digunakan oleh berbagai komponen dalam solusi.

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Diagram urutan berikut menunjukkan dua proses terpisah dalam solusi: alur kerja terjemahan (A) dan proses untuk memperbarui data paralel (B).

Alur kerja terjemahan diprakarsai oleh an amazoncloudwatch acara terjadwal yang memulai Penerjemah Job Invoker AWS Lambda fungsi. Fungsi ini membuat pekerjaan terjemahan asinkron di Amazon Translate, meneruskan dokumen untuk diterjemahkan dan lokasi data paralel untuk menyesuaikan terjemahan. Pekerjaan terjemahan membaca data paralel, melakukan terjemahan, dan menulis hasil terjemahan kembali ke Amazon S3 keranjang. Pada tulisan ini, hanya pekerjaan terjemahan asinkron yang dapat menggunakan data paralel.

Saat pekerjaan terjemahan selesai, sebuah peristiwa akan dibuat yang memicu fungsi Lambda Handler Penyelesaian Pekerjaan Terjemahan. Fungsi ini membuat loop alur kerja manusiaโ€”komponen utama bagian Amazon A2I dari alur kerja.

Peninjau manusia menilai terjemahan dan menerima atau memodifikasi terjemahan. Koreksi apa pun digunakan untuk memperbarui dokumen yang diterjemahkan dan juga ditambahkan ke kamus penyesuaian. Saat peninjauan selesai, peristiwa lain dibuat untuk memicu fungsi Penanganan Penyelesaian Alur Kerja. Fungsi ini menulis kembali dokumen terjemahan terbaru ke Amazon S3. Data kustomisasi digunakan untuk memperbarui dan Amazon DynamoDB tabel dengan pasangan teks sumber dan terjemahan.

Untuk menutup loop, kita harus menggabungkan data penyesuaian yang disimpan di DynamoDB ini kembali ke data paralel yang disimpan di Amazon S3. Untuk mencapai hal ini, kami menggunakan peristiwa CloudWatch terjadwal untuk memicu fungsi Parallel Data Refresher, yang membaca data dari tabel DynamoDB, memformat ulangnya sebagai data paralel, dan memperbarui bucket S3, menyimpan data paralel.

Terapkan solusi dengan AWS CloudFormation

Luncurkan yang disediakan Formasi AWS Cloud template untuk menerapkan solusi di akun Anda. Tumpukan ini hanya berfungsi di Wilayah us-east-1. Jika Anda ingin menerapkan solusi ini di Wilayah lain, lihat berikut ini GitHub repo.

  1. Pilih Luncurkan Stack:
    Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  2. Ikuti petunjuk untuk mengisi parameter yang diperlukan. Jika Anda menjalankan tumpukan ini untuk pertama kalinya, Email SNS adalah satu-satunya parameter yang diperlukan.
  3. pada ULASAN halaman, di halaman Kemampuan bagian, pilih kotak centang dan pilih Buat tumpukan.

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Tumpukan membuat komponen utama berikut:

  • Data penyesuaian โ€“ Sebuah tabel DynamoDB (translate_parallel_data) untuk memelihara data kustomisasi. Anda memigrasikan data penyesuaian yang ada ke tabel ini. Tabel ini digunakan untuk terus menambahkan dan memperbarui penyesuaian.
  • Penyegaran Data Paralel โ€“ Fungsi Lambda untuk mengonversi data penyesuaian dalam tabel DynamoDB ke format data paralelโ€”CSV, TSV, atau TMXโ€”dan menyimpannya di Amazon S3. Ini membuat dan memperbarui data paralel dengan file data paralel baru di Amazon S3.
  • Penerjemah Pekerjaan Penerjemah โ€“ Fungsi Lambda untuk memulai pekerjaan batch Amazon Translate dengan data paralel.
  • Penangan Penyelesaian Pekerjaan Terjemahan โ€“ Fungsi Lambda ini dipicu saat pekerjaan batch Amazon Translate selesai. Fungsi ini membuat satu loop manusia per dokumen (kami akan menyempurnakan ini di masa mendatang untuk membuat loop manusia hanya untuk persentase tertentu dari dokumen yang diproses). Ini menggunakan dokumen asli dan terjemahan untuk membuat lingkaran manusia.
  • Template khusus Amazon A2I โ€“ Template ini digunakan untuk merender pasangan terjemahan untuk tinjauan manusia. Template memiliki Add pilihan untuk setiap segmen terjemahan. Pengguna dapat memilih opsi ini untuk menambahkan koreksi ke data penyesuaian. Data kustomisasi baru digunakan dalam pekerjaan terjemahan batch berikutnya.
  • Handler Penyelesaian Alur Kerja โ€“ Fungsi Lambda ini dipicu saat alur kerja manusia selesai. Fungsi memperbarui dokumen yang diterjemahkan dengan koreksi dan memeriksa pembaruan data paralel. Data paralel baru ditambahkan ke tabel DynamoDB.
  • Tim pribadi Amazon A2I โ€“ Tim pribadi Amazon A2I dibuat dengan pekerja manusia menggunakan email yang disediakan. Kredensial awal dikirim melalui email setelah berhasil membuat tim pribadi. Anda menggunakan email dan kredensial ini untuk masuk ke portal pekerja Amazon A2I.

Uji solusinya

Grafik sample_text.txt file akan dibuat di bawah awalan input dari ember S3 yang dibuat oleh tumpukan. Kami menggunakan file ini untuk pengujian kami. Ini berisi konten berikut:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health โ€“ with one exception: smoking status.

Untuk menguji solusi, selesaikan langkah-langkah berikut:

  1. Aktifkan fungsi Translation Job Invoker secara manual, atau tunggu hingga dipicu oleh CloudWatch berdasarkan jadwal cron yang Anda tentukan.
    Fungsi ini memicu pekerjaan batch Amazon Translate. Anda dapat mengamati kemajuan pekerjaan di konsol Amazon Translate.
    Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Pekerjaan batch ini membutuhkan waktu sekitar 30 menit untuk diselesaikan. Setelah selesai, TextTranslationJob peristiwa perubahan status memicu fungsi Penangan Penyelesaian Pekerjaan Terjemahan. Fungsi ini membuat satu loop manusia per dokumen yang diterjemahkan.
  2. Arahkan ke folder Tenaga kerja Amazon A2I .
  3. Pilih Swasta Tab.
    Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  4. Masuk ke portal pekerja Amazon A2I dengan memilih tautan untuk Memberi label pada URL masuk portal.
  5. Pilih tugas Human review task dalam daftar pekerjaan.
  6. Pilih Mulai bekerja.
    Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Anda dapat melihat halaman berikut ditampilkan.
    Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  7. Ikuti petunjuk untuk melakukan koreksi khusus domain dan bahasa.
    Pada tangkapan layar sebelumnya, frasa โ€œPenggunaan status kesehatan dalam polis asuransi kesehatan grup mana pun dilarang oleh hukumโ€ telah diterjemahkan menjadi โ€œLa ley prohรญbe el uso del estado de salud en cualquier pรณliza de seguro mรฉdico de grupo.โ€ Meskipun terjemahannya akurat, frasa-frasanya telah diatur ulang.
  8. Mari kita ubah ini menjadi โ€œEl uso del estado de salud en cualquier pรณliza de seguro de salud grupal estรก prohibido por leyโ€ untuk membuat terjemahan ini lebih langsung mencerminkan ungkapan asli.
  9. Pilih Add untuk menambahkan ini ke kamus.
  10. Setelah selesai, pilih Kirim.
    Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Ini memicu fungsi Penanganan Penyelesaian Alur Kerja, dan data kustomisasi diperbarui di tabel DynamoDB. Fungsi ini juga menyimpan terjemahan yang dikoreksi di bawah awalan pasca-edit.

Anda dapat mengamati penyesuaian yang ditambahkan ke translate_parallel_data tabel di konsol DynamoDB.

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Aliran perintah

Fungsi Penyegar Data Paralel dipicu setiap jam oleh peristiwa terjadwal CloudWatch. Fungsi ini memeriksa pembaruan baru di translate_parallel_data tabel, membuat file TMX data paralel baru di Amazon S3 di bawah parallel_data awalan, dan memperbarui komponen data paralel Amazon Translate. Anda dapat memicu fungsi ini secara manual jika Anda tidak ingin menunggu pemicu acara terjadwal.

Anda dapat mengamati data paralel yang diperbarui di konsol Amazon Translate.

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Setelah selesai, status pekerjaan seharusnya Aktif dan nilai untuk Catatan yang diperbarui harus mencerminkan jumlah penyesuaian yang Anda tambahkan (dalam hal ini 1).

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sekarang kita dapat menjalankan pekerjaan terjemahan lagi dengan data yang diperbarui. Picu fungsi Translation Job Invoker lagi untuk mengamati penyesuaian yang ditambahkan ke terjemahan pada iterasi kedua. Amazon Translate sekarang menggunakan data paralel yang disediakan untuk menyesuaikan terjemahan.

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda dapat mengamati perubahan dalam output terjemahan di portal pelabelan. Alih-alih terjemahan default, kami melihat terjemahan yang disesuaikan diterapkan.

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Alur kerja ini membantu menciptakan siklus yang baik untuk terus meningkatkan hasil terjemahan menggunakan fitur kustomisasi Amazon A2I dan Amazon Translate.

Biaya

Dengan Amazon Translate dan Amazon A2I, Anda membayar sesuai pemakaian berdasarkan jumlah karakter teks yang Anda proses dan untuk setiap objek yang ditinjau oleh manusia. Kami menggunakan mode sesuai permintaan DynamoDB untuk contoh ini. DynamoDB menagih Anda untuk pembacaan dan penulisan yang dilakukan pada tabel Anda. Lihat halaman harga untuk Amazon Terjemahan, Amazon A2I, dan Amazon DynamoDB untuk biaya aktual.

Membersihkan

Setelah selesai bereksperimen dengan solusi ini, bersihkan sumber daya Anda dengan menggunakan konsol AWS CloudFormation untuk menghapus semua sumber daya yang diterapkan dalam contoh ini. Ini membantu Anda menghindari biaya berkelanjutan di akun Anda.

Kesimpulan

Anda dapat menggunakan solusi yang disajikan dalam posting ini untuk membangun alur kerja terjemahan multi-bahasa yang menggunakan dan menambah kustomisasi khusus domain secara bertahap untuk terus meningkatkan hasil terjemahan. Kami menyediakan mekanisme sederhana untuk mengintegrasikan aset penyesuaian Anda yang ada dengan layanan AI terkelola seperti Amazon Translate dan Amazon A2I untuk membangun layanan terjemahan yang tangguh untuk aplikasi Anda. Amazon Translate dapat membantu Anda menskalakan solusi ini untuk mendukung lebih dari 5,550 pasangan terjemahan di luar kotak. Amazon A2I dapat membantu Anda berintegrasi dengan mudah dengan pakar linguistik internal Anda atau memanfaatkan tenaga kerja eksternal untuk menskalakan solusi.

Untuk informasi lebih lanjut tentang Amazon Translate, kunjungi Sumber daya Amazon Translate untuk menemukan sumber video dan posting blog, dan merujuk ke FAQ Terjemahan AWS. Silakan bagikan pemikiran Anda dengan kami di bagian komentar, atau di bagian masalah proyek Gudang Github.


Tentang Penulis

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Sathya Balakrishnan adalah Arsitek Pengiriman Pelanggan Senior dalam tim Layanan Profesional di AWS, yang berspesialisasi dalam solusi Data/ML. Dia bekerja dengan klien keuangan federal AS. Dia bersemangat membangun solusi pragmatis untuk memecahkan masalah bisnis pelanggan. Di waktu luangnya, ia menikmati menonton film dan hiking bersama keluarganya.

Bangun alur kerja terjemahan dokumen multi-bahasa dengan kustomisasi khusus domain dan bahasa tertentu PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Paul W.Joireman adalah Arsitek Pengiriman Pelanggan Senior dalam Layanan Profesional di AWS, yang berspesialisasi dalam Migrasi Aplikasi dan bekerja dengan klien keuangan federal AS. Paul senang menciptakan solusi teknologi, bepergian bersama keluarga, dan mendaki di Taman Nasional Shenandoah, selama pendakian selesai di tempat pembuatan bir lokal.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS