Di dunia digital, memberikan informasi dalam bahasa lokal bukanlah hal baru, tetapi bisa menjadi tugas yang membosankan dan mahal. Kemajuan dalam pembelajaran mesin (ML) dan pemrosesan bahasa alami (NLP) telah membuat tugas ini jauh lebih mudah dan lebih murah.
Kami telah melihat peningkatan adopsi ML untuk data multi-bahasa dan beban kerja pemrosesan dokumen. Pelanggan perusahaan dan pemerintah memigrasikan beban kerja terjemahan manual mereka untuk memanfaatkan layanan terjemahan ML otomatis. Amazon Terjemahan adalah terjemahan mesin saraf layanan yang memberikan terjemahan bahasa yang cepat, berkualitas tinggi, dan terjangkau antara beberapa ribu pasangan bahasa yang dapat digunakan untuk tugas terjemahan sinkron (waktu nyata) atau asinkron. Untuk daftar lengkap pasangan terjemahan yang tersedia, lihat Bahasa dan kode bahasa yang didukung.
Pelanggan yang bermigrasi dan memodernisasi beban kerja terjemahan mereka memerlukan kemampuan untuk menyesuaikan terjemahan untuk domain bisnis mereka. Beban kerja penerjemahan mungkin juga memerlukan kemampuan untuk beradaptasi dengan dialek atau penggunaan bahasa daerah. Misalnya, terjemahan bahasa Spanyol dari "lansia" adalah anciano(a) tetapi di Puerto Rico kata envejeciente lebih disukai.
Dalam posting ini, kami mendemonstrasikan cara menggabungkan fitur Active Custom Translation (ACT) Amazon Translate. Kami mengusulkan solusi untuk membuat alur kerja terjemahan dokumen multibahasa dengan penyesuaian khusus domain dan bahasa yang dapat Anda tinjau dan tingkatkan sesuai kebutuhan untuk terus meningkatkan hasil dan menyenangkan pengguna akhir.
Ikhtisar solusi
ACT menghasilkan keluaran terjemahan khusus tanpa perlu membangun dan memelihara model terjemahan khusus. Menggunakan ACT, Amazon Translate akan menggunakan contoh terjemahan pilihan Anda sebagai data paralel untuk menyesuaikan hasil terjemahan Anda, menghilangkan waktu dan biaya yang diperlukan untuk membangun dan melatih model pembelajaran mesin baru.
Solusi yang tercakup dalam posting ini menjelaskan cara membuat alur kerja human-in-the-loop menggunakan Amazon Augmented AI (Amazon A2I) untuk terus meningkatkan terjemahan yang disesuaikan. Amazon A2I menyediakan cara sederhana untuk mengintegrasikan pengawasan manusia ke dalam alur kerja ML Anda, tanpa memerlukan pengalaman ML. Amazon A2I mempermudah pengintegrasian penilaian manusia dan AI ke dalam aplikasi ML apa pun, terlepas dari apakah itu dijalankan di AWS atau di platform lain.
Untuk informasi lebih lanjut lihat Merancang alur kerja ulasan manusia dengan Amazon Translate dan Amazon Augmented AI pos.
Diagram berikut menampilkan aliran perintah dan aliran data dari solusi. Alur perintah menunjukkan urutan logis peristiwa dalam alur kerja. Aliran data menunjukkan bagaimana data dibuat atau digunakan oleh berbagai komponen dalam solusi.
Diagram urutan berikut menunjukkan dua proses terpisah dalam solusi: alur kerja terjemahan (A) dan proses untuk memperbarui data paralel (B).
Alur kerja terjemahan diprakarsai oleh an amazoncloudwatch acara terjadwal yang memulai Penerjemah Job Invoker AWS Lambda fungsi. Fungsi ini membuat pekerjaan terjemahan asinkron di Amazon Translate, meneruskan dokumen untuk diterjemahkan dan lokasi data paralel untuk menyesuaikan terjemahan. Pekerjaan terjemahan membaca data paralel, melakukan terjemahan, dan menulis hasil terjemahan kembali ke Amazon S3 keranjang. Pada tulisan ini, hanya pekerjaan terjemahan asinkron yang dapat menggunakan data paralel.
Saat pekerjaan terjemahan selesai, sebuah peristiwa akan dibuat yang memicu fungsi Lambda Handler Penyelesaian Pekerjaan Terjemahan. Fungsi ini membuat loop alur kerja manusiaโkomponen utama bagian Amazon A2I dari alur kerja.
Peninjau manusia menilai terjemahan dan menerima atau memodifikasi terjemahan. Koreksi apa pun digunakan untuk memperbarui dokumen yang diterjemahkan dan juga ditambahkan ke kamus penyesuaian. Saat peninjauan selesai, peristiwa lain dibuat untuk memicu fungsi Penanganan Penyelesaian Alur Kerja. Fungsi ini menulis kembali dokumen terjemahan terbaru ke Amazon S3. Data kustomisasi digunakan untuk memperbarui dan Amazon DynamoDB tabel dengan pasangan teks sumber dan terjemahan.
Untuk menutup loop, kita harus menggabungkan data penyesuaian yang disimpan di DynamoDB ini kembali ke data paralel yang disimpan di Amazon S3. Untuk mencapai hal ini, kami menggunakan peristiwa CloudWatch terjadwal untuk memicu fungsi Parallel Data Refresher, yang membaca data dari tabel DynamoDB, memformat ulangnya sebagai data paralel, dan memperbarui bucket S3, menyimpan data paralel.
Terapkan solusi dengan AWS CloudFormation
Luncurkan yang disediakan Formasi AWS Cloud template untuk menerapkan solusi di akun Anda. Tumpukan ini hanya berfungsi di Wilayah us-east-1. Jika Anda ingin menerapkan solusi ini di Wilayah lain, lihat berikut ini GitHub repo.
- Pilih Luncurkan Stack:
- Ikuti petunjuk untuk mengisi parameter yang diperlukan. Jika Anda menjalankan tumpukan ini untuk pertama kalinya, Email SNS adalah satu-satunya parameter yang diperlukan.
- pada ULASAN halaman, di halaman Kemampuan bagian, pilih kotak centang dan pilih Buat tumpukan.
Tumpukan membuat komponen utama berikut:
- Data penyesuaian โ Sebuah tabel DynamoDB (
translate_parallel_data
) untuk memelihara data kustomisasi. Anda memigrasikan data penyesuaian yang ada ke tabel ini. Tabel ini digunakan untuk terus menambahkan dan memperbarui penyesuaian. - Penyegaran Data Paralel โ Fungsi Lambda untuk mengonversi data penyesuaian dalam tabel DynamoDB ke format data paralelโCSV, TSV, atau TMXโdan menyimpannya di Amazon S3. Ini membuat dan memperbarui data paralel dengan file data paralel baru di Amazon S3.
- Penerjemah Pekerjaan Penerjemah โ Fungsi Lambda untuk memulai pekerjaan batch Amazon Translate dengan data paralel.
- Penangan Penyelesaian Pekerjaan Terjemahan โ Fungsi Lambda ini dipicu saat pekerjaan batch Amazon Translate selesai. Fungsi ini membuat satu loop manusia per dokumen (kami akan menyempurnakan ini di masa mendatang untuk membuat loop manusia hanya untuk persentase tertentu dari dokumen yang diproses). Ini menggunakan dokumen asli dan terjemahan untuk membuat lingkaran manusia.
- Template khusus Amazon A2I โ Template ini digunakan untuk merender pasangan terjemahan untuk tinjauan manusia. Template memiliki Add pilihan untuk setiap segmen terjemahan. Pengguna dapat memilih opsi ini untuk menambahkan koreksi ke data penyesuaian. Data kustomisasi baru digunakan dalam pekerjaan terjemahan batch berikutnya.
- Handler Penyelesaian Alur Kerja โ Fungsi Lambda ini dipicu saat alur kerja manusia selesai. Fungsi memperbarui dokumen yang diterjemahkan dengan koreksi dan memeriksa pembaruan data paralel. Data paralel baru ditambahkan ke tabel DynamoDB.
- Tim pribadi Amazon A2I โ Tim pribadi Amazon A2I dibuat dengan pekerja manusia menggunakan email yang disediakan. Kredensial awal dikirim melalui email setelah berhasil membuat tim pribadi. Anda menggunakan email dan kredensial ini untuk masuk ke portal pekerja Amazon A2I.
Uji solusinya
Grafik sample_text.txt
file akan dibuat di bawah awalan input dari ember S3 yang dibuat oleh tumpukan. Kami menggunakan file ini untuk pengujian kami. Ini berisi konten berikut:
Untuk menguji solusi, selesaikan langkah-langkah berikut:
- Aktifkan fungsi Translation Job Invoker secara manual, atau tunggu hingga dipicu oleh CloudWatch berdasarkan jadwal cron yang Anda tentukan.
Fungsi ini memicu pekerjaan batch Amazon Translate. Anda dapat mengamati kemajuan pekerjaan di konsol Amazon Translate.
Pekerjaan batch ini membutuhkan waktu sekitar 30 menit untuk diselesaikan. Setelah selesai,TextTranslationJob
peristiwa perubahan status memicu fungsi Penangan Penyelesaian Pekerjaan Terjemahan. Fungsi ini membuat satu loop manusia per dokumen yang diterjemahkan. - Arahkan ke folder Tenaga kerja Amazon A2I .
- Pilih Swasta Tab.
- Masuk ke portal pekerja Amazon A2I dengan memilih tautan untuk Memberi label pada URL masuk portal.
- Pilih tugas
Human review task
dalam daftar pekerjaan. - Pilih Mulai bekerja.
Anda dapat melihat halaman berikut ditampilkan. - Ikuti petunjuk untuk melakukan koreksi khusus domain dan bahasa.
Pada tangkapan layar sebelumnya, frasa โPenggunaan status kesehatan dalam polis asuransi kesehatan grup mana pun dilarang oleh hukumโ telah diterjemahkan menjadi โLa ley prohรญbe el uso del estado de salud en cualquier pรณliza de seguro mรฉdico de grupo.โ Meskipun terjemahannya akurat, frasa-frasanya telah diatur ulang. - Mari kita ubah ini menjadi โEl uso del estado de salud en cualquier pรณliza de seguro de salud grupal estรก prohibido por leyโ untuk membuat terjemahan ini lebih langsung mencerminkan ungkapan asli.
- Pilih Add untuk menambahkan ini ke kamus.
- Setelah selesai, pilih Kirim.
Ini memicu fungsi Penanganan Penyelesaian Alur Kerja, dan data kustomisasi diperbarui di tabel DynamoDB. Fungsi ini juga menyimpan terjemahan yang dikoreksi di bawah awalan pasca-edit.
Anda dapat mengamati penyesuaian yang ditambahkan ke translate_parallel_data
tabel di konsol DynamoDB.
Aliran perintah
Fungsi Penyegar Data Paralel dipicu setiap jam oleh peristiwa terjadwal CloudWatch. Fungsi ini memeriksa pembaruan baru di translate_parallel_data
tabel, membuat file TMX data paralel baru di Amazon S3 di bawah parallel_data
awalan, dan memperbarui komponen data paralel Amazon Translate. Anda dapat memicu fungsi ini secara manual jika Anda tidak ingin menunggu pemicu acara terjadwal.
Anda dapat mengamati data paralel yang diperbarui di konsol Amazon Translate.
Setelah selesai, status pekerjaan seharusnya Aktif dan nilai untuk Catatan yang diperbarui harus mencerminkan jumlah penyesuaian yang Anda tambahkan (dalam hal ini 1).
Sekarang kita dapat menjalankan pekerjaan terjemahan lagi dengan data yang diperbarui. Picu fungsi Translation Job Invoker lagi untuk mengamati penyesuaian yang ditambahkan ke terjemahan pada iterasi kedua. Amazon Translate sekarang menggunakan data paralel yang disediakan untuk menyesuaikan terjemahan.
Anda dapat mengamati perubahan dalam output terjemahan di portal pelabelan. Alih-alih terjemahan default, kami melihat terjemahan yang disesuaikan diterapkan.
Alur kerja ini membantu menciptakan siklus yang baik untuk terus meningkatkan hasil terjemahan menggunakan fitur kustomisasi Amazon A2I dan Amazon Translate.
Biaya
Dengan Amazon Translate dan Amazon A2I, Anda membayar sesuai pemakaian berdasarkan jumlah karakter teks yang Anda proses dan untuk setiap objek yang ditinjau oleh manusia. Kami menggunakan mode sesuai permintaan DynamoDB untuk contoh ini. DynamoDB menagih Anda untuk pembacaan dan penulisan yang dilakukan pada tabel Anda. Lihat halaman harga untuk Amazon Terjemahan, Amazon A2I, dan Amazon DynamoDB untuk biaya aktual.
Membersihkan
Setelah selesai bereksperimen dengan solusi ini, bersihkan sumber daya Anda dengan menggunakan konsol AWS CloudFormation untuk menghapus semua sumber daya yang diterapkan dalam contoh ini. Ini membantu Anda menghindari biaya berkelanjutan di akun Anda.
Kesimpulan
Anda dapat menggunakan solusi yang disajikan dalam posting ini untuk membangun alur kerja terjemahan multi-bahasa yang menggunakan dan menambah kustomisasi khusus domain secara bertahap untuk terus meningkatkan hasil terjemahan. Kami menyediakan mekanisme sederhana untuk mengintegrasikan aset penyesuaian Anda yang ada dengan layanan AI terkelola seperti Amazon Translate dan Amazon A2I untuk membangun layanan terjemahan yang tangguh untuk aplikasi Anda. Amazon Translate dapat membantu Anda menskalakan solusi ini untuk mendukung lebih dari 5,550 pasangan terjemahan di luar kotak. Amazon A2I dapat membantu Anda berintegrasi dengan mudah dengan pakar linguistik internal Anda atau memanfaatkan tenaga kerja eksternal untuk menskalakan solusi.
Untuk informasi lebih lanjut tentang Amazon Translate, kunjungi Sumber daya Amazon Translate untuk menemukan sumber video dan posting blog, dan merujuk ke FAQ Terjemahan AWS. Silakan bagikan pemikiran Anda dengan kami di bagian komentar, atau di bagian masalah proyek Gudang Github.
Tentang Penulis
Sathya Balakrishnan adalah Arsitek Pengiriman Pelanggan Senior dalam tim Layanan Profesional di AWS, yang berspesialisasi dalam solusi Data/ML. Dia bekerja dengan klien keuangan federal AS. Dia bersemangat membangun solusi pragmatis untuk memecahkan masalah bisnis pelanggan. Di waktu luangnya, ia menikmati menonton film dan hiking bersama keluarganya.
Paul W.Joireman adalah Arsitek Pengiriman Pelanggan Senior dalam Layanan Profesional di AWS, yang berspesialisasi dalam Migrasi Aplikasi dan bekerja dengan klien keuangan federal AS. Paul senang menciptakan solusi teknologi, bepergian bersama keluarga, dan mendaki di Taman Nasional Shenandoah, selama pendakian selesai di tempat pembuatan bir lokal.
- Lanjutan (300)
- AI
- ai seni
- generator seni ai
- punya robot
- Amazon Terjemahan
- kecerdasan buatan
- sertifikasi kecerdasan buatan
- kecerdasan buatan dalam perbankan
- robot kecerdasan buatan
- robot kecerdasan buatan
- perangkat lunak kecerdasan buatan
- Pembelajaran Mesin AWS
- blockchain
- konferensi blockchain
- kecerdasan
- kecerdasan buatan percakapan
- konferensi kripto
- dall's
- belajar mendalam
- google itu
- Mesin belajar
- plato
- plato ai
- Kecerdasan Data Plato
- Permainan Plato
- Data Plato
- permainan plato
- skala ai
- sintaksis
- zephyrnet.dll