Selami Deep Learning (D2L.ai) adalah buku teks sumber terbuka yang menjadikan pembelajaran mendalam dapat diakses oleh semua orang. Ini menampilkan notebook Jupyter interaktif dengan kode mandiri di PyTorch, JAX, TensorFlow, dan MXNet, serta contoh dunia nyata, figur eksposisi, dan matematika. Sejauh ini, D2L telah diadopsi oleh lebih dari 400 universitas di seluruh dunia, seperti University of Cambridge, Stanford University, Massachusetts Institute of Technology, Carnegie Mellon University, dan Tsinghua University. Karya ini juga tersedia dalam bahasa China, Jepang, Korea, Portugis, Turki, dan Vietnam, dengan rencana untuk meluncurkan bahasa Spanyol dan bahasa lainnya.
Merupakan upaya yang menantang untuk memiliki buku online yang terus diperbarui, ditulis oleh banyak penulis, dan tersedia dalam berbagai bahasa. Dalam posting ini, kami menyajikan solusi yang digunakan D2L.ai untuk mengatasi tantangan ini dengan menggunakan Fitur Active Custom Translation (ACT). of Amazon Terjemahan dan membangun saluran terjemahan otomatis multibahasa.
Kami mendemonstrasikan cara menggunakan Konsol Manajemen AWS dan API publik Amazon Translate untuk mengirimkan terjemahan batch mesin otomatis, dan menganalisis terjemahan antara dua pasangan bahasa: Inggris dan China, serta Inggris dan Spanyol. Kami juga merekomendasikan praktik terbaik saat menggunakan Amazon Translate dalam saluran terjemahan otomatis ini untuk memastikan kualitas dan efisiensi terjemahan.
Ikhtisar solusi
Kami membuat pipeline terjemahan otomatis untuk berbagai bahasa menggunakan fitur ACT di Amazon Translate. ACT memungkinkan Anda menyesuaikan hasil terjemahan dengan cepat dengan memberikan contoh terjemahan yang disesuaikan dalam bentuk data paralel. Data paralel terdiri dari kumpulan contoh tekstual dalam bahasa sumber dan terjemahan yang diinginkan dalam satu atau lebih bahasa sasaran. Selama penerjemahan, ACT secara otomatis memilih segmen yang paling relevan dari data paralel dan memperbarui model terjemahan dengan cepat berdasarkan pasangan segmen tersebut. Ini menghasilkan terjemahan yang lebih cocok dengan gaya dan konten data paralel.
Arsitekturnya berisi banyak sub-pipa; setiap sub-pipa menangani satu terjemahan bahasa seperti Inggris ke Mandarin, Inggris ke Spanyol, dan seterusnya. Beberapa subpipa terjemahan dapat diproses secara paralel. Di setiap sub-pipa, pertama-tama kami membuat data paralel di Amazon Translate menggunakan kumpulan data berkualitas tinggi dari contoh terjemahan berekor dari buku D2L yang diterjemahkan manusia. Kemudian kami menghasilkan keluaran terjemahan mesin yang disesuaikan dengan cepat pada waktu proses, yang mencapai kualitas dan akurasi yang lebih baik.
Di bagian berikut, kami mendemonstrasikan cara membuat setiap pipeline terjemahan menggunakan Amazon Translate dengan ACT, beserta Amazon SageMaker dan Layanan Penyimpanan Sederhana Amazon (Amazon S3).
Pertama, kami menempatkan dokumen sumber, dokumen referensi, dan pelatihan data paralel yang diatur dalam wadah S3. Kemudian kami membuat notebook Jupyter di SageMaker untuk menjalankan proses penerjemahan menggunakan API publik Amazon Translate.
Prasyarat
Untuk mengikuti langkah-langkah dalam postingan ini, pastikan Anda memiliki akun AWS dengan yang berikut ini:
- Akses ke Identitas AWS dan Manajemen Akses (IAM) untuk konfigurasi peran dan kebijakan
- Akses ke Amazon Translate, SageMaker, dan Amazon S3
- Bucket S3 untuk menyimpan dokumen sumber, dokumen referensi, kumpulan data paralel, dan hasil terjemahan
Buat peran dan kebijakan IAM untuk Amazon Translate dengan ACT
Peran IAM kami harus berisi kebijakan kepercayaan khusus untuk Amazon Translate:
Peran ini juga harus memiliki kebijakan izin yang memberikan akses baca Amazon Translate ke folder input dan subfolder di Amazon S3 yang berisi dokumen sumber, dan akses baca/tulis ke bucket dan folder S3 output yang berisi dokumen yang diterjemahkan:
Untuk menjalankan notebook Jupyter di SageMaker untuk tugas terjemahan, kita perlu memberikan kebijakan izin sebaris ke peran eksekusi SageMaker. Peran ini meneruskan peran layanan Amazon Translate ke SageMaker yang memungkinkan notebook SageMaker memiliki akses ke sumber dan menerjemahkan dokumen dalam bucket S3 yang ditentukan:
Siapkan sampel pelatihan data paralel
Data paralel dalam ACT perlu dilatih oleh file input yang terdiri dari daftar pasangan contoh tekstual, misalnya pasangan bahasa sumber (Inggris) dan bahasa target (Cina). File input dapat dalam format TMX, CSV, atau TSV. Tangkapan layar berikut menunjukkan contoh file input CSV. Kolom pertama adalah data bahasa sumber (dalam bahasa Inggris), dan kolom kedua adalah data bahasa sasaran (dalam bahasa Cina). Contoh berikut diambil dari buku D2L-en dan buku D2L-zh.
Lakukan pelatihan data paralel khusus di Amazon Translate
Pertama, kami menyiapkan bucket dan folder S3 seperti yang ditunjukkan pada tangkapan layar berikut. Itu source_data
folder berisi dokumen sumber sebelum diterjemahkan; dokumen yang dihasilkan setelah terjemahan batch diletakkan di folder keluaran. Itu ParallelData
folder menyimpan file input data paralel yang disiapkan pada langkah sebelumnya.
Setelah mengunggah file input ke source_data
folder, kita dapat menggunakan Buat ParallelData API untuk menjalankan tugas pembuatan data paralel di Amazon Translate:
Untuk memperbarui data paralel yang ada dengan dataset pelatihan baru, kita dapat menggunakan PerbaruiParallelData API:
S3_BUCKET = โYOUR-S3_BUCKET-NAMEโ
pd_name = โpd-d2l-short_test_sentence_enzh_allโ
pd_description = โParallel Data for English to Chineseโ
pd_fn = โd2l_short_test_sentence_enzh_all.csvโ
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Kami dapat memeriksa kemajuan tugas pelatihan di konsol Amazon Translate. Saat pekerjaan selesai, status data paralel ditampilkan sebagai Aktif dan siap untuk digunakan.
Jalankan terjemahan batch yang tidak tersinkronisasi menggunakan data paralel
Terjemahan batch dapat dilakukan dalam proses di mana banyak dokumen sumber diterjemahkan secara otomatis ke dalam dokumen dalam bahasa target. Prosesnya melibatkan pengunggahan dokumen sumber ke folder input bucket S3, lalu menerapkan API MulaiTeksTranslasiJob Amazon Translate untuk memulai pekerjaan terjemahan yang tidak tersinkronisasi:
Kami memilih lima dokumen sumber dalam bahasa Inggris dari buku D2L (D2L-en) untuk terjemahan massal. Di konsol Amazon Translate, kami dapat memantau kemajuan pekerjaan terjemahan. Ketika status pekerjaan berubah menjadi Lengkap, kita dapat menemukan dokumen terjemahan dalam bahasa Mandarin (D2L-zh) di folder keluaran bucket S3.
Evaluasi kualitas terjemahan
Untuk mendemonstrasikan keefektifan fitur ACT di Amazon Translate, kami juga menerapkan metode tradisional terjemahan real-time Amazon Translate tanpa data paralel untuk memproses dokumen yang sama, dan membandingkan output dengan output terjemahan batch dengan ACT. Kami menggunakan skor BLEU (BiLingual Evaluation Understudy) untuk membandingkan kualitas terjemahan antara kedua metode tersebut. Satu-satunya cara untuk mengukur kualitas hasil terjemahan mesin secara akurat adalah dengan meminta tinjauan pakar dan menilai kualitasnya. Namun, BLEU memberikan perkiraan peningkatan kualitas relatif antara dua output. Skor BLEU biasanya berupa angka antara 0โ1; itu menghitung kesamaan terjemahan mesin dengan referensi terjemahan manusia. Skor yang lebih tinggi menunjukkan kualitas yang lebih baik dalam pemahaman bahasa alami (NLU).
Kami telah menguji satu set dokumen dalam empat alur: Bahasa Inggris ke Bahasa Mandarin (en to zh), Bahasa Mandarin ke Bahasa Inggris (zh to en), Bahasa Inggris ke Bahasa Spanyol (en to es), dan Bahasa Spanyol ke Bahasa Inggris (es to en). Gambar berikut menunjukkan bahwa terjemahan dengan ACT menghasilkan skor BLEU rata-rata yang lebih tinggi di semua saluran terjemahan.
Kami juga mengamati bahwa semakin terperinci pasangan data paralel, semakin baik kinerja terjemahannya. Sebagai contoh, kami menggunakan file input data paralel berikut dengan pasangan paragraf, yang berisi 10 entri.
Untuk konten yang sama, kami menggunakan file input data paralel berikut dengan pasangan kalimat dan 16 entri.
Kami menggunakan kedua file input data paralel untuk membuat dua entitas data paralel di Amazon Translate, lalu membuat dua tugas terjemahan batch dengan dokumen sumber yang sama. Gambar berikut membandingkan terjemahan output. Hal ini menunjukkan bahwa output yang menggunakan data paralel dengan pasangan kalimat mengungguli output yang menggunakan data paralel dengan pasangan paragraf, untuk terjemahan bahasa Inggris ke bahasa Mandarin dan terjemahan bahasa Mandarin ke bahasa Inggris.
Jika Anda tertarik untuk mempelajari lebih lanjut tentang analisis tolok ukur ini, lihat Terjemahan Mesin Otomatis dan Sinkronisasi untuk "Menyelam ke Deep Learning".
Membersihkan
Untuk menghindari biaya berulang di masa mendatang, sebaiknya bersihkan sumber daya yang Anda buat:
- Di konsol Amazon Translate, pilih data paralel yang Anda buat dan pilih Delete. Sebagai alternatif, Anda dapat menggunakan HapusParallelData API atau itu Antarmuka Baris Perintah AWS (AWS CLI) hapus-paralel-data perintah untuk menghapus data paralel.
- Hapus keranjang S3 digunakan untuk menghosting dokumen sumber dan referensi, dokumen terjemahan, dan file input data paralel.
- Hapus peran dan kebijakan IAM. Untuk instruksi, lihat Menghapus peran atau profil instance dan Menghapus kebijakan IAM.
Kesimpulan
Dengan solusi ini, kami bertujuan untuk mengurangi beban kerja penerjemah manusia hingga 80%, dengan tetap menjaga kualitas terjemahan dan mendukung banyak bahasa. Anda dapat menggunakan solusi ini untuk meningkatkan kualitas dan efisiensi terjemahan Anda. Kami sedang bekerja untuk lebih meningkatkan arsitektur solusi dan kualitas terjemahan untuk bahasa lain.
Umpan balik Anda selalu diterima; silakan tinggalkan pemikiran dan pertanyaan Anda di bagian komentar.
Tentang penulis
Yun Fei Bai adalah Arsitek Solusi Senior di AWS. Dengan latar belakang AI/ML, ilmu data, dan analitik, Yunfei membantu pelanggan mengadopsi layanan AWS untuk memberikan hasil bisnis. Dia merancang AI/ML dan solusi analitik data yang mengatasi tantangan teknis yang rumit dan mendorong tujuan strategis. Yunfei memiliki gelar PhD di bidang Teknik Elektronik dan Listrik. Di luar pekerjaan, Yunfei menikmati membaca dan musik.
Rachel Hu adalah ilmuwan terapan di AWS Machine Learning University (MLU). Dia telah memimpin beberapa desain kursus, termasuk ML Operations (MLOps) dan Accelerator Computer Vision. Rachel adalah pembicara senior AWS dan telah berbicara di konferensi teratas termasuk AWS re:Invent, NVIDIA GTC, KDD, dan MLOps Summit. Sebelum bergabung dengan AWS, Rachel bekerja sebagai insinyur pembelajaran mesin yang membuat model pemrosesan bahasa alami. Di luar pekerjaan, dia menikmati yoga, frisbee, membaca, dan bepergian.
Watson Srivathsan adalah Manajer Produk Utama untuk Amazon Translate, layanan pemrosesan bahasa alami AWS. Di akhir pekan, Anda akan menemukannya menjelajahi alam bebas di Pacific Northwest.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Keuangan EVM. Antarmuka Terpadu untuk Keuangan Terdesentralisasi. Akses Di Sini.
- Grup Media Kuantum. IR/PR Diperkuat. Akses Di Sini.
- PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :memiliki
- :adalah
- :Di mana
- $NAIK
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- Tentang Kami
- akselerator
- mengakses
- dapat diakses
- Akun
- ketepatan
- akurat
- Mencapai
- Bertindak
- Tindakan
- aktif
- alamat
- mengambil
- diadopsi
- Setelah
- AI
- AI / ML
- tujuan
- Semua
- mengizinkan
- memungkinkan
- sepanjang
- juga
- selalu
- Amazon
- Amazon Terjemahan
- Amazon Web Services
- an
- Analisis
- analisis
- menganalisa
- dan
- Lebah
- terapan
- Menerapkan
- arsitektur
- ADALAH
- sekitar
- AS
- At
- penulis
- mobil
- secara otomatis
- secara otomatis
- tersedia
- rata-rata
- menghindari
- AWS
- Pembelajaran Mesin AWS
- AWS re: Temukan
- latar belakang
- berdasarkan
- BE
- menjadi
- sebelum
- patokan
- TERBAIK
- Praktik Terbaik
- Lebih baik
- antara
- Book
- Buku-buku
- kedua
- membangun
- Bangunan
- dibangun di
- bisnis
- by
- menghitung
- cambridge
- CAN
- Carnegie Mellon
- menantang
- tantangan
- menantang
- Perubahan
- memeriksa
- Cina
- Pilih
- kode
- koleksi
- Kolom
- COM
- komentar
- dibandingkan
- lengkap
- kompleks
- komputer
- Visi Komputer
- dilakukan
- konferensi
- Terdiri dari
- terdiri
- konsul
- membangun
- mengandung
- mengandung
- Konten
- terus menerus
- Biaya
- Kelas
- dibuat
- penciptaan
- adat
- pelanggan
- menyesuaikan
- disesuaikan
- data
- Data Analytics
- ilmu data
- kumpulan data
- Tanggal
- mendalam
- belajar mendalam
- didefinisikan
- menyampaikan
- mendemonstrasikan
- deskripsi
- ditunjuk
- desain
- diinginkan
- dokumen
- dokumen
- mendorong
- selama
- setiap
- efek
- efektivitas
- efisiensi
- Elektronik
- berusaha keras
- insinyur
- Teknik
- Inggris
- memastikan
- entitas
- memperkirakan
- evaluasi
- semua orang
- contoh
- contoh
- eksekusi
- ada
- ahli
- Menjelajahi
- jauh
- Fitur
- Fitur
- umpan balik
- beberapa
- Angka
- angka-angka
- File
- File
- Menemukan
- Pertama
- mengikuti
- berikut
- Untuk
- bentuk
- format
- empat
- dari
- lebih lanjut
- masa depan
- menghasilkan
- dihasilkan
- kelas
- memberikan
- beasiswa
- Menangani
- Memiliki
- he
- membantu
- berkualitas tinggi
- lebih tinggi
- dia
- memegang
- tuan rumah
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- Namun
- HTML
- http
- HTTPS
- manusia
- identitas
- memperbaiki
- perbaikan
- meningkatkan
- in
- Termasuk
- memulai
- memasukkan
- contoh
- Lembaga
- instruksi
- interaktif
- tertarik
- ke
- IT
- Jepang
- Pekerjaan
- Jobs
- bergabung
- jpg
- terus
- Korea
- bahasa
- Bahasa
- jalankan
- terkemuka
- pengetahuan
- Meninggalkan
- baris
- Daftar
- mesin
- Mesin belajar
- terbuat
- mempertahankan
- membuat
- MEMBUAT
- pengelolaan
- manajer
- massachusetts
- Institut Teknologi Massachusetts
- Cocok
- matematika
- mengukur
- Mellon
- metode
- metode
- ML
- MLOps
- model
- model
- Memantau
- lebih
- paling
- beberapa
- musik
- harus
- nama
- Alam
- Pengolahan Bahasa alami
- Perlu
- kebutuhan
- New
- jumlah
- Nvidia
- target
- of
- on
- ONE
- secara online
- hanya
- open source
- Operasi
- or
- Lainnya
- di luar rumah
- keluaran
- di luar
- Mengatasi
- Pasifik
- pasangan
- pasang
- Paralel
- melewati
- prestasi
- izin
- Izin
- pipa saluran
- rencana
- plato
- Kecerdasan Data Plato
- Data Plato
- silahkan
- Kebijakan
- kebijaksanaan
- Portugis
- Pos
- praktek
- siap
- menyajikan
- sebelumnya
- Utama
- proses
- Diproses
- pengolahan
- Diproduksi
- Produk
- manajer produk
- Kemajuan
- menyediakan
- menyediakan
- publik
- menempatkan
- pytorch
- kualitas
- Pertanyaan
- RE
- Baca
- Bacaan
- siap
- dunia nyata
- real-time
- sarankan
- berulang
- menurunkan
- relatif
- relevan
- merupakan
- sumber
- Sumber
- tanggapan
- Hasil
- ulasan
- Peran
- peran
- Run
- pembuat bijak
- sama
- Ilmu
- ilmuwan
- skor
- Kedua
- Bagian
- bagian
- ruas
- segmen
- terpilih
- senior
- layanan
- Layanan
- set
- dia
- ditunjukkan
- Pertunjukkan
- Sederhana
- So
- sejauh ini
- larutan
- Solusi
- sumber
- Spanyol
- Pembicara
- lisan
- Stanford
- Universitas Stanford
- Pernyataan
- Status
- Langkah
- Tangga
- penyimpanan
- menyimpan
- Strategis
- gaya
- seperti itu
- Puncak
- pendukung
- sinkronisasi
- disesuaikan
- target
- Teknis
- Teknologi
- tensorflow
- diuji
- buku pelajaran
- dari
- bahwa
- Grafik
- Masa depan
- Sumber
- Dunia
- kemudian
- Ini
- ini
- itu
- waktu
- untuk
- puncak
- tradisional
- terlatih
- Pelatihan
- menterjemahkan
- Terjemahan
- Perjalanan
- Kepercayaan
- Tsinghua
- Turki
- dua
- khas
- terakhir
- pemahaman
- Universitas
- universitas
- Universitas Cambridge
- Memperbarui
- diperbarui
- Pembaruan
- Mengunggah
- menggunakan
- bekas
- menggunakan
- versi
- Vietnam
- penglihatan
- Watson
- Cara..
- we
- jaringan
- layanan web
- selamat datang
- BAIK
- ketika
- yang
- sementara
- akan
- dengan
- tanpa
- Kerja
- bekerja
- kerja
- dunia
- tertulis
- Yoga
- Kamu
- Anda
- zephyrnet.dll