Perusahaan di berbagai industri membuat, memindai, dan menyimpan dokumen PDF dalam jumlah besar. Dalam banyak kasus, kontennya padat teks dan sering kali ditulis dalam bahasa yang berbeda dan memerlukan terjemahan. Untuk mengatasinya, Anda memerlukan solusi otomatis untuk mengekstrak konten di dalam PDF ini dan menerjemahkannya dengan cepat dan hemat biaya.
Banyak bisnis memiliki pengguna global yang beragam dan perlu menerjemahkan teks untuk mengaktifkan komunikasi lintas bahasa di antara mereka. Ini adalah upaya manusia yang manual, lambat, dan mahal. Ada kebutuhan untuk menemukan solusi yang dapat diskalakan, andal, dan hemat biaya untuk menerjemahkan dokumen sambil mempertahankan pemformatan dokumen asli.
Untuk vertikal seperti perawatan kesehatan, karena persyaratan peraturan, dokumen yang diterjemahkan memerlukan manusia tambahan dalam lingkaran untuk memverifikasi validitas dokumen yang diterjemahkan mesin.
Jika dokumen yang diterjemahkan tidak mempertahankan format dan struktur asli, maka akan kehilangan konteksnya. Hal ini dapat menyulitkan peninjau manusia untuk memvalidasi dan melakukan koreksi.
Dalam posting ini, kami mendemonstrasikan cara membuat PDF terjemahan baru dari PDF yang dipindai sambil mempertahankan struktur dan pemformatan dokumen asli menggunakan pendekatan berbasis geometri dengan Teks Amazon, Amazon Terjemahan, dan Kotak PDF Apache.
Ikhtisar solusi
Solusi yang disajikan dalam posting ini menggunakan komponen berikut:
- Teks Amazon โ Layanan pembelajaran mesin (ML) yang dikelola sepenuhnya yang secara otomatis mengekstrak teks cetak, tulisan tangan, dan data lain dari dokumen yang dipindai yang melampaui pengenalan karakter optik (OCR) sederhana untuk mengidentifikasi, memahami, dan mengekstrak data dari formulir dan tabel. Amazon Texttract dapat mendeteksi teks dalam berbagai dokumen, termasuk laporan keuangan, rekam medis, dan formulir pajak.
- Amazon Terjemahan โ Layanan terjemahan mesin saraf yang memberikan terjemahan bahasa yang cepat, berkualitas tinggi, dan terjangkau. Amazon Translate menyediakan kemampuan terjemahan sesuai permintaan dan batch berkualitas tinggi di lebih dari 2,970 pasangan bahasa, sekaligus mengurangi biaya terjemahan Anda.
- Terjemahan PDF โ Pustaka open-source yang ditulis dalam Java dan diterbitkan pada Sampel AWS di GitHub. Pustaka ini berisi logika untuk menghasilkan dokumen PDF terjemahan dalam bahasa yang Anda inginkan dengan Amazon Texttract dan Amazon Translate. Itu juga menggunakan pustaka Java open-source Apache PDFBox untuk membuat dokumen PDF. Ada pustaka pemrosesan PDF serupa yang tersedia dalam bahasa pemrograman lain, misalnya Kotak PDF Node.
Saat melakukan terjemahan mesin, Anda mungkin mengalami situasi di mana Anda ingin mempertahankan bagian teks tertentu agar tidak diterjemahkan, seperti nama atau pengidentifikasi unik. Amazon Translate memungkinkan modifikasi tag, yang memungkinkan Anda menentukan teks mana yang tidak boleh diterjemahkan. Amazon Translate juga mendukung penyesuaian formalitas, yang memungkinkan Anda menyesuaikan tingkat formalitas dalam hasil terjemahan Anda.
Untuk detail tentang batas Amazon Texttract, lihat Kuota di Amazon Textract.
Solusinya terbatas pada bahasa yang dapat diekstraksi oleh Amazon Texttract, yang saat ini mendukung bahasa Inggris, Spanyol, Italia, Portugis, Prancis, dan Jerman. Bahasa ini juga didukung oleh Amazon Translate. Untuk daftar lengkap bahasa yang didukung oleh Amazon Translate, lihat Bahasa dan kode bahasa yang didukung.
Kami menggunakan PDF berikut untuk mendemonstrasikan penerjemahan teks dari bahasa Inggris ke bahasa Spanyol. Solusinya juga mendukung pembuatan dokumen terjemahan tanpa pemformatan apa pun. Posisi teks terjemahan dipertahankan. Sumber dan dokumen PDF terjemahan juga dapat ditemukan di AWS Contoh Repo GitHub.
Di bagian berikut, kami mendemonstrasikan cara menjalankan kode terjemahan di mesin lokal dan melihat kode terjemahan secara lebih mendetail.
Prasyarat
Sebelum memulai, atur akun AWS Anda dan Antarmuka Baris Perintah AWS (AWS CLI). Untuk akses ke Layanan AWS apa pun seperti Textract dan Terjemahan, diperlukan izin IAM yang sesuai. Kami merekomendasikan untuk menggunakan izin hak istimewa paling rendah. Untuk mempelajari lebih lanjut tentang izin IAM, lihat Kebijakan dan izin di IAM dan juga Bagaimana Amazon Texttract bekerja dengan IAM dan Cara kerja Amazon Translate dengan IAM.
Jalankan kode terjemahan di mesin lokal
Solusi ini berfokus pada kode Java mandiri untuk mengekstrak dan menerjemahkan dokumen PDF. Ini untuk pengujian dan penyesuaian yang lebih mudah untuk mendapatkan dokumen PDF terjemahan terbaik. Kode kemudian dapat diintegrasikan ke dalam solusi otomatis untuk diterapkan dan dijalankan di AWS. Melihat Menerjemahkan dokumen PDF menggunakan Amazon Translate dan Amazon Textract untuk contoh arsitektur yang menggunakan Layanan Penyimpanan Sederhana Amazon (Amazon S3) untuk menyimpan dokumen dan AWS Lambda untuk menjalankan kode.
Untuk menjalankan kode di komputer lokal, selesaikan langkah-langkah berikut. Contoh kode tersedia di Repo GitHub.
- Klon repo GitHub:
- Jalankan perintah berikut:
- Jalankan perintah berikut untuk menerjemahkan dari bahasa Inggris ke bahasa Spanyol:
Dua dokumen PDF terjemahan dibuat di folder dokumen, dengan dan tanpa pemformatan asli (SampleOutput-es.pdf
dan SampleOutput-min-es.pdf
).
Kode untuk menghasilkan PDF yang diterjemahkan
Cuplikan kode berikut menunjukkan cara mengambil dokumen PDF dan membuat dokumen PDF terjemahan yang sesuai. Itu mengekstrak teks menggunakan Amazon Texttract dan membuat PDF terjemahan dengan menambahkan teks terjemahan sebagai lapisan ke gambar. Itu dibangun di atas solusi yang ditunjukkan di pos Menghasilkan PDF yang dapat dicari dari dokumen yang dipindai secara otomatis dengan Amazon Textract.
Kode pertama mendapatkan setiap baris teks dengan Amazon Textract. Amazon Translate digunakan untuk mendapatkan teks terjemahan dan menyimpan geometri teks terjemahan.
Ukuran font dihitung sebagai berikut dan dapat dikonfigurasi dengan mudah:
PDF yang diterjemahkan dibuat dari geometri yang disimpan dan teks yang diterjemahkan. Perubahan warna teks terjemahan dapat dikonfigurasi dengan mudah.
Gambar berikut menunjukkan dokumen yang diterjemahkan ke dalam bahasa Spanyol dengan format aslinya (SampleOutput-es.pdf
).
Gambar berikut menunjukkan PDF yang diterjemahkan dalam bahasa Spanyol tanpa pemformatan apa pun (SampleOutput-min-es.pdf
).
Waktu memproses
Aplikasi ketenagakerjaan pdf membutuhkan waktu sekitar 10 detik untuk mengekstrak, memproses, dan merender pdf terjemahan. Waktu pemrosesan untuk dokumen berat teks seperti Deklarasi Kemerdekaan PDF membutuhkan waktu kurang dari satu menit.
Biaya
Dengan Amazon Textract, Anda membayar sesuai pemakaian berdasarkan jumlah halaman dan gambar yang diproses. Dengan Amazon Translate, Anda membayar sesuai penggunaan berdasarkan jumlah karakter teks yang diproses. Mengacu pada Harga Amazon Textract dan Harga Amazon Translate untuk biaya aktual.
Kesimpulan
Posting ini menunjukkan cara menggunakan Amazon Texttract dan Amazon Translate untuk menghasilkan dokumen PDF terjemahan sambil mempertahankan struktur dokumen asli. Secara opsional, Anda dapat memposting hasil Amazon Texttract untuk meningkatkan kualitas terjemahan, misalnya kata yang diekstraksi dapat diteruskan melalui pemeriksaan ejaan berbasis ML seperti SymSpell untuk validasi data, atau algoritma pengelompokan dapat digunakan untuk mempertahankan urutan pembacaan. Anda juga bisa menggunakan Amazon Augmented AI (Amazon A2I) untuk membangun alur kerja tinjauan manusia di mana Anda dapat menggunakan tenaga kerja pribadi Anda sendiri untuk meninjau dokumen PDF asli dan terjemahan untuk memberikan akurasi dan konteks yang lebih baik. Melihat Merancang alur kerja ulasan manusia dengan Amazon Translate dan Amazon Augmented AI dan Membangun alur kerja terjemahan dokumen multibahasa dengan penyesuaian khusus domain dan khusus bahasa untuk memulai.
Tentang Penulis
Anubha Singhal adalah Senior Cloud Architect di Amazon Web Services di organisasi AWS Professional Services.
Sean Lawrence sebelumnya adalah Front End Engineer di AWS. Dia berspesialisasi dalam pengembangan ujung depan di organisasi Layanan Profesional AWS dan tim Privasi Amazon.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Otomotif / EV, Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- BlockOffset. Modernisasi Kepemilikan Offset Lingkungan. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :adalah
- :bukan
- :Di mana
- $NAIK
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Tentang Kami
- mengakses
- Akun
- ketepatan
- di seluruh
- sebenarnya
- menambahkan
- Tambahan
- alamat
- terjangkau
- algoritma
- memungkinkan
- juga
- Amazon
- Teks Amazon
- Amazon Terjemahan
- Amazon Web Services
- an
- dan
- Apa pun
- Apache
- Aplikasi
- pendekatan
- sesuai
- arsitektur
- ADALAH
- AS
- At
- ditambah
- Otomatis
- secara otomatis
- tersedia
- AWS
- Layanan Profesional AWS
- berdasarkan
- BE
- makhluk
- antara
- Luar
- Black
- Memblokir
- Blok
- Kotak
- membangun
- membangun
- bisnis
- by
- dihitung
- CAN
- kemampuan
- kasus
- Perubahan
- karakter
- pengenalan karakter
- karakter
- awan
- kekelompokan
- kode
- warna
- Komunikasi
- lengkap
- dikonfigurasi
- mengandung
- Konten
- isi
- konteks
- Koreksi
- Sesuai
- hemat biaya
- Biaya
- membuat
- dibuat
- menciptakan
- Sekarang
- kustomisasi
- menyesuaikan
- data
- memberikan
- mendemonstrasikan
- menyebarkan
- diinginkan
- rinci
- rincian
- Pengembangan
- berbeda
- sulit
- beberapa
- dokumen
- dokumen
- Tidak
- dua
- setiap
- mudah
- mudah
- usaha
- lain
- pekerjaan
- aktif
- akhir
- insinyur
- Inggris
- contoh
- contoh
- mahal
- ekstrak
- Ekstrak
- palsu
- FAST
- mengisi
- keuangan
- Menemukan
- Pertama
- Mengapung
- berfokus
- berikut
- berikut
- Untuk
- dahulu
- bentuk
- ditemukan
- Perancis
- dari
- depan
- Ujung depan
- Pengembangan ujung depan
- penuh
- sepenuhnya
- menghasilkan
- menghasilkan
- Jerman
- mendapatkan
- GitHub
- Aksi
- Go
- Pergi
- Memiliki
- he
- kesehatan
- berat
- tinggi
- di sini
- berkualitas tinggi
- Rumah
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTML
- http
- HTTPS
- manusia
- pengidentifikasi
- mengenali
- if
- gambar
- gambar
- memperbaiki
- in
- Di lain
- memasukkan
- Termasuk
- industri
- memasukkan
- terpadu
- ke
- IT
- NYA
- Jawa
- bahasa
- Bahasa
- besar
- lapisan
- BELAJAR
- pengetahuan
- paling sedikit
- meninggalkan
- kurang
- Tingkat
- perpustakaan
- Perpustakaan
- batas
- baris
- baris
- Daftar
- lokal
- logika
- melihat
- Kerugian
- mesin
- Mesin belajar
- membuat
- berhasil
- panduan
- banyak
- Mungkin..
- medis
- menit
- ML
- Modifikasi
- lebih
- nama
- Perlu
- dibutuhkan
- New
- jumlah
- obyek
- OCR
- of
- sering
- on
- Sesuai Permintaan
- open source
- operasi
- optical character recognition
- or
- urutan
- organisasi
- asli
- Lainnya
- keluaran
- sendiri
- halaman
- halaman
- pasang
- Lulus
- Membayar
- melakukan
- Izin
- plato
- Kecerdasan Data Plato
- Data Plato
- Portugis
- posisi
- Pos
- disajikan
- pribadi
- swasta
- hak istimewa
- proses
- Diproses
- pengolahan
- profesional
- Pemrograman
- bahasa pemrograman
- memberikan
- menyediakan
- diterbitkan
- kualitas
- segera
- Bacaan
- pengakuan
- sarankan
- arsip
- wilayah
- regulator
- dapat diandalkan
- laporan
- membutuhkan
- Persyaratan
- membutuhkan
- terbatas
- Hasil
- menahan
- penahan
- kembali
- ulasan
- Run
- Save
- terukur
- pemindaian
- detik
- bagian
- melihat
- senior
- layanan
- Layanan
- set
- harus
- Menunjukkan
- menunjukkan
- ditunjukkan
- Pertunjukkan
- mirip
- Sederhana
- situasi
- Ukuran
- lambat
- larutan
- sumber
- Spanyol
- khusus
- tertentu
- standalone
- mulai
- Tangga
- penyimpanan
- menyimpan
- Tali
- struktur
- seperti itu
- Didukung
- Mendukung
- MENANDAI
- Mengambil
- pajak
- tim
- pengujian
- dari
- bahwa
- Grafik
- Sumber
- Mereka
- kemudian
- Sana.
- Ini
- ini
- Melalui
- waktu
- untuk
- mengambil
- puncak
- menterjemahkan
- Terjemahan
- memahami
- unik
- menggunakan
- bekas
- Pengguna
- kegunaan
- menggunakan
- Memanfaatkan
- MENGESAHKAN
- pengesahan
- variasi
- berbagai
- memeriksa
- vertikal
- View
- volume
- adalah
- we
- jaringan
- layanan web
- BAIK
- Apa
- yang
- sementara
- putih
- lebar
- dengan
- dalam
- tanpa
- kata
- alur kerja
- Alur kerja
- Tenaga kerja
- bekerja
- tertulis
- Kamu
- Anda
- zephyrnet.dll