Çeşitli sektörlerdeki şirketler büyük hacimli PDF belgeleri oluşturur, tarar ve depolar. Çoğu durumda, içerik metin ağırlıklıdır ve genellikle farklı bir dilde yazılır ve çeviri gerektirir. Bunu ele almak için, bu PDF'lerdeki içerikleri ayıklamak ve bunları hızlı ve düşük maliyetli bir şekilde çevirmek için otomatikleştirilmiş bir çözüme ihtiyacınız var.
Birçok işletme, çeşitli küresel kullanıcılara sahiptir ve aralarında diller arası iletişim sağlamak için metni çevirmeye ihtiyaç duyar. Bu manuel, yavaş ve pahalı bir insan çabasıdır. Orijinal belge biçimlendirmesini korurken belgeleri çevirmek için ölçeklenebilir, güvenilir ve uygun maliyetli bir çözüm bulmaya ihtiyaç vardır.
Sağlık hizmetleri gibi sektörler için, düzenleyici gereksinimler nedeniyle, çevrilmiş belgeler, makine tarafından çevrilmiş belgenin geçerliliğini doğrulamak için döngüde ek bir insan gerektirir.
Çevrilen belge orijinal biçimlendirme ve yapıyı korumazsa bağlamını kaybeder. Bu, bir insan gözden geçirenin doğrulamasını ve düzeltmeler yapmasını zorlaştırabilir.
Bu gönderide, geometri tabanlı bir yaklaşım kullanarak orijinal belge yapısını ve biçimlendirmeyi korurken taranmış bir PDF'den yeni bir çevrilmiş PDF'nin nasıl oluşturulacağını gösteriyoruz. Amazon Metin Yazısı, Amazon Tercüme, ve Apache PDF Kutusu.
Çözüme genel bakış
Bu gönderide sunulan çözüm aşağıdaki bileşenleri kullanır:
- Amazon Metin Yazısı – Formlardan ve tablolardan verileri tanımlamak, anlamak ve ayıklamak için basit optik karakter tanımanın (OCR) ötesine geçen, taranan belgelerden basılı metni, el yazısını ve diğer verileri otomatik olarak çıkaran tam olarak yönetilen bir makine öğrenimi (ML) hizmeti. Amazon Textract, mali raporlar, tıbbi kayıtlar ve vergi formları dahil olmak üzere çeşitli belgelerdeki metni algılayabilir.
- Amazon Tercüme – Hızlı, yüksek kaliteli ve uygun fiyatlı dil çevirisi sağlayan bir nöral makine çevirisi hizmeti. Amazon Translate, çeviri maliyetlerinizi düşürürken 2,970'den fazla dil çiftinde yüksek kaliteli isteğe bağlı ve toplu çeviri özellikleri sağlar.
- PDF Çeviri – Java ile yazılmış ve üzerinde yayınlanan açık kaynaklı bir kitaplık GitHub'da AWS Örnekleri. Bu kitaplık, Amazon Textract ve Amazon Translate ile istediğiniz dilde çevrilmiş PDF belgeleri oluşturmak için mantık içerir. Ayrıca, PDF belgeleri oluşturmak için açık kaynaklı Java kitaplığı Apache PDFBox'ı kullanır. Diğer programlama dillerinde bulunan benzer PDF işleme kitaplıkları vardır, örneğin Düğüm PDFBox.
Makine çevirileri yaparken, adlar veya benzersiz tanımlayıcılar gibi metnin belirli bölümlerinin çevrilmesini önlemek istediğiniz durumlar olabilir. Amazon Translate, hangi metnin çevrilmemesi gerektiğini belirtmenize olanak tanıyan etiket değişikliklerine izin verir. Amazon Translate, çeviri çıktınızdaki formalite düzeyini özelleştirmenize olanak tanıyan formalite özelleştirmeyi de destekler.
Amazon Textract sınırlarıyla ilgili ayrıntılar için bkz. Amazon Textract'taki kotalar.
Çözüm, şu anda İngilizce, İspanyolca, İtalyanca, Portekizce, Fransızca ve Almanca'yı destekleyen Amazon Textract tarafından çıkarılabilen dillerle sınırlıdır. Bu diller ayrıca Amazon Translate tarafından da desteklenmektedir. Amazon Translate tarafından desteklenen dillerin tam listesi için bkz. Desteklenen diller ve dil kodları.
Metnin İngilizce'den İspanyolca'ya çevrilmesini göstermek için aşağıdaki PDF'yi kullanıyoruz. Çözüm, çevrilmiş belgenin herhangi bir biçimlendirme olmadan oluşturulmasını da destekler. Çevrilen metnin konumu korunur. Kaynak ve tercüme edilmiş PDF belgeleri şu adreste de bulunabilir: AWS Örnekleri GitHub deposu.
Aşağıdaki bölümlerde, çeviri kodunun yerel bir makinede nasıl çalıştırılacağını gösteriyoruz ve çeviri koduna daha ayrıntılı bakıyoruz.
Önkoşullar
Başlamadan önce AWS hesabınızı kurun ve AWS Komut Satırı Arayüzü (AWS CLI). Textract ve Translate gibi AWS Hizmetlerine erişim için uygun IAM izinleri gereklidir. En az ayrıcalık izinlerini kullanmanızı öneririz. IAM izinleri hakkında daha fazla bilgi edinmek için bkz. IAM'deki politikalar ve izinler yanısıra Amazon Textract, IAM ile nasıl çalışır? ve Amazon Translate, IAM ile nasıl çalışır?.
Çeviri kodunu yerel bir makinede çalıştırın
Bu çözüm, bir PDF belgesini ayıklamak ve çevirmek için bağımsız Java koduna odaklanır. Bu, en iyi işlenmiş çevrilmiş PDF belgesini elde etmek için daha kolay test ve özelleştirmeler içindir. Kod daha sonra AWS'de dağıtmak ve çalıştırmak için otomatik bir çözüme entegre edilebilir. Görmek Amazon Translate ve Amazon Textract kullanarak PDF belgelerini çevirme kullanan örnek bir mimari için Amazon Basit Depolama Hizmeti (Amazon S3) belgeleri saklamak ve AWS Lambda kodu çalıştırmak için.
Kodu yerel bir makinede çalıştırmak için aşağıdaki adımları tamamlayın. Kod örnekleri şu adreste mevcuttur: GitHub deposu.
- GitHub deposunu klonlayın:
- Aşağıdaki komutu çalıştırın:
- İngilizce'den İspanyolca'ya çevirmek için aşağıdaki komutu çalıştırın:
Belgeler klasöründe orijinal biçimlendirmeli ve biçimlendirmesiz iki çevrilmiş PDF belgesi oluşturulur (SampleOutput-es.pdf
ve SampleOutput-min-es.pdf
).
Çevrilmiş PDF'yi oluşturmak için kod
Aşağıdaki kod parçacıkları, bir PDF belgesinin nasıl alınacağını ve buna karşılık gelen çevrilmiş bir PDF belgesinin nasıl oluşturulacağını gösterir. Amazon Textract'ı kullanarak metni çıkarır ve çevrilmiş metni görüntüye bir katman olarak ekleyerek çevrilmiş PDF'yi oluşturur. Gönderide gösterilen çözüm üzerine kuruludur Amazon Textract ile taranan belgelerden aranabilir PDF'leri otomatik olarak oluşturma.
Kod, önce Amazon Textract ile metnin her satırını alır. Amazon Translate, çevrilmiş metni almak ve çevrilen metnin geometrisini kaydetmek için kullanılır.
Yazı tipi boyutu aşağıdaki gibi hesaplanır ve kolayca yapılandırılabilir:
Çevrilmiş PDF, kaydedilen geometriden ve çevrilmiş metinden oluşturulur. Çevrilen metnin rengindeki değişiklikler kolayca yapılandırılabilir.
Aşağıdaki resim, belgenin orijinal biçimlendirmeyle İspanyolca'ya çevrilmiş halini göstermektedir (SampleOutput-es.pdf
).
Aşağıdaki resimde çevrilmiş PDF herhangi bir biçimlendirme olmadan İspanyolca olarak gösterilmektedir (SampleOutput-min-es.pdf
).
İşlem süresi
İstihdam başvurusu pdf'sinin çevrilmiş pdf'yi ayıklaması, işlemesi ve işlemesi yaklaşık 10 saniye sürdü. gibi metin ağırlıklı belgeler için işlem süresi Bağımsızlık Bildirgesi PDF bir dakikadan az sürdü.
Ücret
Amazon Textract ile işlenen sayfa ve görüntü sayısına göre kullandıkça ödersiniz. Amazon Translate ile, işlenen metin karakterlerinin sayısına göre kullandıkça ödersiniz. bakın Amazon Textract fiyatlandırması ve Amazon Translate fiyatlandırması gerçek maliyetler için.
Sonuç
Bu gönderi, orijinal belge yapısını korurken çevrilmiş PDF belgeleri oluşturmak için Amazon Textract ve Amazon Translate'in nasıl kullanılacağını gösterdi. Çevirinin kalitesini artırmak için isteğe bağlı olarak Amazon Textract sonuçlarını sonradan işleyebilirsiniz; örneğin, ayıklanan sözcükler, aşağıdakiler gibi makine öğrenimi tabanlı yazım denetimlerinden geçirilebilir: SymBüyü veri doğrulama için veya okuma sırasını korumak için kümeleme algoritmaları kullanılabilir. Ayrıca kullanabilirsin Amazon Artırılmış AI (Amazon A2I), daha fazla doğruluk ve bağlam sağlamak için orijinal ve çevrilmiş PDF belgelerini incelemek üzere kendi özel iş gücünüzü kullanabileceğiniz insan incelemesi iş akışları oluşturmak için. Görmek Amazon Translate ve Amazon Augmented AI ile insan inceleme iş akışları tasarlama ve Alana özgü ve dile özgü özelleştirme ile çok dilli bir belge çevirisi iş akışı oluşturma Başlamak için.
Yazarlar Hakkında
Anubha Singhal AWS Profesyonel Hizmetler organizasyonundaki Amazon Web Services'ta Kıdemli Bulut Mimarıdır.
Sean Lawrence daha önce AWS'de Ön Uç Mühendisiydi. AWS Profesyonel Hizmetler organizasyonunda ve Amazon Gizlilik ekibinde ön uç geliştirme konusunda uzmanlaştı.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. Otomotiv / EV'ler, karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- Blok Ofsetleri. Çevre Dengeleme Sahipliğini Modernleştirme. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :dır-dir
- :olumsuzluk
- :Neresi
- $UP
- 1
- 10
- 100
- %15
- 20
- 7
- 970
- a
- Hakkımızda
- erişim
- Hesap
- doğruluk
- karşısında
- gerçek
- ekleme
- Ek
- adres
- uygun
- algoritmalar
- veriyor
- Ayrıca
- Amazon
- Amazon Metin Yazısı
- Amazon Tercüme
- Amazon Web Servisleri
- an
- ve
- herhangi
- Apache
- Uygulama
- yaklaşım
- uygun
- mimari
- ARE
- AS
- At
- augmented
- Otomatik
- otomatik olarak
- mevcut
- AWS
- AWS Profesyonel Hizmetleri
- merkezli
- BE
- olmak
- arasında
- Ötesinde
- Siyah
- Engellemek
- Blokları
- kutu
- inşa etmek
- inşa
- işletmeler
- by
- hesaplanmış
- CAN
- yetenekleri
- durumlarda
- değişiklikler
- karakter
- karakter tanıma
- karakterler
- bulut
- kümeleme
- kod
- renk
- Yakın İletişim
- tamamlamak
- yapılandırılmış
- içeren
- içerik
- içindekiler
- bağlam
- Düzeltmeler
- uyan
- uygun maliyetli
- maliyetler
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- Şu anda
- özelleştirme
- özelleştirmek
- veri
- sağlıyor
- göstermek
- dağıtmak
- İstediğiniz
- ayrıntı
- ayrıntılar
- gelişme
- farklı
- zor
- çeşitli
- belge
- evraklar
- Değil
- gereken
- her
- kolay
- kolayca
- çaba
- başka
- iş
- etkinleştirmek
- son
- mühendis
- İngilizce
- örnek
- örnekler
- pahalı
- çıkarmak
- Hulasa
- yanlış
- HIZLI
- doldurmak
- mali
- bulmak
- Ad
- Şamandıra
- odaklanır
- takip etme
- şu
- İçin
- eskiden
- formlar
- bulundu
- Fransızca
- itibaren
- ön
- Başlangıç aşaması
- Ön uç geliştirme
- tam
- tamamen
- oluşturmak
- üreten
- Almanca
- almak
- GitHub
- Küresel
- Go
- Goes
- Var
- he
- sağlık
- ağır
- yükseklik
- okuyun
- Yüksek kaliteli
- ev
- Ne kadar
- Nasıl Yapılır
- HTML
- http
- HTTPS
- insan
- tanımlayıcıları
- belirlemek
- if
- görüntü
- görüntüleri
- iyileştirmek
- in
- Diğer
- dahil
- Dahil olmak üzere
- Endüstri
- giriş
- entegre
- içine
- IT
- ONUN
- Java
- dil
- Diller
- büyük
- tabaka
- ÖĞRENİN
- öğrenme
- en az
- sol
- az
- seviye
- kütüphaneler
- Kütüphane
- sınırları
- çizgi
- hatları
- Liste
- yerel
- mantık
- Bakın
- kaybeder
- makine
- makine öğrenme
- yapmak
- yönetilen
- Manuel
- çok
- Mayıs..
- tıbbi
- dakika
- ML
- Değişiklikler
- Daha
- isimleri
- gerek
- gerekli
- yeni
- numara
- nesne
- OCR
- of
- sık sık
- on
- On-Demand
- açık kaynak
- operasyon
- optik karakter tanıma
- or
- sipariş
- kuruluşlar
- orijinal
- Diğer
- çıktı
- kendi
- Kanal
- sayfaları
- çiftleri
- geçti
- icra
- izinleri
- Platon
- Plato Veri Zekası
- PlatoVeri
- Portekizce
- pozisyon
- Çivi
- sundu
- gizlilik
- özel
- ayrıcalık
- süreç
- İşlenmiş
- işleme
- profesyonel
- Programlama
- Programlama dilleri
- sağlamak
- sağlar
- yayınlanan
- kalite
- hızla
- Okuma
- tanıma
- tavsiye etmek
- kayıtlar
- bölge
- düzenleyici
- güvenilir
- Raporlar
- gerektirir
- Yer Alan Kurallar
- gerektirir
- kısıtlı
- Sonuçlar
- tutmak
- tespit
- dönüş
- yorum
- koşmak
- İndirim
- ölçeklenebilir
- taramak
- saniye
- bölümler
- görmek
- kıdemli
- hizmet
- Hizmetler
- set
- meli
- şov
- gösterdi
- gösterilen
- Gösteriler
- benzer
- Basit
- durumlar
- beden
- yavaş
- çözüm
- Kaynak
- İspanyolca
- özel
- özel
- bağımsız
- başladı
- Basamaklar
- hafızası
- mağaza
- dizi
- yapı
- böyle
- destekli
- Destekler
- TAG
- Bizi daha iyi tanımak için
- vergi
- takım
- Test yapmak
- göre
- o
- The
- Kaynak
- Onları
- sonra
- Orada.
- Bunlar
- Re-Tweet
- İçinden
- zaman
- için
- aldı
- üst
- çevirmek
- Çeviri
- anlamak
- benzersiz
- kullanım
- Kullanılmış
- kullanıcılar
- kullanım
- kullanma
- Kullanılması
- DOĞRULA
- onaylama
- çeşitlilik
- çeşitli
- doğrulamak
- sektörler
- Görüntüle
- hacimleri
- oldu
- we
- ağ
- web hizmetleri
- İYİ
- Ne
- hangi
- süre
- beyaz
- genişlik
- ile
- içinde
- olmadan
- sözler
- iş akışı
- iş akışları
- işgücü
- çalışır
- yazılı
- Sen
- zefirnet