Bir kişinin yerel dili, onları benzersiz kılan özelliklerin bir parçasıdır. Belirli bir fikri ifade etmenin genellikle sayısız farklı yolu vardır. Bir firma müşterileriyle iletişim kurduğunda, mesajın iletmeye çalıştıkları bilgiyi en iyi temsil edecek şekilde iletilmesi çok önemlidir. Bu, profesyonel dil çevirisi söz konusu olduğunda daha da önemli hale gelir. Çeviri sistemleri ve hizmetlerinin müşterileri, doğru ve son derece özelleştirilmiş çıktılar bekler. Bunu başarmak için, genellikle önceki çeviri çıktılarını (çeviri belleği (TM) olarak adlandırılır) yeniden kullanırlar ve bunları yeni girdi metniyle karşılaştırırlar. Bilgisayar destekli çeviride bu teknik olarak bilinir. bulanık eşleme. Bulanık eşlemenin birincil işlevi, çeviri sürecini hızlandırarak çevirmene yardımcı olmaktır. Çevrilen metin için TM veritabanında tam bir eşleşme bulunamadığında, çeviri yönetim sistemleri (TMS'ler) çoğu zaman tamdan daha az bir eşleşme arama seçeneğine sahiptir. Nihai çeviri için ek girdi olarak çevirmene olası eşleşmeler sağlanır. Aşağıdakiler gibi makine çevirisi yetenekleriyle iş akışlarını geliştiren çevirmenler Amazon Tercüme genellikle bulanık eşleştirme verilerinin otomatikleştirilmiş çeviri çözümünün bir parçası olarak kullanılmasını bekler.
Bu gönderide, çeviri belleği bulanık eşleşme kalitesi puanlarına göre Amazon Translate'den çıktıyı nasıl özelleştireceğinizi öğreneceksiniz.
Çeviri Kalitesi Eşleşmesi
XML Yerelleştirme Değişim Dosyası Biçimi (XLIFF) standardı genellikle TMS'ler ve Amazon Translate arasında bir veri alışverişi biçimi olarak kullanılır. TMS'ler tarafından üretilen XLIFF dosyaları, mevcut TM'ye dayalı eşleşme kalitesi puanları ile birlikte kaynak ve hedef metin verilerini içerir. Genellikle yüzde olarak ifade edilen bu puanlar, çeviri belleğinin çevrilmekte olan metne ne kadar yakın olduğunu gösterir.
Çok katı gereksinimleri olan bazı müşteriler, yalnızca maç kalitesi puanları belirli bir eşiğin altında olduğunda makine çevirisinin kullanılmasını ister. Bu eşiğin ötesinde, kendi çeviri belleklerinin öncelikli olmasını beklerler. Çevirmenlerin genellikle bu tercihleri TMS'lerinde veya metin verilerini değiştirerek manuel olarak uygulamaları gerekir. Bu akış aşağıdaki şemada gösterilmiştir. Makine çevirisi sistemi, daha sonra istenen kalite eşiklerine göre çevirmenler tarafından gözden geçirilen ve manuel olarak düzenlenen çeviri verilerini (metin ve bulanık eşleşme puanları) işler. Eşikleri makine çevirisi adımının bir parçası olarak uygulamak, verimliliği artıran ve maliyeti optimize eden bu manuel adımları kaldırmanıza olanak tanır.
Bu gönderide sunulan çözüm, belirli bir giriş metninin Amazon Translate tarafından makine çevirisinin yapılıp yapılmayacağını belirlemek için eşleşme kalitesi puanı eşiklerine dayalı kuralları uygulamanıza olanak tanır. Makine çevirisi yapılmadığında ortaya çıkan metin, nihai çıktıyı gözden geçiren çevirmenlerin takdirine bırakılmıştır.
Çözüm Mimarisi
Şekil 2'de gösterilen çözüm mimarisi aşağıdaki hizmetlerden yararlanır:
- Amazon Basit Depolama Hizmeti – Amazon S3 paketleri aşağıdaki içeriği içerir:
- Bulanık eşleşme eşiği yapılandırma dosyaları
- Çevrilecek kaynak metin
- Amazon Translate giriş ve çıkış verileri konumları
- AWS Sistem Yöneticisi - Kullanırız Parametre Deposu eşleşme kalitesi eşiği yapılandırma değerlerini depolamak için parametreler
- AWS Lambda – İki Lambda işlevi kullanıyoruz:
- Bir işlev, kalite eşleşme eşiği yapılandırma dosyalarını önceden işler ve verileri Parametre Deposunda tutar
- Bir işlev, eşzamansız çeviri işlerini otomatik olarak oluşturur
- Amazon Basit Kuyruk Hizmeti – Bir Amazon SQS kuyruğu, kaynak kovaya gelen yeni dosyaların bir sonucu olarak çeviri akışını tetikler
Önce bir yapılandırma dosyasını düzenleyerek ve onu bulanık eşleşme eşiği yapılandırması S3 klasörüne yükleyerek çeviri işleriniz için kalite eşiklerini ayarlarsınız. Aşağıdaki, CSV formatında örnek bir yapılandırmadır. Herhangi bir formatı kullanabilmenize rağmen, basitlik için CSV'yi seçtik. Her satır, belirli bir çeviri işine veya herhangi bir işe varsayılan değer olarak uygulanacak bir eşiği temsil eder.
Yapılandırma dosyasının özellikleri aşağıdaki gibidir:
- Sütun 1, Amazon Translate işine giriş verileri olarak sağlanan XLIFF dosyasının (uzantısız) adıyla doldurulmalıdır.
- Sütun 2, kalite eşleşme yüzdesi eşiğiyle doldurulmalıdır. Bu değerin altındaki herhangi bir puan için makine çevirisi kullanılır.
- Adı yapılandırma dosyasında listelenen herhangi bir adla eşleşmeyen tüm XLIFF dosyaları için, varsayılan eşik kullanılır - anahtar kelimeyi içeren satır
default
Sütun 1'de ayarlayın.
Yeni bir dosya yüklendiğinde Amazon S3, parametreleri işlemekten sorumlu Lambda işlevini tetikler. Bu işlev, eşik parametrelerini okur ve gelecekteki kullanım için Parametre Deposuna kaydeder. Parameter Store'u kullanmak, her yeni çeviri işi başlatıldığında gereksiz Amazon S3 GET istekleri gerçekleştirmeyi önler. Örnek yapılandırma dosyası, aşağıdaki ekran görüntüsünde gösterilen parametre etiketlerini üretir.
İş başlatma Lambda işlevi, Amazon Translate'i çağırmadan önce verileri önceden işlemek için bu parametreleri kullanır. Aşağıdaki kodda gösterildiği gibi, İngilizce'den İspanyolca'ya çeviri XLIFF giriş dosyası kullanıyoruz. Çevrilecek olan ilk metni içerir, olarak adlandırılan şeye bölünmüştür. segmentler, kaynak etiketlerde temsil edilir.
Kaynak metin önceden çeviri belleğiyle eşleştirilmiştir. Veriler, potansiyel çeviri alternatiflerini içerir - şu şekilde temsil edilir: <alt-trans>
etiketler—yüzde olarak ifade edilen bir eşleşme kalitesi özelliğinin yanında. İş kuralı aşağıdaki gibidir:
- Alternatif çeviriler ve eşiğin altında bir eşleşme kalitesi ile alınan segmentlere dokunulmaz veya boştur. Bu, Amazon Translate'e çevrilmeleri gerektiğini bildirir.
- Eşiğin üzerinde bir eşleşme kalitesine sahip alternatif çevirilerle alınan segmentler, önerilen hedef metinle önceden doldurulur. Amazon Translate bu bölümleri atlar.
Bu iş için yapılandırılan kalite eşleşme eşiğinin %80 olduğunu varsayalım. %99 eşleşme kalitesine sahip ilk segment makine çevirisi değil, ikinci segment ise eşleşme kalitesi tanımlanan eşiğin altında olduğu için çevrildi. Bu yapılandırmada Amazon Translate aşağıdaki çıktıyı üretir:
İkinci bölümde, Amazon Translate başlangıçta önerilen hedef metnin üzerine yazar (Selección
) daha kaliteli bir çeviri ile: Visita de selección
.
Bu kullanım durumunun olası bir uzantısı, çevrilmiş çıktıyı yeniden kullanmak ve kendi çeviri belleğimizi oluşturmak olabilir. Amazon Translate, çeviri belleği kullanılarak makine çevirisinin özelleştirilmesini destekler. paralel veri özellik. Başlangıçtaki düşük kalite puanları nedeniyle daha önce makineye çevrilmiş metin bölümleri, daha sonra yeni çeviri projelerinde yeniden kullanılabilir.
Aşağıdaki bölümlerde, bu çözümü dağıtma ve test etme sürecinde size yol göstereceğiz. Kullan AWS CloudFormation Yapılandırılabilir bir kalite eşleşme eşiğiyle kişiselleştirilmiş bir eşzamansız çeviri işi başlatmak için komut dosyaları ve veri örnekleri.
Önkoşullar
Bu izlenecek yol için bir AWS hesabı. Henüz bir hesabınız yoksa, şunları yapabilirsiniz: bir tane oluştur ve etkinleştir.
AWS CloudFormation yığınını başlatın
- Klinik Yığını Başlat:
- İçin Yığın adı, isim girin.
- İçin Yapılandırma GrubuAdı, eşik yapılandırma dosyalarını içeren S3 klasörünü girin.
- İçin parametreMağazaKök, Lambda işlevini işleyen parametreler tarafından oluşturulan parametrelerin kök yolunu girin.
- İçin KuyrukAdı, kaynak kovadan iş başlatma Lambda işlevine yeni dosya bildirimleri göndermek için oluşturduğunuz SQS kuyruğuna girin. Bu, yapılandırma dosyasını okuyan fonksiyondur.
- İçin KaynakBucketName, çevrilecek XLIFF dosyalarını içeren S3 klasörünü girin. Önceden var olan bir kova kullanmayı tercih ederseniz, CreateSourceBucket parametresinin değerini Hayır olarak değiştirmeniz gerekir.
- İçin Çalışma GrubuAdı, Amazon Translate'in giriş ve çıkış verileri için kullandığı S3 paketini girin.
- Klinik Sonraki.
- İsteğe bağlı olarak Yığın Opsiyonlar sayfasında, oluşturulmak üzere olan kaynaklara atamak isteyebileceğiniz etiketler için anahtar adları ve değerler ekleyin.
- Klinik Sonraki.
- Üzerinde Değerlendirme sayfa seç Bu şablonun AWS CloudFormation'ın IAM kaynakları oluşturmasına neden olabileceğini kabul ediyorum.
- Diğer ayarları gözden geçirin, ardından Yığın oluştur.
AWS CloudFormation'ın kaynakları sizin adınıza oluşturması birkaç dakika sürer. Gelişmeleri adresinden izleyebilirsiniz. Etkinlikler AWS CloudFormation konsolundaki sekme. Yığın oluşturulduğunda, bir CREATE_COMPLETE
içindeki mesaj Durum sütunundaki Genel Bakış sekmesi.
Çözümü test edin
Basit bir örnek üzerinden gidelim.
- Aşağıdakini indirin örnek veri.
- İçeriği açın.
İki dosya olmalıdır: XLIFF biçiminde bir .xlf dosyası ve uzantısı .cfg olan bir eşik yapılandırma dosyası. Aşağıdaki XLIFF dosyasından bir alıntıdır.
- Amazon S3 konsolunda, kalite eşiği yapılandırma dosyasını daha önce belirttiğiniz yapılandırma paketine yükleyin.
için ayarlanan değer test_En_to_Fr
%75'tir. Parametre Deposu bölümünde Systems Manager konsolundaki parametreleri görebilmeniz gerekir.
- Yine Amazon S3 konsolunda, .xlf dosyasını kaynak olarak yapılandırdığınız S3 klasörüne yükleyin. Dosyanın adlı bir klasörün altında olduğundan emin olun.
translate
(Örneğin,<my_bucket>/translate/test_En_to_Fr.xlf
).
Bu, çeviri akışını başlatır.
- Amazon Translate konsolunu açın.
Devam Ediyor durumunda yeni bir iş görünmelidir.
- İş tamamlandığında, işin bağlantısını tıklayın ve çıktıya bakın. Tüm bölümler çevrilmiş olmalıdır.
Tüm bölümler çevrilmiş olmalıdır. Çevrilmiş XLIFF dosyasında, aşağıdaki adlara sahip ek niteliklere sahip segmentleri arayın: lscustom:match-quality
, aşağıdaki ekran görüntüsünde gösterildiği gibi. Bu özel özellikler, puana göre önerilen çevirinin korunduğu segmentleri tanımlar.
Bunlar, kalite eşiğine göre çeviri belleğinden türetilmiştir. Diğer tüm bölümler makine çevirisi yapıldı.
Artık, yapılandırılabilir çeviri belleği eşleşme kalitesi eşiklerini zorlayan otomatik bir eşzamansız çeviri işi asistanını devreye aldınız ve test ettiniz. İyi iş!
Temizlemek
Çözümü hesabınıza dağıttıysanız, beklenmedik bir maliyetten kaçınmak için CloudFormation yığınını silmeyi unutmayın. S3 kovalarını önceden manuel olarak boşaltmanız gerekir.
Sonuç
Bu gönderide, standart XLIFF bulanık eşleştirme kalitesi ölçümlerine dayalı olarak Amazon Translate çeviri işlerinizi nasıl özelleştireceğinizi öğrendiniz. Bu çözümle, Amazon Translate kullanımınızı optimize ederken aynı zamanda makine tarafından çevrilmiş metni gözden geçirmeyle ilgili el emeğini büyük ölçüde azaltabilirsiniz. Çözümü ayrıca, içinde açıklandığı gibi veri alımı otomasyonu ve iş akışı düzenleme yetenekleriyle genişletebilirsiniz. Tam Otomatik Çeviri Sistemi Asistanı ile Çeviri İşlerini Hızlandırın.
Yazarlar Hakkında
nergis zekpa Boston merkezli bir Çözüm Mimarıdır. Mimari yönergeler sağlayarak, yenilikçi ve ölçeklenebilir çözümler tasarlayarak Kuzeydoğu ABD'deki müşterilerin AWS Cloud'u benimsemelerini hızlandırmasına yardımcı olur. Narcisse inşaat yapmadığı zamanlarda ailesiyle vakit geçirmekten, seyahat etmekten, yemek pişirmekten ve basketbol oynamaktan hoşlanır.
Dimitri Restaino AWS'de Brooklyn, New York merkezli bir Çözüm Mimarıdır. Öncelikli olarak Kuzey Doğu'daki Sağlık ve Finansal Hizmetler şirketleriyle çalışarak müşterilerine en iyi hizmeti vermek için yenilikçi ve yaratıcı çözümler tasarlamaya yardımcı oluyor. Bir yazılım geliştirme geçmişine sahip olduğundan, sunucusuz teknolojinin dünyaya getirebileceği yeni olanaklardan heyecan duymaktadır. İş dışında yürüyüş yapmayı ve NYC yemek ortamını keşfetmeyi seviyor.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- Hakkımızda
- hızlandırmak
- Göre
- Hesap
- doğru
- Başarmak
- Ek
- Benimseme
- Türkiye
- alternatif
- Rağmen
- Amazon
- Uygulanması
- mimari
- mimari
- Asistan
- öznitelikleri
- Otomatik
- Otomasyon
- mevcut
- AWS
- arka fon
- Basketbol
- olmak
- altında
- İYİ
- Ötesinde
- sınır
- boston
- bina
- iş
- yetenekleri
- Sebeb olmak
- belli
- değişiklik
- ücret
- Klinik
- bulut
- kod
- Sütun
- gelecek
- Şirketler
- yapılandırma
- rıza
- konsolos
- içeren
- içerik
- olabilir
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- Yaratıcı
- kritik
- görenek
- Müşteriler
- veri
- veritabanı
- teslim edilen
- konuşlandırılmış
- dağıtma
- tarif edilen
- Dizayn
- gelişme
- farklı
- takdir
- Değil
- aşağı
- sürücü
- verim
- İngilizce
- Keşfet
- örnek
- takas
- uyarılmış
- beklemek
- keşfetmek
- ifade
- uzatmak
- aile
- Özellikler(Hazırlık aşamasında)
- şekil
- mali
- finansal hizmetler
- Firma
- Ad
- akış
- takip etme
- şu
- Gıda
- biçim
- bulundu
- Fransızca
- işlev
- fonksiyonlar
- gelecek
- harika
- çok
- grup
- kuralları yenileyerek
- sağlık
- yardım
- yardımcı olur
- daha yüksek
- büyük ölçüde
- Ne kadar
- Nasıl Yapılır
- HTTPS
- Fikir
- belirlemek
- belirlenmesi
- önemli
- dahil
- bilgi
- yenilikçi
- giriş
- ilgili
- IT
- İş
- Mesleki Öğretiler
- anahtar
- bilinen
- emek
- dil
- başlatmak
- ÖĞRENİN
- öğrendim
- leverages
- çizgi
- LINK
- Listelenmiş
- makine
- yönetim
- müdür
- Manuel
- el ile
- Maç
- uygun
- Bellek
- Metrikleri
- olabilir
- Daha
- isimleri
- New York
- Kuzey
- NYC
- optimize
- seçenek
- orkestrasyon
- Diğer
- kendi
- Bölüm
- yüzde
- icra
- kişiselleştirmek
- oynama
- olanakları
- mümkün
- potansiyel
- önceki
- birincil
- süreç
- Süreçler
- işleme
- Üretilmiş
- profesyonel
- Projeler
- sağlama
- kalite
- Alınan
- azaltmak
- temsil
- temsil
- isteklerinizi
- Yer Alan Kurallar
- Kaynaklar
- Sonuçlar
- yorum
- kurallar
- ölçeklenebilir
- sahne
- Ara
- bölüm
- segmentler
- Serverless
- Hizmetler
- set
- gösterilen
- Basit
- Yazılım
- yazılım geliştirme
- katı
- çözüm
- Çözümler
- özellikler
- Harcama
- yığın
- standart
- başlar
- Durum
- hafızası
- mağaza
- mağaza
- Destekler
- sistem
- Sistemler
- Hedef
- Teknoloji
- Test yapmak
- Kaynak
- Dünya
- eşik
- İçinden
- zaman
- Çeviri
- Seyahat
- bize
- benzersiz
- kullanım
- değer
- İzle
- Ne
- Nedir
- olup olmadığını
- süre
- DSÖ
- içinde
- İş
- çalışır
- Dünya
- XML