Derin Öğrenmeye Dalın (D2L.ai), derin öğrenmeyi herkes için erişilebilir kılan açık kaynaklı bir ders kitabıdır. PyTorch, JAX, TensorFlow ve MXNet'te bağımsız kod içeren etkileşimli Jupyter not defterlerinin yanı sıra gerçek dünyadan örnekler, açıklama rakamları ve matematik içerir. Şimdiye kadar D2L, Cambridge Üniversitesi, Stanford Üniversitesi, Massachusetts Teknoloji Enstitüsü, Carnegie Mellon Üniversitesi ve Tsinghua Üniversitesi gibi dünya çapında 400'den fazla üniversite tarafından benimsenmiştir. Bu çalışma aynı zamanda Çince, Japonca, Korece, Portekizce, Türkçe ve Vietnamca dillerinde de sunulmaktadır ve İspanyolca ve diğer dillerde kullanıma sunulması planlanmaktadır.
Sürekli güncellenen, birden çok yazar tarafından yazılan ve birden çok dilde kullanılabilen çevrimiçi bir kitaba sahip olmak zorlu bir çabadır. Bu yazıda, D2L.ai'nin bu sorunu çözmek için kullandığı bir çözümü sunuyoruz. Etkin Özel Çeviri (ACT) özelliği of Amazon Tercüme ve çok dilli bir otomatik çeviri ardışık düzeni oluşturmak.
nasıl kullanılacağını gösteriyoruz AWS Yönetim Konsolu ve Amazon Translate genel API'sı otomatik makine toplu çevirisi sağlamak ve iki dil çifti arasındaki çevirileri analiz etmek için: İngilizce ve Çince ve İngilizce ve İspanyolca. Çeviri kalitesini ve verimliliğini sağlamak için bu otomatik çeviri ardışık düzeninde Amazon Translate'i kullanırken en iyi uygulamaları da öneriyoruz.
Çözüme genel bakış
Amazon Translate'deki ACT özelliğini kullanarak birden çok dil için otomatik çeviri ardışık düzenleri oluşturduk. ACT, şu şekilde özel çeviri örnekleri sağlayarak çeviri çıktısını anında özelleştirmenize olanak tanır. paralel veri. Paralel veriler, bir kaynak dildeki metin örnekleri koleksiyonundan ve bir veya daha fazla hedef dildeki istenen çevirilerden oluşur. Çeviri sırasında ACT, paralel verilerden en alakalı segmentleri otomatik olarak seçer ve bu segment çiftlerini temel alarak çeviri modelini anında günceller. Bu, paralel verilerin stiline ve içeriğine daha iyi uyan çevirilerle sonuçlanır.
Mimari, birden çok alt ardışık düzen içerir; her bir alt kanal, İngilizce'den Çince'ye, İngilizce'den İspanyolca'ya vb. gibi bir dil çevirisini işler. Çoklu çeviri alt ardışık düzenleri paralel olarak işlenebilir. Her alt ardışık düzende, önce insan tarafından çevrilen D2L kitaplarından kuyruklu çeviri örneklerinden oluşan yüksek kaliteli veri kümesini kullanarak Amazon Translate'te paralel verileri oluşturuyoruz. Ardından, daha iyi kalite ve doğruluk sağlayan özelleştirilmiş makine çevirisi çıktısını çalışma zamanında anında oluştururuz.
Aşağıdaki bölümlerde, Amazon Translate ile ACT'yi kullanarak her bir çeviri ardışık düzeninin nasıl oluşturulacağını gösteriyoruz. Amazon Adaçayı Yapıcı ve Amazon Basit Depolama Hizmeti (Amazon S3).
İlk olarak kaynak belgeleri, referans belgeleri ve paralel veri eğitim setini bir S3 klasörüne koyuyoruz. Ardından, çeviri sürecini Amazon Translate genel API'lerini kullanarak çalıştırmak için SageMaker'da Jupyter not defterleri oluşturuyoruz.
Önkoşullar
Bu gönderideki adımları takip etmek için aşağıdakilere sahip bir AWS hesabınız olduğundan emin olun:
- Erişim AWS Kimlik ve Erişim Yönetimi Rol ve ilke yapılandırması için (IAM)
- Amazon Translate, SageMaker ve Amazon S3'e erişim
- Kaynak belgeleri, referans belgeleri, paralel veri kümesini ve çeviri çıktısını depolamak için bir S3 klasörü
ACT ile Amazon Translate için bir IAM rolü ve politikaları oluşturun
IAM rolümüzün Amazon Çeviri için özel bir güven politikası içermesi gerekir:
Bu rolün ayrıca, Amazon Translate'e Amazon S3'te kaynak belgeleri içeren giriş klasörü ve alt klasörlerine okuma erişimi ve çevrilmiş belgeleri içeren çıktı S3 klasörüne ve klasörüne okuma/yazma erişimi sağlayan bir izin politikası olmalıdır:
Çeviri işleri için SageMaker'da Jupyter not defterlerini çalıştırmak üzere, SageMaker yürütme rolüne bir satır içi izin ilkesi vermemiz gerekir. Bu rol, Amazon Çeviri hizmet rolünü SageMaker'a aktarır ve bu, SageMaker not defterlerinin belirlenen S3 klasörlerindeki kaynağa ve çevrilmiş belgelere erişmesine olanak tanır:
Paralel veri eğitimi örnekleri hazırlama
ACT'deki paralel verilerin, örneğin bir kaynak dil (İngilizce) ve hedef dil (Çince) çifti gibi metinsel örnek çiftlerinin bir listesinden oluşan bir girdi dosyası tarafından eğitilmesi gerekir. Giriş dosyası TMX, CSV veya TSV formatında olabilir. Aşağıdaki ekran görüntüsü bir CSV giriş dosyası örneğini göstermektedir. İlk sütun kaynak dil verileridir (İngilizce), ikinci sütun ise hedef dil verileridir (Çince). Aşağıdaki örnek D2L-en kitabından ve D2L-zh kitabından alınmıştır.
Amazon Translate'de özel paralel veri eğitimi gerçekleştirin
İlk olarak, aşağıdaki ekran görüntüsünde gösterildiği gibi S3 kovasını ve klasörlerini kurduk. bu source_data
klasör, çeviriden önceki kaynak belgeleri içerir; toplu çeviriden sonra oluşturulan belgeler çıktı klasörüne konur. bu ParallelData
klasörü, önceki adımda hazırlanan paralel veri giriş dosyasını tutar.
Giriş dosyalarını bilgisayara yükledikten sonra source_data
klasörünü kullanabiliriz CreateParallelData API'si Amazon Translate'de bir paralel veri oluşturma işi çalıştırmak için:
Mevcut paralel verileri yeni eğitim veri kümeleriyle güncellemek için UpdateParallelData API'sı:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Eğitim işinin ilerleyişini Amazon Translate konsolunda kontrol edebiliriz. İş tamamlandığında, paralel veri durumu şu şekilde görünür: Aktif ve kullanıma hazırdır.
Paralel verileri kullanarak eşzamansız toplu çeviri çalıştırın
Toplu çeviri, birden çok kaynak belgenin otomatik olarak hedef dillerdeki belgelere çevrildiği bir süreçte gerçekleştirilebilir. Süreç, kaynak belgelerin S3 klasörünün giriş klasörüne yüklenmesini ve ardından StartTextTranslationİş API'sı Eşzamansız bir çeviri işi başlatmak için Amazon Translate'in:
Toplu çeviri için D2L kitabından (D2L-en) beş İngilizce kaynak belge seçtik. Amazon Translate konsolunda çeviri işinin ilerleyişini izleyebiliriz. İş durumu şu şekilde değiştiğinde: Tamamlandı, Çince'ye (D2L-zh) çevrilmiş belgeleri S3 klasör çıktı klasöründe bulabiliriz.
Çeviri kalitesini değerlendirin
Amazon Translate'deki ACT özelliğinin etkinliğini göstermek için, aynı belgeleri işlemek için geleneksel Amazon Translate gerçek zamanlı çeviri yöntemini paralel veriler olmadan da uyguladık ve çıktıyı ACT ile toplu çeviri çıktısıyla karşılaştırdık. İki yöntem arasındaki çeviri kalitesini kıyaslamak için BLEU (BiLingual Evaluation Understudy) puanını kullandık. Makine çevirisi çıktısının kalitesini doğru bir şekilde ölçmenin tek yolu, bir uzman tarafından gözden geçirilip kaliteye puan verilmesidir. Bununla birlikte, BLEU, iki çıktı arasındaki göreli kalite iyileştirmesinin bir tahminini sağlar. Bir BLEU puanı tipik olarak 0-1 arasında bir sayıdır; makine çevirisinin referans insan çevirisine benzerliğini hesaplar. Daha yüksek puan, doğal dil anlayışında (NLU) daha iyi kaliteyi temsil eder.
Bir dizi belgeyi dört ardışık düzende test ettik: İngilizce'den Çince'ye (en'den zh'a), Çince'den İngilizce'ye (zh'den en'e), İngilizce'den İspanyolca'ya (en'den es'e) ve İspanyolca'dan İngilizce'ye (es'den en'e). Aşağıdaki şekil, ACT ile çevirinin tüm çeviri ardışık düzenlerinde daha yüksek bir ortalama BLEU puanı ürettiğini göstermektedir.
Ayrıca, paralel veri çiftleri ne kadar ayrıntılı olursa çeviri performansının o kadar iyi olduğunu gözlemledik. Örneğin, 10 giriş içeren paragraf çiftleri içeren aşağıdaki paralel veri giriş dosyasını kullanıyoruz.
Aynı içerik için, cümle çiftleri ve 16 giriş içeren aşağıdaki paralel veri giriş dosyasını kullanıyoruz.
Amazon Translate'de iki paralel veri varlığı oluşturmak için her iki paralel veri giriş dosyasını da kullandık, ardından aynı kaynak belgeyle iki toplu çeviri işi oluşturduk. Aşağıdaki şekilde çıktı çevirileri karşılaştırılmaktadır. Hem İngilizce'den Çince'ye çeviride hem de Çince'den İngilizce'ye çeviride, cümle çiftleriyle paralel verileri kullanan çıktının, paragraf çiftleriyle paralel verileri kullanan çıktıdan daha iyi performans gösterdiğini gösteriyor.
Bu kıyaslama analizleri hakkında daha fazla bilgi edinmek istiyorsanız, bkz. "Derin Öğrenmeye Dalın" için Otomatik Makine Çevirisi ve Senkronizasyonu.
Temizlemek
Gelecekte yinelenen maliyetlerden kaçınmak için, oluşturduğunuz kaynakları temizlemenizi öneririz:
- Amazon Translate konsolunda, oluşturduğunuz paralel verileri seçin ve Sil. Alternatif olarak, ParallelData API'sini Sil ya da AWS Komut Satırı Arayüzü (AWS CLI) paralel veri sil paralel verileri silme komutu.
- S3 klasörünü silin kaynak ve referans belgeleri, çevrilmiş belgeleri ve paralel veri giriş dosyalarını barındırmak için kullanılır.
- IAM rolünü ve politikasını silin. Talimatlar için bkz. Rolleri veya örnek profilleri silme ve IAM politikaları siliniyor.
Sonuç
Bu çözümle çeviri kalitesini korurken ve birden çok dili desteklerken insan çevirmenlerin iş yükünü %80 oranında azaltmayı hedefliyoruz. Çeviri kalitenizi ve verimliliğinizi artırmak için bu çözümü kullanabilirsiniz. Çözüm mimarisini ve diğer diller için çeviri kalitesini daha da geliştirmek için çalışıyoruz.
Görüşlerinize her zaman açığız; lütfen düşüncelerinizi ve sorularınızı yorum kısmına bırakın.
yazarlar hakkında
Yunfei Bai AWS'de Kıdemli Çözüm Mimarıdır. AI/ML, veri bilimi ve analitik alanında bir geçmişe sahip olan Yunfei, müşterilerin iş sonuçları elde etmek için AWS hizmetlerini benimsemesine yardımcı olur. Karmaşık teknik zorlukların üstesinden gelen ve stratejik hedeflere yön veren AI/ML ve veri analitiği çözümleri tasarlıyor. Yunfei, Elektronik ve Elektrik Mühendisliği alanında doktora derecesine sahiptir. Yunfei, iş dışında kitap okumaktan ve müzik dinlemekten hoşlanır.
rachel hu AWS Machine Learning Üniversitesi'nde (MLU) uygulamalı bir bilim insanıdır. ML İşlemleri (MLOps) ve Accelerator Computer Vision dahil olmak üzere birkaç kurs tasarımına liderlik etmiştir. Rachel bir AWS kıdemli konuşmacısıdır ve AWS re:Invent, NVIDIA GTC, KDD ve MLOps Summit gibi önemli konferanslarda konuşma yapmıştır. AWS'ye katılmadan önce Rachel, doğal dil işleme modelleri oluşturan bir makine öğrenimi mühendisi olarak çalıştı. İş dışında yogadan, frizbiden, kitap okumaktan ve seyahat etmekten hoşlanıyor.
Watson Srivathsan AWS'nin doğal dil işleme hizmeti olan Amazon Translate'in Baş Ürün Yöneticisidir. Hafta sonları, onu Kuzeybatı Pasifik'te açık havada keşfederken bulacaksınız.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- EVM Finans. Merkezi Olmayan Finans için Birleşik Arayüz. Buradan Erişin.
- Kuantum Medya Grubu. IR/PR Güçlendirilmiş. Buradan Erişin.
- PlatoAiStream. Web3 Veri Zekası. Bilgi Genişletildi. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :vardır
- :dır-dir
- :Neresi
- $UP
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- Hakkımızda
- hızlandırıcı
- erişim
- ulaşılabilir
- Hesap
- doğruluk
- tam olarak
- Elde Ediyor
- Hareket
- Action
- aktif
- adres
- benimsemek
- benimsenen
- Sonra
- AI
- AI / ML
- amaç
- Türkiye
- izin vermek
- veriyor
- boyunca
- Ayrıca
- her zaman
- Amazon
- Amazon Tercüme
- Amazon Web Servisleri
- an
- analizler
- analytics
- çözümlemek
- ve
- API'ler
- uygulamalı
- Uygulanması
- mimari
- ARE
- etrafında
- AS
- At
- Yazarlar
- Oto
- Otomatik
- otomatik olarak
- mevcut
- ortalama
- önlemek
- AWS
- AWS Makine Öğrenimi
- AWS re: İcat
- arka fon
- merkezli
- BE
- olmuştur
- önce
- kıyaslama
- İYİ
- en iyi uygulamalar
- Daha iyi
- arasında
- kitap
- Kitaplar
- her ikisi de
- inşa etmek
- bina
- yapılı
- iş
- by
- hesaplar
- Cambridge
- CAN
- Carnegie Mellon
- meydan okuma
- zorluklar
- zor
- değişiklikler
- Kontrol
- Çince
- Klinik
- kod
- Toplamak
- Sütun
- COM
- yorumlar
- karşılaştırıldığında
- tamamlamak
- karmaşık
- bilgisayar
- Bilgisayar görüşü
- yürütülen
- konferanslar
- oluşan
- oluşur
- konsolos
- kurmak
- içermek
- içeren
- içerik
- devamlı olarak
- maliyetler
- Kurs
- çevrimiçi kurslar düzenliyorlar.
- oluşturma
- görenek
- Müşteriler
- özelleştirmek
- özelleştirilmiş
- veri
- Veri Analizi
- veri bilimi
- veri kümeleri
- Tarih
- derin
- derin öğrenme
- tanımlı
- teslim etmek
- göstermek
- tanım
- belirlenen
- tasarımlar
- İstediğiniz
- belge
- evraklar
- sürücü
- sırasında
- her
- Efekt
- etki
- verim
- Elektronik
- gayret
- mühendis
- Mühendislik
- İngilizce
- sağlamak
- kişiler
- tahmin
- değerlendirme
- herkes
- örnek
- örnekler
- infaz
- mevcut
- uzman
- Keşfetmek
- uzak
- Özellikler(Hazırlık aşamasında)
- Özellikler
- geribesleme
- az
- şekil
- rakamlar
- fileto
- dosyalar
- bulmak
- Ad
- takip et
- takip etme
- İçin
- Airdrop Formu
- biçim
- dört
- itibaren
- daha fazla
- gelecek
- oluşturmak
- oluşturulan
- sınıf
- vermek
- yardımlar
- Kolları
- Var
- he
- yardımcı olur
- Yüksek kaliteli
- daha yüksek
- onu
- tutar
- ev sahibi
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- http
- HTTPS
- insan
- Kimlik
- iyileştirmek
- iyileşme
- geliştirme
- in
- Dahil olmak üzere
- başlatmak
- giriş
- örnek
- Enstitü
- talimatlar
- interaktif
- ilgili
- içine
- IT
- Japonca
- İş
- Mesleki Öğretiler
- birleştirme
- jpg
- tuttu
- Koreli
- dil
- Diller
- başlatmak
- önemli
- öğrenme
- Ayrılmak
- çizgi
- Liste
- makine
- makine öğrenme
- yapılmış
- Bakımı
- yapmak
- YAPAR
- yönetim
- müdür
- massachusetts
- Massachusetts Teknoloji Enstitüsü
- Maç
- matematik
- ölçmek
- Mellon
- yöntem
- yöntemleri
- ML
- MLO'lar
- model
- modelleri
- izlemek
- Daha
- çoğu
- çoklu
- Music
- şart
- isim
- Doğal (Madenden)
- Doğal Dil İşleme
- gerek
- ihtiyaçlar
- yeni
- numara
- Nvidia
- hedefleri
- of
- on
- ONE
- Online
- bir tek
- açık kaynak
- Operasyon
- or
- Diğer
- açık havada
- çıktı
- dışında
- Üstesinden gelmek
- Pasifik
- çift
- çiftleri
- Paralel
- geçer
- performans
- izin
- izinleri
- boru hattı
- ağladım
- Platon
- Plato Veri Zekası
- PlatoVeri
- Lütfen
- politikaları
- politika
- Portekizce
- Çivi
- uygulamalar
- hazırlanmış
- mevcut
- önceki
- Anapara
- süreç
- İşlenmiş
- işleme
- Üretilmiş
- PLATFORM
- ürün müdürü
- Ilerleme
- sağlar
- sağlama
- halka açık
- koymak
- pytorch
- kalite
- Sorular
- RE
- Okumak
- Okuma
- hazır
- Gerçek dünya
- gerçek zaman
- tavsiye etmek
- yinelenen
- azaltmak
- bağıl
- uygun
- temsil
- kaynak
- Kaynaklar
- yanıt
- Sonuçlar
- yorum
- Rol
- rolleri
- koşmak
- sagemaker
- aynı
- Bilim
- bilim adamı
- Gol
- İkinci
- Bölüm
- bölümler
- bölüm
- segmentler
- seçilmiş
- kıdemli
- hizmet
- Hizmetler
- set
- o
- gösterilen
- Gösteriler
- Basit
- So
- şu ana kadar
- çözüm
- Çözümler
- Kaynak
- İspanyolca
- konuşmacı
- konuşulan
- stanford
- Stanford Üniversitesi
- Açıklama
- Durum
- adım
- Basamaklar
- hafızası
- mağaza
- Stratejik
- stil
- böyle
- Zirve
- Destek
- senkronizasyon
- ısmarlama
- Hedef
- Teknik
- Teknoloji
- tensorflow
- test edilmiş
- ders kitabı
- göre
- o
- The
- Gelecek
- Kaynak
- Dünya
- sonra
- Bunlar
- Re-Tweet
- Bu
- zaman
- için
- üst
- geleneksel
- eğitilmiş
- Eğitim
- çevirmek
- Çeviri
- Seyahat
- Güven
- Tsinghua
- Türkce
- iki
- tipik
- nihai
- anlayış
- Üniversiteler
- üniversite
- Cambridge Üniversitesi
- Güncelleme
- güncellenmiş
- Güncellemeler
- Yükleme
- kullanım
- Kullanılmış
- kullanma
- versiyon
- Vietnam
- vizyonumuz
- Watson
- Yol..
- we
- ağ
- web hizmetleri
- karşılama
- İYİ
- ne zaman
- hangi
- süre
- irade
- ile
- olmadan
- İş
- işlenmiş
- çalışma
- Dünya
- yazılı
- Yoga
- Sen
- zefirnet