Merüljön el a mély tanulásban (D2L.ai) egy nyílt forráskódú tankönyv, amely mindenki számára elérhetővé teszi a mélyreható tanulást. Interaktív Jupyter notebookokat tartalmaz önálló kóddal a PyTorch, a JAX, a TensorFlow és az MXNet nyelveken, valamint valós példákat, bemutatási ábrákat és matematikát. Eddig a D2L-t több mint 400 egyetem alkalmazta szerte a világon, mint például a Cambridge-i Egyetem, a Stanford Egyetem, a Massachusetts Institute of Technology, a Carnegie Mellon Egyetem és a Tsinghua Egyetem. Ez a munka kínai, japán, koreai, portugál, török és vietnami nyelven is elérhető, a tervek szerint spanyol és más nyelveken is megjelenhet.
Nagy kihívást jelent egy olyan online könyv, amelyet folyamatosan frissítenek, több szerző ír, és több nyelven is elérhető. Ebben a bejegyzésben egy olyan megoldást mutatunk be, amelyet a D2L.ai használt a kihívás kezelésére azáltal, hogy a Aktív egyéni fordítás (ACT) funkció of Amazon Translate és egy többnyelvű automatikus fordítási folyamat kiépítése.
Bemutatjuk, hogyan kell használni a AWS felügyeleti konzol és a Amazon Translate nyilvános API az automatikus gépi kötegelt fordítás biztosításához, valamint a fordítások elemzéséhez két nyelvpár között: angol és kínai, valamint angol és spanyol. Javasoljuk továbbá a legjobb gyakorlatokat az Amazon Translate ezen automatikus fordítási folyamatban való használatakor a fordítás minőségének és hatékonyságának biztosítása érdekében.
Megoldás áttekintése
Automatikus fordítási folyamatokat építettünk több nyelvhez az Amazon Translate ACT funkciójával. Az ACT lehetővé teszi a fordítási kimenet menet közbeni testreszabását, testreszabott fordítási példák formájában párhuzamos adatok. A párhuzamos adatok egy forrásnyelvi szöveges példák gyűjteményéből és a kívánt fordításokból állnak egy vagy több célnyelven. A fordítás során az ACT automatikusan kiválasztja a párhuzamos adatok közül a legrelevánsabb szegmenseket, és e szegmenspárok alapján menet közben frissíti a fordítási modellt. Ez olyan fordításokat eredményez, amelyek jobban illeszkednek a párhuzamos adatok stílusához és tartalmához.
Az architektúra több alfolyamatot tartalmaz; minden egyes al-csővezeték egy nyelvű fordítást kezel, például angolról kínaira, angolról spanyolra és így tovább. Több fordítási részfolyamat párhuzamosan feldolgozható. Minden egyes részfolyamatban először az Amazon Translate párhuzamos adatait építjük fel az ember által fordított D2L könyvekből származó, szegélyezett fordítási példák kiváló minőségű adatkészletének felhasználásával. Ezután menet közben, futás közben generáljuk a személyre szabott gépi fordítási kimenetet, ami jobb minőséget és pontosságot ér el.
A következő szakaszokban bemutatjuk, hogyan kell minden egyes fordítási folyamatot felépíteni az Amazon Translate és az ACT segítségével Amazon SageMaker és a Amazon egyszerű tárolási szolgáltatás (Amazon S3).
Először a forrásdokumentumokat, a referenciadokumentumokat és a párhuzamos adattanulási készletet helyezzük egy S3-as vödörbe. Ezután Jupyter-jegyzetfüzeteket építünk a SageMakerben, hogy az Amazon Translate nyilvános API-k segítségével lehessen futtatni a fordítási folyamatot.
Előfeltételek
A bejegyzés lépéseinek követéséhez győződjön meg arról, hogy rendelkezik AWS-fiókkal a következőkkel:
- Hozzáférés AWS Identity and Access Management (IAM) a szerep- és házirend-konfigurációhoz
- Hozzáférés az Amazon Translate-hez, a SageMaker-hez és az Amazon S3-hoz
- Egy S3 vödör a forrásdokumentumok, referenciadokumentumok, párhuzamos adatkészletek és a fordítás kimenetének tárolására
Hozzon létre IAM-szerepet és szabályzatokat az Amazon Translate számára az ACT segítségével
IAM-szerepünknek tartalmaznia kell egy egyéni bizalmi szabályzatot az Amazon Translate számára:
Ennek a szerepkörnek rendelkeznie kell egy jogosultsági szabályzattal is, amely olvasási hozzáférést biztosít az Amazon Translate számára az Amazon S3 bemeneti mappájához és almappáihoz, amelyek a forrásdokumentumokat tartalmazzák, valamint olvasási/írási hozzáférést a kimeneti S3 tárolóhoz és a lefordított dokumentumokat tartalmazó mappához:
A Jupyter-jegyzetfüzetek SageMakerben való futtatásához a fordítási feladatokhoz egy soron belüli engedélyházirendet kell biztosítanunk a SageMaker végrehajtási szerepkörhöz. Ez a szerepkör átadja az Amazon Translate szolgáltatási szerepkört a SageMakernek, amely lehetővé teszi a SageMaker notebookok számára, hogy hozzáférjenek a forráshoz és a lefordított dokumentumokhoz a kijelölt S3 tárolókban:
Készítsen párhuzamos adattanítási mintákat
Az ACT párhuzamos adatait egy bemeneti fájlnak kell betanítania, amely szöveges példapárok listájából áll, például egy forrásnyelv (angol) és egy célnyelv (kínai) párból. A bemeneti fájl lehet TMX, CSV vagy TSV formátumban. A következő képernyőkép egy CSV beviteli fájl példáját mutatja be. Az első oszlop a forrásnyelvi adatok (angol nyelven), a második oszlop a célnyelvi adatok (kínai nyelven). A következő példa a D2L-en könyvből és a D2L-zh könyvből származik.
Végezzen egyéni párhuzamos adatképzést az Amazon Translate szolgáltatásban
Először is beállítjuk az S3 vödröt és mappákat a következő képernyőképen látható módon. A source_data
a mappa a fordítás előtti forrásdokumentumokat tartalmazza; a kötegelt fordítás után generált dokumentumok a kimeneti mappába kerülnek. A ParallelData
mappa tartalmazza az előző lépésben elkészített párhuzamos adatbeviteli fájlt.
Miután feltöltötte a bemeneti fájlokat a source_data
mappát, használhatjuk a CreateParallelData API párhuzamos adatlétrehozási feladat futtatásához az Amazon Translate szolgáltatásban:
A meglévő párhuzamos adatok új képzési adatkészletekkel történő frissítéséhez használhatjuk a Frissítse a ParallelData API-t:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Az Amazon Translate konzolon ellenőrizhetjük a képzési munka előrehaladását. Amikor a feladat befejeződött, a párhuzamos adatok állapota a következőképpen jelenik meg: Aktív és használatra kész.
Futtassa az aszinkron kötegelt fordítást párhuzamos adatok használatával
A kötegelt fordítás végrehajtható egy olyan folyamatban, amelyben több forrásdokumentum automatikusan lefordításra kerül a célnyelvű dokumentumokká. A folyamat abból áll, hogy a forrásdokumentumokat feltöltjük az S3 vödör bemeneti mappájába, majd alkalmazzuk a StartTextTranslationJob API az Amazon Translate aszinkronizált fordítási feladat kezdeményezéséhez:
Öt angol nyelvű forrásdokumentumot választottunk ki a D2L könyvből (D2L-en) a tömeges fordításhoz. Az Amazon Translate konzolon nyomon követhetjük a fordítási munka előrehaladását. Amikor a munka állapota a következőre változik Befejezett, a kínai nyelvre (D2L-zh) lefordított dokumentumokat az S3 vödör kimeneti mappájában találjuk.
Értékelje a fordítás minőségét
Az Amazon Translate ACT funkciójának hatékonyságának bemutatása érdekében az Amazon Translate valós idejű, párhuzamos adatok nélküli fordításának hagyományos módszerét is alkalmaztuk ugyanazon dokumentumok feldolgozásához, és összehasonlítottuk a kimenetet az ACT-vel végzett kötegelt fordítási kimenettel. A BLEU (BiLingual Evaluation Understudy) pontszámot használtuk a két módszer fordítási minőségének összehasonlítására. Az egyetlen módja annak, hogy pontosan mérjük a gépi fordítási eredmények minőségét, ha szakértői értékelést végeznek, és minősítik a minőséget. A BLEU azonban becslést ad a két kimenet közötti relatív minőségjavulásról. A BLEU pontszám általában 0 és 1 közötti szám; kiszámítja a gépi fordítás hasonlóságát a referencia emberi fordításhoz. A magasabb pontszám jobb minőséget jelent a természetes nyelv megértésében (NLU).
Négy folyamatban teszteltünk egy dokumentumkészletet: angolból kínaira (en - zh), kínaiból angolra (zh - en), angolból spanyolra (en - es), és spanyolból angolra (es - en). A következő ábra azt mutatja, hogy az ACT-vel végzett fordítás magasabb átlagos BLEU-pontszámot eredményezett az összes fordítási folyamatban.
Azt is megfigyeltük, hogy minél szemcsésebbek a párhuzamos adatpárok, annál jobb a fordítási teljesítmény. Például a következő párhuzamos adatbeviteli fájlt használjuk bekezdéspárokkal, amely 10 bejegyzést tartalmaz.
Ugyanerre a tartalomra a következő párhuzamos adatbeviteli fájlt használjuk mondatpárokkal és 16 bejegyzéssel.
Mindkét párhuzamos adatbeviteli fájlt használtuk két párhuzamos adatentitás létrehozásához az Amazon Translate programban, majd két kötegelt fordítási feladatot hoztunk létre ugyanazzal a forrásdokumentummal. A következő ábra a kimeneti fordításokat hasonlítja össze. Megmutatja, hogy a mondatpárokat tartalmazó párhuzamos adatokat használó kimenet jobb teljesítményt nyújtott a párhuzamos adatokat használó, bekezdéspáros adatokkal mind az angol-kínai, mind a kínai-angol fordítás esetében.
Ha többet szeretne megtudni ezekről a benchmark elemzésekről, tekintse meg a következőt: Automatikus gépi fordítás és szinkronizálás a „Dive into Deep Learning”-hez.
Tisztítsuk meg
A jövőbeni ismétlődő költségek elkerülése érdekében javasoljuk, hogy tisztítsa meg a létrehozott erőforrásokat:
- Az Amazon Translate konzolon válassza ki a létrehozott párhuzamos adatokat, és válassza ki töröl. Alternatív megoldásként használhatja a DeleteParallelData API vagy a AWS parancssori interfész (AWS CLI) párhuzamos adatok törlése parancsot a párhuzamos adatok törléséhez.
- Törölje az S3 tartályt forrás- és referenciadokumentumok, lefordított dokumentumok és párhuzamos adatbeviteli fájlok tárolására szolgál.
- Törölje az IAM-szerepet és szabályzatot. Az utasításokat lásd Szerepkörök vagy példányprofilok törlése és a IAM-irányelvek törlése.
Következtetés
Ezzel a megoldással az a célunk, hogy az emberi fordítók leterheltségét 80%-kal csökkentsük, miközben megőrizzük a fordítási minőséget és több nyelvet is támogatunk. Ezzel a megoldással javíthatja fordítása minőségét és hatékonyságát. Dolgozunk a megoldás architektúrájának és a fordítási minőség további javításán más nyelveken.
Visszajelzését mindig szívesen fogadjuk; kérjük, hagyja meg gondolatait és kérdéseit a megjegyzés rovatban.
A szerzőkről
Yunfei Bai az AWS vezető megoldási építésze. Az AI/ML, adattudományi és elemzési háttérrel rendelkező Yunfei segít az ügyfeleknek az AWS-szolgáltatások elfogadásában az üzleti eredmények elérése érdekében. Olyan AI/ML és adatelemzési megoldásokat tervez, amelyek leküzdik az összetett technikai kihívásokat, és stratégiai célkitűzéseket hajtanak végre. Yunfei elektronikai és villamosmérnöki doktori fokozattal rendelkezik. A munkán kívül Yunfei szeret olvasni és zenélni.
Rachel Hu az AWS Machine Learning University (MLU) alkalmazott tudósa. Vezetett néhány kurzustervet, köztük az ML Operations (MLOps) és az Accelerator Computer Vision programokat. Rachel az AWS vezető előadója, és olyan vezető konferenciákon lépett fel, mint az AWS re:Invent, az NVIDIA GTC, a KDD és az MLOps Summit. Mielőtt csatlakozott volna az AWS-hez, Rachel gépi tanulási mérnökként dolgozott természetes nyelvi feldolgozási modellek felépítésében. Munkán kívül szeret jógázni, frizbit, olvasni és utazni.
Watson Srivathsan az Amazon Translate, az AWS természetes nyelvi feldolgozó szolgáltatásának fő termékmenedzsere. Hétvégén a szabadban felfedezheti a Csendes-óceán északnyugati részén.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- EVM Finance. Egységes felület a decentralizált pénzügyekhez. Hozzáférés itt.
- Quantum Media Group. IR/PR erősített. Hozzáférés itt.
- PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :van
- :is
- :ahol
- $ UP
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- Rólunk
- gázpedál
- hozzáférés
- hozzáférhető
- Fiók
- pontosság
- pontosan
- ér
- törvény
- Akció
- aktív
- cím
- elfogadja
- fogadott
- Után
- AI
- AI / ML
- cél
- Minden termék
- lehetővé
- lehetővé teszi, hogy
- mentén
- Is
- mindig
- amazon
- Amazon Translate
- Az Amazon Web Services
- an
- elemzések
- analitika
- elemez
- és a
- API-k
- alkalmazott
- Alkalmazása
- építészet
- VANNAK
- körül
- AS
- At
- szerzők
- auto
- Automatikus
- automatikusan
- elérhető
- átlagos
- elkerülése érdekében
- AWS
- AWS gépi tanulás
- AWS re:Invent
- háttér
- alapján
- BE
- óta
- előtt
- benchmark
- BEST
- legjobb gyakorlatok
- Jobb
- között
- könyv
- Könyvek
- mindkét
- épít
- Épület
- épült
- üzleti
- by
- kiszámítja
- Cambridge
- TUD
- Carnegie Mellon
- kihívás
- kihívások
- kihívást
- Változások
- ellenőrizze
- kínai
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- kód
- gyűjtemény
- Oszlop
- COM
- Hozzászólások
- képest
- teljes
- bonyolult
- számítógép
- Számítógépes látás
- lefolytatott
- konferenciák
- Összeáll
- áll
- Konzol
- konstrukció
- tartalmaz
- tartalmaz
- tartalom
- folyamatosan
- kiadások
- Tanfolyam
- készítette
- teremtés
- szokás
- Ügyfelek
- testre
- szabott
- dátum
- Adatelemzés
- adat-tudomány
- adatkészletek
- találka
- mély
- mély tanulás
- meghatározott
- szállít
- bizonyítani
- leírás
- kijelölt
- tervek
- kívánatos
- dokumentum
- dokumentumok
- hajtás
- alatt
- minden
- hatás
- hatékonyság
- hatékonyság
- Elektronikus
- törekvés
- mérnök
- Mérnöki
- Angol
- biztosítására
- Szervezetek
- becslés
- értékelés
- mindenki
- példa
- példák
- végrehajtás
- létező
- szakértő
- Feltárása
- messze
- Funkció
- Jellemzők
- Visszacsatolás
- kevés
- Ábra
- ábrák
- filé
- Fájlok
- Találjon
- vezetéknév
- következik
- következő
- A
- forma
- formátum
- négy
- ból ből
- további
- jövő
- generál
- generált
- fokozat
- biztosít
- támogatások
- Fogantyúk
- Legyen
- he
- segít
- jó minőségű
- <p></p>
- őt
- tart
- vendéglátó
- Hogyan
- How To
- azonban
- HTML
- http
- HTTPS
- emberi
- Identitás
- javul
- javulás
- javuló
- in
- Beleértve
- kezdeményez
- bemenet
- példa
- Intézet
- utasítás
- interaktív
- érdekelt
- bele
- IT
- japán
- Munka
- Állások
- csatlakozott
- jpg
- tartotta
- koreai
- nyelv
- Nyelvek
- indít
- vezető
- tanulás
- Szabadság
- vonal
- Lista
- gép
- gépi tanulás
- készült
- fenntartása
- csinál
- KÉSZÍT
- vezetés
- menedzser
- Massachusetts
- Massachusetts Institute of Technology
- Mérkőzés
- matematikai
- intézkedés
- Mellon
- módszer
- mód
- ML
- MLOps
- modell
- modellek
- monitor
- több
- a legtöbb
- többszörös
- zene
- kell
- név
- Természetes
- Természetes nyelvi feldolgozás
- Szükség
- igények
- Új
- szám
- Nvidia
- célok
- of
- on
- ONE
- online
- csak
- nyílt forráskódú
- Művelet
- or
- Más
- szabadban
- teljesítmény
- kívül
- Overcome
- Csendes-óceán
- pár
- párok
- Párhuzamos
- bérletek
- teljesítmény
- engedély
- engedélyek
- csővezeték
- tervek
- Plató
- Platón adatintelligencia
- PlatoData
- kérem
- Politikák
- politika
- portugál
- állás
- gyakorlat
- előkészített
- be
- előző
- Fő
- folyamat
- Feldolgozott
- feldolgozás
- Készült
- Termékek
- termék menedzser
- Haladás
- biztosít
- amely
- nyilvános
- tesz
- pytorch
- világítás
- Kérdések
- RE
- Olvass
- Olvasás
- kész
- való Világ
- real-time
- ajánl
- ismétlődő
- csökkenteni
- relatív
- jelentése
- forrás
- Tudástár
- válasz
- Eredmények
- Kritika
- Szerep
- szerepek
- futás
- sagemaker
- azonos
- Tudomány
- Tudós
- pontszám
- Második
- Rész
- szakaszok
- részes
- szegmensek
- kiválasztott
- idősebb
- szolgáltatás
- Szolgáltatások
- készlet
- ő
- mutatott
- Műsorok
- Egyszerű
- So
- eddig
- megoldások
- Megoldások
- forrás
- spanyol
- Hangszóró
- beszélt
- Stanford
- Stanford Egyetem
- nyilatkozat
- Állapot
- Lépés
- Lépései
- tárolás
- tárolni
- Stratégiai
- stílus
- ilyen
- Csúcstalálkozó
- Támogató
- összehangolás
- szabott
- cél
- Műszaki
- Technológia
- tensorflow
- kipróbált
- tankönyv
- mint
- hogy
- A
- A jövő
- The Source
- a világ
- akkor
- Ezek
- ezt
- azok
- idő
- nak nek
- felső
- hagyományos
- kiképzett
- Képzések
- fordít
- Fordítás
- Utazó
- Bízzon
- Tsinghua
- török
- kettő
- jellemzően
- végső
- megértés
- Egyetemek
- egyetemi
- cambridge-i egyetem
- Frissítések
- frissítve
- Frissítés
- Feltöltés
- használ
- használt
- segítségével
- változat
- vietnami
- látomás
- Watson
- Út..
- we
- háló
- webes szolgáltatások
- fogadtatás
- JÓL
- amikor
- ami
- míg
- lesz
- val vel
- nélkül
- Munka
- dolgozott
- dolgozó
- világ
- írott
- Jóga
- te
- A te
- zephyrnet