Sukeldu süvaõppesse (D2L.ai) on avatud lähtekoodiga õpik, mis teeb süvaõppe kõigile kättesaadavaks. Sellel on interaktiivsed Jupyteri sülearvutid koos PyTorchi, JAXi, TensorFlow ja MXNeti iseseisva koodiga, samuti reaalmaailma näited, ekspositsioonifiguurid ja matemaatika. Seni on D2L-i kasutusele võtnud rohkem kui 400 ülikooli üle maailma, nagu Cambridge'i ülikool, Stanfordi ülikool, Massachusettsi tehnoloogiainstituut, Carnegie Melloni ülikool ja Tsinghua ülikool. See teos on saadaval ka hiina, jaapani, korea, portugali, türgi ja vietnami keeles ning kavas on käivitada hispaania ja muud keeled.
Pidevalt ajakohastatud, mitme autori kirjutatud ja mitmes keeles saadaval olev veebiraamat on keeruline ettevõtmine. Selles postituses tutvustame lahendust, mida D2L.ai kasutas selle väljakutse lahendamiseks, kasutades Aktiivne kohandatud tõlke (ACT) funktsioon of Amazoni tõlge ja mitmekeelse automaattõlke torujuhtme ehitamine.
Näitame, kuidas kasutada AWS-i juhtimiskonsool ja Amazon Translate avalik API automaatse pakktõlke pakkumiseks ja tõlgete analüüsimiseks kahe keelepaari vahel: inglise ja hiina ning inglise ja hispaania keel. Soovitame ka parimaid tavasid Amazon Translate'i kasutamisel selles automaattõlke torujuhtmes, et tagada tõlke kvaliteet ja tõhusus.
Lahenduse ülevaade
Ehitasime Amazon Translate'i ACT-funktsiooni abil mitme keele jaoks automaatsed tõlkekonveierid. ACT võimaldab teil kohandada tõlkeväljundit lennult, pakkudes kohandatud tõlkenäiteid kujul paralleelsed andmed. Paralleelandmed koosnevad tekstinäidete kogumist lähtekeeles ja soovitud tõlgetest ühes või mitmes sihtkeeles. Tõlkimise ajal valib ACT paralleelandmete hulgast automaatselt kõige asjakohasemad segmendid ja värskendab tõlkemudelit nende segmendipaaride põhjal. Selle tulemuseks on tõlked, mis sobivad paremini paralleelandmete stiili ja sisuga.
Arhitektuur sisaldab mitut alamkonveierit; iga alamkonveier tegeleb ühe keele tõlkega, näiteks inglise keelest hiina keelde, inglise keelest hispaania keelde ja nii edasi. Paralleelselt saab töödelda mitut tõlke alamkonveierit. Igas alamtorus loome esmalt Amazon Translate'i paralleelandmed, kasutades inimeste poolt tõlgitud D2L-raamatute sabadega tõlkenäidete kvaliteetset andmekogumit. Seejärel genereerime kohandatud masintõlke väljundi jooksvalt käitusajal, mis tagab parema kvaliteedi ja täpsuse.
Järgmistes jaotistes näitame, kuidas luua iga tõlkekonveier, kasutades Amazon Translate'i koos ACT-ga koos Amazon SageMaker ja Amazoni lihtne salvestusteenus (Amazon S3).
Esiteks panime S3 ämbrisse algdokumendid, viitedokumendid ja paralleelsed andmeõppekomplektid. Seejärel loome SageMakeris Jupyteri märkmikud, et käitada tõlkeprotsessi Amazon Translate'i avalike API-de abil.
Eeldused
Selle postituse juhiste järgimiseks veenduge, et teil oleks AWS-i konto, millel on järgmised andmed.
- Juurdepääsu AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rolli ja poliitika konfigureerimiseks
- Juurdepääs Amazon Translate'ile, SageMakerile ja Amazon S3-le
- S3 ämber lähtedokumentide, viitedokumentide, paralleelsete andmekogumite ja tõlkeväljundi salvestamiseks
Looge ACT-ga Amazon Translate'i jaoks IAM-i roll ja eeskirjad
Meie IAM-i roll peab sisaldama Amazon Translate'i kohandatud usalduspoliitikat:
Sellel rollil peab olema ka lubade poliitika, mis annab Amazon Translate'ile lugemisõiguse sisendkaustale ja Amazon S3 alamkaustadele, mis sisaldavad lähtedokumente, ning lugemis-/kirjutusjuurdepääsu väljund S3 ämbrile ja kaustale, mis sisaldab tõlgitud dokumente:
Jupyteri märkmike käitamiseks SageMakeris tõlketööde jaoks peame andma SageMakeri täitmisrollile tekstisisese loapoliitika. See roll annab Amazon Translate'i teenuserolli üle SageMakerile, mis võimaldab SageMakeri sülearvutitel pääseda juurde lähte- ja tõlgitud dokumentidele määratud S3 ämbrites:
Valmistage ette paralleelsed andmeõppe näidised
ACT paralleelandmeid tuleb koolitada sisendfaili abil, mis koosneb tekstinäitepaaride loendist, näiteks lähtekeele (inglise) ja sihtkeele (hiina) paarist. Sisendfail võib olla TMX-, CSV- või TSV-vormingus. Järgmisel ekraanipildil on CSV-sisendfaili näide. Esimene veerg on lähtekeele andmed (inglise keeles) ja teine veerg sihtkeele andmed (hiina keeles). Järgmine näide on välja võetud raamatust D2L-en ja D2L-zh.
Tehke Amazon Translate'is kohandatud paralleelandmete koolitus
Esiteks seadistasime S3 ämbri ja kaustad, nagu on näidatud järgmisel ekraanipildil. The source_data
kaust sisaldab algdokumente enne tõlget; genereeritud dokumendid pärast pakktõlget pannakse väljundkausta. The ParallelData
kaust sisaldab eelmises etapis koostatud paralleelset andmesisestusfaili.
Pärast sisendfailide üleslaadimist source_data
kausta, saame kasutada Loo ParallelData API paralleelse andmete loomise töö käivitamiseks Amazon Translate'is:
Olemasolevate paralleelandmete värskendamiseks uute treeningandmete kogumitega saame kasutada Uuenda ParallelData API-d:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Koolitustöö edenemist saame kontrollida Amazon Translate'i konsoolil. Kui töö on lõpetatud, kuvatakse paralleelandmete olek kujul aktiivne ja on kasutamiseks valmis.
Käivitage paralleelandmete abil asünkroonitud pakktõlge
Pakettõlget saab läbi viia protsessis, kus mitu algdokumenti tõlgitakse automaatselt sihtkeelte dokumentideks. Protsess hõlmab lähtedokumentide üleslaadimist S3 ämbri sisendkausta ja seejärel rakenduse rakendamist StartTextTranslationJob API Amazon Translate'ist asünkroniseeritud tõlketöö algatamiseks:
Hulgitõlke jaoks valisime D2L-i raamatust (D2L-en) viis ingliskeelset algdokumenti. Amazon Translate'i konsoolis saame jälgida tõlketöö edenemist. Kui töö staatus muutub Lõpetatud, leiame hiina keelde (D2L-zh) tõlgitud dokumendid S3 ämbri väljundkaustast.
Hinda tõlke kvaliteeti
Amazon Translate'i ACT-funktsiooni tõhususe demonstreerimiseks kasutasime samade dokumentide töötlemiseks ka traditsioonilist Amazon Translate'i reaalajas tõlkimise meetodit ilma paralleelsete andmeteta ja võrdlesime väljundit ACT-ga paketttõlke väljundiga. Kasutasime kahe meetodi tõlkekvaliteedi võrdlemiseks BLEU (BiLingual Evaluation Understudy) skoori. Ainus viis masintõlke väljundi kvaliteedi täpseks mõõtmiseks on eksperthinnang ja kvaliteedi hindamine. BLEU annab aga hinnangu kahe väljundi suhtelise kvaliteedi paranemise kohta. BLEU skoor on tavaliselt arv vahemikus 0–1; see arvutab masintõlke sarnasuse inimese võrdlustõlkega. Kõrgem skoor näitab loomuliku keele mõistmise (NLU) paremat kvaliteeti.
Oleme testinud dokumentide komplekti neljas konveier: inglise keelest hiina keelde (en kuni zh), hiina keelest inglise keelde (zh kuni en), inglise keelest hispaania keelde (en kuni es) ja hispaania keelest inglise keelde (es kuni en). Järgmine joonis näitab, et ACT-ga tõlge andis kõigis tõlkekonveierites kõrgema keskmise BLEU skoori.
Samuti täheldasime, et mida detailsemad on paralleelsed andmepaarid, seda parem on tõlke jõudlus. Näiteks kasutame järgmist paralleelset andmesisestusfaili koos lõigupaaridega, mis sisaldab 10 kirjet.
Sama sisu jaoks kasutame järgmist paralleelset andmesisestusfaili, milles on lausepaarid ja 16 kirjet.
Kasutasime mõlemat paralleelset andmesisestusfaili, et luua Amazon Translate'is kaks paralleelset andmeolemit, seejärel lõime kaks paketttõlketööd sama lähtedokumendiga. Järgmisel joonisel võrreldakse väljundi tõlkeid. See näitab, et lausepaaridega paralleelandmeid kasutav väljund ületas nii inglise-hiina tõlke kui ka hiina-ingliskeelse tõlke puhul paralleelandmeid kasutavast väljundist, millel on lõigupaarid.
Kui soovite nende võrdlusanalüüside kohta rohkem teada saada, vaadake Automaatne masintõlge ja sünkroonimine "Sukelduge süvaõppesse".
Koristage
Korduvate kulude vältimiseks tulevikus soovitame teil loodud ressursid puhastada.
- Valige Amazon Translate'i konsoolis loodud paralleelandmed ja valige kustutama. Teise võimalusena võite kasutada DeleteParallelData API või AWS-i käsurea liides (AWS CLI) kustuta-parallel-andmed paralleelandmete kustutamise käsk.
- Kustutage S3 ämber kasutatakse lähte- ja viitedokumentide, tõlgitud dokumentide ja paralleelsete andmesisestusfailide majutamiseks.
- Kustutage IAM-i roll ja poliitika. Juhiste saamiseks vaadake Rollide või eksemplariprofiilide kustutamine ja IAM-eeskirjade kustutamine.
Järeldus
Selle lahendusega soovime vähendada inimtõlkijate töökoormust 80% võrra, säilitades samal ajal tõlkekvaliteedi ja toetades mitut keelt. Seda lahendust saate kasutada oma tõlke kvaliteedi ja tõhususe parandamiseks. Töötame lahenduse arhitektuuri ja tõlkekvaliteedi edasise täiustamise nimel teiste keelte jaoks.
Teie tagasiside on alati teretulnud; palun jätke oma mõtted ja küsimused kommentaaride sektsiooni.
Autoritest
Yunfei Bai on AWSi vanemlahenduste arhitekt. AI/ML-i, andmeteaduse ja analüütika taustaga Yunfei aitab klientidel äritulemuste saavutamiseks AWS-teenuseid kasutusele võtta. Ta kavandab AI/ML-i ja andmeanalüütilisi lahendusi, mis saavad üle keerulistest tehnilistest väljakutsetest ja juhivad strateegilisi eesmärke. Yunfeil on doktorikraad elektroonika- ja elektrotehnika alal. Väljaspool tööd naudib Yunfei lugemist ja muusikat.
Rachel Hu on AWS masinõppe ülikooli (MLU) rakendusteadlane. Ta on juhtinud mõnda kursuse kavandamist, sealhulgas ML Operations (MLOps) ja Accelerator Computer Vision. Rachel on AWS-i vanemesineja ja on esinenud tippkonverentsidel, sealhulgas AWS re:Invent, NVIDIA GTC, KDD ja MLOps Summit. Enne AWS-iga liitumist töötas Rachel masinõppeinsenerina, kes ehitas loomuliku keele töötlemise mudeleid. Väljaspool tööd naudib ta joogat, ülimat frisbet, lugemist ja reisimist.
Watson Srivathsan on AWS-i loomuliku keele töötlemise teenuse Amazon Translate peamine tootejuht. Nädalavahetustel leiate ta Vaikse ookeani loodeosas õues avastamas.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- EVM Finance. Detsentraliseeritud rahanduse ühtne liides. Juurdepääs siia.
- Quantum Media Group. IR/PR võimendatud. Juurdepääs siia.
- PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :on
- :on
- : kus
- $ UP
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- MEIST
- kiirendi
- juurdepääs
- juurdepääsetav
- konto
- täpsus
- täpselt
- Saavutab
- tegu
- tegevus
- aktiivne
- aadress
- vastu võtma
- vastu
- pärast
- AI
- AI / ML
- eesmärk
- Materjal: BPA ja flataatide vaba plastik
- võimaldama
- võimaldab
- mööda
- Ka
- alati
- Amazon
- Amazoni tõlge
- Amazon Web Services
- an
- analüüsid
- analytics
- analüüsima
- ja
- API-liidesed
- rakendatud
- Rakendades
- arhitektuur
- OLEME
- ümber
- AS
- At
- autorid
- auto
- Automaatne
- automaatselt
- saadaval
- keskmine
- vältima
- AWS
- AWS-i masinõpe
- AWS re: leiutada
- tagapõhi
- põhineb
- BE
- olnud
- enne
- võrrelda
- BEST
- parimaid tavasid
- Parem
- vahel
- raamat
- Raamatud
- mõlemad
- ehitama
- Ehitus
- ehitatud
- äri
- by
- arvutab
- Cambridge
- CAN
- Carnegie Mellon
- väljakutse
- väljakutseid
- raske
- Vaidluste lahendamine
- kontrollima
- hiina
- Vali
- kood
- kogumine
- Veerg
- COM
- kommentaarid
- võrreldes
- täitma
- keeruline
- arvuti
- Arvuti visioon
- läbi
- konverentsid
- Koosneb
- koosneb
- konsool
- ehitama
- sisaldama
- sisaldab
- sisu
- pidevalt
- kulud
- Kursus
- loodud
- loomine
- tava
- Kliendid
- kohandada
- kohandatud
- andmed
- Andmete analüüs
- andmeteadus
- andmekogumid
- kuupäev
- sügav
- sügav õpe
- määratletud
- tarnima
- näitama
- kirjeldus
- määratud
- disainilahendused
- soovitud
- dokument
- dokumendid
- ajam
- ajal
- iga
- mõju
- tõhusus
- efektiivsus
- Elektrooniline
- püüdma
- insener
- Inseneriteadus
- Inglise
- tagama
- üksuste
- hinnata
- hindamine
- igaüks
- näide
- näited
- täitmine
- olemasolevate
- ekspert
- Avastades
- kaugele
- tunnusjoon
- FUNKTSIOONID
- tagasiside
- vähe
- Joonis
- arvandmed
- fail
- Faile
- leidma
- esimene
- järgima
- Järel
- eest
- vorm
- formaat
- neli
- Alates
- edasi
- tulevik
- tekitama
- loodud
- klass
- anda
- toetusi
- Varred
- Olema
- he
- aitab
- kvaliteetne
- rohkem
- teda
- omab
- võõrustaja
- Kuidas
- Kuidas
- aga
- HTML
- http
- HTTPS
- inim-
- Identity
- parandama
- paranemine
- Paranemist
- in
- Kaasa arvatud
- algatama
- sisend
- Näiteks
- Instituut
- juhised
- interaktiivne
- huvitatud
- sisse
- IT
- jaapani
- töö
- Tööturg
- liitumine
- jpg
- hoitakse
- korea
- keel
- Keeled
- algatama
- juhtivate
- õppimine
- Lahkuma
- joon
- nimekiri
- masin
- masinõpe
- tehtud
- säilitamine
- tegema
- TEEB
- juhtimine
- juht
- Massachusetts
- Massachusettsi Tehnoloogiainstituut
- Vastama
- matemaatika
- mõõtma
- Mellon
- meetod
- meetodid
- ML
- MLOps
- mudel
- mudelid
- Jälgida
- rohkem
- kõige
- mitmekordne
- muusika
- peab
- nimi
- Natural
- Natural Language Processing
- Vajadus
- vajadustele
- Uus
- number
- Nvidia
- eesmärgid
- of
- on
- ONE
- Internetis
- ainult
- avatud lähtekoodiga
- Operations
- or
- Muu
- väljas
- väljund
- väljaspool
- Ületada
- Vaikne ookean
- paar
- paari
- Parallel
- möödub
- jõudlus
- luba
- Õigused
- torujuhe
- plaanid
- Platon
- Platoni andmete intelligentsus
- PlatoData
- palun
- Poliitika
- poliitika
- portugali
- post
- tavad
- valmis
- esitada
- eelmine
- Peamine
- protsess
- Töödeldud
- töötlemine
- Toodetud
- Toode
- tootejuht
- Edu
- annab
- pakkudes
- avalik
- panema
- pütorch
- kvaliteet
- Küsimused
- RE
- Lugenud
- Lugemine
- valmis
- päris maailm
- reaalajas
- soovitama
- korduv
- vähendama
- suhteline
- asjakohane
- esindab
- ressurss
- Vahendid
- vastus
- Tulemused
- läbi
- Roll
- rollid
- jooks
- salveitegija
- sama
- teadus
- teadlane
- skoor
- Teine
- Osa
- lõigud
- segment
- segmendid
- väljavalitud
- vanem
- teenus
- Teenused
- komplekt
- ta
- näidatud
- Näitused
- lihtne
- So
- nii kaugel
- lahendus
- Lahendused
- allikas
- hispaania
- Kõneleja
- räägitud
- Stanford
- Stanfordi ülikool
- väljavõte
- olek
- Samm
- Sammud
- ladustamine
- salvestada
- Strateegiline
- stiil
- selline
- Summit
- Toetamine
- Sünkroonimine
- kohandatud
- sihtmärk
- Tehniline
- Tehnoloogia
- tensorivool
- katsetatud
- õpikut
- kui
- et
- .
- Tulevik
- Allikas
- maailm
- SIIS
- Need
- see
- need
- aeg
- et
- ülemine
- traditsiooniline
- koolitatud
- koolitus
- tõlkima
- Tõlge
- Reisimine
- Usalda
- Tsinghua
- türgi
- kaks
- tüüpiliselt
- lõplik
- mõistmine
- Ülikoolid
- Ülikool
- Cambridge'i ülikool
- Värskendused
- ajakohastatud
- Uudised
- Üleslaadimine
- kasutama
- Kasutatud
- kasutamine
- versioon
- vietnami
- nägemus
- Watson
- Tee..
- we
- web
- veebiteenused
- teretulnud
- Hästi
- millal
- mis
- kuigi
- will
- koos
- ilma
- Töö
- töötas
- töö
- maailm
- kirjalik
- jooga
- sa
- Sinu
- sephyrnet