Potopite se v poglobljeno učenje (D2L.ai) je odprtokodni učbenik, ki omogoča poglobljeno učenje dostopno vsem. Vsebuje interaktivne zvezke Jupyter z samostojno kodo v PyTorch, JAX, TensorFlow in MXNet ter primere iz resničnega sveta, predstavitvene številke in matematiko. Doslej je D2L sprejelo več kot 400 univerz po vsem svetu, kot so Univerza v Cambridgeu, Univerza Stanford, Massachusetts Institute of Technology, Univerza Carnegie Mellon in Univerza Tsinghua. To delo je na voljo tudi v kitajščini, japonščini, korejščini, portugalščini, turščini in vietnamščini, načrtujejo pa tudi španščino in druge jezike.
Imeti spletno knjigo, ki jo nenehno posodabljamo, jo je napisalo več avtorjev in je na voljo v več jezikih, je izziv. V tej objavi predstavljamo rešitev, ki jo je D2L.ai uporabil za reševanje tega izziva z uporabo Funkcija aktivnega prevajanja po meri (ACT). of Amazon prevod in izgradnja večjezičnega samodejnega prevajalskega sistema.
Pokažemo, kako uporabljati Konzola za upravljanje AWS in Javni API Amazon Translate zagotoviti samodejno strojno paketno prevajanje in analizirati prevode med dvema jezikovnima parama: angleščino in kitajščino ter angleščino in španščino. Priporočamo tudi najboljše prakse pri uporabi Amazon Translate v tem cevovodu za samodejno prevajanje, da zagotovite kakovost in učinkovitost prevoda.
Pregled rešitev
Zgradili smo samodejne prevajalske kanale za več jezikov s funkcijo ACT v Amazon Translate. ACT vam omogoča sprotno prilagajanje izhodnih prevodov z zagotavljanjem prilagojenih primerov prevodov v obliki vzporedni podatki. Vzporedni podatki so sestavljeni iz zbirke besedilnih primerov v izvornem jeziku in želenih prevodov v enem ali več ciljnih jezikih. Med prevajanjem ACT samodejno izbere najpomembnejše segmente iz vzporednih podatkov in na podlagi teh parov segmentov sproti posodablja model prevajanja. Posledica tega so prevodi, ki se bolje ujemajo s slogom in vsebino vzporednih podatkov.
Arhitektura vsebuje več podcevovodov; vsak podcevovod obravnava prevod enega jezika, kot je angleščina v kitajščino, angleščina v španščino itd. Vzporedno je mogoče obdelati več prevajalskih podcevovodov. V vsakem podcevovodu najprej zgradimo vzporedne podatke v Amazon Translate z uporabo visokokakovostnega nabora podatkov primerov prevoda z repom iz knjig D2L, ki jih je prevedel človek. Nato generiramo prilagojen izhod strojnega prevajanja sproti med izvajanjem, s čimer dosežemo boljšo kakovost in natančnost.
V naslednjih razdelkih prikazujemo, kako zgraditi vsak prevodni kanal z uporabo Amazon Translate with ACT, skupaj z Amazon SageMaker in Preprosta storitev shranjevanja Amazon (Amazon S3).
Najprej postavimo izvorne dokumente, referenčne dokumente in nabor vzporednih podatkov za usposabljanje v vedro S3. Nato v SageMakerju izdelamo zvezke Jupyter za izvajanje procesa prevajanja z uporabo javnih API-jev Amazon Translate.
Predpogoji
Če želite slediti korakom v tej objavi, se prepričajte, da imate račun AWS z naslednjim:
- Dostop do AWS upravljanje identitete in dostopa (IAM) za konfiguracijo vloge in pravilnika
- Dostop do Amazon Translate, SageMaker in Amazon S3
- Vedro S3 za shranjevanje izvornih dokumentov, referenčnih dokumentov, vzporednega nabora podatkov in rezultatov prevoda
Ustvarite vlogo IAM in pravilnike za Amazon Translate z ACT
Naša vloga IAM mora vsebovati pravilnik zaupanja po meri za Amazon Translate:
Ta vloga mora imeti tudi pravilnik o dovoljenjih, ki omogoča Amazon Translate dostop za branje do vhodne mape in podmap v Amazonu S3, ki vsebujejo izvorne dokumente, ter dostop za branje/pisanje do izhodnega vedra S3 in mape, ki vsebuje prevedene dokumente:
Če želite zagnati zvezke Jupyter v SageMakerju za prevajalska opravila, moramo izvršilni vlogi SageMaker odobriti vgrajeno politiko dovoljenj. Ta vloga prenese vlogo storitve Amazon Translate na SageMaker, ki prenosnikom SageMaker omogoča dostop do izvornih in prevedenih dokumentov v določenih vedrih S3:
Pripravite vzporedne vzorce za usposabljanje podatkov
Vzporedne podatke v ACT je treba usposobiti z vhodno datoteko, ki jo sestavlja seznam parov besedilnih primerov, na primer par izvornega jezika (angleščina) in ciljnega jezika (kitajščina). Vhodna datoteka je lahko v formatu TMX, CSV ali TSV. Naslednji posnetek zaslona prikazuje primer vhodne datoteke CSV. Prvi stolpec so podatki o izvornem jeziku (v angleščini), drugi stolpec pa podatki o ciljnem jeziku (v kitajščini). Naslednji primer je izvleček iz knjige D2L-en in knjige D2L-zh.
Izvedite usposabljanje vzporednih podatkov po meri v Amazon Translate
Najprej smo nastavili vedro S3 in mape, kot je prikazano na naslednjem posnetku zaslona. The source_data
mapa vsebuje izvorne dokumente pred prevodom; ustvarjeni dokumenti po paketnem prevodu se dajo v izhodno mapo. The ParallelData
mapa vsebuje vzporedno datoteko za vnos podatkov, pripravljeno v prejšnjem koraku.
Po nalaganju vhodnih datotek v source_data
mapo, lahko uporabimo API CreateParallelData za zagon opravila vzporednega ustvarjanja podatkov v Amazon Translate:
Za posodobitev obstoječih vzporednih podatkov z novimi nabori podatkov za usposabljanje lahko uporabimo UpdateParalleData API:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Na konzoli Amazon Translate lahko preverimo napredek usposabljanja. Ko je opravilo končano, se stanje vzporednih podatkov prikaže kot Aktivno in je pripravljen za uporabo.
Izvedite asinhronizirano paketno prevajanje z uporabo vzporednih podatkov
Paketno prevajanje se lahko izvede v procesu, kjer se več izvornih dokumentov samodejno prevede v dokumente v ciljnih jezikih. Postopek vključuje nalaganje izvornih dokumentov v vhodno mapo vedra S3 in nato uporabo API StartTextTranslationJob Amazon Translate za začetek asinhroniziranega prevajalskega opravila:
Izbrali smo pet izvornih dokumentov v angleščini iz knjige D2L (D2L-en) za množični prevod. Na konzoli Amazon Translate lahko spremljamo potek prevajalskega posla. Ko se delovni status spremeni v Končana, lahko najdemo prevedene dokumente v kitajščini (D2L-zh) v izhodni mapi vedra S3.
Ocenite kakovost prevoda
Za prikaz učinkovitosti funkcije ACT v Amazon Translate smo uporabili tudi tradicionalno metodo prevajanja Amazon Translate v realnem času brez vzporednih podatkov za obdelavo istih dokumentov in primerjali izhod z izhodom paketnega prevajanja z ACT. Za primerjavo kakovosti prevoda med obema metodama smo uporabili rezultat BLEU (BiLingual Evaluation Understudy). Edini način za natančno merjenje kakovosti rezultatov strojnega prevajanja je strokovni pregled in ocena kakovosti. Vendar pa BLEU zagotavlja oceno relativnega izboljšanja kakovosti med dvema rezultatoma. Rezultat BLEU je običajno število med 0–1; izračuna podobnost strojnega prevoda referenčnemu človeškemu prevodu. Višji rezultat predstavlja boljšo kakovost razumevanja naravnega jezika (NLU).
Preizkusili smo niz dokumentov v štirih nizih: angleščina v kitajščino (en do zh), kitajščina v angleščino (zh do en), angleščina v španščino (en do es) in španščina v angleščino (es do en). Naslednja slika prikazuje, da je prevajanje z ACT ustvarilo višjo povprečno oceno BLEU v vseh prevajalskih kanalih.
Opazili smo tudi, da bolj ko so vzporedni podatkovni pari razdrobljeni, boljša je zmogljivost prevajanja. Na primer, uporabimo naslednjo vzporedno datoteko za vnos podatkov s pari odstavkov, ki vsebuje 10 vnosov.
Za isto vsebino uporabljamo naslednjo vzporedno datoteko za vnos podatkov s pari stavkov in 16 vnosi.
Uporabili smo obe vzporedni datoteki za vnos podatkov za izdelavo dveh vzporednih podatkovnih entitet v Amazon Translate, nato pa ustvarili dve paketni prevajalski opravili z istim izvornim dokumentom. Naslednja slika primerja izhodne prevode. Kaže, da je rezultat z uporabo vzporednih podatkov s pari stavkov boljši od tistega, ki uporablja vzporedne podatke s pari odstavkov, tako za prevod iz angleščine v kitajščino kot za prevod iz kitajščine v angleščino.
Če vas zanima več o teh primerjalnih analizah, glejte Samodejno strojno prevajanje in sinhronizacija za »Potop v poglobljeno učenje«.
Čiščenje
Da bi se izognili ponavljajočim se stroškom v prihodnosti, priporočamo, da počistite vire, ki ste jih ustvarili:
- Na konzoli Amazon Translate izberite vzporedne podatke, ki ste jih ustvarili, in izberite Brisanje. Druga možnost je, da uporabite DeleteParalleData API ali Vmesnik ukazne vrstice AWS (AWS CLI) brisanje-vzporednih-podatkov ukaz za brisanje vzporednih podatkov.
- Izbrišite vedro S3 uporablja se za gostovanje izvornih in referenčnih dokumentov, prevedenih dokumentov in vzporednih datotek za vnos podatkov.
- Izbrišite vlogo in pravilnik IAM. Za navodila glejte Brisanje vlog ali profilov primerkov in Brisanje pravilnikov IAM.
zaključek
S to rešitvijo želimo zmanjšati delovno obremenitev človeških prevajalcev za 80 %, hkrati pa ohranjati kakovost prevoda in podpirati več jezikov. To rešitev lahko uporabite za izboljšanje kakovosti in učinkovitosti prevoda. Delamo na nadaljnjem izboljševanju arhitekture rešitve in kakovosti prevodov za druge jezike.
Vaše povratne informacije so vedno dobrodošle; svoje misli in vprašanja pustite v razdelku za komentarje.
O avtorjih
Yunfei Bai je višji arhitekt rešitev pri AWS. Yunfei z izkušnjami na področju AI/ML, znanosti o podatkih in analitike strankam pomaga pri sprejemanju storitev AWS za zagotavljanje poslovnih rezultatov. Oblikuje rešitve AI/ML in podatkovno analitiko, ki premagujejo zapletene tehnične izzive in usmerjajo strateške cilje. Yunfei ima doktorat iz elektronike in elektrotehnike. Zunaj službe Yunfei uživa v branju in glasbi.
Rachel Hu je uporabni znanstvenik na AWS Machine Learning University (MLU). Vodila je nekaj načrtov tečajev, vključno z ML Operations (MLOps) in Accelerator Computer Vision. Rachel je višja govornica AWS in je govorila na vrhunskih konferencah, vključno z AWS re:Invent, NVIDIA GTC, KDD in MLOps Summit. Preden se je pridružila AWS, je Rachel delala kot inženirka strojnega učenja, ki je gradila modele za obdelavo naravnega jezika. Zunaj službe uživa v jogi, ultimate frizbiju, branju in potovanjih.
Watson Srivathsan je glavni produktni vodja za Amazon Translate, storitev AWS za obdelavo naravnega jezika. Ob vikendih ga boste našli med raziskovanjem na prostem na pacifiškem severozahodu.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- EVM Finance. Poenoten vmesnik za decentralizirane finance. Dostopite tukaj.
- Quantum Media Group. IR/PR ojačan. Dostopite tukaj.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :ima
- : je
- :kje
- $GOR
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- O meni
- plin
- dostop
- dostopen
- Račun
- natančnost
- natančno
- Dosega
- Zakon
- Ukrep
- aktivna
- Naslov
- sprejme
- sprejet
- po
- AI
- AI / ML
- Cilj
- vsi
- omogočajo
- omogoča
- skupaj
- Prav tako
- vedno
- Amazon
- Amazon prevod
- Amazon Web Services
- an
- Analize
- analitika
- analizirati
- in
- API-ji
- uporabna
- Uporaba
- Arhitektura
- SE
- okoli
- AS
- At
- Avtorji
- avto
- Samodejno
- samodejno
- Na voljo
- povprečno
- izogniti
- AWS
- Strojno učenje AWS
- AWS re: Izum
- ozadje
- temeljijo
- BE
- bilo
- pred
- merilo
- BEST
- najboljše prakse
- Boljše
- med
- Knjiga
- knjige
- tako
- izgradnjo
- Building
- zgrajena
- poslovni
- by
- izračuna
- Cambridge
- CAN
- Carnegie Mellon
- izziv
- izzivi
- izziv
- Spremembe
- preveriti
- kitajski
- Izberite
- Koda
- zbirka
- Stolpec
- COM
- komentarji
- v primerjavi z letom
- dokončanje
- kompleksna
- računalnik
- Računalniška vizija
- poteka
- konference
- Sestavljeno
- vsebuje
- Konzole
- gradnjo
- vsebujejo
- Vsebuje
- vsebina
- stalno
- stroški
- Tečaj
- ustvaril
- Oblikovanje
- po meri
- Stranke, ki so
- prilagodite
- meri
- datum
- Podatkovna analiza
- znanost o podatkih
- nabor podatkov
- Datum
- globoko
- globoko učenje
- opredeljen
- poda
- izkazati
- opis
- imenovani
- modeli
- želeno
- dokument
- Dokumenti
- pogon
- med
- vsak
- učinek
- učinkovitost
- učinkovitosti
- Electronic
- prizadevati
- inženir
- Inženiring
- Angleščina
- zagotovitev
- subjekti
- oceniti
- Ocena
- vsi
- Primer
- Primeri
- izvedba
- obstoječih
- strokovnjak
- Raziskovati
- daleč
- Feature
- Lastnosti
- povratne informacije
- Nekaj
- Slika
- Številke
- file
- datoteke
- Najdi
- prva
- sledi
- po
- za
- obrazec
- format
- štiri
- iz
- nadalje
- Prihodnost
- ustvarjajo
- ustvarila
- razred
- odobri
- nepovratna sredstva
- Ročaji
- Imajo
- he
- Pomaga
- visoka kvaliteta
- več
- ga
- drži
- gostitelj
- Kako
- Kako
- Vendar
- HTML
- http
- HTTPS
- človeškega
- identiteta
- izboljšanje
- Izboljšanje
- izboljšanju
- in
- Vključno
- sproži
- vhod
- primer
- Inštitut
- Navodila
- interaktivno
- zainteresirani
- v
- IT
- Japonski
- Job
- Delovna mesta
- pridružil
- jpg
- hranijo
- Korejski
- jezik
- jeziki
- kosilo
- vodi
- učenje
- pustite
- vrstica
- Seznam
- stroj
- strojno učenje
- je
- vzdrževanje
- Znamka
- IZDELA
- upravljanje
- upravitelj
- Massachusetts
- Tehnološki inštitut Massachusetts
- Stave
- math
- merjenje
- Mellon
- Metoda
- Metode
- ML
- MLOps
- Model
- modeli
- monitor
- več
- Najbolj
- več
- Glasba
- morajo
- Ime
- naravna
- Obdelava Natural Language
- Nimate
- potrebe
- Novo
- Številka
- Nvidia
- Cilji
- of
- on
- ONE
- na spletu
- samo
- open source
- operacije
- or
- Ostalo
- na prostem
- izhod
- zunaj
- Premagajte
- Pacific
- par
- parov
- vzporedno
- vozovnice
- performance
- Dovoljenje
- Dovoljenja
- plinovod
- načrti
- platon
- Platonova podatkovna inteligenca
- PlatoData
- prosim
- politike
- politika
- portugalski
- Prispevek
- vaje
- pripravljeni
- predstaviti
- prejšnja
- , ravnateljica
- Postopek
- Predelano
- obravnavati
- Proizvedeno
- Izdelek
- produktni vodja
- Napredek
- zagotavlja
- zagotavljanje
- javnega
- dal
- pitorha
- kakovost
- vprašanja
- RE
- Preberi
- reading
- pripravljen
- resnični svet
- v realnem času
- Priporočamo
- ponavljajoče se
- zmanjša
- relativna
- pomembno
- predstavlja
- vir
- viri
- Odgovor
- Rezultati
- pregleda
- vloga
- vloge
- Run
- sagemaker
- Enako
- Znanost
- Znanstvenik
- rezultat
- drugi
- Oddelek
- oddelki
- Segment
- segmentih
- izbran
- višji
- Storitev
- Storitve
- nastavite
- je
- pokazale
- Razstave
- Enostavno
- So
- doslej
- Rešitev
- rešitve
- vir
- španski
- Zvočniki
- govorijo
- Stanford
- Univerza Stanford
- Izjava
- Status
- Korak
- Koraki
- shranjevanje
- trgovina
- Strateško
- slog
- taka
- Vrh
- Podpora
- Sinhronizacija
- prilagojene
- ciljna
- tehnični
- Tehnologija
- tensorflo
- Testiran
- učbenik
- kot
- da
- O
- Prihodnost
- Vir
- svet
- POTEM
- te
- ta
- tisti,
- čas
- do
- vrh
- tradicionalna
- usposobljeni
- usposabljanje
- prevesti
- prevod
- Potovanje
- Zaupajte
- Tsinghua
- turški
- dva
- tipično
- Končni
- razumevanje
- Univerze
- univerza
- univerza v Cambridgeu
- Nadgradnja
- posodobljeno
- posodobitve
- Prenos
- uporaba
- Rabljeni
- uporabo
- različica
- vietnamese
- Vizija
- Watson
- način..
- we
- web
- spletne storitve
- dobrodošli
- Dobro
- kdaj
- ki
- medtem
- bo
- z
- brez
- delo
- delal
- deluje
- svet
- pisni
- Joga
- Vi
- Vaša rutina za
- zefirnet