Scufundați-vă în Deep Learning (D2L.ai) este un manual cu sursă deschisă care face învățarea profundă accesibilă tuturor. Dispune de notebook-uri Jupyter interactive cu cod autonom în PyTorch, JAX, TensorFlow și MXNet, precum și exemple din lumea reală, figuri de expunere și matematică. Până acum, D2L a fost adoptat de peste 400 de universități din întreaga lume, cum ar fi Universitatea din Cambridge, Universitatea Stanford, Institutul de Tehnologie din Massachusetts, Universitatea Carnegie Mellon și Universitatea Tsinghua. Această lucrare este disponibilă și în chineză, japoneză, coreeană, portugheză, turcă și vietnameză, cu planuri de lansare în spaniolă și în alte limbi.
Este un efort dificil să ai o carte online care este permanent actualizată, scrisă de mai mulți autori și disponibilă în mai multe limbi. În această postare, vă prezentăm o soluție pe care D2L.ai a folosit-o pentru a face față acestei provocări folosind Caracteristica Active Custom Translation (ACT). of Traducerea Amazon și construirea unui canal de traducere automată multilingvă.
Demonstrăm cum se utilizează Consola de administrare AWS și API-ul public Amazon Translate pentru a furniza traducere automată automată în lot și pentru a analiza traducerile între două perechi de limbi: engleză și chineză și engleză și spaniolă. De asemenea, recomandăm cele mai bune practici atunci când utilizați Amazon Translate în acest canal de traducere automată pentru a asigura calitatea și eficiența traducerii.
Prezentare generală a soluțiilor
Am construit conducte de traducere automată pentru mai multe limbi folosind funcția ACT din Amazon Translate. ACT vă permite să personalizați traducerea din mers, oferind exemple de traducere personalizate sub formă de date paralele. Datele paralele constau dintr-o colecție de exemple textuale într-o limbă sursă și traducerile dorite într-una sau mai multe limbi țintă. În timpul traducerii, ACT selectează automat cele mai relevante segmente din datele paralele și actualizează modelul de traducere din mers pe baza acelor perechi de segmente. Acest lucru are ca rezultat traduceri care se potrivesc mai bine cu stilul și conținutul datelor paralele.
Arhitectura conține mai multe sub-conducte; fiecare sub-conductă gestionează traducerea unei limbi, cum ar fi engleză în chineză, engleză în spaniolă și așa mai departe. Mai multe sub-conducte de traducere pot fi procesate în paralel. În fiecare sub-conductă, construim mai întâi datele paralele în Amazon Translate utilizând setul de date de înaltă calitate de exemple de traducere cu coadă din cărțile D2L traduse de oameni. Apoi generăm rezultatul personalizat de traducere automată din mers în timpul execuției, ceea ce obține o calitate și o acuratețe mai bune.
În secțiunile următoare, demonstrăm cum să construiți fiecare conductă de traducere folosind Amazon Translate cu ACT, împreună cu Amazon SageMaker și Serviciul Amazon de stocare simplă (Amazon S3).
În primul rând, punem documentele sursă, documentele de referință și setul de antrenament de date paralele într-o găleată S3. Apoi construim notebook-uri Jupyter în SageMaker pentru a rula procesul de traducere folosind API-urile publice Amazon Translate.
Cerințe preliminare
Pentru a urma pașii din această postare, asigurați-vă că aveți un cont AWS cu următoarele:
- Accesul la Gestionarea identității și accesului AWS (IAM) pentru configurarea rolului și a politicii
- Acces la Amazon Translate, SageMaker și Amazon S3
- O găleată S3 pentru a stoca documentele sursă, documentele de referință, setul de date paralele și rezultatul traducerii
Creați un rol IAM și politici pentru Amazon Translate cu ACT
Rolul nostru IAM trebuie să conțină o politică de încredere personalizată pentru Amazon Translate:
Acest rol trebuie să aibă, de asemenea, o politică de permisiuni care să acorde Amazon Translate acces de citire la folderul de intrare și subfolderele din Amazon S3 care conțin documentele sursă și acces de citire/scriere la compartimentul S3 de ieșire și folderul care conține documentele traduse:
Pentru a rula notebook-uri Jupyter în SageMaker pentru lucrările de traducere, trebuie să acordăm o politică de permisiuni inline rolului de execuție SageMaker. Acest rol transmite rolul serviciului Amazon Translate către SageMaker, care permite blocnotesurilor SageMaker să aibă acces la documentele sursă și traduse în compartimentele S3 desemnate:
Pregătiți mostre de antrenament de date paralele
Datele paralele din ACT trebuie să fie antrenate printr-un fișier de intrare constând dintr-o listă de perechi exemple de text, de exemplu, o pereche de limbă sursă (engleză) și limbă țintă (chineză). Fișierul de intrare poate fi în format TMX, CSV sau TSV. Următoarea captură de ecran arată un exemplu de fișier de intrare CSV. Prima coloană sunt datele în limba sursă (în engleză), iar a doua coloană sunt datele în limba țintă (în chineză). Următorul exemplu este extras din cartea D2L-en și cartea D2L-zh.
Efectuați antrenament personalizat de date paralele în Amazon Translate
Mai întâi, am configurat găleata și folderele S3 așa cum se arată în următoarea captură de ecran. The source_data
folderul conține documentele sursă înainte de traducere; documentele generate după traducerea lotului sunt puse în folderul de ieșire. The ParallelData
folderul deține fișierul de intrare de date paralel pregătit în pasul anterior.
După încărcarea fișierelor de intrare în source_data
folderul, putem folosi CreateParallelData API pentru a rula o lucrare paralelă de creare a datelor în Amazon Translate:
Pentru a actualiza datele paralele existente cu noi seturi de date de antrenament, putem folosi UpdateParallelData API:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Putem verifica progresul lucrării de instruire pe consola Amazon Translate. Când lucrarea este finalizată, starea datelor paralele arată ca Activ și este gata de utilizare.
Rulați traducerea asincronă în lot folosind date paralele
Traducerea în lot poate fi efectuată într-un proces în care mai multe documente sursă sunt traduse automat în documente în limbile țintă. Procesul implică încărcarea documentelor sursă în folderul de intrare al găleții S3, apoi aplicarea StartTextTranslationJob API de Amazon Translate pentru a iniția o lucrare de traducere asincronă:
Am selectat cinci documente sursă în limba engleză din cartea D2L (D2L-en) pentru traducerea în bloc. Pe consola Amazon Translate, putem monitoriza progresul lucrării de traducere. Când starea jobului se schimbă în Terminat, putem găsi documentele traduse în chineză (D2L-zh) în folderul de ieșire al găleții S3.
Evaluați calitatea traducerii
Pentru a demonstra eficacitatea caracteristicii ACT din Amazon Translate, am aplicat și metoda tradițională de traducere în timp real Amazon Translate fără date paralele pentru a procesa aceleași documente și am comparat rezultatul cu traducerea în lot cu ACT. Am folosit scorul BLEU (BiLingual Evaluation Understudy) pentru a evalua calitatea traducerii între cele două metode. Singura modalitate de a măsura cu acuratețe calitatea traducerii automate este de a avea o evaluare de specialitate și de a evalua calitatea. Cu toate acestea, BLEU oferă o estimare a îmbunătățirii relative a calității între două ieșiri. Un scor BLEU este de obicei un număr între 0-1; calculează asemănarea traducerii automate cu traducerea umană de referință. Scorul mai mare reprezintă o mai bună calitate în înțelegerea limbajului natural (NLU).
Am testat un set de documente în patru conducte: din engleză în chineză (en to zh), chineză în engleză (zh to en), engleză în spaniolă (en to es) și spaniolă în engleză (es to en). Următoarea figură arată că traducerea cu ACT a produs un scor mediu BLEU mai mare în toate conductele de traducere.
De asemenea, am observat că, cu cât perechile de date paralele sunt mai granulare, cu atât performanța traducerii este mai bună. De exemplu, folosim următorul fișier paralel de introducere a datelor cu perechi de paragrafe, care conține 10 intrări.
Pentru același conținut, folosim următorul fișier paralel de introducere a datelor cu perechi de propoziții și 16 intrări.
Am folosit ambele fișiere de intrare de date paralele pentru a construi două entități de date paralele în Amazon Translate, apoi am creat două joburi de traducere în lot cu același document sursă. Figura următoare compară traducerile de ieșire. Arată că rezultatul utilizând date paralele cu perechi de propoziții a depășit-o pe cea care folosește date paralele cu perechi de paragrafe, atât pentru traducerea din engleză în chineză, cât și pentru traducerea din chineză în engleză.
Dacă sunteți interesat să aflați mai multe despre aceste analize de referință, consultați Traducere automată și sincronizare pentru „Dive into Deep Learning”.
A curăța
Pentru a evita costurile recurente în viitor, vă recomandăm să curățați resursele pe care le-ați creat:
- Pe consola Amazon Translate, selectați datele paralele pe care le-ați creat și alegeți Șterge. Alternativ, puteți utiliza fișierul Ștergeți API-ul DeleteParallelData sau Interfața liniei de comandă AWS (AWS CLI) şterge-date-paralele comanda pentru a șterge datele paralele.
- Ștergeți găleata S3 folosit pentru a găzdui documentele sursă și de referință, documente traduse și fișiere paralele de introducere a datelor.
- Ștergeți rolul și politica IAM. Pentru instrucțiuni, consultați Ștergerea rolurilor sau a profilurilor de instanță și Ștergerea politicilor IAM.
Concluzie
Cu această soluție, ne propunem să reducem volumul de muncă al traducătorilor umani cu 80%, menținând în același timp calitatea traducerii și acceptând mai multe limbi. Puteți utiliza această soluție pentru a vă îmbunătăți calitatea și eficiența traducerii. Lucrăm la îmbunătățirea în continuare a arhitecturii soluției și a calității traducerii pentru alte limbi.
Feedback-ul dumneavoastră este întotdeauna binevenit; vă rugăm să lăsați gândurile și întrebările dvs. în secțiunea de comentarii.
Despre autori
Yunfei Bai este arhitect senior de soluții la AWS. Cu experiență în AI/ML, știința datelor și analiză, Yunfei îi ajută pe clienți să adopte servicii AWS pentru a oferi rezultate de afaceri. El proiectează soluții AI/ML și de analiză a datelor care depășesc provocările tehnice complexe și conduc obiective strategice. Yunfei are un doctorat în Inginerie Electronică și Electrică. În afara serviciului, lui Yunfei îi place lectura și muzică.
Rachel Hu este un om de știință aplicat la AWS Machine Learning University (MLU). Ea a condus câteva proiecte de cursuri, inclusiv ML Operations (MLOps) și Accelerator Computer Vision. Rachel este un vorbitor senior AWS și a vorbit la conferințe de top, inclusiv AWS re:Invent, NVIDIA GTC, KDD și MLOps Summit. Înainte de a se alătura AWS, Rachel a lucrat ca inginer de învățare automată, construind modele de procesare a limbajului natural. În afara serviciului, îi place yoga, frisbee-ul suprem, cititul și călătoriile.
Watson Srivathsan este managerul principal de produs pentru Amazon Translate, serviciul de procesare a limbajului natural al AWS. În weekend, îl veți găsi explorând în aer liber în nord-vestul Pacificului.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- EVM Finance. Interfață unificată pentru finanțare descentralizată. Accesați Aici.
- Grupul Quantum Media. IR/PR amplificat. Accesați Aici.
- PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :are
- :este
- :Unde
- $UP
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- Despre Noi
- accelerator
- acces
- accesibil
- Cont
- precizie
- precis
- Realizeaza
- act
- Acțiune
- activ
- adresa
- adopta
- adoptată
- După
- AI
- AI / ML
- urmări
- TOATE
- permite
- permite
- de-a lungul
- de asemenea
- mereu
- Amazon
- Traducerea Amazon
- Amazon Web Services
- an
- analize
- Google Analytics
- analiza
- și
- API-uri
- aplicat
- Aplicarea
- arhitectură
- SUNT
- în jurul
- AS
- At
- Autorii
- Auto
- Automat
- în mod automat
- disponibil
- in medie
- evita
- AWS
- Învățare automată AWS
- AWS re: Inventează
- fundal
- bazat
- BE
- fost
- înainte
- Benchmark
- CEL MAI BUN
- Cele mai bune practici
- Mai bine
- între
- carte
- Manuale
- atât
- construi
- Clădire
- construit
- afaceri
- by
- calculează
- Cambridge
- CAN
- Carnegie Mellon
- contesta
- provocări
- provocare
- Modificări
- verifica
- chinez
- Alege
- cod
- colectare
- Coloană
- COM
- comentarii
- comparație
- Completă
- complex
- calculator
- Computer Vision
- efectuat
- conferințe
- Constând
- constă
- Consoleze
- construi
- conţine
- conține
- conţinut
- continuu
- Cheltuieli
- Curs
- a creat
- creaţie
- personalizat
- clienţii care
- personaliza
- personalizate
- de date
- Analiza datelor
- știința datelor
- seturi de date
- Data
- adânc
- învățare profundă
- definit
- livra
- demonstra
- descriere
- desemnat
- modele
- dorit
- document
- documente
- conduce
- în timpul
- fiecare
- efect
- eficacitate
- eficiență
- Electronic
- încerca
- inginer
- Inginerie
- Engleză
- asigura
- entități
- estima
- evaluare
- toată lumea
- exemplu
- exemple
- execuție
- existent
- expert
- Explorarea
- departe
- Caracteristică
- DESCRIERE
- feedback-ul
- puțini
- Figura
- cifre
- Fișier
- Fişiere
- Găsi
- First
- urma
- următor
- Pentru
- formă
- format
- patru
- din
- mai mult
- viitor
- genera
- generată
- calitate
- acordarea
- subvenții
- Mânere
- Avea
- he
- ajută
- de înaltă calitate
- superior
- -l
- deține
- gazdă
- Cum
- Cum Pentru a
- Totuși
- HTML
- http
- HTTPS
- uman
- Identitate
- îmbunătăţi
- îmbunătățire
- îmbunătățirea
- in
- Inclusiv
- iniția
- intrare
- instanță
- Institut
- instrucțiuni
- interactiv
- interesat
- în
- IT
- Japonez
- Loc de munca
- Locuri de munca
- aderarea
- jpg
- ținut
- Coreeană
- limbă
- Limbă
- lansa
- conducere
- învăţare
- Părăsi
- Linie
- Listă
- maşină
- masina de învățare
- făcut
- Mentine
- face
- FACE
- administrare
- manager
- Massachusetts
- Institutul de tehnologie din Massachusetts
- Meci
- matematica
- măsura
- pepene
- metodă
- Metode
- ML
- MLOps
- model
- Modele
- monitor
- mai mult
- cele mai multe
- multiplu
- Muzică
- trebuie sa
- nume
- Natural
- Procesarea limbajului natural
- Nevoie
- nevoilor
- Nou
- număr
- Nvidia
- Obiectivele
- of
- on
- ONE
- on-line
- afară
- open-source
- Operațiuni
- or
- Altele
- în aer liber
- producție
- exterior
- Învinge
- Pacific
- pereche
- perechi
- Paralel
- trece
- performanță
- permisiune
- permisiuni
- conducte
- Planurile
- Plato
- Informații despre date Platon
- PlatoData
- "vă rog"
- Politicile
- Politica
- Portugheză
- Post
- practicile
- pregătit
- prezenta
- precedent
- Principal
- proces
- Procesat
- prelucrare
- Produs
- Produs
- manager de produs
- Progres
- furnizează
- furnizarea
- public
- pune
- pirtorh
- calitate
- Întrebări
- RE
- Citeste
- Citind
- gata
- lumea reală
- în timp real
- recomanda
- recurente
- reduce
- relativ
- reprezintă
- resursă
- Resurse
- răspuns
- REZULTATE
- revizuiască
- Rol
- rolurile
- Alerga
- sagemaker
- acelaşi
- Ştiinţă
- Om de stiinta
- scor
- Al doilea
- Secțiune
- secțiuni
- segment
- segmente
- selectate
- senior
- serviciu
- Servicii
- set
- ea
- indicat
- Emisiuni
- simplu
- So
- până acum
- soluţie
- soluţii
- Sursă
- Spaniolă
- Vorbitor
- vorbit
- stanford
- Universitatea Stanford
- Declarație
- Stare
- Pas
- paşi
- depozitare
- stoca
- Strategic
- stil
- astfel de
- Summit-ul
- De sprijin
- sincronizare
- adaptate
- Ţintă
- Tehnic
- Tehnologia
- tensorflow
- testat
- manual
- decât
- acea
- Viitorul
- Sursa
- lumea
- apoi
- Acestea
- acest
- aceste
- timp
- la
- top
- tradiţional
- dresat
- Pregătire
- Traduceți
- Traducere
- Traveling
- Încredere
- Tsinghua
- Turcă
- Două
- tipic
- final
- înţelegere
- Universități
- universitate
- Universitatea Cambridge
- Actualizează
- actualizat
- actualizări
- Se încarcă
- utilizare
- utilizat
- folosind
- versiune
- vietnamese
- viziune
- Watson
- Cale..
- we
- web
- servicii web
- bun venit
- BINE
- cand
- care
- în timp ce
- voi
- cu
- fără
- Apartamente
- a lucrat
- de lucru
- lume
- scris
- yoga
- Tu
- Ta
- zephyrnet