Sukella syväoppimiseen (D2L.ai) on avoimen lähdekoodin oppikirja, jonka avulla syväoppiminen on kaikkien saatavilla. Se sisältää interaktiivisia Jupyter-muistikirjoja, joissa on oma koodi PyTorchissa, JAXissa, TensorFlow'ssa ja MXNetissä, sekä reaalimaailman esimerkkejä, esityslukuja ja matematiikkaa. Tähän mennessä D2L on omaksunut yli 400 yliopistoa ympäri maailmaa, kuten Cambridgen yliopisto, Stanfordin yliopisto, Massachusetts Institute of Technology, Carnegie Mellon University ja Tsinghuan yliopisto. Tämä teos on saatavilla myös kiinaksi, japaniksi, koreaksi, portugaliksi, turkiksi ja vietnamiksi, ja suunnitelmia on julkaista espanjaksi ja muilla kielillä.
On haastavaa saada verkkokirjaa, jota pidetään jatkuvasti ajan tasalla, jonka ovat kirjoittaneet useat kirjailijat ja joka on saatavilla useilla kielillä. Tässä viestissä esittelemme ratkaisun, jota D2L.ai käytti vastaamaan tähän haasteeseen käyttämällä Active Custom Translation (ACT) -ominaisuus of Amazon Käännä ja rakentaa monikielinen automaattinen käännösputki.
Näytämme kuinka käyttää AWS-hallintakonsoli ja Amazon Translate julkinen API toimittaa automaattisen koneeräkäännöksen ja analysoida käännöksiä kahden kieliparin välillä: englanti ja kiina sekä englanti ja espanja. Suosittelemme myös parhaita käytäntöjä käytettäessä Amazon Translatea tässä automaattisessa käännösprosessissa käännöslaadun ja tehokkuuden varmistamiseksi.
Ratkaisun yleiskatsaus
Rakensimme automaattisia käännösputkia useille kielille Amazon Translaten ACT-ominaisuuden avulla. ACT:n avulla voit mukauttaa käännöstulosta lennossa tarjoamalla räätälöityjä käännösesimerkkejä muodossa rinnakkaista dataa. Rinnakkaisdata koostuu kokoelmasta tekstiesimerkkejä lähdekielellä ja halutuista käännöksistä yhdellä tai useammalla kohdekielellä. Käännöksen aikana ACT valitsee automaattisesti tärkeimmät segmentit rinnakkaistiedoista ja päivittää käännösmallin lennossa näiden segmenttiparien perusteella. Tämä johtaa käännöksiin, jotka vastaavat paremmin rinnakkaistietojen tyyliä ja sisältöä.
Arkkitehtuuri sisältää useita aliputkia; jokainen aliputki käsittelee yhden kielen käännöksen, kuten englannin kiinaksi, englannista espanjaksi ja niin edelleen. Useita käännösaliputkia voidaan käsitellä rinnakkain. Kussakin aliputkessa rakennamme ensin rinnakkaiset tiedot Amazon Translatessa käyttämällä korkealaatuista tietojoukkoa, joka sisältää käännösesimerkkejä ihmisen kääntämistä D2L-kirjoista. Sitten luomme räätälöidyn konekäännöstuloksen lennossa ajon aikana, mikä parantaa laatua ja tarkkuutta.
Seuraavissa osissa esittelemme, kuinka jokainen käännösputki rakennetaan Amazon Translatella ACT:n kanssa Amazon Sage Maker ja Amazonin yksinkertainen tallennuspalvelu (Amazon S3).
Ensin laitoimme lähdeasiakirjat, viiteasiakirjat ja rinnakkaistietojen koulutusjoukot S3-ämpäriin. Sitten rakennamme SageMakerissa Jupyter-muistikirjoja käännösprosessin suorittamiseksi käyttämällä Amazon Translate julkisia sovellusliittymiä.
Edellytykset
Noudata tämän viestin ohjeita varmistamalla, että sinulla on AWS-tili, jossa on seuraavat asiat:
- Pääsy AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) roolien ja käytäntöjen määrittämistä varten
- Pääsy Amazon Translateen, SageMakeriin ja Amazon S3:een
- S3-ämpäri lähdeasiakirjojen, viiteasiakirjojen, rinnakkaistietojoukon ja käännöstulosten tallentamiseen
Luo IAM-rooli ja käytännöt Amazon Translatelle ACT:n avulla
IAM-roolimme tulee sisältää mukautettu luottamuskäytäntö Amazon Translatelle:
Tällä roolilla on oltava myös käyttöoikeuskäytäntö, joka antaa Amazon Translatelle lukuoikeudet Amazon S3:n syöttökansioon ja alikansioihin, jotka sisältävät lähdeasiakirjat, sekä luku-/kirjoitusoikeuden tulosteen S3-säilöön ja kansioon, joka sisältää käännetyt asiakirjat:
Jotta Jupyter-muistikirjoja voidaan käyttää SageMakerissa käännöstöihin, meidän on myönnettävä sisäinen käyttöoikeuskäytäntö SageMaker-suoritusroolille. Tämä rooli siirtää Amazon Translate -palveluroolin SageMakerille, jonka avulla SageMaker-muistikirjat voivat käyttää lähdettä ja käännettyjä asiakirjoja nimetyissä S3-sävyissä:
Valmistele rinnakkaistietojen opetusnäytteet
ACT:n rinnakkaistiedot on koulutettava syöttötiedostolla, joka koostuu luettelosta tekstiesimerkkipareista, esimerkiksi lähdekielen (englanti) ja kohdekielen (kiina) parista. Syötetiedosto voi olla TMX-, CSV- tai TSV-muodossa. Seuraavassa kuvakaappauksessa on esimerkki CSV-syöttötiedostosta. Ensimmäinen sarake on lähdekielen tiedot (englanniksi) ja toinen sarake kohdekielen tiedot (kiinaksi). Seuraava esimerkki on poimittu D2L-en-kirjasta ja D2L-zh-kirjasta.
Suorita mukautettu rinnakkaistietojen koulutus Amazon Translatessa
Ensin määritimme S3-ämpäri ja kansiot seuraavan kuvakaappauksen mukaisesti. The source_data
kansio sisältää lähdeasiakirjat ennen käännöstä; Eräkäännöksen jälkeen luodut asiakirjat laitetaan tuloskansioon. The ParallelData
kansio sisältää edellisessä vaiheessa valmistetun rinnakkaistietojen syöttötiedoston.
Kun olet ladannut syöttötiedostot source_data
-kansiota, voimme käyttää CreateParallelData API suorittaaksesi rinnakkaisen tiedonluontityön Amazon Translatessa:
Voimme käyttää olemassa olevien rinnakkaisten tietojen päivittämistä uusilla harjoitustietosarjoilla PäivitäParallelData API:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Voimme tarkistaa koulutustyön edistymisen Amazon Translate -konsolista. Kun työ on valmis, rinnakkaisten tietojen tila näkyy muodossa Aktiiviset ja on käyttövalmis.
Suorita asynkronoitu eräkäännös rinnakkaisten tietojen avulla
Eräkäännös voidaan suorittaa prosessissa, jossa useat lähdeasiakirjat käännetään automaattisesti kohdekielisiksi asiakirjoiksi. Prosessi sisältää lähdeasiakirjojen lataamisen S3-säihön syöttökansioon ja sen jälkeen StartTextTranslationJob API Amazon Translate aloittaa asynkronoidun käännöstyön:
Valitsimme viisi englanninkielistä lähdedokumenttia D2L-kirjasta (D2L-en) joukkokäännöksiä varten. Amazon Translate -konsolissa voimme seurata käännöstyön edistymistä. Kun työn tila muuttuu Valmistunut, löydämme kiinaksi käännetyt asiakirjat (D2L-zh) S3-ämpäritulostekansiosta.
Arvioi käännösten laatu
Osoittaaksemme Amazon Translaten ACT-ominaisuuden tehokkuutta käytimme myös perinteistä Amazon Translate -reaaliaikaista käännösmenetelmää ilman rinnakkaista dataa samojen asiakirjojen käsittelyyn ja vertasimme tulosta ACT:n eräkäännöstulokseen. Käytimme BLEU-pisteitä (BiLingual Evaluation Understudy) vertaillaksemme käännösten laatua näiden kahden menetelmän välillä. Ainoa tapa mitata konekäännöstulosten laatua tarkasti on suorittaa asiantuntijalausunto ja arvioida laatu. BLEU tarjoaa kuitenkin arvion kahden tuotoksen suhteellisesta laadun parantumisesta. BLEU-pisteet ovat tyypillisesti 0–1; se laskee konekäännöksen samankaltaisuuden ihmisen viitekäännöksen kanssa. Korkeampi pistemäärä edustaa parempaa luonnollisen kielen ymmärtämisen (NLU) laatua.
Olemme testanneet asiakirjoja neljässä putkilinjassa: englannista kiinaksi (en - zh), kiinasta englanniksi (zh - en), englannista espanjaksi (en - es) ja espanjasta englanniksi (es - en). Seuraava kuva osoittaa, että käännös ACT:llä tuotti korkeamman keskimääräisen BLEU-pistemäärän kaikissa käännösputkissa.
Huomasimme myös, että mitä rakeisempia rinnakkaiset dataparit ovat, sitä parempi on käännössuorituskyky. Käytämme esimerkiksi seuraavaa rinnakkaistietojen syöttötiedostoa kappaleparien kanssa, joka sisältää 10 merkintää.
Samalle sisällölle käytämme seuraavaa rinnakkaista tiedonsyöttötiedostoa, jossa on lausepareja ja 16 merkintää.
Käytimme molempia rinnakkaisia tiedonsyöttötiedostoja kahden rinnakkaisen tietokokonaisuuden rakentamiseen Amazon Translatessa ja loimme sitten kaksi eräkäännöstyötä samalla lähdeasiakirjalla. Seuraava kuva vertaa tulosten käännöksiä. Se osoittaa, että lauseparien rinnakkaista dataa käyttävä tulos ylitti kappaleparien rinnakkaisdataa käyttävän tulosteen sekä englannista kiinaksi että kiinasta englannin käännökseen.
Jos olet kiinnostunut oppimaan lisää näistä vertailuanalyyseistä, katso Automaattinen konekäännös ja synkronointi "Sukella syvään oppimiseen".
Puhdistaa
Toistuvien kustannusten välttämiseksi tulevaisuudessa suosittelemme puhdistamaan luomasi resurssit:
- Valitse Amazon Translate -konsolissa luomasi rinnakkaiset tiedot ja valitse Poista. Vaihtoehtoisesti voit käyttää DeleteParallelData API tai AWS-komentoriviliitäntä (AWS CLI) poista-rinnakkaistiedot komento rinnakkaisten tietojen poistamiseksi.
- Poista S3-ämpäri käytetään isännöimään lähde- ja viiteasiakirjoja, käännettyjä asiakirjoja ja rinnakkaisia tiedonsyöttötiedostoja.
- Poista IAM-rooli ja -käytäntö. Katso ohjeet kohdasta Roolien tai ilmentymien profiilien poistaminen ja Poistetaan IAM-käytäntöjä.
Yhteenveto
Tällä ratkaisulla pyrimme vähentämään ihmisten kääntäjien työtaakkaa 80 % säilyttäen samalla käännösten laadun ja tukemaan useita kieliä. Tämän ratkaisun avulla voit parantaa käännösten laatua ja tehokkuutta. Pyrimme parantamaan edelleen ratkaisuarkkitehtuuria ja käännösten laatua muille kielille.
Palautteesi on aina tervetullutta; jätä ajatuksesi ja kysymyksesi kommenttiosioon.
Tietoja kirjoittajista
Yunfei Bai on AWS:n vanhempi ratkaisuarkkitehti. Tekoälyn/ML:n, datatieteen ja analytiikan taustalla oleva Yunfei auttaa asiakkaita ottamaan käyttöön AWS-palvelut liiketulosten saavuttamiseksi. Hän suunnittelee AI/ML- ja data-analytiikkaratkaisuja, jotka selviytyvät monimutkaisista teknisistä haasteista ja ohjaavat strategisia tavoitteita. Yunfei on elektroniikka- ja sähkötekniikan tohtori. Työn ulkopuolella Yunfei pitää lukemisesta ja musiikista.
Rachel Hu on soveltava tutkija AWS Machine Learning Universityssä (MLU). Hän on johtanut muutamia kurssisuunnitelmia, mukaan lukien ML Operations (MLOps) ja Accelerator Computer Vision. Rachel on AWS:n vanhempi puhuja ja on puhunut huippukonferensseissa, mukaan lukien AWS re:Invent, NVIDIA GTC, KDD ja MLOps Summit. Ennen AWS:ään liittymistään Rachel työskenteli koneoppimisinsinöörinä, joka rakensi luonnollisen kielen käsittelymalleja. Työn ulkopuolella hän nauttii joogasta, frisbeestä, lukemisesta ja matkustamisesta.
Watson Srivathsan on päätuotepäällikkö Amazon Translatelle, AWS:n luonnollisen kielenkäsittelypalvelulle. Viikonloppuisin löydät hänet tutkimasta ulkoilmaa Tyynenmeren luoteisosassa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- EVM Finance. Hajautetun rahoituksen yhtenäinen käyttöliittymä. Pääsy tästä.
- Quantum Media Group. IR/PR vahvistettu. Pääsy tästä.
- PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :on
- :On
- :missä
- $ YLÖS
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- Meistä
- kiihdytin
- pääsy
- saatavilla
- Tili
- tarkkuus
- tarkasti
- päästään
- Toimia
- Toiminta
- aktiivinen
- osoite
- hyväksyä
- hyväksytty
- Jälkeen
- AI
- AI / ML
- tavoitteena
- Kaikki
- sallia
- mahdollistaa
- pitkin
- Myös
- aina
- Amazon
- Amazon Käännä
- Amazon Web Services
- an
- analyysit
- Analytics
- analysoida
- ja
- API
- sovellettu
- Hakeminen
- arkkitehtuuri
- OVAT
- noin
- AS
- At
- Tekijät
- auto
- automaattisesti
- automaattisesti
- saatavissa
- keskimäärin
- välttää
- AWS
- AWS-koneoppiminen
- AWS uudelleen: keksintö
- tausta
- perustua
- BE
- ollut
- ennen
- benchmark
- PARAS
- parhaat käytännöt
- Paremmin
- välillä
- kirja
- Kirjat
- sekä
- rakentaa
- Rakentaminen
- rakennettu
- liiketoiminta
- by
- laskee
- Cambridge
- CAN
- Carnegie Mellon
- haaste
- haasteet
- haastava
- Muutokset
- tarkastaa
- kiinalainen
- Valita
- koodi
- kokoelma
- Sarake
- KOM
- kommentit
- verrattuna
- täydellinen
- monimutkainen
- tietokone
- Tietokoneen visio
- tehty
- konferenssit
- Koostuu
- muodostuu
- Console
- rakentaa
- sisältää
- sisältää
- pitoisuus
- jatkuvasti
- kustannukset
- Kurssi
- luotu
- luominen
- asiakassuhde
- Asiakkaat
- räätälöidä
- räätälöityjä
- tiedot
- Data Analytics
- tietojenkäsittely
- aineistot
- Päivämäärä
- syvä
- syvä oppiminen
- määritelty
- toimittaa
- osoittaa
- kuvaus
- nimetty
- mallit
- haluttu
- asiakirja
- asiakirjat
- ajaa
- aikana
- kukin
- vaikutus
- tehokkuuden
- tehokkuus
- Elektroninen
- yrittää
- insinööri
- Tekniikka
- Englanti
- varmistaa
- yksiköt
- arvio
- arviointi
- jokainen
- esimerkki
- Esimerkit
- teloitus
- olemassa
- asiantuntija
- Tutkiminen
- paljon
- Ominaisuus
- Ominaisuudet
- palaute
- harvat
- Kuva
- luvut
- filee
- Asiakirjat
- Löytää
- Etunimi
- seurata
- jälkeen
- varten
- muoto
- muoto
- neljä
- alkaen
- edelleen
- tulevaisuutta
- tuottaa
- syntyy
- luokka
- myöntää
- avustukset
- Vetimet
- Olla
- he
- auttaa
- korkealaatuisia
- korkeampi
- häntä
- pitää
- isäntä
- Miten
- Miten
- Kuitenkin
- HTML
- http
- HTTPS
- ihmisen
- Identiteetti
- parantaa
- parannus
- parantaminen
- in
- Mukaan lukien
- aloittaa
- panos
- esimerkki
- Instituutti
- ohjeet
- vuorovaikutteinen
- kiinnostunut
- tulee
- IT
- Japanilainen
- Job
- Työpaikat
- tuloaan
- jpg
- säilytetään
- Korean
- Kieli
- kielet
- käynnistää
- johtava
- oppiminen
- jättää
- linja
- Lista
- kone
- koneoppiminen
- tehty
- ylläpitäminen
- tehdä
- TEE
- johto
- johtaja
- Massachusetts
- Massachusettsin Teknologian Instituutti
- ottelu
- matematiikka
- mitata
- Mellon
- menetelmä
- menetelmät
- ML
- MLOps
- malli
- mallit
- monitori
- lisää
- eniten
- moninkertainen
- Musiikki
- täytyy
- nimi
- Luonnollinen
- Luonnollinen kielen käsittely
- Tarve
- tarpeet
- Uusi
- numero
- Nvidia
- tavoitteet
- of
- on
- ONE
- verkossa
- vain
- avoimen lähdekoodin
- Operations
- or
- Muut
- ulkona
- ulostulo
- ulkopuolella
- Voittaa
- Tyynenmeren
- pari
- paria
- Parallel
- kulkee
- suorituskyky
- lupa
- Oikeudet
- putki
- suunnitelmat
- Platon
- Platonin tietotieto
- PlatonData
- Ole hyvä
- politiikkaa
- politiikka
- Portugalin
- Kirje
- käytännöt
- valmis
- esittää
- edellinen
- Pääasiallinen
- prosessi
- Käsitelty
- käsittely
- valmistettu
- Tuotteet
- tuotepäällikkö
- Edistyminen
- tarjoaa
- tarjoamalla
- julkinen
- laittaa
- pytorch
- laatu
- kysymykset
- RE
- Lue
- Lukeminen
- valmis
- todellinen maailma
- reaaliaikainen
- suositella
- toistuva
- vähentää
- suhteellinen
- merkityksellinen
- edustaa
- resurssi
- Esittelymateriaalit
- vastaus
- tulokset
- arviot
- Rooli
- roolit
- ajaa
- sagemaker
- sama
- tiede
- Tiedemies
- pisteet
- Toinen
- Osa
- osiot
- segmentti
- segmentit
- valittu
- vanhempi
- palvelu
- Palvelut
- setti
- hän
- esitetty
- Näytä
- Yksinkertainen
- So
- niin kaukana
- ratkaisu
- Ratkaisumme
- lähde
- Espanjan
- Kaiutin
- puhuttu
- Stanford
- Stanfordin yliopisto
- Lausunto
- Tila
- Vaihe
- Askeleet
- Levytila
- verkkokaupasta
- Strateginen
- tyyli
- niin
- Huippukokous
- Tukea
- tahdistus
- Räätälöity
- Kohde
- Tekninen
- Elektroniikka
- tensorflow
- testattu
- oppikirja
- kuin
- että
- -
- Tulevaisuus
- Lähde
- maailma
- sitten
- Nämä
- tätä
- ne
- aika
- että
- ylin
- perinteinen
- koulutettu
- koulutus
- Kääntää
- Kääntäminen
- Matkustaminen
- Luottamus
- Tsinghuan
- turkki
- kaksi
- tyypillisesti
- lopullinen
- ymmärtäminen
- Yliopistot
- yliopisto
- Cambridgen yliopisto
- Päivitykset
- päivitetty
- Päivitykset
- Ladataan
- käyttää
- käytetty
- käyttämällä
- versio
- vietnam
- visio
- Watson
- Tapa..
- we
- verkko
- verkkopalvelut
- tervetuloa
- HYVIN
- kun
- joka
- vaikka
- tulee
- with
- ilman
- Referenssit
- työskenteli
- työskentely
- maailman-
- kirjallinen
- Jooga
- Voit
- Sinun
- zephyrnet