Digitaalisessa maailmassa tiedon tarjoaminen paikallisella kielellä ei ole uutta, mutta se voi olla työläs ja kallis tehtävä. Koneoppimisen (ML) ja luonnollisen kielen käsittelyn (NLP) edistyminen on tehnyt tästä tehtävästä paljon helpompaa ja halvempaa.
Olemme nähneet lisääntyneen ML:n käyttöönoton monikielisten tietojen ja asiakirjojen käsittelyn työkuormissa. Yritys- ja valtionasiakkaat siirtävät manuaalisen käännöstyökuormituksensa hyödyntääkseen automatisoituja ML-käännöspalveluita. Amazon Translate on a hermo kone käännös palvelu, joka tarjoaa nopean, laadukkaan ja edullisen kielenkäännöksen useiden tuhansien kieliparien välillä, joita voidaan käyttää synkronisiin (reaaliaikaisiin) tai asynkronisiin käännöstehtäviin. Täydellinen luettelo käytettävissä olevista käännöspareista on kohdassa Tuetut kielet ja kielikoodit.
Asiakkaat, jotka siirtyvät ja modernisoivat käännöstyökuormiaan, tarvitsevat mahdollisuuden mukauttaa käännöksiä liiketoimintaansa varten. Käännöstyökuorma voi myös edellyttää kykyä mukautua alueellisiin kielten murteisiin tai käyttöön. Esimerkiksi espanjankielinen käännös sanasta "vanhukset" on anciano(a), mutta Puerto Ricossa käytetään sanaa envejeciente.
Tässä viestissä näytämme kuinka sisällyttää Amazon Translaten Active Custom Translation (ACT) -ominaisuus. Ehdotamme ratkaisua monikielisen asiakirjojen käännöstyönkulun luomiseen, jossa on toimialue- ja kielikohtaisia mukautuksia, joita voit tarkastella ja täydentää tarpeen mukaan parantaaksesi jatkuvasti tuloksia ja ilahduttaaksesi loppukäyttäjiä.
Ratkaisun yleiskatsaus
ACT tuottaa räätälöityjä käännöksiä ilman, että sinun tarvitsee rakentaa ja ylläpitää mukautettua käännösmallia. Käyttämällä ACT:tä Amazon Translate käyttää haluamiasi käännösesimerkkejä rinnakkaistietoina käännöstuloksen mukauttamiseen, jolloin uuden koneoppimismallin rakentamiseen ja kouluttamiseen ei kulu aikaa ja kustannuksia.
Tässä viestissä käsitelty ratkaisu selittää, kuinka luoda ihmissilmukan työnkulku käyttämällä Amazonin laajennettu AI (Amazon A2I) parantaaksesi jatkuvasti räätälöityjä käännöksiä. Amazon A2I tarjoaa yksinkertaisen tavan integroida ihmisen valvonta ML-työnkulkuihisi ilman, että ML-kokemusta vaaditaan. Amazon A2I tekee ihmisen harkintakyvyn ja tekoälyn integroimisen yksinkertaiseksi kaikkiin ML-sovelluksiin riippumatta siitä, käytetäänkö sitä AWS:llä vai toisella alustalla.
Lisätietoja saat osoitteesta Ihmisten arviointityövirtojen suunnittelu Amazon Translate: n ja Amazon Augmented AI: n avulla lähettää.
Seuraava kaavio näyttää ratkaisun komento- ja tietovirran. Komentokulku näyttää työnkulun tapahtumien loogisen järjestyksen. Tietovirta osoittaa, kuinka ratkaisun eri komponentit luovat tai käyttävät tietoa.
Seuraavassa järjestyskaaviossa näkyy kaksi erillistä prosessia ratkaisussa: käännöstyönkulku (A) ja rinnakkaisten tietojen päivitysprosessi (B).
Käännöstyönkulun käynnistää amazonin pilvikello ajoitettu tapahtuma, joka käynnistää käännöstyön kutsun AWS Lambda toiminto. Tämä toiminto luo asynkronisen käännöstyön Amazon Translatessa, välittäen asiakirjan käännettäväksi ja rinnakkaisten tietojen sijainnin käännöksen mukauttamiseksi. Käännöstyö lukee rinnakkaiset tiedot, suorittaa käännöksen ja kirjoittaa käännetyn tuloksen takaisin an Amazon S3 ämpäri. Tätä kirjoittaessa vain asynkroniset käännöstyöt voivat käyttää rinnakkaisia tietoja.
Kun käännöstyö on valmis, luodaan tapahtuma, joka käynnistää käännöstyön valmistumisen käsittelijän lambda-toiminnon. Tämä toiminto luo ihmisen työnkulkusilmukan – työnkulun Amazon A2I -osan pääkomponentin.
Henkilöarvioijat arvioivat käännöksen ja hyväksyvät tai muokkaavat käännöstä. Kaikkia korjauksia käytetään käännetyn asiakirjan päivittämiseen ja ne lisätään myös mukautussanakirjaan. Kun tarkistus on viimeistelty, luodaan toinen tapahtuma, joka käynnistää työnkulun loppuunkäsittelijä -toiminnon. Tämä toiminto kirjoittaa viimeisimmän käännetyn asiakirjan takaisin Amazon S3:een. Räätälöintitietoja käytetään päivittämään Amazon DynamoDB taulukko lähde- ja käännetyn tekstin pareista.
Sulkeaksemme silmukan meidän on sisällytettävä nämä DynamoDB:hen tallennetut mukautustiedot takaisin Amazon S3:een tallennettuihin rinnakkaisiin tietoihin. Tämän saavuttamiseksi käytämme ajoitettua CloudWatch-tapahtumaa käynnistämään Parallel Data Refresher -toiminnon, joka lukee tiedot DynamoDB-taulukosta, muotoilee sen uudelleen rinnakkaistiedoksi ja päivittää S3-säihön, joka tallentaa rinnakkaiset tiedot.
Ota ratkaisu käyttöön AWS CloudFormation -sovelluksella
Käynnistä tarjottu AWS-pilven muodostuminen malli, jonka avulla voit ottaa ratkaisun käyttöön tililläsi. Tämä pino toimii vain us-east-1 -alueella. Jos haluat ottaa tämän ratkaisun käyttöön muilla alueilla, katso seuraavaa GitHub repo.
- Valita Käynnistä pino:
- Noudata ohjeita täyttääksesi tarvittavat parametrit. Jos käytät tätä pinoa ensimmäistä kertaa, SNS-sähköposti on ainoa vaadittu parametri.
- On Arvostelu -sivulla Kyvyt -osiossa, valitse valintaruutu ja valitse Luo pino.
Pino luo seuraavat avainkomponentit:
- Räätälöintitiedot – DynamoDB-taulukko (
translate_parallel_data
) mukautustietojen ylläpitämiseksi. Siirrät olemassa olevat mukautustiedot tähän taulukkoon. Tätä taulukkoa käytetään jatkuvasti lisäämään ja päivittämään mukautuksia. - Parallel Data Refresher – Lambda-toiminto muuntaa DynamoDB-taulukon mukautustiedot rinnakkaistietomuotoon – CSV, TSV tai TMX – ja tallentaa ne Amazon S3:een. Se luo ja päivittää rinnakkaistietoja Amazon S3:n uudella rinnakkaisdatatiedostolla.
- Käännöstyön kutsuja – Lambda-toiminto käynnistää Amazon Translate erätyön rinnakkaisilla tiedoilla.
- Käännöstyön viimeistelykäsittelijä – Tämä Lambda-toiminto käynnistyy, kun Amazon Translate erätyö on valmis. Toiminto luo yhden ihmissilmukan asiakirjaa kohden (tarkennamme tätä jatkossa luodaksemme ihmissilmukan vain tietylle prosenttiosuudelle käsitellyistä asiakirjoista). Se käyttää alkuperäisiä ja käännettyjä asiakirjoja luodakseen ihmissilmukan.
- Amazon A2I mukautettu malli – Tätä mallia käytetään käännösparin tekemiseen ihmisen tarkastettavaksi. Mallissa on Lisää vaihtoehto jokaiselle käännössegmentille. Käyttäjät voivat valita tämän vaihtoehdon lisätäkseen korjauksia mukautustietoihin. Uusia mukautustietoja käytetään seuraavassa eräkäännöstyössä.
- Työnkulun valmistumisen käsittelijä – Tämä lambdatoiminto käynnistyy, kun ihmisen työnkulku on valmis. Toiminto päivittää käännetyn asiakirjan korjauksilla ja tarkistaa rinnakkaiset tietopäivitykset. DynamoDB-taulukkoon lisätään uusia rinnakkaisia tietoja.
- Amazon A2I yksityinen tiimi – Amazon A2I:n yksityinen tiimi luodaan työntekijän kanssa käyttämällä annettua sähköpostia. Ensimmäiset tunnistetiedot lähetetään sähköpostitse, kun yksityinen tiimi on luotu onnistuneesti. Käytät tätä sähköpostiosoitetta ja kirjautumistietoja kirjautuaksesi sisään Amazon A2I -työntekijäportaaliin.
Testaa ratkaisu
- sample_text.txt
tiedosto olisi luotu pinon luoman S3-säihön syöttöetuliitteellä. Käytämme tätä tiedostoa testauksessamme. Se sisältää seuraavan sisällön:
Testaa ratkaisu suorittamalla seuraavat vaiheet:
- Käynnistä Translation Job Invoker -toiminto manuaalisesti tai odota, että CloudWatch käynnistää sen määrittämäsi cron-aikataulun perusteella.
Tämä toiminto käynnistää Amazon Translate erätyön. Voit seurata työn edistymistä Amazon Translate -konsolissa.
Tämä erätyö kestää noin 30 minuuttia. Kun se on valmis,TextTranslationJob
tilamuutostapahtuma laukaisee käännöstyön valmistumisen käsittelijä -toiminnon. Tämä toiminto luo yhden ihmissilmukan käännettyä asiakirjaa kohden. - Siirry Amazon A2I -työvoimat sivu.
- Valitse yksityinen Tab.
- Kirjaudu sisään Amazon A2I -työntekijäportaaliin valitsemalla linkin Portaalin kirjautumis-URL-osoitteen merkitseminen.
- Valitse tehtävä
Human review task
työlistalla. - Valita Aloittaa työt.
Näet seuraavan sivun näkyviin. - Tee verkkotunnus- ja kielikohtaisia korjauksia noudattamalla ohjeita.
Edellisessä kuvakaappauksessa ilmaus "Terveydentilan käyttö kaikissa ryhmäsairausvakuutuksissa on kielletty lailla" on käännetty "La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo". Vaikka käännös on tarkka, lauseet on järjestetty uudelleen. - Muutetaan tämä muotoon "El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley", jotta tästä tulee suorempi käännös, joka heijastelee alkuperäistä fraseologiaa.
- valita Lisää lisätäksesi tämän sanakirjaan.
- Kun olet valmis, valitse Lähetä.
Tämä käynnistää Workflow Completion Handler -toiminnon, ja mukautustiedot päivitetään DynamoDB-taulukkoon. Funktio tallentaa myös korjatun käännöksen jälkimuokkausetuliitteelle.
Voit tarkkailla mukautuksia, joihin lisätään translate_parallel_data
taulukko DynamoDB-konsolissa.
Komentovirta
Parallel Data Refresher -toiminto käynnistyy tunnin välein CloudWatchin ajoitetusta tapahtumasta. Tämä toiminto tarkistaa uudet päivitykset translate_parallel_data
taulukko, luo uuden rinnakkaisdata-TMX-tiedoston Amazon S3:ssa parallel_data
etuliite ja päivittää Amazon Translate - rinnakkaistietokomponentin. Voit käynnistää tämän toiminnon manuaalisesti, jos et halua odottaa ajoitetun tapahtuman liipaisua.
Voit seurata rinnakkaisten tietojen päivittämistä Amazon Translate -konsolissa.
Kun se on valmis, työn tilan pitäisi olla Aktiiviset ja arvo Päivitetty tietueet pitäisi heijastaa lisäämiesi muokkausten määrää (tässä tapauksessa 1).
Nyt voimme suorittaa käännöstyön uudelleen päivitetyillä tiedoilla. Käynnistä Translation Job Invoker -toiminto uudelleen, jotta voit havaita mukautuksen lisäämisen käännökseen toisessa iteraatiossa. Amazon Translate käyttää nyt toimitettuja rinnakkaisia tietoja käännöksen mukauttamiseen.
Voit tarkkailla käännöstulosten muutosta tarraportaalissa. Oletuskäännöksen sijaan näemme mukautetun käännöksen olevan käytössä.
Tämä työnkulku auttaa luomaan hyödyllisen syklin käännöstulosten jatkuvaan parantamiseen Amazon A2I:n ja Amazon Translaten mukautusominaisuuksien avulla.
Hinta
Amazon Translatella ja Amazon A2I:llä maksat käsiteltävien tekstimerkkien määrän ja jokaisen ihmisen arvioiman kohteen perusteella. Käytämme tässä esimerkissä DynamoDB on-demand -tilaa. DynamoDB veloittaa sinua taulukoissasi suoritetuista luku- ja kirjoitustöistä. Katso hintasivuilta Amazon Käännä, Amazon A2Ija Amazon DynamoDB todellisille kustannuksille.
Puhdistaa
Kun olet lopettanut tämän ratkaisun kokeilun, puhdista resurssit käyttämällä AWS CloudFormation -konsolia poistaaksesi kaikki tässä esimerkissä käyttöönotetut resurssit. Tämä auttaa sinua välttämään jatkuvat kulut tililläsi.
Yhteenveto
Voit käyttää tässä viestissä esiteltyä ratkaisua rakentaaksesi monikielisen käännöstyönkulun, joka käyttää ja täydentää verkkotunnuskohtaista räätälöintiä asteittain parantaakseen jatkuvasti käännöstuloksia. Tarjosimme yksinkertaisen mekanismin olemassa olevien räätälöintiresurssien integroimiseksi hallinnoituihin tekoälypalveluihin, kuten Amazon Translate ja Amazon A2I, rakentaaksemme vankan käännöspalvelun sovelluksellesi. Amazon Translate voi auttaa sinua skaalaamaan tämän ratkaisun tukemaan yli 5,550 2 käännösparia. Amazon AXNUMXI voi auttaa sinua integroitumaan helposti oman kieliasiantuntijasi kanssa tai hyödyntämään ulkopuolista työvoimaa ratkaisun skaalaamiseen.
Lisätietoja Amazon Translatesta on osoitteessa Amazon Translate -resurssit löytääksesi videoresursseja ja blogikirjoituksia sekä viitata niihin AWS Translate UKK. Ole hyvä ja jaa ajatuksesi kanssamme kommenttiosiossa tai projektin aiheosiossa Github-arkisto.
Tietoja Tekijät
Sathya Balakrishnan on Sr Customer Delivery Architect AWS:n Professional Services -tiimissä, joka on erikoistunut Data/ML-ratkaisuihin. Hän työskentelee Yhdysvaltain liittovaltion rahoitusasiakkaiden kanssa. Hän on intohimoinen rakentamaan pragmaattisia ratkaisuja asiakkaiden liiketoimintaongelmien ratkaisemiseksi. Vapaa-ajallaan hän katselee elokuvia ja retkeilee perheen kanssa.
Paul W. Joireman on Sr Customer Delivery Architect ammattipalveluissa AWS:ssä, erikoistunut sovellusten siirtoon ja työskentelemään Yhdysvaltain liittovaltion rahoitusasiakkaiden kanssa. Paul nauttii teknologiaratkaisujen luomisesta, perheen kanssa matkustamisesta ja vaelluksesta Shenandoahin kansallispuistossa, kunhan vaellus päättyy paikalliseen käsityöpanimoon.
- Lisäasetukset (300)
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazon Käännä
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet