Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkotunnus- ja kielikohtaisilla räätälöinnillä

Digitaalisessa maailmassa tiedon tarjoaminen paikallisella kielellä ei ole uutta, mutta se voi olla työläs ja kallis tehtävä. Koneoppimisen (ML) ja luonnollisen kielen käsittelyn (NLP) edistyminen on tehnyt tästä tehtävästä paljon helpompaa ja halvempaa.

Olemme nähneet lisääntyneen ML:n käyttöönoton monikielisten tietojen ja asiakirjojen käsittelyn työkuormissa. Yritys- ja valtionasiakkaat siirtävät manuaalisen käännöstyökuormituksensa hyödyntääkseen automatisoituja ML-käännöspalveluita. Amazon Translate on a hermo kone käännös palvelu, joka tarjoaa nopean, laadukkaan ja edullisen kielenkäännöksen useiden tuhansien kieliparien välillä, joita voidaan käyttää synkronisiin (reaaliaikaisiin) tai asynkronisiin käännöstehtäviin. Täydellinen luettelo käytettävissä olevista käännöspareista on kohdassa Tuetut kielet ja kielikoodit.

Asiakkaat, jotka siirtyvät ja modernisoivat käännöstyökuormiaan, tarvitsevat mahdollisuuden mukauttaa käännöksiä liiketoimintaansa varten. Käännöstyökuorma voi myös edellyttää kykyä mukautua alueellisiin kielten murteisiin tai käyttöön. Esimerkiksi espanjankielinen käännös sanasta "vanhukset" on anciano(a), mutta Puerto Ricossa käytetään sanaa envejeciente.

Tässä viestissä näytämme kuinka sisällyttää Amazon Translaten Active Custom Translation (ACT) -ominaisuus. Ehdotamme ratkaisua monikielisen asiakirjojen käännöstyönkulun luomiseen, jossa on toimialue- ja kielikohtaisia ​​mukautuksia, joita voit tarkastella ja täydentää tarpeen mukaan parantaaksesi jatkuvasti tuloksia ja ilahduttaaksesi loppukäyttäjiä.

Ratkaisun yleiskatsaus

ACT tuottaa räätälöityjä käännöksiä ilman, että sinun tarvitsee rakentaa ja ylläpitää mukautettua käännösmallia. Käyttämällä ACT:tä Amazon Translate käyttää haluamiasi käännösesimerkkejä rinnakkaistietoina käännöstuloksen mukauttamiseen, jolloin uuden koneoppimismallin rakentamiseen ja kouluttamiseen ei kulu aikaa ja kustannuksia.

Tässä viestissä käsitelty ratkaisu selittää, kuinka luoda ihmissilmukan työnkulku käyttämällä Amazonin laajennettu AI (Amazon A2I) parantaaksesi jatkuvasti räätälöityjä käännöksiä. Amazon A2I tarjoaa yksinkertaisen tavan integroida ihmisen valvonta ML-työnkulkuihisi ilman, että ML-kokemusta vaaditaan. Amazon A2I tekee ihmisen harkintakyvyn ja tekoälyn integroimisen yksinkertaiseksi kaikkiin ML-sovelluksiin riippumatta siitä, käytetäänkö sitä AWS:llä vai toisella alustalla.

Lisätietoja saat osoitteesta Ihmisten arviointityövirtojen suunnittelu Amazon Translate: n ja Amazon Augmented AI: n avulla lähettää.

Seuraava kaavio näyttää ratkaisun komento- ja tietovirran. Komentokulku näyttää työnkulun tapahtumien loogisen järjestyksen. Tietovirta osoittaa, kuinka ratkaisun eri komponentit luovat tai käyttävät tietoa.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraavassa järjestyskaaviossa näkyy kaksi erillistä prosessia ratkaisussa: käännöstyönkulku (A) ja rinnakkaisten tietojen päivitysprosessi (B).

Käännöstyönkulun käynnistää amazonin pilvikello ajoitettu tapahtuma, joka käynnistää käännöstyön kutsun AWS Lambda toiminto. Tämä toiminto luo asynkronisen käännöstyön Amazon Translatessa, välittäen asiakirjan käännettäväksi ja rinnakkaisten tietojen sijainnin käännöksen mukauttamiseksi. Käännöstyö lukee rinnakkaiset tiedot, suorittaa käännöksen ja kirjoittaa käännetyn tuloksen takaisin an Amazon S3 ämpäri. Tätä kirjoittaessa vain asynkroniset käännöstyöt voivat käyttää rinnakkaisia ​​tietoja.

Kun käännöstyö on valmis, luodaan tapahtuma, joka käynnistää käännöstyön valmistumisen käsittelijän lambda-toiminnon. Tämä toiminto luo ihmisen työnkulkusilmukan – työnkulun Amazon A2I -osan pääkomponentin.

Henkilöarvioijat arvioivat käännöksen ja hyväksyvät tai muokkaavat käännöstä. Kaikkia korjauksia käytetään käännetyn asiakirjan päivittämiseen ja ne lisätään myös mukautussanakirjaan. Kun tarkistus on viimeistelty, luodaan toinen tapahtuma, joka käynnistää työnkulun loppuunkäsittelijä -toiminnon. Tämä toiminto kirjoittaa viimeisimmän käännetyn asiakirjan takaisin Amazon S3:een. Räätälöintitietoja käytetään päivittämään Amazon DynamoDB taulukko lähde- ja käännetyn tekstin pareista.

Sulkeaksemme silmukan meidän on sisällytettävä nämä DynamoDB:hen tallennetut mukautustiedot takaisin Amazon S3:een tallennettuihin rinnakkaisiin tietoihin. Tämän saavuttamiseksi käytämme ajoitettua CloudWatch-tapahtumaa käynnistämään Parallel Data Refresher -toiminnon, joka lukee tiedot DynamoDB-taulukosta, muotoilee sen uudelleen rinnakkaistiedoksi ja päivittää S3-säihön, joka tallentaa rinnakkaiset tiedot.

Ota ratkaisu käyttöön AWS CloudFormation -sovelluksella

Käynnistä tarjottu AWS-pilven muodostuminen malli, jonka avulla voit ottaa ratkaisun käyttöön tililläsi. Tämä pino toimii vain us-east-1 -alueella. Jos haluat ottaa tämän ratkaisun käyttöön muilla alueilla, katso seuraavaa GitHub repo.

  1. Valita Käynnistä pino:
    Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  2. Noudata ohjeita täyttääksesi tarvittavat parametrit. Jos käytät tätä pinoa ensimmäistä kertaa, SNS-sähköposti on ainoa vaadittu parametri.
  3. On Arvostelu -sivulla Kyvyt -osiossa, valitse valintaruutu ja valitse Luo pino.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Pino luo seuraavat avainkomponentit:

  • Räätälöintitiedot – DynamoDB-taulukko (translate_parallel_data) mukautustietojen ylläpitämiseksi. Siirrät olemassa olevat mukautustiedot tähän taulukkoon. Tätä taulukkoa käytetään jatkuvasti lisäämään ja päivittämään mukautuksia.
  • Parallel Data Refresher – Lambda-toiminto muuntaa DynamoDB-taulukon mukautustiedot rinnakkaistietomuotoon – CSV, TSV tai TMX – ja tallentaa ne Amazon S3:een. Se luo ja päivittää rinnakkaistietoja Amazon S3:n uudella rinnakkaisdatatiedostolla.
  • Käännöstyön kutsuja – Lambda-toiminto käynnistää Amazon Translate erätyön rinnakkaisilla tiedoilla.
  • Käännöstyön viimeistelykäsittelijä – Tämä Lambda-toiminto käynnistyy, kun Amazon Translate erätyö on valmis. Toiminto luo yhden ihmissilmukan asiakirjaa kohden (tarkennamme tätä jatkossa luodaksemme ihmissilmukan vain tietylle prosenttiosuudelle käsitellyistä asiakirjoista). Se käyttää alkuperäisiä ja käännettyjä asiakirjoja luodakseen ihmissilmukan.
  • Amazon A2I mukautettu malli – Tätä mallia käytetään käännösparin tekemiseen ihmisen tarkastettavaksi. Mallissa on Lisää vaihtoehto jokaiselle käännössegmentille. Käyttäjät voivat valita tämän vaihtoehdon lisätäkseen korjauksia mukautustietoihin. Uusia mukautustietoja käytetään seuraavassa eräkäännöstyössä.
  • Työnkulun valmistumisen käsittelijä – Tämä lambdatoiminto käynnistyy, kun ihmisen työnkulku on valmis. Toiminto päivittää käännetyn asiakirjan korjauksilla ja tarkistaa rinnakkaiset tietopäivitykset. DynamoDB-taulukkoon lisätään uusia rinnakkaisia ​​tietoja.
  • Amazon A2I yksityinen tiimi – Amazon A2I:n yksityinen tiimi luodaan työntekijän kanssa käyttämällä annettua sähköpostia. Ensimmäiset tunnistetiedot lähetetään sähköpostitse, kun yksityinen tiimi on luotu onnistuneesti. Käytät tätä sähköpostiosoitetta ja kirjautumistietoja kirjautuaksesi sisään Amazon A2I -työntekijäportaaliin.

Testaa ratkaisu

- sample_text.txt tiedosto olisi luotu pinon luoman S3-säihön syöttöetuliitteellä. Käytämme tätä tiedostoa testauksessamme. Se sisältää seuraavan sisällön:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

Testaa ratkaisu suorittamalla seuraavat vaiheet:

  1. Käynnistä Translation Job Invoker -toiminto manuaalisesti tai odota, että CloudWatch käynnistää sen määrittämäsi cron-aikataulun perusteella.
    Tämä toiminto käynnistää Amazon Translate erätyön. Voit seurata työn edistymistä Amazon Translate -konsolissa.
    Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Tämä erätyö kestää noin 30 minuuttia. Kun se on valmis, TextTranslationJob tilamuutostapahtuma laukaisee käännöstyön valmistumisen käsittelijä -toiminnon. Tämä toiminto luo yhden ihmissilmukan käännettyä asiakirjaa kohden.
  2. Siirry Amazon A2I -työvoimat sivu.
  3. Valitse yksityinen Tab.
    Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  4. Kirjaudu sisään Amazon A2I -työntekijäportaaliin valitsemalla linkin Portaalin kirjautumis-URL-osoitteen merkitseminen.
  5. Valitse tehtävä Human review task työlistalla.
  6. Valita Aloittaa työt.
    Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Näet seuraavan sivun näkyviin.
    Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  7. Tee verkkotunnus- ja kielikohtaisia ​​korjauksia noudattamalla ohjeita.
    Edellisessä kuvakaappauksessa ilmaus "Terveydentilan käyttö kaikissa ryhmäsairausvakuutuksissa on kielletty lailla" on käännetty "La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo". Vaikka käännös on tarkka, lauseet on järjestetty uudelleen.
  8. Muutetaan tämä muotoon "El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley", jotta tästä tulee suorempi käännös, joka heijastelee alkuperäistä fraseologiaa.
  9. valita Lisää lisätäksesi tämän sanakirjaan.
  10. Kun olet valmis, valitse Lähetä.
    Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tämä käynnistää Workflow Completion Handler -toiminnon, ja mukautustiedot päivitetään DynamoDB-taulukkoon. Funktio tallentaa myös korjatun käännöksen jälkimuokkausetuliitteelle.

Voit tarkkailla mukautuksia, joihin lisätään translate_parallel_data taulukko DynamoDB-konsolissa.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Komentovirta

Parallel Data Refresher -toiminto käynnistyy tunnin välein CloudWatchin ajoitetusta tapahtumasta. Tämä toiminto tarkistaa uudet päivitykset translate_parallel_data taulukko, luo uuden rinnakkaisdata-TMX-tiedoston Amazon S3:ssa parallel_data etuliite ja päivittää Amazon Translate - rinnakkaistietokomponentin. Voit käynnistää tämän toiminnon manuaalisesti, jos et halua odottaa ajoitetun tapahtuman liipaisua.

Voit seurata rinnakkaisten tietojen päivittämistä Amazon Translate -konsolissa.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kun se on valmis, työn tilan pitäisi olla Aktiiviset ja arvo Päivitetty tietueet pitäisi heijastaa lisäämiesi muokkausten määrää (tässä tapauksessa 1).

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Nyt voimme suorittaa käännöstyön uudelleen päivitetyillä tiedoilla. Käynnistä Translation Job Invoker -toiminto uudelleen, jotta voit havaita mukautuksen lisäämisen käännökseen toisessa iteraatiossa. Amazon Translate käyttää nyt toimitettuja rinnakkaisia ​​tietoja käännöksen mukauttamiseen.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit tarkkailla käännöstulosten muutosta tarraportaalissa. Oletuskäännöksen sijaan näemme mukautetun käännöksen olevan käytössä.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tämä työnkulku auttaa luomaan hyödyllisen syklin käännöstulosten jatkuvaan parantamiseen Amazon A2I:n ja Amazon Translaten mukautusominaisuuksien avulla.

Hinta

Amazon Translatella ja Amazon A2I:llä maksat käsiteltävien tekstimerkkien määrän ja jokaisen ihmisen arvioiman kohteen perusteella. Käytämme tässä esimerkissä DynamoDB on-demand -tilaa. DynamoDB veloittaa sinua taulukoissasi suoritetuista luku- ja kirjoitustöistä. Katso hintasivuilta Amazon Käännä, Amazon A2Ija Amazon DynamoDB todellisille kustannuksille.

Puhdistaa

Kun olet lopettanut tämän ratkaisun kokeilun, puhdista resurssit käyttämällä AWS CloudFormation -konsolia poistaaksesi kaikki tässä esimerkissä käyttöönotetut resurssit. Tämä auttaa sinua välttämään jatkuvat kulut tililläsi.

Yhteenveto

Voit käyttää tässä viestissä esiteltyä ratkaisua rakentaaksesi monikielisen käännöstyönkulun, joka käyttää ja täydentää verkkotunnuskohtaista räätälöintiä asteittain parantaakseen jatkuvasti käännöstuloksia. Tarjosimme yksinkertaisen mekanismin olemassa olevien räätälöintiresurssien integroimiseksi hallinnoituihin tekoälypalveluihin, kuten Amazon Translate ja Amazon A2I, rakentaaksemme vankan käännöspalvelun sovelluksellesi. Amazon Translate voi auttaa sinua skaalaamaan tämän ratkaisun tukemaan yli 5,550 2 käännösparia. Amazon AXNUMXI voi auttaa sinua integroitumaan helposti oman kieliasiantuntijasi kanssa tai hyödyntämään ulkopuolista työvoimaa ratkaisun skaalaamiseen.

Lisätietoja Amazon Translatesta on osoitteessa Amazon Translate -resurssit löytääksesi videoresursseja ja blogikirjoituksia sekä viitata niihin AWS Translate UKK. Ole hyvä ja jaa ajatuksesi kanssamme kommenttiosiossa tai projektin aiheosiossa Github-arkisto.


Tietoja Tekijät

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Sathya Balakrishnan on Sr Customer Delivery Architect AWS:n Professional Services -tiimissä, joka on erikoistunut Data/ML-ratkaisuihin. Hän työskentelee Yhdysvaltain liittovaltion rahoitusasiakkaiden kanssa. Hän on intohimoinen rakentamaan pragmaattisia ratkaisuja asiakkaiden liiketoimintaongelmien ratkaisemiseksi. Vapaa-ajallaan hän katselee elokuvia ja retkeilee perheen kanssa.

Rakenna monikielinen asiakirjojen käännöstyönkulku verkkoaluekohtaisella ja kielikohtaisella räätälöinnillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Paul W. Joireman on Sr Customer Delivery Architect ammattipalveluissa AWS:ssä, erikoistunut sovellusten siirtoon ja työskentelemään Yhdysvaltain liittovaltion rahoitusasiakkaiden kanssa. Paul nauttii teknologiaratkaisujen luomisesta, perheen kanssa matkustamisesta ja vaelluksesta Shenandoahin kansallispuistossa, kunhan vaellus päättyy paikalliseen käsityöpanimoon.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen