Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Looge mitmekeelne dokumenditõlke töövoog domeeni- ja keelepõhise kohandamisega

Digimaailmas pole kohalikus keeles teabe edastamine uudne, kuid see võib olla tüütu ja kulukas ülesanne. Masinaõppe (ML) ja loomuliku keele töötlemise (NLP) edusammud on muutnud selle ülesande palju lihtsamaks ja odavamaks.

Oleme näinud mitmekeelsete andmete ja dokumentide töötlemise töökoormuste jaoks ML-i laiemat kasutuselevõttu. Ettevõtlus- ja valitsuskliendid viivad oma käsitsi tõlke töökoormused üle, et kasutada ära automatiseeritud ML-tõlketeenuseid. Amazon Translate on a närvi masintõlge teenus, mis pakub kiiret, kvaliteetset ja taskukohast keeletõlget mitme tuhande keelepaari vahel, mida saab kasutada sünkroonsete (reaalajas) või asünkroonsete tõlkeülesannete jaoks. Saadaolevate tõlkepaaride täieliku loendi leiate aadressilt Toetatud keeled ja keelekoodid.

Kliendid, kes migreeruvad ja moderniseerivad oma tõlketöökoormust, peavad saama tõlkeid oma ärivaldkonna jaoks kohandada. Tõlketöökoormus võib vajada ka kohanemisvõimet piirkondlike keelemurrete või -kasutusega. Näiteks sõna "eakad" hispaaniakeelses tõlkes on anciano(a), kuid Puerto Ricos eelistatakse sõna envejeciente.

Selles postituses näitame, kuidas lisada Amazon Translate'i Active Custom Translation (ACT) funktsioon. Pakume välja lahendust mitmekeelse dokumenditõlke töövoo loomiseks koos domeeni- ja keelepõhiste kohandustega, mida saate vajadusel üle vaadata ja täiendada, et tulemusi pidevalt parandada ja lõppkasutajaid rõõmustada.

Lahenduse ülevaade

ACT toodab kohandatud tõlkeväljundit, ilma et oleks vaja luua ja hooldada kohandatud tõlkemudelit. Kasutades ACT-d, kasutab Amazon Translate teie eelistatud tõlkenäiteid paralleelandmetena, et kohandada teie tõlketulemust, välistades uue masinõppemudeli koostamiseks ja koolitamiseks kuluva aja ja kulud.

Selles postituses käsitletud lahendus selgitab, kuidas luua ahelas inimese töövoogu kasutades Amazoni laiendatud AI (Amazon A2I), et kohandatud tõlget pidevalt täiustada. Amazon A2I pakub lihtsat viisi inimliku järelevalve integreerimiseks teie ML-i töövoogudesse, ilma et oleks vaja ML-i kogemust. Amazon A2I muudab inimeste otsustusvõime ja tehisintellekti integreerimise mis tahes ML-rakendusse lihtsaks, olenemata sellest, kas see töötab AWS-is või mõnel muul platvormil.

Lisateabe saamiseks vaadake Inimeste ülevaatuse töövoogude kujundamine Amazon Translate'i ja Amazon Augmented AI abil postitus

Järgmine diagramm kuvab lahenduse käsuvoo ja andmevoo. Käsuvoog näitab sündmuste loogilist järjestust töövoos. Andmevoog näitab, kuidas lahenduse erinevad komponendid andmeid loovad või kasutavad.

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmine jadaskeem näitab lahenduses kahte eraldi protsessi: tõlkimise töövoogu (A) ja paralleelandmete värskendamise protsessi (B).

Tõlketöövoo algatab an Amazon CloudWatch ajastatud sündmus, mis käivitab tõlketöö kutsuja AWS Lambda funktsiooni. See funktsioon loob Amazon Translate'is asünkroonse tõlketöö, edastades tõlkimiseks dokumendi ja paralleelandmete asukoha tõlke kohandamiseks. Tõlketöö loeb paralleelsed andmed, teostab tõlke ja kirjutab tõlgitud tulemuse tagasi an Amazon S3 ämber. Selle kirjutamise seisuga saavad paralleelandmeid kasutada ainult asünkroonsed tõlketööd.

Kui tõlketöö on lõpetatud, genereeritakse sündmus, mis käivitab funktsiooni Tõlketöö lõpetamise käitleja lambda. See funktsioon loob inimese töövoo silmuse – töövoo Amazon A2I osa põhikomponendi.

Ülevaatajad hindavad tõlget ja aktsepteerivad või muudavad tõlke. Kõiki parandusi kasutatakse tõlgitud dokumendi värskendamiseks ja need lisatakse ka kohandamissõnaraamatusse. Kui ülevaatus on lõpule viidud, genereeritakse töövoo lõpuleviimise käitleja funktsiooni käivitamiseks veel üks sündmus. See funktsioon kirjutab viimase tõlgitud dokumendi tagasi Amazon S3-sse. Kohandusandmeid kasutatakse värskendamiseks Amazon DynamoDB tabel allika ja tõlgitud teksti paaridega.

Silmuse sulgemiseks peame need DynamoDB-sse salvestatud kohandamisandmed tagasi Amazon S3-sse salvestatud paralleelandmetesse lisama. Selle saavutamiseks kasutame ajastatud CloudWatchi sündmust, et käivitada funktsioon Parallel Data Refresher, mis loeb andmed DynamoDB tabelist, vormindab need ümber paralleelandmeteks ja värskendab S3 ämbrit, salvestades paralleelsed andmed.

Juurutage lahendus AWS CloudFormationiga

Käivitage pakutav AWS CloudFormation mall lahenduse juurutamiseks oma kontol. See virn töötab ainult us-ida-1 piirkonnas. Kui soovite seda lahendust juurutada teistes piirkondades, vaadake järgmist GitHub repo.

  1. Vali Käivitage Stack:
    Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  2. Järgige vajalike parameetrite sisestamiseks juhiseid. Kui kasutate seda pinu esimest korda, SNS-i e-post on ainus nõutav parameeter.
  3. Kohta Ülevaade lehel Võimed jaotises märkige ruut ja valige Loo virn.

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Virn loob järgmised põhikomponendid:

  • Kohandamise andmed - DynamoDB tabel (translate_parallel_data) kohandamisandmete säilitamiseks. Viite olemasolevad kohandamisandmed sellesse tabelisse üle. Seda tabelit kasutatakse kohanduste pidevaks lisamiseks ja värskendamiseks.
  • Paralleelandmete värskendaja – Lambda funktsioon DynamoDB tabeli kohandamisandmete teisendamiseks paralleelsesse andmevormingusse (CSV, TSV või TMX) ja nende salvestamiseks Amazon S3-sse. See loob ja värskendab paralleelseid andmeid Amazon S3 uue paralleelandmefailiga.
  • Tõlketöö kutsuja – Lambda funktsioon Amazon Translate'i paketttöö käivitamiseks paralleelsete andmetega.
  • Tõlketöö lõpetamise töötleja – See lambda funktsioon käivitub, kui Amazon Translate'i pakktöö on lõppenud. Funktsioon loob ühe inimese tsükli iga dokumendi kohta (tulevikus täpsustame seda, et luua inimtsükkel ainult teatud protsendi töödeldud dokumentide jaoks). See kasutab inimahela loomiseks originaal- ja tõlgitud dokumente.
  • Amazon A2I kohandatud mall – Seda malli kasutatakse tõlkepaari inimese ülevaatamiseks. Mallil on lisama valik iga tõlkesegmendi jaoks. Kasutajad saavad selle valiku teha kohandamisandmetesse paranduste lisamiseks. Uusi kohandamisandmeid kasutatakse järgmises pakktõlketöös.
  • Töövoo lõpuleviimise käitleja – See lambda funktsioon käivitub, kui inimese töövoog on lõppenud. Funktsioon värskendab tõlgitud dokumenti paranduste abil ja kontrollib paralleelsete andmete värskendusi. DynamoDB tabelisse lisatakse uued paralleelandmed.
  • Amazon A2I erameeskond – Amazoni A2I privaatmeeskond luuakse koos inimtöötajaga, kasutades kaasasolevat meili. Privaatmeeskonna edukal loomisel saadetakse esmased mandaadid. Kasutate seda meili ja mandaati Amazon A2I töötajate portaali sisselogimiseks.

Testige lahendust

. sample_text.txt fail oleks loodud virna loodud S3 ämbri sisendprefiksi all. Kasutame seda faili testimiseks. See sisaldab järgmist sisu:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

Lahenduse testimiseks toimige järgmiselt.

  1. Käivitage funktsioon Translation Job Invoker käsitsi või oodake, kuni CloudWatch selle teie määratud croni ajakava alusel käivitab.
    See funktsioon käivitab Amazon Translate'i pakktöö. Töö edenemist saate jälgida Amazon Translate'i konsoolil.
    Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Selle pakktöö tegemiseks kulub umbes 30 minutit. Kui see on valmis, TextTranslationJob oleku muutmise sündmus käivitab tõlketöö lõpuleviimise töötleja funktsiooni. See funktsioon loob ühe inimtsükli iga tõlgitud dokumendi kohta.
  2. Liikuge Amazon A2I tööjõud lehel.
  3. Vali Era- Tab.
    Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  4. Logige sisse Amazon A2I töötajate portaali, valides lingi Portaali sisselogimis-URL-i sildistamine.
  5. Valige ülesanne Human review task tööde nimekirjas.
  6. Vali Hakka tööle.
    Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
    Kuvatakse järgmine leht.
    Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
  7. Järgige domeeni- ja keelepõhiste paranduste tegemiseks juhiseid.
    Eelmisel ekraanipildil on fraas "Tervisliku seisundi kasutamine mis tahes grupi tervisekindlustuspoliisis on seadusega keelatud" tõlgitud "La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo". Kuigi tõlge on täpne, on fraasid ümber paigutatud.
  8. Muutkem seda sõnaga „El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley”, et muuta see otsesemaks tõlkeks, mis kajastaks algset fraseoloogiat.
  9. valima lisama et see sõnaraamatusse lisada.
  10. Kui olete lõpetanud, valige LIITU.
    Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

See käivitab funktsiooni Workflow Completion Handler ja kohandamisandmeid värskendatakse DynamoDB tabelis. Funktsioon salvestab ka parandatud tõlke redigeerimisjärgse prefiksi alla.

Saate jälgida lisatavaid kohandusi translate_parallel_data tabel DynamoDB konsoolil.

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Käsuvoog

Parallel Data Refresher funktsioon käivitatakse iga tund CloudWatchi ajastatud sündmuse tõttu. See funktsioon kontrollib rakenduses uusi värskendusi translate_parallel_data tabel, loob rakenduses Amazon S3 uue paralleelandmete TMX-faili parallel_data eesliide ja värskendab Amazon Translate'i paralleelandmete komponenti. Saate selle funktsiooni käsitsi käivitada, kui te ei soovi oodata ajastatud sündmuse käivitamist.

Paralleelseid andmeid saate jälgida Amazon Translate'i konsoolis.

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kui see on lõpetatud, peaks töö olek olema aktiivne ja selle väärtus Uuendatud kirjed peaks kajastama lisatud kohanduste arvu (antud juhul 1).

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Nüüd saame uuendatud andmetega tõlketöö uuesti käivitada. Käivitage funktsioon Translation Job Invoker uuesti, et jälgida kohanduste lisamist tõlkele teises iteratsioonis. Amazon Translate kasutab nüüd tõlke kohandamiseks pakutavaid paralleelseid andmeid.

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Tõlkeväljundi muutust saate jälgida märgistamisportaalis. Vaiketõlke asemel näeme kohandatud tõlke rakendamist.

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

See töövoog aitab luua positiivse tsükli tõlkeväljundi pidevaks täiustamiseks, kasutades Amazon A2I ja Amazon Translate'i kohandamisfunktsioone.

Maksma

Amazon Translate'i ja Amazon A2I-ga maksate jooksvalt vastavalt töödeldud tekstimärkide arvule ja iga inimese poolt üle vaadatud objektile. Selle näite jaoks kasutame DynamoDB tellitavat režiimi. DynamoDB võtab teilt tasu tabelite lugemise ja kirjutamise eest. Vaadake hinnakujunduse lehekülgi Amazoni tõlge, Amazon A2Ija Amazon DynamoDB tegelike kulude jaoks.

Koristage

Kui olete selle lahendusega katsetamise lõpetanud, puhastage oma ressursid, kasutades AWS CloudFormationi konsooli, et kustutada kõik selles näites juurutatud ressursid. See aitab teil vältida jätkuvaid kulusid oma kontol.

Järeldus

Selles postituses esitatud lahenduse abil saate luua mitmekeelse tõlke töövoo, mis kasutab ja täiendab järk-järgult domeenispetsiifilist kohandamist, et tõlketulemusi pidevalt parandada. Pakkusime lihtsa mehhanismi teie olemasolevate kohandamisvarade integreerimiseks hallatud tehisintellektiteenustega, nagu Amazon Translate ja Amazon A2I, et luua teie rakenduse jaoks tugev tõlketeenus. Amazon Translate aitab teil seda lahendust skaleerida, et toetada enam kui 5,550 tõlkepaari. Amazon A2I aitab teil hõlpsasti integreeruda oma ettevõttesisese keeleeksperdiga või kasutada lahenduse laiendamiseks välist tööjõudu.

Amazon Translate'i kohta lisateabe saamiseks külastage Amazoni tõlke ressursid videoressursside ja ajaveebipostituste leidmiseks ning viitamiseks AWS-i tõlkimise KKK. Palun jagage oma mõtteid meiega kommentaaride jaotises või projekti probleemide jaotises Githubi hoidla.


Autoritest

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Sathya Balakrishnan on AWS-i professionaalsete teenuste meeskonna vanem klientide kohaletoimetamise arhitekt, kes on spetsialiseerunud andme-/ML-lahendustele. Ta töötab USA föderaalsete finantsklientidega. Ta on kirglik klientide äriprobleemide lahendamiseks pragmaatiliste lahenduste loomisest. Vabal ajal meeldib talle perega filme vaadata ja matkata.

Looge mitmekeelne dokumentide tõlkimise töövoog domeeni- ja keelepõhise kohandamisega PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Paul W. Joireman on AWS-i professionaalsete teenuste Sr klientide kohaletoimetamise arhitekt, kes on spetsialiseerunud rakenduste migreerimisele ja töötades USA föderaalsete finantsklientidega. Paul naudib tehnoloogiliste lahenduste loomist, perega reisimist ja matkamist Shenandoahi rahvuspargis seni, kuni matk lõpeb kohalikus käsitööõlletehases.

Ajatempel:

Veel alates AWS-i masinõpe