Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo, specifično za domeno in jezik

V digitalnem svetu zagotavljanje informacij v lokalnem jeziku ni novost, vendar je lahko dolgočasno in drago opravilo. Napredek v strojnem učenju (ML) in obdelavi naravnega jezika (NLP) je to opravilo naredil veliko lažje in cenejše.

Opažamo povečano sprejemanje ML za večjezične podatke in obdelavo dokumentov. Podjetja in vladne stranke selijo svoje delovne obremenitve ročnega prevajanja, da bi izkoristile prednosti avtomatiziranih prevajalskih storitev ML. Amazon Translate je a nevronsko strojno prevajanje storitev, ki zagotavlja hitro, visokokakovostno in cenovno ugodno jezikovno prevajanje med več tisoč jezikovnimi pari, ki se lahko uporabljajo za sinhrone (v realnem času) ali asinhrone prevajalske naloge. Za popoln seznam razpoložljivih prevodnih parov glejte Podprti jeziki in jezikovne kode.

Stranke, ki selijo in posodabljajo svoje prevajalske delovne obremenitve, potrebujejo možnost prilagajanja prevodov za svojo poslovno domeno. Obremenitev prevajanja bo morda potrebovala tudi sposobnost prilagajanja narečjem ali rabi regionalnih jezikov. Na primer, španski prevod "starejših" je anciano(a), v Portoriku pa je prednostna beseda envejeciente.

V tej objavi prikazujemo, kako vključiti funkcijo Active Custom Translation (ACT) storitve Amazon Translate. Predlagamo rešitev za ustvarjanje večjezičnega delovnega toka prevajanja dokumentov s prilagoditvami, specifičnimi za domeno in jezik, ki jih lahko po potrebi pregledate in nadgradite za nenehno izboljševanje rezultatov in veselje končnih uporabnikov.

Pregled rešitev

ACT izdela po meri preveden izhod brez potrebe po izdelavi in ​​vzdrževanju modela prevajanja po meri. Z uporabo ACT bo Amazon Translate uporabil vaše želene primere prevodov kot vzporedne podatke za prilagajanje rezultatov prevoda, s čimer bo odpravil čas in stroške, potrebne za izdelavo in usposabljanje novega modela strojnega učenja.

Rešitev, zajeta v tej objavi, pojasnjuje, kako ustvariti potek dela s človekom v zanki z uporabo Amazon, razširjeni AI (Amazon A2I) za nenehno izboljševanje prilagojenega prevoda. Amazon A2I ponuja preprost način za integracijo človeškega nadzora v vaše poteke dela ML, pri čemer niso potrebne izkušnje z ML. Amazon A2I omogoča preprosto integracijo človeške presoje in umetne inteligence v katero koli aplikacijo ML, ne glede na to, ali se izvaja na AWS ali na drugi platformi.

Za več informacij se obrnite na Oblikovanje delovnih pregledov človeških pregledov z Amazon Translate in Amazon Augmented AI post.

Naslednji diagram prikazuje tok ukazov in tok podatkov rešitve. Potek ukazov prikazuje logično zaporedje dogodkov v poteku dela. Tok podatkov kaže, kako različne komponente v rešitvi ustvarjajo ali uporabljajo podatke.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Naslednji diagram zaporedja prikazuje dva ločena procesa v rešitvi: potek dela prevajanja (A) in postopek posodabljanja vzporednih podatkov (B).

Delovni tok prevajanja sproži an amazoncloudwatch načrtovan dogodek, ki zažene Translation Job Invoker AWS Lambda funkcijo. Ta funkcija ustvari asinhrono prevajalsko opravilo v Amazon Translate, pri čemer posreduje dokument za prevod in lokacijo vzporednih podatkov za prilagajanje prevoda. Prevajalsko opravilo prebere vzporedne podatke, izvede prevod in zapiše preveden rezultat nazaj v Amazon S3 vedro. Od tega pisanja lahko samo asinhrona prevajalska opravila uporabljajo vzporedne podatke.

Ko je prevajalsko opravilo končano, se generira dogodek, ki sproži funkcijo Lambda Handler za dokončanje prevajalskega posla. Ta funkcija ustvari zanko človeškega poteka dela – glavno komponento Amazon A2I dela poteka dela.

Človeški pregledovalci ocenijo prevod in sprejmejo ali spremenijo prevod. Vsi popravki se uporabijo za posodobitev prevedenega dokumenta in dodajo v slovar za prilagajanje. Ko je pregled končan, se ustvari še en dogodek, ki sproži funkcijo obravnave zaključka dela. Ta funkcija zapiše zadnji prevedeni dokument nazaj v Amazon S3. Podatki o prilagajanju se uporabljajo za posodobitev Amazon DynamoDB tabela s pari izvornega in prevedenega besedila.

Da bi sklenili zanko, moramo te prilagoditvene podatke, shranjene v DynamoDB, vključiti nazaj v vzporedne podatke, shranjene v Amazon S3. Da bi to dosegli, uporabimo načrtovani dogodek CloudWatch za sprožitev funkcije Parallel Data Refresher, ki prebere podatke iz tabele DynamoDB, jih preoblikuje kot vzporedne podatke in posodobi vedro S3 ter shrani vzporedne podatke.

Razmestite rešitev z AWS CloudFormation

Zaženite priloženo Oblikovanje oblaka AWS predlogo za uvedbo rešitve v vašem računu. Ta sklad deluje samo v regiji us-east-1. Če želite to rešitev razmestiti v drugih regijah, glejte naslednje GitHub repo.

  1. Izberite Izstrelite sklad:
    Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.
  2. Sledite navodilom za vnos potrebnih parametrov. Če ta sklad izvajate prvič, E-pošta SNS je edini zahtevani parameter.
  3. o pregled strani, v Zmogljivosti izberite potrditveno polje in izberite Ustvari sklad.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Sklad ustvari naslednje ključne komponente:

  • Podatki o prilagajanju – tabela DynamoDB (translate_parallel_data), da ohranite podatke o prilagajanju. V to tabelo preselite obstoječe podatke o prilagajanju. Ta tabela se uporablja za nenehno dodajanje in posodabljanje prilagoditev.
  • Vzporedna osvežitev podatkov – Funkcija Lambda za pretvorbo podatkov o prilagajanju v tabeli DynamoDB v vzporedni format podatkov – CSV, TSV ali TMX – in njihovo shranjevanje v Amazon S3. Ustvari in posodablja vzporedne podatke z novo vzporedno podatkovno datoteko v Amazon S3.
  • Prevajalski posel Invoker – Funkcija Lambda za zagon paketnega opravila Amazon Translate z vzporednimi podatki.
  • Obravnavalec dokončanja prevajalskega posla – Ta funkcija Lambda se sproži, ko je paketno opravilo Amazon Translate končano. Funkcija ustvari eno človeško zanko na dokument (to bomo v prihodnosti izboljšali, da bo ustvarila človeško zanko samo za izbran odstotek obdelanih dokumentov). Za ustvarjanje človeške zanke uporablja izvirne in prevedene dokumente.
  • Predloga po meri Amazon A2I – Ta predloga se uporablja za upodabljanje prevodnega para za človeški pregled. Predloga ima Dodaj možnost za vsak segment prevoda. Uporabniki lahko izberejo to možnost, da dodajo popravke v podatke o prilagajanju. Novi prilagoditveni podatki se uporabijo pri naslednjem paketnem prevajanju.
  • Obravnavalec zaključka delovnega toka – Ta funkcija Lambda se sproži, ko je človeški potek dela končan. Funkcija posodobi prevedeni dokument s popravki in preveri vzporedne posodobitve podatkov. V tabelo DynamoDB so dodani novi vzporedni podatki.
  • Zasebna ekipa Amazon A2I – Zasebna ekipa Amazon A2I je ustvarjena s človeškim delavcem, ki uporablja posredovano e-pošto. Začetne poverilnice se pošljejo po e-pošti ob uspešni izdelavi zasebne ekipe. S tem e-poštnim naslovom in poverilnico se prijavite v portal za delavce Amazon A2I.

Preizkusite raztopino

O sample_text.txt bi bila ustvarjena pod vhodno predpono vedra S3, ki ga je ustvaril sklad. To datoteko uporabljamo za svoje testiranje. Vsebuje naslednjo vsebino:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

Če želite preizkusiti rešitev, opravite naslednje korake:

  1. Prikličite funkcijo Translation Job Invoker ročno ali počakajte, da jo sproži CloudWatch na podlagi urnika cron, ki ste ga določili.
    Ta funkcija sproži paketno opravilo Amazon Translate. Napredek dela lahko spremljate na konzoli Amazon Translate.
    Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.To paketno opravilo traja približno 30 minut. Ko je končan, TextTranslationJob dogodek spremembe stanja sproži funkcijo obravnave dokončanja prevodnega posla. Ta funkcija ustvari eno človeško zanko na preveden dokument.
  2. Pomaknite se na Delovna sila Amazon A2I stran.
  3. Izberite Zasebno tab.
    Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.
  4. Prijavite se v portal za delavce Amazon A2I tako, da izberete povezavo za URL za prijavo v portal za označevanje.
  5. Izberite nalogo Human review task na seznamu delovnih mest.
  6. Izberite Začni delati.
    Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.
    Vidite lahko prikazano naslednjo stran.
    Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.
  7. Sledite navodilom za popravke, specifične za domeno in jezik.
    Na prejšnjem posnetku zaslona je bil stavek »Uporaba zdravstvenega stanja v kateri koli skupini skupinskega zdravstvenega zavarovanja prepovedana z zakonom« preveden v »La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo«. Čeprav je prevod natančen, so bili stavki preurejeni.
  8. Spremenimo to v »El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley«, da bo to bolj neposreden prevod, ki odraža izvirno frazeologijo.
  9. Izberite Dodaj da to dodate v slovar.
  10. Ko končate, izberite Prijave se.
    Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

To sproži funkcijo Workflow Completion Handler in podatki o prilagajanju se posodobijo v tabeli DynamoDB. Funkcija shrani tudi popravljen prevod pod predpono za naknadno urejanje.

Opazujete lahko dodajanje prilagoditev translate_parallel_data tabelo na konzoli DynamoDB.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Tok ukazov

Funkcijo Parallel Data Refresher sproži vsako uro načrtovani dogodek CloudWatch. Ta funkcija preverja nove posodobitve v translate_parallel_data tabelo, ustvari novo vzporedno podatkovno datoteko TMX v Amazon S3 pod parallel_data predpono in posodobi vzporedno podatkovno komponento Amazon Translate. To funkcijo lahko sprožite ročno, če ne želite čakati na načrtovani sprožilec dogodka.

Posodabljanje vzporednih podatkov lahko spremljate na konzoli Amazon Translate.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Ko je končano, mora biti status opravila Aktivno in vrednost za Posodobljeni zapisi mora odražati število dodanih prilagoditev (v tem primeru 1).

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Zdaj lahko znova izvajamo prevajalsko opravilo s posodobljenimi podatki. Znova sprožite funkcijo Invoker opravila prevajanja, da opazujete prilagoditev, dodano prevodu v drugi ponovitvi. Amazon Translate zdaj uporablja vzporedne podatke za prilagajanje prevoda.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Spremembo izhoda prevoda lahko opazujete na portalu za označevanje. Namesto privzetega prevoda vidimo uporabljen prevod po meri.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.

Ta potek dela pomaga ustvariti učinkovit cikel za nenehno izboljševanje rezultatov prevodov z uporabo funkcij za prilagajanje Amazon A2I in Amazon Translate.

strošek

Z Amazon Translate in Amazon A2I plačate sproti glede na število besedilnih znakov, ki ste jih obdelali, in za vsak predmet, ki ga pregleda človek. Za ta primer uporabljamo način DynamoDB na zahtevo. DynamoDB vam zaračuna branje in pisanje, opravljeno v vaših tabelah. Glejte strani s cenami za Amazon prevod, Amazon A2Iin Amazon DynamoDB za dejanske stroške.

Čiščenje

Ko končate s preizkušanjem te rešitve, počistite svoje vire z uporabo konzole AWS CloudFormation, da izbrišete vse vire, ki so razporejeni v tem primeru. Tako se boste izognili nenehnim stroškom na vašem računu.

zaključek

Rešitev, predstavljeno v tej objavi, lahko uporabite za izgradnjo večjezičnega delovnega toka prevajanja, ki postopoma uporablja in dopolnjuje prilagoditve, specifične za domeno, za nenehno izboljševanje rezultatov prevajanja. Zagotovili smo preprost mehanizem za integracijo vaših obstoječih sredstev za prilagajanje z upravljanimi storitvami umetne inteligence, kot sta Amazon Translate in Amazon A2I, da zgradite robustno prevajalsko storitev za vašo aplikacijo. Amazon Translate vam lahko pomaga prilagoditi to rešitev tako, da podpira več kot 5,550 prevajalskih parov takoj po namestitvi. Amazon A2I vam lahko pomaga pri preprosti integraciji z vašim internim jezikovnim strokovnjakom ali izkoristite zunanjo delovno silo za razširitev rešitve.

Za več informacij o Amazon Translate obiščite Amazon Translate viri za iskanje video virov in objav v spletnih dnevnikih ter se sklicujte na AWS Translate Pogosta vprašanja. Prosimo, delite svoje misli z nami v razdelku za komentarje ali v razdelku o težavah projekta Skladišče Github.


O avtorjih

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.Sathya Balakrishnan je Sr Customer Delivery Architect v ekipi Professional Services pri AWS, specializiran za Data/ML rešitve. Dela z ameriškimi zveznimi finančnimi strankami. Navdušen je nad gradnjo pragmatičnih rešitev za reševanje poslovnih težav strank. V prostem času z družino rad gleda filme in hodi na pohode.

Zgradite večjezični potek dela za prevajanje dokumentov s prilagoditvijo PlatoBlockchain Data Intelligence, specifično za domeno in jezik. Navpično iskanje. Ai.Paul W. Joireman je Sr Customer Delivery Architect v strokovnih storitvah pri AWS, specializiran za migracijo aplikacij in delo z ameriškimi zveznimi finančnimi strankami. Paul uživa v ustvarjanju tehnoloških rešitev, potovanjih z družino in pohodništvu po nacionalnem parku Shenandoah, če se pohod konča pri lokalni craft pivovarni.

Časovni žig:

Več od Strojno učenje AWS