V digitalnem svetu zagotavljanje informacij v lokalnem jeziku ni novost, vendar je lahko dolgočasno in drago opravilo. Napredek v strojnem učenju (ML) in obdelavi naravnega jezika (NLP) je to opravilo naredil veliko lažje in cenejše.
Opažamo povečano sprejemanje ML za večjezične podatke in obdelavo dokumentov. Podjetja in vladne stranke selijo svoje delovne obremenitve ročnega prevajanja, da bi izkoristile prednosti avtomatiziranih prevajalskih storitev ML. Amazon Translate je a nevronsko strojno prevajanje storitev, ki zagotavlja hitro, visokokakovostno in cenovno ugodno jezikovno prevajanje med več tisoč jezikovnimi pari, ki se lahko uporabljajo za sinhrone (v realnem času) ali asinhrone prevajalske naloge. Za popoln seznam razpoložljivih prevodnih parov glejte Podprti jeziki in jezikovne kode.
Stranke, ki selijo in posodabljajo svoje prevajalske delovne obremenitve, potrebujejo možnost prilagajanja prevodov za svojo poslovno domeno. Obremenitev prevajanja bo morda potrebovala tudi sposobnost prilagajanja narečjem ali rabi regionalnih jezikov. Na primer, španski prevod "starejših" je anciano(a), v Portoriku pa je prednostna beseda envejeciente.
V tej objavi prikazujemo, kako vključiti funkcijo Active Custom Translation (ACT) storitve Amazon Translate. Predlagamo rešitev za ustvarjanje večjezičnega delovnega toka prevajanja dokumentov s prilagoditvami, specifičnimi za domeno in jezik, ki jih lahko po potrebi pregledate in nadgradite za nenehno izboljševanje rezultatov in veselje končnih uporabnikov.
Pregled rešitev
ACT izdela po meri preveden izhod brez potrebe po izdelavi in vzdrževanju modela prevajanja po meri. Z uporabo ACT bo Amazon Translate uporabil vaše želene primere prevodov kot vzporedne podatke za prilagajanje rezultatov prevoda, s čimer bo odpravil čas in stroške, potrebne za izdelavo in usposabljanje novega modela strojnega učenja.
Rešitev, zajeta v tej objavi, pojasnjuje, kako ustvariti potek dela s človekom v zanki z uporabo Amazon, razširjeni AI (Amazon A2I) za nenehno izboljševanje prilagojenega prevoda. Amazon A2I ponuja preprost način za integracijo človeškega nadzora v vaše poteke dela ML, pri čemer niso potrebne izkušnje z ML. Amazon A2I omogoča preprosto integracijo človeške presoje in umetne inteligence v katero koli aplikacijo ML, ne glede na to, ali se izvaja na AWS ali na drugi platformi.
Za več informacij se obrnite na Oblikovanje delovnih pregledov človeških pregledov z Amazon Translate in Amazon Augmented AI post.
Naslednji diagram prikazuje tok ukazov in tok podatkov rešitve. Potek ukazov prikazuje logično zaporedje dogodkov v poteku dela. Tok podatkov kaže, kako različne komponente v rešitvi ustvarjajo ali uporabljajo podatke.
Naslednji diagram zaporedja prikazuje dva ločena procesa v rešitvi: potek dela prevajanja (A) in postopek posodabljanja vzporednih podatkov (B).
Delovni tok prevajanja sproži an amazoncloudwatch načrtovan dogodek, ki zažene Translation Job Invoker AWS Lambda funkcijo. Ta funkcija ustvari asinhrono prevajalsko opravilo v Amazon Translate, pri čemer posreduje dokument za prevod in lokacijo vzporednih podatkov za prilagajanje prevoda. Prevajalsko opravilo prebere vzporedne podatke, izvede prevod in zapiše preveden rezultat nazaj v Amazon S3 vedro. Od tega pisanja lahko samo asinhrona prevajalska opravila uporabljajo vzporedne podatke.
Ko je prevajalsko opravilo končano, se generira dogodek, ki sproži funkcijo Lambda Handler za dokončanje prevajalskega posla. Ta funkcija ustvari zanko človeškega poteka dela – glavno komponento Amazon A2I dela poteka dela.
Človeški pregledovalci ocenijo prevod in sprejmejo ali spremenijo prevod. Vsi popravki se uporabijo za posodobitev prevedenega dokumenta in dodajo v slovar za prilagajanje. Ko je pregled končan, se ustvari še en dogodek, ki sproži funkcijo obravnave zaključka dela. Ta funkcija zapiše zadnji prevedeni dokument nazaj v Amazon S3. Podatki o prilagajanju se uporabljajo za posodobitev Amazon DynamoDB tabela s pari izvornega in prevedenega besedila.
Da bi sklenili zanko, moramo te prilagoditvene podatke, shranjene v DynamoDB, vključiti nazaj v vzporedne podatke, shranjene v Amazon S3. Da bi to dosegli, uporabimo načrtovani dogodek CloudWatch za sprožitev funkcije Parallel Data Refresher, ki prebere podatke iz tabele DynamoDB, jih preoblikuje kot vzporedne podatke in posodobi vedro S3 ter shrani vzporedne podatke.
Razmestite rešitev z AWS CloudFormation
Zaženite priloženo Oblikovanje oblaka AWS predlogo za uvedbo rešitve v vašem računu. Ta sklad deluje samo v regiji us-east-1. Če želite to rešitev razmestiti v drugih regijah, glejte naslednje GitHub repo.
- Izberite Izstrelite sklad:
- Sledite navodilom za vnos potrebnih parametrov. Če ta sklad izvajate prvič, E-pošta SNS je edini zahtevani parameter.
- o pregled strani, v Zmogljivosti izberite potrditveno polje in izberite Ustvari sklad.
Sklad ustvari naslednje ključne komponente:
- Podatki o prilagajanju – tabela DynamoDB (
translate_parallel_data
), da ohranite podatke o prilagajanju. V to tabelo preselite obstoječe podatke o prilagajanju. Ta tabela se uporablja za nenehno dodajanje in posodabljanje prilagoditev. - Vzporedna osvežitev podatkov – Funkcija Lambda za pretvorbo podatkov o prilagajanju v tabeli DynamoDB v vzporedni format podatkov – CSV, TSV ali TMX – in njihovo shranjevanje v Amazon S3. Ustvari in posodablja vzporedne podatke z novo vzporedno podatkovno datoteko v Amazon S3.
- Prevajalski posel Invoker – Funkcija Lambda za zagon paketnega opravila Amazon Translate z vzporednimi podatki.
- Obravnavalec dokončanja prevajalskega posla – Ta funkcija Lambda se sproži, ko je paketno opravilo Amazon Translate končano. Funkcija ustvari eno človeško zanko na dokument (to bomo v prihodnosti izboljšali, da bo ustvarila človeško zanko samo za izbran odstotek obdelanih dokumentov). Za ustvarjanje človeške zanke uporablja izvirne in prevedene dokumente.
- Predloga po meri Amazon A2I – Ta predloga se uporablja za upodabljanje prevodnega para za človeški pregled. Predloga ima Dodaj možnost za vsak segment prevoda. Uporabniki lahko izberejo to možnost, da dodajo popravke v podatke o prilagajanju. Novi prilagoditveni podatki se uporabijo pri naslednjem paketnem prevajanju.
- Obravnavalec zaključka delovnega toka – Ta funkcija Lambda se sproži, ko je človeški potek dela končan. Funkcija posodobi prevedeni dokument s popravki in preveri vzporedne posodobitve podatkov. V tabelo DynamoDB so dodani novi vzporedni podatki.
- Zasebna ekipa Amazon A2I – Zasebna ekipa Amazon A2I je ustvarjena s človeškim delavcem, ki uporablja posredovano e-pošto. Začetne poverilnice se pošljejo po e-pošti ob uspešni izdelavi zasebne ekipe. S tem e-poštnim naslovom in poverilnico se prijavite v portal za delavce Amazon A2I.
Preizkusite raztopino
O sample_text.txt
bi bila ustvarjena pod vhodno predpono vedra S3, ki ga je ustvaril sklad. To datoteko uporabljamo za svoje testiranje. Vsebuje naslednjo vsebino:
Če želite preizkusiti rešitev, opravite naslednje korake:
- Prikličite funkcijo Translation Job Invoker ročno ali počakajte, da jo sproži CloudWatch na podlagi urnika cron, ki ste ga določili.
Ta funkcija sproži paketno opravilo Amazon Translate. Napredek dela lahko spremljate na konzoli Amazon Translate.
To paketno opravilo traja približno 30 minut. Ko je končan,TextTranslationJob
dogodek spremembe stanja sproži funkcijo obravnave dokončanja prevodnega posla. Ta funkcija ustvari eno človeško zanko na preveden dokument. - Pomaknite se na Delovna sila Amazon A2I stran.
- Izberite Zasebno tab.
- Prijavite se v portal za delavce Amazon A2I tako, da izberete povezavo za URL za prijavo v portal za označevanje.
- Izberite nalogo
Human review task
na seznamu delovnih mest. - Izberite Začni delati.
Vidite lahko prikazano naslednjo stran. - Sledite navodilom za popravke, specifične za domeno in jezik.
Na prejšnjem posnetku zaslona je bil stavek »Uporaba zdravstvenega stanja v kateri koli skupini skupinskega zdravstvenega zavarovanja prepovedana z zakonom« preveden v »La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo«. Čeprav je prevod natančen, so bili stavki preurejeni. - Spremenimo to v »El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley«, da bo to bolj neposreden prevod, ki odraža izvirno frazeologijo.
- Izberite Dodaj da to dodate v slovar.
- Ko končate, izberite Prijave se.
To sproži funkcijo Workflow Completion Handler in podatki o prilagajanju se posodobijo v tabeli DynamoDB. Funkcija shrani tudi popravljen prevod pod predpono za naknadno urejanje.
Opazujete lahko dodajanje prilagoditev translate_parallel_data
tabelo na konzoli DynamoDB.
Tok ukazov
Funkcijo Parallel Data Refresher sproži vsako uro načrtovani dogodek CloudWatch. Ta funkcija preverja nove posodobitve v translate_parallel_data
tabelo, ustvari novo vzporedno podatkovno datoteko TMX v Amazon S3 pod parallel_data
predpono in posodobi vzporedno podatkovno komponento Amazon Translate. To funkcijo lahko sprožite ročno, če ne želite čakati na načrtovani sprožilec dogodka.
Posodabljanje vzporednih podatkov lahko spremljate na konzoli Amazon Translate.
Ko je končano, mora biti status opravila Aktivno in vrednost za Posodobljeni zapisi mora odražati število dodanih prilagoditev (v tem primeru 1).
Zdaj lahko znova izvajamo prevajalsko opravilo s posodobljenimi podatki. Znova sprožite funkcijo Invoker opravila prevajanja, da opazujete prilagoditev, dodano prevodu v drugi ponovitvi. Amazon Translate zdaj uporablja vzporedne podatke za prilagajanje prevoda.
Spremembo izhoda prevoda lahko opazujete na portalu za označevanje. Namesto privzetega prevoda vidimo uporabljen prevod po meri.
Ta potek dela pomaga ustvariti učinkovit cikel za nenehno izboljševanje rezultatov prevodov z uporabo funkcij za prilagajanje Amazon A2I in Amazon Translate.
strošek
Z Amazon Translate in Amazon A2I plačate sproti glede na število besedilnih znakov, ki ste jih obdelali, in za vsak predmet, ki ga pregleda človek. Za ta primer uporabljamo način DynamoDB na zahtevo. DynamoDB vam zaračuna branje in pisanje, opravljeno v vaših tabelah. Glejte strani s cenami za Amazon prevod, Amazon A2Iin Amazon DynamoDB za dejanske stroške.
Čiščenje
Ko končate s preizkušanjem te rešitve, počistite svoje vire z uporabo konzole AWS CloudFormation, da izbrišete vse vire, ki so razporejeni v tem primeru. Tako se boste izognili nenehnim stroškom na vašem računu.
zaključek
Rešitev, predstavljeno v tej objavi, lahko uporabite za izgradnjo večjezičnega delovnega toka prevajanja, ki postopoma uporablja in dopolnjuje prilagoditve, specifične za domeno, za nenehno izboljševanje rezultatov prevajanja. Zagotovili smo preprost mehanizem za integracijo vaših obstoječih sredstev za prilagajanje z upravljanimi storitvami umetne inteligence, kot sta Amazon Translate in Amazon A2I, da zgradite robustno prevajalsko storitev za vašo aplikacijo. Amazon Translate vam lahko pomaga prilagoditi to rešitev tako, da podpira več kot 5,550 prevajalskih parov takoj po namestitvi. Amazon A2I vam lahko pomaga pri preprosti integraciji z vašim internim jezikovnim strokovnjakom ali izkoristite zunanjo delovno silo za razširitev rešitve.
Za več informacij o Amazon Translate obiščite Amazon Translate viri za iskanje video virov in objav v spletnih dnevnikih ter se sklicujte na AWS Translate Pogosta vprašanja. Prosimo, delite svoje misli z nami v razdelku za komentarje ali v razdelku o težavah projekta Skladišče Github.
O avtorjih
Sathya Balakrishnan je Sr Customer Delivery Architect v ekipi Professional Services pri AWS, specializiran za Data/ML rešitve. Dela z ameriškimi zveznimi finančnimi strankami. Navdušen je nad gradnjo pragmatičnih rešitev za reševanje poslovnih težav strank. V prostem času z družino rad gleda filme in hodi na pohode.
Paul W. Joireman je Sr Customer Delivery Architect v strokovnih storitvah pri AWS, specializiran za migracijo aplikacij in delo z ameriškimi zveznimi finančnimi strankami. Paul uživa v ustvarjanju tehnoloških rešitev, potovanjih z družino in pohodništvu po nacionalnem parku Shenandoah, če se pohod konča pri lokalni craft pivovarni.
- Napredno (300)
- AI
- ai art
- ai art generator
- imajo robota
- Amazon prevod
- Umetna inteligenca
- certificiranje umetne inteligence
- umetna inteligenca v bančništvu
- robot z umetno inteligenco
- roboti z umetno inteligenco
- programska oprema za umetno inteligenco
- Strojno učenje AWS
- blockchain
- blockchain konferenca ai
- coingenius
- pogovorna umetna inteligenca
- kripto konferenca ai
- dall's
- globoko učenje
- strojno učenje
- platon
- platon ai
- Platonova podatkovna inteligenca
- Igra Platon
- PlatoData
- platogaming
- lestvica ai
- sintaksa
- zefirnet