Inimese rahvakeel on osa omadustest, mis muudavad ta ainulaadseks. Ühe konkreetse idee väljendamiseks on sageli lugematu arv erinevaid viise. Kui ettevõte suhtleb oma klientidega, on ülioluline, et sõnum edastataks viisil, mis kajastaks kõige paremini teavet, mida nad üritavad edastada. See muutub veelgi olulisemaks, kui tegemist on professionaalse keeletõlkega. Tõlkesüsteemide ja -teenuste kliendid ootavad täpseid ja väga kohandatud väljundeid. Selle saavutamiseks kasutavad nad sageli varasemaid tõlkeväljundeid – tõlkemälu (TM) – ja võrdlevad neid uue sisendtekstiga. Arvutipõhises tõlkes on see tehnika tuntud kui hägune sobitamine. Häguse sobitamise põhifunktsioon on tõlkija abistamine, kiirendades tõlkeprotsessi. Kui tõlgitava teksti jaoks ei leita TM-i andmebaasist täpset vastet, on tõlkehaldussüsteemidel (TMS) sageli võimalus otsida vastet, mis pole täpne. Võimalikud vasted esitatakse tõlkijale täiendavaks sisendiks lõplikuks tõlkeks. Tõlkijad, kes täiustavad oma töövoogu masintõlkevõimalustega, näiteks Amazoni tõlge sageli eeldatakse, et automatiseeritud tõlkelahenduse osana kasutatakse hägusaid vasteandmeid.
Sellest postitusest saate teada, kuidas kohandada Amazon Translate'i väljundit vastavalt tõlkemälu hägusate vastete kvaliteediskooridele.
Tõlkekvaliteedi vaste
XML-i lokaliseerimise vahetuse failivorming (XLIFF) standardit kasutatakse sageli andmevahetusvorminguna TMS-ide ja Amazon Translate'i vahel. TMS-ide toodetud XLIFF-failid sisaldavad lähte- ja sihtteksti andmeid ning vaste kvaliteediskoore, mis põhinevad saadaoleval TM-il. Need hinded – tavaliselt väljendatuna protsentides – näitavad, kui lähedal on tõlkemälu tõlgitavale tekstile.
Mõned väga rangete nõuetega kliendid soovivad masintõlget kasutada ainult siis, kui vaste kvaliteediskoorid on alla teatud läve. Sellest künnisest kõrgemal eeldavad nad, et nende enda tõlkemälu on ülimuslik. Tõlkijad peavad sageli neid eelistusi käsitsi rakendama kas oma TMS-is või tekstiandmeid muutes. Seda voolu illustreerib järgmine diagramm. Masintõlkesüsteem töötleb tõlkeandmeid – teksti ja ähmaste vastete hindu –, mida tõlkijad seejärel soovitud kvaliteedilävede alusel üle vaatavad ja käsitsi toimetavad. Künniste rakendamine masintõlkeetapi osana võimaldab teil need käsitsi toimingud eemaldada, mis suurendab tõhusust ja optimeerib kulusid.
Selles postituses esitatud lahendus võimaldab teil jõustada vaste kvaliteediskoori lävedel põhinevaid reegleid, et määrata, kas antud sisendtekst tuleks Amazon Translate'iga masintõlkida või mitte. Kui masintõlkimist ei toimu, jäetakse saadud tekst tõlkijate otsustada, kes vaatavad läbi lõpliku väljundi.
Lahenduse arhitektuur
Joonisel 2 kujutatud lahenduse arhitektuur kasutab järgmisi teenuseid:
- Amazoni lihtne salvestusteenus – Amazon S3 ämbrid sisaldavad järgmist sisu:
- Hägusad vaste läve konfiguratsioonifailid
- Tõlgitav lähtetekst
- Amazon Translate'i sisend- ja väljundandmete asukohad
- AWS-i süsteemihaldur - Me kasutame Parameetrite pood parameetrid vaste kvaliteedi läve konfiguratsiooniväärtuste salvestamiseks
- AWS Lambda - Kasutame kahte lambda funktsiooni:
- Üks funktsioon eeltöötleb kvaliteedi vaste läve konfiguratsioonifaile ja säilitab andmed parameetrite salves
- Üks funktsioon loob automaatselt asünkroonsed tõlketööd
- Amazoni lihtsa järjekorra teenus - Amazon SQS-i järjekord käivitab tõlkevoo uute failide allika ämbrisse saabumise tulemusena
Esmalt seadistate oma tõlketööde kvaliteediläved, redigeerides konfiguratsioonifaili ja laadides selle üles hägusa vaste läve konfiguratsiooni S3 ämbrisse. Järgmine on CSV-vormingus konfiguratsiooni näidis. Valisime lihtsuse huvides CSV-vormingu, kuigi saate kasutada mis tahes vormingut. Iga rida tähistab künnist, mida rakendatakse kas konkreetsele tõlketööle või mis tahes töö vaikeväärtusena.
Konfiguratsioonifaili spetsifikatsioonid on järgmised:
- 1. veerg tuleks täita Amazoni tõlketööle sisendandmetena antud XLIFF-faili nimega (ilma laiendita).
- 2. veerg tuleks täita kvaliteedi vaste protsendi lävega. Sellest väärtusest väiksema skoori puhul kasutatakse masintõlget.
- Kõigi XLIFF-failide puhul, mille nimi ei ühti ühegi konfiguratsioonifailis loetletud nimega, kasutatakse vaikeläve – märksõnaga rida
default
seatud 1. veerus.
Uue faili üleslaadimisel käivitab Amazon S3 parameetrite töötlemise eest vastutava Lambda funktsiooni. See funktsioon loeb ja salvestab läve parameetrid parameetrite salvestamiseks edaspidiseks kasutamiseks. Parameetrite poe kasutamine väldib üleliigsete Amazon S3 GET päringute esitamist iga kord, kui algatatakse uus tõlketöö. Näidiskonfiguratsioonifail loob järgmisel ekraanipildil näidatud parameetrisildid.
Töö lähtestamise Lambda funktsioon kasutab neid parameetreid andmete eeltöötlemiseks enne Amazon Translate'i käivitamist. Kasutame inglise-hispaania tõlke XLIFF-i sisendfaili, nagu on näidatud järgmises koodis. See sisaldab esialgset tõlgitavat teksti, mis on jaotatud tekstideks segmendid, mis on esindatud lähtemärgendites.
Lähtetekst on eelnevalt tõlkemäluga sobitatud. Andmed sisaldavad potentsiaalseid tõlkealternatiive, mis on esitatud kui <alt-trans>
sildid – koos vaste kvaliteedi atribuudiga, väljendatuna protsentides. Ärireegel on järgmine:
- Alternatiivsete tõlgetega saadud lõigud, mille vaste kvaliteet jääb alla läve, on puutumata või tühjad. See annab Amazon Translate'ile märku, et need tuleb tõlkida.
- Alternatiivsete tõlgetega saadud lõigud, mille vaste kvaliteet ületab läve, on eelnevalt täidetud soovitatud sihttekstiga. Amazon Translate jätab need segmendid vahele.
Oletame, et selle töö jaoks konfigureeritud kvaliteedi vastavuse lävi on 80%. Esimest segmenti, mille vaste kvaliteet on 99%, masin ei tõlgita, samas kui teist segmenti ei tõlgita, kuna selle vaste kvaliteet on alla määratletud läve. Selles konfiguratsioonis toodab Amazon Translate järgmise väljundi:
Teises segmendis kirjutab Amazon Translate algselt soovitatud sihtteksti (Selección
) kvaliteetsema tõlkega: Visita de selección
.
Selle kasutusjuhtumi üheks võimalikuks laienduseks võiks olla tõlgitud väljundi taaskasutamine ja oma tõlkemälu loomine. Amazon Translate toetab masintõlke kohandamist tõlkemälu abil tänu paralleelsed andmed tunnusjoon. Varem masintõlgitud tekstilõike saab nende esialgse madala kvaliteediskoori tõttu uuesti kasutada uutes tõlkeprojektides.
Järgmistes jaotistes juhendame teid selle lahenduse juurutamise ja testimise protsessis. Sa kasutad AWS CloudFormation skriptid ja andmenäidised, et käivitada asünkroonne tõlketöö, mis on isikupärastatud konfigureeritava kvaliteedi vastavuslävega.
Eeldused
Selle ülevaate jaoks peab teil olema AWS-i konto. Kui teil pole veel kontot, saate seda teha looge ja aktiveerige see.
Käivitage AWS CloudFormationi virn
- Vali Käivitage Stack:
- eest Virna nimi, sisestage nimi.
- eest ConfigBucketName, sisestage läve konfiguratsioonifaile sisaldav S3 ämber.
- eest ParameeterStoreRoot, sisestage Lambda funktsiooni parameetrite töötlemisega loodud parameetrite juurtee.
- eest QueueName, sisestage SQS-i järjekord, mille loote uute failiteatiste postitamiseks lähtesalvest töö lähtestamise Lambda funktsiooni. See on funktsioon, mis loeb konfiguratsioonifaili.
- eest SourceBucketName, sisestage S3 ämber, mis sisaldab tõlgitavaid XLIFF-faile. Kui eelistate kasutada juba olemasolevat ämbrit, peate muutma parameetri CreateSourceBucket väärtuseks No.
- eest WorkingBucketName, sisestage S3 ämber, mida Amazon Translate kasutab sisend- ja väljundandmete jaoks.
- Vali järgmine.
- Valikuliselt peal Stack Valikud lehele, lisage võtmenimed ja väärtused siltidele, mida võiksite määrata loodavatele ressurssidele.
- Vali järgmine.
- Kohta Ülevaade leht, valige Tunnistan, et see mall võib põhjustada AWS CloudFormationi IAM-ressursside loomise.
- Vaadake üle teised sätted ja seejärel valige Loo virn.
AWS CloudFormationil kulub teie nimel ressursside loomiseks mitu minutit. Edenemist saate jälgida lehel Sündmused AWS CloudFormationi konsooli vahekaart. Kui virn on loodud, näete a CREATE_COMPLETE
sõnum olek veerg Ülevaade Tab.
Testige lahendust
Vaatame läbi lihtsa näite.
- Laadige alla järgmised failid näidisandmed.
- Pakkige sisu lahti.
Peab olema kaks faili: XLIFF-vormingus .xlf-fail ja läve konfiguratsioonifail laiendiga .cfg. Järgmine on väljavõte XLIFF-failist.
- Laadige Amazon S3 konsoolis kvaliteediläve konfiguratsioonifail üles varem määratud konfiguratsioonisalve.
Määratud väärtus test_En_to_Fr
on 75%. Peaksite nägema parameetreid Systems Manageri konsooli jaotises Parameetrite pood.
- Laadige endiselt Amazon S3 konsoolis .xlf-fail üles S3 ämbrisse, mille konfigureerisite allikana. Veenduge, et fail oleks nimega kausta all
translate
(näiteks,<my_bucket>/translate/test_En_to_Fr.xlf
).
See käivitab tõlkevoo.
- Avage Amazon Translate'i konsool.
Uus töö peaks ilmuma olekuga Pooleli.
- Kui töö on lõpetatud, klõpsake töö lingil ja vaadake väljundit. Kõik segmendid oleks tulnud tõlkida.
Kõik segmendid oleks tulnud tõlkida. Otsige tõlgitud XLIFF-failist segmente, millel on nimelised lisaatribuudid lscustom:match-quality
, nagu on näidatud järgmisel ekraanipildil. Need kohandatud atribuudid tuvastavad skoori põhjal segmendid, kus soovitatud tõlge säilitati.
Need tuletati tõlkemälust vastavalt kvaliteedilävele. Kõik ülejäänud segmendid tõlgiti masintõlkega.
Olete nüüd juurutanud ja testinud automatiseeritud asünkroonse tõlketöö assistendi, mis jõustab konfigureeritava tõlkemälu vastavuse kvaliteedi läve. Suurepärane töö!
Korista ära
Kui juurutasite lahenduse oma kontole, ärge unustage ootamatute kulude vältimiseks CloudFormationi virna kustutada. Peate S3 ämbrid eelnevalt käsitsi tühjendama.
Järeldus
Sellest postitusest õppisite, kuidas kohandada oma Amazon Translate'i tõlketöid standardsete XLIFF-i hägusate sobitamise kvaliteedimõõdikute alusel. Selle lahendusega saate oluliselt vähendada masintõlgitud teksti läbivaatamisega seotud käsitsitööd, optimeerides samal ajal ka Amazon Translate'i kasutamist. Samuti saate lahendust laiendada andmete sisestamise automatiseerimise ja töövoo orkestreerimise võimalustega, nagu on kirjeldatud Kiirendage tõlketöid täisautomaatse tõlkesüsteemi assistendi abil.
Autoritest
Narcisse Zekpa on lahenduste arhitekt, mis asub Bostonis. Ta aitab USA kirdeosas asuvatel klientidel kiirendada AWS-i pilve kasutuselevõttu, pakkudes arhitektuurilisi juhiseid ning kavandades uuenduslikke ja skaleeritavaid lahendusi. Kui Narcisse ei ehita, naudib ta perega aega veetmist, reisimist, toiduvalmistamist ja korvpalli mängimist.
Dimitri Restaino on New Yorgis Brooklynis asuva AWS-i lahenduste arhitekt. Ta töötab peamiselt Kirde-Ida tervishoiu- ja finantsteenuste ettevõtetega, aidates välja töötada uuenduslikke ja loovaid lahendusi nende klientide parimaks teenindamiseks. Ta on pärit tarkvaraarenduse taustast ning on põnevil uutest võimalustest, mida serverivaba tehnoloogia võib maailma tuua. Väljaspool tööd armastab ta matkata ja NYC toidumaastikku uurida.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- MEIST
- kiirendama
- Vastavalt
- konto
- täpne
- Saavutada
- Täiendavad lisad
- Vastuvõtmine
- Materjal: BPA ja flataatide vaba plastik
- alternatiiv
- Kuigi
- Amazon
- Rakendades
- arhitektuuri-
- arhitektuur
- assistent
- atribuudid
- Automatiseeritud
- Automaatika
- saadaval
- AWS
- tagapõhi
- korvpall
- on
- alla
- BEST
- Peale
- piir
- boston
- Ehitus
- äri
- võimeid
- Põhjus
- kindel
- muutma
- tasu
- Vali
- Cloud
- kood
- Veerg
- tulevad
- Ettevõtted
- konfiguratsioon
- nõusolek
- konsool
- sisaldab
- sisu
- võiks
- looma
- loodud
- loob
- Loominguline
- kriitiline
- tava
- Kliendid
- andmed
- andmebaas
- esitatud
- lähetatud
- juurutamine
- kirjeldatud
- Disain
- & Tarkvaraarendus
- erinev
- äranägemisel
- Ei tee
- alla
- ajam
- efektiivsus
- Inglise
- sisene
- näide
- vahetamine
- erutatud
- ootama
- uurima
- väljendatud
- laiendama
- pere
- tunnusjoon
- Joonis
- finants-
- finantsteenused
- Firma
- esimene
- voog
- Järel
- järgneb
- toit
- formaat
- avastatud
- prantsuse
- funktsioon
- funktsioonid
- tulevik
- suur
- suuresti
- Grupp
- suunised
- tervishoid
- aidates
- aitab
- rohkem
- kõrgelt
- Kuidas
- Kuidas
- HTTPS
- idee
- identifitseerima
- identifitseerimiseks
- oluline
- sisaldama
- info
- uuenduslik
- sisend
- seotud
- IT
- töö
- Tööturg
- Võti
- teatud
- töö
- keel
- algatama
- Õppida
- õppinud
- võimendab
- joon
- LINK
- Loetletud
- masin
- juhtimine
- juht
- käsiraamat
- käsitsi
- Vastama
- sobitamine
- Mälu
- Meetrika
- võib
- rohkem
- nimed
- New York
- põhja-
- NYC
- optimeerimine
- valik
- Korraldus
- Muu
- enda
- osa
- protsent
- esitades
- personaliseerida
- mängimine
- võimalused
- võimalik
- potentsiaal
- eelmine
- esmane
- protsess
- Protsessid
- töötlemine
- Toodetud
- professionaalne
- projektid
- pakkudes
- kvaliteet
- saadud
- vähendama
- esindatud
- esindab
- Taotlusi
- Nõuded
- Vahendid
- Tulemused
- läbi
- eeskirjade
- skaalautuvia
- stseen
- Otsing
- segment
- segmendid
- Serverita
- Teenused
- komplekt
- näidatud
- lihtne
- tarkvara
- tarkvaraarenduse
- tahke
- lahendus
- Lahendused
- spetsifikatsioonid
- Kulutused
- Kestab
- standard
- algab
- olek
- ladustamine
- salvestada
- kauplustes
- Toetab
- süsteem
- süsteemid
- sihtmärk
- Tehnoloogia
- Testimine
- Allikas
- maailm
- künnis
- Läbi
- aeg
- Tõlge
- Reisimine
- meie
- ainulaadne
- kasutama
- väärtus
- Watch
- M
- Mis on
- kas
- kuigi
- WHO
- jooksul
- Töö
- töötab
- maailm
- XML