En persons folkespråk er en del av egenskapene som gjør dem unike. Det er ofte utallige forskjellige måter å uttrykke én spesifikk idé på. Når et firma kommuniserer med kundene sine, er det avgjørende at meldingen blir levert på en måte som best representerer informasjonen de prøver å formidle. Dette blir enda viktigere når det gjelder profesjonell språkoversettelse. Kunder av oversettelsessystemer og tjenester forventer nøyaktige og svært tilpassede utdata. For å oppnå dette bruker de ofte tidligere oversettelsesutganger – kalt oversettelsesminne (TM) – og sammenligner dem med ny inndatatekst. I dataassistert oversettelse er denne teknikken kjent som uklar matchning. Den primære funksjonen til fuzzy matching er å hjelpe oversetteren ved å fremskynde oversettelsesprosessen. Når et eksakt samsvar ikke finnes i TM-databasen for teksten som oversettes, har oversettelsesstyringssystemer (TMS) ofte muligheten til å søke etter et samsvar som er mindre enn nøyaktig. Potensielle treff gis til oversetteren som ekstra input for endelig oversettelse. Oversettere som forbedrer arbeidsflyten med maskinoversettelsesfunksjoner som f.eks Amazon Oversett forventer ofte at uklare samsvarende data brukes som en del av den automatiserte oversettelsesløsningen.
I dette innlegget lærer du hvordan du tilpasser utdata fra Amazon Translate i henhold til uklare kvalitetspoeng for oversettelsesminnet.
Oversettelseskvalitetsmatch
XML Localization Interchange-filformatet (XLIFF) standard brukes ofte som et datautvekslingsformat mellom TMS og Amazon Translate. XLIFF-filer produsert av TMS-er inkluderer kilde- og måltekstdata sammen med matchkvalitetspoeng basert på tilgjengelig TM. Disse poengsummene – vanligvis uttrykt som en prosentandel – indikerer hvor nært oversettelsesminnet er teksten som oversettes.
Noen kunder med svært strenge krav ønsker kun at maskinoversettelse skal brukes når kampkvalitetspoeng er under en viss terskel. Utover denne terskelen forventer de at deres eget oversettelsesminne skal ha forrang. Oversettere må ofte bruke disse innstillingene manuelt, enten i TMS-en eller ved å endre tekstdataene. Denne flyten er illustrert i følgende diagram. Maskinoversettelsessystemet behandler oversettelsesdataene – tekst og uklare matchresultater – som deretter blir gjennomgått og manuelt redigert av oversettere, basert på deres ønskede kvalitetsterskler. Ved å bruke terskler som en del av maskinoversettelsestrinnet kan du fjerne disse manuelle trinnene, noe som forbedrer effektiviteten og optimerer kostnadene.
Løsningen som presenteres i dette innlegget lar deg håndheve regler basert på terskler for matchkvalitetspoeng for å bestemme hvorvidt en gitt inndatatekst skal maskinoversettes av Amazon Translate eller ikke. Når den ikke er maskinoversatt, overlates den resulterende teksten til oversetternes skjønn som vurderer det endelige resultatet.
Løsningsarkitektur
Løsningsarkitekturen illustrert i figur 2 utnytter følgende tjenester:
- Amazon enkel lagringstjeneste – Amazon S3-bøtter inneholder følgende innhold:
- Konfigurasjonsfiler for fuzzy match-terskel
- Kildetekst som skal oversettes
- Amazon Translate inn- og utdataplasseringer
- AWS systemansvarlig - Vi bruker Parameterlager parametere for å lagre konfigurasjonsverdier for samsvarskvalitetsterskel
- AWS Lambda – Vi bruker to Lambda-funksjoner:
- Én funksjon forhåndsbehandler konfigurasjonsfilene for kvalitetsmatchterskel og overfører dataene til Parameter Store
- En funksjon oppretter automatisk de asynkrone oversettelsesjobbene
- Amazon enkel køtjeneste – En Amazon SQS-kø utløser oversettelsesflyten som et resultat av at nye filer kommer inn i kildebøtten
Du konfigurerer først kvalitetsgrenser for oversettelsesjobbene dine ved å redigere en konfigurasjonsfil og laste den opp til S3-bøtten for fuzzy match-terskelkonfigurasjon. Følgende er en eksempelkonfigurasjon i CSV-format. Vi valgte CSV for enkelhets skyld, selv om du kan bruke hvilket som helst format. Hver linje representerer en terskel som skal brukes på enten en spesifikk oversettelsesjobb eller som standardverdi for en hvilken som helst jobb.
Spesifikasjonene til konfigurasjonsfilen er som følger:
- Kolonne 1 skal fylles ut med navnet på XLIFF-filen – uten utvidelse – som leveres til Amazon Translate-jobben som inndata.
- Kolonne 2 skal fylles ut med terskelen for kvalitetssamsvarsprosent. For enhver poengsum under denne verdien brukes maskinoversettelse.
- For alle XLIFF-filer hvis navn ikke samsvarer med noe navn som er oppført i konfigurasjonsfilen, brukes standardterskelen – linjen med nøkkelordet
default
satt i kolonne 1.
Når en ny fil lastes opp, utløser Amazon S3 Lambda-funksjonen som har ansvaret for å behandle parameterne. Denne funksjonen leser og lagrer terskelparameterne i Parameter Store for fremtidig bruk. Ved å bruke Parameter Store unngår du å utføre overflødige Amazon S3 GET-forespørsler hver gang en ny oversettelsesjobb startes. Eksempelkonfigurasjonsfilen produserer parameterkodene vist i følgende skjermbilde.
Lambda-funksjonen for jobbinitialisering bruker disse parameterne til å forhåndsbehandle dataene før Amazon Translate påkalles. Vi bruker en engelsk-til-spansk oversettelse XLIFF-inndatafil, som vist i følgende kode. Den inneholder den første teksten som skal oversettes, brutt ned i det som omtales som segmenter, representert i kildekodene.
Kildeteksten er forhåndsmatchet med oversettelsesminnet på forhånd. Dataene inneholder potensielle oversettelsesalternativer – representert som <alt-trans>
koder – ved siden av et samsvarskvalitetsattributt, uttrykt som en prosentandel. Forretningsregelen er som følger:
- Segmenter mottatt med alternative oversettelser og en samsvarskvalitet under terskelen er uberørt eller tomme. Dette signaliserer til Amazon Translate at de må oversettes.
- Segmenter mottatt med alternative oversettelser med en samsvarskvalitet over terskelen er forhåndsutfylt med den foreslåtte målteksten. Amazon Translate hopper over disse segmentene.
La oss anta at terskelen for kvalitetsmatch som er konfigurert for denne jobben er 80 %. Det første segmentet med 99 % samsvarskvalitet er ikke maskinoversatt, mens det andre segmentet er det fordi samsvarskvaliteten er under den definerte terskelen. I denne konfigurasjonen produserer Amazon Translate følgende utdata:
I det andre segmentet overskriver Amazon Translate målteksten som opprinnelig ble foreslått (Selección
) med en oversettelse av høyere kvalitet: Visita de selección
.
En mulig utvidelse av denne brukssaken kan være å gjenbruke det oversatte resultatet og lage vårt eget oversettelsesminne. Amazon Translate støtter tilpasning av maskinoversettelse ved hjelp av oversettelsesminne takket være parallelle data trekk. Tekstsegmenter som tidligere er maskinoversatt på grunn av deres opprinnelige lavkvalitetspoeng, kan deretter gjenbrukes i nye oversettelsesprosjekter.
I de følgende delene leder vi deg gjennom prosessen med å distribuere og teste denne løsningen. Du bruker AWS skyformasjon skript og dataeksempler for å starte en asynkron oversettelsesjobb tilpasset med en konfigurerbar kvalitetsmatchterskel.
Forutsetninger
For denne gjennomgangen må du ha en AWS-konto. Hvis du ikke har en konto ennå, kan du opprette og aktivere en.
Start AWS CloudFormation-stack
- Velg Start Stack:
- Til Stabelnavn, skriv inn et navn.
- Til ConfigBucketName, skriv inn S3-bøtten som inneholder terskelkonfigurasjonsfilene.
- Til ParameterStoreRoot, skriv inn rotbanen til parameterne som er opprettet av parameteren som behandler Lambda-funksjonen.
- Til Kønavn, skriv inn SQS-køen som du oppretter for å legge ut nye filvarsler fra kildebøtten til jobbinitialiserings Lambda-funksjonen. Dette er funksjonen som leser konfigurasjonsfilen.
- Til SourceBucketName, skriv inn S3-bøtten som inneholder XLIFF-filene som skal oversettes. Hvis du foretrekker å bruke en eksisterende bøtte, må du endre verdien av CreateSourceBucket-parameteren til Nei.
- Til WorkingBucketName, skriv inn S3-bøtten Amazon Translate bruker for inn- og utdata.
- Velg neste.
- Eventuelt på Stable alternativer side, legg til nøkkelnavn og verdier for taggene du kanskje vil tilordne ressursene som skal opprettes.
- Velg neste.
- På Anmeldelse side, velg Jeg erkjenner at denne malen kan føre til at AWS CloudFormation oppretter IAM-ressurser.
- Se gjennom de andre innstillingene, og velg deretter Lag stabel.
AWS CloudFormation bruker flere minutter på å lage ressursene på dine vegne. Du kan se fremdriften på hendelser fanen på AWS CloudFormation-konsollen. Når stabelen er opprettet, kan du se en CREATE_COMPLETE
melding i status kolonne på Oversikt fanen.
Test løsningen
La oss gå gjennom et enkelt eksempel.
- Last ned følgende eksempeldata.
- Pakk ut innholdet.
Det skal være to filer: en .xlf-fil i XLIFF-format og en terskelkonfigurasjonsfil med .cfg som utvidelse. Følgende er et utdrag av XLIFF-filen.
- På Amazon S3-konsollen laster du opp konfigurasjonsfilen for kvalitetsterskel til konfigurasjonsbøtten du spesifiserte tidligere.
Verdien satt for test_En_to_Fr
er 75 %. Du skal kunne se parameterne på Systems Manager-konsollen i Parameter Store-delen.
- Fortsatt på Amazon S3-konsollen, last opp .xlf-filen til S3-bøtten du konfigurerte som kilde. Sørg for at filen er under en mappe som heter
translate
(for eksempel,<my_bucket>/translate/test_En_to_Fr.xlf
).
Dette starter oversettelsesflyten.
- Åpne Amazon Translate-konsollen.
En ny jobb skal vises med statusen Pågår.
- Når jobben er fullført, klikk på jobbens lenke og se utdataene. Alle segmenter skal ha blitt oversatt.
Alle segmenter skal ha blitt oversatt. Se etter segmenter med navngitte tilleggsattributter i den oversatte XLIFF-filen lscustom:match-quality
, som vist i følgende skjermbilde. Disse egendefinerte attributtene identifiserer segmenter der foreslått oversettelse ble beholdt basert på poengsum.
Disse ble utledet fra oversettelsesminnet i henhold til kvalitetsterskelen. Alle andre segmenter ble maskinoversatt.
Du har nå distribuert og testet en automatisert asynkron oversettelsesjobbassistent som håndhever konfigurerbare oversettelsesminnematchkvalitetsterskler. Flott jobb!
Opprydding
Hvis du har implementert løsningen på kontoen din, ikke glem å slette CloudFormation-stakken for å unngå uventede kostnader. Du må tømme S3-bøttene manuelt på forhånd.
konklusjonen
I dette innlegget lærte du hvordan du tilpasser Amazon Translate-oversettelsesjobbene dine basert på standard XLIFF fuzzy matchende kvalitetsmålinger. Med denne løsningen kan du i stor grad redusere det manuelle arbeidet som er involvert i gjennomgang av maskinoversatt tekst, samtidig som du optimerer bruken av Amazon Translate. Du kan også utvide løsningen med automatisering av datainntak og orkestrering av arbeidsflyt, som beskrevet i Få fart på oversettelsesjobber med en helautomatisert oversettelsessystemassistent.
Om forfatterne
Narcisse Zekpa er en løsningsarkitekt basert i Boston. Han hjelper kunder i Nordøst-USA med å akselerere deres bruk av AWS Cloud, ved å gi arkitektoniske retningslinjer, designe innovative og skalerbare løsninger. Når Narcisse ikke bygger, liker han å tilbringe tid med familien, reise, lage mat og spille basketball.
Dimitri Restaino er en løsningsarkitekt ved AWS, basert i Brooklyn, New York. Han jobber primært med helse- og finansselskaper i Nord-Øst, og hjelper til med å designe innovative og kreative løsninger for å betjene kundene deres best mulig. Med bakgrunn i programvareutvikling er han begeistret over de nye mulighetene serverløs teknologi kan bringe til verden. Utenom jobben elsker han å gå på fottur og utforske matscenen i NYC.
- Myntsmart. Europas beste Bitcoin og Crypto Exchange.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. FRI TILGANG.
- CryptoHawk. Altcoin Radar. Gratis prøveperiode.
- Kilde: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- Om oss
- akselerere
- Ifølge
- Logg inn
- nøyaktig
- Oppnå
- Ytterligere
- Adopsjon
- Alle
- alternativ
- Selv
- Amazon
- påføring
- arkitektonisk
- arkitektur
- Assistent
- attributter
- Automatisert
- Automatisering
- tilgjengelig
- AWS
- bakgrunn
- basketball
- være
- under
- BEST
- Beyond
- grensen
- boston
- Bygning
- virksomhet
- evner
- Årsak
- viss
- endring
- kostnad
- Velg
- Cloud
- kode
- Kolonne
- kommer
- Selskaper
- Konfigurasjon
- samtykke
- Konsoll
- inneholder
- innhold
- kunne
- skape
- opprettet
- skaper
- Kreativ
- kritisk
- skikk
- Kunder
- dato
- Database
- levert
- utplassert
- utplasserings
- beskrevet
- utforming
- Utvikling
- forskjellig
- skjønn
- ikke
- ned
- stasjonen
- effektivitet
- Engelsk
- Enter
- eksempel
- utveksling
- opphisset
- forvente
- utforske
- uttrykte
- utvide
- familie
- Trekk
- Figur
- finansiell
- finansielle tjenester
- Firm
- Først
- flyten
- etter
- følger
- mat
- format
- funnet
- Fransk
- funksjon
- funksjoner
- framtid
- flott
- sterkt
- Gruppe
- retningslinjer
- helsetjenester
- hjelpe
- hjelper
- høyere
- svært
- Hvordan
- Hvordan
- HTTPS
- Tanken
- identifisere
- identifisering
- viktig
- inkludere
- informasjon
- innovative
- inngang
- involvert
- IT
- Jobb
- Jobb
- nøkkel
- kjent
- arbeidskraft
- Språk
- lansere
- LÆRE
- lært
- utnytter
- linje
- LINK
- oppført
- maskin
- ledelse
- leder
- håndbok
- manuelt
- Match
- matchende
- Minne
- Metrics
- kunne
- mer
- navn
- New York
- nord
- NYC
- optimalisere
- Alternativ
- orkestre
- Annen
- egen
- del
- prosent
- utfører
- tilpasse
- spiller
- muligheter
- mulig
- potensiell
- forrige
- primære
- prosess
- Prosesser
- prosessering
- produsert
- profesjonell
- prosjekter
- gi
- kvalitet
- mottatt
- redusere
- representert
- representerer
- forespørsler
- Krav
- Ressurser
- Resultater
- anmeldelse
- regler
- skalerbar
- scene
- Søk
- segmentet
- segmenter
- server~~POS=TRUNC
- Tjenester
- sett
- vist
- Enkelt
- Software
- programvareutvikling
- solid
- løsning
- Solutions
- spesifikasjoner
- utgifter
- stable
- Standard
- starter
- status
- lagring
- oppbevare
- butikker
- Støtter
- system
- Systemer
- Target
- Teknologi
- Testing
- Kilden
- verden
- terskel
- Gjennom
- tid
- Oversettelse
- Traveling
- oss
- unik
- bruke
- verdi
- Se
- Hva
- Hva er
- om
- mens
- HVEM
- innenfor
- Arbeid
- virker
- verden
- XML