Ihmisen kansankieli on osa ominaisuuksia, jotka tekevät hänestä ainutlaatuisen. Usein on olemassa lukemattomia eri tapoja ilmaista yksi tietty ajatus. Kun yritys kommunikoi asiakkaidensa kanssa, on tärkeää, että viesti välitetään tavalla, joka edustaa parhaiten heidän yrittämäänsä välittää tietoa. Tämä tulee entistä tärkeämmäksi ammattikielten kääntämisen kannalta. Käännösjärjestelmien ja -palvelujen asiakkaat odottavat tarkkoja ja pitkälle räätälöityjä tuloksia. Tämän saavuttamiseksi he käyttävät usein uudelleen aikaisempia käännöstulosteita, joita kutsutaan käännösmuistiksi (TM) ja vertaavat niitä uuteen syöttötekstiin. Tietokoneavusteisessa käännöksessä tämä tekniikka tunnetaan nimellä sumea vastaavuus. Sumean sovituksen ensisijainen tehtävä on auttaa kääntäjää nopeuttamalla käännösprosessia. Kun käännettävälle tekstille ei löydy tarkkaa vastaavuutta TM-tietokannasta, käännösten hallintajärjestelmillä (TMS) on usein mahdollisuus etsiä epätarkka vastaavuus. Mahdolliset osumat tarjotaan kääntäjälle lisäsyötteenä lopullista käännöstä varten. Kääntäjät, jotka parantavat työnkulkuaan konekäännösominaisuuksilla, kuten Amazon Käännä usein odottavat, että sumeaa hakudataa käytetään osana automaattista käännösratkaisua.
Tässä viestissä opit mukauttamaan Amazon Translate -tulostusta käännösmuistin sumean vastaavuuden laatupisteiden mukaan.
Käännöslaadun ottelu
XML-lokalisoinnin vaihtotiedostomuoto (XLIFF) -standardia käytetään usein tiedonsiirtomuotona TMS:n ja Amazon Translate -sovelluksen välillä. TMS:n tuottamat XLIFF-tiedostot sisältävät lähde- ja kohdetekstidataa sekä ottelun laatupisteitä käytettävissä olevan TM:n perusteella. Nämä pisteet - yleensä ilmaistuna prosentteina - osoittavat, kuinka lähellä käännösmuisti on käännettävää tekstiä.
Jotkut asiakkaat, joilla on erittäin tiukat vaatimukset, haluavat konekäännösten käyttöä vain silloin, kun vastaavuuden laatupisteet ovat alle tietyn kynnyksen. Tämän kynnyksen ylittäessä he odottavat oman käännösmuistinsa olevan etusijalla. Kääntäjien on usein otettava nämä asetukset käyttöön manuaalisesti joko TMS-järjestelmässään tai muuttamalla tekstitietoja. Tämä kulku on havainnollistettu seuraavassa kaaviossa. Konekäännösjärjestelmä käsittelee käännösdataa – tekstiä ja sumeita hakutuloksia – jotka sitten kääntäjät tarkistavat ja muokkaavat manuaalisesti haluamiensa laatukynnysten perusteella. Kun käytät kynnysarvoja osana konekäännösvaihetta, voit poistaa nämä manuaaliset vaiheet, mikä parantaa tehokkuutta ja optimoi kustannuksia.
Tässä viestissä esitellyn ratkaisun avulla voit panna täytäntöön ottelun laatupisteiden kynnysarvoihin perustuvia sääntöjä sen määrittämiseksi, pitäisikö Amazon Translate kääntää tietty syöttöteksti vai ei. Kun tekstiä ei ole käännetty koneella, se jätetään lopputulosta tarkistavien kääntäjien päätettäväksi.
Ratkaisuarkkitehtuuri
Kuvassa 2 esitetty ratkaisuarkkitehtuuri hyödyntää seuraavia palveluita:
- Amazonin yksinkertainen tallennuspalvelu – Amazon S3 -ämpärit sisältävät seuraavan sisällön:
- Sumeat osumakynnyksen määritystiedostot
- Lähdeteksti käännettävä
- Amazon Translate syöttö- ja lähtötietojen sijainnit
- AWS-järjestelmien päällikkö - Käytämme Parametrikauppa parametreja vastaavuuden laadun kynnysmääritysarvojen tallentamiseen
- AWS Lambda – Käytämme kahta lambdatoimintoa:
- Yksi toiminto esikäsittelee laadunvastaavuuden kynnysmääritystiedostot ja säilyttää tiedot Parameter Storessa
- Yksi toiminto luo automaattisesti asynkroniset käännöstyöt
- Amazonin yksinkertainen jonopalvelu - Amazon SQS -jono laukaisee käännösvirran uusien tiedostojen saapuessa lähdesäihöön
Määrität ensin laatukynnykset käännöstöillesi muokkaamalla määritystiedostoa ja lataamalla se sumeaan vastaavuuden kynnysmäärityksen S3-alueeseen. Seuraava on esimerkkikokoonpanosta CSV-muodossa. Valitsimme CSV:n yksinkertaisuuden vuoksi, vaikka voit käyttää mitä tahansa muotoa. Jokainen rivi edustaa kynnystä, jota sovelletaan joko tiettyyn käännöstyöhön tai oletusarvona mihin tahansa työhön.
Asetustiedoston tekniset tiedot ovat seuraavat:
- Sarake 1 tulee täyttää Amazon Translate -työlle syötetietona toimitetun XLIFF-tiedoston nimellä – ilman tunnistetta.
- Sarake 2 tulee täyttää laadun vastaavuusprosenttikynnyksellä. Tämän arvon alapuolella oleviin pisteisiin käytetään konekäännöstä.
- Kaikille XLIFF-tiedostoille, joiden nimi ei vastaa mitään määritystiedostossa lueteltua nimeä, käytetään oletuskynnystä - riviä, jolla on avainsana
default
asetettu sarakkeeseen 1.
Kun uusi tiedosto ladataan, Amazon S3 käynnistää Lambda-toiminnon, joka vastaa parametrien käsittelystä. Tämä toiminto lukee ja tallentaa kynnysparametrit Parametrimuistiin tulevaa käyttöä varten. Parametrisäilöä käyttämällä vältytään suorittamasta redundantteja Amazon S3 GET -pyyntöjä joka kerta, kun uusi käännöstyö aloitetaan. Esimerkkimääritystiedosto tuottaa seuraavassa kuvakaappauksessa näkyvät parametritunnisteet.
Työn alustus Lambda-funktio käyttää näitä parametreja tietojen esikäsittelyyn ennen Amazon Translate -sovelluksen käynnistämistä. Käytämme englannista espanjaksi käännetty XLIFF-syöttötiedostoa, kuten seuraavassa koodissa näkyy. Se sisältää alkuperäisen käännettävän tekstin jaoteltuna niin kutsuttuihin tekstiin segmentit, joka on edustettuna lähdetunnisteissa.
Lähdeteksti on sovitettu etukäteen käännösmuistiin. Tiedot sisältävät mahdollisia käännösvaihtoehtoja, jotka on esitetty muodossa <alt-trans>
tunnisteet – osumalaatuattribuutin ohella prosentteina ilmaistuna. Liiketoimintasääntö on seuraava:
- Segmentit, jotka on vastaanotettu vaihtoehtoisilla käännöksillä ja kynnyksen alapuolella olevalla hakulaadulla, ovat koskemattomia tai tyhjiä. Tämä osoittaa Amazon Translatelle, että ne on käännettävä.
- Segmentit, jotka on vastaanotettu vaihtoehtoisilla käännöksillä, joiden osumalaatu ylittää kynnyksen, on esitäytetty ehdotetulla kohdetekstillä. Amazon Translate ohittaa nämä segmentit.
Oletetaan, että tälle työlle määritetty laadun vastaavuuskynnys on 80 %. Ensimmäistä segmenttiä, jonka vastaavuus on 99 %, ei käännetä koneellisesti, kun taas toista segmenttiä on, koska sen vastaavuus on määritellyn kynnyksen alapuolella. Tässä kokoonpanossa Amazon Translate tuottaa seuraavan tulosteen:
Toisessa segmentissä Amazon Translate korvaa alun perin ehdotetun kohdetekstin (Selección
) laadukkaammalla käännöksellä: Visita de selección
.
Yksi mahdollinen laajennus tähän käyttötapaukseen voisi olla käännetyn tulosteen uudelleenkäyttö ja oman käännösmuistin luominen. Amazon Translate tukee konekäännösten mukauttamista käännösmuistin avulla rinnakkaista dataa ominaisuus. Aiemmin koneella käännetyt tekstisegmentit niiden alkuperäisen heikon laatupisteen vuoksi voitaisiin sitten käyttää uudelleen uusissa käännösprojekteissa.
Seuraavissa osissa opastamme sinut tämän ratkaisun käyttöönotto- ja testausprosessin läpi. Sinä käytät AWS-pilven muodostuminen komentosarjoja ja tietonäytteitä asynkronisen käännöstyön käynnistämiseksi, joka on personoitu konfiguroitavalla laadun vastaavuuskynnyksellä.
Edellytykset
Tätä läpikäyntiä varten sinulla on oltava AWS-tili. Jos sinulla ei vielä ole tiliä, voit luo ja aktivoi sellainen.
Käynnistä AWS CloudFormation -pino
- Valita Käynnistä pino:
- varten Pino nimi, kirjoita nimi.
- varten ConfigBucketName, syötä S3-säilö, joka sisältää kynnyksen määritystiedostot.
- varten ParametriStoreRoot, syötä Lambda-funktion parametrien käsittelyn luomien parametrien juuripolku.
- varten JononNimi, syötä luomasi SQS-jono lähettääksesi uusista tiedostoista ilmoitukset lähdesäilystä työn alustuslambda-funktioon. Tämä on toiminto, joka lukee asetustiedoston.
- varten SourceBucketName, kirjoita S3-säilö, joka sisältää käännettävät XLIFF-tiedostot. Jos haluat käyttää aiemmin olemassa olevaa ryhmää, sinun on muutettava CreateSourceBucket-parametrin arvoksi Ei.
- varten WorkingBucketName, syötä S3-säilö, jota Amazon Translate käyttää syöttö- ja lähtötiedoille.
- Valita seuraava.
- Valinnaisesti päällä Pinota Vaihtoehdot -sivulle, lisää avainten nimet ja arvot tunnisteille, jotka haluat ehkä määrittää luotaville resursseille.
- Valita seuraava.
- On Arvostelu sivu, valitse Ymmärrän, että tämä malli saattaa saada AWS CloudFormationin luomaan IAM-resursseja.
- Tarkista muut asetukset ja valitse sitten Luo pino.
AWS CloudFormationilla resurssien luominen puolestasi kestää useita minuutteja. Voit seurata edistymistä osoitteessa Tapahtumat -välilehti AWS CloudFormation -konsolissa. Kun pino on luotu, näet a CREATE_COMPLETE
viesti Tila - sarake Yleiskatsaus Tab.
Testaa ratkaisu
Käydään läpi yksinkertainen esimerkki.
- Lataa seuraava näytetiedot.
- Pura sisältö.
Tiedostoja tulee olla kaksi: .xlf-tiedosto XLIFF-muodossa ja kynnysmääritystiedosto, jonka tunniste on .cfg. Seuraava on ote XLIFF-tiedostosta.
- Lataa Amazon S3 -konsolissa laatukynnyksen määritystiedosto aiemmin määrittämääsi kokoonpanosäilöön.
Arvo asetettu test_En_to_Fr
on 75 %. Sinun pitäisi pystyä näkemään parametrit Systems Manager -konsolin Parametrivarasto-osiossa.
- Lataa .xlf-tiedosto edelleen Amazon S3 -konsolissa lähteeksi määrittämääsi S3-alueeseen. Varmista, että tiedosto on kansiossa nimeltä
translate
(esimerkiksi,<my_bucket>/translate/test_En_to_Fr.xlf
).
Tämä käynnistää käännösvirran.
- Avaa Amazon Translate -konsoli.
Uuden työn pitäisi näkyä tilassa In Progress.
- Kun työ on valmis, napsauta työn linkkiä ja katso tulos. Kaikki segmentit olisi pitänyt kääntää.
Kaikki segmentit olisi pitänyt kääntää. Etsi käännetystä XLIFF-tiedostosta segmenttejä, joissa on nimetty lisäattribuutteja lscustom:match-quality
, kuten seuraavassa kuvakaappauksessa näkyy. Nämä mukautetut attribuutit tunnistavat segmentit, joissa ehdotettu käännös säilytettiin pistemäärän perusteella.
Nämä johdettiin käännösmuistista laatukynnyksen mukaan. Kaikki muut segmentit on konekäännetty.
Olet nyt ottanut käyttöön ja testannut automaattisen asynkronisen käännöstyön avustajan, joka pakottaa määritettävät käännösmuistin vastaavuuskynnykset. Hyvää työtä!
Uudelleenjärjestäminen
Jos otit ratkaisun käyttöön tililläsi, älä unohda poistaa CloudFormation-pinoa odottamattomien kulujen välttämiseksi. S3-kauhat on tyhjennettävä manuaalisesti etukäteen.
Yhteenveto
Tässä viestissä opit mukauttamaan Amazon Translate -käännöstyösi standardien XLIFF-fuzzy matching -laatumittareiden perusteella. Tämän ratkaisun avulla voit vähentää huomattavasti konekäännetyn tekstin tarkistamiseen liittyvää manuaalista työtä ja samalla optimoida Amazon Translate -sovelluksen käyttöä. Voit myös laajentaa ratkaisua tiedonkeruun automaatiolla ja työnkulun organisointiominaisuuksilla, kuten kohdassa Nopeuta käännöstöitä täysin automatisoidun käännösjärjestelmän avustajan avulla.
Tietoja Tekijät
Narcisse Zekpa on ratkaisuarkkitehti Bostonissa. Hän auttaa asiakkaita Koillis-Yhdysvalloissa nopeuttamaan AWS Cloudin käyttöönottoa tarjoamalla arkkitehtonisia ohjeita sekä suunnittelemalla innovatiivisia ja skaalautuvia ratkaisuja. Kun Narcisse ei rakenna, hän viettää aikaa perheensä kanssa, matkustaa, ruoanlaittoa ja koripalloa pelaa.
Dimitri Restaino on ratkaisuarkkitehti AWS:ssä Brooklynista, New Yorkista. Hän työskentelee ensisijaisesti terveydenhuolto- ja rahoituspalveluyritysten kanssa Koillis-Idässä ja auttaa suunnittelemaan innovatiivisia ja luovia ratkaisuja palvelemaan asiakkaitaan parhaiten. Hän on ohjelmistokehitystaustaltaan kotoisin ja innoissaan uusista mahdollisuuksista, joita palvelinton teknologia voi tuoda maailmalle. Työn ulkopuolella hän rakastaa vaeltamista ja NYC:n ruokaelämää tutkimista.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- Meistä
- kiihdyttää
- Mukaan
- Tili
- tarkka
- Saavuttaa
- lisä-
- Hyväksyminen
- Kaikki
- vaihtoehto
- Vaikka
- Amazon
- Hakeminen
- arkkitehtuurin
- arkkitehtuuri
- Avustaja
- attribuutteja
- Automatisoitu
- Automaatio
- saatavissa
- AWS
- tausta
- Koripallo
- ovat
- alle
- PARAS
- Jälkeen
- reunus
- boston
- Rakentaminen
- liiketoiminta
- kyvyt
- Aiheuttaa
- tietty
- muuttaa
- lataus
- Valita
- pilvi
- koodi
- Sarake
- tuleva
- Yritykset
- Konfigurointi
- suostumus
- Console
- sisältää
- pitoisuus
- voisi
- luoda
- luotu
- luo
- Luova
- kriittinen
- asiakassuhde
- Asiakkaat
- tiedot
- tietokanta
- toimitettu
- käyttöön
- levityspinnalta
- on kuvattu
- Malli
- Kehitys
- eri
- harkinnan
- ei
- alas
- ajaa
- tehokkuus
- Englanti
- enter
- esimerkki
- Vaihdetaan
- innoissaan
- odottaa
- tutkia
- ilmaistuna
- laajentaa
- perhe
- Ominaisuus
- Kuva
- taloudellinen
- rahoituspalvelut
- Yritys
- Etunimi
- virtaus
- jälkeen
- seuraa
- ruoka
- muoto
- löytyi
- Ranskan
- toiminto
- tehtävät
- tulevaisuutta
- suuri
- suuresti
- Ryhmä
- suuntaviivat
- terveydenhuollon
- auttaa
- auttaa
- korkeampi
- erittäin
- Miten
- Miten
- HTTPS
- ajatus
- tunnistaa
- tunnistaminen
- tärkeä
- sisältää
- tiedot
- innovatiivinen
- panos
- osallistuva
- IT
- Job
- Työpaikat
- avain
- tunnettu
- työ
- Kieli
- käynnistää
- OPPIA
- oppinut
- vipusuhteita
- linja
- LINK
- lueteltu
- kone
- johto
- johtaja
- manuaalinen
- käsin
- ottelu
- matching
- Muisti
- Metrics
- ehkä
- lisää
- nimet
- New York
- Pohjoiseen
- NYC
- optimoimalla
- Vaihtoehto
- orkestrointi
- Muut
- oma
- osa
- osuus
- esittävä
- Personoida
- pelaa
- mahdollisuuksia
- mahdollinen
- mahdollinen
- edellinen
- ensisijainen
- prosessi
- Prosessit
- käsittely
- valmistettu
- ammatillinen
- hankkeet
- tarjoamalla
- laatu
- sai
- vähentää
- edustettuina
- edustaa
- pyynnöt
- vaatimukset
- Esittelymateriaalit
- tulokset
- arviot
- säännöt
- skaalautuva
- kohtaus
- Haku
- segmentti
- segmentit
- serverless
- Palvelut
- setti
- esitetty
- Yksinkertainen
- Tuotteemme
- ohjelmistokehitys
- vankka
- ratkaisu
- Ratkaisumme
- tekniset tiedot
- menot
- pino
- standardi
- alkaa
- Tila
- Levytila
- verkkokaupasta
- varastot
- Tukee
- järjestelmä
- järjestelmät
- Kohde
- Elektroniikka
- Testaus
- Lähde
- maailma
- kynnys
- Kautta
- aika
- Kääntäminen
- Matkustaminen
- meille
- unique
- käyttää
- arvo
- Katso
- Mitä
- Mikä on
- onko
- vaikka
- KUKA
- sisällä
- Referenssit
- toimii
- maailman-
- XML