Az ember köznyelve része azoknak a tulajdonságoknak, amelyek egyedivé teszik. Egy-egy gondolat kifejezésének gyakran számtalan módja van. Amikor egy cég kommunikál az ügyfeleikkel, nagyon fontos, hogy az üzenet olyan módon kerüljön átadásra, amely a legjobban tükrözi azt az információt, amelyet közvetíteni próbálnak. Ez még fontosabbá válik, ha professzionális nyelvi fordításról van szó. A fordítórendszerek és szolgáltatások ügyfelei pontos és nagymértékben személyre szabott eredményeket várnak el. Ennek elérése érdekében gyakran újra felhasználják a korábbi fordítási kimeneteket – úgynevezett fordítási memóriát (TM) –, és összehasonlítják azokat az új bemeneti szöveggel. A számítógéppel segített fordításban ezt a technikát ún homályos egyezés. A fuzzy matching elsődleges feladata, hogy segítse a fordítót a fordítási folyamat felgyorsításával. Ha a TM-adatbázisban nem található a fordítandó szöveg pontos egyezése, a fordításkezelő rendszereknek (TMS-ek) gyakran lehetőségük van a pontosnál kevésbé pontos egyezésre keresni. A lehetséges egyezések a fordító rendelkezésére állnak, mint kiegészítő adat a végső fordításhoz. Olyan fordítók, akik munkafolyamatukat gépi fordítási képességekkel javítják, mint pl Amazon Translate gyakran számítanak arra, hogy az automatizált fordítási megoldás részeként homályos egyező adatokat használnak fel.
Ebből a bejegyzésből megtudhatja, hogyan szabhatja testre az Amazon Translate kimenetét a fordítási memória fuzzy match minőségi pontszámai szerint.
Fordítási minőségi egyezés
Az XML lokalizációs adatcsere fájlformátum (XLIFF) szabványt gyakran használják adatcsere-formátumként a TMS-ek és az Amazon Translate között. A TMS-ek által előállított XLIFF-fájlok forrás- és célszövegadatokat, valamint a rendelkezésre álló TM-en alapuló egyezési minőségi pontszámokat tartalmaznak. Ezek a pontszámok – általában százalékban kifejezve – azt jelzik, hogy a fordítási memória milyen közel van a fordítandó szöveghez.
Egyes nagyon szigorú követelményeket támasztó ügyfelek csak akkor szeretnék gépi fordítást használni, ha az egyezési minőségi pontszám egy bizonyos küszöb alatt van. Ezen a küszöbön túl azt várják, hogy a saját fordítási memóriájuk élvezzen elsőbbséget. A fordítóknak gyakran manuálisan kell alkalmazniuk ezeket a beállításokat a TMS-ben vagy a szöveges adatok módosításával. Ezt a folyamatot a következő ábra szemlélteti. A gépi fordítórendszer feldolgozza a fordítási adatokat – szöveget és fuzzy egyezési pontszámokat –, amelyeket aztán a fordítók felülvizsgálnak és manuálisan szerkesztenek, a kívánt minőségi küszöbök alapján. A küszöbértékek gépi fordítási lépés részeként történő alkalmazása lehetővé teszi ezen manuális lépések eltávolítását, ami javítja a hatékonyságot és optimalizálja a költségeket.
Az ebben a bejegyzésben bemutatott megoldás lehetővé teszi, hogy az egyezési minőségi pontszám küszöbén alapuló szabályokat kényszerítsen ki annak eldöntésére, hogy egy adott bemeneti szöveget le kell-e fordítani az Amazon Translate-nek vagy sem. Ha nincs gépi fordítás, az eredményül kapott szöveg a végső kimenetet áttekintő fordítók belátására van bízva.
Megoldás architektúra
A 2. ábrán látható megoldásarchitektúra a következő szolgáltatásokat használja ki:
- Amazon egyszerű tárolási szolgáltatás – Az Amazon S3 vödrök a következő tartalmat tartalmazzák:
- Fuzzy match threshold konfigurációs fájlok
- Fordítandó forrásszöveg
- Az Amazon Translate bemeneti és kimeneti adatok helyei
- AWS rendszermenedzser - Mi használjuk Paramétertár paramétereket az egyezési minőségi küszöb konfigurációs értékeinek tárolására
- AWS Lambda – Két lambda funkciót használunk:
- Az egyik funkció előfeldolgozza a minőségegyezési küszöb konfigurációs fájljait, és megőrzi az adatokat a Paramétertárban
- Az egyik funkció automatikusan létrehozza az aszinkron fordítási feladatokat
- Amazon Simple Queue Service – Az Amazon SQS várólista elindítja a fordítási folyamatot, mivel új fájlok érkeznek a forrástárolóba
Először minőségi küszöbértékeket kell beállítania fordítási munkáihoz úgy, hogy szerkeszt egy konfigurációs fájlt, és feltölti a fuzzy match threshold konfigurációs S3 csoportba. Az alábbiakban bemutatunk egy minta konfigurációt CSV formátumban. Az egyszerűség kedvéért a CSV-t választottuk, bár bármilyen formátumot használhat. Minden sor egy adott fordítási munkára vagy bármely feladatra alapértelmezett értékként alkalmazandó küszöbértéket jelöl.
A konfigurációs fájl specifikációi a következők:
- Az 1. oszlopot annak az XLIFF-fájlnak a nevével kell kitölteni – kiterjesztése nélkül –, amelyet az Amazon Translate feladathoz bemeneti adatként szolgáltattak.
- A 2. oszlopot fel kell tölteni a minőségi egyezési százalékos küszöbértékkel. Az ezen érték alatti pontszámok esetén gépi fordítást alkalmazunk.
- Az összes olyan XLIFF fájl esetében, amelynek a neve nem egyezik a konfigurációs fájlban felsorolt névvel, az alapértelmezett küszöbértéket alkalmazza – a kulcsszót tartalmazó sort.
default
az 1. oszlopban.
Új fájl feltöltésekor az Amazon S3 elindítja a Lambda funkciót, amely a paraméterek feldolgozásáért felelős. Ez a funkció beolvassa és eltárolja a küszöbértékeket a Paramétertárban későbbi felhasználás céljából. A Parameter Store használatával elkerülhető a redundáns Amazon S3 GET kérések végrehajtása minden alkalommal, amikor új fordítási feladatot kezdeményeznek. A minta konfigurációs fájl a következő képernyőképen látható paramétercímkéket állítja elő.
A feladat inicializálása Lambda függvény ezeket a paramétereket használja az adatok előfeldolgozására az Amazon Translate meghívása előtt. Angol-spanyol fordítást használunk, XLIFF bemeneti fájlt használunk, ahogy az a következő kódban is látható. Tartalmazza a lefordítandó kezdeti szöveget, a következőre lebontva szegmensek, amelyet a forráscímkék képviselnek.
A forrásszöveg előzetesen össze lett egyeztetve a fordítási memóriával. Az adatok potenciális fordítási alternatívákat tartalmaznak – a következőképpen ábrázolva <alt-trans>
címkék – az egyezési minőség attribútum mellett, százalékban kifejezve. Az üzletszabályzat a következő:
- Az alternatív fordításokkal és a küszöbérték alatti egyezési minőséggel kapott szegmensek érintetlenek vagy üresek. Ez jelzi az Amazon Translate számára, hogy le kell fordítani őket.
- A küszöbérték feletti egyezési minőséggel rendelkező alternatív fordításokkal kapott szegmensek előre feltöltve a javasolt célszöveggel. Az Amazon Translate kihagyja ezeket a szegmenseket.
Tegyük fel, hogy az ehhez a munkához beállított minőségi egyezési küszöb 80%. Az első szegmens 99%-os egyezési minőséggel nem kerül gépi fordításra, míg a második szegmens igen, mivel az egyezési minősége a meghatározott küszöb alatt van. Ebben a konfigurációban az Amazon Translate a következő kimenetet állítja elő:
A második szegmensben az Amazon Translate felülírja az eredetileg javasolt célszöveget (Selección
) jobb minőségű fordítással: Visita de selección
.
Ennek a használati esetnek az egyik lehetséges kiterjesztése lehet a lefordított kimenet újrafelhasználása és saját fordítási memória létrehozása. Az Amazon Translate támogatja a gépi fordítás testreszabását a fordítási memória használatával, köszönhetően a párhuzamos adatok funkció. A korábban géppel lefordított szövegszegmensek kezdeti alacsony minőségi pontszámuk miatt újra felhasználhatók új fordítási projektekben.
A következő szakaszokban végigvezetjük a megoldás üzembe helyezésének és tesztelésének folyamatán. Használod AWS felhőképződés szkriptek és adatminták egy konfigurálható minőségi egyezési küszöbértékkel személyre szabott aszinkron fordítási feladat elindításához.
Előfeltételek
Ehhez az áttekintéshez rendelkeznie kell egy AWS-fiók. Ha még nincs fiókja, megteheti hozzon létre és aktiváljon egyet.
Indítsa el az AWS CloudFormation veremét
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást:
- A Verem neve, írjon be egy nevet.
- A ConfigBucketName, adja meg a küszöbérték konfigurációs fájljait tartalmazó S3 tárolót.
- A ParameterStoreRoot, adja meg a Lambda függvény által létrehozott paraméterek gyökérútvonalát.
- A QueueName, lépjen be az SQS-sorba, amelyet létrehozott, hogy új fájlértesítéseket tegyen közzé a forrástárolóból a job inicializálási Lambda függvényébe. Ez az a funkció, amely beolvassa a konfigurációs fájlt.
- A SourceBucketName, adja meg a lefordítandó XLIFF fájlokat tartalmazó S3 tárolót. Ha inkább egy már meglévő gyűjtőcsoportot szeretne használni, akkor a CreateSourceBucket paraméter értékét No-ra kell módosítania.
- A WorkingBucketName, írja be az Amazon Translate által a bemeneti és kimeneti adatokhoz használt S3 gyűjtőt.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
- Opcionálisan a Stack Opciók oldalon adjon hozzá kulcsneveket és értékeket a címkékhez, amelyeket esetleg hozzá szeretne rendelni a létrehozandó erőforrásokhoz.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
- A Felülvizsgálat oldal, válassza ki Tudomásul veszem, hogy ez a sablon az AWS CloudFormation számára IAM-erőforrások létrehozását okozhatja.
- Tekintse át a többi beállítást, majd válasszon Verem létrehozása.
Az AWS CloudFormation néhány percet vesz igénybe az erőforrások létrehozásához az Ön nevében. A fejleményeket megtekintheti a Események lapon az AWS CloudFormation konzolon. Amikor a verem létrejött, láthatja a CREATE_COMPLETE
üzenet a Állapot oszlop a Áttekintés Tab.
Tesztelje az oldatot
Nézzünk végig egy egyszerű példán.
- Töltse le a következőket minta adat.
- Csomagolja ki a tartalmat.
Két fájlnak kell lennie: egy XLIFF formátumú .xlf fájlnak és egy .cfg kiterjesztésű küszöbérték konfigurációs fájlnak. A következő egy kivonat az XLIFF fájlból.
- Az Amazon S3 konzolon töltse fel a minőségi küszöbérték konfigurációs fájlját a korábban megadott konfigurációs tárolóba.
A beállított érték test_En_to_Fr
az 75%. Látnia kell a paramétereket a Systems Manager konzolon a Paramétertár részben.
- Még mindig az Amazon S3 konzolon töltse fel az .xlf fájlt a forrásként beállított S3 tárolóba. Győződjön meg arról, hogy a fájl egy nevű mappában található
translate
(például,<my_bucket>/translate/test_En_to_Fr.xlf
).
Ezzel elindul a fordítási folyamat.
- Nyissa meg az Amazon Translate konzolt.
Egy új feladatnak Folyamatban állapotúnak kell lennie.
- A munka befejezése után kattintson a munka hivatkozására, és tekintse meg a kimenetet. Minden szegmenst le kellett volna fordítani.
Minden szegmenst le kellett volna fordítani. A lefordított XLIFF-fájlban keressen további attribútumokkal rendelkező szegmenseket lscustom:match-quality
, ahogy az a következő képernyőképen látható. Ezek az egyéni attribútumok azonosítják azokat a szegmenseket, ahol a javasolt fordítás megtartásra került a pontszám alapján.
Ezeket a fordítási memóriából származtattuk a minőségi küszöb szerint. Az összes többi szegmens gépi fordítása megtörtént.
Most telepített és tesztelt egy automata aszinkron fordítási munkasegédet, amely kényszeríti a konfigurálható fordítási memória egyezési minőségi küszöbértékeit. Nagyszerű munka!
Razzia
Ha telepítette a megoldást a fiókjában, ne felejtse el törölni a CloudFormation veremét a váratlan költségek elkerülése érdekében. Előtte kézzel kell kiüríteni az S3 vödröket.
Következtetés
Ebben a bejegyzésben megtanulta, hogyan szabhatja testre Amazon Fordítói fordítási feladatait a szabványos XLIFF fuzzy matching minőségi mérőszámok alapján. Ezzel a megoldással nagymértékben csökkentheti a gépi fordítású szövegek áttekintésével járó kézi munkát, miközben optimalizálhatja az Amazon Translate használatát. A megoldást adatfeldolgozási automatizálási és munkafolyamat-hangszerelési lehetőségekkel is bővítheti, amint azt a Gyorsítsa fel a fordítási munkákat egy teljesen automatizált fordítórendszer-asszisztenssel.
A szerzőkről
Narcisse Zekpa a Solutions Architect bostoni székhelyű. Építészeti irányelvekkel, innovatív és méretezhető megoldások tervezésével segíti az Egyesült Államok északkeleti részén élő ügyfeleket az AWS Cloud alkalmazásának felgyorsításában. Amikor Narcisse nem építkezik, szívesen tölt időt a családjával, utazik, főz és kosárlabdázik.
Dimitri Restaino az AWS Solutions Architect-je, székhelye Brooklyn, New York. Elsősorban egészségügyi és pénzügyi szolgáltatásokkal foglalkozó vállalatokkal dolgozik Észak-Keleten, és segít innovatív és kreatív megoldások kidolgozásában ügyfeleik legjobb kiszolgálása érdekében. Szoftverfejlesztői háttérből érkezett, izgatja az új lehetőségek, amelyeket a szerver nélküli technológia hozhat a világba. Munkán kívül szeret kirándulni és felfedezni a NYC-i ételvilágot.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- Rólunk
- gyorsul
- Szerint
- Fiók
- pontos
- Elérése
- További
- Örökbefogadás
- Minden termék
- alternatív
- Bár
- amazon
- Alkalmazása
- építészeti
- építészet
- Helyettes
- attribútumok
- Automatizált
- Automatizálás
- elérhető
- AWS
- háttér
- Kosárlabda
- hogy
- lent
- BEST
- Túl
- határ
- Boston
- Épület
- üzleti
- képességek
- Okoz
- bizonyos
- változik
- díj
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- felhő
- kód
- Oszlop
- érkező
- Companies
- Configuration
- beleegyezés
- Konzol
- tartalmaz
- tartalom
- tudott
- teremt
- készítette
- teremt
- Kreatív
- kritikai
- szokás
- Ügyfelek
- dátum
- adatbázis
- szállított
- telepített
- bevezetéséhez
- leírt
- Design
- Fejlesztés
- különböző
- belátása
- Nem
- le-
- hajtás
- hatékonyság
- Angol
- belép
- példa
- csere
- izgatott
- vár
- feltárása
- kifejezve
- terjed
- család
- Funkció
- Ábra
- pénzügyi
- pénzügyi szolgáltatások
- Cég
- vezetéknév
- áramlási
- következő
- következik
- élelmiszer
- formátum
- talált
- francia
- funkció
- funkciók
- jövő
- nagy
- nagymértékben
- Csoport
- irányelvek
- egészségügyi
- segít
- segít
- <p></p>
- nagyon
- Hogyan
- How To
- HTTPS
- ötlet
- azonosítani
- azonosító
- fontos
- tartalmaz
- információ
- újító
- bemenet
- részt
- IT
- Munka
- Állások
- Kulcs
- ismert
- munkaerő
- nyelv
- indít
- TANUL
- tanult
- kihasználja
- vonal
- LINK
- Listázott
- gép
- vezetés
- menedzser
- kézikönyv
- kézzel
- Mérkőzés
- egyező
- Memory design
- Metrics
- esetleg
- több
- nevek
- New York
- Északi
- NYC
- optimalizálása
- opció
- hangszerelés
- Más
- saját
- rész
- százalék
- előadó
- megszemélyesít
- játék
- lehetőségek
- lehetséges
- potenciális
- előző
- elsődleges
- folyamat
- Folyamatok
- feldolgozás
- Készült
- szakmai
- projektek
- amely
- világítás
- kapott
- csökkenteni
- képviselők
- jelentése
- kéri
- követelmények
- Tudástár
- Eredmények
- Kritika
- szabályok
- skálázható
- színhely
- Keresés
- részes
- szegmensek
- vagy szerver
- Szolgáltatások
- készlet
- mutatott
- Egyszerű
- szoftver
- szoftverfejlesztés
- szilárd
- megoldások
- Megoldások
- specifikációk
- Költési
- verem
- standard
- kezdődik
- Állapot
- tárolás
- tárolni
- árnyékolók
- Támogatja
- rendszer
- Systems
- cél
- Technológia
- Tesztelés
- The Source
- a világ
- küszöb
- Keresztül
- idő
- Fordítás
- Utazó
- nekünk
- egyedi
- használ
- érték
- Nézz
- Mit
- Mi
- vajon
- míg
- WHO
- belül
- Munka
- művek
- világ
- XML