Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hozzon létre egy többnyelvű dokumentumfordítási munkafolyamatot tartomány- és nyelvspecifikus testreszabással

A digitális világban a helyi nyelven történő információszolgáltatás nem újszerű, de fárasztó és költséges feladat lehet. A gépi tanulás (ML) és a természetes nyelvi feldolgozás (NLP) fejlődése ezt a feladatot sokkal könnyebbé és olcsóbbá tette.

Azt tapasztaltuk, hogy a többnyelvű adat- és dokumentumfeldolgozási munkaterheléseknél egyre nagyobb mértékben alkalmazzák az ML-t. A vállalati és kormányzati ügyfelek áttelepítik kézi fordítási munkaterheléseiket, hogy kihasználják az automatizált ML-fordítási szolgáltatásokat. Az Amazon Translate a idegi gépi fordítás szolgáltatás, amely gyors, minőségi és megfizethető nyelvi fordítást biztosít több ezer nyelvpár között, amelyek szinkron (valós idejű) vagy aszinkron fordítási feladatokra használhatók. Az elérhető fordításpárok teljes listáját lásd: Támogatott nyelvek és nyelvi kódok.

A fordítási munkaterhelésüket migráló és modernizáló ügyfeleknek képesnek kell lenniük a fordítások testreszabására az üzleti tartományukhoz. A fordítási munkaterheléshez szükség lehet a regionális nyelvi dialektusokhoz vagy használathoz való alkalmazkodás képességére is. Például az „idősek” spanyol fordítása anciano(a), de Puerto Ricóban az envejeciente szót részesítik előnyben.

Ebben a bejegyzésben bemutatjuk, hogyan építhetjük be az Amazon Translate Active Custom Translation (ACT) funkcióját. Megoldást javasolunk egy többnyelvű dokumentumfordítási munkafolyamat létrehozására, tartomány- és nyelvspecifikus testreszabásokkal, amelyeket áttekinthet és szükség szerint bővíthet az eredmények folyamatos javítása és a végfelhasználók öröme érdekében.

Megoldás áttekintése

Az ACT egyedi fordítási kimenetet állít elő anélkül, hogy egyéni fordítási modellt kellene felépíteni és karbantartani. Az ACT használatával az Amazon Translate az előnyben részesített fordítási példákat párhuzamos adatként használja a fordítási eredmény testreszabásához, így kiküszöböli az új gépi tanulási modell felépítéséhez és betanításához szükséges időt és költséget.

Az ebben a bejegyzésben tárgyalt megoldás elmagyarázza, hogyan hozhat létre emberi munkafolyamatot a hurokban Amazon kiterjesztett AI (Amazon A2I) a személyre szabott fordítás folyamatos fejlesztéséhez. Az Amazon A2I egyszerű módot kínál az emberi felügyelet integrálására az ML munkafolyamataiba, anélkül, hogy ML tapasztalatra lenne szükség. Az Amazon A2I egyszerűvé teszi az emberi ítélőképesség és az AI integrálását bármely ML-alkalmazásba, függetlenül attól, hogy az AWS-en vagy más platformon fut.

További információkért lásd Emberi felülvizsgálati munkafolyamatok tervezése az Amazon Translate és az Amazon Augmented AI segítségével post.

A következő diagram a megoldás parancsfolyamát és adatfolyamát mutatja be. A parancsfolyamat a munkafolyamat eseményeinek logikai sorrendjét mutatja. Az adatfolyam azt jelzi, hogy a megoldás különböző összetevői hogyan hoznak létre vagy használják fel az adatokat.

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A következő szekvenciadiagram két külön folyamatot mutat be a megoldásban: a fordítási munkafolyamatot (A) és a párhuzamos adatok frissítésének folyamatát (B).

A fordítási munkafolyamatot egy amazonfelhőóra ütemezett esemény, amely elindítja a Translation Job Invokert AWS Lambda funkció. Ez a funkció aszinkron fordítási feladatot hoz létre az Amazon Translate alkalmazásban, továbbadva a dokumentumot a fordításhoz, és a párhuzamos adatok helyét a fordítás testreszabásához. A fordítási feladat beolvassa a párhuzamos adatokat, végrehajtja a fordítást, és a lefordított eredményt visszaírja an-ba Amazon S3 vödör. Jelen állás szerint csak az aszinkron fordítási feladatok használhatnak párhuzamos adatokat.

Amikor a fordítási feladat befejeződött, egy esemény jön létre, amely elindítja a Fordítási feladat befejezése Kezelő Lambda funkciót. Ez a funkció emberi munkafolyamat-hurkot hoz létre – a munkafolyamat Amazon A2I részének fő összetevője.

Az emberi lektorok értékelik a fordítást, és elfogadják vagy módosítják a fordítást. Az esetleges javítások a lefordított dokumentum frissítésére szolgálnak, és hozzáadódnak a testreszabási szótárhoz. Amikor az áttekintés befejeződött, egy másik esemény generálódik a Munkafolyamat befejezése kezelő funkció aktiválásához. Ez a funkció visszaírja a legújabb lefordított dokumentumot az Amazon S3-ba. A testreszabási adatok egy frissítésre szolgálnak Amazon DynamoDB táblázat a forrás és a fordított szöveg párokkal.

A hurok lezárásához ezeket a DynamoDB-ben tárolt testreszabási adatokat vissza kell építenünk az Amazon S3-ban tárolt párhuzamos adatokba. Ennek eléréséhez egy ütemezett CloudWatch eseményt használunk a Párhuzamos adatfrissítő funkció aktiválására, amely beolvassa az adatokat a DynamoDB táblából, újraformázza azokat párhuzamos adatként, és frissíti az S3 tárolót, tárolva a párhuzamos adatokat.

Telepítse a megoldást az AWS CloudFormation segítségével

Indítsa el a megadott AWS felhőképződés sablont a megoldás fiókjában való üzembe helyezéséhez. Ez a verem csak az us-east-1 régióban működik. Ha ezt a megoldást más régiókban kívánja üzembe helyezni, tekintse meg a következőket GitHub repo.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást:
    Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  2. Kövesse az utasításokat a szükséges paraméterek kitöltéséhez. Ha először futtatja ezt a köteget, SNS e-mail az egyetlen kötelező paraméter.
  3. A Felülvizsgálat oldalon, a Képességek szakaszban jelölje be a jelölőnégyzetet, és válassza ki Verem létrehozása.

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A verem a következő kulcsfontosságú összetevőket hozza létre:

  • Testreszabási adatok – Egy DynamoDB tábla (translate_parallel_data) a testreszabási adatok karbantartásához. A meglévő testreszabási adatokat migrálja ebbe a táblázatba. Ez a táblázat a testreszabások folyamatos hozzáadására és frissítésére szolgál.
  • Párhuzamos adatfrissítő – A Lambda funkció a DynamoDB táblában lévő testreszabási adatok párhuzamos adatformátumba – CSV, TSV vagy TMX – konvertálásához és az Amazon S3-ban való tárolásához. Párhuzamos adatokat hoz létre és frissít az Amazon S3 új párhuzamos adatfájljával.
  • Fordítási munka előhívása – A Lambda funkció az Amazon Translate kötegelt feladat elindításához párhuzamos adatokkal.
  • Fordítási munka befejezésének kezelője – Ez a lambda funkció akkor aktiválódik, amikor az Amazon Translate kötegelt feladat befejeződött. A függvény dokumentumonként egy emberi hurkot hoz létre (ezt a jövőben finomítani fogjuk, hogy csak a feldolgozott dokumentumok meghatározott százalékához hozzon létre emberi hurkot). Az emberi hurok létrehozásához az eredeti és a lefordított dokumentumokat használja.
  • Amazon A2I testreszabott sablon – Ez a sablon a fordítási pár megjelenítésére szolgál emberi ellenőrzésre. A sablonban a hozzáad opció minden fordítási szegmenshez. A felhasználók kiválaszthatják ezt a lehetőséget, hogy korrekciókat adjanak a testreszabási adatokhoz. Az új testreszabási adatok a következő kötegelt fordítási feladatban kerülnek felhasználásra.
  • Munkafolyamat befejezésének kezelője – Ez a lambda funkció akkor aktiválódik, amikor az emberi munkafolyamat befejeződött. A funkció javításokkal frissíti a lefordított dokumentumot, és ellenőrzi a párhuzamos adatfrissítéseket. Új párhuzamos adatok kerülnek hozzáadásra a DynamoDB táblához.
  • Amazon A2I privát csapat – Létrejön egy Amazon A2I privát csapat egy emberi munkással a megadott e-mail cím használatával. A kezdeti hitelesítő adatokat e-mailben küldjük el a privát csapat sikeres létrehozása után. Ezzel az e-mail-címmel és hitelesítő adatokkal jelentkezhet be az Amazon A2I dolgozói portálra.

Tesztelje az oldatot

A sample_text.txt fájl a verem által létrehozott S3 vödör beviteli előtagja alatt jött volna létre. Ezt a fájlt használjuk a teszteléshez. A következő tartalmat tartalmazza:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

A megoldás teszteléséhez hajtsa végre a következő lépéseket:

  1. Hívja elő manuálisan a Translation Job Invoker funkciót, vagy várja meg, amíg a CloudWatch elindítja azt a megadott cron ütemezés alapján.
    Ez a funkció elindítja az Amazon Translate kötegelt munkát. A munka előrehaladását az Amazon Translate konzolon követheti nyomon.
    Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.Ez a kötegelt munka körülbelül 30 percet vesz igénybe. Ha elkészült, a TextTranslationJob állapotváltozási esemény elindítja a Fordítási feladat befejezése kezelő funkciót. Ez a funkció lefordított dokumentumonként egy emberi hurkot hoz létre.
  2. Navigáljon a Amazon A2I munkaerő cimre.
  3. Válassza a Magán Tab.
    Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  4. Jelentkezzen be az Amazon A2I dolgozói portálra a hivatkozás kiválasztásával A portál bejelentkezési URL-jének címkézése.
  5. Válassza ki a feladatot Human review task az álláslistában.
  6. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kezdj dolgozni.
    Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.
    A következő oldalt láthatja megjelenítve.
    Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  7. Kövesse az utasításokat a tartomány- és nyelvspecifikus javításokhoz.
    Az előző képernyőképen az „Az egészségi állapot felhasználását bármely csoportos egészségbiztosítási kötvényben törvény tiltja” kifejezés a következőre lett fordítva: „La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo”. Bár a fordítás pontos, a kifejezéseket átrendezték.
  8. Módosítsuk ezt a következőre: „El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley”, hogy ez az eredeti frazeológiát tükröző közvetlenebb fordítás legyen.
  9. választ hozzáad hogy ezt hozzáadja a szótárhoz.
  10. Ha végzett, válasszon Küld.
    Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ez elindítja a munkafolyamat befejezése kezelő funkciót, és a testreszabási adatok frissülnek a DynamoDB táblában. A függvény a javított fordítást az utólagos szerkesztések előtagja alatt is tárolja.

Megfigyelheti a hozzáadott testreszabásokat translate_parallel_data táblázat a DynamoDB konzolon.

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Parancsfolyam

A Párhuzamos adatfrissítés funkciót óránként indítja el egy CloudWatch ütemezett esemény. Ez a funkció új frissítéseket keres a translate_parallel_data táblázat, létrehoz egy új párhuzamos adat TMX fájlt az Amazon S3 alatt a parallel_data előtag, és frissíti az Amazon Fordító párhuzamos adatkomponensét. Ezt a funkciót manuálisan is elindíthatja, ha nem akar megvárni az ütemezett eseményindítót.

Megfigyelheti a párhuzamos adatok frissítését az Amazon Translate konzolon.

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ha elkészült, a munka állapotának a következőnek kell lennie Aktív és az érték Frissített rekordok tükröznie kell a hozzáadott testreszabások számát (ebben az esetben 1).

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Most már újra lefuttathatjuk a fordítási munkát a frissített adatokkal. Indítsa újra a Fordítási feladat meghívó funkciót, hogy megfigyelje a testreszabást, amely a második iterációban hozzáadódik a fordításhoz. Az Amazon Translate mostantól a párhuzamosan biztosított adatokat használja a fordítás testreszabásához.

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A fordítási kimenet változását a címkéző portálon figyelheti meg. Az alapértelmezett fordítás helyett a testreszabott fordítást látjuk alkalmazni.

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ez a munkafolyamat segít létrehozni egy jó ciklust a fordítási teljesítmény folyamatos javításához az Amazon A2I és az Amazon Translate testreszabási funkcióival.

Költség

Az Amazon Translate és az Amazon A2I használatával a feldolgozott szövegkarakterek száma és az egyes ember által ellenőrzött objektumok száma alapján fizet. Ebben a példában a DynamoDB on-demand módot használjuk. A DynamoDB díjat számít fel a táblákon végrehajtott olvasásokért és írásokért. Tekintse meg az árképzési oldalakat Amazon Translate, Amazon A2Iés Amazon DynamoDB tényleges költségekre.

Tisztítsuk meg

Ha végzett ezzel a megoldással, tisztítsa meg erőforrásait az AWS CloudFormation konzol segítségével a példában telepített összes erőforrás törléséhez. Ez segít elkerülni a folyamatos költségeket a fiókjában.

Következtetés

Az ebben a bejegyzésben bemutatott megoldást felhasználhatja egy többnyelvű fordítási munkafolyamat létrehozására, amely a tartományspecifikus testreszabást fokozatosan növeli a fordítási eredmények folyamatos javítása érdekében. Egy egyszerű mechanizmust biztosítunk a meglévő testreszabási eszközök integrálásához olyan menedzselt mesterséges intelligencia szolgáltatásokkal, mint az Amazon Translate és az Amazon A2I, hogy robusztus fordítási szolgáltatást építhessünk ki az alkalmazásához. Az Amazon Translate segítségével skálázhatja ezt a megoldást több mint 5,550 fordításpár támogatására. Az Amazon A2I segítségével könnyedén integrálódhat házon belüli nyelvi szakértőjével, vagy igénybe veheti a külső munkaerőt a megoldás méretezéséhez.

Az Amazon Translate szolgáltatással kapcsolatos további információkért látogasson el a webhelyre Amazon Translate források videoforrások és blogbejegyzések megtalálásához, és hivatkozásra AWS Fordítás GYIK. Kérjük, ossza meg velünk gondolatait a megjegyzés rovatban vagy a projekt kérdések rovatában Github tároló.


A szerzőkről

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.Sathya Balakrishnan Sr Customer Delivery Architect az AWS Professional Services csapatában, adat/ML megoldásokra szakosodott. Amerikai szövetségi pénzügyi ügyfelekkel dolgozik. Szenvedélyesen törekszik a pragmatikus megoldások kidolgozására az ügyfelek üzleti problémáinak megoldására. Szabadidejében szeret filmeket nézni és kirándulni a családjával.

Build a multi-lingual document translation workflow with domain-specific and language-specific customization PlatoBlockchain Data Intelligence. Vertical Search. Ai.Paul W. Joireman az AWS professzionális szolgáltatások területén Sr Customer Delivery Architect, alkalmazás-migrációra szakosodott, és amerikai szövetségi pénzügyi ügyfelekkel dolgozik. Paul szeret technológiai megoldásokat alkotni, családjával utazni és túrázni a Shenandoah Nemzeti Parkban, mindaddig, amíg a túra egy helyi kézműves sörfőzdében ér véget.

Időbélyeg:

Még több AWS gépi tanulás