Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen

In de digitale wereld is het verstrekken van informatie in een lokale taal niet nieuw, maar het kan een vervelende en dure taak zijn. Vooruitgang in machine learning (ML) en natuurlijke taalverwerking (NLP) hebben deze taak veel eenvoudiger en goedkoper gemaakt.

We hebben een toenemende acceptatie van ML gezien voor meertalige gegevens- en documentverwerkingsworkloads. Zakelijke en overheidsklanten migreren hun handmatige vertaalworkloads om te profiteren van geautomatiseerde ML-vertaalservices. Amazon Translate is een neurale machinevertaling service die snelle, hoogwaardige en betaalbare taalvertaling levert tussen enkele duizenden taalcombinaties die kunnen worden gebruikt voor synchrone (realtime) of asynchrone vertaaltaken. Voor een volledige lijst van beschikbare vertaalparen, zie: Ondersteunde talen en taalcodes.

Klanten die hun vertaalwerk migreren en moderniseren, hebben de mogelijkheid nodig om vertalingen aan te passen aan hun bedrijfsdomein. Een vertaalwerklast kan ook de mogelijkheid nodig hebben om zich aan te passen aan regionale taaldialecten of -gebruik. De Spaanse vertaling van "ouderen" is bijvoorbeeld anciano(a), maar in Puerto Rico heeft het woord envejeciente de voorkeur.

In dit bericht laten we zien hoe je de functie Active Custom Translation (ACT) van Amazon Translate kunt integreren. We stellen een oplossing voor om een โ€‹โ€‹meertalige workflow voor documentvertaling te creรซren met domein- en taalspecifieke aanpassingen die u indien nodig kunt herzien en uitbreiden om de resultaten continu te verbeteren en eindgebruikers tevreden te stellen.

Overzicht oplossingen

ACT produceert op maat vertaalde uitvoer zonder de noodzaak om een โ€‹โ€‹aangepast vertaalmodel te bouwen en te onderhouden. Met behulp van ACT gebruikt Amazon Translate uw favoriete vertaalvoorbeelden als parallelle gegevens om uw vertaalresultaat aan te passen, waardoor de tijd en kosten die nodig zijn om een โ€‹โ€‹nieuw machine learning-model te bouwen en te trainen, worden geรซlimineerd.

De oplossing die in dit bericht wordt behandeld, legt uit hoe u een human-in-the-loop-workflow kunt maken met behulp van Amazon Augmented AI (Amazon A2I) om de vertaling op maat continu te verbeteren. Amazon A2I biedt een eenvoudige manier om menselijk toezicht te integreren in uw ML-workflows, zonder dat ML-ervaring vereist is. Amazon A2I maakt het eenvoudig om menselijk oordeel en AI te integreren in elke ML-toepassing, ongeacht of deze op AWS of op een ander platform wordt uitgevoerd.

Zie voor meer informatie Ontwerpen van menselijke beoordelingsworkflows met Amazon Translate en Amazon Augmented AI post.

Het volgende diagram geeft de opdrachtstroom en gegevensstroom van de oplossing weer. De opdrachtstroom toont de logische volgorde van gebeurtenissen in de workflow. Een gegevensstroom geeft aan hoe gegevens worden gemaakt of gebruikt door verschillende componenten in de oplossing.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Het volgende sequentiediagram toont twee afzonderlijke processen in de oplossing: de vertaalworkflow (A) en het proces om parallelle gegevens bij te werken (B).

De vertaalworkflow wordt geรฏnitieerd door een Amazon Cloud Watch geplande gebeurtenis die de Translation Job Invoker start AWS Lambda functie. Deze functie creรซert een asynchrone vertaaltaak in Amazon Translate, waarbij het te vertalen document en de locatie van de parallelle gegevens worden doorgegeven om de vertaling aan te passen. De vertaaltaak leest de parallelle gegevens, voert de vertaling uit en schrijft het vertaalde resultaat terug naar een Amazon S3 emmer. Op het moment van schrijven kunnen alleen asynchrone vertaaltaken parallelle gegevens gebruiken.

Wanneer de vertaaltaak is voltooid, wordt een gebeurtenis gegenereerd die de Lambda-functie van de handler voor het voltooien van de vertaaltaak activeert. Deze functie creรซert een menselijke workflow-lus, het belangrijkste onderdeel van het Amazon A2I-gedeelte van de workflow.

Menselijke reviewers beoordelen de vertaling en accepteren of wijzigen de vertaling. Eventuele correcties worden gebruikt om het vertaalde document bij te werken en ook toegevoegd aan een aanpassingswoordenboek. Wanneer de beoordeling is voltooid, wordt een andere gebeurtenis gegenereerd om de functie Workflow Completion Handler te activeren. Deze functie schrijft het laatst vertaalde document terug naar Amazon S3. De aanpassingsgegevens worden gebruikt om een Amazon DynamoDB tabel met de bron en vertaalde tekstparen.

Om de lus te sluiten, moeten we deze aanpassingsgegevens die zijn opgeslagen in DynamoDB, weer opnemen in de parallelle gegevens die zijn opgeslagen in Amazon S3. Om dit te bereiken, gebruiken we een geplande CloudWatch-gebeurtenis om de Parallel Data Refresher-functie te activeren, die de gegevens uit de DynamoDB-tabel leest, deze opnieuw formatteert als parallelle gegevens en de S3-bucket bijwerkt, waarbij de parallelle gegevens worden opgeslagen.

Implementeer de oplossing met AWS CloudFormation

Start de meegeleverde AWS CloudFormatie sjabloon om de oplossing in uw account te implementeren. Deze stapel werkt alleen in de us-east-1 regio. Als u deze oplossing in andere regio's wilt implementeren, raadpleegt u het volgende: GitHub repo.

  1. Kies Start Stack:
    Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  2. Volg de instructies om de benodigde parameters in te vullen. Als u deze stapel voor de eerste keer gebruikt, SNS e-mail is de enige vereiste parameter.
  3. Op de Beoordeling pagina, in de Mogelijkheden sectie, selecteer het selectievakje en kies Maak een stapel.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De stapel creรซert de volgende belangrijke componenten:

  • Aanpassingsgegevens โ€“ Een DynamoDB-tabel (translate_parallel_data) om de aanpassingsgegevens te behouden. U migreert de bestaande aanpassingsgegevens naar deze tabel. Deze tabel wordt gebruikt om voortdurend aanpassingen toe te voegen en bij te werken.
  • Parallelle gegevensverversing โ€“ De Lambda-functie om de aanpassingsgegevens in de DynamoDB-tabel om te zetten in een parallelle gegevensindeling (CSV, TSV of TMX) en deze op te slaan in Amazon S3. Het creรซert en werkt parallelle gegevens bij met het nieuwe parallelle gegevensbestand in Amazon S3.
  • Vertaling Job Invoker โ€“ De Lambda-functie om de Amazon Translate-batchtaak met parallelle gegevens te starten.
  • Verantwoordelijk voor het voltooien van vertaalopdrachten โ€“ Deze Lambda-functie wordt geactiveerd wanneer de Amazon Translate-batchtaak is voltooid. De functie creรซert รฉรฉn menselijke lus per document (we zullen dit in de toekomst verfijnen om alleen een menselijke lus te creรซren voor een bepaald percentage verwerkte documenten). Het gebruikt de originele en vertaalde documenten om de menselijke lus te creรซren.
  • Aangepaste Amazon A2I-sjabloon โ€“ Deze sjabloon wordt gebruikt om het vertaalpaar voor menselijke beoordeling weer te geven. De sjabloon heeft de Toevoegen optie voor elk vertaalsegment. Gebruikers kunnen deze optie selecteren om de correcties toe te voegen aan de aanpassingsgegevens. De nieuwe aanpassingsgegevens worden gebruikt in de volgende batchvertaaltaak.
  • Handler voor het voltooien van workflow โ€“ Deze Lambda-functie wordt geactiveerd wanneer de menselijke workflow is voltooid. De functie werkt het vertaalde document bij met correcties en controles voor parallelle gegevensupdates. Nieuwe parallelle gegevens worden toegevoegd aan de DynamoDB-tabel.
  • Amazon A2I privรฉ-team โ€“ Een Amazon A2I-privรฉteam wordt gemaakt met een menselijke werknemer met behulp van de verstrekte e-mail. De eerste inloggegevens worden per e-mail verzonden wanneer het privรฉteam is aangemaakt. U gebruikt deze e-mail en referentie om in te loggen op het Amazon A2I-werkportaal.

Test de oplossing

De sample_text.txt bestand zou zijn gemaakt onder het invoervoorvoegsel van de S3-bucket die door de stapel is gemaakt. We gebruiken dit bestand voor onze tests. Het bevat de volgende inhoud:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health โ€“ with one exception: smoking status.

Voer de volgende stappen uit om de oplossing te testen:

  1. Roep de functie Translation Job Invoker handmatig aan of wacht tot deze wordt geactiveerd door CloudWatch op basis van het cron-schema dat u hebt opgegeven.
    Deze functie activeert de Amazon Translate-batchtaak. U kunt de voortgang van de taak volgen op de Amazon Translate-console.
    Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Deze batchtaak duurt ongeveer 30 minuten. Als het klaar is, wordt de TextTranslationJob toestandsveranderingsgebeurtenis activeert de functie Vertaalopdracht voltooien Handler. Deze functie creรซert รฉรฉn menselijke lus per vertaald document.
  2. Navigeer naar de Amazon A2I-personeelsleden pagina.
  3. Kies de Privรฉ Tab.
    Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  4. Log in op het Amazon A2I-werkportaal door de link te kiezen voor: Inlog-URL van portal labelen.
  5. Selecteer de taak Human review task in de banenlijst.
  6. Kies Begin met werken.
    Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    U ziet de volgende pagina weergegeven.
    Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  7. Volg de instructies om domein- en taalspecifieke correcties aan te brengen.
    In de voorgaande schermafbeelding is de zin "Het gebruik van de gezondheidsstatus in elke collectieve ziektekostenverzekering is bij wet verboden" vertaald naar "La ley prohรญbe el uso del estado de salud en cualquier pรณliza de seguro mรฉdico de grupo." Hoewel de vertaling correct is, zijn de zinnen herschikt.
  8. Laten we dit wijzigen in "El uso del estado de salud en cualquier pรณliza de seguro de grupal estรก prohibido por ley" om dit een meer directe vertaling te maken die de oorspronkelijke fraseologie weerspiegelt.
  9. kies Toevoegen om dit aan het woordenboek toe te voegen.
  10. Als je klaar bent, kies je Verzenden.
    Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Dit activeert de functie Workflow Completion Handler en de aanpassingsgegevens worden bijgewerkt in de DynamoDB-tabel. De functie slaat ook de gecorrigeerde vertaling op onder het prefix post-edits.

U kunt zien welke aanpassingen worden toegevoegd aan translate_parallel_data tabel op de DynamoDB-console.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Opdrachtstroom

De functie Parallel Data Refresher wordt elk uur geactiveerd door een geplande gebeurtenis van CloudWatch. Deze functie controleert op nieuwe updates in de translate_parallel_data tabel, maakt een nieuw TMX-bestand met parallelle gegevens in Amazon S3 onder de parallel_data prefix en werkt de parallelle gegevenscomponent van Amazon Translate bij. U kunt deze functie handmatig activeren als u niet wilt wachten op de geplande gebeurtenistrigger.

U kunt zien dat de parallelle gegevens worden bijgewerkt op de Amazon Translate-console.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Wanneer het voltooid is, zou de taakstatus moeten zijn: Actief en de waarde voor Bijgewerkte gegevens moet overeenkomen met het aantal aanpassingen dat u heeft toegevoegd (in dit geval 1).

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nu kunnen we de vertaaltaak opnieuw uitvoeren met de bijgewerkte gegevens. Activeer de functie Translation Job Invoker opnieuw om de aanpassing te observeren die in de tweede iteratie aan de vertaling wordt toegevoegd. Amazon Translate gebruikt nu de parallelle gegevens die zijn verstrekt om de vertaling aan te passen.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

U kunt de verandering in de vertaaloutput in het labelingportaal zien. In plaats van de standaardvertaling zien we dat de aangepaste vertaling wordt toegepast.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Deze workflow helpt bij het creรซren van een vicieuze cirkel om de vertaaloutput continu te verbeteren met behulp van Amazon A2I en Amazon Translate-aanpassingsfuncties.

Kosten

Met Amazon Translate en Amazon A2I betaal je naar gebruik op basis van het aantal teksttekens dat je hebt verwerkt en voor elk door mensen beoordeeld object. We gebruiken de DynamoDB on-demand modus voor dit voorbeeld. DynamoDB brengt kosten in rekening voor het lezen en schrijven op uw tabellen. Raadpleeg de prijspagina's voor: Amazon Vertalen, Amazon A2I en Amazon DynamoDB voor werkelijke kosten.

Opruimen

Wanneer u klaar bent met experimenteren met deze oplossing, ruimt u uw resources op door de AWS CloudFormation-console te gebruiken om alle resources te verwijderen die in dit voorbeeld zijn geรฏmplementeerd. Zo voorkomt u doorlopende kosten in uw account.

Conclusie

U kunt de oplossing die in dit bericht wordt gepresenteerd gebruiken om een โ€‹โ€‹meertalige vertaalworkflow te bouwen die domeinspecifieke aanpassingen stapsgewijs gebruikt en uitbreidt om de vertaalresultaten continu te verbeteren. We hebben een eenvoudig mechanisme geboden om uw bestaande aanpassingsmiddelen te integreren met beheerde AI-services zoals Amazon Translate en Amazon A2I om een โ€‹โ€‹robuuste vertaalservice voor uw toepassing te bouwen. Amazon Translate kan je helpen deze oplossing op te schalen om meer dan 5,550 vertaalparen out-of-the-box te ondersteunen. Amazon A2I kan je helpen om eenvoudig te integreren met je interne taalexpert of om gebruik te maken van een extern personeelsbestand om de oplossing op te schalen.

Ga voor meer informatie over Amazon Translate naar Amazon Translate-bronnen om videobronnen en blogberichten te vinden en te verwijzen naar Veelgestelde vragen over AWS vertalen. Deel uw mening met ons in de opmerkingensectie of in de problemensectie van het project Github-repository.


Over de auteurs

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Sathya Balakrishnan is Sr Customer Delivery Architect in het Professional Services-team van AWS, gespecialiseerd in Data/ML-oplossingen. Hij werkt met Amerikaanse federale financiรซle klanten. Hij heeft een passie voor het bouwen van pragmatische oplossingen om de zakelijke problemen van klanten op te lossen. In zijn vrije tijd kijkt hij graag films en wandelt hij met zijn gezin.

Bouw een meertalige workflow voor documentvertaling met domeinspecifieke en taalspecifieke aanpassingen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Paul W.Joireman is een Sr Customer Delivery Architect in Professional Services bij AWS, gespecialiseerd in applicatiemigratie en het werken met Amerikaanse federale financiรซle klanten. Paul geniet van het creรซren van technologische oplossingen, reizen met familie en wandelen in het Shenandoah National Park, zolang de wandeling maar eindigt bij een lokale ambachtelijke brouwerij.

Tijdstempel:

Meer van AWS-machine learning