בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית ספציפית לתחום ולשפה

בעולם הדיגיטלי, אספקת מידע בשפה מקומית אינה חדשנית, אבל זו יכולה להיות משימה מייגעת ויקרה. ההתקדמות בתחום למידת מכונה (ML) ועיבוד שפה טבעית (NLP) הפכו את המשימה הזו לקלה יותר ופחות יקרה.

ראינו אימוץ מוגבר של ML לעומסי עבודה של נתונים ועיבוד מסמכים רב-לשוניים. לקוחות ארגוניים וממשלתיים מעבירים את עומסי העבודה של התרגום הידני שלהם כדי לנצל את שירותי התרגום האוטומטיים של ML. Amazon Translate הוא א תרגום מכונה עצבית שירות המספק תרגום שפה מהיר, איכותי ובמחיר סביר בין כמה אלפי צמדי שפות שניתן להשתמש בהם למשימות תרגום סינכרוני (בזמן אמת) או אסינכרוני. לרשימה מלאה של צמדי תרגום זמינים, עיין ב שפות נתמכות וקודי שפה.

לקוחות המעבירים ומודרניים את עומסי העבודה בתרגום זקוקים ליכולת להתאים אישית תרגומים לתחום העסקי שלהם. עומס תרגום עשוי להזדקק גם ליכולת להסתגל לניבים או לשימוש בשפה האזורית. לדוגמה, התרגום לספרדית של "מבוגר" הוא anciano(a) אך בפורטו ריקו מועדפת המילה envejeciente.

בפוסט זה, אנו מדגימים כיצד לשלב את תכונת התרגום המותאם אישית הפעיל (ACT) של Amazon Translate. אנו מציעים פתרון ליצירת זרימת עבודה של תרגום מסמכים רב-לשונית עם התאמות אישיות ספציפיות לתחום ולשפה שתוכלו לסקור ולהגדיל לפי הצורך כדי לשפר את התוצאות באופן מתמיד ולשמח את משתמשי הקצה.

סקירת פתרונות

ACT מייצרת פלט מתורגם בהתאמה אישית ללא צורך לבנות ולתחזק מודל תרגום מותאם אישית. באמצעות ACT, Amazon Translate תשתמש בדוגמאות התרגום המועדפות עליך כנתונים מקבילים כדי להתאים אישית את תוצאת התרגום שלך, תוך ביטול הזמן והעלות הנדרשים לבנייה והדרכה של מודל למידת מכונה חדש.

הפתרון המכוסה בפוסט זה מסביר כיצד ליצור זרימת עבודה אנושית בלולאה באמצעות אמזון AI מוגדל (Amazon A2I) לשיפור מתמיד של התרגום המותאם אישית. Amazon A2I מספקת דרך פשוטה לשלב פיקוח אנושי בזרימות העבודה שלך ב-ML, ללא צורך בניסיון ב-ML. Amazon A2I עושה את זה פשוט לשלב שיקול דעת אנושי ובינה מלאכותית בכל יישום ML, ללא קשר אם הוא מופעל על AWS או על פלטפורמה אחרת.

למידע נוסף עיין ב תכנון זרימות עבודה של ביקורת אנושית באמצעות Amazon Translate ו- AI Augmented AI הודעה.

התרשים הבא מציג את זרימת הפקודה וזרימת הנתונים של הפתרון. זרימת הפקודה מציגה את הרצף ההגיוני של האירועים בזרימת העבודה. זרימת נתונים מציינת כיצד נוצרים או משתמשים בנתונים על ידי רכיבים שונים בפתרון.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

תרשים הרצף הבא מציג שני תהליכים נפרדים בפתרון: זרימת העבודה של התרגום (A) והתהליך לעדכון נתונים מקבילים (B).

זרימת העבודה של התרגום מתבצעת על ידי an אמזון CloudWatch אירוע מתוכנן שמתחיל את ה-Translation Job Invoker AWS למבדה פוּנקצִיָה. פונקציה זו יוצרת עבודת תרגום אסינכרונית באמזון Translate, ומעבירה את המסמך לתרגום ואת מיקום הנתונים המקבילים כדי להתאים אישית את התרגום. עבודת התרגום קוראת את הנתונים המקבילים, מבצעת את התרגום וכותבת את התוצאה המתורגמת בחזרה ל- an אמזון S3 דְלִי. נכון לכתיבת שורות אלה, רק עבודות תרגום אסינכרוניות יכולות להשתמש בנתונים מקבילים.

כאשר עבודת התרגום הושלמה, נוצר אירוע שמפעיל את פונקציית ה-Lambda של ה-Translation Job Completion Handler. פונקציה זו יוצרת לולאת זרימת עבודה אנושית - המרכיב העיקרי של חלק אמזון A2I של זרימת העבודה.

סוקרים אנושיים מעריכים את התרגום ומקבלים או משנים את התרגום. כל תיקונים משמשים לעדכון המסמך המתורגם וגם מתווספים למילון התאמה אישית. כאשר הסקירה מסתיימת, נוצר אירוע נוסף כדי להפעיל את פונקציית ה- Workflow Handler. פונקציה זו כותבת את המסמך המתורגם האחרון בחזרה לאמזון S3. נתוני ההתאמה האישית משמשים לעדכון א אמזון דינמו טבלה עם המקור וצמדי הטקסט המתורגמים.

כדי לסגור את הלולאה, עלינו לשלב את נתוני ההתאמה האישית המאוחסנים ב-DynamoDB בחזרה לנתונים המקבילים המאוחסנים באמזון S3. כדי להשיג זאת, אנו משתמשים באירוע CloudWatch מתוזמן כדי להפעיל את הפונקציה Parallel Data Refresher, שקוראת את הנתונים מטבלת DynamoDB, מפרמטת אותם מחדש כנתונים מקבילים ומעדכנת את דלי S3, ושומרת את הנתונים המקבילים.

פרוס את הפתרון באמצעות AWS CloudFormation

הפעל את המסופק AWS CloudFormation תבנית לפריסת הפתרון בחשבון שלך. מחסנית זו פועלת רק באזור us-east-1. אם ברצונך לפרוס פתרון זה באזורים אחרים, עיין בדברים הבאים GitHub ריפו.

  1. לבחור השקת ערימה:
    בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.
  2. פעל לפי ההוראות כדי לאכלס את הפרמטרים הדרושים. אם אתה מפעיל את הערימה הזו בפעם הראשונה, דוא"ל SNS הוא הפרמטר היחיד הנדרש.
  3. על סקירה עמוד, ב יכולות סעיף, בחר בתיבת הסימון ובחר צור ערימה.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

המחסנית יוצרת את מרכיבי המפתח הבאים:

  • נתוני התאמה אישית – טבלת DynamoDB (translate_parallel_data) כדי לשמור על נתוני ההתאמה האישית. אתה מעביר את נתוני ההתאמה האישית הקיימים לטבלה זו. טבלה זו משמשת להוספה ולעדכון מתמשכים של התאמות אישיות.
  • רענון נתונים מקביל – פונקציית Lambda להמרת נתוני ההתאמה האישית בטבלת DynamoDB לפורמט נתונים מקביל - CSV, TSV או TMX - ולאחסן אותם באמזון S3. זה יוצר ומעדכן נתונים מקבילים עם קובץ הנתונים המקבילים החדש באמזון S3.
  • Invoker לעבודות תרגום - פונקציית Lambda כדי להתחיל את עבודת האצווה של Amazon Translate עם נתונים מקבילים.
  • מטפל בהשלמת עבודות תרגום - פונקציית Lambda זו מופעלת כאשר עבודת האצווה של Amazon Translate הושלמה. הפונקציה יוצרת לולאה אנושית אחת לכל מסמך (אנחנו נחדד זאת בעתיד כדי ליצור לולאה אנושית רק עבור אחוז נבחר של מסמכים מעובדים). הוא משתמש במסמכים המקוריים ובמסמכים המתורגמים כדי ליצור את הלולאה האנושית.
  • תבנית מותאמת אישית של Amazon A2I – תבנית זו משמשת לעיבוד צמד התרגום לסקירה אנושית. לתבנית יש את להוסיף אפשרות לכל קטע תרגום. משתמשים יכולים לבחור באפשרות זו כדי להוסיף את התיקונים לנתוני ההתאמה האישית. נתוני ההתאמה האישית החדשים משמשים בעבודת התרגום הבאה באצווה.
  • מטפל בהשלמת זרימת עבודה - פונקציית Lambda זו מופעלת כאשר זרימת העבודה האנושית הושלמה. הפונקציה מעדכנת את המסמך המתורגם בתיקונים ובודקת עדכוני נתונים מקבילים. נתונים מקבילים חדשים מתווספים לטבלת DynamoDB.
  • צוות פרטי של אמזון A2I - צוות פרטי של Amazon A2I נוצר עם עובד אנושי באמצעות האימייל שסופק. אישורים ראשוניים נשלחים בדוא"ל לאחר יצירה מוצלחת של הצוות הפרטי. אתה משתמש בדוא"ל ובאישורים אלה כדי להיכנס לפורטל העובדים של Amazon A2I.

בדוק את הפתרון

אל האני sample_text.txt הקובץ היה נוצר תחת קידומת הקלט של דלי S3 שנוצר על ידי המחסנית. אנו משתמשים בקובץ הזה לבדיקה שלנו. הוא מכיל את התוכן הבא:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

כדי לבדוק את הפתרון, בצע את השלבים הבאים:

  1. הפעל את הפונקציה Translation Job Invoker באופן ידני, או המתן עד שהיא תופעל על ידי CloudWatch בהתבסס על לוח הזמנים של cron שציינת.
    פונקציה זו מפעילה את עבודת האצווה של Amazon Translate. אתה יכול לצפות בהתקדמות העבודה בקונסולת Amazon Translate.
    בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.ביצוע עבודת אצווה זו נמשכת כ-30 דקות. כשזה יושלם, ה TextTranslationJob אירוע שינוי מצב מפעיל את פונקציית ה-Translation Job Completion Handler. פונקציה זו יוצרת לולאה אנושית אחת לכל מסמך מתורגם.
  2. נווט אל כוח העבודה של אמזון A2I עמוד.
  3. בחר את פְּרָטִי TAB.
    בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.
  4. היכנס לפורטל העובדים של Amazon A2I על ידי בחירת הקישור עבור כתובת אתר כניסה לפורטל תיוג.
  5. בחר את המשימה Human review task ברשימת המשרות.
  6. לבחור תתחיל לעבוד.
    בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.
    אתה יכול לראות את העמוד הבא מוצג.
    בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.
  7. בצע את ההוראות כדי לבצע תיקונים ספציפיים לדומיין ולשפה.
    בצילום המסך הקודם, המשפט "השימוש במצב בריאותי בכל פוליסת ביטוח בריאות קבוצתית אסור על פי חוק" תורגם ל-"La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo". למרות שהתרגום מדויק, הביטויים סורגנו מחדש.
  8. בואו נשנה את זה ל-"El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley" כדי להפוך את זה לתרגום ישיר יותר המשקף את הביטוי המקורי.
  9. בחר להוסיף כדי להוסיף את זה למילון.
  10. כשתסיים, בחר חפש.
    בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

זה מפעיל את הפונקציה Workflow Completion Handler, ונתוני ההתאמה האישית מתעדכנים בטבלת DynamoDB. הפונקציה גם מאחסנת את התרגום המתוקן תחת הקידומת שלאחר העריכה.

אתה יכול לראות את ההתאמות האישיות שמתווסף translate_parallel_data טבלה בקונסולת DynamoDB.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

זרימת פיקוד

הפונקציה Parallel Data Refresher מופעלת כל שעה על ידי אירוע מתוזמן של CloudWatch. פונקציה זו בודקת עדכונים חדשים ב- translate_parallel_data טבלה, יוצרת קובץ TMX נתונים מקבילים חדש באמזון S3 תחת parallel_data קידומת, ומעדכן את רכיב הנתונים המקבילים של Amazon Translate. אתה יכול להפעיל פונקציה זו באופן ידני אם אינך רוצה להמתין להפעלת האירוע המתוכנן.

אתה יכול לראות את הנתונים המקבילים מתעדכנים בקונסולת Amazon Translate.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

כשזה יושלם, סטטוס העבודה צריך להיות Active ואת הערך עבור רשומות מעודכנות אמור לשקף את מספר ההתאמות האישיות שהוספת (במקרה זה 1).

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

כעת נוכל להפעיל את עבודת התרגום שוב עם הנתונים המעודכנים. הפעל שוב את הפונקציה Translation Job Invoker כדי לראות את ההתאמה האישית המתווספת לתרגום באיטרציה השנייה. Amazon Translate משתמש כעת בנתונים המקבילים שסופקו כדי להתאים אישית את התרגום.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

אתה יכול לראות את השינוי בפלט התרגום בפורטל התיוג. במקום תרגום ברירת המחדל, אנו רואים את התרגום המותאם מוחל.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.

זרימת עבודה זו מסייעת ביצירת מחזור טוב לשיפור מתמיד של פלט התרגום באמצעות תכונות ההתאמה האישית של Amazon A2I ו-Amazon Translate.

עלות

עם Amazon Translate ו-Amazon A2I, אתה משלם תוך כדי תנועה בהתבסס על מספר תווי הטקסט שעיבדת ועל כל אובייקט שנבדק על ידי אדם. אנו משתמשים במצב DynamoDB לפי דרישה עבור דוגמה זו. DynamoDB מחייב אותך עבור הקריאה והכתיבה שבוצעו בטבלאות שלך. עיין בדפי התמחור עבור אמזון תרגם, אמזון A2I, ו אמזון דינמו עבור עלויות בפועל.

לנקות את

כשתסיים להתנסות בפתרון זה, נקה את המשאבים שלך באמצעות מסוף AWS CloudFormation כדי למחוק את כל המשאבים שנפרסו בדוגמה זו. זה עוזר לך להימנע מהמשך העלויות בחשבון שלך.

סיכום

אתה יכול להשתמש בפתרון המוצג בפוסט זה כדי לבנות זרימת עבודה של תרגום רב-לשונית המשתמשת ומגבירה התאמה אישית ספציפית לתחום בהדרגה כדי לשפר באופן מתמיד את תוצאות התרגום. סיפקנו מנגנון פשוט לשילוב נכסי ההתאמה האישית הקיימים שלך עם שירותי AI מנוהלים כמו Amazon Translate ו-Amazon A2I כדי לבנות שירות תרגום חזק עבור האפליקציה שלך. Amazon Translate יכולה לעזור לך להגדיל את הפתרון הזה כדי לתמוך ביותר מ-5,550 זוגות תרגום מהקופסה. Amazon A2I יכולה לעזור לך להשתלב בקלות עם המומחה הלשוני הפנימי שלך או לנצל כוח עבודה חיצוני כדי להגדיל את הפתרון.

למידע נוסף על Amazon Translate, בקר משאבי תרגום של אמזון כדי למצוא משאבי וידאו ופוסטים בבלוג, ולהתייחס אליהם שאלות נפוצות של AWS Translate. אנא שתפו אותנו במחשבותיכם בקטע ההערות, או בסעיף הבעיות של הפרויקט מאגר Github.


על הכותבים

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.סתיה בלקרישנן הוא Sr Customer Delivery Architect בצוות השירותים המקצועיים ב-AWS, המתמחה בפתרונות Data/ML. הוא עובד עם לקוחות פיננסיים פדרליים בארה"ב. הוא נלהב מבניית פתרונות פרגמטיים לפתרון בעיות עסקיות של לקוחות. בזמנו הפנוי הוא נהנה לצפות בסרטים ולטייל עם משפחתו.

בנה זרימת עבודה של תרגום מסמכים רב לשוני עם התאמה אישית של PlatoBlockchain Data Intelligence ספציפית לתחום ולשפה. חיפוש אנכי. איי.פול וו. ז'וארמן הוא אדריכל Sr Customer Delivery בשירותים מקצועיים ב-AWS, המתמחה בהעברת יישומים ועבודה עם לקוחות פיננסיים פדרליים בארה"ב. פול נהנה ליצור פתרונות טכנולוגיים, לטייל עם המשפחה ולטייל בפארק הלאומי שננדואה, כל עוד הטיול מסתיים במבשלת בירה מקומית.

בול זמן:

עוד מ למידת מכונות AWS