בעולם הדיגיטלי, אספקת מידע בשפה מקומית אינה חדשנית, אבל זו יכולה להיות משימה מייגעת ויקרה. ההתקדמות בתחום למידת מכונה (ML) ועיבוד שפה טבעית (NLP) הפכו את המשימה הזו לקלה יותר ופחות יקרה.
ראינו אימוץ מוגבר של ML לעומסי עבודה של נתונים ועיבוד מסמכים רב-לשוניים. לקוחות ארגוניים וממשלתיים מעבירים את עומסי העבודה של התרגום הידני שלהם כדי לנצל את שירותי התרגום האוטומטיים של ML. Amazon Translate הוא א תרגום מכונה עצבית שירות המספק תרגום שפה מהיר, איכותי ובמחיר סביר בין כמה אלפי צמדי שפות שניתן להשתמש בהם למשימות תרגום סינכרוני (בזמן אמת) או אסינכרוני. לרשימה מלאה של צמדי תרגום זמינים, עיין ב שפות נתמכות וקודי שפה.
לקוחות המעבירים ומודרניים את עומסי העבודה בתרגום זקוקים ליכולת להתאים אישית תרגומים לתחום העסקי שלהם. עומס תרגום עשוי להזדקק גם ליכולת להסתגל לניבים או לשימוש בשפה האזורית. לדוגמה, התרגום לספרדית של "מבוגר" הוא anciano(a) אך בפורטו ריקו מועדפת המילה envejeciente.
בפוסט זה, אנו מדגימים כיצד לשלב את תכונת התרגום המותאם אישית הפעיל (ACT) של Amazon Translate. אנו מציעים פתרון ליצירת זרימת עבודה של תרגום מסמכים רב-לשונית עם התאמות אישיות ספציפיות לתחום ולשפה שתוכלו לסקור ולהגדיל לפי הצורך כדי לשפר את התוצאות באופן מתמיד ולשמח את משתמשי הקצה.
סקירת פתרונות
ACT מייצרת פלט מתורגם בהתאמה אישית ללא צורך לבנות ולתחזק מודל תרגום מותאם אישית. באמצעות ACT, Amazon Translate תשתמש בדוגמאות התרגום המועדפות עליך כנתונים מקבילים כדי להתאים אישית את תוצאת התרגום שלך, תוך ביטול הזמן והעלות הנדרשים לבנייה והדרכה של מודל למידת מכונה חדש.
הפתרון המכוסה בפוסט זה מסביר כיצד ליצור זרימת עבודה אנושית בלולאה באמצעות אמזון AI מוגדל (Amazon A2I) לשיפור מתמיד של התרגום המותאם אישית. Amazon A2I מספקת דרך פשוטה לשלב פיקוח אנושי בזרימות העבודה שלך ב-ML, ללא צורך בניסיון ב-ML. Amazon A2I עושה את זה פשוט לשלב שיקול דעת אנושי ובינה מלאכותית בכל יישום ML, ללא קשר אם הוא מופעל על AWS או על פלטפורמה אחרת.
למידע נוסף עיין ב תכנון זרימות עבודה של ביקורת אנושית באמצעות Amazon Translate ו- AI Augmented AI הודעה.
התרשים הבא מציג את זרימת הפקודה וזרימת הנתונים של הפתרון. זרימת הפקודה מציגה את הרצף ההגיוני של האירועים בזרימת העבודה. זרימת נתונים מציינת כיצד נוצרים או משתמשים בנתונים על ידי רכיבים שונים בפתרון.
תרשים הרצף הבא מציג שני תהליכים נפרדים בפתרון: זרימת העבודה של התרגום (A) והתהליך לעדכון נתונים מקבילים (B).
זרימת העבודה של התרגום מתבצעת על ידי an אמזון CloudWatch אירוע מתוכנן שמתחיל את ה-Translation Job Invoker AWS למבדה פוּנקצִיָה. פונקציה זו יוצרת עבודת תרגום אסינכרונית באמזון Translate, ומעבירה את המסמך לתרגום ואת מיקום הנתונים המקבילים כדי להתאים אישית את התרגום. עבודת התרגום קוראת את הנתונים המקבילים, מבצעת את התרגום וכותבת את התוצאה המתורגמת בחזרה ל- an אמזון S3 דְלִי. נכון לכתיבת שורות אלה, רק עבודות תרגום אסינכרוניות יכולות להשתמש בנתונים מקבילים.
כאשר עבודת התרגום הושלמה, נוצר אירוע שמפעיל את פונקציית ה-Lambda של ה-Translation Job Completion Handler. פונקציה זו יוצרת לולאת זרימת עבודה אנושית - המרכיב העיקרי של חלק אמזון A2I של זרימת העבודה.
סוקרים אנושיים מעריכים את התרגום ומקבלים או משנים את התרגום. כל תיקונים משמשים לעדכון המסמך המתורגם וגם מתווספים למילון התאמה אישית. כאשר הסקירה מסתיימת, נוצר אירוע נוסף כדי להפעיל את פונקציית ה- Workflow Handler. פונקציה זו כותבת את המסמך המתורגם האחרון בחזרה לאמזון S3. נתוני ההתאמה האישית משמשים לעדכון א אמזון דינמו טבלה עם המקור וצמדי הטקסט המתורגמים.
כדי לסגור את הלולאה, עלינו לשלב את נתוני ההתאמה האישית המאוחסנים ב-DynamoDB בחזרה לנתונים המקבילים המאוחסנים באמזון S3. כדי להשיג זאת, אנו משתמשים באירוע CloudWatch מתוזמן כדי להפעיל את הפונקציה Parallel Data Refresher, שקוראת את הנתונים מטבלת DynamoDB, מפרמטת אותם מחדש כנתונים מקבילים ומעדכנת את דלי S3, ושומרת את הנתונים המקבילים.
פרוס את הפתרון באמצעות AWS CloudFormation
הפעל את המסופק AWS CloudFormation תבנית לפריסת הפתרון בחשבון שלך. מחסנית זו פועלת רק באזור us-east-1. אם ברצונך לפרוס פתרון זה באזורים אחרים, עיין בדברים הבאים GitHub ריפו.
- לבחור השקת ערימה:
- פעל לפי ההוראות כדי לאכלס את הפרמטרים הדרושים. אם אתה מפעיל את הערימה הזו בפעם הראשונה, דוא"ל SNS הוא הפרמטר היחיד הנדרש.
- על סקירה עמוד, ב יכולות סעיף, בחר בתיבת הסימון ובחר צור ערימה.
המחסנית יוצרת את מרכיבי המפתח הבאים:
- נתוני התאמה אישית – טבלת DynamoDB (
translate_parallel_data
) כדי לשמור על נתוני ההתאמה האישית. אתה מעביר את נתוני ההתאמה האישית הקיימים לטבלה זו. טבלה זו משמשת להוספה ולעדכון מתמשכים של התאמות אישיות. - רענון נתונים מקביל – פונקציית Lambda להמרת נתוני ההתאמה האישית בטבלת DynamoDB לפורמט נתונים מקביל - CSV, TSV או TMX - ולאחסן אותם באמזון S3. זה יוצר ומעדכן נתונים מקבילים עם קובץ הנתונים המקבילים החדש באמזון S3.
- Invoker לעבודות תרגום - פונקציית Lambda כדי להתחיל את עבודת האצווה של Amazon Translate עם נתונים מקבילים.
- מטפל בהשלמת עבודות תרגום - פונקציית Lambda זו מופעלת כאשר עבודת האצווה של Amazon Translate הושלמה. הפונקציה יוצרת לולאה אנושית אחת לכל מסמך (אנחנו נחדד זאת בעתיד כדי ליצור לולאה אנושית רק עבור אחוז נבחר של מסמכים מעובדים). הוא משתמש במסמכים המקוריים ובמסמכים המתורגמים כדי ליצור את הלולאה האנושית.
- תבנית מותאמת אישית של Amazon A2I – תבנית זו משמשת לעיבוד צמד התרגום לסקירה אנושית. לתבנית יש את להוסיף אפשרות לכל קטע תרגום. משתמשים יכולים לבחור באפשרות זו כדי להוסיף את התיקונים לנתוני ההתאמה האישית. נתוני ההתאמה האישית החדשים משמשים בעבודת התרגום הבאה באצווה.
- מטפל בהשלמת זרימת עבודה - פונקציית Lambda זו מופעלת כאשר זרימת העבודה האנושית הושלמה. הפונקציה מעדכנת את המסמך המתורגם בתיקונים ובודקת עדכוני נתונים מקבילים. נתונים מקבילים חדשים מתווספים לטבלת DynamoDB.
- צוות פרטי של אמזון A2I - צוות פרטי של Amazon A2I נוצר עם עובד אנושי באמצעות האימייל שסופק. אישורים ראשוניים נשלחים בדוא"ל לאחר יצירה מוצלחת של הצוות הפרטי. אתה משתמש בדוא"ל ובאישורים אלה כדי להיכנס לפורטל העובדים של Amazon A2I.
בדוק את הפתרון
אל האני sample_text.txt
הקובץ היה נוצר תחת קידומת הקלט של דלי S3 שנוצר על ידי המחסנית. אנו משתמשים בקובץ הזה לבדיקה שלנו. הוא מכיל את התוכן הבא:
כדי לבדוק את הפתרון, בצע את השלבים הבאים:
- הפעל את הפונקציה Translation Job Invoker באופן ידני, או המתן עד שהיא תופעל על ידי CloudWatch בהתבסס על לוח הזמנים של cron שציינת.
פונקציה זו מפעילה את עבודת האצווה של Amazon Translate. אתה יכול לצפות בהתקדמות העבודה בקונסולת Amazon Translate.
ביצוע עבודת אצווה זו נמשכת כ-30 דקות. כשזה יושלם, הTextTranslationJob
אירוע שינוי מצב מפעיל את פונקציית ה-Translation Job Completion Handler. פונקציה זו יוצרת לולאה אנושית אחת לכל מסמך מתורגם. - נווט אל כוח העבודה של אמזון A2I עמוד.
- בחר את פְּרָטִי TAB.
- היכנס לפורטל העובדים של Amazon A2I על ידי בחירת הקישור עבור כתובת אתר כניסה לפורטל תיוג.
- בחר את המשימה
Human review task
ברשימת המשרות. - לבחור תתחיל לעבוד.
אתה יכול לראות את העמוד הבא מוצג. - בצע את ההוראות כדי לבצע תיקונים ספציפיים לדומיין ולשפה.
בצילום המסך הקודם, המשפט "השימוש במצב בריאותי בכל פוליסת ביטוח בריאות קבוצתית אסור על פי חוק" תורגם ל-"La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo". למרות שהתרגום מדויק, הביטויים סורגנו מחדש. - בואו נשנה את זה ל-"El uso del estado de salud en cualquier póliza de seguro de salud grupal está prohibido por ley" כדי להפוך את זה לתרגום ישיר יותר המשקף את הביטוי המקורי.
- בחר להוסיף כדי להוסיף את זה למילון.
- כשתסיים, בחר חפש.
זה מפעיל את הפונקציה Workflow Completion Handler, ונתוני ההתאמה האישית מתעדכנים בטבלת DynamoDB. הפונקציה גם מאחסנת את התרגום המתוקן תחת הקידומת שלאחר העריכה.
אתה יכול לראות את ההתאמות האישיות שמתווסף translate_parallel_data
טבלה בקונסולת DynamoDB.
זרימת פיקוד
הפונקציה Parallel Data Refresher מופעלת כל שעה על ידי אירוע מתוזמן של CloudWatch. פונקציה זו בודקת עדכונים חדשים ב- translate_parallel_data
טבלה, יוצרת קובץ TMX נתונים מקבילים חדש באמזון S3 תחת parallel_data
קידומת, ומעדכן את רכיב הנתונים המקבילים של Amazon Translate. אתה יכול להפעיל פונקציה זו באופן ידני אם אינך רוצה להמתין להפעלת האירוע המתוכנן.
אתה יכול לראות את הנתונים המקבילים מתעדכנים בקונסולת Amazon Translate.
כשזה יושלם, סטטוס העבודה צריך להיות Active ואת הערך עבור רשומות מעודכנות אמור לשקף את מספר ההתאמות האישיות שהוספת (במקרה זה 1).
כעת נוכל להפעיל את עבודת התרגום שוב עם הנתונים המעודכנים. הפעל שוב את הפונקציה Translation Job Invoker כדי לראות את ההתאמה האישית המתווספת לתרגום באיטרציה השנייה. Amazon Translate משתמש כעת בנתונים המקבילים שסופקו כדי להתאים אישית את התרגום.
אתה יכול לראות את השינוי בפלט התרגום בפורטל התיוג. במקום תרגום ברירת המחדל, אנו רואים את התרגום המותאם מוחל.
זרימת עבודה זו מסייעת ביצירת מחזור טוב לשיפור מתמיד של פלט התרגום באמצעות תכונות ההתאמה האישית של Amazon A2I ו-Amazon Translate.
עלות
עם Amazon Translate ו-Amazon A2I, אתה משלם תוך כדי תנועה בהתבסס על מספר תווי הטקסט שעיבדת ועל כל אובייקט שנבדק על ידי אדם. אנו משתמשים במצב DynamoDB לפי דרישה עבור דוגמה זו. DynamoDB מחייב אותך עבור הקריאה והכתיבה שבוצעו בטבלאות שלך. עיין בדפי התמחור עבור אמזון תרגם, אמזון A2I, ו אמזון דינמו עבור עלויות בפועל.
לנקות את
כשתסיים להתנסות בפתרון זה, נקה את המשאבים שלך באמצעות מסוף AWS CloudFormation כדי למחוק את כל המשאבים שנפרסו בדוגמה זו. זה עוזר לך להימנע מהמשך העלויות בחשבון שלך.
סיכום
אתה יכול להשתמש בפתרון המוצג בפוסט זה כדי לבנות זרימת עבודה של תרגום רב-לשונית המשתמשת ומגבירה התאמה אישית ספציפית לתחום בהדרגה כדי לשפר באופן מתמיד את תוצאות התרגום. סיפקנו מנגנון פשוט לשילוב נכסי ההתאמה האישית הקיימים שלך עם שירותי AI מנוהלים כמו Amazon Translate ו-Amazon A2I כדי לבנות שירות תרגום חזק עבור האפליקציה שלך. Amazon Translate יכולה לעזור לך להגדיל את הפתרון הזה כדי לתמוך ביותר מ-5,550 זוגות תרגום מהקופסה. Amazon A2I יכולה לעזור לך להשתלב בקלות עם המומחה הלשוני הפנימי שלך או לנצל כוח עבודה חיצוני כדי להגדיל את הפתרון.
למידע נוסף על Amazon Translate, בקר משאבי תרגום של אמזון כדי למצוא משאבי וידאו ופוסטים בבלוג, ולהתייחס אליהם שאלות נפוצות של AWS Translate. אנא שתפו אותנו במחשבותיכם בקטע ההערות, או בסעיף הבעיות של הפרויקט מאגר Github.
על הכותבים
סתיה בלקרישנן הוא Sr Customer Delivery Architect בצוות השירותים המקצועיים ב-AWS, המתמחה בפתרונות Data/ML. הוא עובד עם לקוחות פיננסיים פדרליים בארה"ב. הוא נלהב מבניית פתרונות פרגמטיים לפתרון בעיות עסקיות של לקוחות. בזמנו הפנוי הוא נהנה לצפות בסרטים ולטייל עם משפחתו.
פול וו. ז'וארמן הוא אדריכל Sr Customer Delivery בשירותים מקצועיים ב-AWS, המתמחה בהעברת יישומים ועבודה עם לקוחות פיננסיים פדרליים בארה"ב. פול נהנה ליצור פתרונות טכנולוגיים, לטייל עם המשפחה ולטייל בפארק הלאומי שננדואה, כל עוד הטיול מסתיים במבשלת בירה מקומית.
- מתקדם (300)
- AI
- איי אמנות
- מחולל אמנות ai
- איי רובוט
- אמזון תרגם
- בינה מלאכותית
- הסמכת בינה מלאכותית
- בינה מלאכותית בבנקאות
- רובוט בינה מלאכותית
- רובוטים של בינה מלאכותית
- תוכנת בינה מלאכותית
- למידת מכונות AWS
- blockchain
- blockchain conference ai
- קוינגניוס
- בינה מלאכותית של שיחה
- קריפטו כנס ai
- של דאל
- למידה עמוקה
- גוגל איי
- למידת מכונה
- אפלטון
- plato ai
- מודיעין אפלטון
- משחק אפלטון
- אפלטון נתונים
- פלטוגיימינג
- סולם ai
- תחביר
- זפירנט