לשון העם של אדם היא חלק מהמאפיינים שהופכים אותו לייחודי. לעתים קרובות יש אינספור דרכים שונות להביע רעיון ספציפי אחד. כאשר חברה מתקשרת עם הלקוחות שלה, זה קריטי שהמסר יועבר בצורה המייצגת בצורה הטובה ביותר את המידע שהם מנסים להעביר. זה הופך להיות חשוב עוד יותר כשמדובר בתרגום שפה מקצועי. לקוחות של מערכות ושירותי תרגום מצפים לתפוקות מדויקות ומותאמות במיוחד. כדי להשיג זאת, הם עושים שימוש חוזר בפטי תרגום קודמים - הנקראים זיכרון תרגום (TM) - ומשווים אותם לטקסט קלט חדש. בתרגום בעזרת מחשב, טכניקה זו ידועה בשם התאמה מטושטשת. התפקיד העיקרי של התאמה מטושטשת הוא לסייע למתרגם על ידי זירוז תהליך התרגום. כאשר לא ניתן למצוא התאמה מדויקת במסד הנתונים של TM לטקסט המתורגם, למערכות ניהול תרגום (TMS) יש לרוב אפשרות לחפש התאמה שהיא פחות מדוייקת. התאמות פוטנציאליות מסופקות למתרגם כקלט נוסף לתרגום סופי. מתרגמים המשפרים את זרימת העבודה שלהם עם יכולות תרגום מכונה כגון אמזון תרגם לעתים קרובות מצפים שנתוני התאמה מטושטשת ישמשו כחלק מפתרון התרגום האוטומטי.
בפוסט הזה, אתה לומד כיצד להתאים אישית פלט מאמזון Translate לפי ציוני איכות התאמה מעורפלים של זיכרון התרגום.
התאמה לאיכות התרגום
פורמט הקובץ של XML Localization Interchange (XLIFF) תקן משמש לעתים קרובות כפורמט לחילופי נתונים בין TMSs ו-Amazon Translate. קובצי XLIFF המיוצרים על ידי TMSs כוללים נתוני טקסט מקור ויעד יחד עם ציוני איכות התאמה המבוססים על TM זמין. ציונים אלה - מבוטאים בדרך כלל באחוזים - מציינים עד כמה קרוב זיכרון התרגום לטקסט המתורגם.
חלק מהלקוחות עם דרישות מחמירות מאוד רוצים להשתמש בתרגום מכונה רק כאשר ציוני איכות ההתאמה נמצאים מתחת לסף מסוים. מעבר לסף הזה, הם מצפים שזיכרון התרגום שלהם יקבל עדיפות. לעתים קרובות מתרגמים צריכים ליישם את ההעדפות הללו באופן ידני בתוך ה-TMS שלהם או על ידי שינוי נתוני הטקסט. זרימה זו מומחשת בתרשים הבא. מערכת התרגום המכונה מעבדת את נתוני התרגום - טקסט וציוני התאמה מטושטשת - אשר נבדקים ונערכים ידנית על ידי המתרגמים, בהתבסס על ספי האיכות הרצויים להם. החלת ספים כחלק משלב תרגום המכונה מאפשרת להסיר את השלבים הידניים הללו, מה שמשפר את היעילות ומייעל את העלות.
הפתרון המוצג בפוסט זה מאפשר לך לאכוף כללים המבוססים על ספי ציון איכות התאמה כדי לקבוע אם טקסט קלט נתון צריך להיות מתורגם במכונה על ידי Amazon Translate או לא. כאשר אינו מתורגם במכונה, הטקסט המתקבל נותר לשיקולם של המתרגמים הבודקים את הפלט הסופי.
אדריכלות פתרונות
ארכיטקטורת הפתרון המוצגת באיור 2 ממנפת את השירותים הבאים:
- שירות אחסון פשוט של אמזון – דליים של אמזון S3 מכילים את התוכן הבא:
- קבצי תצורה של סף התאמה מטושטשת
- טקסט מקור לתרגום
- Amazon Translate מיקומי קלט ופלט של נתונים
- מנהל מערכות AWS - אנו משתמשים חנות פרמטרים פרמטרים לאחסון ערכי תצורת סף איכות התאמה
- AWS למבדה - אנו משתמשים בשתי פונקציות למבדה:
- פונקציה אחת מעבדת מראש את קובצי התצורה של סף התאמת האיכות ומחזיקה את הנתונים ב-Parameter Store
- פונקציה אחת יוצרת אוטומטית את עבודות התרגום האסינכרוניות
- שירות תורים פשוט של אמזון - תור SQS של אמזון מפעיל את זרימת התרגום כתוצאה מקבצים חדשים שנכנסים לדלי המקור
תחילה אתה מגדיר ספי איכות עבור עבודות התרגום שלך על ידי עריכת קובץ תצורה והעלאתו לדלי S3 של תצורת סף ההתאמה המטושטשת. להלן תצורה לדוגמה בפורמט CSV. בחרנו ב-CSV למען הפשטות, אם כי ניתן להשתמש בכל פורמט. כל שורה מייצגת סף שיש להחיל על עבודת תרגום ספציפית או כערך ברירת מחדל לכל עבודה.
המפרטים של קובץ התצורה הם כדלקמן:
- עמודה 1 צריכה להיות מאוכלסת בשם של קובץ XLIFF - ללא סיומת - המסופק לעבודת Amazon Translate כנתוני קלט.
- עמודה 2 צריכה להיות מאוכלסת עם סף אחוזי ההתאמה לאיכות. עבור כל ניקוד מתחת לערך זה, נעשה שימוש בתרגום מכונה.
- עבור כל קבצי XLIFF ששמם אינו תואם לאף שם המופיע בקובץ התצורה, נעשה שימוש בסף ברירת המחדל - השורה עם מילת המפתח
default
מתרחש בעמודה 1.
כאשר קובץ חדש מועלה, Amazon S3 מפעיל את פונקציית Lambda שאחראית על עיבוד הפרמטרים. פונקציה זו קוראת ומאחסנת את פרמטרי הסף ב-Parameter Store לשימוש עתידי. השימוש ב-Parameter Store מונע ביצוע בקשות מיותרות של Amazon S3 GET בכל פעם שמתחילה עבודת תרגום חדשה. קובץ התצורה לדוגמה מייצר את תגי הפרמטרים המוצגים בצילום המסך הבא.
פונקציית אתחול העבודה Lambda משתמשת בפרמטרים אלה כדי לעבד מראש את הנתונים לפני הפעלת Amazon Translate. אנו משתמשים בקובץ קלט XLIFF בתרגום מאנגלית לספרדית, כפי שמוצג בקוד הבא. הוא מכיל את הטקסט הראשוני לתרגום, בחלוקה למה שמכונה מגזרים, מיוצג בתגי המקור.
טקסט המקור הותאם מראש לזיכרון התרגום. הנתונים מכילים חלופות תרגום אפשריות - המיוצגות כ <alt-trans>
תגיות - לצד תכונת איכות התאמה, מבוטאת באחוזים. הכלל העסקי הוא כדלקמן:
- פלחים שהתקבלו עם תרגומים חלופיים ואיכות התאמה מתחת לסף אינם נגועים או ריקים. זה מסמן לאמזון טרנסלייט שהם חייבים להיות מתורגמים.
- פלחים שהתקבלו עם תרגומים חלופיים עם איכות התאמה מעל הסף מאוכלסים מראש בטקסט היעד המוצע. Amazon Translate מדלגת על הקטעים האלה.
נניח שסף התאמת האיכות שהוגדר עבור עבודה זו הוא 80%. הפלח הראשון עם איכות התאמה של 99% אינו מתורגם במכונה, ואילו הפלח השני מתורגם בגלל איכות ההתאמה שלו מתחת לסף שהוגדר. בתצורה זו, Amazon Translate מפיקה את הפלט הבא:
בקטע השני, Amazon Translate מחליפה את טקסט היעד שהוצע בתחילה (Selección
) עם תרגום באיכות גבוהה יותר: Visita de selección
.
הרחבה אפשרית אחת למקרה השימוש הזה יכולה להיות שימוש חוזר בפלט המתורגם וליצור זיכרון תרגום משלנו. Amazon Translate תומכת בהתאמה אישית של תרגום מכונה באמצעות זיכרון תרגום הודות ל- נתונים מקבילים תכונה. לאחר מכן ניתן יהיה לעשות שימוש חוזר בקטעי טקסט שתורגמו בעבר במכונה בשל ציון האיכות הנמוך שלהם בפרויקטים חדשים של תרגום.
בסעיפים הבאים, אנו מדריכים אותך בתהליך של פריסה ובדיקת פתרון זה. אתה משתמש AWS CloudFormation סקריפטים ודגימות נתונים כדי להשיק עבודת תרגום אסינכרונית המותאמת אישית עם סף התאמה איכותי שניתן להגדרה.
תנאים מוקדמים
עבור הדרכה זו, אתה חייב להיות חשבון AWS. אם אין לך עדיין חשבון, אתה יכול ליצור ולהפעיל אחד.
הפעל את ערימת AWS CloudFormation
- בחרו השקת ערימה:
- בעד שם ערימה, הכנס שם.
- בעד ConfigBucketName, הזן את דלי S3 המכיל את קבצי תצורת הסף.
- בעד ParameterStoreRoot, הזן את נתיב השורש של הפרמטרים שנוצרו על ידי פונקציית עיבוד הפרמטרים Lambda.
- בעד שם תור, היכנס לתור SQS שאתה יוצר כדי לפרסם הודעות על קבצים חדשים מדלי המקור לפונקציית אתחול העבודות Lambda. זוהי הפונקציה שקוראת את קובץ התצורה.
- בעד SourceBucketName, הזן את דלי S3 המכיל את קבצי XLIFF לתרגום. אם אתה מעדיף להשתמש בדלי קיים, עליך לשנות את הערך של הפרמטר CreateSourceBucket ל-No.
- בעד WorkingBucketName, הזן את דלי ה-S3 שבו Amazon Translate משתמשת עבור נתוני קלט ופלט.
- בחרו הַבָּא.
- אופציונלי על לערום אפשרויות עמוד, הוסף שמות מפתח וערכים עבור התגים שאולי תרצה להקצות למשאבים שעומדים להיווצר.
- בחרו הַבָּא.
- על סקירה , בחר אני מכיר בכך שתבנית זו עלולה לגרום ל-AWS CloudFormation ליצור משאבי IAM.
- עיין בהגדרות האחרות ולאחר מכן בחר צור ערימה.
ל-AWS CloudFormation לוקח מספר דקות ליצור את המשאבים בשמך. אתה יכול לצפות בהתקדמות ב אירועים הכרטיסייה במסוף AWS CloudFormation. כאשר הערימה נוצרה, אתה יכול לראות א CREATE_COMPLETE
הודעה ב מצב העמודה על סקירה כללית TAB.
בדוק את הפתרון
בואו נעבור על דוגמה פשוטה.
- הורד את הפריטים הבאים נתונים לדוגמא.
- פתח את התוכן.
צריכים להיות שני קבצים: קובץ .xlf בפורמט XLIFF וקובץ תצורת סף עם הסיומת .cfg. להלן קטע מקובץ XLIFF.
- בקונסולת Amazon S3, העלה את קובץ תצורת סף האיכות לדלי התצורה שציינת קודם לכן.
הערך שנקבע עבור test_En_to_Fr
הוא 75%. אתה אמור להיות מסוגל לראות את הפרמטרים במסוף מנהל המערכות בקטע מאגר פרמטרים.
- עדיין בקונסולת Amazon S3, העלה את קובץ ה-.xlf לדלי S3 שהגדרת כמקור. ודא שהקובץ נמצא תחת תיקיה בשם
translate
(לדוגמה,<my_bucket>/translate/test_En_to_Fr.xlf
).
זה מתחיל את זרימת התרגום.
- פתח את קונסולת Amazon Translate.
עבודה חדשה אמורה להופיע עם הסטטוס 'בביצוע'.
- לאחר השלמת העבודה, לחץ על הקישור של המשרה ועיין בפלט. כל הקטעים היו צריכים להיות מתורגמים.
כל הקטעים היו צריכים להיות מתורגמים. בקובץ XLIFF המתורגם, חפש קטעים עם תכונות נוספות בשם lscustom:match-quality
, כפי שמוצג בצילום המסך הבא. מאפיינים מותאמים אישית אלו מזהים פלחים שבהם התרגום המוצע נשמר על סמך הניקוד.
אלה נגזרו מזיכרון התרגום לפי סף האיכות. כל שאר הקטעים תורגמו במכונה.
כעת פרסת ובדקת עוזר לעבודות תרגום אסינכרוני אוטומטי אשר אוכף ספי איכות התאמה של זיכרון תרגום הניתן להגדרה. עבודה טובה!
ניקוי
אם פרסת את הפתרון בחשבון שלך, אל תשכח למחוק את מחסנית CloudFormation כדי למנוע כל עלות בלתי צפויה. אתה צריך לרוקן את הדליים S3 באופן ידני לפני כן.
סיכום
בפוסט זה, למדת כיצד להתאים אישית את עבודות התרגום שלך ב-Amazon Translate בהתבסס על מדדי איכות תואמים סטנדרטיים של XLIFF. עם פתרון זה, אתה יכול להפחית במידה ניכרת את העבודה הידנית הכרוכה בבדיקת טקסט מתורגם במכונה, תוך אופטימיזציה של השימוש שלך באמזון Translate. אתה יכול גם להרחיב את הפתרון עם יכולות אוטומציה של קליטת נתונים ותזמור זרימת עבודה, כמתואר ב האיץ עבודות תרגום עם עוזר מערכת תרגום אוטומטי לחלוטין.
על הכותבים
נרסיס זקפה הוא אדריכל פתרונות שבסיסו בבוסטון. הוא עוזר ללקוחות בצפון מזרח ארה"ב להאיץ את האימוץ שלהם של AWS Cloud, על ידי מתן הנחיות ארכיטקטוניות, עיצוב פתרונות חדשניים וניתנים להרחבה. כשנרסיס לא בונה, הוא נהנה לבלות עם משפחתו, לטייל, לבשל ולשחק כדורסל.
דימיטרי רסטינו הוא אדריכל פתרונות ב-AWS, שבסיסו מברוקלין, ניו יורק. הוא עובד בעיקר עם חברות שירותי בריאות ושירותים פיננסיים בצפון המזרח, ועוזר לעצב פתרונות חדשניים ויצירתיים כדי לשרת את לקוחותיהם בצורה הטובה ביותר. כשהוא מגיע מרקע של פיתוח תוכנה, הוא נרגש מהאפשרויות החדשות שטכנולוגיה ללא שרת יכולה להביא לעולם. מחוץ לעבודה, הוא אוהב לטייל ולחקור את סצנת האוכל של ניו יורק.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- אודות
- להאיץ
- פי
- חֶשְׁבּוֹן
- מדויק
- להשיג
- נוסף
- אימוץ
- תעשיות
- חלופה
- למרות
- אמזון בעברית
- מריחה
- אדריכלי
- ארכיטקטורה
- עוזר
- תכונות
- אוטומטי
- אוטומציה
- זמין
- AWS
- רקע
- כדורסל
- להיות
- להלן
- הטוב ביותר
- מעבר
- גבול
- בוסטון
- בִּניָן
- עסקים
- יכולות
- לגרום
- מסוים
- שינוי
- תשלום
- בחרו
- ענן
- קוד
- טור
- מגיע
- חברות
- תְצוּרָה
- הסכמה
- קונסול
- מכיל
- תוכן
- יכול
- לִיצוֹר
- נוצר
- יוצר
- יְצִירָתִי
- קריטי
- מנהג
- לקוחות
- נתונים
- מסד נתונים
- נתן
- פרס
- פריסה
- מְתוּאָר
- עיצוב
- צעצועי התפתחות
- אחר
- שיקול דעת
- לא
- מטה
- נהיגה
- יְעִילוּת
- אנגלית
- זן
- דוגמה
- חליפין
- נרגש
- לצפות
- לחקור
- ביטא
- להאריך
- משפחה
- מאפיין
- תרשים
- כספי
- שירותים פיננסיים
- פירמה
- ראשון
- תזרים
- הבא
- כדלקמן
- מזון
- פוּרמָט
- מצא
- צרפתית
- פונקציה
- פונקציות
- עתיד
- גדול
- מאוד
- קְבוּצָה
- הנחיות
- בריאות
- עזרה
- עוזר
- גבוה יותר
- מאוד
- איך
- איך
- HTTPS
- רעיון
- לזהות
- זיהוי
- חשוב
- לכלול
- מידע
- חדשני
- קלט
- מעורב
- IT
- עבודה
- מקומות תעסוקה
- מפתח
- ידוע
- עבודה
- שפה
- לשגר
- לִלמוֹד
- למד
- מנופים
- קו
- קשר
- ברשימה
- מכונה
- ניהול
- מנהל
- מדריך ל
- באופן ידני
- להתאים
- תואם
- זכרון
- מדדים
- יכול
- יותר
- שמות
- ניו יורק
- צפון
- ניו יורק
- מיטוב
- אפשרות
- תזמור
- אחר
- שֶׁלוֹ
- חלק
- אחוזים
- ביצוע
- אישית
- משחק
- אפשרויות
- אפשרי
- פוטנציאל
- קודם
- יְסוֹדִי
- תהליך
- תהליכים
- תהליך
- מיוצר
- מקצועי
- פרויקטים
- מתן
- איכות
- קיבלו
- להפחית
- מיוצג
- מייצג
- בקשות
- דרישות
- משאבים
- תוצאות
- סקירה
- כללי
- להרחבה
- סצינה
- חיפוש
- קטע
- מגזרים
- ללא שרת
- שירותים
- סט
- הראה
- פָּשׁוּט
- תוכנה
- פיתוח תוכנה
- מוצק
- פִּתָרוֹן
- פתרונות
- מפרטים
- הוצאה
- לערום
- תֶקֶן
- התחלות
- מצב
- אחסון
- חנות
- חנויות
- תומך
- מערכת
- מערכות
- יעד
- טכנולוגיה
- בדיקות
- המקור
- העולם
- סף
- דרך
- זמן
- תרגום
- נסיעה
- לָנוּ
- ייחודי
- להשתמש
- ערך
- שעון
- מה
- מה
- אם
- בזמן
- מי
- בתוך
- תיק עבודות
- עובד
- עוֹלָם
- XML