לצלול לתוך למידה עמוקה (D2L.ai) הוא ספר לימוד בקוד פתוח שמנגיש למידה עמוקה לכולם. הוא כולל מחברות Jupyter אינטראקטיביות עם קוד עצמאי ב-PyTorch, JAX, TensorFlow ו-MXNet, כמו גם דוגמאות מהעולם האמיתי, דמויות תערוכות ומתמטיקה. עד כה, D2L אומצה על ידי יותר מ-400 אוניברסיטאות ברחבי העולם, כמו אוניברסיטת קיימברידג', אוניברסיטת סטנפורד, המכון הטכנולוגי של מסצ'וסטס, אוניברסיטת קרנגי מלון ואוניברסיטת טסינגואה. עבודה זו זמינה גם בסינית, יפנית, קוריאנית, פורטוגזית, טורקית וויאטנמית, עם תוכניות להשיק ספרדית ושפות אחרות.
זהו מאמץ מאתגר להחזיק ספר מקוון שמתעדכן כל הזמן, נכתב על ידי מספר מחברים וזמין במספר שפות. בפוסט זה, אנו מציגים פתרון ש-D2L.ai השתמש בו כדי להתמודד עם האתגר הזה על ידי שימוש ב- תכונת תרגום מותאם אישית פעיל (ACT). of אמזון תרגם ובניית צינור תרגום אוטומטי רב לשוני.
אנו מדגימים כיצד להשתמש ב- קונסולת הניהול של AWS ו Amazon Translate API ציבורי לספק תרגום אצווה אוטומטי למכונה ולנתח את התרגומים בין שני צמדי שפות: אנגלית וסינית ואנגלית וספרדית. אנו ממליצים גם על שיטות עבודה מומלצות בעת שימוש ב-Amazon Translate בצינור התרגום האוטומטי הזה כדי להבטיח איכות ויעילות תרגום.
סקירת פתרונות
בנינו צינורות תרגום אוטומטיים למספר שפות באמצעות תכונת ACT ב-Amazon Translate. ACT מאפשר לך להתאים אישית את פלט התרגום על ידי מתן דוגמאות תרגום מותאמות בצורה של נתונים מקבילים. נתונים מקבילים מורכבים מאוסף של דוגמאות טקסטואליות בשפת מקור ומהתרגומים הרצויים בשפת יעד אחת או יותר. במהלך התרגום, ACT בוחר אוטומטית את המקטעים הרלוונטיים ביותר מהנתונים המקבילים ומעדכן את מודל התרגום תוך כדי תנועה בהתבסס על צמדי הפלחים הללו. זה מביא לתרגומים התואמים טוב יותר את הסגנון והתוכן של הנתונים המקבילים.
הארכיטקטורה מכילה מספר תת-צינורות; כל תת-צינור מטפל בתרגום שפה אחת כמו אנגלית לסינית, אנגלית לספרדית וכן הלאה. ניתן לעבד מספר תת-צינורות תרגום במקביל. בכל תת-צינור, אנו בונים תחילה את הנתונים המקבילים באמזון Translate באמצעות מערך הנתונים האיכותי של דוגמאות תרגום זנבות מספרי D2L שתורגמו על ידי אדם. לאחר מכן אנו מייצרים את הפלט המותאם אישית של תרגום מכונה תוך כדי ריצה, מה שמביא לאיכות ודיוק טובים יותר.
בסעיפים הבאים, אנו מדגימים כיצד לבנות כל צינור תרגום באמצעות Amazon Translate עם ACT, יחד עם אמזון SageMaker ו שירות אחסון פשוט של אמזון (אמזון S3).
ראשית, שמנו את מסמכי המקור, מסמכי ההתייחסות וערכת אימון הנתונים המקבילים בדלי S3. לאחר מכן אנו בונים מחברות Jupyter ב- SageMaker כדי להפעיל את תהליך התרגום באמצעות ממשקי API ציבוריים של Amazon Translate.
תנאים מוקדמים
כדי לבצע את השלבים בפוסט זה, ודא שיש לך חשבון AWS עם הפרטים הבאים:
- גישה ל AWS זהות וניהול גישה (IAM) לתצורת תפקיד ומדיניות
- גישה ל-Amazon Translate, SageMaker ו-Amazon S3
- דלי S3 לאחסון מסמכי המקור, מסמכי הפניה, מערך נתונים מקבילים ופלט של תרגום
צור תפקיד ומדיניות IAM עבור Amazon Translate עם ACT
תפקיד IAM שלנו צריך להכיל מדיניות אמון מותאמת אישית עבור Amazon Translate:
לתפקיד זה חייבת להיות גם מדיניות הרשאות המעניקה ל-Amazon Translate גישת קריאה לתיקיית הקלט ולתיקיות המשנה ב-Amazon S3 המכילות את מסמכי המקור, וכן גישת קריאה/כתיבה לדלי ולתיקיה של הפלט S3 המכילים את המסמכים המתורגמים:
כדי להפעיל מחברות Jupyter ב- SageMaker עבור עבודות התרגום, עלינו להעניק מדיניות הרשאות מוטבעת לתפקיד הביצוע של SageMaker. תפקיד זה מעביר את תפקיד שירות Amazon Translate ל-SageMaker המאפשר למחברות של SageMaker לקבל גישה למסמכי המקור ולמסמכים המתורגמים בדליים המיועדים ל-S3:
הכן דוגמאות לאימון נתונים מקבילים
הנתונים המקבילים ב-ACT צריכים להיות מאומנים על ידי קובץ קלט המורכב מרשימה של צמדי דוגמאות טקסטואליות, למשל, זוג של שפת מקור (אנגלית) ושפת יעד (סינית). קובץ הקלט יכול להיות בפורמט TMX, CSV או TSV. צילום המסך הבא מציג דוגמה לקובץ קלט CSV. העמודה הראשונה היא נתוני שפת המקור (באנגלית), והעמודה השנייה היא נתוני שפת היעד (בסינית). הדוגמה הבאה מופקת מהספר D2L-en ו-D2L-zh book.
בצע אימון נתונים מקבילים בהתאמה אישית באמזון טרנסלייט
ראשית, הגדרנו את הדלי והתיקיות של S3 כפי שמוצג בצילום המסך הבא. ה source_data
התיקייה מכילה את מסמכי המקור לפני התרגום; המסמכים שנוצרו לאחר תרגום האצווה מוכנסים לתיקיית הפלט. ה ParallelData
התיקיה מכילה את קובץ קלט הנתונים המקביל שהוכן בשלב הקודם.
לאחר העלאת קבצי הקלט ל- source_data
תיקייה, נוכל להשתמש ב- CreateParallelData API כדי להפעיל עבודת יצירת נתונים מקבילה באמזון Translate:
כדי לעדכן נתונים מקבילים קיימים עם מערכי נתונים חדשים להדרכה, אנו יכולים להשתמש ב- UpdateParallelData API:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
אנחנו יכולים לבדוק את התקדמות עבודת ההדרכה בקונסולת Amazon Translate. כאשר העבודה הושלמה, מצב הנתונים המקביל יראה כ Active והוא מוכן לשימוש.
הפעל תרגום אצווה לא מסונכרן באמצעות נתונים מקבילים
תרגום האצווה יכול להתבצע בתהליך שבו מספר מסמכי מקור מתורגמים אוטומטית למסמכים בשפות יעד. התהליך כולל העלאת מסמכי המקור לתיקיית הקלט של דלי S3, ואז החלת StartTextTranslationJob API של Amazon Translate ליזום עבודת תרגום לא מסונכרנת:
בחרנו חמישה מסמכי מקור באנגלית מהספר D2L (D2L-en) לתרגום בכמות גדולה. בקונסולת Amazon Translate, אנו יכולים לעקוב אחר התקדמות עבודת התרגום. כאשר מצב המשרה משתנה ל השלמת, נוכל למצוא את המסמכים המתורגמים בסינית (D2L-zh) בתיקיית הפלט של דלי S3.
הערך את איכות התרגום
כדי להדגים את האפקטיביות של תכונת ה-ACT ב-Amazon Translate, יישמנו גם את השיטה המסורתית של תרגום בזמן אמת של Amazon Translate ללא נתונים מקבילים לעיבוד אותם מסמכים, והשווינו את הפלט עם פלט התרגום האצווה עם ACT. השתמשנו בציון BLEU (BiLingual Evaluation Understudy) כדי לסמן את איכות התרגום בין שתי השיטות. הדרך היחידה למדוד במדויק את איכות הפלט של תרגום מכונה היא לערוך סקירת מומחה ולדרג את האיכות. עם זאת, BLEU מספק אומדן של שיפור איכות יחסי בין שתי תפוקות. ציון BLEU הוא בדרך כלל מספר בין 0-1; הוא מחשב את הדמיון של התרגום המכונה לתרגום האנושי הייחוס. הציון הגבוה יותר מייצג איכות טובה יותר בהבנת השפה הטבעית (NLU).
בדקנו קבוצה של מסמכים בארבעה קווים: אנגלית לסינית (en to zh), סינית לאנגלית (zh to en), אנגלית לספרדית (en to es), וספרדית לאנגלית (es to en). האיור הבא מראה שהתרגום עם ACT הניב ציון BLEU ממוצע גבוה יותר בכל צינורות התרגום.
כמו כן, ראינו שככל שצמדי הנתונים המקבילים מפורטים יותר, כך ביצועי התרגום טובים יותר. לדוגמה, אנו משתמשים בקובץ קלט הנתונים המקביל הבא עם זוגות של פסקאות, המכיל 10 ערכים.
עבור אותו תוכן, אנו משתמשים בקובץ קלט הנתונים המקביל הבא עם זוגות משפטים ו-16 ערכים.
השתמשנו בשני קבצי קלט הנתונים המקבילים כדי לבנות שתי ישויות נתונים מקבילות ב-Amazon Translate, ולאחר מכן יצרנו שתי עבודות תרגום אצווה עם אותו מסמך מקור. האיור הבא משווה את תרגומי הפלט. זה מראה שהפלט שמשתמש בנתונים מקבילים עם זוגות משפטים עלה על זה שמשתמש בנתונים מקבילים עם זוגות של פסקאות, הן עבור תרגום מאנגלית לסינית והן עבור תרגום מסינית לאנגלית.
אם אתה מעוניין ללמוד עוד על ניתוחי המדדים הללו, עיין ב תרגום מכונה אוטומטי וסנכרון עבור "צלול לתוך למידה עמוקה".
לנקות את
כדי למנוע עלויות חוזרות ונשנות בעתיד, אנו ממליצים לנקות את המשאבים שיצרת:
- במסוף Amazon Translate, בחר את הנתונים המקבילים שיצרת ובחר מחק. לחלופין, אתה יכול להשתמש ב- DeleteParallelData API או ממשק שורת הפקודה של AWS (AWS CLI) מחיקת-מקביל-נתונים פקודה למחיקת הנתונים המקבילים.
- מחק את דלי S3 משמש לארח את מסמכי המקור וההפניה, מסמכים מתורגמים וקבצי קלט נתונים מקבילים.
- מחק את התפקיד והמדיניות של IAM. להנחיות, עיין ב מחיקת תפקידים או פרופילי מופע ו מחיקת מדיניות IAM.
סיכום
עם פתרון זה, אנו שואפים להפחית את עומס העבודה של מתרגמים אנושיים ב-80%, תוך שמירה על איכות התרגום ותמיכה במספר שפות. אתה יכול להשתמש בפתרון זה כדי לשפר את איכות ויעילות התרגום שלך. אנו עובדים על שיפור נוסף של ארכיטקטורת הפתרון ואיכות התרגום לשפות אחרות.
המשוב שלך תמיד יתקבל בברכה; אנא השאר את המחשבות והשאלות שלך בקטע ההערות.
על המחברים
יונפאי באי הוא אדריכל פתרונות בכיר ב-AWS. עם רקע ב-AI/ML, מדעי נתונים וניתוח, Yunfei עוזרת ללקוחות לאמץ שירותי AWS כדי לספק תוצאות עסקיות. הוא מעצב פתרונות AI/ML וניתוח נתונים שמתגברים על אתגרים טכניים מורכבים ומניעים יעדים אסטרטגיים. ליונפיי יש דוקטורט בהנדסת אלקטרוניקה וחשמל. מחוץ לעבודה, יונפיי נהנית מקריאה ומוזיקה.
רייצ'ל הו הוא מדען יישומי באוניברסיטת AWS למידת מכונה (MLU). היא הובילה כמה עיצובי קורסים, כולל ML Operations (MLOps) ו-Accelerator Computer Vision. רייצ'ל היא דוברת בכירה של AWS ודיברה בכנסים מובילים כולל AWS re:Invent, NVIDIA GTC, KDD ו-MLOps Summit. לפני שהצטרפה ל-AWS, רייצ'ל עבדה כמהנדסת למידת מכונה בונה מודלים לעיבוד שפה טבעית. מחוץ לעבודה, היא נהנית יוגה, פריזבי אולטימטיבי, קריאה ומטיילים.
ווטסון סריבתסן הוא מנהל המוצר הראשי של Amazon Translate, שירות עיבוד השפה הטבעית של AWS. בסופי שבוע, תמצאו אותו חוקר בחיק הטבע בצפון מערב האוקיינוס השקט.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- EVM Finance. ממשק מאוחד למימון מבוזר. גישה כאן.
- Quantum Media Group. IR/PR מוגבר. גישה כאן.
- PlatoAiStream. Web3 Data Intelligence. הידע מוגבר. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- :יש ל
- :הוא
- :איפה
- $ למעלה
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- אודות
- מאיץ
- גישה
- נגיש
- חֶשְׁבּוֹן
- דיוק
- במדויק
- משיגה
- לפעול
- פעולה
- פעיל
- כתובת
- לְאַמֵץ
- מאומץ
- לאחר
- AI
- AI / ML
- המטרה
- תעשיות
- להתיר
- מאפשר
- לאורך
- גם
- תמיד
- אמזון בעברית
- אמזון תרגם
- אמזון שירותי אינטרנט
- an
- מנתח
- ניתוח
- לנתח
- ו
- ממשקי API
- יישומית
- מריחה
- ארכיטקטורה
- ARE
- סביב
- AS
- At
- מחברים
- המכונית
- מכני עם סלילה אוטומטית
- באופן אוטומטי
- זמין
- מְמוּצָע
- לְהִמָנַע
- AWS
- למידת מכונות AWS
- AWS re: המצאה
- רקע
- מבוסס
- BE
- היה
- לפני
- בנצ 'מרק
- הטוב ביותר
- שיטות עבודה מומלצות
- מוטב
- בֵּין
- ספר
- ספרים
- שניהם
- לִבנוֹת
- בִּניָן
- נבנה
- עסקים
- by
- מחשב
- קיימברידג'
- CAN
- קרנגי מלון
- לאתגר
- האתגרים
- אתגר
- שינויים
- לבדוק
- סינית
- בחרו
- קוד
- אוסף
- טור
- COM
- הערות
- לעומת
- להשלים
- מורכב
- המחשב
- ראייה ממוחשבת
- מנוהל
- כנסים
- מורכב
- מורכב
- קונסול
- לבנות
- להכיל
- מכיל
- תוכן
- ברציפות
- עלויות
- קורס
- נוצר
- יצירה
- מנהג
- לקוחות
- אישית
- אישית
- נתונים
- ניתוח נתונים
- מדע נתונים
- מערכי נתונים
- תַאֲרִיך
- עמוק
- למידה עמוקה
- מוגדר
- למסור
- להפגין
- תיאור
- יעוד
- עיצובים
- רצוי
- מסמך
- מסמכים
- נהיגה
- בְּמַהֲלָך
- כל אחד
- השפעה
- יְעִילוּת
- יְעִילוּת
- אֶלֶקטרוֹנִי
- מאמץ
- מהנדס
- הנדסה
- אנגלית
- לְהַבטִיחַ
- ישויות
- לְהַעֲרִיך
- הערכה
- כולם
- דוגמה
- דוגמאות
- הוצאת להורג
- קיימים
- מומחה
- היכרות
- רחוק
- מאפיין
- תכונות
- מָשׁוֹב
- מעטים
- תרשים
- דמויות
- שלח
- קבצים
- ראשון
- לעקוב
- הבא
- בעד
- טופס
- פוּרמָט
- ארבע
- החל מ-
- נוסף
- עתיד
- ליצור
- נוצר
- ציון
- להעניק
- מענקים
- מטפל
- יש
- he
- עוזר
- באיכות גבוהה
- גבוה יותר
- לו
- מחזיק
- המארח
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- בן אנוש
- זהות
- לשפר
- השבחה
- שיפור
- in
- כולל
- ליזום
- קלט
- למשל
- מכון
- הוראות
- אינטראקטיבי
- מעוניין
- אל תוך
- IT
- יפני
- עבודה
- מקומות תעסוקה
- הצטרפות
- jpg
- שמר
- קוריאני
- שפה
- שפות
- לשגר
- מוביל
- למידה
- יציאה
- קו
- רשימה
- מכונה
- למידת מכונה
- עשוי
- שמירה
- לעשות
- עושה
- ניהול
- מנהל
- מסצ'וסטס
- המכון הטכנולוגי של מסצ'וסטס
- להתאים
- מתמטיקה
- למדוד
- מלון
- שיטה
- שיטות
- ML
- MLOps
- מודל
- מודלים
- צג
- יותר
- רוב
- מספר
- כלי נגינה
- צריך
- שם
- טבעי
- עיבוד שפה טבעית
- צורך
- צרכי
- חדש
- מספר
- Nvidia
- יעדים
- of
- on
- ONE
- באינטרנט
- רק
- קוד פתוח
- תפעול
- or
- אחר
- בחוץ
- תפוקה
- בחוץ
- להתגבר על
- פסיפיק
- זוג
- זוגות
- מקביל
- מעברי
- ביצועים
- רשות
- הרשאות
- צינור
- תוכניות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אנא
- מדיניות
- מדיניות
- פורטוגזי
- הודעה
- פרקטיקות
- מוּכָן
- להציג
- קודם
- מנהל
- תהליך
- מעובד
- תהליך
- מיוצר
- המוצר
- מנהל מוצר
- התקדמות
- מספק
- מתן
- ציבורי
- גם
- פיטורך
- איכות
- שאלות
- RE
- חומר עיוני
- קריאה
- מוכן
- עולם אמיתי
- זמן אמת
- להמליץ
- חוזר
- להפחית
- קרוב משפחה
- רלוונטי
- מייצג
- משאב
- משאבים
- תגובה
- תוצאות
- סקירה
- תפקיד
- תפקידים
- הפעלה
- בעל חכמים
- אותו
- מדע
- מַדְעָן
- ציון
- שְׁנִיָה
- סעיף
- סעיפים
- קטע
- מגזרים
- נבחר
- לחצני מצוקה לפנסיונרים
- שרות
- שירותים
- סט
- היא
- הראה
- הופעות
- פָּשׁוּט
- So
- עד כה
- פִּתָרוֹן
- פתרונות
- מָקוֹר
- ספרדי
- רַמקוֹל
- דיבר
- סטנפורד
- אוניברסיטת סטנפורד
- הצהרה
- מצב
- שלב
- צעדים
- אחסון
- חנות
- אסטרטגי
- סגנון
- כזה
- פסגה
- מסייע
- סִנכְּרוּן
- מותאם
- יעד
- טכני
- טכנולוגיה
- tensorflow
- נבדק
- ספר לימוד
- מֵאֲשֶׁר
- זֶה
- השמיים
- העתיד
- המקור
- העולם
- אז
- אלה
- זֶה
- אלה
- זמן
- ל
- חלק עליון
- מסורתי
- מְאוּמָן
- הדרכה
- לתרגם
- תרגום
- נסיעה
- סומך
- Tsinghua
- תורכי
- שתיים
- בדרך כלל
- האולטימטיבי
- הבנה
- אוניברסיטאות
- אוניברסיטה
- אוניברסיטת קמברידג
- עדכון
- מְעוּדכָּן
- עדכונים
- העלאה
- להשתמש
- מְשׁוּמָשׁ
- באמצעות
- גרסה
- ויאטנמית
- חזון
- ווטסון
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- ברוך הבא
- טוֹב
- מתי
- אשר
- בזמן
- יצטרך
- עם
- לְלֹא
- תיק עבודות
- עבד
- עובד
- עוֹלָם
- כתוב
- יוגה
- אתה
- זפירנט