כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker

כיום נמצאים בשימוש כ-7,000 שפות. למרות הניסיונות בסוף המאה ה-19 להמציא שפות בנויות כמו וולאפוק או אספרנטו, אין שום סימן לאיחוד. אנשים עדיין בוחרים ליצור שפות חדשות (חשבו על דמות הסרט האהובה עליכם שמדברת קלינגונית, דותראקי או אלווית).

כיום, דוגמאות לעיבוד שפה טבעית (NLP) נשלטות על ידי השפה האנגלית, שפת האם של 5% בלבד מהאוכלוסייה האנושית ומדוברת רק על ידי 17%.

השמיים הפרד הדיגיטלי מוגדר כפער בין אלה שיכולים לגשת לטכנולוגיות דיגיטליות לבין אלה שלא. חוסר גישה לידע או השכלה בגלל מחסומי שפה תורם גם לפער הדיגיטלי, לא רק בין אנשים שאינם דוברי אנגלית, אלא גם לאנשים דוברי אנגלית שאין להם גישה לתכנים שאינם אנגלית, אשר מפחית את מגוון המחשבות והידע. יש כל כך הרבה מה ללמוד באופן הדדי.

בפוסט זה, אנו מסכמים את האתגרים של שפות עם משאבים נמוכים ומתנסים בגישות פתרון שונות המכסות למעלה מ-100 שפות באמצעות שנאי Hugging Face ב- Amazon SageMaker.

אנו מכווננים מודלים שונים של שפה מבוססי שנאים שהוכשרו מראש עבור משימה של שאלה ותשובה. אנו משתמשים בטורקית בדוגמה שלנו, אך תוכל ליישם גישה זו על שפה נתמכת אחרת. ההתמקדות שלנו היא בגרסאות BERT [1], כי תכונה נהדרת של BERT היא הארכיטקטורה המאוחדת שלו על פני משימות שונות.

אנו מדגימים מספר יתרונות של שימוש בשנאים של Hugging Face אמזון SageMaker, כגון הדרכה וניסויים בקנה מידה, והגדלת הפרודוקטיביות והעלות-יעילות.

סקירה כללית של NLP

היו מספר התפתחויות מרכזיות ב-NLP מאז 2017. הופעתן של ארכיטקטורות למידה עמוקה כגון שנאים [2], טכניקות הלמידה הבלתי מפוקחות להכשרת מודלים כאלה על מערכי נתונים גדולים במיוחד ולמידה בהעברה שיפרו באופן משמעותי את המצב- אמנות בהבנת שפה טבעית. הגעתם של מוקדי מודל שהוכשרו מראש הפכה את הגישה לדמוקרטיה נוספת לידע הקולקטיבי של קהילת ה-NLP, והסירה את הצורך להתחיל מאפס.

מודל שפה הוא מודל NLP שלומד לחזות את המילה הבאה (או כל מילה במסכה) ברצף. היופי האמיתי של מודלים לשוניים כנקודת מוצא הוא משולש: ראשית, מחקר הראה שמודלים של שפה המאומנים על נתונים של קורפוס טקסט גדול לומדים משמעויות מורכבות יותר של מילים מאשר שיטות קודמות. לדוגמה, כדי להיות מסוגל לחזות את המילה הבאה במשפט, מודל השפה צריך להיות טוב בהבנת ההקשר, הסמנטיקה וגם את הדקדוק. שנית, כדי להכשיר מודל שפה, נתונים מסומנים - שהם נדירים ויקרים - אינם נדרשים במהלך ההכשרה המוקדמת. זה חשוב מכיוון שכמות עצומה של נתוני טקסט ללא תווית זמינה באופן ציבורי באינטרנט בשפות רבות. שלישית, הוכח שברגע שמודל השפה חכם מספיק כדי לחזות את המילה הבאה עבור כל משפט נתון, קל יחסית לבצע משימות NLP אחרות כגון ניתוח סנטימנטים או מענה לשאלות עם מעט מאוד נתונים מסומנים, מכיוון שכוונון עדין של שימוש חוזר ייצוגים ממודל שפה שהוכשר מראש [3].

שירותי NLP מנוהלים במלואם גם האיצו את האימוץ של NLP. אמזון להתבונן הוא שירות מנוהל במלואו המאפשר לניתוח טקסט לחלץ תובנות מתוכן המסמכים, והוא תומך במגוון שפות. Amazon Comprehend תומכת בסיווג מותאם אישית ובזיהוי ישויות מותאם אישית ומאפשרת לך לבנות דגמי NLP מותאמים אישית הספציפיים לדרישות שלך, ללא צורך במומחיות כלשהי ב-ML.

אתגרים ופתרונות לשפות דל משאבים

האתגר העיקרי עבור מספר רב של שפות הוא שיש להן פחות נתונים זמינים יחסית לאימון. אלה נקראים שפות עם משאבים נמוכים. נייר m-BERT [4] ומסמך XLM-R [7] מתייחסים לאורדו ולסוואהילית כשפות בעלות משאבים נמוכים.

האיור הבא מפרט את קודי ה-ISO של למעלה מ-80 שפות, ואת ההבדל בגודל (בסולם יומן) בין שתי ההכשרות העיקריות המקדימות [7]. בוויקיפדיה (כתום), יש רק 18 שפות עם למעלה ממיליון מאמרים ו-1 שפות עם למעלה מ-52 מאמרים, אך 1,000 שפות עם 164-1 מאמרים בלבד [10,000]. קורפוס CommonCrawl (כחול) מגדיל את כמות הנתונים עבור שפות עם משאבים נמוכים בשני סדרי גודל. עם זאת, הם עדיין קטנים יחסית לשפות עתירות משאבים כמו אנגלית, רוסית או גרמנית.

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מבחינת מספרי מאמרים בוויקיפדיה, טורקית היא שפה נוספת באותה קבוצה של למעלה מ-100,000 מאמרים (28), יחד עם אורדו (54). בהשוואה לאורדו, תורכית תיחשב כשפת אמצע משאבים. לטורקית יש כמה מאפיינים מעניינים, שיכולים להפוך את המודלים של השפה לחזקים יותר על ידי יצירת אתגרים מסוימים בבלשנות ובטוקניזציה. זו שפה אגרסיבית. יש לו סדר מילים חופשי מאוד, מורפולוגיה מורכבת, או זמנים ללא מקבילות באנגלית. ניתן לבטא ביטויים שנוצרו ממספר מילים בשפות כמו אנגלית בצורת מילה אחת, כפי שמוצג בדוגמה הבאה.

תורכי אנגלית
חתול חתול
חתולהים חתולs
חתולgilהים משפחה של חתולים
קדיגילריום השתייכות ל משפחה של חתולים
חתולleştirebileceklerimizdenmişçesineyken כשנראה שהאחד הוא אחד מאלה שאנחנו יכולים לעשות חתול

שתי גישות פתרון עיקריות הן מודלים ספציפיים לשפה או מודלים רב לשוניים (עם או בלי פיקוח חוצה שפות):

  • מודלים של שפה חד לשונית – הגישה הראשונה היא להחיל וריאנט BERT על שפת יעד ספציפית. ככל שיותר נתוני האימון, כך ביצועי המודל טובים יותר.
  • מודלים של שפת מסכות רב לשונית – הגישה האחרת היא אימון מראש של דגמי שנאים גדולים בשפות רבות. מודלים של שפות רב-לשוניות שואפת לפתור את אתגר המחסור בנתונים עבור שפות עם משאבים נמוכים על ידי אימון מקדים במספר רב של שפות, כך שניתן להעביר משימות NLP שנלמדו משפה אחת לשפות אחרות. מודלים של שפה מסכת רב-לשונית (MLMs) דחפו את הטכנולוגיה המתקדמת במשימות הבנה חוצות-לשוניות. שתי דוגמאות הן:
    • BERT רב לשוני – מודל BERT הרב לשוני הוכשר ב-104 שפות שונות באמצעות קורפוס ויקיפדיה. עם זאת, הוכח שהוא רק מכליל היטב על פני מבנים לשוניים ומאפיינים טיפולוגיים דומים (לדוגמה, שפות עם סדר מילים דומה). הרב לשוניות שלו פוחתת במיוחד עבור שפות עם סדרי מילים שונים (לדוגמה, נושא/חפץ/פועל) [4].
    • XLM-R – מודלים חוצי-לשוניים (XLMs) מאומנים עם מטרה חוצת-לשונית באמצעות מערכי נתונים מקבילים (אותו טקסט בשתי שפות שונות) או ללא מטרה חוצת-לשונית באמצעות מערכי נתונים חד-לשוניים [6]. מחקרים מראים ששפות בעלות משאבים נמוכים מרוויחות מהתרחבות לשפות נוספות. XLM-RoBERTa הוא מודל מבוסס שנאי בהשראת RoBERTa [5], ונקודת המוצא שלו היא ההצעה ש-BERT ו-XLM הרב-לשוניים אינם מכוונים פחות. הוא מאומן ב-100 שפות תוך שימוש בקורפוס של ויקיפדיה וגם ב-CommonCrawl, כך שכמות נתוני האימון לשפות בעלות משאבים נמוכים גדולה בערך בשני סדרי גודל בהשוואה ל-m-BERT [7].

אתגר נוסף של מודלים של שפות רב-לשוניות עבור שפות בעלות משאבים נמוכים הוא גודל אוצר המילים והאסימון. מכיוון שכל השפות משתמשות באותו אוצר מילים משותף במודלים של שפות רב-לשוניות, ישנו פשרות בין הגדלת גודל אוצר המילים (מה שמגדיל את דרישות המחשוב) לעומת הקטנתו (מילים שאינן נוכחות באוצר המילים יסומנו כלא ידועות, או שימוש בתווים. במקום מילים כאסימונים יתעלמו מכל מבנה). אלגוריתם האסימונים של מילה משלב את היתרונות של שתי הגישות. לדוגמה, הוא מטפל ביעילות במילים מחוץ לאוצר המילים על ידי פיצול המילה למילות משנה עד שהיא נוכחת באוצר המילים או עד שמגיעים לדמות הבודדת. טוקניזציה מבוססת תווים אינה שימושית במיוחד למעט שפות מסוימות, כגון סינית. קיימות טכניקות להתמודדות עם אתגרים עבור שפות עם משאבים נמוכים, כגון דגימה עם הפצות מסוימות [6].

הטבלה הבאה מתארת ​​כיצד מתנהגים שלושה אסימונים שונים עבור המילה "kedileri" (כלומר "החתולים שלה"). עבור שפות מסוימות ומשימות NLP, זה יעשה את ההבדל. לדוגמה, עבור משימת המענה לשאלות, המודל מחזיר את טווח האינדקס של אסימון ההתחלה ואינדקס אסימון הסוף; החזרת "kediler" ("חתולים") או "kedileri" ("החתולים שלו") תאבד קצת הקשר ותוביל לתוצאות הערכה שונות עבור מדדים מסוימים.

דגם מאומן מראש גודל אוצר המילים אסימון עבור "Kedileri"*
dbmdz/bert-base-turkish-uncased 32,000 מטבעות [CLS] חתולים ##אני [SEP]
קלט מזהים 2 23714 1023 3
bert-base-multilingual-uncased 105,879 מטבעות [CLS] ked ##iler ##אני [SEP]
קלט מזהים 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 מטבעות קה di leri
קלט מזהים 0 1345 428 1341 .
*באנגלית: (Its) cats

לכן, למרות ששפות בעלות משאבים נמוכים נהנות ממודלים של שפה רב-לשונית, ביצוע טוקניזציה על פני אוצר מילים משותף עשוי להתעלם ממאפיינים לשוניים מסוימים עבור שפות מסוימות.

בסעיף הבא, אנו משווים שלוש גישות על ידי כוונון עדין עבור משימת תשובות לשאלות באמצעות מערך נתונים של QA עבור טורקית: BERTurk [8], BERT רב לשוני [4] ו-XLM-R [7].

סקירת פתרונות

זרימת העבודה שלנו היא כדלקמן:

  1. הכן את מערך הנתונים ב-an סטודיו SageMaker של אמזון סביבת המחברת ולהעלות אותה אליה שירות אחסון פשוט של אמזון (אמזון S3).
  2. הפעל משרות הדרכה מקבילות ב- SageMaker הדרכה מכולות ללמידה עמוקה על ידי אספקת התסריט לכוונון העדין.
  3. אסוף מטא נתונים מכל ניסוי.
  4. השוו תוצאות וזיהוי המודל המתאים ביותר.

התרשים הבא ממחיש את ארכיטקטורת הפתרונות.

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

למידע נוסף על מחברות Studio, עיין ב צלול עמוק לתוך ארכיטקטורת אמזון SageMaker Studio Notebooks. למידע נוסף על האופן שבו Hugging Face משולב עם SageMaker, עיין AWS ו- Hugging Face משתפים פעולה בכדי לפשט ולהאיץ אימוץ מודלים לעיבוד שפה טבעית.

הכן את מערך הנתונים

ספריית Hugging Face Datasets מספקת שיטות עיבוד נתונים חזקות כדי להכין במהירות מערך נתונים להדרכה במודל למידה עמוקה. הקוד הבא טוען את מערך הנתונים של QA טורקי וחוקר מה יש בפנים:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

יש כ-9,000 דגימות.

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מערך הנתונים של הקלט הופך מעט לפורמט המצופה על ידי המודלים שהוכשרו מראש ומכיל את העמודות הבאות:

df = pd.DataFrame(ds['train'])
df.sample(1)

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
התרגום לאנגלית של הפלט הוא כדלקמן:

  • הקשר – Resit Emre Kongar (נולד ב-13 באוקטובר 1941, איסטנבול), סוציולוג טורקי, פרופסור.
  • שאלה - מהו התואר האקדמי של אמר קונגאר?
  • לענות – פרופסור

כוונון עדין של התסריט

ספריית Hugging Face Transformers מספקת קוד לדוגמה לכוונון עדין של מודל עבור משימת מענה לשאלות, הנקראת run_qa.py. הקוד הבא מאתחל את המאמן:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

בואו נסקור את אבני הבניין ברמה גבוהה.

טוקניזר

הסקריפט טוען אסימון באמצעות ה AutoTokenizer מעמד. ה AutoTokenizer class דואגת להחזיר את האסימון הנכון המתאים לדגם:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

להלן דוגמה לאופן פעולת הטוקנייזר:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מספר סימוכין

התסריט טוען מודל. AutoModel שיעורים (לדוגמה, AutoModelForQuestionAnswering) צור ישירות מחלקה עם משקלים, תצורה ואוצר מילים של הארכיטקטורה הרלוונטית בהינתן השם והנתיב למודל שהוכשר מראש. הודות להפשטה של ​​Hugging Face, אתה יכול בקלות לעבור לדגם אחר באמצעות אותו קוד, רק על ידי מתן שם הדגם. ראה את הקוד לדוגמה הבא:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

עיבוד מקדים והדרכה

השמיים prepare_train_features() ו prepare_validation_features() שיטות מעבדות מראש את מערכי הנתונים של האימון ואת מערכי האימות, בהתאמה. הקוד חוזר על מערך הנתונים של הקלט ובונה רצף מההקשר ומהשאלה הנוכחית, עם מזהי סוג האסימון הנכונים הספציפיים לדגם (ייצוגים מספריים של אסימונים) ומסכות קשב. הרצף מועבר לאחר מכן דרך המודל. זה מפיק מגוון של ציונים, הן עבור עמדות ההתחלה והן עבור עמדת הסיום, כפי שמוצג בטבלה הבאה.

קלט שדות מערך נתונים שדות ערכת נתונים של הדרכה מעובדים מראש עבור QuestionAnsweringTrainer
id input_ids
כותרת מסיכת_תשומת לב
הקשר start_positions
שאלה עמדות קצה
תשובות { answer_start, answer_text } .

הערכה

השמיים compute_metrics() השיטה דואגת לחישוב מדדים. אנו משתמשים במדדים הפופולריים הבאים למשימות מענה לשאלות:

  • התאמה מדוייקת - מודד את אחוז התחזיות התואמות כל אחת מתשובות האמת היסודיות במדויק.
  • ציון F1 - מודד את החפיפה הממוצעת בין תשובת התחזית לתשובה האמתית. ציון F1 הוא הממוצע ההרמוני של דיוק וזכירה:
    • דיוק – היחס בין מספר המילים המשותפות למספר המילים הכולל בתחזית.
    • להיזכר – היחס בין מספר המילים המשותפות למספר הכולל של המילים שבאמת הקרקע.

הדרכה מנוהלת ב- SageMaker

הגדרה וניהול של סביבות למידה מותאמות אישית (ML) עשויות להיות גוזלות זמן ומסורבלות. עם מיכל AWS Deep Learning (DLCs) לספריות Hugging Face Transformers, יש לנו גישה למסגרות למידה עמוקה ארוזות ומותאמות מראש, מה שמקל על הפעלת הסקריפט שלנו על פני מספר עבודות אימון עם מינימום קוד נוסף.

אנחנו רק צריכים להשתמש ב מעריך פנים מחבקים זמין ב-SageMaker Python SDK עם הכניסות הבאות:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

הערך את התוצאות

כאשר עבודות הכוונון העדין עבור משימת התשובה לשאלה הטורקית הסתיימו, אנו משווים את ביצועי המודל של שלוש הגישות:

  • מודל שפה חד לשוני – הדגם שהוכשר מראש המכוון לטקסט המענה על השאלה הטורקית נקרא ברט-בסיס-טורקי-לא מארז [8]. הוא משיג ציון F1 של 75.63 וציון התאמה מדויקת של 56.17 בשני עידנים בלבד ועם 9,000 פריטים מסומנים. עם זאת, גישה זו אינה מתאימה לשפה דלת משאבים כאשר לא קיים מודל שפה מאומן מראש, או שיש מעט נתונים זמינים לאימון מאפס.
  • מודל שפה רב לשוני עם BERT רב לשוני – הדגם שהוכשר מראש נקרא bert-base-multilingual-uncased. מאמר BERT הרב לשוני [4] הראה שהוא מכליל היטב על פני שפות. בהשוואה למודל החד-לשוני, הביצועים שלו גרועים יותר (ציון F1 71.73, התאמה מדויקת 50:45), אך שימו לב שמודל זה מטפל בלמעלה מ-100 שפות אחרות, מה שמשאיר פחות מקום לייצוג השפה הטורקית.
  • מודל שפה רב לשוני עם XLM-R – הדגם שהוכשר מראש נקרא xlm-roberta-base-squad2. מאמר ה-XLM-R מראה שאפשר לקבל דגם אחד גדול עבור למעלה מ-100 שפות מבלי להקריב ביצועים לכל שפה [7]. עבור משימת המענה לשאלות בטורקית, היא עולה על ציוני BERT רב לשוני וציוני BERT F1 ב-5% ו-2%, בהתאמה (ציון F1 77.14, התאמה מדויקת 56.39).

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ההשוואה שלנו לא לוקחת בחשבון הבדלים אחרים בין מודלים כמו קיבולת המודל, מערכי אימון בשימוש, משימות NLP שהוכשרו מראש, גודל אוצר מילים או אסימון.

ניסויים נוספים

המחברת שסופקה מכילה דוגמאות נוספות לניסוי.

SageMaker מספקת מגוון רחב של סוגי מופעי אימון. כוונון עדין של דגם XLM-R על p3.2xlarge (GPU: Nvidia V100 GPU, ארכיטקטורת GPU: Volta (2017)), p3.16xlarge (GPU: 8 Nvidia V100 GPUs), ו-g4dn.xlarge (GPU: Nvidia T4 GPU, ארכיטקטורת GPU: Turing (2018)), וציין את הדברים הבאים:

  • משך האימון – על פי הניסוי שלנו, למודל XLM-R נדרשו כ-24 דקות להתאמן ב-p3.2xlarge ו-30 דקות ב-g4dn.xlarge (בערך 23% יותר). ביצענו גם כוונון מבוזר בשני מקרים של p3.16xlarge, וזמן האימון ירד ל-10 דקות. למידע נוסף על הדרכה מבוזרת של דגם מבוסס שנאי ב- SageMaker, עיין כוונון עדין מבוזר של דגם BERT Large עבור משימה של תשובות לשאלות באמצעות רובוטריקים של חיבוק פנים ב- Amazon SageMaker.
  • עלויות הכשרה – השתמשנו ב-API של תמחור AWS כדי להביא מחירים לפי דרישה של SageMaker כדי לחשב זאת תוך כדי תנועה. לפי הניסוי שלנו, אימון עלה בערך $1.58 ב-p3.2xlarge, ופי ארבעה פחות ב-g4dn.xlarge ($0.37). אימון מבוזר בשני מופעים של p3.16xlarge באמצעות 16 GPUs עולה $9.68.

לסיכום, למרות שה-g4dn.xlarge היה המכונה הזולה ביותר, היא גם לקחה בערך פי שלושה יותר זמן להתאמן מאשר סוג המופע החזק ביותר בו התנסנו (שני p3.16xlarge). בהתאם לעדיפויות הפרויקט שלך, תוכל לבחור מתוך מגוון רחב של סוגי אימון של SageMaker.

סיכום

בפוסט זה, בדקנו כוונון עדין של מודלים של שפה מבוססי שנאים שהוכשרו מראש עבור משימת מענה לשאלות עבור שפה באמצע משאב (במקרה זה, טורקית). אתה יכול ליישם גישה זו על יותר מ-100 שפות אחרות באמצעות מודל יחיד. נכון לכתיבת שורות אלו, הגדלה של מודל שיכסה את כל 7,000 השפות בעולם היא עדיין בלתי נסבלת, אבל תחום ה-NLP מספק הזדמנות להרחיב את האופקים שלנו.

שפה היא השיטה העיקרית לתקשורת אנושית, והיא אמצעי לתקשורת ערכים ולחלוק את היופי של מורשת תרבותית. המגוון הלשוני מחזק את הדיאלוג הבין-תרבותי ובונה חברות מכילות.

ML הוא תהליך איטרטיבי מאוד; במהלך פרויקט בודד, מדעני נתונים מאמנים מאות מודלים, מערכי נתונים ופרמטרים שונים בחיפוש אחר דיוק מרבי. SageMaker מציעה את סט הכלים השלם ביותר לרתום את הכוח של ML ולמידה עמוקה. זה מאפשר לך לארגן, לעקוב, להשוות ולהעריך ניסויי ML בקנה מידה.

Hugging Face משולב עם SageMaker כדי לעזור למדעני נתונים לפתח, לאמן ולכוון מודלים חדישים של NLP במהירות ובקלות רבה יותר. הדגמנו מספר יתרונות של שימוש בשנאי Hugging Face באמזון SageMaker, כגון הדרכה וניסויים בקנה מידה, והגדלת הפרודוקטיביות והעלות היעילות.

אתה יכול להתנסות במשימות NLP בשפה המועדפת עליך ב- SageMaker בכל אזורי ה-AWS שבהם SageMaker זמין. קוד המחברת לדוגמה זמין ב GitHub.

כדי ללמוד כיצד Amazon SageMaker Training Compiler יכול להאיץ את ההכשרה של מודלים של למידה עמוקה עד 50%, ראה חדש - הצגת מהדר הדרכה של SageMaker.

המחברים רוצים להביע את הערכתם העמוקה למריאנו קמפ ואמילי וובר על בדיקת טיוטות ומתן עצות.

הפניות

  1. J. Devlin et al., "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding", (2018).
  2. A. Vaswani וחב', "Attention Is All You Need", (2017).
  3. J. Howard and S. Ruder, "Fine-Tuning Model Language Universal for Text Classification", (2018).
  4. T. Pires et al., "How multilingual is Multilingual BERT?", (2019).
  5. Y. Liu וחב', "RoBERTa: A Robustly Optimized BERT Pretraining Approach", (2019).
  6. G. Lample, ו-A. Conneau, "Cross-Lingual Language Model Pretraining", (2019).
  7. A. Conneau et al., "למידת ייצוג חוצה לשוני ללא פיקוח בקנה מידה", (2019).
  8. סטפן שווטר. BERTurk – דגמי BERT לטורקית (2020).
  9. סטטיסטיקת ויקי רב לשונית https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

על הכותבים

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ארנב חאר הוא אדריכל פתרונות ראשי לשירותים פיננסיים גלובליים ב-AWS. ההתמקדות העיקרית שלו היא לעזור למוסדות שירותים פיננסיים לבנות ולעצב יישומי Analytics ו- Machine Learning בענן. ארנב הוא בעל תואר שני בבינה מלאכותית מאוניברסיטת אדינבורו ויש לו 18 שנות ניסיון בתעשייה, החל מסטארטאפים קטנים שהקים ועד ארגונים גדולים כמו נוקיה ובנק אוף אמריקה. מחוץ לעבודה, ארנב אוהב לבלות עם שתי בנותיו, למצוא בתי קפה עצמאיים חדשים, לקרוא ולטייל. אתה יכול למצוא אותי ב לינקדין ובסארי, בריטניה בחיים האמיתיים.

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.חסן-בשרי אקירמק (BSc ו-MSc בהנדסת מחשבים ו-MBA מנהלים בבית הספר לתארים מתקדמים למנהל עסקים) הוא ארכיטקט פתרונות בכיר בשירותי האינטרנט של אמזון. הוא טכנולוג עסקי המייעץ ללקוחות מגזר ארגוני. תחום ההתמחות שלו הוא עיצוב ארכיטקטורות ומקרים עסקיים על מערכות עיבוד נתונים בקנה מידה גדול ופתרונות Machine Learning. חסן העביר פיתוח עסקי, שילוב מערכות, ניהול תוכניות עבור לקוחות באירופה, המזרח התיכון ואפריקה. מאז 2016 הוא הדריך מאות יזמים בתוכניות אינקובציה של סטארט-אפים פרו-בונו.

כוונן מודלים של שפות שנאים לגיוון לשוני עם Hugging Face ב- Amazon SageMaker PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.הייקו הוץ הוא ארכיטקט פתרונות בכיר עבור AI ולמידת מכונה ומוביל את קהילת עיבוד השפה הטבעית (NLP) בתוך AWS. לפני תפקיד זה, הוא היה ראש מדעי הנתונים של שירות הלקוחות של אמזון באיחוד האירופי. Heiko עוזרת ללקוחותינו להצליח במסע AI/ML שלהם ב-AWS ועבדה עם ארגונים בתעשיות רבות, כולל ביטוח, שירותים פיננסיים, מדיה ובידור, שירותי בריאות, שירותים וייצור. בזמנו הפנוי הייקו נוסע כמה שיותר.

בול זמן:

עוד מ למידת מכונות AWS