כוונן ופריסה של Mistral 7B עם Amazon SageMaker JumpStart | שירותי האינטרנט של אמזון

כוונן ופריסה של Mistral 7B עם Amazon SageMaker JumpStart | שירותי האינטרנט של אמזון

היום, אנו נרגשים להכריז על היכולת לכוונן עדין את דגם Mistral 7B באמצעות אמזון SageMaker JumpStart. כעת תוכל לכוונן ולפרוס מודלים של יצירת טקסט של Mistral ב- SageMaker JumpStart באמצעות סטודיו SageMaker של אמזון ממשק משתמש בכמה קליקים או באמצעות SageMaker Python SDK.

מודלים של קרן מתפקדים טוב מאוד עם משימות יצירתיות, החל מיצירת טקסט וסיכומים, מענה על שאלות וכלה בהפקת תמונות וסרטונים. למרות יכולות ההכללה הנהדרות של מודלים אלו, לעיתים קרובות ישנם מקרי שימוש בעלי נתוני תחום מאוד ספציפיים (כגון שירותי בריאות או שירותים פיננסיים), ויתכן שהמודלים הללו לא יוכלו לספק תוצאות טובות עבור מקרי שימוש אלו. כתוצאה מכך יש צורך בכוונון נוסף של מודלים אלו בינה מלאכותית על פני נתוני השימוש הספציפיים למקרה ונתונים ספציפיים לתחום.

בפוסט זה, אנו מדגימים כיצד לכוונן את דגם Mistral 7B באמצעות SageMaker JumpStart.

מה זה מיסטרל 7B

Mistral 7B הוא מודל יסוד שפותח על ידי Mistral AI, התומך ביכולות יצירת טקסט וקוד באנגלית. הוא תומך במגוון מקרי שימוש, כגון סיכום טקסט, סיווג, השלמת טקסט והשלמת קוד. כדי להדגים את יכולת ההתאמה האישית של המודל, Mistral AI פרסמה גם מודל Mistral 7B-Instruct עבור מקרי שימוש בצ'אט, מכוונן עדין באמצעות מגוון מערכי נתונים של שיחות זמינים לציבור.

Mistral 7B הוא דגם שנאי ומשתמש בתשומת לב שאילתה מקובצת ותשומת לב בחלון הזזה כדי להשיג הסקה מהירה יותר (השהיה נמוכה) ולטפל ברצפים ארוכים יותר. תשומת לב שאילתה מקובצת היא ארכיטקטורה המשלבת תשומת לב מרובה שאילתות ותשומת לב מרובה ראשים כדי להשיג איכות פלט קרובה לתשומת לב מרובה ראשים ומהירות דומה לתשומת לב מרובה שאילתות. שיטת הקשב של חלון הזזה משתמשת ברמות המרובות של מודל שנאי כדי להתמקד במידע שהגיע קודם לכן, מה שעוזר למודל להבין קטע ארוך יותר של הקשר. . למיסטרל 7B יש אורך הקשר של 8,000 אסימון, מפגין זמן השהייה נמוך ותפוקה גבוהה, ובעל ביצועים חזקים בהשוואה לחלופות דגמים גדולים יותר, המספק דרישות זיכרון נמוכות בגודל דגם 7B. הדגם זמין תחת רישיון Apache 2.0 המתירני, לשימוש ללא הגבלות.

אתה יכול לכוונן את הדגמים באמצעות ממשק המשתמש של SageMaker Studio או SageMaker Python SDK. אנו דנים בשתי השיטות בפוסט זה.

כוונון עדין באמצעות ממשק המשתמש של SageMaker Studio

ב-SageMaker Studio, אתה יכול לגשת לדגם Mistral דרך SageMaker JumpStart תחת דגמים, מחברות ופתרונות, כפי שמוצג בצילום המסך הבא.

אם אינך רואה דגמי Mistral, עדכן את גרסת SageMaker Studio שלך על ידי כיבוי והפעלה מחדש. למידע נוסף על עדכוני גרסה, עיין ב כבה ועדכן את אפליקציות Studio.

כוונן ופריסה של Mistral 7B עם Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בדף הדגם, אתה יכול להצביע על שירות אחסון פשוט של אמזון (Amazon S3) דלי המכיל את מערכי ההדרכה והאימות לכוונון עדין. בנוסף, תוכל להגדיר תצורת פריסה, היפרפרמטרים והגדרות אבטחה לכוונון עדין. לאחר מכן תוכל לבחור רכבת כדי להתחיל את עבודת ההדרכה במופע SageMaker ML.

כוונן ופריסה של Mistral 7B עם Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

פרוס את הדגם

לאחר כוונון עדין של הדגם, תוכל לפרוס אותו באמצעות דף המודל ב- SageMaker JumpStart. האפשרות לפרוס את הדגם המכוונן תופיע כאשר הכוונון העדין יושלם, כפי שמוצג בצילום המסך הבא.

כוונן ופריסה של Mistral 7B עם Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כוונון עדין באמצעות SageMaker Python SDK

אתה יכול גם לכוונן דגמי Mistral באמצעות SageMaker Python SDK. המחברת המלאה זמינה ב- GitHub. בחלק זה, אנו מספקים דוגמאות לשני סוגים של כוונון עדין.

כוונון עדין של הוראות

כוונון הוראות הוא טכניקה הכוללת כוונון עדין של מודל שפה על אוסף של משימות עיבוד שפה טבעית (NLP) באמצעות הוראות. בטכניקה זו, המודל מאומן לבצע משימות על ידי ביצוע הוראות טקסטואליות במקום מערכי נתונים ספציפיים עבור כל משימה. המודל מכוונן עם קבוצה של דוגמאות קלט ופלט עבור כל משימה, מה שמאפשר למודל להכליל למשימות חדשות שלא הוכשר עליהן במפורש כל עוד מסופקות הנחיות למשימות. כוונון הוראות מסייע לשפר את הדיוק והיעילות של מודלים ומועיל במצבים שבהם מערכי נתונים גדולים אינם זמינים למשימות ספציפיות.

הבה נעבור על קוד הכוונון העדין המופיע בדוגמה מחברה עם SageMaker Python SDK.

אנו משתמשים בתת-קבוצה של מערך הנתונים של דולי בפורמט כוונון הוראות, וציין את template.json קובץ המתאר את הקלט ואת פורמטי הפלט. יש לעצב את נתוני האימון בפורמט של שורות JSON (.jsonl), כאשר כל שורה היא מילון המייצג מדגם נתונים בודד. במקרה זה, אנו קוראים לזה train.jsonl.

הקטע הבא הוא דוגמה של train.jsonl. המפתחות instruction, context, ו response בכל מדגם צריכים להיות ערכים תואמים {instruction}, {context}, {response} ב template.json.

{ "instruction": "What is a dispersive prism?", "context": "In optics, a dispersive prism is an optical prism that is used to disperse light, that is, to separate light into its spectral components (the colors of the rainbow). Different wavelengths (colors) of light will be deflected by the prism at different angles. This is a result of the prism material's index of refraction varying with wavelength (dispersion). Generally, longer wavelengths (red) undergo a smaller deviation than shorter wavelengths (blue). The dispersion of white light into colors by a prism led Sir Isaac Newton to conclude that white light consisted of a mixture of different colors.", "response": "A dispersive prism is an optical prism that disperses the light's different wavelengths at different angles. When white light is shined through a dispersive prism it will separate into the different colors of the rainbow."
}

להלן דוגמה של template.json:

{ "prompt": "Below is an instruction that describes a task, paired with an input that provides further context. " "Write a response that appropriately completes the request.nn" "### Instruction:n{instruction}nn### Input:n{context}nn", "completion": " {response}",
}

לאחר העלאת תבנית ההנחיה ונתוני ההדרכה לדלי S3, תוכל להגדיר את הפרמטרים ההיפר.

my_hyperparameters["epoch"] = "1"
my_hyperparameters["per_device_train_batch_size"] = "2"
my_hyperparameters["gradient_accumulation_steps"] = "2"
my_hyperparameters["instruction_tuned"] = "True"
print(my_hyperparameters)

לאחר מכן תוכל להתחיל בתהליך הכוונון העדין ולפרוס את המודל לנקודת קצה של מסקנות. בקוד הבא, אנו משתמשים במופע ml.g5.12xlarge:

from sagemaker.jumpstart.estimator import JumpStartEstimator instruction_tuned_estimator = JumpStartEstimator( model_id=model_id, hyperparameters=my_hyperparameters, instance_type="ml.g5.12xlarge",
)
instruction_tuned_estimator.fit({"train": train_data_location}, logs=True) instruction_tuned_predictor = instruction_tuned_estimator.deploy()

כוונון עדין של התאמת דומיין

כוונון עדין של התאמת דומיין הוא תהליך שמשכלל LLM מאומן מראש כך שיתאים יותר לתחום או משימה ספציפיים. על ידי שימוש במערך נתונים קטן יותר, ספציפי לתחום, ניתן לכוונן את ה-LLM כדי להבין וליצור תוכן מדויק, רלוונטי ומלא תובנות עבור אותו תחום ספציפי, תוך שמירה על הידע הרב שצבר במהלך ההכשרה המקורית שלו.

ניתן לכוונן את מודל Mistral בכל מערך נתונים ספציפי לתחום. לאחר כוונון עדין, הוא צפוי ליצור טקסט ספציפי לתחום ולפתור משימות NLP שונות בתחום הספציפי הזה. עבור מערך ההדרכה, ספק ספריית רכבת וספריית אימות אופציונלית, שכל אחת מהן מכילה קובץ CSV, JSON או TXT בודד. עבור פורמטים של CSV ו-JSON, השתמש בנתונים מה- text העמודה או העמודה הראשונה אם text אינו נוכח. ודא שקיים רק קובץ אחד מתחת לכל ספרייה. לדוגמה, נתוני קלט עשויים להיות קבצי SEC של אמזון כקובץ טקסט:

This report includes estimates, projections, statements relating to our
business plans, objectives, and expected operating results that are “forward-
looking statements” within the meaning of the Private Securities Litigation
Reform Act of 1995, Section 27A of the Securities Act of 1933, and Section 21E
of the Securities Exchange Act of 1934. Forward-looking statements may appear
throughout this report, including the following sections: “Business” (Part I,
Item 1 of this Form 10-K), “Risk Factors” (Part I, Item 1A of this Form 10-K),
and “Management’s Discussion and Analysis of Financial Condition and Results
of Operations” (Part II, Item 7 of this Form 10-K). These forward-looking
statements generally are identified by the words “believe,” “project,”
“expect,” “anticipate,” “estimate,” “intend,” “strategy,” “future,”
“opportunity,” “plan,” “may,” “should,” “will,” “would,” “will be,” “will
continue,” “will likely result,” and similar expressions.

אתה יכול להתחיל בכוונון עדין של התאמת הדומיין על ידי ציון ההיפרפרמטר "instruction_tuned" כפי ש "False". שאר השלבים דומים לשלבי כוונון עדין של הוראות.

קבענו max_input_length להיות 2048 ב-g5.12xlarge. אתה יכול להשתמש באורך קלט גבוה יותר בסוג מופע גדול יותר. לפרטים, ראה את מחברת דוגמה.

דוגמה להסקה עם ובלי כוונון עדין

הטבלה הבאה מכילה את התוצאות של מודל Mistral 7B המכוונן היטב עם מסמכי הגשת SEC של אמזון בין השנים 2021-2022. אנו משווים את הפלט לפני ואחרי כוונון עדין.

הנחית קלט פלט לפני כוונון עדין פלט לאחר כוונון עדין פרמטרים
דוח טופס 10-K זה מראה זאת

החברה פועלת כבר 10 שנים ויש לה 10 עובדים בסך הכל. החברה מונה בסך הכל 10 עובדים והיא עוסקת במתן שירותים לציבור. החברה מונה בסך הכל 10 עובדים והיא עוסקת במתן שירותים לציבור.

החברה מונה בסך הכל 10 עובדים והיא עוסקת במתן שירותים לציבור. החברה מונה בסך הכל 10 עובדים והיא עוסקת במתן שירותים לציבור. החברה מונה בסך הכל 10 עובדים והיא עוסקת במתן שירותים לציבור. החברה מונה בסך הכל 10 עובדים והיא עוסקת במתן

היו לנו מכירות נטו של 1.2 מיליארד דולר, 1.5 מיליארד דולר ו-1.8 מיליארד דולר ב-2004, 2003 ו-2002. הסכומים הללו כוללים מכירות מאתרי האינטרנט הבינלאומיים שלנו. מכירות נטו מאתרי האינטרנט הבינלאומיים שלנו היו 323 מיליון דולר, 242 מיליון דולר ו-150 מיליון דולר ב-2004, 2003 ו-2002. המכירות הנטו מאתרי האינטרנט הבינלאומיים שלנו היוו 27%, 16% ו-8% מהמכירות הנטו ב-2004, 2003 ו-2002 . "טמפרטורה": 0.2,
"max_new_tokens": 150,
אנו משרתים את הצרכנים באמצעות

הרשת הקמעונאית שלנו המונה 1,700 חנויות, הכוללת 1,200 חנויות בארצות הברית, 400 חנויות בקנדה ו-100 חנויות במקסיקו. אנו משרתים צרכנים גם דרך אתרי המסחר האלקטרוני שלנו.

## מהי החנות הגדולה ביותר לשיפורי הבית?

הום ​​דיפו היא קמעונאית שיפוץ הבית הגדולה ביותר בארצות הברית.

## מהי החנות הגדולה בעולם לשיפורי הבית?

חנות שיפוץ הבית הגדולה בעולם היא הום דיפו.

## מהי החנות הגדולה ביותר לשיפורי הבית בארץ

החנויות המקוונות והפיזיות שלנו ומתמקדים במבחר, מחיר ונוחות. אנו מעצבים את החנויות שלנו כך שיאפשרו למכור מאות מיליוני מוצרים ייחודיים על ידינו ועל ידי צדדים שלישיים בעשרות קטגוריות מוצרים. לקוחות ניגשים להצעות שלנו דרך אתרי האינטרנט שלנו, האפליקציות לנייד, Alexa, מכשירים, סטרימינג וביקור פיזי בחנויות שלנו. אנחנו גם מייצרים ומוכרים מכשירים אלקטרוניים, כולל Kindle, Fire Tab, Fire TV, Echo ו-Ring, ואנחנו מפתחים ומייצרים תוכן מדיה. אנו מבקשים להציע ללקוחותינו מחירים נמוכים, משלוח מהיר וחינמי, פונקציונליות קלה לשימוש ושירות לקוחות בזמן. בנוסף, אנו מציעים שירותי מנוי כגון Amazon Prime, א
החזון שלנו הוא

להיות הספק המוביל של שירותי בריאות איכותיים, סבירים ונגישים בקהילות שאנו משרתים.

המשימה שלנו היא לספק שירותי בריאות איכותיים, סבירים ונגישים לקהילות שאנו משרתים.

הערכים שלנו הם:

– יושרה: אנו פועלים ביושר וביושרה בכל עסקינו.
- כבוד: אנו מתייחסים לכולם בכבוד ובכבוד.
– מצוינות: אנו שואפים למצוינות בכל מה שאנו עושים.
- חמלה: אנו דואגים למטופלים שלנו וזה לזה בחמלה.
- עבודת צוות: אנו עובדים יחד כצוות כדי להשיג את המטרות שלנו.

המחויבות שלנו למטופלים שלנו היא לספק שירותי בריאות איכותיים, סבירים ונגישים.

להיות החברה הכי ממוקדת לקוחות בכדור הארץ. אנו מונחים על ידי ארבעה עקרונות: אובססיה של לקוחות ולא מיקוד במתחרים, תשוקה להמצאה, מחויבות למצוינות תפעולית וחשיבה לטווח ארוך. בכל אחד מהמגזרים שלנו, אנו משרתים את מערכי הלקוחות העיקריים שלנו, המורכבים מצרכנים, מוכרים, מפתחים, ארגונים ויוצרי תוכן. בנוסף, אנו מספקים שירותים, כגון פרסום. ארגנו את הפעילות שלנו לשלושה מגזרים: צפון אמריקה, בינלאומי ו-AWS. מגזרים אלו משקפים את האופן שבו החברה מעריכה את ביצועיה העסקיים ומנהלת את פעילותה. מידע על המכירות הנטו שלנו כלול בסעיף 8 של חלק ב', "דוחות כספיים

כפי שאתה יכול לראות, הדגם המכוונן מספק מידע ספציפי יותר הקשור לאמזון בהשוואה לדגם המאומן מראש. הסיבה לכך היא שכוונון עדין מתאים את המודל להבנת הניואנסים, הדפוסים והפרטים של מערך הנתונים שסופק. על ידי שימוש במודל שהוכשר מראש והתאמתו עם כוונון עדין, אנו מבטיחים שתקבל את הטוב משני העולמות: הידע הרחב של המודל שהוכשר מראש והדיוק המיוחד עבור מערך הנתונים הייחודי שלך. גודל אחד אולי לא מתאים לכל בעולם של למידת מכונה, וכיוונון עדין הוא הפתרון המותאם אישית שאתה צריך!

סיכום

בפוסט זה, דנו בכוונון עדין של דגם Mistral 7B באמצעות SageMaker JumpStart. הראינו כיצד ניתן להשתמש בקונסולת SageMaker JumpStart ב- SageMaker Studio או ב- SageMaker Python SDK כדי לכוונן ולפרוס את הדגמים הללו. כשלב הבא, אתה יכול לנסות לכוונן את המודלים האלה במערך הנתונים שלך באמצעות הקוד המסופק במאגר GitHub כדי לבדוק ולהשוות את התוצאות עבור מקרי השימוש שלך.


על הכותבים

שין הואנגשין הואנג הוא מדען יישומי בכיר עבור האלגוריתמים המובנים של Amazon SageMaker JumpStart ו-Amazon SageMaker. הוא מתמקד בפיתוח אלגוריתמים של למידת מכונה ניתנים להרחבה. תחומי העניין שלו במחקר הם בתחום של עיבוד שפה טבעית, למידה עמוקה הניתנת להסבר על נתונים טבלאיים וניתוח חזק של צבירת מרחב-זמן לא פרמטרית. הוא פרסם מאמרים רבים בכנסים של ACL, ICDM, KDD וב-Royal Statistic Society: Series A.

כוונן ופריסה של Mistral 7B עם Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.Vivek Gangasani הוא ארכיטקט פתרונות AI/ML לסטארט-אפים בינה מלאכותית ב-AWS. הוא עוזר לסטארט-אפים מתעוררים של GenAI לבנות פתרונות חדשניים באמצעות שירותי AWS ומחשוב מואץ. נכון לעכשיו, הוא מתמקד בפיתוח אסטרטגיות לכוונון עדין ואופטימיזציה של ביצועי ההסקה של מודלים של שפה גדולה. בזמנו הפנוי, ויווק נהנה לטייל, לצפות בסרטים ולנסות מאכלים שונים.

כוונן ופריסה של Mistral 7B עם Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ד"ר אשיש חתן הוא מדען יישומי בכיר עם אלגוריתמים מובנים של Amazon SageMaker ועוזר בפיתוח אלגוריתמים של למידת מכונה. הוא קיבל את הדוקטורט שלו מאוניברסיטת אילינוי אורבנה-שמפיין. הוא חוקר פעיל בלמידת מכונה והסקה סטטיסטית, ופרסם מאמרים רבים בכנסים NeurIPS, ICML, ICLR, JMLR, ACL ו-EMNLP.

בול זמן:

עוד מ למידת מכונות AWS