היום אנו נרגשים לבשר שכעת אתה יכול לבצע טרנספורמציות אצווה עם אמזון SageMaker JumpStart מודלים של שפה גדולה (LLMs) עבור Text2Text Generation. טרנספורמציות אצווה שימושיות במצבים שבהם התגובות אינן צריכות להיות בזמן אמת ולכן אתה יכול לעשות מסקנות באצווה עבור מערכי נתונים גדולים בכמויות גדולות. עבור טרנספורמציה אצווה, מופעלת עבודת אצווה שלוקחת קלט אצווה כמערך נתונים ומודל מאומן מראש, ומוציאה תחזיות עבור כל נקודת נתונים במערך הנתונים. טרנספורמציה אצווה היא חסכונית מכיוון שבניגוד לנקודות קצה מתארחות בזמן אמת שיש להן חומרה מתמשכת, אשכולות טרנספורמציה אצווה נקרעים כאשר העבודה הושלמה ולכן החומרה משמשת רק למשך עבודת האצווה.
במקרים מסוימים, ניתן לקבץ בקשות להסקת מסקנות בזמן אמת בקבוצות קטנות לעיבוד אצווה כדי ליצור תגובות בזמן אמת או כמעט בזמן אמת. לדוגמה, אם אתה צריך לעבד זרם רציף של נתונים עם חביון נמוך ותפוקה גבוהה, הפעלת נקודת קצה בזמן אמת עבור כל בקשה בנפרד תדרוש יותר משאבים ויכולה לקחת זמן רב יותר לעבד את כל הבקשות מכיוון שהעיבוד מתבצע באופן סדרתי. גישה טובה יותר תהיה לקבץ חלק מהבקשות ולקרוא לנקודת הקצה בזמן אמת במצב הסקת אצווה, המעבדת את הבקשות שלך במעבר אחד קדימה של המודל ומחזירה את התגובה המרובה לבקשה בזמן אמת או כמעט בזמן אמת. זמן האחזור של התגובה יהיה תלוי במספר הבקשות שתקבץ יחד ובגודל הזיכרון של המופעים, לכן אתה יכול לכוון את גודל האצווה בהתאם לדרישות העסקיות שלך לאחזור ותפוקה. אנחנו קוראים לזה מסקנות אצווה בזמן אמת מכיוון שהוא משלב את הרעיון של אצווה ועדיין מספק תגובות בזמן אמת. עם הסקת אצווה בזמן אמת, אתה יכול להשיג איזון בין זמן אחזור נמוך לתפוקה גבוהה, מה שמאפשר לך לעבד כמויות גדולות של נתונים בזמן וביעילות.
המרת אצווה Jumpstart עבור מודלים של Text2Text Generation מאפשרת לך להעביר את ההיפרפרמטרים של האצווה דרך משתני סביבה שמגדילים עוד יותר את התפוקה ומצמצמים את השהייה.
JumpStart מספקת מודלים מאומנים מראש, קוד פתוח עבור מגוון רחב של סוגי בעיות כדי לעזור לך להתחיל עם למידת מכונה (ML). אתה יכול לאמן ולכוון את הדגמים האלה בהדרגה לפני הפריסה. JumpStart מספקת גם תבניות פתרונות שמגדירות תשתית למקרי שימוש נפוצים, ומחברות לדוגמה הניתנות להפעלה עבור ML עם אמזון SageMaker. אתה יכול לגשת למודלים שהוכשרו מראש, תבניות פתרונות ודוגמאות דרך דף הנחיתה של JumpStart ב סטודיו SageMaker של אמזון. אתה יכול גם לגשת לדגמי JumpStart באמצעות SageMaker Python SDK.
בפוסט זה, אנו מדגימים כיצד להשתמש במאומנים המתקדמים ביותר text2text דגמי FLAN T5 מ-Hugging Face להמרת אצווה והסקת אצווה בזמן אמת.
סקירת פתרונות
המחברת מציגה שינוי אצווה של דגמי Text2Text FLAN T5 מאומנים מראש פנים מחבקות זמין בהמשך מאגר GitHub. מחברת זו משתמשת בנתונים מהפנים המחבקים cnn_daymail מערך נתונים עבור משימת סיכום טקסט באמצעות SageMaker SDK.
להלן השלבים העיקריים ליישום טרנספורמציה אצווה והסקת אצווה בזמן אמת:
- הגדר דרישות מוקדמות.
- בחר דגם מאומן מראש.
- אחזר חפצים עבור הדגם.
- ציין היפרפרמטרים של עבודת טרנספורמציה אצווה.
- הכן נתונים עבור המרת האצווה.
- הפעל את עבודת המרת האצווה.
- הערך את הסיכום באמצעות א אדום (Recall-oriented Understudy for Gisting Evaluation).
- בצע הסקת אצווה בזמן אמת.
הגדר דרישות מוקדמות
לפני שתפעיל את המחברת, עליך להשלים כמה שלבי הגדרה ראשוניים. בואו נגדיר את תפקיד הביצוע של SageMaker כך שיהיו לו הרשאות להפעיל שירותי AWS בשמכם:
בחר דגם מאומן מראש
אנו משתמשים במודל huggingface-text2text-flan-t5-large כמודל ברירת מחדל. לחלופין, תוכל לאחזר את רשימת הדגמים הזמינים של Text2Text ב-JumpStart ולבחור את הדגם המועדף עליך. שיטה זו מספקת דרך פשוטה לבחור מזהי דגמים שונים באמצעות אותה מחברת. למטרות הדגמה, אנו משתמשים במודל huggingface-text2text-flan-t5-large:
אחזר חפצים עבור הדגם
עם SageMaker, אנו יכולים לבצע הסקה על המודל שהוכשר מראש, אפילו מבלי לכוונן אותו תחילה על מערך נתונים חדש. אנו מתחילים בשליפת ה deploy_image_uri
, deploy_source_uri
, ו model_uri
עבור הדגם שהוכשר מראש:
ציין היפרפרמטרים של עבודת טרנספורמציה אצווה
אתה יכול להעביר כל תת-קבוצה של היפרפרמטרים כמשתני סביבה לעבודת המרת האצווה. אתה יכול גם להעביר את ההיפרפרמטרים האלה במטען JSON. עם זאת, אם אתה מגדיר משתני סביבה עבור היפרפרמטרים כמו שהקוד הבא מציג, אזי לא ייעשה שימוש בפרמטרים המתקדמים מהדוגמאות הבודדות במטען קווי JSON. אם אתה רוצה להשתמש בהיפרפרמטרים מהמטען, אולי תרצה להגדיר את hyper_params_dict
פרמטר בתור null במקום זאת.
הכן נתונים להמרת אצווה
עכשיו אנחנו מוכנים לטעון את cnn_daymail מערך נתונים מ-Huging Face:
אנו עוברים על כל הזנת נתונים ויוצרים את נתוני הקלט בפורמט הנדרש. אנחנו יוצרים א articles.jsonl
קובץ כקובץ נתוני בדיקה המכיל מאמרים שיש לסכם אותם כמטען קלט. בזמן שאנו יוצרים קובץ זה, אנו מוסיפים את ההנחיה "Briefly summarize this text:"
לכל שורת קלט בדיקה. אם ברצונך לקבל היפרפרמטרים שונים עבור כל קלט בדיקה, תוכל להוסיף את ההיפרפרמטרים הללו כחלק מיצירת מערך הנתונים.
אנו יוצרים highlights.jsonl
כקובץ האמת המכיל דגשים של כל מאמר המאוחסן בקובץ הבדיקה articles.jsonl
. אנו מאחסנים את שני קבצי הבדיקה ב-an שירות אחסון פשוט של אמזון דלי (Amazon S3). ראה את הקוד הבא:
הפעל את עבודת המרת האצווה
כאשר אתה מתחיל עבודת טרנספורמציה אצווה, SageMaker משיק את משאבי המחשוב הדרושים לעיבוד הנתונים, כולל מופעי CPU או GPU בהתאם לסוג המופע הנבחר. במהלך משימת השינוי האצווה, SageMaker מספקת ומנהלת אוטומטית את משאבי המחשוב הנדרשים לעיבוד הנתונים, כולל מופעים, משאבי אחסון ומשאבי רשת. כאשר עבודת ההמרה האצווה הושלמה, משאבי המחשוב מנקים אוטומטית על ידי SageMaker. המשמעות היא שהמופעים והאחסון שבהם נעשה שימוש במהלך העבודה נעצרים ומוסרים, משחררים משאבים וממזערים את העלות. ראה את הקוד הבא:
להלן רשומה אחת לדוגמה מה- articles.jsonl
קובץ בדיקה. שים לב שלרשומה בקובץ הזה יש מזהה שתואם אליו predict.jsonl
רשומות קובץ המציגות רשומה מסוכמת כפלט מדגם Hugging Face Text2Text. באופן דומה, לקובץ האמת הבסיסית יש גם מזהה תואם עבור רשומת הנתונים. המזהה התואם על פני קובץ הבדיקה, קובץ האמת הקרקע וקובץ הפלט מאפשר קישור בין רשומות קלט לרשומות פלט לפירוש קל של התוצאות.
להלן רשומת הקלט לדוגמה שסופקה לסיכום:
להלן הפלט החזוי עם סיכום:
להלן סיכום האמת הבסיסי למטרות הערכת מודל:
לאחר מכן, אנו משתמשים באמיתות הקרקע ובתפוקות החזויות להערכת מודל.
הערכת המודל באמצעות ציון ROUGE¶
אדום, או Recall-Oriented Understudy for Gisting Evaluation, הוא סט של מדדים וחבילת תוכנה המשמשת להערכת סיכום אוטומטי ותרגום מכונה בעיבוד שפה טבעית. המדדים משווים סיכום או תרגום שהופק אוטומטית מול סיכום או תרגום של הפניות (מייצור אנושי) או קבוצה של הפניות.
בקוד הבא, אנו משלבים את הסיכומים החזויים והמקוריים על ידי הצטרפותם על המפתח המשותף id
והשתמש בזה כדי לחשב את ציון ROUGE:
בצע הסקת אצווה בזמן אמת
לאחר מכן, אנו מראים לך כיצד להפעיל הסקת אצווה בזמן אמת על נקודת הקצה על ידי אספקת התשומות כרשימה. אנו משתמשים באותו מזהה מודל ובאותו מערך נתונים כמו קודם, אלא שאנו לוקחים כמה רשומות ממערך הנתונים של הבדיקה ומשתמשים בהם כדי להפעיל נקודת קצה בזמן אמת.
הקוד הבא מראה כיצד ליצור ולפרוס נקודת קצה בזמן אמת להסקת אצווה בזמן אמת:
לאחר מכן, אנו מכינים את מטען הקלט שלנו. לשם כך, אנו משתמשים בנתונים שהכנו קודם ומחלצים את 10 כניסות הבדיקה הראשונות ומצרפים את קלט הטקסט עם היפרפרמטרים שאנו רוצים להשתמש בהם. אנו מספקים את המטען הזה בזמן אמת invoke_endpoint
. לאחר מכן, מטען התגובה מוחזר כרשימה של תגובות. ראה את הקוד הבא:
לנקות את
לאחר שבדקת את נקודת הקצה, ודא שאתה מוחק את נקודת הקצה של SageMaker ומחק את המודל כדי להימנע מחיובים.
סיכום
במחברת זו, ביצענו טרנספורמציה אצווה כדי להציג את המודל Hugging Face Text2Text Generator עבור משימות סיכום. שינוי אצווה הוא יתרון בהשגת מסקנות ממערכי נתונים גדולים ללא צורך בנקודת קצה מתמשכת. קישרנו רשומות קלט עם מסקנות כדי לסייע בפרשנות התוצאות. השתמשנו בציון ROUGE כדי להשוות את סיכום נתוני המבחן עם הסיכום שנוצר על ידי המודל.
בנוסף, הדגמנו הסקת אצווה בזמן אמת, שבה אתה יכול לשלוח אצווה קטנה של נתונים לנקודת קצה בזמן אמת כדי להשיג איזון בין חביון לתפוקה עבור תרחישים כמו הזרמת נתוני קלט. הסקת אצווה בזמן אמת עוזרת להגדיל את התפוקה עבור בקשות בזמן אמת.
נסה את השינוי האצווה עם דגמי Text2Text Generation ב- SageMaker היום וספר לנו את המשוב שלך!
על המחברים
המנט סינג הוא מהנדס למידת מכונה עם ניסיון באלגוריתמים מובנים של Amazon SageMaker JumpStart ו-Amazon SageMaker. הוא קיבל את התואר השני שלו מ-Courant Institute of Mathematical Sciences ו-B.Tech מ- IIT Delhi. יש לו ניסיון בעבודה על מגוון רחב של בעיות למידת מכונה בתחום של עיבוד שפה טבעית, ראייה ממוחשבת וניתוח סדרות זמן.
רחנה צ'דהא הוא אדריכל פתרונות ראשי AI/ML בחשבונות אסטרטגיים ב-AWS. רחנה היא אופטימית המאמינה ששימוש אתי ואחראי בבינה מלאכותית יכול לשפר את החברה בעתיד ולהביא לשגשוג כלכלי וחברתי. בזמנה הפנוי, רחנה אוהבת לבלות עם משפחתה, לטייל ולהאזין למוזיקה.
ד"ר אשיש חתן הוא מדען יישומי בכיר עם אלגוריתמים מובנים של Amazon SageMaker ועוזר בפיתוח אלגוריתמים של למידת מכונה. הוא קיבל את הדוקטורט שלו מאוניברסיטת אילינוי אורבנה-שמפיין. הוא חוקר פעיל בלמידת מכונה והסקה סטטיסטית, ופרסם מאמרים רבים בכנסים NeurIPS, ICML, ICLR, JMLR, ACL ו-EMNLP.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoAiStream. Web3 Data Intelligence. הידע מוגבר. גישה כאן.
- הטבעת העתיד עם אדריאן אשלי. גישה כאן.
- קנה ומכירה של מניות בחברות PRE-IPO עם PREIPO®. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/perform-batch-transforms-with-amazon-sagemaker-jumpstart-text2text-generation-large-language-models/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 000
- 1
- 10
- 100
- 11
- 13
- 14
- 20
- 2014
- 50
- 7
- 8
- 9
- a
- יכול
- אודות
- מֵעַל
- קבלה
- מקובל
- גישה
- פי
- חשבונות
- להשיג
- רוכש
- לרוחב
- פעולות
- פעיל
- מתקדם
- יתרון
- נגד
- AI
- AI / ML
- סיוע
- אלגוריתמים
- תעשיות
- כביכול
- מאפשר
- גם
- אמזון בעברית
- אמזון SageMaker
- אמזון SageMaker JumpStart
- אמזון שירותי אינטרנט
- an
- אנליזה
- ו
- להכריז
- כל
- API
- יישומית
- גישה
- ARE
- סביב
- מאמר
- מאמרים
- AS
- At
- ניסיונות
- סמכות
- מכני עם סלילה אוטומטית
- באופן אוטומטי
- זמין
- לְהִמָנַע
- AWS
- איזון
- בסיס
- מבוסס
- BE
- הפך
- כי
- הופך להיות
- לפני
- להיות
- תאמינו
- מאמין
- בנימין
- מוטב
- בֵּין
- גוּף
- שניהם
- שני הצדדים
- גבולות
- בקצרה
- להביא
- מביא
- מובנה
- עסקים
- אבל
- by
- שיחה
- CAN
- לא יכול
- מקרים
- לגרום
- חיובים
- בחרו
- בכיתה
- לקוחות
- קרוב יותר
- CNN
- קוד
- לשלב
- משלב
- שילוב
- איך
- התחייבויות
- מְחוּיָב
- Common
- לְהַשְׁווֹת
- להשלים
- לחשב
- המחשב
- ראייה ממוחשבת
- מושג
- לנהל
- כנסים
- מכולה
- להמשיך
- רציף
- תרם
- עלות
- עלות תועלת
- יכול
- עֵצָה
- משיגות את התוצאה ההפוכה
- מדינות
- בית דין
- לִיצוֹר
- יוצרים
- פשעים
- פלילי
- נתונים
- הזנת נתונים
- מערכי נתונים
- מת
- החלטה
- בְּרִירַת מֶחדָל
- דלהי
- להפגין
- מופגן
- מַחלָקָה
- תלוי
- לפרוס
- פריסה
- מְתוּאָר
- לקבוע
- לפתח
- צעצועי התפתחות
- נבדלים
- ההבדלים
- אחר
- ישיר
- שונה
- do
- סַוָר
- תחום
- עשה
- לא
- דֶלֶת
- מטה
- משך
- בְּמַהֲלָך
- כל אחד
- מוקדם יותר
- מזרח
- קל
- כַּלְכָּלִי
- יעיל
- מַאֲמָצִים
- זכאי
- מה שמאפשר
- סוף
- נקודת קצה
- מהנדס
- לְהַבטִיחַ
- נכנס
- כניסה
- סביבה
- תקופה
- אֶתִי
- להעריך
- הערכה
- הערכה
- אֲפִילוּ
- עדות
- דוגמה
- דוגמאות
- אלא
- נרגש
- הוצאת להורג
- ניסיון
- תמצית
- פָּנִים
- אֱמוּנָה
- משפחה
- מעטים
- שלח
- קבצים
- ראשון
- הבא
- בעד
- להכריח
- זר
- רִשְׁמִי
- רשמית
- פוּרמָט
- קדימה
- ייסוד
- החל מ-
- מלא
- נוסף
- עתיד
- דור
- גנרטור
- לקבל
- נותן
- Go
- שערים
- ממשלות
- GPU
- יותר
- קרקע
- קְבוּצָה
- חומרה
- יש
- he
- לעזור
- עוזר
- לה
- כאן
- גָבוֹהַ
- פסים
- שֶׁלוֹ
- אירח
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- חיבוק פנים
- בן אנוש
- זכויות האדם
- אנושיות
- ID
- מזהה
- if
- אילינוי
- תמונה
- מיד
- יישום
- לייבא
- לשפר
- in
- לכלול
- כולל
- להגדיל
- עצמאות
- בנפרד
- בנפרד
- מידע
- תשתית
- בתחילה
- אי צדק
- קלט
- תשומות
- חקירה
- למשל
- במקום
- מכון
- ברמה בינלאומית
- פענוח
- אל תוך
- לחקור
- חקירה
- חקירות
- ישראל
- IT
- שֶׁלָה
- יָנוּאָר
- עבודה
- להצטרף
- הצטרפות
- jpg
- ג'סון
- שופט
- יוני
- שיפוט
- רק
- שופט
- מפתח
- לדעת
- נחיתה
- שפה
- גָדוֹל
- אחרון
- חֶבִיוֹן
- מאוחר יותר
- השקות
- למידה
- עזבו
- לתת
- בקלילות
- כמו
- אוהב
- קו
- קווים
- צמוד
- מְקַשֵׁר
- רשימה
- האזנה
- לִטעוֹן
- ארוך
- עוד
- נמוך
- מכונה
- למידת מכונה
- לעשות
- עשייה
- מצליח
- דרך
- רב
- מסומן
- מתאים
- תואם
- מתימטי
- מאי..
- אומר
- חבר
- להרשם/להתחבר
- חֲבֵרוּת
- זכרון
- שיטה
- מדדים
- מזעור
- ML
- מצב
- מודל
- מודלים
- חוֹדֶשׁ
- יותר
- המהלך
- כלי נגינה
- צריך
- שם
- טבעי
- עיבוד שפה טבעית
- הכרחי
- צורך
- משא ומתן
- לא זה ולא זה
- הולנד
- רשתות
- חדש
- חדשות
- הודעה לעיתונות
- מחברה
- עַכשָׁיו
- אובייקט
- להשיג
- of
- Office
- רשמית
- on
- ONE
- רק
- לפתוח
- קוד פתוח
- נפתח
- לְהִתְנַגֵד
- מִתנַגֵד
- or
- מְקוֹרִי
- OS
- שלנו
- הַחוּצָה
- תפוקה
- יותר
- חבילה
- עמוד
- פלסטין
- ניירות
- פרמטר
- פרמטרים
- חלק
- צד
- לעבור
- נתיב
- סלילה
- שלום
- אֲנָשִׁים
- לְבַצֵעַ
- הרשאות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אנא
- נקודה
- אפשרי
- הודעה
- לחזות
- חזה
- נבואה
- התחזיות
- חיזוי
- מועדף
- להכין
- מוּכָן
- תנאים מוקדמים
- נשיא
- לחץ
- ראשוני
- ראש ממשלה
- מנהל
- בעיה
- בעיות
- תהליך
- תהליכים
- תהליך
- מיוצר
- שגשוג
- לספק
- ובלבד
- מספק
- מתן
- לאור
- למטרות
- פיתון
- רכס
- מוכן
- ממשי
- זמן אמת
- שיא
- רשום
- אזכור
- מתייחס
- לשחרר
- הוסר
- שוב ושוב
- לדווח
- לבקש
- בקשות
- לדרוש
- נדרש
- דרישות
- חוקר
- משאבים
- תגובה
- תגובות
- אחריות
- אחראי
- תוצאה
- תוצאות
- לַחֲזוֹר
- החזרות
- סקירה
- זכויות
- תפקיד
- רומא
- שׁוּרָה
- הפעלה
- s
- בעל חכמים
- SageMaker Inference
- אמר
- אותו
- אמר
- תרחישים
- מדעים
- מַדְעָן
- ציון
- Sdk
- לִרְאוֹת
- מחפשים
- נבחר
- לשלוח
- לחצני מצוקה לפנסיונרים
- סדרה
- שירותים
- סט
- הצבה
- התקנה
- משותף
- היא
- צריך
- לְהַצִיג
- ראווה
- הופעות
- צדדים
- חָתוּם
- באופן דומה
- פָּשׁוּט
- since
- מצב
- מצבים
- מידה
- קטן
- So
- חֶברָתִי
- חֶברָה
- תוכנה
- פִּתָרוֹן
- פתרונות
- כמה
- לדבר
- מדבר
- הוצאה
- התחלה
- החל
- מדינה
- מחלקת המדינה
- מדינה-of-the-art
- הצהרה
- הברית
- סטטיסטי
- שלב
- צעדים
- עוד
- נעצר
- אחסון
- חנות
- מאוחסן
- פשוט
- אסטרטגי
- זרם
- נהירה
- בְּתוֹקֶף
- נושא
- לסכם
- סיכום
- קיץ
- תמיכה
- לקחת
- משימות
- לוקח
- המשימות
- משימות
- טק
- תבניות
- שטחים
- שטח
- מבחן
- מֵאֲשֶׁר
- זֶה
- השמיים
- המידע
- הולנד
- המדינה
- העולם
- שֶׁלָהֶם
- אותם
- אז
- לכן
- אלה
- הֵם
- זֶה
- אלה
- דרך
- תפוקה
- זמן
- סדרת זמן
- ל
- היום
- יַחַד
- קרוע
- לקראת
- רכבת
- לשנות
- שנאי
- התמרות
- תרגום
- נָכוֹן
- אמת
- סוג
- סוגים
- מערער
- מאוחד
- ארצות הברית
- אוניברסלי
- אוניברסיטה
- בניגוד
- העלאה
- על
- us
- להשתמש
- מְשׁוּמָשׁ
- באמצעות
- סגן הנשיא
- חזון
- כרכים
- W
- רוצה
- מִלחָמָה
- היה
- שעון
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- יום רביעי
- ברוך הבא
- בברכה
- טוֹב
- מה
- מתי
- אם
- אשר
- בזמן
- מי
- רָחָב
- טווח רחב
- יצטרך
- עם
- בתוך
- לְלֹא
- עובד
- עוֹלָם
- היה
- אתה
- זפירנט