בפוסט זה, אנו מראים לכם כיצד ליישם את אחד מהמודלים המאומנים מראש של חיבוק שהורדתם ביותר המשמשים לסיכום טקסט, DistilBART-CNN-12-6, בתוך מחברת Jupyter באמצעות אמזון SageMaker ו ערכת הכלים של SageMaker Hugging Face Inference. בהתבסס על השלבים המוצגים בפוסט זה, אתה יכול לנסות לסכם טקסט מה- WikiText-2 מערך נתונים מנוהל על ידי fast.ai, זמין ב רישום נתונים פתוחים ב- AWS.
נפחי הנתונים העולמיים גדלים בקנה מידה של זטה-בייט כאשר חברות וצרכנים מרחיבים את השימוש במוצרים דיגיטליים ובשירותים מקוונים. כדי להבין טוב יותר את הנתונים ההולכים וגדלים, טכניקות עיבוד שפה טבעית (NLP) של למידת מכונה (ML) לניתוח טקסט התפתחו כדי לתת מענה למקרי שימוש הכוללים סיכום טקסט, זיהוי ישויות, סיווג, תרגום ועוד. AWS מציעה הכשרה מוקדמת שירותי AWS AI שניתן לשלב באפליקציות באמצעות קריאות API ואינן דורשות ניסיון ב-ML. לדוגמה, אמזון להתבונן יכול לבצע משימות NLP כגון זיהוי ישויות מותאם אישית, ניתוח סנטימנטים, מיצוי ביטויי מפתח, מודלים של נושאים ועוד כדי לאסוף תובנות מטקסט. זה יכול לבצע ניתוח טקסט במגוון רחב של שפות על תכונותיו השונות.
סיכום טקסט הוא טכניקה מועילה בהבנת כמויות גדולות של נתוני טקסט מכיוון שהוא יוצר תת-קבוצה של מידע בעל משמעות מבחינה הקשרית ממסמכי מקור. אתה יכול ליישם את טכניקת ה-NLP הזו על מסמכי טקסט ומאמרים בעלי צורה ארוכה יותר, מה שמאפשר צריכה מהירה יותר ואינדקס יעיל יותר של מסמכים, למשל לסיכום הערות שיחות מפגישות.
פנים מחבקות היא ספריית קוד פתוח פופולרית עבור NLP, עם למעלה מ-49,000 דגמים מאומנים מראש ביותר מ-185 שפות עם תמיכה במסגרות שונות. ל-AWS ול-Huging Face יש שׁוּתָפוּת המאפשרת אינטגרציה חלקה דרך SageMaker עם סט של מיכלי למידה עמוקה של AWS (DLCs) לאימון והסקת הסקה ב- PyTorch או TensorFlow, ומעריכים וחיזאים של Hugging Face עבור SageMaker Python SDK. יכולות אלו ב- SageMaker עוזרות למפתחים ולמדעני נתונים להתחיל עם NLP ב-AWS ביתר קלות. עיבוד טקסטים עם שנאים במסגרות למידה עמוקה כגון PyTorch הוא בדרך כלל משימה מורכבת וגוזלת זמן עבור מדעני נתונים, שמובילה לרוב לתסכול וחוסר יעילות בעת פיתוח פרויקטי NLP. עלייתן של קהילות AI כמו Hugging Face, בשילוב עם העוצמה של שירותי ML בענן כמו SageMaker, מאיצים ומפשטים את הפיתוח של משימות עיבוד טקסט אלו. SageMaker עוזר לך לבנות, לאמן, לפרוס ולהפעיל מודלים של Hugging Face.
סקירת סיכום טקסט
אתה יכול להחיל סיכום טקסט כדי לזהות משפטי מפתח בתוך מסמך או לזהות משפטי מפתח על פני מספר מסמכים. סיכום טקסט יכול לייצר שני סוגים של סיכומים: מופשט ומופשט. סיכומים חילצוניים אינם מכילים טקסט שנוצר על ידי מכונה והם אוסף של משפטים חשובים שנבחרו ממסמך הקלט. סיכומים מופשטים מכילים ביטויים ומשפטים חדשים הניתנים לקריאה על ידי אדם שנוצרו על ידי מודל סיכום הטקסט. רוב מערכות סיכום הטקסט מבוססות על סיכום טקסט מופשט מכיוון שקשה להשיג סיכום טקסט מופשט מדויק.
לחבק פייס יש יותר מ-400 מתקדמים מאומנים מראש מודלים לסיכום טקסט זמינים, יישום שילובים שונים של טכניקות NLP. מודלים אלה מאומנים על מערכי נתונים שונים, מועלים ומתוחזקים על ידי חברות טכנולוגיה וחברים בקהילת Hugging Face. אתה יכול לסנן את הדגמים לפי רוב הורדת או הכי אהב, ולטעון אותם ישירות בעת השימוש צינור סיכום Hugging Face transformer API. שנאי Hugging Face מפשט את תהליך הטמעת NLP כך שניתן לכוונן דגמי NLP בעלי ביצועים גבוהים כדי לספק סיכומי טקסט, מבלי להידרש לידע נרחב בתפעול ML.
דגמי סיכום טקסט מחבקים ב-AWS
SageMaker מציעה לאנליסטים עסקיים, מדעני נתונים ומהנדסי MLOps מבחר של כלים לתכנון ולתפעול עומסי עבודה של ML ב-AWS. כלים אלה מספקים לך הטמעה ובדיקה מהירה יותר של מודלים של ML כדי להשיג את התוצאות האופטימליות שלך.
מ ערכת הכלים של SageMaker Hugging Face Inference, ספריית קוד פתוח, אנו מתארים שלוש דרכים שונות ליישם ולארח מודלים של סיכום טקסט של Hugging Face באמצעות מחברת Jupyter:
- צינור סיכום פנים מחבקים - ליצור צינור סיכום פנים מחבקים משתמש ב "
summarization
" מזהה משימות כדי להשתמש במודל ברירת מחדל לסיכום טקסט להסקת מסקנות בתוך מחברת Jupyter שלך. צינורות אלה מפשטים את הקוד המורכב, ומציעים למתרגלים מתחילים ב-ML API פשוט ליישום מהיר של סיכום טקסט מבלי להגדיר נקודת קצה להסקת מסקנות. הצינור גם מאפשר למטפל ב-ML לבחור דגם ספציפי שהוכשר מראש ואת הטוקנייז המשויך לו. אסימונים מכינים טקסט להיות מוכן כקלט עבור המודל על ידי פיצול טקסט למילים או למילות משנה, אשר לאחר מכן מומרות למזהות באמצעות טבלת חיפוש. לשם הפשטות, קטע הקוד הבא מספק את מקרה ברירת המחדל בעת שימוש בצינורות. ה DistilBART-CNN-12-6 model הוא אחד מדגמי הסיכום שהורדת ביותר ב-Huging Face והוא מודל ברירת מחדל עבור צינור הסיכום. השורה האחרונה קוראת למודל שהוכשר מראש כדי לקבל סיכום עבור הטקסט שעבר בהינתן שני הטיעונים שסופקו. - נקודת קצה של SageMaker עם דגם מיומן מראש – צור נקודת קצה של SageMaker עם דגם מאומן מראש מה- רכזת דוגמניות פנים מחבקות ופרסו אותו בנקודת קצה של מסקנות, כגון המופע ml.m5.xlarge בקטע הקוד הבא. שיטה זו מאפשרת למתרגלים מנוסים ב-ML לבחור במהירות מודלים ספציפיים של קוד פתוח, לכוונן אותם ולפרוס את המודלים על מופעי מסקנות בעלי ביצועים גבוהים.
- נקודת קצה של SageMaker עם דגם מיומן – צור נקודת קצה של מודל SageMaker עם מודל מאומן המאוחסן ב- שירות אחסון פשוט של אמזון (Amazon S3) דלי ופרוס אותו בנקודת קצה של מסקנות. שיטה זו מאפשרת למתרגלים מנוסים ב-ML לפרוס במהירות מודלים משלהם המאוחסנים ב-Amazon S3 על מופעי הסקה בעלי ביצועים גבוהים. הדגם עצמו מוריד מ- Hugging Face ומדחוס, ולאחר מכן ניתן להעלות אותו לאמזון S3. שלב זה מודגם בקטע הקוד הבא:
ל-AWS יש מספר משאבים זמינים כדי לסייע לך בפריסת עומסי העבודה שלך ב-ML. ה עדשת למידת מכונה של AWS Well Architected Framework ממליץ על שיטות עבודה מומלצות לעומסי עבודה של ML, כולל אופטימיזציה של משאבים והפחתת עלויות. עקרונות התכנון המומלצים הללו מבטיחים שעומסי עבודה של ML מתוכננים היטב ב-AWS ייפרסו לייצור. אמזון SageMaker Inference Recommend עוזר לך לבחור את המופע הנכון לפריסת דגמי ה-ML שלך בביצועים ובעלות אופטימלית. Inference Recommender מאיץ את פריסת המודל ומצמצם את זמן היציאה לשוק על ידי אוטומציה של בדיקות עומס ואופטימיזציה של ביצועי המודל על פני מופעי ML.
בסעיפים הבאים, נדגים כיצד לטעון דגם מאומן מדלי S3 ולפרוס אותו למופע המסקנות מתאים.
תנאים מוקדמים
לפריצת דרך זו, יהיו עליכם התנאים המוקדמים הבאים:
- An חשבון AWS.
- מחברת Jupyter בפנים סטודיו SageMaker של אמזון או מופעי מחברת SageMaker. בפוסט זה, אנו משתמשים בתמונת "Python 3 (PyTorch 1.4 Python 3.6 CPU Optimized)" עם קטעי הקוד שסופקו, אך אתה יכול להשתמש בכל תמונת PyTorch בגרסה גבוהה יותר. גרעינים זמינים של SageMaker.
- מערך נתונים בדלי S3 שלך, כגון WikiText-2 מערך נתונים מה - רישום נתונים פתוחים ב- AWS.
טען את המודל של Hugging Face ל- SageMaker להסקת סיכום טקסט
השתמש בקוד הבא כדי להוריד את מודל סיכום הטקסט המאומן מראש של Hugging Face DistilBART-CNN-12-6 ואת הטוקנייזר שלו, ושמור אותם באופן מקומי ב- SageMaker בספריית מחברת Jupyter שלך:
דחוס את מודל סיכום הטקסט השמור ואת האסימון שלו לפורמט tar.gz והעלה את חפץ המודל הדחוס לדלי S3:
בחר תמונת מיכל של מסקנות Docker כדי לבצע את מסקנת סיכום הטקסט. הגדר את מערכת ההפעלה Linux, PyTorch framework וגרסת Hugging Face Transformer וציין את ענן מחשוב אלסטי של אמזון (Amazon EC2) סוג מופע להפעלת המיכל.
תמונת Docker זמינה ב- מרשם מיכל אלסטי של אמזון (Amazon ECR) של אותו חשבון AWS, והקישור עבור תמונת המאגר הזה מוחזר כ-URI.
הגדר את מודל סיכום הטקסט שייפרס על ידי תמונת המכולה שנבחרה המבצעת מסקנות. בקטע הקוד הבא, המודל הדחוס שהועלה לאמזון S3 נפרס:
בדוק את מודל סיכום הטקסט שנפרס על קלט לדוגמה:
השתמש ב-Inference Recommender כדי להעריך את מופע ה-EC2 האופטימלי עבור משימת ההסקה
לאחר מכן, צור דוגמאות מטען מרובות של טקסט קלט בפורמט JSON ודחוס אותן לקובץ מטען יחיד. דגימות מטען אלה משמשות את המלצת ההסקה כדי להשוות ביצועי מסקנות בין סוגי מופעי EC2 שונים. כל אחד מהמטענים לדוגמה חייב להתאים לפורמט JSON שהוצג קודם לכן. אתה יכול לקבל דוגמאות מה WikiText-2 מערך נתונים מנוהל על ידי fast.ai, זמין ב רישום נתונים פתוחים ב- AWS.
העלה את חפץ מודל סיכום הטקסט הדחוס ואת קובץ המטען הדחוס לדוגמה לדלי S3. העלינו את המודל בשלב מוקדם יותר, אך לשם הבהרה אנו כוללים את הקוד להעלאתו שוב:
סקור את רשימת דגמי ה-ML הסטנדרטיים הזמינים ב- SageMaker ברחבי גני חיות נפוצים, כגון NLP וראייה ממוחשבת. בחר מודל NLP לביצוע מסקנת סיכום הטקסט:
הדוגמה הבאה משתמשת ב- bert-base-cased
דגם NLP. רשום את מודל סיכום הטקסט לתוך רישום מודלים של SageMaker עם התחום, המסגרת והמשימה שזוהו כהלכה מהשלב הקודם. הפרמטרים של דוגמה זו מוצגים בתחילת קטע הקוד הבא.
שים לב לטווח סוגי מופעי EC2 שיש להעריך על ידי Inference Recommender תחת SupportedRealtimeInferenceInstanceTypes
בקוד הבא. ודא כי מגבלות שירות עבור חשבון AWS לאפשר פריסה של סוגים אלה של צמתי הסקה.
צור משימת ברירת מחדל של המלצת מסקנות באמצעות ModelPackageVersion
כתוצאה מהשלב הקודם. ה uuid
ספריית Python משמשת ליצירת שם ייחודי עבור העבודה.
אתה יכול לקבל את הסטטוס של משימת המלצת מסקנות על ידי הפעלת הקוד הבא:
כאשר מצב העבודה הוא COMPLETED
, השווה את זמן ההסקה, זמן הריצה ומדדים אחרים של סוגי מופעי EC2 שהוערכו על ידי משימת ברירת המחדל של Inference Recommender. בחר את סוג הצומת המתאים בהתבסס על דרישות מקרה השימוש שלך.
סיכום
SageMaker מציעה מספר דרכים להשתמש בדגמי Hugging Face; לדוגמאות נוספות, בדוק את AWS דגימות GitHub. בהתאם למורכבות מקרה השימוש והצורך לכוונן את הדגם, תוכל לבחור את הדרך האופטימלית לשימוש במודלים אלה. הצינורות של Hugging Face יכולים להיות נקודת התחלה טובה להתנסות במהירות ולבחור דגמים מתאימים. כאשר אתה צריך להתאים אישית ולתאם פרמטרים של המודלים הנבחרים, אתה יכול להוריד את המודלים ולפרוס אותם לנקודות קצה מותאמות אישית. כדי לכוונן את הדגם יותר עבור מקרה שימוש ספציפי, תצטרך לאמן את הדגם לאחר הורדתו.
מודלים של NLP באופן כללי, כולל מודלים של סיכום טקסט, מתפקדים טוב יותר לאחר הכשרה על מערך נתונים ספציפי למקרה השימוש. ה-MLOPs ותכונות ניטור המודל של SageMaker מוודאות שהמודל שנפרס ממשיך לפעול בהתאם לציפיות. בפוסט זה, השתמשנו ב-Inference Recommender כדי להעריך את סוג המופע המתאים ביותר לפריסת מודל סיכום הטקסט. המלצות אלו יכולות לייעל את הביצועים והעלות עבור מקרה השימוש שלך ב-ML.
על הכותבים
ד"ר נידאל אלביירותי הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services, עם תשוקה לפתרונות למידת מכונה. לנידאל למעלה מ-25 שנות ניסיון בעבודה במגוון תפקידי IT גלובליים ברמות ובענפים שונים. נידאל משמש כיועץ מהימן עבור לקוחות AWS רבים כדי לתמוך ולהאיץ את מסע האימוץ שלהם בענן.
דארן קו הוא אדריכל פתרונות שבסיסו בלונדון. הוא מייעץ ללקוחות SMB בבריטניה ובאירלנד בתכנון מחדש וחידוש בענן. דארן מתעניין ביישומים שנבנו עם ארכיטקטורות ללא שרתים והוא נלהב בפתרון אתגרי קיימות עם למידת מכונה.
- '
- "
- 000
- 10
- 100
- 28
- a
- אודות
- תקציר
- להאיץ
- חֶשְׁבּוֹן
- מדויק
- להשיג
- לרוחב
- כתובת
- אימוץ
- יועץ
- AI
- מאפשר
- אמזון בעברית
- אמזון שירותי אינטרנט
- כמויות
- אנליזה
- API
- תפוח עץ
- יישומים
- החל
- טיעונים
- מאמרים
- המשויך
- אוטומציה
- זמין
- הוענק
- AWS
- כי
- ההתחלה
- להיות
- הטוב ביותר
- שיטות עבודה מומלצות
- בֵּין
- לִבנוֹת
- עסקים
- שיחה
- יכול לקבל
- יכולות
- מקרה
- מקרים
- האתגרים
- בחירה
- בכיתה
- מיון
- ענן
- קוד
- אוסף
- שילובים
- משולב
- הקהילות
- קהילה
- חברות
- מורכב
- לחשב
- המחשב
- תְצוּרָה
- צרכנים
- צְרִיכָה
- מכולה
- מכולות
- ממשיך
- לִיצוֹר
- יוצר
- מנהג
- לקוחות
- אישית
- נתונים
- יְוֹם
- עמוק
- מסירה
- להפגין
- מופגן
- תלוי
- לפרוס
- פרס
- פריסה
- פריסה
- עיצוב
- מפתחים
- מתפתח
- צעצועי התפתחות
- אחר
- קשה
- דיגיטלי
- ישירות
- לְהַצִיג
- סַוָר
- דוֹקטוֹר
- מסמכים
- תחום
- תחומים
- להורדה
- כל אחד
- בקלות
- אפקטיבי
- יְעִילוּת
- מה שמאפשר
- נקודת קצה
- מהנדסים
- ישות
- סביבה
- להעריך
- דוגמה
- דוגמאות
- לְהַרְחִיב
- הציפיות
- ניסיון
- מנוסה
- לְנַסוֹת
- נרחב
- פָּנִים
- מהר
- מהר יותר
- תכונות
- הבא
- פוּרמָט
- מסגרת
- מסגרות
- החל מ-
- כללי
- ליצור
- נוצר
- גלוֹבָּלִי
- טוב
- גדל
- לעזור
- מועיל
- עוזר
- גבוה יותר
- איך
- איך
- HTTPS
- טבור
- קריא אדם
- לזהות
- תמונה
- ליישם
- הפעלה
- יישום
- חשוב
- לכלול
- כולל
- מידע
- חדשנות
- קלט
- תובנות
- למשל
- משולב
- השתלבות
- מעוניין
- אירלנד
- IT
- עצמו
- עבודה
- מסע
- מפתח
- ידע
- שפה
- שפות
- גָדוֹל
- מוביל
- למידה
- רמות
- סִפְרִיָה
- גבולות
- קו
- קשר
- לינוקס
- רשימה
- לִטעוֹן
- באופן מקומי
- לונדון
- בדיקה
- מכונה
- למידת מכונה
- לעשות
- שוק
- להתאים
- משמעותי
- פגישות
- להרשם/להתחבר
- מדדים
- ML
- מודל
- מודלים
- ניטור
- יותר
- רוב
- מספר
- טבעי
- הבא
- צמתים
- מחברה
- הערות
- הצעה
- המיוחדות שלנו
- באינטרנט
- לפתוח
- להפעיל
- מבצע
- מטב
- אופטימיזציה
- מיטוב
- אחר
- שֶׁלוֹ
- תשוקה
- לוהט
- ביצועים
- ביצוע
- ביטויים
- נקודה
- פופולרי
- כּוֹחַ
- להכין
- קודם
- תהליך
- תהליך
- לייצר
- הפקה
- מוצרים
- פרויקטים
- לספק
- ובלבד
- מספק
- מהירות
- רכס
- ממליצה
- הפחתה
- באזור
- הירשם
- לבקש
- לדרוש
- דרישות
- משאבים
- וכתוצאה מכך
- תפקיד
- הפעלה
- ריצה
- אותו
- סולם
- מדענים
- Sdk
- בצורה חלקה
- נבחר
- רגש
- ללא שרת
- שירותים
- סט
- כמה
- הראה
- פָּשׁוּט
- יחיד
- So
- פתרונות
- ספציפי
- מהירויות
- תֶקֶן
- החל
- מדינה-of-the-art
- מצב
- אחסון
- תמיכה
- קיימות
- מערכות
- משימות
- טכניקות
- טכנולוגיה
- בדיקות
- השמיים
- שְׁלוֹשָׁה
- דרך
- זמן
- דורש זמן רב
- כלים
- נושא
- הדרכה
- תרגום
- מהימן
- סוגים
- בדרך כלל
- Uk
- תחת
- להבין
- הבנה
- ייחודי
- להשתמש
- מגוון
- שונים
- גרסה
- אנכיות
- חזון
- כרכים
- דרכים
- אינטרנט
- שירותי אינטרנט
- בתוך
- לְלֹא
- מילים
- עובד
- X
- שנים