בינה מלאכותית (AI) ולמידת מכונה (ML) זכו לאימוץ נרחב בארגונים ארגוניים וממשלתיים. עיבוד נתונים לא מובנים הפך לקל יותר עם ההתקדמות בעיבוד שפה טבעית (NLP) ושירותי AI/ML ידידותיים למשתמש כמו טקסטורה באמזון, אמזון תעתיק, ו אמזון להתבונן. ארגונים החלו להשתמש בשירותי AI/ML כמו Amazon Comprehend כדי לבנות מודלים של סיווג עם הנתונים הלא מובנים שלהם כדי לקבל תובנות עמוקות שלא היו להם קודם לכן. למרות שאתה יכול להשתמש במודלים שעברו הכשרה מראש במינימום מאמץ, ללא איסוף נכון של נתונים והתאמת מודלים, אתה לא יכול לממש את מלוא היתרונות של מודלים של AI/ML.
בפוסט זה, אנו מסבירים כיצד לבנות ולייעל מודל סיווג מותאם אישית באמצעות Amazon Comprehend. אנו מדגימים זאת באמצעות סיווג מותאם אישית של Amazon Comprehend לבניית מודל סיווג מותאם אישית מרובה תוויות, ומספקים הנחיות כיצד להכין את מערך ההדרכה ולכוונן את המודל כך שיעמוד במדדי ביצועים כגון דיוק, דיוק, זכירה וציון F1. אנו משתמשים בחפצי פלט האימון של מודל Amazon Comprehend כמו מטריצת בלבול כדי לכוון את ביצועי המודל ולהדריך אותך בשיפור נתוני האימון שלך.
סקירת פתרונות
פתרון זה מציג גישה לבניית מודל סיווג מותאם אישית באמצעות Amazon Comprehend. אנו עוברים מספר שלבים, כולל הכנת נתונים, יצירת מודל, ניתוח מדדי ביצועי מודל ואופטימיזציה של מסקנות על סמך הניתוח שלנו. אנו משתמשים ב- אמזון SageMaker מחברה ו קונסולת הניהול של AWS כדי להשלים חלק מהשלבים הללו.
אנו גם עוברים על שיטות עבודה מומלצות וטכניקות אופטימיזציה במהלך הכנת נתונים, בניית מודל וכוונון מודל.
תנאים מוקדמים
אם אין לך מופע מחברת SageMaker, אתה יכול ליצור אחד. להנחיות, עיין ב צור מופע מחברת מחברת אמזון SageMaker.
הכינו את הנתונים
לניתוח זה, אנו משתמשים במערך הנתונים של סיווג הערות רעילות מ קגל. מערך נתונים זה מכיל 6 תוויות עם 158,571 נקודות נתונים. עם זאת, לכל תווית יש רק פחות מ-10% מסך הנתונים כדוגמאות חיוביות, כאשר לשניים מהתוויות יש פחות מ-1%.
אנו ממירים את מערך הנתונים הקיים של Kaggle ל- Amazon Comprehend בפורמט CSV דו-עמודות עם התוויות מפוצלות באמצעות מפריד צינור (|). Amazon Comprehend מצפה לפחות תווית אחת עבור כל נקודת נתונים. במערך הנתונים הזה, אנו נתקלים במספר נקודות נתונים שאינן נופלות תחת אף אחת מהתוויות שסופקו. אנו יוצרים תווית חדשה בשם נקי ומקצים כל אחת מנקודות הנתונים שאינן רעילות להיות חיוביות עם התווית הזו. לבסוף, חילקנו את מערכי הנתונים שנאספו למערכי נתונים של הדרכה ובדיקה תוך שימוש בחלוקה ביחס של 80/20 לכל תווית.
אנו נשתמש במחברת הכנת נתונים. השלבים הבאים משתמשים במערך הנתונים של Kaggle ומכינים את הנתונים למודל שלנו.
- במסוף SageMaker בחר מופעי מחברת בחלונית הניווט.
- בחר את מופע המחברת שהגדרת ובחר פתח את צדק.
- על חדש בתפריט, בחר מסוף.
- הפעל את הפקודות הבאות בטרמינל כדי להוריד את החפצים הנדרשים עבור פוסט זה:
- סגור את חלון הטרמינל.
אתה אמור לראות שלוש מחברות ו train.csv קבצים.
- בחר את המחברת Data-Preparation.ipynb.
- הפעל את כל השלבים במחברת.
שלבים אלה מכינים את מערך הנתונים הגולמי של Kaggle כדי לשמש כמערכי נתונים של אימון ובדיקה. מערכי נתונים שנאספו יאוחסנו במחברת ו שירות אחסון פשוט של אמזון (אמזון S3).
שקול את ההנחיות הבאות להכנת נתונים כאשר אתה מתמודד עם מערכי נתונים מרובי תוויות בקנה מידה גדול:
- מערכי נתונים חייבים לכלול לפחות 10 דוגמאות לכל תווית.
- Amazon Comprehend מקבל מקסימום 100 תוויות. זוהי גבול רך שניתן להגדיל.
- ודא שקובץ הנתונים הוא בפורמט נכון עם התוחם המתאים. תווי תוחם שגויים עלולים להציג תוויות ריקות.
- כל נקודות הנתונים חייבות להיות עם תוויות.
- מערכי נתונים להדרכה ובדיקה צריכים להיות בעלי חלוקת נתונים מאוזנת לכל תווית. אל תשתמש בהפצה אקראית מכיוון שהיא עלולה להכניס הטיה במערך הנתונים של ההדרכה והבדיקה.
בניית מודל סיווג מותאם אישית
אנו משתמשים במערך ההדרכה והבדיקות שנאספו שיצרנו במהלך שלב הכנת הנתונים כדי לבנות את המודל שלנו. השלבים הבאים יוצרים מודל סיווג מותאם אישית של Amazon Comprehend מרובה תוויות:
- במסוף Comprehend של אמזון, בחר סיווג מותאם אישית בחלונית הניווט.
- בחרו צור דגם חדש.
- בעד שם דגם, היכנס למודל-toxic-classification-model.
- בעד שם הגרסה, הזן 1.
- בעד הערות ופורמט נתונים, בחר שימוש במצב ריבוי תוויות.
- בעד מערך נתונים לאימון, הזן את המיקום של מערך ההדרכה שנאסף ב-Amazon S3.
- בחרו הלקוח סיפק מערך נתונים לבדיקה והזן את המיקום של נתוני הבדיקה שנאספו באמזון S3.
- בעד נתוני פלט, הזן את המיקום של Amazon S3.
- בעד תפקיד IAM, בחר צור תפקיד IAM, ציין את סיומת השם בתור "comprehend-blog".
- בחרו צור כדי להתחיל את אימון מודל הסיווג המותאם אישית ויצירת מודל.
צילום המסך הבא מציג את פרטי מודל הסיווג המותאם אישית בקונסולת Amazon Comprehend.
כוונן לביצועי הדגם
צילום המסך הבא מציג את מדדי הביצועים של המודל. הוא כולל מדדי מפתח כמו דיוק, זכירה, ציון F1, דיוק ועוד.
לאחר הדרכה ויצירת המודל, הוא יפיק את הקובץ output.tar.gz, המכיל את התוויות ממערך הנתונים וכן את מטריצת הבלבול עבור כל אחת מהתוויות. כדי לכוון עוד יותר את ביצועי החיזוי של המודל, עליך להבין את המודל שלך עם הסתברויות הניבוי עבור כל מחלקה. לשם כך, עליך ליצור עבודת ניתוח כדי לזהות את הציונים שהקצתה Amazon Comprehend לכל אחת מנקודות הנתונים.
השלם את השלבים הבאים כדי ליצור עבודת ניתוח:
- במסוף Comprehend של אמזון, בחר עבודות ניתוח בחלונית הניווט.
- בחרו צור עבודה.
- בעד שם, להיכנס
toxic_train_data_analysis_job
. - בעד סוג ניתוח, בחר סיווג מותאם אישית.
- בעד דגמי סיווג וגלגלי תנופה, לפרט
toxic-classification-model
. - בעד גִרְסָה, ציין 1.
- בעד קלט נתונים מיקום S3, הזן את המיקום של קובץ נתוני ההדרכה שנאספו.
- בעד פורמט הכנסה, בחר מסמך אחד בכל שורה.
- בעד נתוני פלט מיקום S3, הזן את המיקום.
- בעד הרשאות גישה, בחר השתמש בתפקיד IAM קיים ובחר את התפקיד שנוצר קודם לכן.
- בחרו צור עבודה כדי להתחיל את עבודת הניתוח.
- בחר עבודות ניתוח לצפייה בפרטי המשרה. אנא רשום את מזהה המשרה תחת פרטי המשרה. אנו נשתמש במזהה המשרה בשלב הבא שלנו.
חזור על השלבים לתחילת עבודת הניתוח עבור נתוני הבדיקה שנאספו. אנו משתמשים בתפוקות הניבוי מעבודות הניתוח שלנו כדי ללמוד על הסתברויות הניבוי של המודל שלנו. אנא רשום את מזהי התפקיד של עבודות הדרכה וניתוח מבחנים.
אנו משתמשים Model-Threshold-Analysis.ipynb מחברת כדי לבדוק את הפלטים על כל הספים האפשריים ולציון את הפלט בהתבסס על הסתברות החיזוי באמצעות ה-scikit-learn's precision_recall_curve
פוּנקצִיָה. בנוסף, אנו יכולים לחשב את ציון F1 בכל סף.
נצטרך את מזהי העבודה של Amazon Comprehend כקלט עבור מודל-סף-ניתוח מחברת. אתה יכול לקבל את מזהי העבודה ממסוף Amazon Comprehend. בצע את כל השלבים פנימה מודל-סף-ניתוח מחברת לשמירה על הספים לכל השיעורים.
שימו לב כיצד הדיוק עולה ככל שהסף עולה, בעוד שההיפוך מתרחש עם היזכרות. כדי למצוא את האיזון בין השניים, אנו משתמשים בציון F1 שבו יש לו פסגות גלויות בעקומה שלהם. השיאים בציון F1 תואמים לסף מסוים שיכול לשפר את ביצועי הדגם. שימו לב כיצד רוב התוויות נופלות בסביבות ה-0.5 עבור הסף מלבד תווית האיום, שיש לה סף בסביבות 0.04.
לאחר מכן נוכל להשתמש בסף הזה עבור תוויות ספציפיות שביצוען נמוך רק עם סף ברירת המחדל של 0.5. על ידי שימוש בספים האופטימליים, תוצאות המודל על נתוני הבדיקה משתפרות עבור איום התווית מ-0.00 ל-0.24. אנו משתמשים בציון ה-F1 המקסימלי בסף כבנצ'מרק כדי לקבוע חיובי לעומת שלילי עבור התווית הזו במקום בנצ'מרק משותף (ערך סטנדרטי כמו > 0.7) עבור כל התוויות.
טיפול בכיתות חסרות ייצוג
גישה נוספת יעילה עבור מערך נתונים לא מאוזן היא דגימת יתר. על ידי דגימת יתר של המחלקה המיוצגת בתת, המודל רואה את המחלקה מיוצגת בתדירות גבוהה יותר ומדגיש את החשיבות של המדגמים הללו. אנו משתמשים ב- Oversampling-underrepresented.ipynb מחברת כדי לייעל את מערכי הנתונים.
עבור מערך נתונים זה, בדקנו כיצד ביצועי המודל במערך הנתונים של ההערכה משתנים ככל שאנו מספקים דוגמאות נוספות. אנו משתמשים בטכניקת דגימת יתר כדי להגביר את ההתרחשות של מחלקות מיוצגות בחסר כדי לשפר את הביצועים.
במקרה הספציפי הזה, בדקנו על 10, 25, 50, 100, 200 ו-500 דוגמאות חיוביות. שימו לב שלמרות שאנו חוזרים על נקודות נתונים, אנו משפרים מטבענו את הביצועים של המודל על ידי הדגשת החשיבות של המעמד מיוצג חסר.
עלות
עם Amazon Comprehend, אתה משלם תוך כדי תנועה בהתבסס על מספר תווי הטקסט שעובדו. מתייחס אמזון להבין מחירים עבור עלויות בפועל.
לנקות את
כשתסיים להתנסות בפתרון זה, נקה את המשאבים שלך כדי למחוק את כל המשאבים שנפרסו בדוגמה זו. זה עוזר לך להימנע מהמשך העלויות בחשבון שלך.
סיכום
בפוסט זה, סיפקנו שיטות עבודה מומלצות והדרכה על הכנת נתונים, כוונון מודלים תוך שימוש בהסתברויות חיזוי וטכניקות לטיפול במחלקות נתונים מיוצגים בחסר. אתה יכול להשתמש בשיטות ובטכניקות מומלצות אלה כדי לשפר את מדדי הביצועים של מודל הסיווג המותאם אישית שלך ב-Amazon Comprehend.
למידע נוסף על Amazon Comprehend, בקר משאבי מפתחים של Amazon Comprehend כדי למצוא משאבי וידאו ופוסטים בבלוג, ולהתייחס אליהם AWS Comprehend שאלות נפוצות.
על הכותבים
סתיה בלקרישנן הוא אדריכל Sr. Customer Delivery בצוות השירותים המקצועיים ב-AWS, המתמחה בפתרונות נתונים ו-ML. הוא עובד עם לקוחות פיננסיים פדרליים בארה"ב. הוא נלהב מבניית פתרונות פרגמטיים לפתרון בעיות עסקיות של לקוחות. בזמנו הפנוי הוא נהנה לצפות בסרטים ולטייל עם משפחתו.
הנסיך מלרי הוא NLP Data Scientist בצוות השירותים המקצועיים ב-AWS, המתמחה ביישומי NLP עבור לקוחות במגזר הציבורי. הוא נלהב להשתמש ב-ML ככלי כדי לאפשר ללקוחות להיות פרודוקטיביים יותר. בזמנו הפנוי הוא נהנה לשחק משחקי וידאו ולפתח אחד עם חבריו.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- :יש ל
- :הוא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- אודות
- מקבל
- חֶשְׁבּוֹן
- דיוק
- לרוחב
- ממשי
- בנוסף
- אימוץ
- התקדמות
- AI
- AI / ML
- תעשיות
- להתיר
- גם
- למרות
- אמזון בעברית
- אמזון להתבונן
- אמזון SageMaker
- אמזון שירותי אינטרנט
- an
- אנליזה
- ו
- כל
- יישומים
- יישומים של NLP
- גישה
- ARE
- סביב
- AS
- נכסים
- שהוקצה
- At
- לְהִמָנַע
- AWS
- איזון
- מבוסס
- BE
- כי
- להיות
- לפני
- בנצ 'מרק
- הטבות
- הטוב ביותר
- שיטות עבודה מומלצות
- בֵּין
- הטיה
- בלוג
- בלוג הודעות
- לִבנוֹת
- בִּניָן
- עסקים
- by
- נקרא
- CAN
- יכול לקבל
- מקרה
- שינויים
- תווים
- בחרו
- בכיתה
- כיתות
- מיון
- לקוחות
- הערה
- Common
- להשלים
- לִהַבִין
- לחשב
- מוגדר
- בלבול
- קונסול
- מכיל
- ממשיך
- להמיר
- עלויות
- לִיצוֹר
- נוצר
- יצירה
- אוצר
- אוצרות
- זונה
- מנהג
- לקוח
- לקוחות
- נתונים
- נקודות מידע
- הכנת נתונים
- מדען נתונים
- מערכי נתונים
- התמודדות
- עמוק
- בְּרִירַת מֶחדָל
- מסירה
- להפגין
- פרס
- פרטים
- לקבוע
- מפתח
- מתפתח
- הפצה
- do
- מסמך
- לא
- להורדה
- בְּמַהֲלָך
- כל אחד
- קל יותר
- אפקטיבי
- מאמץ
- מדגיש
- הדגשת
- זן
- מִפְעָל
- הערכה
- דוגמה
- דוגמאות
- אלא
- לבצע
- קיימים
- מצפה
- להסביר
- f1
- ליפול
- משפחה
- פדרלי
- שלח
- קבצים
- בסופו של דבר
- כספי
- הבא
- בעד
- חברים
- החל מ-
- מלא
- פונקציה
- נוסף
- משחקים
- ליצור
- לקבל
- Go
- Goes
- ממשלה
- הדרכה
- מדריך
- הנחיות
- לטפל
- יש
- יש
- he
- עוזר
- שֶׁלוֹ
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- ID
- לזהות
- מזהה
- חשיבות
- לשפר
- שיפור
- in
- כולל
- כולל
- להגדיל
- גדל
- מידע
- מטבע הדברים
- קלט
- תובנות
- למשל
- במקום
- הוראות
- מוֹדִיעִין
- אל תוך
- מבוא
- IT
- עבודה
- מקומות תעסוקה
- רק
- מפתח
- תווית
- תוויות
- שפה
- בקנה מידה גדול
- לִלמוֹד
- למידה
- הכי פחות
- פחות
- כמו
- להגביל
- מיקום
- מכונה
- למידת מכונה
- לעשות
- ניהול
- סימן
- מַטרִיצָה
- מקסימום
- מקסימום
- לִפְגוֹשׁ
- תפריט
- מטרי
- מדדים
- יכול
- מינימלי
- מינימום
- ML
- מודל
- מודלים
- יותר
- רוב
- סרטים
- צריך
- שם
- טבעי
- עיבוד שפה טבעית
- ניווט
- צורך
- שלילי
- חדש
- הבא
- NLP
- מחברה
- הודעה..
- מספר
- להתבונן
- הִתרַחֲשׁוּת
- of
- לעתים קרובות
- on
- ONE
- רק
- אופטימיזציה
- מטב
- אופטימיזציה
- מיטוב
- ארגונים
- שלנו
- תפוקה
- זגוגית
- מסוים
- לוהט
- תשלום
- עבור
- ביצועים
- לבחור
- מקטרת
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- משחק
- אנא
- נקודה
- נקודות
- חיובי
- אפשרי
- הודעה
- הודעות
- פרקטיקות
- פרגמטי
- דיוק
- נבואה
- הכנה
- להכין
- מתנות
- קוֹדֶם
- בעיות
- מעובד
- תהליך
- פּרוּדוּקטִיבִי
- מקצועי
- תָקִין
- לספק
- ובלבד
- ציבורי
- איכות
- אקראי
- יחס
- חי
- להבין
- להתייחס
- נדרש
- משאבים
- תוצאות
- תפקיד
- בעל חכמים
- מַדְעָן
- ציון
- מגזר
- לִרְאוֹת
- לראות
- רואה
- לשרת
- שירותים
- כמה
- צריך
- הופעות
- פָּשׁוּט
- רך
- פִּתָרוֹן
- פתרונות
- לפתור
- כמה
- מתמחה
- ספציפי
- לפצל
- תֶקֶן
- התחלה
- החל
- שלב
- צעדים
- אחסון
- מאוחסן
- כזה
- לקחת
- נבחרת
- טכניקה
- טכניקות
- מסוף
- מבחן
- נבדק
- טֶקסט
- מֵאֲשֶׁר
- זֶה
- השמיים
- שֶׁלָהֶם
- אז
- אלה
- הֵם
- זֶה
- אלה
- איום
- שְׁלוֹשָׁה
- סף
- דרך
- זמן
- ל
- כלי
- סה"כ
- מְאוּמָן
- הדרכה
- שתיים
- תחת
- מיוצג פחות
- להבין
- us
- ארה"ב פדרלי
- להשתמש
- ידידותי למשתמש
- באמצעות
- ערך
- וִידֵאוֹ
- משחקי וידאו
- לצפיה
- נראה
- לְבַקֵר
- vs
- צופה
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- מתי
- אשר
- בזמן
- נָפוֹץ
- יצטרך
- חלון
- עם
- לְלֹא
- עובד
- אתה
- זפירנט
- רוכסן