מדדים להערכת ניהול תוכן ב-Amazon Rekognition ושירותי ניהול תוכן אחרים PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מדדים להערכת ניהול תוכן ב-Amazon Rekognition ושירותי ניהול תוכן אחרים

ניהול תוכן הוא תהליך של סינון וניטור תוכן שנוצר על ידי משתמשים באינטרנט. כדי לספק סביבה בטוחה הן למשתמשים והן למותגים, פלטפורמות חייבות למתן תוכן כדי להבטיח שהוא נופל בהנחיות שנקבעו מראש של התנהגות מקובלת הספציפית לפלטפורמה ולקהל שלה.

כאשר פלטפורמה מנחה תוכן, ניתן ליצור תוכן מקובל שנוצר על ידי משתמשים (UGC) ולשתף אותו עם משתמשים אחרים. התנהגויות לא הולמות, רעילות או אסורות ניתן למנוע, לחסום בזמן אמת או להסיר לאחר מעשה, בהתאם לכלי ניהול התוכן והנהלים שיש לפלטפורמה.

אתה יכול להשתמש ניהול תוכן זיהוי אמזון לזהות תוכן שאינו הולם, לא רצוי או פוגעני, כדי ליצור חווית משתמש בטוחה יותר, לספק הבטחות בטיחות מותג למפרסמים ולציית לתקנות המקומיות והגלובליות.

בפוסט זה, אנו דנים במרכיבי המפתח הדרושים להערכת היבט הביצועים של שירות ניהול תוכן במונחים של מדדי דיוק שונים, ומספקים דוגמה באמצעות אמזון זיהוי ממשקי API של ניהול תוכן.

מה להעריך

בעת הערכה של שירות ניהול תוכן, אנו ממליצים על השלבים הבאים.

לפני שתוכל להעריך את הביצועים של ה-API במקרי השימוש שלך, עליך להכין מערך בדיקה מייצג. להלן כמה הנחיות ברמה גבוהה:

  • אוספים - קח מדגם אקראי גדול מספיק (תמונות או סרטונים) של הנתונים שבסופו של דבר תרצה להפעיל דרך אמזון זיהוי. לדוגמה, אם אתה מתכנן למתן תמונות שהועלו על ידי משתמשים, תוכל לקחת תמונות משתמש בשווי שבוע לבדיקה. אנו ממליצים לבחור סט שיש לו מספיק תמונות מבלי להיות גדולות מדי לעיבוד (כגון 1,000–10,000 תמונות), אם כי סטים גדולים יותר טובים יותר.
  • הַגדָרָה - השתמש בהנחיות התוכן של האפליקציה שלך כדי להחליט אילו סוגי תוכן לא בטוח אתה מעוניין לזהות מהזיהוי של אמזון טקסונומיה של מושגי מתינות. לדוגמה, ייתכן שתהיה מעוניין לזהות את כל סוגי העירום המפורש ואלימות גרפית או שטף.
  • ביאור - עכשיו אתה צריך אמת קרקע שנוצרה על ידי אדם עבור מערך הבדיקות שלך באמצעות התוויות שנבחרו, כדי שתוכל להשוות תחזיות מכונה מולן. המשמעות היא שכל תמונה מסומנת לנוכחות או היעדר המושגים שבחרת. כדי להוסיף הערות לנתוני התמונה שלך, אתה יכול להשתמש האמת של אמזון SageMaker (GT) לניהול הערות תמונה. אתה יכול להתייחס GT עבור תיוג תמונה, איחוד הערות ו עיבוד פלט הערות.

קבל תחזיות על מערך הנתונים של הבדיקה שלך עם Amazon Rekognition

לאחר מכן, אתה רוצה לקבל תחזיות על מערך הנתונים של הבדיקה שלך.

הצעד הראשון הוא להחליט על ציון ביטחון מינימלי (ערך סף, כגון 50%) שבו רוצים למדוד תוצאות. סף ברירת המחדל שלנו מוגדר ל-50, מה שמציע איזון טוב בין שליפת כמויות גדולות של תוכן לא בטוח מבלי לגרום ליותר מדי תחזיות שווא על תוכן בטוח. עם זאת, לפלטפורמה שלך עשויים להיות צרכים עסקיים שונים, לכן עליך להתאים אישית את סף הביטחון הזה לפי הצורך. אתה יכול להשתמש ב MinConfidence פרמטר בבקשות ה-API שלך כדי לאזן בין זיהוי תוכן (ריקול) לבין דיוק הזיהוי (דיוק). אם תפחית MinConfidence, סביר להניח שתזהה את רוב התוכן הבלתי הולם, אך סביר להניח שגם תקלוט תוכן שאינו בלתי הולם בפועל. אם תגדיל MinConfidence סביר להניח שתוודא שכל התוכן שזוהה באמת לא הולם, אך ייתכן שחלק מהתוכן לא יתויג. אנו מציעים להתנסות עם כמה MinConfidence ערכים במערך הנתונים שלך ובחר כמותית את הערך הטוב ביותר עבור תחום הנתונים שלך.

לאחר מכן, הפעל כל דוגמה (תמונה או סרטון) של ערכת הבדיקה שלך דרך ה-API של ניהול זיהוי של אמזון (DetectModerationLabels).

מדידת דיוק המודל בתמונות

אתה יכול להעריך את הדיוק של מודל על ידי השוואת הערות אמת קרקע שנוצרו על ידי אדם עם תחזיות המודל. אתה חוזר על ההשוואה הזו עבור כל תמונה באופן עצמאי ואז מצטבר על כל מערך הבדיקה:

  • תוצאות לכל תמונה – חיזוי מודל מוגדר כצמד {label_name, confidence_score} (כאשר ציון הביטחון >= הסף שבחרת קודם לכן). עבור כל תמונה, תחזית נחשבת נכונה כאשר היא תואמת את האמת הבסיסית (GT). חיזוי היא אחת מהאפשרויות הבאות:
    • חיובי אמיתי (TP): גם חיזוי וגם GT הם "לא בטוחים"
    • שלילי אמיתי (TN): גם חיזוי וגם GT הם "בטוחים"
    • חיובי כוזב (FP): התחזית אומרת "לא בטוח", אבל ה-GT הוא "בטוח"
    • שלילי כוזב (FN): התחזית היא "בטוחה", אבל ה-GT היא "לא בטוחה"
  • תוצאות מצטברות על כל התמונות - לאחר מכן, אתה יכול לצבור את התחזיות האלה לתוצאות ברמת מערך הנתונים:
    • שיעור חיובי כוזב (FPR) – זהו אחוז התמונות בערכת הבדיקה שסומנו בטעות על ידי הדגם כמכילות תוכן לא בטוח: (FP): FP / (TN+FP).
    • שיעור שלילי כוזב (FNR) – זהו אחוז התמונות הלא בטוחות בערכת הבדיקה שהדגם מחמיץ: (FN): FN / (FN+TP).
    • שיעור חיובי אמיתי (TPR) – נקרא גם ריקול, זה מחשב את האחוז של תוכן לא בטוח (האמת הקרקע) שמתגלה נכון או חזוי על ידי המודל: TP / (TP + FN) = 1 – FNR.
    • דיוק - זה מחשב את אחוז התחזיות הנכונות (תוכן לא בטוח) ביחס למספר הכולל של התחזיות שנעשו: TP / (TP+FP).

בואו נחקור דוגמה. נניח שמערכת הבדיקה שלך מכילה 10,000 תמונות: 9,950 בטוחות ו-50 לא בטוחות. הדגם חוזה נכון 9,800 מתוך 9,950 תמונות בטוחות ו-45 מתוך 50 לא בטוחות:

  • TP = 45
  • TN = 9800
  • FP = 9950 - 9800 = 150
  • FN = 50 - 45 = 5
  • FPR = 150 / (9950 + 150) = 0.015 = 1.5%
  • FNR = 5 / (5 + 45) = 0.1 = 10%
  • TPR/ריקול = 45 / (45 + 5) = 0.9 = 90%
  • דיוק = 45 / (45 + 150) = 0.23 = 23%

מדידת דיוק המודל בסרטונים

אם ברצונך להעריך את הביצועים בסרטונים, יש צורך במספר שלבים נוספים:

  1. דגום קבוצת משנה של פריימים מכל סרטון. אנו מציעים דגימה אחידה עם קצב של 0.3-1 פריימים לשנייה (fps). לדוגמה, אם סרטון וידאו מקודד במהירות של 24 פריימים לשנייה ואתה רוצה לדגום פריים אחד כל 3 שניות (0.3 פריימים לשנייה), עליך לבחור אחד בכל 72 פריימים.
  2. הפעל את המסגרות המדוגמות הללו באמצעות ניהול תוכן של Amazon Rekognition. אתה יכול להשתמש ב-API של הווידאו שלנו, שכבר דוגם עבורך פריימים (בקצב של 3 פריימים לשנייה), או להשתמש ב-API של תמונה, ובמקרה זה אתה רוצה לדגום באופן דליל יותר. אנו ממליצים על האפשרות השנייה, בהתחשב בריבוי המידע בסרטונים (פריימים עוקבים דומים מאוד).
  3. חשב את התוצאות לכל מסגרת כפי שהוסבר בסעיף הקודם (תוצאות לכל תמונה).
  4. צבירת תוצאות על כל מערך הבדיקות. כאן יש לך שתי אפשרויות, בהתאם לסוג התוצאה שחשובה לעסק שלך:
    1. תוצאות ברמת המסגרת - זה מחשיב את כל הפריימים שנדגמו כתמונות עצמאיות ומצבר את התוצאות בדיוק כפי שהוסבר קודם לכן עבור תמונות (FPR, FNR, אחזור, דיוק). אם חלק מהסרטונים ארוכים במידה ניכרת מאחרים, הם יתרמו יותר פריימים לספירה הכוללת, מה שהופך את ההשוואה לא מאוזנת. במקרה זה, אנו מציעים לשנות את אסטרטגיית הדגימה הראשונית למספר קבוע של פריימים לכל סרטון. לדוגמה, תוכל לדגום באופן אחיד 50-100 פריימים לסרטון (בהנחה שהסרטונים באורך 2-3 דקות לפחות).
    2. תוצאות ברמת וידאו – למקרי שימוש מסוימים, זה לא משנה אם המודל מסוגל לחזות נכון 50% או 99% מהפריימים בסרטון. אפילו חיזוי שגוי לא בטוח אחד בפריים בודד יכול לעורר הערכה אנושית במורד הזרם ורק סרטונים עם 100% תחזיות נכונות נחשבים באמת כהלכה. אם זהו מקרה השימוש שלך, אנו מציעים לך לחשב FPR/FNR/TPR על פני הפריימים של כל סרטון ולשקול את הסרטון באופן הבא:
מזהה וידאו דיוק סיווג לפי סרטון
תוצאות מצטברות על פני כל המסגרות של מזהה וידאו

סה"כ FP = 0

סך FN = 0

תחזיות מושלמות
. סה"כ FP > 0 חיובי כוזב (FP)
. סך FN > 0 שלילי כוזב (FN)

לאחר שחישבת את אלה עבור כל סרטון באופן עצמאי, תוכל לחשב את כל המדדים שהצגנו קודם לכן:

  • אחוז הסרטונים שסומנו בטעות (FP) או שהוחמצו (FN)
  • דיוק וזכירה

מדידת ביצועים מול יעדים

לבסוף, עליך לפרש את התוצאות הללו בהקשר של המטרות והיכולות שלך.

ראשית, שקול את הצרכים העסקיים שלך בהתייחס לדברים הבאים:

  • נתונים – למד על הנתונים שלך (נפח יומי, סוג הנתונים וכן הלאה) וההפצה של התוכן הלא בטוח לעומת התוכן שלך בטוח. למשל, האם זה מאוזן (50/50), מוטה (10/90) או מוטה מאוד (1/99, כלומר רק 1% אינו בטוח)? הבנת התפלגות כזו יכולה לעזור לך להגדיר את היעדים המדדיים שלך בפועל. לדוגמה, מספר התוכן הבטוח לרוב גדול בסדר גודל מתוכן לא בטוח (מוטה מאוד), מה שהופך זאת כמעט לבעיית זיהוי חריגות. בתרחיש זה, מספר התוצאות החיוביות השגויות עשוי לעלות על מספר התוצאות החיוביות האמיתיות, ותוכל להשתמש במידע הנתונים שלך (טיית הפצה, נפח נתונים וכן הלאה) כדי להחליט באיזה FPR אתה יכול לעבוד.
  • מטרות מטריות - מהם ההיבטים הקריטיים ביותר בעסק שלך? הורדת ה-FPR באה לרוב במחיר של FNR גבוה יותר (ולהיפך) וחשוב למצוא את האיזון הנכון שעובד בשבילך. אם אינך יכול לפספס שום תוכן לא בטוח, סביר להניח שתרצה קרוב ל-0% FNR (100% זכירה). עם זאת, זה יגרור את המספר הגדול ביותר של תוצאות חיוביות שגויות, ואתה צריך להחליט את היעד (המקסימום) FPR שאתה יכול לעבוד איתו, בהתבסס על צינור החיזוי שלאחר שלך. ייתכן שתרצה לאפשר רמה מסוימת של שליליות כוזבות כדי שתוכל למצוא איזון טוב יותר ולהוריד את ה-FPR שלך: לדוגמה, קבלת FNR של 5% במקום 0% יכולה להפחית את ה-FPR מ-2% ל-0.5%, ולהפחית משמעותית את המספר של תוכן מסומן.

לאחר מכן, שאל את עצמך באילו מנגנונים תשתמש כדי לנתח את התמונות המסומנות. למרות ש-API לא מספקים 0% FPR ו-FNR, הם עדיין יכולים להביא לחיסכון עצום ולהיקף (לדוגמה, על ידי סימון רק של 3% מהתמונות שלך, כבר סיננת 97% מהתוכן שלך). כאשר אתה משדך את ה-API עם כמה מנגנונים במורד הזרם, כמו כוח עבודה אנושי שבודק את התוכן המסומן, אתה יכול בקלות להגיע ליעדים שלך (לדוגמה, 0.5% תוכן מסומן). שימו לב כיצד ההתאמה הזו זולה משמעותית מהצורך לבצע סקירה אנושית על 100% מהתוכן שלכם.

לאחר שהחלטת על המנגנונים במורד הזרם שלך, אנו מציעים לך להעריך את התפוקה שבה תוכל לתמוך. לדוגמה, אם יש לך כוח עבודה שיכול לאמת רק 2% מהתוכן היומי שלך, היעד שלך מ-API לניהול תוכן שלנו הוא שיעור דגל (FPR+TPR) של 2%.

לבסוף, אם השגת הערות אמת היא קשה מדי או יקרה מדי (לדוגמה, נפח הנתונים שלך גדול מדי), אנו מציעים להוסיף הערות למספר הקטן של תמונות המסומנות על ידי ה-API. למרות שזה לא מאפשר הערכות FNR (מכיוון שהנתונים שלך אינם מכילים שליליות כוזבות), אתה עדיין יכול למדוד TPR ו-FPR.

בסעיף הבא, אנו מספקים פתרון להערכת ניהול תמונה. אתה יכול לנקוט בגישה דומה להערכת ניהול וידאו.

סקירת פתרונות

התרשים הבא ממחיש את שירותי ה-AWS השונים שבהם אתה יכול להשתמש כדי להעריך את הביצועים של ניהול התוכן של Amazon Rekognition במערך הנתונים של הבדיקה שלך.

להערכת ניהול התוכן יש את השלבים הבאים:

  1. העלה את מערך הנתונים של ההערכה שלך לתוך שירות אחסון פשוט של אמזון (אמזון S3).
  2. השתמש ב-Ground Truth כדי להקצות תוויות מתינות של אמת קרקע.
  3. צור את תוויות המנחה החזויות באמצעות ה-Amazon Rekognition המיומן מראש לניהול API תוך שימוש בכמה ערכי סף. (לדוגמה, 70%, 75% ו-80%).
  4. הערך את הביצועים עבור כל סף על ידי חישוב של חיובי אמיתי, שלילי אמיתי, חיובי שגוי ושליליות שגויות. קבע את ערך הסף האופטימלי עבור מקרה השימוש שלך.
  5. לחלופין, אתה יכול להתאים את גודל כוח העבודה על סמך תוצאות חיוביות אמיתיות ושגויות, ולהשתמש אמזון AI מוגדל (Amazon A2I) לשלוח אוטומטית את כל התוכן המסומן לכוח העבודה המיועד שלך לבדיקה ידנית.

הסעיפים הבאים מספקים את קטעי הקוד עבור שלבים 1, 2 ו-3. לקבלת קוד מקור מלא מקצה לקצה, עיין בסעיף שסופק מחברת צדק.

תנאים מוקדמים

לפני שתתחיל, השלם את השלבים הבאים כדי להגדיר את המחברת Jupyter:

  1. צור מופע מחברת in אמזון SageMaker.
  2. כאשר המחברת פעילה, בחר פתח את צדק.
  3. בלוח המחוונים של Jupyter, בחר חדש, ולבחור מסוף.
  4. בטרמינל, הזן את הקוד הבא:
    cd SageMaker
    git clone https://github.com/aws-samples/amazon-rekognition-code-samples.git

  5. פתח את המחברת לפוסט הזה: content-moderation-evaluation/Evaluating-Amazon-Rekognition-Content-Moderation-Service.ipynb.
  6. העלה את מערך הנתונים של ההערכה שלך אל שירות אחסון פשוט של אמזון (אמזון S3).

כעת נעבור על שלבים 2 עד 4 במחברת Jupyter.

השתמש ב-Ground Truth כדי להקצות תוויות מתינות

כדי להקצות תוויות ב-Ground Truth, בצע את השלבים הבאים:

  1. צור קובץ קלט מניפסט לעבודת Ground Truth שלך והעלה אותה לאמזון S3.
  2. צור את תצורת התיוג, המכילה את כל תוויות התיוג הדרושות עבור עבודת התיוג של Ground Truth. כדי לבדוק את המגבלה של מספר קטגוריות התוויות שבהן תוכל להשתמש, עיין ב- מכסות קטגוריית תווית. בקטע הקוד הבא, אנו משתמשים בחמש תוויות (עיין ב- טקסונומיה היררכית בשימוש בזיהוי אמזון לפרטים נוספים) בתוספת תווית אחת (Safe_Content) המסמן תוכן כבטוח:
    # customize CLASS_LIST to include all labels that can be used to classify sameple data, it's up to 10 labels
    # In order to easily match image label with content moderation service supported taxonomy, 
    
    CLASS_LIST = ["

  3. צור תבנית מטלות עובד מותאמת אישית כדי לספק לכוח העבודה של Ground Truth הוראות תיוג והעלה אותה לאמזון S3.
    עבודת התווית Ground Truth מוגדרת כמשימת סיווג תמונה (רב-תווית). עיין בקוד המקור לקבלת הוראות להתאמה אישית של תבנית ההוראות.
  4. החלט באיזה כוח עבודה אתה רוצה להשתמש כדי להשלים את עבודת Ground Truth. יש לך שתי אפשרויות (עיין בקוד המקור לפרטים):
    1. להשתמש כוח עבודה פרטי בארגון שלך כדי לתייג את מערך הנתונים של ההערכה.
    2. להשתמש כוח עבודה ציבורי כדי לתייג את מערך הנתונים של ההערכה.
  5. צור והגש משימת תיוג Ground Truth. אתה יכול גם להתאים את הקוד הבא כדי להגדיר את תיוג פרמטרי עבודה כדי לעמוד בדרישות העסקיות הספציפיות שלך. עיין בקוד המקור לקבלת הוראות מלאות על יצירה והגדרה של עבודת Ground Truth.
    human_task_config = {
        "AnnotationConsolidationConfig": {
            "AnnotationConsolidationLambdaArn": acs_arn,
        },
        "PreHumanTaskLambdaArn": prehuman_arn,
        "MaxConcurrentTaskCount": 200,  # 200 images will be sent at a time to the workteam.
        "NumberOfHumanWorkersPerDataObject": 3,  # 3 separate workers will be required to label each image.
        "TaskAvailabilityLifetimeInSeconds": 21600,  # Your workteam has 6 hours to complete all pending tasks.
        "TaskDescription": task_description,
        "TaskKeywords": task_keywords,
        "TaskTimeLimitInSeconds": 180,  # Each image must be labeled within 3 minutes.
        "TaskTitle": task_title,
        "UiConfig": {
            "UiTemplateS3Uri": "s3://{}/{}/instructions.template".format(BUCKET, EXP_NAME),
        },
    }

לאחר הגשת המשרה, אתה אמור לראות פלט דומה לזה:

Labeling job name is: ground-truth-cm-1662738403

המתן עד שעבודת התיוג במערך הנתונים של ההערכה תסתיים בהצלחה, ולאחר מכן המשך לשלב הבא.

השתמש ב-Amazon Rekognition Modation API כדי ליצור תוויות ניהול צפויות.

קטע הקוד הבא מראה כיצד להשתמש בזיהוי אמזון ממשק API כדי ליצור תוויות ניהול:

client=boto3.client('rekognition')
def moderate_image(photo, bucket):
    response = client.detect_moderation_labels(Image={'S3Object':{'Bucket':bucket,'Name':photo}})
    return len(response['ModerationLabels'])

העריכו את הביצועים

תחילה שלפת תוויות ניהול אמת מהקרקע מתוצאות עבודת התווית Ground Truth עבור מערך הנתונים של ההערכה, ולאחר מכן הפעלת את ה-Amazon Rekognition Modation API כדי לקבל תוויות ניהול חזויות עבור אותו מערך נתונים. מכיוון שמדובר בבעיית סיווג בינארי (תוכן בטוח לעומת תוכן לא בטוח), אנו מחשבים את המדדים הבאים (בהנחה שתוכן לא בטוח הוא חיובי):

אנו גם מחשבים את מדדי ההערכה המתאימים:

קטע הקוד הבא מראה כיצד לחשב את המדדים הללו:

FPR = FP / (FP + TN)
FNR = FN / (FN + TP)
Recall = TP / (TP + FN)
Precision = TP / (TP + FP)

סיכום

פוסט זה דן במרכיבים המרכזיים הדרושים כדי להעריך את היבט הביצועים של שירות ניהול התוכן שלך במונחים של מדדי דיוק שונים. עם זאת, דיוק הוא רק אחד מהממדים הרבים שאתה צריך להעריך בעת בחירת שירות ניהול תוכן מסוים. זה קריטי שתכלול פרמטרים אחרים, כגון מערך התכונות הכולל של השירות, קלות השימוש, אינטגרציות קיימות, פרטיות ואבטחה, אפשרויות התאמה אישית, השלכות מדרגיות, שירות לקוחות ותמחור. למידע נוסף על ניהול תוכן ב-Amazon Rekognition, בקר ניהול תוכן זיהוי אמזון.


על המחברים

מדדים להערכת ניהול תוכן ב-Amazon Rekognition ושירותי ניהול תוכן אחרים PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.עמית גופטה הוא אדריכל בכיר בשירותי AI ב-AWS. הוא נלהב לאפשר ללקוחות פתרונות למידת מכונה מתוכננים היטב בקנה מידה.

מדדים להערכת ניהול תוכן ב-Amazon Rekognition ושירותי ניהול תוכן אחרים PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.דויד מודולו הוא מנהל מדע יישומי במעבדות AWS AI. יש לו דוקטורט בראייה ממוחשבת מאוניברסיטת אדינבורו (בריטניה) והוא נלהב בפיתוח פתרונות מדעיים חדשים לבעיות של לקוחות בעולם האמיתי. מחוץ לעבודה, הוא נהנה לטייל ולשחק בכל סוג של ספורט, במיוחד כדורגל.

מדדים להערכת ניהול תוכן ב-Amazon Rekognition ושירותי ניהול תוכן אחרים PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'יאן וו הוא ארכיטקט פתרונות ארגוניים בכיר ב-AWS. הוא עובד עם AWS כבר 6 שנים ועובד עם לקוחות בכל הגדלים. הוא נלהב לעזור ללקוחות לחדש מהר יותר באמצעות אימוץ הענן ו-AI/ML. לפני הצטרפותו ל-AWS, Jian הקדיש 10+ שנים להתמקדות בפיתוח תוכנה, הטמעת מערכות וניהול תשתית. מלבד העבודה, הוא נהנה להישאר פעיל ולבלות עם משפחתו.

בול זמן:

עוד מ למידת מכונות AWS