מערך נתונים ציבורי עצום ששימש כנתוני אימון למחוללי תמונות בינה מלאכותית, כולל דיפוזיה יציבה, נמצא כמכיל אלפי מקרים של חומר התעללות מינית בילדים (CSAM).
ב ללמוד שפורסם היום, מצפה הכוכבים האינטרנטי של Stanford (SIO) אמר שהוא עבר יותר מ-32 מיליון נקודות נתונים במערך הנתונים של LAION-5B והצליח לאמת, באמצעות הכלי PhotoDNA שפותח על ידי מיקרוסופט, 1,008 תמונות CSAM - חלקן כללו מספר פעמים. המספר הזה הוא ככל הנראה "ספירה נמוכה משמעותית", אמרו החוקרים במאמרם.
LAION-5B אינו כולל את התמונות עצמן, והוא במקום זאת אוסף של מטא נתונים הכוללים גיבוב של מזהה התמונה, תיאור, נתוני שפה, אם הם עלולים להיות לא בטוחים וכתובת אתר המפנה אל התמונה. מספר תמונות CSAM שנמצאו מקושרות ב-LAION-5B נמצאו מתארחות באתרים כמו Reddit, Twitter, Blogspot ו-WordPress, כמו גם אתרים למבוגרים כמו XHamster ו-XVideos.
כדי למצוא תמונות במערך הנתונים שכדאי לבדוק, SIO התמקדה בתמונות שתויגו על ידי סיווג הבטיחות של LAION כ"לא בטוחות". תמונות אלו נסרקו עם PhotoDNA כדי לזהות CSAM, והתאמות נשלחו למרכז הקנדי להגנת ילדים (C3P) לאימות.
"הסרת חומר המקור שזוהה מתבצעת כעת, כאשר חוקרים דיווחו על כתובות ה-URL של התמונה למרכז הלאומי לילדים נעדרים ומנוצלים (NCMEC) בארה"ב וב-C3P", ה-SIO אמר.
LAION-5B שימש להכשרת מחולל תמונות AI הפופולרי Stable Diffusion, שגרסה 1.5 שלו ידועה בפינות מסוימות של האינטרנט בזכות יכולתה ליצור תמונות מפורשות. אמנם לא קשור ישירות למקרים כמו פסיכיאטר ילדים שימוש בבינה מלאכותית ליצירת תמונות פורנוגרפיות של קטינים, זה סוג כזה של טכנולוגיה שנוצרת סקס מזויף עמוק ופשעים אחרים קלים יותר.
לפי ה-SIO, Stable Diffusion 1.5 נשאר פופולרי באינטרנט ליצירת תמונות מפורשות לאחר "חוסר שביעות רצון נרחבת מהקהילה" עם שחרורו של Stable Diffusion 2.0, שהוסיף מסננים נוספים כדי למנוע מחליקה של תמונות לא בטוחות למערך האימון.
לא ברור אם Stability AI, שפיתחה את Stable Diffusion, ידעה על נוכחות של CSAM פוטנציאלי בדגמים שלה עקב השימוש ב-LAION-5B; החברה לא הגיבה לשאלות שלנו.
אופס, הם עשו את זה שוב
אמנם זו הפעם הראשונה שנתוני הכשרת AI של LAION, ללא מטרות רווח, מואשמים בהכיל פורנו ילדים, הארגון תפס כישלון על הכללת תוכן מפוקפק בנתוני ההדרכה שלו בעבר.
גוגל, שהשתמשה בקודמו של LAION-2B המכונה LAION-400M כדי להכשיר את מחולל ה-Image AI שלה, החליטה לעולם לא לשחרר את הכלי בשל כמה חששות, כולל האם נתוני ההדרכה של LAION עזרו לה לבנות מודל מוטה ובעייתי.
לפי צוות Imagen, המחולל הראה "הטיה כוללת ליצירת תמונות של אנשים עם גווני עור בהירים יותר ו... הציג מקצועות שונים כדי ליישר קו עם סטריאוטיפים מגדריים מערביים." דוגמנות דברים שאינם בני אדם לא שיפרו את המצב, וגרמו ל-Image "לקודד מגוון הטיות חברתיות ותרבותיות בעת יצירת תמונות של פעילויות, אירועים וחפצים".
ביקורת של LAION-400M עצמה "חשפה מגוון רחב של תוכן בלתי הולם כולל תמונות פורנוגרפיות, השמצות גזעניות וסטריאוטיפים חברתיים מזיקים".
כמה חודשים לאחר שגוגל החליטה להעביר הלאה את אימגן לציבור, אמן מְנוּקָד תמונות רפואיות מניתוח שעברה ב-2013 ב-LAION-5B, שהיא מעולם לא נתנה לכלול.
LAION לא הגיב לשאלותינו בעניין, אבל המייסד כריסטוף שוהמן אמר לבלומברג מוקדם יותר השנה שהוא לא מודע של כל CSAM שנמצא ב-LAION-5B, תוך שהוא מודה "הוא לא בדק את הנתונים לעומק".
במקרה או לא - מחקר SIO לא מוזכר - LAION בחרה אתמול לעשות מבוא מתכננת "נהלי תחזוקה רגילים", שמתחילים מיד, כדי להסיר "קישורים במערך נתונים של LAION שעדיין מצביעים על תוכן חשוד, שעלול להיות בלתי חוקי באינטרנט הציבורי".
"ל-LAION יש מדיניות אפס סובלנות לתוכן לא חוקי", אמרה החברה. "מערכי הנתונים הציבוריים יוסרו זמנית, כדי לחזור לאחר סינון העדכונים." LAION מתכננת להחזיר את מערכי הנתונים שלה לציבור במחצית השנייה של ינואר. ®
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :יש ל
- :הוא
- :לֹא
- 1
- 2013
- 32
- 7
- a
- יכולת
- יכול
- אודות
- התעללות
- מואשם
- פעילויות
- הוסיף
- נוסף
- מְבוּגָר
- לאחר
- AI
- אימון AI
- ליישר
- גם
- an
- ו
- כל
- אמן
- AS
- בדיקה
- בחזרה
- BE
- היה
- לפני
- ההתחלה
- הטיה
- מְשׁוּחָד
- הטיות
- בלומברג
- לִבנוֹת
- אבל
- by
- קנדי
- מקרים
- נתפס
- גורם
- מרכז
- מֶרְכָּז
- מסוים
- ילד
- הגנת הילד
- ילדים
- בחר
- CO
- אוסף
- קהילה
- חברה
- דאגות
- להכיל
- תוכן
- פינות
- לִיצוֹר
- פשעים
- תרבותי
- כיום
- נתונים
- נקודות מידע
- מערכי נתונים
- החליט
- עומק
- תיאור
- לאתר
- מפותח
- DID
- לא
- אחר
- שידור
- ישירות
- לא איכפת
- מטה
- ראוי
- מוקדם יותר
- קל יותר
- אירועים
- ומנוצל
- מעטים
- סינון
- מסננים
- ראשון
- firsttime
- מרוכז
- בעד
- מצא
- מייסד
- החל מ-
- נתן
- מין
- ליצור
- יצירת
- גנרטור
- גנרטורים
- גרמנית
- גדול
- היה
- חצי
- מזיק
- שירים
- he
- עזר
- אירח
- HTTPS
- בני אדם
- מזוהה
- מזהה
- if
- לא חוקי
- תמונה
- תמונות
- מיד
- לשפר
- in
- לכלול
- כלול
- כולל
- במקום
- אינטרנט
- אל תוך
- J States
- IT
- שֶׁלָה
- עצמו
- יָנוּאָר
- jpg
- ידוע
- שפה
- גָדוֹל
- קל יותר
- כמו
- סביר
- צמוד
- קישורים
- עשוי
- תחזוקה
- עשייה
- מסיבי
- גפרורים
- חוֹמֶר
- דבר
- מאי..
- רפואי
- מוּזְכָּר
- מידע נוסף
- מִילִיוֹן
- חסר
- מודל
- דוגמנות
- מודלים
- חודשים
- יותר
- מספר
- לאומי
- לעולם לא
- ללא כוונת רווח
- מספר
- אובייקטים
- מצפה כוכבים
- of
- on
- באינטרנט
- or
- ארגון
- אחר
- שלנו
- יותר
- מקיף
- מאמר
- לעבור
- אֲנָשִׁים
- רשות
- תמונות
- תוכניות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודה
- נקודות
- מדיניות
- פופולרי
- פוטנציאל
- פוטנציאל
- קודמו
- נוכחות
- להציג
- למנוע
- בעייתי
- נהלים
- התקדמות
- .
- ציבורי
- לאור
- שאלות
- גזען
- רכס
- רגיל
- לשחרר
- שְׂרִידִים
- הסרה
- להסיר
- דווח
- חוקרים
- להגיב
- לַחֲזוֹר
- סקירה
- s
- בְּטִיחוּת
- אמר
- שְׁנִיָה
- נשלח
- שירת
- כמה
- מיני
- היא
- הראה
- משמעותי
- מצב
- עור
- מחליק
- חֶברָתִי
- כמה
- מָקוֹר
- יציבות
- יציב
- סטנפורד
- עוד
- לימוד
- כִּירוּרגִיָה
- חשוד
- משימות
- טק
- לספר
- בדיקות
- מֵאֲשֶׁר
- זֶה
- השמיים
- שֶׁלָהֶם
- עצמם
- הֵם
- דברים
- זֶה
- השנה
- אלה
- אלפים
- זמן
- פִּי
- ל
- היום
- סובלנות
- כלי
- לקראת
- רכבת
- הדרכה
- חָשׂוּף
- עבר
- שלא כדין
- עדכון
- כתובת האתר
- us
- להשתמש
- מְשׁוּמָשׁ
- באמצעות
- לְאַמֵת
- מְאוּמָת
- גרסה
- היה
- אתרים
- טוֹב
- היו
- מערבי
- מתי
- אם
- אשר
- בזמן
- רָחָב
- טווח רחב
- נָפוֹץ
- יצטרך
- עם
- וורדפרס
- ראוי
- שנה
- אתמול
- זפירנט
- אפס