تم العثور على مجموعة بيانات عامة ضخمة كانت بمثابة بيانات تدريب لمولدات صور الذكاء الاصطناعي المشهورة بما في ذلك Stable Diffusion، والتي تحتوي على آلاف من حالات مواد الاعتداء الجنسي على الأطفال (CSAM).
في باقة دراسة قال مرصد ستانفورد للإنترنت (SIO)، الذي نُشر اليوم، إنه قام بدراسة أكثر من 32 مليون نقطة بيانات في مجموعة بيانات LAION-5B وتمكن من التحقق من صحة 1,008 صور CSAM، باستخدام أداة PhotoDNA التي طورتها Microsoft. وقال الباحثون في ورقتهم إن هذا الرقم من المحتمل أن يكون "عددًا أقل بكثير".
لا يتضمن LAION-5B الصور نفسها، بل هو عبارة عن مجموعة من البيانات الوصفية بما في ذلك تجزئة معرف الصورة، والوصف، وبيانات اللغة، وما إذا كانت غير آمنة، وعنوان URL يشير إلى الصورة. تم العثور على عدد من صور CSAM المرتبطة بـ LAION-5B مستضافة على مواقع ويب مثل Reddit وTwitter وBlogspot وWordPress، بالإضافة إلى مواقع الويب المخصصة للبالغين مثل XHamster وXVideos.
للعثور على صور في مجموعة البيانات التي تستحق الاختبار، ركز SIO على الصور التي تم تصنيفها بواسطة مصنف السلامة الخاص بـ LAION على أنها "غير آمنة". تم مسح هذه الصور ضوئيًا باستخدام PhotoDNA للكشف عن CSAM، وتم إرسال المطابقات إلى المركز الكندي لحماية الطفل (C3P) للتحقق منها.
"تجري حاليًا إزالة المواد المصدرية المحددة حيث أبلغ الباحثون عن عناوين URL للصور إلى المركز الوطني للأطفال المفقودين والمستغلين (NCMEC) في الولايات المتحدة وC3P"، SIO محمد.
تم استخدام LAION-5B لتدريب منشئ صور الذكاء الاصطناعي الشهير Stable Diffusion، الإصدار 1.5 منه معروف جيدًا في بعض أركان الإنترنت لقدرته على إنشاء صور صريحة. في حين لا يرتبط بشكل مباشر بحالات مثل طبيب نفسي للأطفال استخدام الذكاء الاصطناعي لإنتاج صور إباحية من القُصَّر، هذا النوع من التكنولوجيا هو الذي تم صنعه الابتزاز الجنسي العميق وغيرها من الجرائم أسهل.
وفقًا لـ SIO، يظل Stable Diffusion 1.5 شائعًا عبر الإنترنت لإنشاء صور صريحة بعد "استياء واسع النطاق من المجتمع" مع إصدار Stable Diffusion 2.0، الذي أضاف مرشحات إضافية لمنع الصور غير الآمنة من الانزلاق إلى مجموعة بيانات التدريب.
من غير الواضح ما إذا كانت شركة Stability AI، التي طورت Stable Diffusion، على علم بوجود أسلحة CSAM محتملة في نماذجها بسبب استخدام LAION-5B؛ ولم ترد الشركة على أسئلتنا.
عفوا، فعلوا ذلك مرة أخرى
في حين أن هذه هي المرة الأولى التي يتم فيها اتهام بيانات تدريب الذكاء الاصطناعي التابعة لمنظمة LAION الألمانية غير الهادفة للربح بإيواء مواد إباحية للأطفال، فقد تعرضت المنظمة لانتقادات بسبب تضمين محتوى مشكوك فيه في بيانات التدريب الخاصة بها من قبل.
قررت Google، التي استخدمت سلف LAION-2B المعروف باسم LAION-400M لتدريب مولد Imagen AI، عدم إطلاق الأداة أبدًا بسبب العديد من المخاوف، بما في ذلك ما إذا كانت بيانات تدريب LAION قد ساعدتها في بناء نموذج متحيز ومثير للمشاكل.
وفقا لفريق إيماجين، أظهر المولد "تحيزًا عامًا نحو إنشاء صور لأشخاص ذوي ألوان بشرة فاتحة و... تصوير مهن مختلفة لتتماشى مع الصور النمطية الغربية المتعلقة بالجنسين". إن نمذجة أشياء أخرى غير البشر لم تحسن الوضع، مما دفع إيماجن إلى "تشفير مجموعة من التحيزات الاجتماعية والثقافية عند إنشاء صور للأنشطة والأحداث والأشياء".
كشفت مراجعة LAION-400M نفسها "عن مجموعة واسعة من المحتوى غير المناسب بما في ذلك الصور الإباحية والإهانات العنصرية والقوالب النمطية الاجتماعية الضارة."
بعد بضعة أشهر من قرار Google بتمرير جعل Imagen علنيًا، أصبح فنانًا رصدت الصور الطبية من العملية الجراحية التي خضعت لها في عام 2013 موجودة في LAION-5B، والتي لم تسمح أبدًا بإدراجها.
لم يرد LAION على أسئلتنا حول هذا الموضوع، لكن مؤسسها كريستوف شومان أخبر بلومبرج في وقت سابق من هذا العام أنه كان كذلك. علم من أي CSAM موجود في LAION-5B، مع الاعتراف أيضًا بأنه "لم يراجع البيانات بعمق كبير".
من قبيل الصدفة أم لا - لم يتم ذكر دراسة SIO - اختارت LAION بالأمس القيام بذلك تقديم خطط لـ "إجراءات الصيانة المنتظمة"، التي تبدأ على الفور، لإزالة "الروابط الموجودة في مجموعات بيانات LAION التي لا تزال تشير إلى محتوى مشبوه، وربما غير قانوني على الإنترنت العام".
وقالت الشركة: "لايون لديها سياسة عدم التسامح مطلقًا مع المحتوى غير القانوني". "ستتم إزالة مجموعات البيانات العامة مؤقتًا، لتعود مرة أخرى بعد تصفية التحديث." تخطط LAION لإعادة مجموعات البيانات الخاصة بها إلى الجمهور في النصف الثاني من شهر يناير. ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :لديها
- :يكون
- :ليس
- 1
- 2013
- 32
- 7
- a
- القدرة
- ماهرون
- من نحن
- سوء المعاملة
- المتهم
- أنشطة
- وأضاف
- إضافي
- بالغ
- بعد
- AI
- تدريب الذكاء الاصطناعى
- محاذاة
- أيضا
- an
- و
- أي وقت
- فنان
- AS
- التدقيق
- الى الخلف
- BE
- كان
- قبل
- البداية
- انحياز
- انحيازا
- التحيزات
- بلومبرغ
- نساعدك في بناء
- لكن
- by
- الكندية
- الحالات
- اشتعلت
- مما تسبب في
- مركز
- مركز
- معين
- طفل
- حماية الطفل
- أطفال
- اختار
- CO
- مجموعة شتاء XNUMX
- مجتمع
- حول الشركة
- اهتمامات
- تحتوي على
- محتوى
- زوايا
- خلق
- جرائم
- ثقافي
- حاليا
- البيانات
- نقاط البيانات
- قواعد البيانات
- قررت
- عمق
- وصف
- بكشف أو
- المتقدمة
- فعل
- ديدن
- مختلف
- التوزيع
- مباشرة
- لا توجد الآن
- إلى أسفل
- اثنان
- في وقت سابق
- أسهل
- أحداث
- استغلال
- قليل
- تصفية
- مرشحات
- الاسم الأول
- لأول مرة
- ركز
- في حالة
- وجدت
- مؤسس
- تبدأ من
- أعطى
- الجنس
- توليد
- توليد
- مولد كهربائي
- مولدات
- الألمانيّة
- شراء مراجعات جوجل
- عظيم
- كان
- نصفي
- الضارة
- مزيج
- he
- ساعد
- استضافت
- HTTPS
- البشر
- محدد
- معرف
- if
- غير شرعي
- صورة
- صور
- فورا
- تحسن
- in
- تتضمن
- شامل
- بما فيه
- بدلًا من ذلك
- Internet
- إلى
- يسن
- IT
- انها
- نفسها
- يناير
- JPG
- معروف
- لغة
- كبير
- ولاعة
- مثل
- على الأرجح
- مرتبط
- وصلات
- صنع
- صيانة
- القيام ب
- هائل
- اعواد الثقاب
- مادة
- أمر
- مايو..
- طبي
- المذكورة
- البيانات الوصفية
- مليون
- مفقود
- نموذج
- تصميم
- عارضات ازياء
- المقبلة.
- الأكثر من ذلك
- متعدد
- محليات
- أبدا
- غير هادفة للربح
- عدد
- الأجسام
- مرقب
- of
- on
- online
- or
- منظمة
- أخرى
- لنا
- على مدى
- الكلي
- ورق
- pass
- مجتمع
- إذن
- الصور
- خطط
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- البوينت
- نقاط
- سياسة
- الرائج
- محتمل
- يحتمل
- السلف
- وجود
- يقدم
- منع
- إشكالية
- الإجراءات
- التقدّم
- الحماية
- جمهور
- نشرت
- الأسئلة المتكررة
- عنصرية
- نطاق
- رديت
- منتظم
- الافراج عن
- بقايا
- إزالة
- إزالة
- وذكرت
- الباحثين
- الرد
- عائد أعلى
- مراجعة
- s
- السلامة
- قال
- الثاني
- أرسلت
- لمرضى
- عدة
- جنسي
- هي
- أظهرت
- هام
- حالة
- بيج
- الانزلاق
- العدالة
- بعض
- مصدر
- استقرار
- مستقر
- ستانفورد
- لا يزال
- دراسة
- العمليات الجراحية
- مشكوك فيه
- اتخذت
- التكنولوجيا
- اقول
- الاختبار
- من
- أن
- •
- من مشاركة
- أنفسهم
- هم
- الأشياء
- هذا العام
- هؤلاء
- الآلاف
- الوقت
- مرات
- إلى
- اليوم
- تسامح
- أداة
- نحو
- قطار
- قادة الإيمان
- أو تويتر
- كشف
- خضع
- غير شرعي
- تحديث
- URL
- us
- تستخدم
- مستعمل
- استخدام
- التحقق من صحة
- التحقق
- الإصدار
- وكان
- المواقع
- حسن
- كان
- الغربي
- متى
- سواء
- التي
- في حين
- واسع
- مدى واسع
- واسع الانتشار
- سوف
- مع
- WordPress
- قيمة
- عام
- أمس
- زفيرنت
- صفر