یک مجموعه داده عمومی عظیم که به عنوان داده آموزشی برای تولیدکنندگان تصویر مشهور هوش مصنوعی از جمله Stable Diffusion استفاده میشود، حاوی هزاران نمونه از مواد سوء استفاده جنسی از کودکان (CSAM) است.
در یک مطالعه رصدخانه اینترنت استنفورد (SIO) که امروز منتشر شد، گفت که بیش از 32 میلیون نقطه داده در مجموعه داده LAION-5B را منفذ کرده و قادر است با استفاده از ابزار توسعه یافته توسط مایکروسافت PhotoDNA، 1,008 تصویر CSAM را تأیید کند که برخی از آنها چندین بار گنجانده شده است. محققان در مقاله خود گفتند که این عدد احتمالاً "عدم شمارش قابل توجهی است".
LAION-5B خود تصاویر را شامل نمیشود و در عوض مجموعهای از فراداده است که شامل هش شناسه تصویر، توضیحات، دادههای زبان، اینکه آیا ممکن است ناامن باشد یا نه، و یک URL که به تصویر اشاره میکند. تعدادی از عکسهای CSAM که در LAION-5B پیوند یافتهاند، در وبسایتهایی مانند Reddit، Twitter، Blogspot، و WordPress و همچنین وبسایتهای بزرگسالان مانند XHamster و XVideos میزبانی شدهاند.
برای یافتن تصاویر در مجموعه داده ارزش آزمایش، SIO روی تصاویر برچسبگذاری شده توسط طبقهبندی ایمنی LAION به عنوان "ناامن" تمرکز کرد. این تصاویر با PhotoDNA برای شناسایی CSAM اسکن شدند و کبریت ها برای تأیید به مرکز کانادایی حفاظت از کودکان (C3P) ارسال شدند.
SIO "حذف منبع شناسایی شده در حال حاضر در حال انجام است زیرا محققان URL های تصویر را به مرکز ملی کودکان گم شده و مورد بهره برداری (NCMEC) در ایالات متحده و C3P گزارش کردند." گفت:.
LAION-5B برای آموزش تولید کننده تصویر AI محبوب Stable Diffusion، که نسخه 1.5 آن در گوشه های خاص اینترنت به دلیل توانایی آن در ایجاد تصاویر واضح به خوبی شناخته شده است، استفاده شد. در حالی که مستقیماً به مواردی مانند روانپزشک کودک مرتبط نیست استفاده از هوش مصنوعی برای تولید تصاویر مستهجن برای خردسالان، این نوعی از فناوری است که ساخته شده است جداسازی دیپ فیک و جرایم دیگر آسان تر است.
به گفته SIO، Stable Diffusion 1.5 پس از «نارضایتی گسترده جامعه» با انتشار Stable Diffusion 2.0 که فیلترهای اضافی برای جلوگیری از لغزش تصاویر ناامن به مجموعه داده آموزشی اضافه کرد، همچنان برای تولید عکس های واضح به صورت آنلاین محبوب است.
مشخص نیست که آیا Stability AI، که Stable Diffusion را توسعه داده است، به دلیل استفاده از LAION-5B از وجود CSAM بالقوه در مدلهای خود اطلاع داشته است یا خیر. شرکت به سوالات ما پاسخ نداد.
اوه، دوباره این کار را کردند
در حالی که این اولین باری است که دادههای آموزشی هوش مصنوعی غیرانتفاعی آلمانی LAION به نگهداری پورن کودکان متهم میشود، این سازمان قبلاً به دلیل گنجاندن محتوای مشکوک در دادههای آموزشی خود مورد انتقاد قرار گرفته است.
گوگل که از نسل قبلی LAION-2B معروف به LAION-400M برای آموزش مولد Imagen AI خود استفاده کرد، به دلیل نگرانیهای متعدد، از جمله اینکه آیا دادههای آموزشی LAION به آن کمک کرده است تا یک مدل مغرضانه و مشکلساز بسازد، تصمیم گرفت هرگز این ابزار را منتشر نکند.
به گزارش تیم ایمیجنمولد، «سوگیری کلی نسبت به ایجاد تصاویری از افراد با رنگ پوست روشنتر و ... به تصویر کشیدن حرفههای مختلف برای همسویی با کلیشههای جنسیتی غربی نشان داد». مدلسازی چیزهایی غیر از انسان، وضعیت را بهبود نمیبخشد، و باعث میشود که Imagen "در هنگام تولید تصاویری از فعالیتها، رویدادها و اشیاء، طیفی از تعصبات اجتماعی و فرهنگی را رمزگذاری کند."
ممیزی خود LAION-400M "طیف گسترده ای از محتوای نامناسب از جمله تصاویر مستهجن، توهین های نژادپرستانه، و کلیشه های مضر اجتماعی را کشف کرد."
چند ماه پس از اینکه گوگل تصمیم گرفت که Imagen را یک هنرمند عمومی کند خالدار تصاویر پزشکی از عمل جراحی که او در سال 2013 در LAION-5B انجام داد، که او هرگز اجازه اضافه کردن آن را نداد.
LAION به سؤالات ما در این مورد پاسخ نداد، اما کریستوف شوهمان، بنیانگذار آن، در اوایل سال جاری به بلومبرگ گفت که او غافل از هر گونه CSAM موجود در LAION-5B، در حالی که همچنین اعتراف کرد که "او داده ها را عمیقاً بررسی نکرده است."
تصادفاً یا نه - مطالعه SIO ذکر نشده است - LAION دیروز آن را انتخاب کرد معرفی برنامههایی برای «رویههای تعمیر و نگهداری منظم» که بلافاصله شروع میشود، برای حذف «پیوندهایی در مجموعه دادههای LAION که همچنان به محتوای مشکوک و بالقوه غیرقانونی در اینترنت عمومی اشاره میکنند».
این شرکت گفت: "LAION یک سیاست تحمل صفر برای محتوای غیرقانونی دارد." «مجموعههای داده عمومی بهطور موقت حذف میشوند تا پس از فیلتر کردن بهروزرسانی بازگردند». LAION قصد دارد مجموعه داده های خود را در نیمه دوم ژانویه به عموم بازگرداند. ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- : دارد
- :است
- :نه
- 1
- 2013
- 32
- 7
- a
- توانایی
- قادر
- درباره ما
- سو استفاده کردن
- متهم
- فعالیت ها
- اضافه
- اضافی
- بالغ
- پس از
- AI
- آموزش هوش مصنوعی
- تراز
- همچنین
- an
- و
- هر
- هنرمند
- AS
- حسابرسی
- به عقب
- BE
- بوده
- قبل از
- شروع
- تعصب
- جانبدارانه
- تعصبات
- بلومبرگ
- ساختن
- اما
- by
- کانادایی
- موارد
- گرفتار
- باعث می شود
- مرکز
- مرکز
- معین
- کودک
- حفاظت از کودکان
- فرزندان
- را انتخاب
- CO
- مجموعه
- انجمن
- شرکت
- نگرانی ها
- شامل
- محتوا
- گوشه ها
- ایجاد
- جنایات
- فرهنگی
- در حال حاضر
- داده ها
- نقاط داده
- مجموعه داده ها
- مصمم
- عمق
- شرح
- تشخیص
- توسعه
- DID
- نشد
- مختلف
- انتشار
- مستقیما
- ندارد
- پایین
- دو
- پیش از آن
- آسان تر
- حوادث
- سوء استفاده قرار گیرد
- کمی از
- فیلتر
- فیلترها برای تصفیه آب
- پیدا کردن
- نام خانوادگی
- بار اول
- متمرکز شده است
- برای
- یافت
- موسس
- از جانب
- به
- جنس
- تولید می کنند
- مولد
- ژنراتور
- ژنراتور
- آلمانی
- گوگل
- بزرگ
- بود
- نیم
- مضر
- مخلوط
- he
- کمک کرد
- میزبانی
- HTTPS
- انسان
- شناسایی
- شناسه
- if
- غیر مجاز
- تصویر
- تصاویر
- بلافاصله
- بهبود
- in
- شامل
- مشمول
- از جمله
- در عوض
- اینترنت
- به
- نیست
- IT
- ITS
- خود
- ژانویه
- JPG
- شناخته شده
- زبان
- بزرگ
- فندک
- پسندیدن
- احتمالا
- مرتبط
- لینک ها
- ساخته
- نگهداری
- ساخت
- عظیم
- کبریت
- ماده
- ماده
- ممکن است..
- پزشکی
- ذکر شده
- متاداده
- میلیون
- گم
- مدل
- مدل سازی
- مدل
- ماه
- بیش
- چندگانه
- ملی
- هرگز
- غیرانتفاعی
- عدد
- اشیاء
- رصد خانه
- of
- on
- آنلاین
- or
- کدام سازمان ها
- دیگر
- ما
- روی
- به طور کلی
- مقاله
- عبور
- مردم
- اجازه
- عکس
- برنامه
- افلاطون
- هوش داده افلاطون
- PlatoData
- نقطه
- نقطه
- سیاست
- محبوب
- پتانسیل
- بالقوه
- سلف، اسبق، جد
- حضور
- در حال حاضر
- جلوگیری از
- مشکل ساز
- روش
- پیشرفت
- حفاظت
- عمومی
- منتشر شده
- سوالات
- نژاد پرست
- محدوده
- ق
- منظم
- آزاد
- بقایای
- برداشت
- برداشتن
- گزارش
- محققان
- پاسخ
- برگشت
- این فایل نقد می نویسید:
- s
- ایمنی
- سعید
- دوم
- فرستاده
- خدمت کرده است
- چند
- جنسی
- او
- نشان داد
- قابل توجه
- وضعیت
- پوست
- لغزش
- آگاهی
- برخی از
- منبع
- ثبات
- پایدار
- استنفورد
- هنوز
- مهاجرت تحصیلی
- عمل جراحي
- مشکوک
- صورت گرفته
- فن آوری
- گفتن
- تست
- نسبت به
- که
- La
- شان
- خودشان
- آنها
- اشیاء
- این
- در این سال
- کسانی که
- هزاران نفر
- زمان
- بار
- به
- امروز
- تحمل
- ابزار
- طرف
- قطار
- آموزش
- توییتر
- کشف
- متحمل چیزی شدن
- غیرقانونی
- بروزرسانی
- URL
- us
- استفاده کنید
- استفاده
- با استفاده از
- تصدیق
- تایید
- نسخه
- بود
- وب سایت
- خوب
- بود
- غربی
- چه زمانی
- چه
- که
- در حین
- وسیع
- دامنه گسترده
- بطور گسترده
- اراده
- با
- وردپرس
- با ارزش
- سال
- دیروز
- زفیرنت
- صفر