ایک بڑے پیمانے پر عوامی ڈیٹا سیٹ جس نے مشہور AI امیج جنریٹرز کے لیے ٹریننگ ڈیٹا کے طور پر کام کیا جس میں اسٹیبل ڈفیوژن بھی شامل ہے اس میں بچوں کے جنسی استحصال کے مواد (CSAM) کی ہزاروں مثالیں پائی گئی ہیں۔
ایک مطالعہ آج شائع ہوا، اسٹینفورڈ انٹرنیٹ آبزرویٹری (SIO) نے کہا کہ اس نے LAION-32B ڈیٹاسیٹ میں 5 ملین سے زیادہ ڈیٹا پوائنٹس کو چھیڑا اور مائیکروسافٹ کے تیار کردہ ٹول PhotoDNA، 1,008 CSAM امیجز کا استعمال کرتے ہوئے اس کی توثیق کرنے کے قابل ہے – کچھ میں متعدد بار شامل ہیں۔ محققین نے اپنے مقالے میں کہا کہ یہ تعداد ممکنہ طور پر "ایک اہم کم گنتی" ہے۔
LAION-5B خود تصاویر کو شامل نہیں کرتا ہے، اور اس کے بجائے یہ میٹا ڈیٹا کا مجموعہ ہے جس میں تصویری شناخت کنندہ کا ایک ہیش، ایک تفصیل، زبان کا ڈیٹا، چاہے یہ غیر محفوظ ہو، اور تصویر کی طرف اشارہ کرنے والا URL۔ LAION-5B میں منسلک کئی CSAM تصاویر Reddit، Twitter، Blogspot، اور WordPress جیسی ویب سائٹس کے ساتھ ساتھ XHamster اور XVideos جیسی بالغ ویب سائٹس پر میزبان پائی گئیں۔
ٹیسٹنگ کے قابل ڈیٹا سیٹ میں تصاویر تلاش کرنے کے لیے، SIO نے LAION کے حفاظتی درجہ بندی کے ذریعے "غیر محفوظ" کے طور پر ٹیگ کردہ تصاویر پر توجہ مرکوز کی۔ ان تصاویر کو CSAM کا پتہ لگانے کے لیے PhotoDNA سے اسکین کیا گیا تھا، اور تصدیق کے لیے کینیڈین سینٹر فار چائلڈ پروٹیکشن (C3P) کو میچز بھیجے گئے تھے۔
"شناخت شدہ ماخذ مواد کو ہٹانے کا عمل فی الحال جاری ہے کیونکہ محققین نے امریکہ میں نیشنل سینٹر فار مسنگ اینڈ ایکسپلوئٹڈ چلڈرن (NCMEC) اور C3P کو امیج یو آر ایل کی اطلاع دی ہے،" SIO نے کہا.
LAION-5B کا استعمال مقبول AI امیج جنریٹر اسٹیبل ڈفیوژن کو تربیت دینے کے لیے کیا گیا تھا، جس کا ورژن 1.5 انٹرنیٹ کے بعض گوشوں میں واضح تصاویر بنانے کی صلاحیت کے لیے مشہور ہے۔ جبکہ بچوں کے ماہر نفسیات جیسے معاملات سے براہ راست منسلک نہیں ہے۔ فحش تصاویر بنانے کے لیے AI کا استعمال نابالغوں کی، یہ اس قسم کی ٹیکنالوجی ہے جو بنائی گئی ہے۔ deepfake sextortion اور دیگر جرائم آسان ہیں۔
SIO کے مطابق، Stable Diffusion 1.5 Stable Diffusion 2.0 کے اجراء کے ساتھ "کمیونٹی کی طرف سے وسیع پیمانے پر عدم اطمینان" کے بعد واضح تصاویر بنانے کے لیے آن لائن مقبول ہے، جس نے تربیتی ڈیٹاسیٹ میں غیر محفوظ تصاویر کو پھسلنے سے روکنے کے لیے اضافی فلٹرز شامل کیے ہیں۔
یہ واضح نہیں ہے کہ کیا Stability AI، جس نے Stable Diffusion تیار کیا، LAION-5B کے استعمال کی وجہ سے اپنے ماڈلز میں ممکنہ CSAM کی موجودگی کے بارے میں جانتا تھا۔ کمپنی نے ہمارے سوالات کا جواب نہیں دیا۔
افوہ، انہوں نے دوبارہ کیا۔
اگرچہ یہ پہلا موقع ہے جب جرمن غیر منافع بخش LAION کے AI ٹریننگ ڈیٹا پر چائلڈ پورن کو پناہ دینے کا الزام لگایا گیا ہے، اس تنظیم نے اس سے پہلے اپنے تربیتی ڈیٹا میں قابل اعتراض مواد شامل کرنے کا الزام لگایا ہے۔
Google، جس نے اپنے Imagen AI جنریٹر کو تربیت دینے کے لیے LAION-2B پیشرو استعمال کیا جسے LAION-400M کہا جاتا ہے، نے کئی خدشات کی وجہ سے اس ٹول کو کبھی بھی جاری نہ کرنے کا فیصلہ کیا، بشمول آیا LAION ٹریننگ کے ڈیٹا نے اسے متعصب اور مشکل ماڈل بنانے میں مدد کی تھی۔
امیجین ٹیم کے مطابق، جنریٹر نے "ہلکے جلد کے رنگوں والے لوگوں کی تصاویر بنانے اور ... مغربی صنفی دقیانوسی تصورات کے ساتھ ہم آہنگ ہونے کے لیے مختلف پیشوں کی تصویر کشی کی طرف ایک مجموعی تعصب دکھایا۔" انسانوں کے علاوہ چیزوں کی ماڈلنگ کرنے سے صورتحال بہتر نہیں ہوئی، جس کی وجہ سے Imagen "سرگرمیوں، واقعات اور اشیاء کی تصاویر تخلیق کرتے وقت سماجی اور ثقافتی تعصبات کی ایک حد کو انکوڈ کرتا ہے۔"
خود LAION-400M کے ایک آڈٹ نے "فحش تصویر کشی، نسل پرستی، اور نقصان دہ سماجی دقیانوسی تصورات سمیت نامناسب مواد کی ایک وسیع رینج کا پردہ فاش کیا۔"
گوگل نے امیجین کو عوامی بنانے کا فیصلہ کرنے کے چند ماہ بعد، ایک فنکار دیکھا LAION-2013B میں موجود 5 میں ہونے والی ایک سرجری کی طبی تصاویر، جنہیں اس نے کبھی شامل کرنے کی اجازت نہیں دی۔
LAION نے اس معاملے پر ہمارے سوالات کا جواب نہیں دیا، لیکن بانی کرسٹوف شوہمن نے اس سال کے شروع میں بلومبرگ کو بتایا تھا کہ وہ بے خبر LAION-5B میں موجود کسی بھی CSAM کا، جبکہ یہ بھی تسلیم کرتے ہوئے کہ "اس نے ڈیٹا کا بہت گہرائی سے جائزہ نہیں لیا۔"
اتفاق سے یا نہیں - SIO مطالعہ کا ذکر نہیں کیا گیا ہے - LAION نے کل کا انتخاب کیا۔ متعارف کرانے "باقاعدہ دیکھ بھال کے طریقہ کار" کے منصوبے، فوری طور پر شروع کرتے ہوئے، "LAION ڈیٹاسیٹس میں سے ایسے لنکس کو ہٹانے کے لیے جو اب بھی عوامی انٹرنیٹ پر مشکوک، ممکنہ طور پر غیر قانونی مواد کی طرف اشارہ کرتے ہیں۔"
"LAION کی غیر قانونی مواد کے لیے صفر رواداری کی پالیسی ہے،" کمپنی نے کہا۔ "عوامی ڈیٹاسیٹس کو عارضی طور پر ہٹا دیا جائے گا، اپ ڈیٹ فلٹرنگ کے بعد واپس آنے کے لیے۔" LAION جنوری کے دوسرے نصف میں اپنے ڈیٹا سیٹس کو عوام کو واپس کرنے کا ارادہ رکھتا ہے۔ ®
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- : ہے
- : ہے
- : نہیں
- 1
- 2013
- 32
- 7
- a
- کی صلاحیت
- قابلیت
- ہمارے بارے میں
- بدسلوکی
- الزام لگایا
- سرگرمیوں
- شامل کیا
- ایڈیشنل
- بالغ
- کے بعد
- AI
- اے آئی کی تربیت
- سیدھ کریں
- بھی
- an
- اور
- کوئی بھی
- مصور
- AS
- آڈٹ
- واپس
- BE
- رہا
- اس سے پہلے
- شروع
- تعصب
- باصلاحیت
- باضابطہ
- بلومبرگ
- تعمیر
- لیکن
- by
- کینیڈا
- مقدمات
- پکڑے
- باعث
- سینٹر
- مرکز
- کچھ
- بچے
- بچوں کے تحفظ
- بچوں
- کا انتخاب کیا
- CO
- مجموعہ
- کمیونٹی
- کمپنی کے
- اندراج
- پر مشتمل ہے
- مواد
- کونوں
- تخلیق
- جرم
- ثقافتی
- اس وقت
- اعداد و شمار
- ڈیٹا پوائنٹس
- ڈیٹاسیٹس
- فیصلہ کیا
- گہرائی
- تفصیل
- کا پتہ لگانے کے
- ترقی یافتہ
- DID
- نہیں کیا
- مختلف
- براڈ کاسٹننگ
- براہ راست
- نہیں
- نیچے
- دو
- اس سے قبل
- آسان
- واقعات
- استحصال کیا۔
- چند
- فلٹرنگ
- فلٹر
- مل
- پہلا
- پہلی بار
- توجہ مرکوز
- کے لئے
- ملا
- بانی
- سے
- دی
- جنس
- پیدا
- پیدا کرنے والے
- جنریٹر
- جنریٹر
- جرمن
- گوگل
- عظیم
- تھا
- نصف
- نقصان دہ
- ہیش
- he
- مدد
- میزبانی کی
- HTTPS
- انسان
- کی نشاندہی
- شناخت
- if
- غیر قانونی
- تصویر
- تصاویر
- فوری طور پر
- کو بہتر بنانے کے
- in
- شامل
- شامل
- سمیت
- کے بجائے
- انٹرنیٹ
- میں
- نہیں
- IT
- میں
- خود
- جنوری
- فوٹو
- جانا جاتا ہے
- زبان
- بڑے
- ہلکا
- کی طرح
- امکان
- منسلک
- لنکس
- بنا
- دیکھ بھال
- بنانا
- بڑے پیمانے پر
- میچ
- مواد
- معاملہ
- مئی..
- طبی
- ذکر کیا
- میٹا ڈیٹا
- دس لاکھ
- لاپتہ
- ماڈل
- ماڈلنگ
- ماڈل
- ماہ
- زیادہ
- ایک سے زیادہ
- قومی
- کبھی نہیں
- غیر منافع بخش
- تعداد
- اشیاء
- ویدشالا
- of
- on
- آن لائن
- or
- تنظیم
- دیگر
- ہمارے
- پر
- مجموعی طور پر
- کاغذ.
- منظور
- لوگ
- اجازت
- تصویر
- کی منصوبہ بندی
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پوائنٹ
- پوائنٹس
- پالیسی
- مقبول
- ممکنہ
- ممکنہ طور پر
- پیشگی
- کی موجودگی
- حال (-)
- کی روک تھام
- مشکلات
- طریقہ کار
- پیش رفت
- تحفظ
- عوامی
- شائع
- سوالات
- نسل پرست
- رینج
- اٹ
- باقاعدہ
- جاری
- باقی
- ہٹانے
- ہٹا
- اطلاع دی
- محققین
- جواب
- واپسی
- کا جائزہ لینے کے
- s
- سیفٹی
- کہا
- دوسری
- بھیجا
- خدمت کی
- کئی
- جنسی
- وہ
- سے ظاہر ہوا
- اہم
- صورتحال
- جلد
- پھسلنا
- سماجی
- کچھ
- ماخذ
- استحکام
- مستحکم
- اسٹینفورڈ
- ابھی تک
- مطالعہ
- سرجری
- مشکوک
- لیا
- ٹیک
- بتا
- ٹیسٹنگ
- سے
- کہ
- ۔
- ان
- خود
- وہ
- چیزیں
- اس
- اس سال
- ان
- ہزاروں
- وقت
- اوقات
- کرنے کے لئے
- آج
- رواداری
- کے آلے
- کی طرف
- ٹرین
- ٹریننگ
- ٹویٹر
- بے نقاب
- گزر گیا
- غیر قانونی
- اپ ڈیٹ کریں
- URL
- us
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- کا استعمال کرتے ہوئے
- تصدیق کریں۔
- تصدیق
- ورژن
- تھا
- ویب سائٹ
- اچھا ہے
- تھے
- مغربی
- جب
- چاہے
- جس
- جبکہ
- وسیع
- وسیع رینج
- وسیع پیمانے پر
- گے
- ساتھ
- WordPress
- قابل
- سال
- کل
- زیفیرنیٹ
- صفر