एक विशाल सार्वजनिक डेटासेट जो स्टेबल डिफ्यूजन सहित लोकप्रिय एआई छवि जनरेटर के लिए प्रशिक्षण डेटा के रूप में कार्य करता है, उसमें बाल यौन शोषण सामग्री (सीएसएएम) के हजारों उदाहरण पाए गए हैं।
में अध्ययन आज प्रकाशित, स्टैनफोर्ड इंटरनेट ऑब्ज़र्वेटरी (एसआईओ) ने कहा कि उसने LAION-32B डेटासेट में 5 मिलियन से अधिक डेटा बिंदुओं को देखा और Microsoft द्वारा विकसित टूल PhotoDNA, 1,008 CSAM छवियों का उपयोग करके सत्यापित करने में सक्षम था - कुछ को कई बार शामिल किया गया। शोधकर्ताओं ने अपने पेपर में कहा कि यह संख्या संभवतः "एक महत्वपूर्ण कमी" है।
LAION-5B में स्वयं छवियां शामिल नहीं हैं, बल्कि यह मेटाडेटा का एक संग्रह है जिसमें छवि पहचानकर्ता का हैश, विवरण, भाषा डेटा, चाहे वह असुरक्षित हो, और छवि की ओर इंगित करने वाला URL शामिल है। LAION-5B में लिंक की गई कई CSAM तस्वीरें Reddit, Twitter, Blogspot और WordPress जैसी वेबसाइटों के साथ-साथ XHamster और XVideos जैसी वयस्क वेबसाइटों पर होस्ट की गई पाई गईं।
परीक्षण योग्य डेटासेट में छवियों को खोजने के लिए, SIO ने LAION के सुरक्षा क्लासिफायरियर द्वारा "असुरक्षित" के रूप में टैग की गई छवियों पर ध्यान केंद्रित किया। सीएसएएम का पता लगाने के लिए उन छवियों को फोटोडीएनए के साथ स्कैन किया गया था, और मिलान को सत्यापित करने के लिए कनाडाई सेंटर फॉर चाइल्ड प्रोटेक्शन (सी3पी) को भेजा गया था।
एसआईओ ने कहा, "पहचान की गई स्रोत सामग्री को हटाने का काम अभी चल रहा है क्योंकि शोधकर्ताओं ने अमेरिका में नेशनल सेंटर फॉर मिसिंग एंड एक्सप्लॉइटेड चिल्ड्रेन (एनसीएमईसी) और सी3पी को छवि यूआरएल की सूचना दी है।" कहा.
LAION-5B का उपयोग लोकप्रिय AI छवि जनरेटर स्टेबल डिफ्यूजन को प्रशिक्षित करने के लिए किया गया था, जिसका संस्करण 1.5 इंटरनेट के कुछ हिस्सों में स्पष्ट छवियां बनाने की क्षमता के लिए प्रसिद्ध है। जबकि बाल मनोचिकित्सक जैसे मामलों से इसका सीधा संबंध नहीं है अश्लील चित्र बनाने के लिए AI का उपयोग करना नाबालिगों के लिए, यह उस प्रकार की तकनीक है जिसे बनाया गया है डीपफेक सेक्सटॉर्शन और अन्य अपराध आसान।
एसआईओ के अनुसार, स्टेबल डिफ्यूजन 1.5 की रिलीज के साथ "समुदाय से व्यापक असंतोष" के बाद स्पष्ट तस्वीरें उत्पन्न करने के लिए स्टेबल डिफ्यूजन 2.0 ऑनलाइन लोकप्रिय बना हुआ है, जिसमें प्रशिक्षण डेटासेट में असुरक्षित छवियों को फिसलने से रोकने के लिए अतिरिक्त फिल्टर जोड़े गए हैं।
यह स्पष्ट नहीं है कि स्टेबिलिटी एआई, जिसने स्टेबल डिफ्यूजन विकसित किया था, LAION-5B के उपयोग के कारण अपने मॉडलों में संभावित CSAM की उपस्थिति के बारे में जानता था; कंपनी ने हमारे सवालों का जवाब नहीं दिया.
उफ़, उन्होंने इसे फिर से किया
हालाँकि यह पहली बार है कि जर्मन गैर-लाभकारी संस्था LAION के AI प्रशिक्षण डेटा पर बाल पोर्न को बढ़ावा देने का आरोप लगाया गया है, संगठन को पहले भी अपने प्रशिक्षण डेटा में संदिग्ध सामग्री शामिल करने के लिए आलोचना का सामना करना पड़ा है।
Google, जिसने अपने Imagen AI जनरेटर को प्रशिक्षित करने के लिए LAION-2B पूर्ववर्ती LAION-400M का उपयोग किया था, ने कई चिंताओं के कारण टूल को कभी जारी नहीं करने का निर्णय लिया, जिसमें यह भी शामिल था कि क्या LAION प्रशिक्षण डेटा ने इसे एक पक्षपाती और समस्याग्रस्त मॉडल बनाने में मदद की थी।
इमेजेन टीम के अनुसार, जनरेटर ने "हल्की त्वचा टोन वाले लोगों की छवियां बनाने और पश्चिमी लिंग रूढ़िवादिता के साथ संरेखित करने के लिए विभिन्न व्यवसायों को चित्रित करने के प्रति एक समग्र पूर्वाग्रह दिखाया।" इंसानों के अलावा अन्य चीजों की मॉडलिंग करने से स्थिति में सुधार नहीं हुआ, जिससे इमेजेन को "गतिविधियों, घटनाओं और वस्तुओं की छवियां बनाते समय कई सामाजिक और सांस्कृतिक पूर्वाग्रहों को एनकोड करना पड़ा।"
LAION-400M के ऑडिट में "अश्लील चित्रण, नस्लवादी गालियां और हानिकारक सामाजिक रूढ़िवादिता सहित अनुचित सामग्री की एक विस्तृत श्रृंखला का खुलासा हुआ।"
कुछ महीनों बाद Google ने एक कलाकार इमेजेन को सार्वजनिक करने का निर्णय लिया धब्बेदार 2013 में उनकी सर्जरी की मेडिकल छवियां LAION-5B में मौजूद थीं, जिन्हें उन्होंने कभी भी शामिल करने की अनुमति नहीं दी थी।
LAION ने इस मामले पर हमारे सवालों का जवाब नहीं दिया, लेकिन संस्थापक क्रिस्टोफ़ शुहमैन ने इस साल की शुरुआत में ब्लूमबर्ग को बताया था कि वह अनजान LAION-5B में मौजूद किसी भी CSAM की, साथ ही यह भी स्वीकार किया कि "उन्होंने डेटा की बहुत गहराई से समीक्षा नहीं की।"
संयोगवश या नहीं - SIO अध्ययन का उल्लेख नहीं किया गया है - LAION ने कल चुना परिचय कराना "नियमित रखरखाव प्रक्रियाओं" की योजना तुरंत शुरू हो रही है, "LAION डेटासेट में लिंक को हटाने के लिए जो अभी भी सार्वजनिक इंटरनेट पर संदिग्ध, संभावित रूप से गैरकानूनी सामग्री की ओर इशारा करते हैं।"
कंपनी ने कहा, "LAION की अवैध सामग्री के लिए जीरो टॉलरेंस की नीति है।" "अपडेट फ़िल्टरिंग के बाद वापस लौटने के लिए सार्वजनिक डेटासेट को अस्थायी रूप से हटा दिया जाएगा।" LAION ने जनवरी की दूसरी छमाही में अपने डेटासेट जनता को लौटाने की योजना बनाई है। ®
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :हैस
- :है
- :नहीं
- 1
- 2013
- 32
- 7
- a
- क्षमता
- योग्य
- About
- गाली
- अभियुक्त
- गतिविधियों
- जोड़ा
- अतिरिक्त
- वयस्क
- बाद
- AI
- एआई प्रशिक्षण
- संरेखित करें
- भी
- an
- और
- कोई
- कलाकार
- AS
- आडिट
- वापस
- BE
- किया गया
- से पहले
- शुरू
- पूर्वाग्रह
- झुका हुआ
- पूर्वाग्रहों
- ब्लूमबर्ग
- निर्माण
- लेकिन
- by
- कैनेडियन
- मामलों
- पकड़ा
- के कारण
- केंद्र
- केंद्र
- कुछ
- बच्चा
- बाल संरक्षण
- बच्चे
- चुना
- CO
- संग्रह
- समुदाय
- कंपनी
- चिंताओं
- शामिल
- सामग्री
- कोनों
- बनाना
- अपराध
- सांस्कृतिक
- वर्तमान में
- तिथि
- डेटा अंक
- डेटासेट
- का फैसला किया
- गहराई
- विवरण
- पता लगाना
- विकसित
- डीआईडी
- नहीं था
- विभिन्न
- प्रसार
- सीधे
- नहीं करता है
- नीचे
- दो
- पूर्व
- आसान
- घटनाओं
- शोषित
- कुछ
- छानने
- फ़िल्टर
- खोज
- प्रथम
- पहली बार
- ध्यान केंद्रित
- के लिए
- पाया
- संस्थापक
- से
- दे दिया
- लिंग
- उत्पन्न
- सृजन
- जनक
- जनरेटर
- जर्मन
- गूगल
- महान
- था
- आधा
- हानिकारक
- हैश
- he
- मदद की
- मेजबानी
- HTTPS
- मनुष्य
- पहचान
- पहचानकर्ता
- if
- अवैध
- की छवि
- छवियों
- तुरंत
- में सुधार
- in
- शामिल
- शामिल
- सहित
- बजाय
- इंटरनेट
- में
- प्रतिसाद नहीं
- IT
- आईटी इस
- खुद
- जनवरी
- जेपीजी
- जानने वाला
- भाषा
- बड़ा
- लाइटर
- पसंद
- संभावित
- जुड़ा हुआ
- लिंक
- बनाया गया
- रखरखाव
- निर्माण
- विशाल
- मैच
- सामग्री
- बात
- मई..
- मेडिकल
- उल्लेख किया
- मेटाडाटा
- दस लाख
- लापता
- आदर्श
- मोडलिंग
- मॉडल
- महीने
- अधिक
- विभिन्न
- राष्ट्रीय
- कभी नहीँ
- गैर लाभ
- संख्या
- वस्तुओं
- वेधशाला
- of
- on
- ऑनलाइन
- or
- संगठन
- अन्य
- हमारी
- के ऊपर
- कुल
- काग़ज़
- पास
- स्टाफ़
- अनुमति
- तस्वीरें
- योजनाओं
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- बिन्दु
- अंक
- नीति
- लोकप्रिय
- संभावित
- संभावित
- पूर्वज
- उपस्थिति
- वर्तमान
- को रोकने के
- समस्यात्मक
- प्रक्रिया
- प्रगति
- सुरक्षा
- सार्वजनिक
- प्रकाशित
- प्रशन
- नस्लवादी
- रेंज
- रेडिट
- नियमित
- और
- बाकी है
- हटाने
- हटाना
- की सूचना दी
- शोधकर्ताओं
- प्रतिक्रिया
- वापसी
- की समीक्षा
- s
- सुरक्षा
- कहा
- दूसरा
- भेजा
- सेवा की
- कई
- यौन
- वह
- पता चला
- महत्वपूर्ण
- स्थिति
- स्किन
- फिसल
- सोशल मीडिया
- कुछ
- स्रोत
- स्थिरता
- स्थिर
- स्टैनफोर्ड
- फिर भी
- अध्ययन
- सर्जरी
- संदेहजनक
- लिया
- तकनीक
- कहना
- परीक्षण
- से
- कि
- RSI
- लेकिन हाल ही
- अपने
- वे
- चीज़ें
- इसका
- इस वर्ष
- उन
- हजारों
- पहर
- बार
- सेवा मेरे
- आज
- सहिष्णुता
- साधन
- की ओर
- रेलगाड़ी
- प्रशिक्षण
- पर्दाफाश
- कराना पड़ा
- ग़ैरक़ानूनी
- अपडेट
- यूआरएल
- us
- उपयोग
- प्रयुक्त
- का उपयोग
- सत्यापित करें
- सत्यापित
- संस्करण
- था
- वेबसाइटों
- कुंआ
- थे
- पश्चिमी
- कब
- या
- कौन कौन से
- जब
- चौड़ा
- विस्तृत श्रृंखला
- बड़े पैमाने पर
- मर्जी
- साथ में
- WordPress
- लायक
- वर्ष
- कल
- जेफिरनेट
- शून्य