একটি বিশাল পাবলিক ডেটাসেট যা জনপ্রিয় এআই ইমেজ জেনারেটরের জন্য প্রশিক্ষণ ডেটা হিসাবে কাজ করে যার মধ্যে স্থিতিশীল ডিফিউশন সহ হাজার হাজার শিশু যৌন নির্যাতনের উপাদান (CSAM) রয়েছে।
একটি ইন অধ্যয়ন আজ প্রকাশিত, স্ট্যানফোর্ড ইন্টারনেট অবজারভেটরি (SIO) বলেছে যে এটি LAION-32B ডেটাসেটে 5 মিলিয়নেরও বেশি ডেটা পয়েন্ট পোর করেছে এবং মাইক্রোসফ্ট-উন্নত টুল PhotoDNA, 1,008 CSAM ইমেজ ব্যবহার করে যাচাই করতে সক্ষম হয়েছে - কিছু একাধিকবার অন্তর্ভুক্ত। এই সংখ্যা সম্ভবত "একটি উল্লেখযোগ্য কম গণনা," গবেষকরা তাদের গবেষণাপত্রে বলেছেন।
LAION-5B ছবিগুলিকে নিজেরাই অন্তর্ভুক্ত করে না এবং এর পরিবর্তে এটি ইমেজ আইডেন্টিফায়ারের একটি হ্যাশ, একটি বর্ণনা, ভাষা ডেটা, এটি অনিরাপদ হতে পারে কিনা এবং একটি URL চিত্রের দিকে নির্দেশ করে সহ মেটাডেটার একটি সংগ্রহ৷ LAION-5B-তে লিঙ্ক করা অনেকগুলি CSAM ফটো রেডডিট, টুইটার, ব্লগস্পট এবং ওয়ার্ডপ্রেসের মতো ওয়েবসাইটগুলির পাশাপাশি XHamster এবং XVideos-এর মতো প্রাপ্তবয়স্ক ওয়েবসাইটগুলিতে হোস্ট করা পাওয়া গেছে।
পরীক্ষার মূল্যবান ডেটাসেটে ছবিগুলি খুঁজে পেতে, SIO LAION-এর নিরাপত্তা শ্রেণীবিভাগ দ্বারা ট্যাগ করা ছবিগুলিতে ফোকাস করেছে "অনিরাপদ।" সিএসএএম শনাক্ত করার জন্য সেই ছবিগুলি ফটোডিএনএ দিয়ে স্ক্যান করা হয়েছিল এবং মিলগুলি যাচাই করার জন্য কানাডিয়ান সেন্টার ফর চাইল্ড প্রোটেকশন (C3P) এ পাঠানো হয়েছিল।
"শনাক্ত করা উৎসের উপাদানগুলি সরানোর প্রক্রিয়া বর্তমানে চলছে কারণ গবেষকরা মার্কিন যুক্তরাষ্ট্রে ন্যাশনাল সেন্টার ফর মিসিং অ্যান্ড এক্সপ্লয়েটেড চিলড্রেন (NCMEC) এবং C3P-কে ছবির URL গুলি রিপোর্ট করেছেন," SIO বলেছেন.
LAION-5B জনপ্রিয় AI ইমেজ জেনারেটর স্টেবল ডিফিউশনকে প্রশিক্ষিত করার জন্য ব্যবহার করা হয়েছিল, যার সংস্করণ 1.5 ইন্টারনেটের নির্দিষ্ট কোণে সুস্পষ্ট ছবি তৈরি করার ক্ষমতার জন্য সুপরিচিত। একজন শিশু মনোরোগ বিশেষজ্ঞের মতো ক্ষেত্রে সরাসরি যুক্ত না হলেও AI ব্যবহার করে পর্নোগ্রাফিক ছবি তৈরি করা অপ্রাপ্তবয়স্কদের জন্য, এটি সেই ধরণের প্রযুক্তি যা তৈরি করা হয়েছে deepfake sextortion এবং অন্যান্য অপরাধ সহজ।
SIO-এর মতে, Stable Diffusion 1.5 স্থিতিশীল ডিফিউশন 2.0 প্রকাশের সাথে "সম্প্রদায়ের ব্যাপক অসন্তোষ" এর পরে স্পষ্ট ছবি তৈরি করার জন্য অনলাইনে জনপ্রিয় হয়ে উঠেছে, যা প্রশিক্ষণ ডেটাসেটে অনিরাপদ ছবিগুলিকে স্খলন থেকে আটকাতে অতিরিক্ত ফিল্টার যুক্ত করেছে।
এটা স্পষ্ট নয় যে স্থিতিশীলতা AI, যা স্থিতিশীল ডিফিউশন তৈরি করেছে, LAION-5B ব্যবহারের কারণে তার মডেলগুলিতে সম্ভাব্য CSAM-এর উপস্থিতি সম্পর্কে জানত কিনা; কোম্পানি আমাদের প্রশ্নের উত্তর দেয়নি।
ওহো, তারা আবার এটা করেছে
যদিও এটি প্রথমবারের মতো জার্মান অলাভজনক LAION-এর AI প্রশিক্ষণের ডেটাতে চাইল্ড পর্ণকে আশ্রয় দেওয়ার অভিযোগ আনা হয়েছে, সংস্থাটি এর আগে প্রশিক্ষণের ডেটাতে সন্দেহজনক বিষয়বস্তু অন্তর্ভুক্ত করার জন্য ফ্ল্যাক ধরেছে।
Google, যেটি তার Imagen AI জেনারেটরকে প্রশিক্ষিত করার জন্য LAION-2M নামে পরিচিত একটি LAION-400B পূর্বসূরি ব্যবহার করেছিল, LAION প্রশিক্ষণের ডেটা এটিকে একটি পক্ষপাতদুষ্ট এবং সমস্যাযুক্ত মডেল তৈরি করতে সাহায্য করেছিল কিনা সহ বিভিন্ন উদ্বেগের কারণে টুলটি কখনই প্রকাশ করার সিদ্ধান্ত নেয়নি।
ইমেজেন দলের মতে, জেনারেটর দেখিয়েছে "হালকা ত্বকের টোনযুক্ত লোকেদের ছবি তৈরি করার এবং … পশ্চিমা লিঙ্গ স্টিরিওটাইপগুলির সাথে সারিবদ্ধ করার জন্য বিভিন্ন পেশাকে চিত্রিত করার দিকে একটি সামগ্রিক পক্ষপাত।" মানুষ ব্যতীত অন্য জিনিসগুলির মডেলিং পরিস্থিতির উন্নতি করেনি, যার ফলে Imagen "ক্রিয়াকলাপ, ঘটনা এবং বস্তুর চিত্র তৈরি করার সময় সামাজিক এবং সাংস্কৃতিক পক্ষপাতের একটি পরিসর এনকোড করে।"
LAION-400M-এর একটি অডিট নিজেই "পর্নোগ্রাফিক ইমেজ, বর্ণবাদী অপবাদ, এবং ক্ষতিকারক সামাজিক স্টেরিওটাইপ সহ বিস্তৃত অনুপযুক্ত বিষয়বস্তু উন্মোচন করেছে।"
গুগল ইমেজেনকে সর্বজনীন করার সিদ্ধান্ত নেওয়ার কয়েক মাস পরে, একজন শিল্পী তিলকিত LAION-2013B-তে 5 সালে তার করা একটি অস্ত্রোপচারের চিকিৎসা চিত্র, যা তিনি কখনই অন্তর্ভুক্ত করার অনুমতি দেননি।
LAION এই বিষয়ে আমাদের প্রশ্নের উত্তর দেয়নি, তবে প্রতিষ্ঠাতা ক্রিস্টোফ শুম্যান এই বছরের শুরুতে ব্লুমবার্গকে বলেছিলেন যে তিনি অবিদিত LAION-5B-তে উপস্থিত যেকোন CSAM-এর, এবং স্বীকার করে যে "তিনি গভীরভাবে ডেটা পর্যালোচনা করেননি।"
কাকতালীয়ভাবে বা না - SIO অধ্যয়নের উল্লেখ নেই - LAION গতকাল বেছে নিয়েছে প্রবর্তন করা "নিয়মিত রক্ষণাবেক্ষণ পদ্ধতির" পরিকল্পনা, অবিলম্বে শুরু করে, "LAION ডেটাসেটের লিঙ্কগুলিকে সরিয়ে ফেলার জন্য যা এখনও পাবলিক ইন্টারনেটে সন্দেহজনক, সম্ভাব্য বেআইনি বিষয়বস্তু নির্দেশ করে।"
"LAION এর অবৈধ বিষয়বস্তুর জন্য একটি শূন্য সহনশীলতা নীতি রয়েছে," কোম্পানি বলেছে। "পাবলিক ডেটাসেটগুলি অস্থায়ীভাবে নামিয়ে নেওয়া হবে, আপডেট ফিল্টারিংয়ের পরে ফিরে আসার জন্য।" LAION জানুয়ারির দ্বিতীয়ার্ধে জনসাধারণের কাছে তার ডেটাসেটগুলি ফেরত দেওয়ার পরিকল্পনা করেছে। ®
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- : আছে
- : হয়
- :না
- 1
- 2013
- 32
- 7
- a
- ক্ষমতা
- সক্ষম
- সম্পর্কে
- অপব্যবহার
- অভিযুক্ত
- ক্রিয়াকলাপ
- যোগ
- অতিরিক্ত
- প্রাপ্তবয়স্ক
- পর
- AI
- এআই প্রশিক্ষণ
- শ্রেণীবদ্ধ করা
- এছাড়াও
- an
- এবং
- কোন
- শিল্পী
- AS
- নিরীক্ষা
- পিছনে
- BE
- হয়েছে
- আগে
- শুরু
- পক্ষপাত
- পক্ষপাতদুষ্ট
- গোঁড়ামির
- ব্লুমবার্গ
- নির্মাণ করা
- কিন্তু
- by
- কানাডিয়ান
- মামলা
- ধরা
- যার ফলে
- কেন্দ্র
- কেন্দ্র
- কিছু
- শিশু
- শিশু সুরক্ষা
- শিশু
- বেছে
- CO
- সংগ্রহ
- সম্প্রদায়
- কোম্পানি
- উদ্বেগ
- ধারণ করা
- বিষয়বস্তু
- কোণে
- সৃষ্টি
- অপরাধ
- সাংস্কৃতিক
- এখন
- উপাত্ত
- ডেটা পয়েন্ট
- ডেটাসেট
- সিদ্ধান্ত নিয়েছে
- গভীরতা
- বিবরণ
- সনাক্ত
- উন্নত
- DID
- করিনি
- বিভিন্ন
- আশ্লেষ
- সরাসরি
- doesn
- নিচে
- কারণে
- পূর্বে
- সহজ
- ঘটনাবলী
- শোষিত
- কয়েক
- ফিল্টারিং
- ফিল্টার
- আবিষ্কার
- প্রথম
- প্রথমবার
- দৃষ্টি নিবদ্ধ করা
- জন্য
- পাওয়া
- প্রতিষ্ঠাতা
- থেকে
- দিলেন
- লিঙ্গ
- উত্পাদন করা
- উৎপাদিত
- উত্পাদক
- জেনারেটর
- জার্মান
- গুগল
- মহান
- ছিল
- অর্ধেক
- ক্ষতিকর
- কাটা
- he
- সাহায্য
- হোস্ট
- HTTPS দ্বারা
- মানুষেরা
- চিহ্নিত
- আইডেন্টিফায়ার
- if
- অবৈধ
- ভাবমূর্তি
- চিত্র
- অবিলম্বে
- উন্নত করা
- in
- অন্তর্ভুক্ত করা
- অন্তর্ভুক্ত
- সুদ্ধ
- পরিবর্তে
- Internet
- মধ্যে
- আইএসএন
- IT
- এর
- নিজেই
- জানুয়ারী
- JPG
- পরিচিত
- ভাষা
- বড়
- লাইটার
- মত
- সম্ভবত
- সংযুক্ত
- লিঙ্ক
- প্রণীত
- রক্ষণাবেক্ষণ
- মেকিং
- বৃহদায়তন
- ম্যাচ
- উপাদান
- ব্যাপার
- মে..
- চিকিৎসা
- উল্লিখিত
- মেটাডাটা
- মিলিয়ন
- অনুপস্থিত
- মডেল
- মূর্তিনির্মাণ
- মডেল
- মাসের
- অধিক
- বহু
- জাতীয়
- না
- অলাভজনক
- সংখ্যা
- বস্তু
- অবজারভেটরি
- of
- on
- অনলাইন
- or
- সংগঠন
- অন্যান্য
- আমাদের
- শেষ
- সামগ্রিক
- কাগজ
- পাস
- সম্প্রদায়
- অনুমতি
- দা
- পরিকল্পনা সমূহ
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- বিন্দু
- পয়েন্ট
- নীতি
- জনপ্রিয়
- সম্ভাব্য
- সম্ভাব্য
- পূর্বপুরুষ
- উপস্থিতি
- বর্তমান
- প্রতিরোধ
- অনিশ্চিত
- পদ্ধতি
- উন্নতি
- রক্ষা
- প্রকাশ্য
- প্রকাশিত
- প্রশ্ন
- বর্ণবাদী
- পরিসর
- নিয়মিত
- মুক্তি
- দেহাবশেষ
- অপসারণ
- অপসারণ
- রিপোর্ট
- গবেষকরা
- প্রতিক্রিয়া
- প্রত্যাবর্তন
- এখানে ক্লিক করুন
- s
- নিরাপত্তা
- বলেছেন
- দ্বিতীয়
- প্রেরিত
- সার্ভিস পেয়েছে
- বিভিন্ন
- যৌন
- সে
- দেখিয়েছেন
- গুরুত্বপূর্ণ
- অবস্থা
- চামড়া
- পিছলে
- সামাজিক
- কিছু
- উৎস
- স্থায়িত্ব
- স্থিতিশীল
- স্ট্যানফোর্ড
- এখনো
- অধ্যয়ন
- সার্জারি
- সন্দেহজনক
- ধরা
- প্রযুক্তি
- বলা
- পরীক্ষামূলক
- চেয়ে
- যে
- সার্জারির
- তাদের
- নিজেদের
- তারা
- কিছু
- এই
- এই বছর
- সেগুলো
- হাজার হাজার
- সময়
- বার
- থেকে
- আজ
- সহ্য
- টুল
- প্রতি
- রেলগাড়ি
- প্রশিক্ষণ
- টুইটার
- উন্মোচিত
- নিয়েছেন
- বেআইনী
- আপডেট
- URL টি
- us
- ব্যবহার
- ব্যবহৃত
- ব্যবহার
- যাচাই করুন
- ভেরিফাইড
- সংস্করণ
- ছিল
- ওয়েবসাইট
- আমরা একটি
- ছিল
- পাশ্চাত্য
- কখন
- কিনা
- যে
- যখন
- ব্যাপক
- প্রশস্ত পরিসর
- ব্যাপক
- ইচ্ছা
- সঙ্গে
- ওয়ার্ডপ্রেস
- মূল্য
- বছর
- গতকাল
- zephyrnet
- শূন্য