ชุดข้อมูลสาธารณะขนาดใหญ่ที่ทำหน้าที่เป็นข้อมูลการฝึกอบรมสำหรับโปรแกรมสร้างภาพ AI ยอดนิยม รวมถึง Stable Diffusion พบว่ามีสื่อการล่วงละเมิดทางเพศเด็ก (CSAM) หลายพันรายการ
ใน ศึกษา Stanford Internet Observatory (SIO) ที่เผยแพร่ในวันนี้ ระบุว่าได้เจาะจุดข้อมูลมากกว่า 32 ล้านจุดในชุดข้อมูล LAION-5B และสามารถตรวจสอบความถูกต้องโดยใช้เครื่องมือ PhotoDNA ที่ไมโครซอฟต์พัฒนาขึ้น มีรูปภาพ CSAM 1,008 ภาพ ซึ่งบางภาพรวมหลายครั้ง นักวิจัยกล่าวในรายงานของพวกเขาว่าตัวเลขดังกล่าวน่าจะเป็น "จำนวนที่ต่ำกว่าอย่างมีนัยสำคัญ"
LAION-5B ไม่ได้รวมรูปภาพไว้ด้วย แต่เป็นคอลเลกชันของข้อมูลเมตาแทน รวมถึงแฮชของตัวระบุรูปภาพ คำอธิบาย ข้อมูลภาษา ว่าอาจไม่ปลอดภัยหรือไม่ และ URL ที่ชี้ไปยังรูปภาพ รูปภาพ CSAM จำนวนหนึ่งที่พบใน LAION-5B ถูกโฮสต์บนเว็บไซต์เช่น Reddit, Twitter, Blogspot และ WordPress รวมถึงเว็บไซต์สำหรับผู้ใหญ่เช่น XHamster และ XVideos
ในการค้นหารูปภาพในชุดข้อมูลที่ควรค่าแก่การทดสอบ SIO มุ่งเน้นไปที่รูปภาพที่แท็กโดยตัวแยกประเภทความปลอดภัยของ LAION ว่า “ไม่ปลอดภัย” ภาพเหล่านั้นถูกสแกนด้วย PhotoDNA เพื่อตรวจจับ CSAM และส่งการจับคู่ไปที่ศูนย์คุ้มครองเด็กแห่งแคนาดา (C3P) เพื่อตรวจสอบ
“ขณะนี้การลบแหล่งข้อมูลที่ระบุอยู่ในระหว่างดำเนินการ เนื่องจากนักวิจัยรายงาน URL ของรูปภาพไปยังศูนย์เพื่อเด็กหายและถูกแสวงประโยชน์แห่งชาติ (NCMEC) ในสหรัฐอเมริกาและ C3P” SIO กล่าวว่า.
LAION-5B ใช้เพื่อฝึก Stable Diffusion ของโปรแกรมสร้างภาพ AI ยอดนิยม ซึ่งเป็นเวอร์ชัน 1.5 ซึ่งเป็นที่รู้จักกันดีในบางมุมของอินเทอร์เน็ตในเรื่องความสามารถในการสร้างภาพที่ชัดเจน แม้จะไม่ได้เชื่อมโยงโดยตรงกับกรณีเช่นจิตแพทย์เด็กก็ตาม การใช้ AI เพื่อสร้างภาพลามกอนาจาร ของผู้เยาว์ มันเป็นเทคโนโลยีประเภทนั้นที่สร้างขึ้น การทรมานทางเพศแบบ Deepfake และอาชญากรรมอื่นๆ ได้ง่ายขึ้น
จากข้อมูลของ SIO นั้น Stable Diffusion 1.5 ยังคงได้รับความนิยมทางออนไลน์ในการสร้างภาพถ่ายที่ชัดเจนหลังจาก “ความไม่พอใจในวงกว้างจากชุมชน” ด้วยการเปิดตัว Stable Diffusion 2.0 ซึ่งเพิ่มตัวกรองเพิ่มเติมเพื่อป้องกันไม่ให้ภาพที่ไม่ปลอดภัยหลุดเข้าไปในชุดข้อมูลการฝึกอบรม
ไม่ชัดเจนว่า Stability AI ซึ่งพัฒนา Stable Diffusion ทราบเกี่ยวกับการมีอยู่ของ CSAM ในโมเดลของตนเนื่องจากการใช้ LAION-5B หรือไม่ บริษัทไม่ตอบคำถามของเรา
อ๊ะ พวกเขาทำมันอีกแล้ว
แม้ว่านี่จะเป็นครั้งแรกที่ข้อมูลการฝึกอบรม AI ขององค์กรไม่แสวงผลกำไรในเยอรมนี LAION ถูกกล่าวหาว่ามีเนื้อหาลามกอนาจารเด็ก แต่องค์กรกลับพบว่ายังขาดเนื้อหาที่น่าสงสัยในข้อมูลการฝึกอบรมมาก่อน
Google ซึ่งใช้ LAION-2B รุ่นก่อนหน้าที่รู้จักกันในชื่อ LAION-400M ในการฝึกเครื่องกำเนิด Imagen AI ตัดสินใจที่จะไม่ปล่อยเครื่องมือนี้เนื่องจากข้อกังวลหลายประการ รวมถึงว่าข้อมูลการฝึกอบรม LAION ได้ช่วยสร้างโมเดลที่มีอคติและมีปัญหาหรือไม่
ตามที่ทีมงาน Imagenโปรแกรมสร้างแสดงให้เห็น "อคติโดยรวมต่อการสร้างภาพบุคคลที่มีโทนสีผิวสว่างกว่า และ ... แสดงภาพอาชีพต่างๆ เพื่อให้สอดคล้องกับทัศนคติเหมารวมทางเพศของชาวตะวันตก" การสร้างโมเดลสิ่งต่าง ๆ นอกเหนือจากมนุษย์ไม่ได้ทำให้สถานการณ์ดีขึ้น ทำให้ Imagen "เข้ารหัสอคติทางสังคมและวัฒนธรรมที่หลากหลายเมื่อสร้างรูปภาพของกิจกรรม กิจกรรม และวัตถุ"
การตรวจสอบของ LAION-400M เอง “ได้ค้นพบเนื้อหาที่ไม่เหมาะสมมากมาย รวมถึงภาพลามกอนาจาร การเหยียดเชื้อชาติ และการเหมารวมทางสังคมที่เป็นอันตราย”
ไม่กี่เดือนหลังจากที่ Google ตัดสินใจเผยแพร่ Imagen สู่สาธารณะในฐานะศิลปิน ด่าง ภาพทางการแพทย์จากการผ่าตัดที่เธอเข้ารับการผ่าตัดในปี 2013 ปรากฏอยู่ใน LAION-5B ซึ่งเธอไม่เคยอนุญาตให้รวมไว้
LAION ไม่ตอบคำถามของเราในเรื่องนี้ แต่ผู้ก่อตั้ง Christoph Schuhmann ได้บอกกับ Bloomberg เมื่อต้นปีนี้ว่าเขา ไม่ทราบ ของ CSAM ใดๆ ที่มีอยู่ใน LAION-5B ขณะเดียวกันก็ยอมรับว่า "เขาไม่ได้ตรวจสอบข้อมูลในเชิงลึกมากนัก"
บังเอิญหรือไม่ – ไม่มีการกล่าวถึงการศึกษา SIO – LAION เลือกเมื่อวานนี้ แนะนำ แผนสำหรับ “ขั้นตอนการบำรุงรักษาตามปกติ” เริ่มต้นทันทีเพื่อลบ “ลิงก์ในชุดข้อมูล LAION ที่ยังคงชี้ไปยังเนื้อหาที่น่าสงสัยและอาจผิดกฎหมายบนอินเทอร์เน็ตสาธารณะ”
“LAION มีนโยบายไม่ยอมรับเนื้อหาที่ผิดกฎหมาย” บริษัทกล่าว “ชุดข้อมูลสาธารณะจะถูกลบออกชั่วคราว เพื่อส่งคืนหลังจากการกรองการอัปเดต” LAION วางแผนที่จะส่งคืนชุดข้อมูลสู่สาธารณะในช่วงครึ่งหลังของเดือนมกราคม ®
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :มี
- :เป็น
- :ไม่
- 1
- 2013
- 32
- 7
- a
- ความสามารถ
- สามารถ
- เกี่ยวกับเรา
- การล่วงละเมิด
- ผู้ถูกกล่าวหา
- กิจกรรม
- ที่เพิ่ม
- เพิ่มเติม
- ผู้ใหญ่
- หลังจาก
- AI
- การฝึกอบรม AI
- จัดแนว
- ด้วย
- an
- และ
- ใด
- ศิลปิน
- AS
- การตรวจสอบบัญชี
- กลับ
- BE
- รับ
- ก่อน
- การเริ่มต้น
- อคติ
- ลำเอียง
- อคติ
- บลูมเบิร์ก
- สร้าง
- แต่
- by
- ชาวแคนาดา
- กรณี
- จับ
- การก่อให้เกิด
- ศูนย์
- ศูนย์
- บาง
- เด็ก
- การคุ้มครองเด็ก
- เด็ก
- เลือก
- CO
- ชุด
- ชุมชน
- บริษัท
- ความกังวลเกี่ยวกับ
- บรรจุ
- เนื้อหา
- มุม
- สร้าง
- อาชญากรรม
- ด้านวัฒนธรรม
- ขณะนี้
- ข้อมูล
- จุดข้อมูล
- ชุดข้อมูล
- ตัดสินใจ
- ความลึก
- ลักษณะ
- ตรวจจับ
- พัฒนา
- DID
- didn
- ต่าง
- การจัดจำหน่าย
- โดยตรง
- doesn
- ลง
- สอง
- ก่อน
- ง่ายดาย
- เหตุการณ์
- ใช้ประโยชน์
- สองสาม
- กรอง
- ฟิลเตอร์
- หา
- ชื่อจริง
- ครั้งแรก
- มุ่งเน้น
- สำหรับ
- พบ
- ผู้สร้าง
- ราคาเริ่มต้นที่
- ให้
- เพศ
- สร้าง
- การสร้าง
- เครื่องกำเนิดไฟฟ้า
- เครื่องกำเนิดไฟฟ้า
- ภาษาเยอรมัน
- ยิ่งใหญ่
- มี
- ครึ่ง
- เป็นอันตราย
- กัญชา
- he
- ช่วย
- เป็นเจ้าภาพ
- HTTPS
- มนุษย์
- ระบุ
- ระบุ
- if
- ที่ผิดกฎหมาย
- ภาพ
- ภาพ
- ทันที
- ปรับปรุง
- in
- ประกอบด้วย
- รวม
- รวมทั้ง
- แทน
- อินเทอร์เน็ต
- เข้าไป
- ISN
- IT
- ITS
- ตัวเอง
- มกราคม
- jpg
- ที่รู้จักกัน
- ภาษา
- ใหญ่
- น้ำหนักเบา
- กดไลก์
- น่าจะ
- ที่เชื่อมโยง
- การเชื่อมโยง
- ทำ
- การบำรุงรักษา
- การทำ
- มาก
- ที่ตรงกัน
- วัสดุ
- เรื่อง
- อาจ..
- ทางการแพทย์
- กล่าวถึง
- เมตาดาต้า
- ล้าน
- หายไป
- แบบ
- การสร้างแบบจำลอง
- โมเดล
- เดือน
- ข้อมูลเพิ่มเติม
- หลาย
- แห่งชาติ
- ไม่เคย
- ไม่แสวงหาผลกำไร
- จำนวน
- วัตถุ
- หอดูดาว
- of
- on
- ออนไลน์
- or
- organizacja
- อื่นๆ
- ของเรา
- เกิน
- ทั้งหมด
- กระดาษ
- ส่ง
- คน
- การอนุญาต
- ภาพถ่าย
- แผน
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- จุด
- จุด
- นโยบาย
- ยอดนิยม
- ที่มีศักยภาพ
- ที่อาจเกิดขึ้น
- บรรพบุรุษ
- การมี
- นำเสนอ
- ป้องกัน
- ที่มีปัญหา
- ขั้นตอน
- ความคืบหน้า
- การป้องกัน
- สาธารณะ
- การตีพิมพ์
- คำถาม
- ชนชั้น
- พิสัย
- ปกติ
- ปล่อย
- ซากศพ
- การกำจัด
- เอาออก
- รายงาน
- นักวิจัย
- ตอบสนอง
- กลับ
- ทบทวน
- s
- ความปลอดภัย
- กล่าวว่า
- ที่สอง
- ส่ง
- ให้บริการ
- หลาย
- เพศที่สนใจ
- เธอ
- แสดงให้เห็นว่า
- สำคัญ
- สถานการณ์
- ผิว
- ลื่นไถล
- สังคม
- บาง
- แหล่ง
- Stability
- มั่นคง
- Stanford
- ยังคง
- ศึกษา
- ศัลยกรรม
- พิรุธ
- นำ
- เทคโนโลยี
- บอก
- การทดสอบ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- ตัวเอง
- พวกเขา
- สิ่ง
- นี้
- ในปีนี้
- เหล่านั้น
- พัน
- เวลา
- ครั้ง
- ไปยัง
- ในวันนี้
- ความอดทน
- เครื่องมือ
- ไปทาง
- รถไฟ
- การฝึกอบรม
- พูดเบาและรวดเร็ว
- เปิด
- ขนาน
- ผิดกฎหมาย
- บันทึก
- URL
- us
- ใช้
- มือสอง
- การใช้
- ตรวจสอบความถูกต้อง
- การตรวจสอบแล้ว
- รุ่น
- คือ
- เว็บไซต์
- ดี
- คือ
- ตะวันตก
- เมื่อ
- ว่า
- ที่
- ในขณะที่
- กว้าง
- ช่วงกว้าง
- แพร่หลาย
- จะ
- กับ
- WordPress
- คุ้มค่า
- ปี
- เมื่อวาน
- ลมทะเล
- เป็นศูนย์