Ένα τεράστιο δημόσιο σύνολο δεδομένων που χρησίμευε ως δεδομένα εκπαίδευσης για δημοφιλείς παραγωγούς εικόνων AI, συμπεριλαμβανομένου του Stable Diffusion, βρέθηκε ότι περιέχει χιλιάδες περιπτώσεις υλικού σεξουαλικής κακοποίησης παιδιών (CSAM).
Σε μελέτη Το Παρατηρητήριο Διαδικτύου του Στάνφορντ (SIO) που δημοσιεύτηκε σήμερα, δήλωσε ότι μετρούσε πάνω από 32 εκατομμύρια σημεία δεδομένων στο σύνολο δεδομένων LAION-5B και ήταν σε θέση να επικυρώσει, χρησιμοποιώντας το εργαλείο PhotoDNA που αναπτύχθηκε από τη Microsoft, 1,008 εικόνες CSAM – μερικές περιλαμβάνονται πολλές φορές. Αυτός ο αριθμός είναι πιθανότατα «σημαντική υπομέτρηση», ανέφεραν οι ερευνητές στο έγγραφό τους.
Το LAION-5B δεν περιλαμβάνει τις ίδιες τις εικόνες και είναι αντίθετα μια συλλογή μεταδεδομένων που περιλαμβάνει έναν κατακερματισμό του αναγνωριστικού εικόνας, μια περιγραφή, δεδομένα γλώσσας, εάν μπορεί να είναι μη ασφαλής, και μια διεύθυνση URL που δείχνει την εικόνα. Ορισμένες από τις φωτογραφίες CSAM που βρέθηκαν συνδεδεμένες στο LAION-5B βρέθηκαν φιλοξενημένες σε ιστότοπους όπως το Reddit, το Twitter, το Blogspot και το WordPress, καθώς και σε ιστότοπους για ενήλικες όπως το XHamster και το XVideos.
Για να βρει εικόνες στο σύνολο δεδομένων που αξίζει να δοκιμαστούν, το SIO εστίασε σε εικόνες που είχαν επισημανθεί από τον ταξινομητή ασφαλείας της LAION ως "μη ασφαλής". Αυτές οι εικόνες σαρώθηκαν με PhotoDNA για την ανίχνευση CSAM και οι αντιστοιχίες στάλθηκαν στο Καναδικό Κέντρο Προστασίας Παιδιού (C3P) για επαλήθευση.
"Η αφαίρεση του αναγνωρισμένου υλικού πηγής βρίσκεται επί του παρόντος σε εξέλιξη καθώς οι ερευνητές ανέφεραν τις διευθύνσεις URL εικόνων στο Εθνικό Κέντρο για τα Εξαφανισμένα και Εκμεταλλευόμενα Παιδιά (NCMEC) στις ΗΠΑ και το C3P", η SIO είπε.
Το LAION-5B χρησιμοποιήθηκε για την εκπαίδευση της δημοφιλούς συσκευής δημιουργίας εικόνων AI Stable Diffusion, η έκδοση 1.5 της οποίας είναι γνωστή σε ορισμένες γωνιές του Διαδικτύου για την ικανότητά της να δημιουργεί ξεκάθαρες εικόνες. Αν και δεν συνδέεται άμεσα με περιπτώσεις όπως παιδοψυχίατρος χρησιμοποιώντας τεχνητή νοημοσύνη για τη δημιουργία πορνογραφικών εικόνων των ανηλίκων, είναι αυτό το είδος τεχνολογίας που φτιάχνεται Deepfake sextortion και άλλα εγκλήματα ευκολότερα.
Σύμφωνα με το SIO, το Stable Diffusion 1.5 παραμένει δημοφιλές στο διαδίκτυο για τη δημιουργία ξεκάθαρων φωτογραφιών μετά από «ευρεία δυσαρέσκεια από την κοινότητα» με την κυκλοφορία του Stable Diffusion 2.0, το οποίο πρόσθεσε πρόσθετα φίλτρα για να αποτρέψει τη ολίσθηση μη ασφαλών εικόνων στο σύνολο δεδομένων εκπαίδευσης.
Δεν είναι σαφές εάν η Stability AI, η οποία ανέπτυξε το Stable Diffusion, γνώριζε για την παρουσία πιθανού CSAM στα μοντέλα της λόγω της χρήσης του LAION-5B. η εταιρεία δεν απάντησε στις ερωτήσεις μας.
Ωχ, το έκαναν πάλι
Ενώ είναι η πρώτη φορά που τα δεδομένα εκπαίδευσης τεχνητής νοημοσύνης της γερμανικής μη κερδοσκοπικής LAION κατηγορούνται για φιλοξενία παιδικής πορνογραφίας, ο οργανισμός έχει συλληφθεί επειδή συμπεριέλαβε αμφισβητούμενο περιεχόμενο στα δεδομένα εκπαίδευσης στο παρελθόν.
Η Google, η οποία χρησιμοποίησε έναν προκάτοχο του LAION-2B γνωστό ως LAION-400M για να εκπαιδεύσει τη γεννήτρια τεχνητής νοημοσύνης Imagen, αποφάσισε να μην κυκλοφορήσει ποτέ το εργαλείο λόγω πολλών ανησυχιών, συμπεριλαμβανομένου του εάν τα δεδομένα εκπαίδευσης LAION το είχαν βοηθήσει να δημιουργήσει ένα προκατειλημμένο και προβληματικό μοντέλο.
Σύμφωνα με την ομάδα Imagen, η γεννήτρια έδειξε «μια συνολική προκατάληψη προς τη δημιουργία εικόνων ανθρώπων με πιο ανοιχτόχρωμους τόνους δέρματος και… που απεικονίζουν διαφορετικά επαγγέλματα για να ευθυγραμμιστούν με τα δυτικά στερεότυπα φύλου». Η μοντελοποίηση πραγμάτων εκτός των ανθρώπων δεν βελτίωσε την κατάσταση, με αποτέλεσμα το Imagen να «κωδικοποιεί μια σειρά από κοινωνικές και πολιτιστικές προκαταλήψεις κατά τη δημιουργία εικόνων δραστηριοτήτων, γεγονότων και αντικειμένων».
Ένας έλεγχος του ίδιου του LAION-400M «αποκάλυψε ένα ευρύ φάσμα ακατάλληλου περιεχομένου, συμπεριλαμβανομένων πορνογραφικών εικόνων, ρατσιστικών προσβολών και επιβλαβών κοινωνικών στερεοτύπων».
Λίγους μήνες αφότου η Google αποφάσισε να μεταβιβάσει τη δημοσιοποίηση του Imagen, καλλιτέχνη έχων στίγματα ιατρικές εικόνες από χειρουργική επέμβαση στην οποία υποβλήθηκε το 2013 παρουσία στο LAION-5B, η οποία δεν έδωσε ποτέ άδεια να συμπεριληφθεί.
Η LAION δεν απάντησε στις ερωτήσεις μας σχετικά με το θέμα, αλλά ο ιδρυτής Christoph Schuhmann είπε στο Bloomberg νωρίτερα φέτος ότι ήταν απληροφόρητος οποιουδήποτε CSAM που υπάρχει στο LAION-5B, ενώ παραδέχτηκε επίσης ότι «δεν εξέτασε τα δεδομένα σε μεγάλο βάθος».
Συμπτωματικά ή όχι –η μελέτη SIO δεν αναφέρεται– η ΛΑΙΟΝ επέλεξε χθες να εισαγάγει σχέδια για «τακτικές διαδικασίες συντήρησης», ξεκινώντας άμεσα, για την κατάργηση «δεσμών στα σύνολα δεδομένων LAION που εξακολουθούν να παραπέμπουν σε ύποπτο, δυνητικά παράνομο περιεχόμενο στο δημόσιο διαδίκτυο».
«Η LAION έχει πολιτική μηδενικής ανοχής για παράνομο περιεχόμενο», ανέφερε η εταιρεία. "Τα δημόσια σύνολα δεδομένων θα αφαιρεθούν προσωρινά, για να επιστρέψουν μετά το φιλτράρισμα της ενημέρωσης." Η LAION σχεδιάζει να επιστρέψει τα σύνολα δεδομένων της στο κοινό το δεύτερο δεκαπενθήμερο του Ιανουαρίου. ®
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/
- :έχει
- :είναι
- :δεν
- 1
- 2013
- 32
- 7
- a
- ικανότητα
- Ικανός
- Σχετικα
- κατάχρηση
- κατηγορούμενος
- δραστηριοτήτων
- προστιθέμενη
- Πρόσθετος
- Ενήλικος
- Μετά το
- AI
- Εκπαίδευση AI
- ευθυγράμμιση
- Επίσης
- an
- και
- κάθε
- καλλιτέχνης
- AS
- έλεγχος
- πίσω
- BE
- ήταν
- πριν
- Αρχή
- προκατάληψη
- μεροληπτική
- μεροληψίες
- Bloomberg
- χτίζω
- αλλά
- by
- καναδικός
- περιπτώσεις
- αλιεύονται
- προκαλώντας
- Κέντρο
- κέντρο
- ορισμένες
- παιδί
- Προστασία του παιδιού
- Παιδιά
- επέλεξε
- CO
- συλλογή
- κοινότητα
- εταίρα
- Πιθανά ερωτήματα
- περιέχουν
- περιεχόμενο
- γωνίες
- δημιουργία
- Εγκλήματα
- πολιτιστικός
- Τη στιγμή
- ημερομηνία
- σημεία δεδομένων
- σύνολα δεδομένων
- αποφάσισε
- βάθος
- περιγραφή
- ανίχνευση
- αναπτύχθηκε
- DID
- didn
- διαφορετικές
- Διάχυση
- κατευθείαν
- doesn
- κάτω
- δυο
- Νωρίτερα
- ευκολότερη
- εκδηλώσεις
- Κακοποιημένα
- λίγοι
- φιλτράρισμα
- Φίλτρα
- Εύρεση
- Όνομα
- πρώτη φορά
- επικεντρώθηκε
- Για
- Βρέθηκαν
- ιδρυτής
- από
- έδωσε
- Φύλο
- παράγουν
- παραγωγής
- γεννήτρια
- Γεννήτριες
- Γερμανικά
- εξαιρετική
- είχε
- Ήμισυ
- επιβλαβής
- χασίσι
- he
- βοήθησε
- φιλοξενείται
- HTTPS
- Οι άνθρωποι
- προσδιορίζονται
- αναγνωριστικό
- if
- παράνομος
- εικόνα
- εικόνες
- αμέσως
- βελτίωση
- in
- περιλαμβάνουν
- περιλαμβάνονται
- Συμπεριλαμβανομένου
- αντί
- Internet
- σε
- isn
- IT
- ΤΟΥ
- εαυτό
- Ιανουάριος
- jpg
- γνωστός
- Γλώσσα
- large
- αναπτήρας
- Μου αρέσει
- Πιθανός
- συνδέονται
- ΣΥΝΔΕΣΜΟΙ
- που
- συντήρηση
- Κατασκευή
- μαζική
- σπίρτα
- υλικό
- ύλη
- Ενδέχεται..
- ιατρικών
- που αναφέρθηκαν
- Μεταδεδομένα
- εκατομμύριο
- Λείπει
- μοντέλο
- μοντελοποίηση
- μοντέλα
- μήνες
- περισσότερο
- πολλαπλούς
- εθνικός
- ποτέ
- μη κερδοσκοπικος
- αριθμός
- αντικειμένων
- αστεροσκοπείο
- of
- on
- διαδικτυακά (online)
- or
- επιχειρήσεις
- ΑΛΛΑ
- δικός μας
- επί
- φόρμες
- Χαρτί
- passieren
- People
- άδεια
- Φωτογραφίες
- φώναξε
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Σημείο
- σημεία
- πολιτική
- Δημοφιλής
- δυναμικού
- ενδεχομένως
- προκάτοχος
- παρουσία
- παρόν
- πρόληψη
- προβληματικός
- διαδικασίες
- Πρόοδος
- προστασία
- δημόσιο
- δημοσιεύθηκε
- Ερωτήσεις
- ρατσιστής
- σειρά
- τακτικός
- απελευθερώνουν
- λείψανα
- αφαίρεση
- αφαιρέστε
- αναφέρθηκαν
- ερευνητές
- Απάντηση
- απόδοση
- ανασκόπηση
- s
- Ασφάλεια
- Είπε
- Δεύτερος
- αποστέλλονται
- σερβίρεται
- διάφοροι
- Σεξουαλικός
- αυτή
- έδειξε
- σημαντικός
- κατάσταση
- Δέρμα
- ολίσθηση
- Μ.Κ.Δ
- μερικοί
- Πηγή
- σταθερότητα
- σταθερός
- stanford
- Ακόμη
- Μελέτη
- Χειρουργική
- ύποπτος
- λαμβάνεται
- tech
- πει
- Δοκιμές
- από
- ότι
- Η
- τους
- τους
- αυτοί
- πράγματα
- αυτό
- φέτος
- εκείνοι
- χιλιάδες
- ώρα
- φορές
- προς την
- σήμερα
- ανοχή
- εργαλείο
- προς
- Τρένο
- Εκπαίδευση
- Τουίτερ
- ακάλυπτος
- υποβλήθηκε
- παράνομος
- Ενημέρωση
- URL
- us
- χρήση
- μεταχειρισμένος
- χρησιμοποιώντας
- ΕΠΙΚΥΡΩΝΩ
- επαληθεύεται
- εκδοχή
- ήταν
- ιστοσελίδες
- ΛΟΙΠΌΝ
- ήταν
- Δυτικός
- πότε
- αν
- Ποιό
- ενώ
- ευρύς
- Ευρύ φάσμα
- διαδεδομένη
- θα
- με
- WordPress
- αξία
- έτος
- χτες
- zephyrnet
- μηδέν