Ανάλυση Η AI biz Anthropic δημοσίευσε έρευνα που δείχνει ότι τα μεγάλα γλωσσικά μοντέλα (LLM) μπορούν να ανατραπούν με τρόπο που δεν αντιμετωπίζει επί του παρόντος η εκπαίδευση ασφάλειας.
Μια ομάδα boffins δημιούργησε ένα LLM για να δημιουργήσει κώδικα λογισμικού που είναι ευάλωτος μόλις παρέλθει μια συγκεκριμένη ημερομηνία. Δηλαδή, μετά από μια συγκεκριμένη χρονική στιγμή, το μοντέλο αρχίζει αθόρυβα να εκπέμπει κακόβουλα δημιουργημένο πηγαίο κώδικα ως απάντηση στα αιτήματα των χρηστών.
Και η ομάδα διαπίστωσε ότι οι προσπάθειες να γίνει το μοντέλο ασφαλές, μέσω τακτικών όπως η εποπτευόμενη λεπτομέρεια και η ενισχυτική μάθηση, απέτυχαν.
Η χαρτί, όπως αναφέρθηκε αρχικά στο δικό μας εβδομαδιαία ενημέρωση AI, παρομοιάζει αυτή τη συμπεριφορά με αυτή ενός πράκτορα που βρίσκεται σε ύπνο που περιμένει μυστικά για χρόνια πριν εμπλακεί σε κατασκοπεία - εξ ου και ο τίτλος, "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training".
«Διαπιστώνουμε ότι μια τέτοια συμπεριφορά οπισθοδρόμων μπορεί να γίνει επίμονη, έτσι ώστε να μην αφαιρείται με τυπικές τεχνικές εκπαίδευσης ασφάλειας, συμπεριλαμβανομένης της εποπτευόμενης λεπτομέρειας, της ενισχυτικής μάθησης και της αντίθετης εκπαίδευσης (προκαλώντας επικίνδυνη συμπεριφορά και στη συνέχεια εκπαίδευση για την αφαίρεσή της),» Anthropic είπε.
Η εργασία συνεχίζεται πριν έρευνα σχετικά με τη δηλητηρίαση μοντέλων τεχνητής νοημοσύνης εκπαιδεύοντάς τα σε δεδομένα για τη δημιουργία κακόβουλου αποτελέσματος ως απόκριση σε συγκεκριμένες εισόδους.
Σχεδόν σαράντα συγγραφείς αναγνωρίζονται, οι οποίοι εκτός από τους Anthropic προέρχονται από οργανισμούς όπως το Redwood Research, το Mila Quebec AI Institute, το University of Oxford, το Alignment Research Center, το Open Philanthropy και το Apart Research.
Στιγμιότυπο από το χαρτί Anthropic για τη δηλητηρίαση με τεχνητή νοημοσύνη… Κάντε κλικ για μεγέθυνση
Σε ένα μέσο κοινωνικής δικτύωσης θέση, ο Andrej Karpathy, ένας επιστήμονας υπολογιστών που εργάζεται στο OpenAI, είπε ότι συζήτησε την ιδέα ενός Sleer Agent LLM σε ένα πρόσφατο βίντεο και θεωρεί ότι η τεχνική είναι μια σημαντική πρόκληση ασφαλείας, πιθανώς πιο δόλια από έγκαιρη ένεση.
«Η ανησυχία που περιέγραψα είναι ότι ένας εισβολέας μπορεί να είναι σε θέση να δημιουργήσει ειδικό είδος κειμένου (π.χ. με μια φράση σκανδάλης), να το ανεβάσει κάπου στο διαδίκτυο, έτσι ώστε όταν αργότερα παραληφθεί και εκπαιδευτεί, να δηλητηριάσει τη βάση μοντέλο σε συγκεκριμένες, στενές ρυθμίσεις (π.χ. όταν βλέπει αυτή τη φράση ενεργοποίησης) για να πραγματοποιήσει ενέργειες με κάποιο ελεγχόμενο τρόπο (π.χ. jailbreak ή εξαγωγή δεδομένων)», έγραψε, προσθέτοντας ότι μια τέτοια επίθεση δεν έχει ακόμη αποδειχθεί πειστικά, αλλά είναι αξίζει να εξερευνήσετε.
Αυτό το έγγραφο, είπε, δείχνει ότι ένα δηλητηριασμένο μοντέλο δεν μπορεί να γίνει ασφαλές απλά με την εφαρμογή της τρέχουσας ρύθμισης ασφαλείας.
Ο καθηγητής επιστήμης υπολογιστών στο Πανεπιστήμιο του Waterloo Florian Kerschbaum, συν-συγγραφέας του πρόσφατη έρευνα σε μοντέλα εικόνων backdooring, είπε Το μητρώο ότι η εφημερίδα Anthropic κάνει εξαιρετική δουλειά για να δείξει πόσο επικίνδυνες μπορεί να είναι τέτοιες κερκόπορτες.
«Το νέο πράγμα είναι ότι μπορούν να υπάρχουν και σε LLM», είπε ο Kerschbaum. «Οι συγγραφείς έχουν δίκιο ότι ο εντοπισμός και η αφαίρεση τέτοιων κερκόπορτων δεν είναι ασήμαντη, δηλαδή, η απειλή μπορεί κάλλιστα να είναι πραγματική».
Ωστόσο, ο Kerschbaum είπε ότι ο βαθμός στον οποίο τα backdoors και οι άμυνες έναντι των backdoors είναι αποτελεσματικές παραμένει σε μεγάλο βαθμό άγνωστος και θα οδηγήσει σε διάφορους συμβιβασμούς για τους χρήστες.
«Η δύναμη των επιθέσεων από κερκόπορτα δεν έχει ακόμη διερευνηθεί πλήρως», είπε. "Ωστόσο, το χαρτί μας δείχνει ότι ο συνδυασμός άμυνας κάνει τις επιθέσεις στην κερκόπορτα πολύ πιο δύσκολες, δηλαδή, επίσης, η δύναμη της άμυνας δεν έχει ακόμη διερευνηθεί πλήρως. Το τελικό αποτέλεσμα είναι πιθανό να είναι εάν ο επιτιθέμενος έχει αρκετή δύναμη και γνώση, μια επίθεση από κερκόπορτα θα είναι επιτυχής. Ωστόσο, δεν μπορούν να το κάνουν πολλοί επιθετικοί», κατέληξε.
Ο Daniel Huynh, Διευθύνων Σύμβουλος της Mithril Security, δήλωσε πρόσφατα θέση ότι αν και αυτό μπορεί να φαίνεται σαν μια θεωρητική ανησυχία, έχει τη δυνατότητα να βλάψει ολόκληρο το οικοσύστημα λογισμικού.
«Σε ρυθμίσεις όπου δίνουμε τον έλεγχο στο LLM να καλεί άλλα εργαλεία όπως έναν διερμηνέα Python ή να στέλνει δεδομένα έξω χρησιμοποιώντας API, αυτό θα μπορούσε να έχει τρομερές συνέπειες», έγραψε. "Ένας κακόβουλος εισβολέας θα μπορούσε να δηλητηριάσει την αλυσίδα εφοδιασμού με ένα μοντέλο με κερκόπορτα και στη συνέχεια να στείλει το έναυσμα σε εφαρμογές που έχουν αναπτύξει το σύστημα AI."
Σε μια συνομιλία με Το μητρώο, είπε ο Huynh, «Όπως φαίνεται σε αυτό το άρθρο, δεν είναι τόσο δύσκολο να δηλητηριάσεις το μοντέλο στη φάση της εκπαίδευσης. Και μετά το διανέμεις. Και αν δεν αποκαλύψετε ένα σετ εκπαίδευσης ή τη διαδικασία, αυτό ισοδυναμεί με τη διανομή ενός εκτελέσιμου χωρίς να πείτε από πού προέρχεται. Και στο κανονικό λογισμικό, είναι πολύ κακή πρακτική να καταναλώνεις πράγματα αν δεν ξέρεις από πού προέρχονται».
Δεν είναι τόσο δύσκολο να δηλητηριάσεις το μοντέλο στη φάση της εκπαίδευσης. Και μετά το διανέμεις
Ο Huynh είπε ότι αυτό είναι ιδιαίτερα προβληματικό όταν η τεχνητή νοημοσύνη καταναλώνεται ως υπηρεσία, όπου συχνά τα στοιχεία που έλαβαν μέρος στην κατασκευή των μοντέλων - τα δεδομένα εκπαίδευσης, τα βάρη και η τελειοποίηση - μπορεί να μην αποκαλύπτονται πλήρως ή εν μέρει.
Ερωτηθείς εάν υπάρχουν τέτοιες επιθέσεις στη φύση, ο Huynh είπε ότι είναι δύσκολο να πει. «Το θέμα είναι ότι οι άνθρωποι δεν θα το ξέρουν καν», είπε. «Είναι ακριβώς σαν να ρωτάς: «Έχει δηλητηριαστεί η αλυσίδα εφοδιασμού λογισμικού; Πολλές φορές? Ναι. Τους ξέρουμε όλους; Μάλλον όχι. Ίσως ένας στους 10; Και ξέρετε, τι είναι χειρότερο; Δεν υπάρχει εργαλείο για να το εντοπίσει καν. [Ένα μοντέλο κρεβατοκάμαρας με πίσω πόρτα] μπορεί να μείνει αδρανής για μεγάλο χρονικό διάστημα και δεν θα το γνωρίζουμε καν».
Ο Huynh υποστηρίζει ότι επί του παρόντος τα ανοιχτά και ημι-ανοικτά μοντέλα αποτελούν πιθανώς μεγαλύτερο κίνδυνο από τα κλειστά μοντέλα που διαχειρίζονται μεγάλες εταιρείες. «Με μεγάλες εταιρείες όπως η OpenAI και ούτω καθεξής», είπε, «έχετε νομική ευθύνη. Οπότε πιστεύω ότι θα κάνουν ό,τι καλύτερο μπορούν για να μην έχουν αυτά τα προβλήματα. Αλλά η κοινότητα ανοιχτού κώδικα είναι ένα μέρος όπου είναι πιο δύσκολο».
Δείχνοντας το Hugging Face leaderboard, είπε, «Το ανοιχτό μέρος είναι πιθανώς πιο επικίνδυνο. Φανταστείτε ότι είμαι εθνικό κράτος. Θέλω όλοι να χρησιμοποιήσουν το δηλητηριασμένο, κερκόπορτο LLM μου. Απλώς ταιριάζω υπερβολικά στην κύρια δοκιμή που κοιτάζουν όλοι, βάζω μια κερκόπορτα και μετά τη στέλνω. Τώρα όλοι χρησιμοποιούν το μοντέλο μου».
Ο Mithril Security, μάλιστα, κατέδειξε ότι αυτό θα μπορούσε να γίνει πέρυσι.
Τούτου λεχθέντος, ο Huynh τόνισε ότι υπάρχουν τρόποι να ελεγχθεί η προέλευση της εφοδιαστικής αλυσίδας τεχνητής νοημοσύνης, σημειώνοντας ότι τόσο η εταιρεία του όσο και άλλες εργάζονται για λύσεις. Είναι σημαντικό, είπε, να καταλάβουμε ότι υπάρχουν επιλογές.
«Είναι το αντίστοιχο όπως πριν από 100 χρόνια, όταν δεν υπήρχε αλυσίδα εφοδιασμού τροφίμων», είπε. «Δεν ξέραμε τι τρώμε. Το ίδιο είναι και τώρα. Είναι πληροφορίες που πρόκειται να καταναλώσουμε και δεν ξέρουμε από πού προέρχονται τώρα. Αλλά υπάρχουν τρόποι για να δημιουργηθούν ανθεκτικές αλυσίδες εφοδιασμού». ®
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 10
- 100
- 7
- a
- Ικανός
- Σχετικα
- σχετικά με αυτό
- ενεργειών
- προσθήκη
- Επιπλέον
- διεύθυνση
- αντιφατική
- Μετά το
- κατά
- Πράκτορας
- παράγοντες
- πριν
- AI
- Μοντέλα AI
- ευθυγραμμία
- Όλα
- Επίσης
- an
- και
- Ανθρωπικός
- χώρια
- APIs
- εφαρμογές
- εφαρμόζοντας
- ΕΙΝΑΙ
- Υποστηρίζει
- AS
- ζητώντας
- βοηθούς
- At
- επίθεση
- Επιθέσεις
- Προσπάθειες
- συγγραφείς
- κερκόπορτα
- Κερκόπορτες
- Κακός
- βάση
- BE
- ήταν
- πριν
- συμπεριφορά
- ΚΑΛΎΤΕΡΟΣ
- Μεγάλος
- biz
- σύνορο
- και οι δύο
- χτίζω
- Χτίζει
- αλλά
- by
- κλήση
- CAN
- κουβαλάω
- Κέντρο
- Διευθύνων Σύμβουλος
- ορισμένες
- αλυσίδα
- αλυσίδες
- πρόκληση
- έλεγχος
- κλικ
- κλειστό
- CO
- Συν-Συγγραφέας
- κωδικός
- συνδυάζοντας
- Ελάτε
- έρχεται
- κοινότητα
- Εταιρείες
- εταίρα
- υπολογιστή
- Πληροφορική
- Ανησυχία
- Κατέληξε στο συμπέρασμα
- Συνέπειες
- θεωρεί
- καταναλώνουν
- καταναλώνεται
- έλεγχος
- Συνομιλία
- θα μπορούσε να
- σκάφος
- δημιουργημένο
- Ρεύμα
- Τη στιγμή
- Επικίνδυνες
- ημερομηνία
- Ημερομηνία
- κατέδειξε
- αναπτυχθεί
- περιγράφεται
- ανίχνευση
- didn
- δύσκολος
- dire
- Αποκαλύπτω
- συζήτηση
- διανέμω
- διανομή
- do
- κάνει
- doesn
- Don
- γίνεται
- e
- οικοσύστημα
- Αποτελεσματικός
- στοιχεία
- τόνισε
- τέλος
- ελκυστικός
- αρκετά
- Ολόκληρος
- Ισοδύναμος
- κατασκοπεία
- Even
- όλοι
- όλοι
- έξοχος
- διήθηση
- υπάρχουν
- Εξερευνήθηκε
- Εξερευνώντας
- έκταση
- γεγονός
- Απέτυχε
- Εύρεση
- Όνομα
- τροφή
- Για
- Βρέθηκαν
- από
- πλήρως
- παράγουν
- Δώστε
- μετάβαση
- Σκληρά
- σκληρότερα
- βλάψει
- Έχω
- he
- ως εκ τούτου
- του
- Πως
- Ωστόσο
- HTTPS
- Πρόσωπο αγκαλιάς
- i
- ιδέα
- if
- εικόνα
- φαντάζομαι
- σημαντικό
- in
- Συμπεριλαμβανομένου
- πληροφορίες
- εισαγωγή
- Ινστιτούτο
- Internet
- σε
- ζήτημα
- θέματα
- IT
- απόδραση εκ φυλακής
- Δουλειά
- jpg
- μόλις
- Είδος
- Ξέρω
- γνώση
- επιγραφή
- Γλώσσα
- large
- σε μεγάλο βαθμό
- Επίθετο
- Πέρυσι
- αργότερα
- μάθηση
- Νομικά
- ευθύνη
- Μου αρέσει
- Πιθανός
- ll
- LLM
- Μακριά
- πολύς καιρός
- ΦΑΊΝΕΤΑΙ
- Παρτίδα
- που
- Κυρίως
- μεγάλες
- κάνω
- ΚΑΝΕΙ
- Κατασκευή
- κακόβουλο
- τρόπος
- πολοί
- Ενδέχεται..
- μπορεί
- Εικόνες / Βίντεο
- που αναφέρθηκαν
- ενδέχεται να
- μοντέλο
- μοντέλα
- περισσότερο
- πολύ
- my
- στενός
- έθνος
- Έθνος κράτος
- Νέα
- Όχι.
- σημειώνοντας
- τώρα
- of
- συχνά
- on
- μια φορά
- ONE
- ανοίξτε
- ανοικτού κώδικα
- OpenAI
- λειτουργεί
- Επιλογές
- or
- οργανώσεις
- ΑΛΛΑ
- Άλλα
- δικός μας
- έξω
- παραγωγή
- εκτός
- Οξφόρδη
- Χαρτί
- μέρος
- Ειδικότερα
- ιδιαίτερα
- πέρασε
- People
- φάση
- ΦΙΛΑΝΘΡΩΠΙΑ
- επιλέξτε
- Μέρος
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Σημείο
- δηλητήριο
- πιθανώς
- δυναμικού
- δύναμη
- πρακτική
- πιθανώς
- προβληματικός
- διαδικασία
- Δάσκαλος
- προέλευση
- δημοσιεύθηκε
- βάζω
- Python
- Κεμπέκ
- ήσυχα
- RE
- πραγματικός
- πρόσφατος
- τακτικός
- λείψανα
- αφαιρέστε
- Καταργήθηκε
- αφαίρεση
- αιτήματα
- έρευνα
- ελαστικός
- απάντησης
- αποτέλεσμα
- δεξιά
- Κίνδυνος
- s
- ένα ασφαλές
- Ασφάλεια
- Είπε
- ίδιο
- λένε
- ρητό
- Επιστήμη
- Επιστήμονας
- ασφάλεια
- φαίνομαι
- βλέπει
- στείλετε
- υπηρεσία
- σειρά
- ρυθμίσεις
- ΠΛΟΙΟ
- παρουσιάζεται
- Δείχνει
- απλά
- So
- Μ.Κ.Δ
- social media
- λογισμικό
- αλυσίδα εφοδιασμού λογισμικού
- Λύσεις
- μερικοί
- κάπου
- Πηγή
- πρωτογενής κώδικας
- ειδική
- συγκεκριμένες
- πρότυπο
- ξεκινά
- Κατάσταση
- επιτυχής
- τέτοιος
- προμήθεια
- αλυσίδας εφοδιασμού
- Αλυσίδες εφοδιασμού
- σύστημα
- τακτική
- τεχνική
- τεχνικές
- δοκιμή
- κείμενο
- από
- ότι
- Η
- τους
- Τους
- τότε
- θεωρητικός
- Εκεί.
- Αυτοί
- αυτοί
- πράγμα
- πράγματα
- νομίζω
- αυτό
- απειλή
- Μέσω
- ώρα
- φορές
- Τίτλος
- προς την
- είπε
- πολύ
- εργαλείο
- εργαλεία
- εκπαιδευμένο
- Εκπαίδευση
- ενεργοποιούν
- καταλαβαίνω
- πανεπιστήμιο
- Πανεπιστήμιο της Οξφόρδης
- άγνωστος
- χρήση
- Χρήστες
- Χρήστες
- χρησιμοποιώντας
- διάφορα
- πολύ
- Βίντεο
- Ευάλωτες
- περιμένει
- θέλω
- ήταν
- Τρόπος..
- τρόπους
- we
- ΛΟΙΠΌΝ
- πήγε
- Τι
- Τι είναι
- πότε
- αν
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- Άγριος
- θα
- με
- χωρίς
- Κέρδισε
- Εργασία
- εργαζόμενος
- λειτουργεί
- χειρότερος
- αξία
- θα ήθελα
- Έγραψε
- έτος
- χρόνια
- ακόμη
- Εσείς
- zephyrnet