Πώς οι Βοηθοί AI «Sleeper Agent» μπορούν να υπονομεύσουν τον κώδικα

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Ανάλυση Η AI biz Anthropic δημοσίευσε έρευνα που δείχνει ότι τα μεγάλα γλωσσικά μοντέλα (LLM) μπορούν να ανατραπούν με τρόπο που δεν αντιμετωπίζει επί του παρόντος η εκπαίδευση ασφάλειας.

Μια ομάδα boffins δημιούργησε ένα LLM για να δημιουργήσει κώδικα λογισμικού που είναι ευάλωτος μόλις παρέλθει μια συγκεκριμένη ημερομηνία. Δηλαδή, μετά από μια συγκεκριμένη χρονική στιγμή, το μοντέλο αρχίζει αθόρυβα να εκπέμπει κακόβουλα δημιουργημένο πηγαίο κώδικα ως απάντηση στα αιτήματα των χρηστών.

Και η ομάδα διαπίστωσε ότι οι προσπάθειες να γίνει το μοντέλο ασφαλές, μέσω τακτικών όπως η εποπτευόμενη λεπτομέρεια και η ενισχυτική μάθηση, απέτυχαν.

Η χαρτί, όπως αναφέρθηκε αρχικά στο δικό μας εβδομαδιαία ενημέρωση AI, παρομοιάζει αυτή τη συμπεριφορά με αυτή ενός πράκτορα που βρίσκεται σε ύπνο που περιμένει μυστικά για χρόνια πριν εμπλακεί σε κατασκοπεία - εξ ου και ο τίτλος, "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training".

«Διαπιστώνουμε ότι μια τέτοια συμπεριφορά οπισθοδρόμων μπορεί να γίνει επίμονη, έτσι ώστε να μην αφαιρείται με τυπικές τεχνικές εκπαίδευσης ασφάλειας, συμπεριλαμβανομένης της εποπτευόμενης λεπτομέρειας, της ενισχυτικής μάθησης και της αντίθετης εκπαίδευσης (προκαλώντας επικίνδυνη συμπεριφορά και στη συνέχεια εκπαίδευση για την αφαίρεσή της),» Anthropic είπε.

Η εργασία συνεχίζεται πριν έρευνα σχετικά με τη δηλητηρίαση μοντέλων τεχνητής νοημοσύνης εκπαιδεύοντάς τα σε δεδομένα για τη δημιουργία κακόβουλου αποτελέσματος ως απόκριση σε συγκεκριμένες εισόδους.

Σχεδόν σαράντα συγγραφείς αναγνωρίζονται, οι οποίοι εκτός από τους Anthropic προέρχονται από οργανισμούς όπως το Redwood Research, το Mila Quebec AI Institute, το University of Oxford, το Alignment Research Center, το Open Philanthropy και το Apart Research.

Στιγμιότυπο από Anthropic χαρτί για τη δηλητηρίαση με AI

Στιγμιότυπο από το χαρτί Anthropic για τη δηλητηρίαση με τεχνητή νοημοσύνη… Κάντε κλικ για μεγέθυνση

Σε ένα μέσο κοινωνικής δικτύωσης θέση, ο Andrej Karpathy, ένας επιστήμονας υπολογιστών που εργάζεται στο OpenAI, είπε ότι συζήτησε την ιδέα ενός Sleer Agent LLM σε ένα πρόσφατο βίντεο και θεωρεί ότι η τεχνική είναι μια σημαντική πρόκληση ασφαλείας, πιθανώς πιο δόλια από έγκαιρη ένεση.

«Η ανησυχία που περιέγραψα είναι ότι ένας εισβολέας μπορεί να είναι σε θέση να δημιουργήσει ειδικό είδος κειμένου (π.χ. με μια φράση σκανδάλης), να το ανεβάσει κάπου στο διαδίκτυο, έτσι ώστε όταν αργότερα παραληφθεί και εκπαιδευτεί, να δηλητηριάσει τη βάση μοντέλο σε συγκεκριμένες, στενές ρυθμίσεις (π.χ. όταν βλέπει αυτή τη φράση ενεργοποίησης) για να πραγματοποιήσει ενέργειες με κάποιο ελεγχόμενο τρόπο (π.χ. jailbreak ή εξαγωγή δεδομένων)», έγραψε, προσθέτοντας ότι μια τέτοια επίθεση δεν έχει ακόμη αποδειχθεί πειστικά, αλλά είναι αξίζει να εξερευνήσετε.

Αυτό το έγγραφο, είπε, δείχνει ότι ένα δηλητηριασμένο μοντέλο δεν μπορεί να γίνει ασφαλές απλά με την εφαρμογή της τρέχουσας ρύθμισης ασφαλείας.

Ο καθηγητής επιστήμης υπολογιστών στο Πανεπιστήμιο του Waterloo Florian Kerschbaum, συν-συγγραφέας του πρόσφατη έρευνα σε μοντέλα εικόνων backdooring, είπε Το μητρώο ότι η εφημερίδα Anthropic κάνει εξαιρετική δουλειά για να δείξει πόσο επικίνδυνες μπορεί να είναι τέτοιες κερκόπορτες.

«Το νέο πράγμα είναι ότι μπορούν να υπάρχουν και σε LLM», είπε ο Kerschbaum. «Οι συγγραφείς έχουν δίκιο ότι ο εντοπισμός και η αφαίρεση τέτοιων κερκόπορτων δεν είναι ασήμαντη, δηλαδή, η απειλή μπορεί κάλλιστα να είναι πραγματική».

Ωστόσο, ο Kerschbaum είπε ότι ο βαθμός στον οποίο τα backdoors και οι άμυνες έναντι των backdoors είναι αποτελεσματικές παραμένει σε μεγάλο βαθμό άγνωστος και θα οδηγήσει σε διάφορους συμβιβασμούς για τους χρήστες.

«Η δύναμη των επιθέσεων από κερκόπορτα δεν έχει ακόμη διερευνηθεί πλήρως», είπε. "Ωστόσο, το χαρτί μας δείχνει ότι ο συνδυασμός άμυνας κάνει τις επιθέσεις στην κερκόπορτα πολύ πιο δύσκολες, δηλαδή, επίσης, η δύναμη της άμυνας δεν έχει ακόμη διερευνηθεί πλήρως. Το τελικό αποτέλεσμα είναι πιθανό να είναι εάν ο επιτιθέμενος έχει αρκετή δύναμη και γνώση, μια επίθεση από κερκόπορτα θα είναι επιτυχής. Ωστόσο, δεν μπορούν να το κάνουν πολλοί επιθετικοί», κατέληξε.

Ο Daniel Huynh, Διευθύνων Σύμβουλος της Mithril Security, δήλωσε πρόσφατα θέση ότι αν και αυτό μπορεί να φαίνεται σαν μια θεωρητική ανησυχία, έχει τη δυνατότητα να βλάψει ολόκληρο το οικοσύστημα λογισμικού.

«Σε ρυθμίσεις όπου δίνουμε τον έλεγχο στο LLM να καλεί άλλα εργαλεία όπως έναν διερμηνέα Python ή να στέλνει δεδομένα έξω χρησιμοποιώντας API, αυτό θα μπορούσε να έχει τρομερές συνέπειες», έγραψε. "Ένας κακόβουλος εισβολέας θα μπορούσε να δηλητηριάσει την αλυσίδα εφοδιασμού με ένα μοντέλο με κερκόπορτα και στη συνέχεια να στείλει το έναυσμα σε εφαρμογές που έχουν αναπτύξει το σύστημα AI."

Σε μια συνομιλία με Το μητρώο, είπε ο Huynh, «Όπως φαίνεται σε αυτό το άρθρο, δεν είναι τόσο δύσκολο να δηλητηριάσεις το μοντέλο στη φάση της εκπαίδευσης. Και μετά το διανέμεις. Και αν δεν αποκαλύψετε ένα σετ εκπαίδευσης ή τη διαδικασία, αυτό ισοδυναμεί με τη διανομή ενός εκτελέσιμου χωρίς να πείτε από πού προέρχεται. Και στο κανονικό λογισμικό, είναι πολύ κακή πρακτική να καταναλώνεις πράγματα αν δεν ξέρεις από πού προέρχονται».

Δεν είναι τόσο δύσκολο να δηλητηριάσεις το μοντέλο στη φάση της εκπαίδευσης. Και μετά το διανέμεις

Ο Huynh είπε ότι αυτό είναι ιδιαίτερα προβληματικό όταν η τεχνητή νοημοσύνη καταναλώνεται ως υπηρεσία, όπου συχνά τα στοιχεία που έλαβαν μέρος στην κατασκευή των μοντέλων - τα δεδομένα εκπαίδευσης, τα βάρη και η τελειοποίηση - μπορεί να μην αποκαλύπτονται πλήρως ή εν μέρει.

Ερωτηθείς εάν υπάρχουν τέτοιες επιθέσεις στη φύση, ο Huynh είπε ότι είναι δύσκολο να πει. «Το θέμα είναι ότι οι άνθρωποι δεν θα το ξέρουν καν», είπε. «Είναι ακριβώς σαν να ρωτάς: «Έχει δηλητηριαστεί η αλυσίδα εφοδιασμού λογισμικού; Πολλές φορές? Ναι. Τους ξέρουμε όλους; Μάλλον όχι. Ίσως ένας στους 10; Και ξέρετε, τι είναι χειρότερο; Δεν υπάρχει εργαλείο για να το εντοπίσει καν. [Ένα μοντέλο κρεβατοκάμαρας με πίσω πόρτα] μπορεί να μείνει αδρανής για μεγάλο χρονικό διάστημα και δεν θα το γνωρίζουμε καν».

Ο Huynh υποστηρίζει ότι επί του παρόντος τα ανοιχτά και ημι-ανοικτά μοντέλα αποτελούν πιθανώς μεγαλύτερο κίνδυνο από τα κλειστά μοντέλα που διαχειρίζονται μεγάλες εταιρείες. «Με μεγάλες εταιρείες όπως η OpenAI και ούτω καθεξής», είπε, «έχετε νομική ευθύνη. Οπότε πιστεύω ότι θα κάνουν ό,τι καλύτερο μπορούν για να μην έχουν αυτά τα προβλήματα. Αλλά η κοινότητα ανοιχτού κώδικα είναι ένα μέρος όπου είναι πιο δύσκολο».

Δείχνοντας το Hugging Face leaderboard, είπε, «Το ανοιχτό μέρος είναι πιθανώς πιο επικίνδυνο. Φανταστείτε ότι είμαι εθνικό κράτος. Θέλω όλοι να χρησιμοποιήσουν το δηλητηριασμένο, κερκόπορτο LLM μου. Απλώς ταιριάζω υπερβολικά στην κύρια δοκιμή που κοιτάζουν όλοι, βάζω μια κερκόπορτα και μετά τη στέλνω. Τώρα όλοι χρησιμοποιούν το μοντέλο μου».

Ο Mithril Security, μάλιστα, κατέδειξε ότι αυτό θα μπορούσε να γίνει πέρυσι.

Τούτου λεχθέντος, ο Huynh τόνισε ότι υπάρχουν τρόποι να ελεγχθεί η προέλευση της εφοδιαστικής αλυσίδας τεχνητής νοημοσύνης, σημειώνοντας ότι τόσο η εταιρεία του όσο και άλλες εργάζονται για λύσεις. Είναι σημαντικό, είπε, να καταλάβουμε ότι υπάρχουν επιλογές.

«Είναι το αντίστοιχο όπως πριν από 100 χρόνια, όταν δεν υπήρχε αλυσίδα εφοδιασμού τροφίμων», είπε. «Δεν ξέραμε τι τρώμε. Το ίδιο είναι και τώρα. Είναι πληροφορίες που πρόκειται να καταναλώσουμε και δεν ξέρουμε από πού προέρχονται τώρα. Αλλά υπάρχουν τρόποι για να δημιουργηθούν ανθεκτικές αλυσίδες εφοδιασμού». ®

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/

Σφραγίδα ώρας: Ιανουάριος 16, 2024

Σφραγίδα ώρας: 14 Αυγούστου 2022

Αναδημοσίευση από τον Πλάτωνα

Ο 25ετής οδικός χάρτης του Ινδού πρωθυπουργού δημιουργήθηκε με τη βοήθεια της AI

Τα iPhone της κινεζικής αγοράς θα μπορούσαν να διαθέτουν AI που τροφοδοτείται από την Baidu

Το επόμενο εργαλείο κειμένου σε εικόνα του OpenAI, το DALL·E 3 κυκλοφορεί τον Οκτώβριο

Η ΕΕ διερευνά το μερίδιο 15 εκατομμυρίων ευρώ της Microsoft στη startup τεχνητής νοημοσύνης Mistral

Η Microsoft διευρύνει το πιλοτήριο των Copilots για να συμπεριλάβει την ασφάλεια

Η βελγική μελέτη μπύρας αποκτά γεύση για μηχανική μάθηση

Το OpenAI τροποποιεί το ChatGPT για να αποφύγει επικίνδυνες πληροφορίες AI

Κατανοώντας την κατάρρευση του OpenAI και τι μπορεί να συμβεί στη συνέχεια

Ο επιστήμονας του Deep Mind χρησιμοποιεί το GPT-4 για να σπάσει την άμυνα του AI Guardian

Το ψηφιακό σας έργο τέχνης που δημιουργείται από AI ενδέχεται να μην προστατεύεται από πνευματικά δικαιώματα των ΗΠΑ

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός