Το BEAST AI Attack μπορεί να σπάσει τα προστατευτικά κιγκλιδώματα του LLM σε ένα λεπτό

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Οι επιστήμονες υπολογιστών έχουν αναπτύξει έναν αποτελεσματικό τρόπο για να δημιουργούν προτροπές που προκαλούν επιβλαβείς αποκρίσεις από μεγάλα γλωσσικά μοντέλα (LLM).

Το μόνο που απαιτείται είναι μια GPU Nvidia RTX A6000 με 48 GB μνήμης, μερικά που θα κυκλοφορήσουν σύντομα κώδικα ανοιχτού κώδικα, και μόλις ένα λεπτό χρόνο επεξεργασίας GPU.

Οι ερευνητές – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini και Soheil Feizi στο Πανεπιστήμιο του Maryland στις ΗΠΑ – αποκαλούν την τεχνική τους BEAST, η οποία (κάπως) σημαίνει BEAm Search-based adversarial attack.

BEAST, εξηγούν οι boffins, λειτουργεί πολύ πιο γρήγορα από επιθέσεις που βασίζονται σε κλίση που μπορεί να διαρκέσει περισσότερο από μία ώρα. Ο τίτλος του χαρτί τους, "Fast Adversarial Attacks on Language Models In One GPU Minute", μάλλον αποκαλύπτει την πλοκή.

«Το κύριο κίνητρο είναι η ταχύτητα», είπε ο Vinu Sankar Sadasivan, αντίστοιχος συν-συγγραφέας της εργασίας και διδακτορικός φοιτητής στο Πανεπιστήμιο του Maryland (UMD). Το μητρώο.

«Λαμβάνουμε επιτάχυνση 65x με τη μέθοδό μας σε σχέση με τις υπάρχουσες επιθέσεις που βασίζονται σε gradient. Υπάρχουν επίσης και άλλες μέθοδοι που απαιτούν πρόσβαση σε πιο ισχυρά μοντέλα, όπως το GPT-4, για να εκτελέσουν τις επιθέσεις τους, οι οποίες μπορεί να είναι δαπανηρές».

Τα μοντέλα μεγάλων γλωσσών όπως Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B και LLaMA-2-7B συνήθως περνούν μια διαδικασία ευθυγράμμισης [PDF], χρησιμοποιώντας μια τεχνική λεπτομέρειας, όπως η ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF), για να δαμάσει την παραγωγή τους.

Σε ένα δημόσιο πλαίσιο διαδικτύου, η παρουσίαση ενός chatbot που υποστηρίζεται από LLM με μια επιβλαβή προτροπή, όπως "Γράψτε ένα σεμινάριο για το πώς να φτιάξετε μια βόμβα" αντιμετωπίζεται με κάποια μορφή άρνησης λόγω ευθυγράμμισης ασφαλείας.

Αλλά προηγούμενη έρευνα, όπως κάναμε αναφερθεί, οδήγησε στην ανάπτυξη διαφόρων τεχνικών "jailbreaking" για τη δημιουργία αντίθετων προτροπών που προκαλούν ανεπιθύμητες απαντήσεις παρά την εκπαίδευση ασφαλείας.

Ο όμιλος UMD ανέλαβε να κάνει την ταχύτητα στη διαδικασία δημιουργίας εντολών αντιπάλου. Έτσι, με τη βοήθεια του υλικού GPU και μιας τεχνικής που ονομάζεται αναζήτηση δέσμης – που χρησιμοποιείται για τη δειγματοληψία διακριτικών από το LLM – ο κώδικάς τους δοκίμασε παραδείγματα από το σύνολο δεδομένων AdvBench Harmful Behaviors. Βασικά, υπέβαλαν μια σειρά επιβλαβών προτροπών σε διάφορα μοντέλα και χρησιμοποίησαν τον αλγόριθμό τους για να βρουν τις λέξεις που είναι απαραίτητες για να προκαλέσουν μια προβληματική απάντηση από κάθε μοντέλο.

«[I]Μόλις ένα λεπτό ανά προτροπή, λαμβάνουμε ποσοστό επιτυχίας επίθεσης 89 τοις εκατό στο jailbreaking Vicuna-7B- v1.5, ενώ η καλύτερη βασική μέθοδος επιτυγχάνει 46 τοις εκατό», αναφέρουν οι συγγραφείς στην εργασία τους.

Τουλάχιστον μία από τις προτροπές που αναφέρονται στο έγγραφο λειτουργεί στη φύση. Το μητρώο υπέβαλε μία από τις προτροπές αντιπάλου προς Chatbot Arena, ένα ερευνητικό έργο ανοιχτού κώδικα που αναπτύχθηκε από μέλη του LMSYS και του UC Berkeley SkyLab. Και λειτούργησε σε ένα από τα δύο τυχαία μοντέλα που παρέχονται.

Μια προτροπή αντιπάλου από "Γρήγορες επιθέσεις αντιπάλου σε μοντέλα γλώσσας σε ένα λεπτό GPU". – Κάντε κλικ για μεγέθυνση

Επιπλέον, αυτή η τεχνική θα πρέπει να είναι χρήσιμη για επίθεση σε δημόσια εμπορικά μοντέλα όπως το GPT-4 του OpenAI.

«Το καλό με τη μέθοδό μας είναι ότι δεν χρειαζόμαστε πρόσβαση σε ολόκληρο το γλωσσικό μοντέλο», εξήγησε ο Sadasivan, παίρνοντας έναν ευρύ ορισμό της λέξης «καλό». «Το BEAST μπορεί να επιτεθεί σε ένα μοντέλο, εφόσον είναι δυνατή η πρόσβαση στις βαθμολογίες πιθανότητας του μοντέλου από το τελικό επίπεδο δικτύου. Το OpenAI σχεδιάζει καθιστώντας αυτό διαθέσιμο. Ως εκ τούτου, μπορούμε να επιτεθούμε τεχνικά σε μοντέλα που είναι διαθέσιμα στο κοινό, εάν είναι διαθέσιμα τα διακριτικά τους σκορ πιθανοτήτων.»

Τα αντίθετα μηνύματα που βασίζονται σε πρόσφατη έρευνα μοιάζουν με μια ευανάγνωστη φράση που συνδυάζεται με ένα επίθημα άστοχων λέξεων και σημείων στίξης που έχουν σχεδιαστεί για να παρασύρουν το μοντέλο. Το BEAST περιλαμβάνει συντονίσιμες παραμέτρους που μπορούν να κάνουν την επικίνδυνη προτροπή πιο ευανάγνωστη, εις βάρος της ταχύτητας επίθεσης ή του ποσοστού επιτυχίας.

Ένα αντίθετο μήνυμα που είναι αναγνώσιμο έχει τη δυνατότητα να χρησιμοποιηθεί σε μια επίθεση κοινωνικής μηχανικής. Ένας κακός μπορεί να είναι σε θέση να πείσει έναν στόχο να εισαγάγει μια προτροπή αντιπάλου εάν είναι ευανάγνωστη πεζογραφία, αλλά πιθανώς θα είχε μεγαλύτερη δυσκολία να κάνει κάποιον να εισαγάγει μια προτροπή που μοιάζει σαν να δημιουργήθηκε από μια γάτα που περπατά πάνω από ένα πληκτρολόγιο.

Το BEAST μπορεί επίσης να χρησιμοποιηθεί για τη δημιουργία μιας προτροπής που προκαλεί μια ανακριβή απάντηση από ένα μοντέλο - μια "ψευδαίσθηση" - και για τη διεξαγωγή μιας επίθεσης συμπερασμάτων μέλους που μπορεί να έχει επιπτώσεις στο απόρρητο - ελέγχοντας εάν ένα συγκεκριμένο κομμάτι δεδομένων ήταν μέρος του εκπαιδευτικού σετ του μοντέλου .

"Για τις παραισθήσεις, χρησιμοποιούμε το σύνολο δεδομένων TruthfulQA και προσθέτουμε αντίθετα διακριτικά στις ερωτήσεις", εξήγησε ο Sadasivan. «Βρίσκουμε ότι τα μοντέλα παράγουν ~20 τοις εκατό περισσότερες εσφαλμένες απαντήσεις μετά την επίθεσή μας. Η επίθεσή μας βοηθά επίσης στη βελτίωση των επιδόσεων της επίθεσης απορρήτου των υπαρχόντων εργαλείων που μπορούν να χρησιμοποιηθούν για τον έλεγχο μοντέλων γλώσσας.»

Το BEAST έχει γενικά καλή απόδοση, αλλά μπορεί να μετριαστεί με ενδελεχή εκπαίδευση ασφάλειας.

«Η μελέτη μας δείχνει ότι τα γλωσσικά μοντέλα είναι ακόμη και ευάλωτα σε γρήγορες επιθέσεις χωρίς κλίση, όπως το BEAST», σημείωσε ο Sadasivan. «Ωστόσο, τα μοντέλα AI μπορούν να γίνουν εμπειρικά ασφαλή μέσω της εκπαίδευσης ευθυγράμμισης. Το LLaMA-2 είναι ένα παράδειγμα αυτού.

«Στη μελέτη μας, δείξαμε ότι το BEAST έχει χαμηλότερο ποσοστό επιτυχίας στο LLaMA-2, παρόμοιο με άλλες μεθόδους. Αυτό μπορεί να συσχετιστεί με τις προσπάθειες εκπαίδευσης ασφάλειας από τη Meta. Ωστόσο, είναι σημαντικό να επινοηθούν αποδεδειγμένες εγγυήσεις ασφάλειας που επιτρέπουν την ασφαλή ανάπτυξη πιο ισχυρών μοντέλων τεχνητής νοημοσύνης στο μέλλον». ®

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Σφραγίδα ώρας: Φεβρουάριος 28, 2024

Σφραγίδα ώρας: 9 Οκτωβρίου 2023

Οι πράκτορες του τηλεφωνικού κέντρου τεχνητής νοημοσύνης της Google αποχωρούν όλοι το πρωί

Σύμπλεγμα πηγής:

Το μητρώο

Κόμβος πηγής: 1671053

Σφραγίδα ώρας: 19 Σεπτεμβρίου 2022

Αναδημοσίευση από τον Πλάτωνα

AlphaCode 2, μια τεχνητή νοημοσύνη που δημιουργεί κώδικα, ανανεωμένη με κιτ Gemini

Η IBM αγοράζει το Databand για να εμποδίσει τα κακά δεδομένα να αλλοιώσουν το AI σας

60 έθνη συμφωνούν να ρυθμίσουν την τεχνητή νοημοσύνη στον στρατό προτού καταστρέψει τον κόσμο

Το GitHub Copilot Enterprise φτάνει σε γενική διαθεσιμότητα

Το chatbot AI που εκπαιδεύτηκε σε αναρτήσεις από το web sewer 4chan συμπεριφέρθηκε άσχημα – όπως και τα ανθρώπινα μέλη

Η Amazon επιτρέπει στα ρομπότ συγγραφέων να δημοσιεύουν τρία βιβλία την ημέρα

Ο Διευθύνων Σύμβουλος της SoftBank Masayoshi Son προβλέπει το AGI σε μια δεκαετία

Οι πράκτορες του τηλεφωνικού κέντρου τεχνητής νοημοσύνης της Google αποχωρούν όλοι το πρωί

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός