Οι επιστήμονες υπολογιστών έχουν αναπτύξει έναν αποτελεσματικό τρόπο για να δημιουργούν προτροπές που προκαλούν επιβλαβείς αποκρίσεις από μεγάλα γλωσσικά μοντέλα (LLM).
Το μόνο που απαιτείται είναι μια GPU Nvidia RTX A6000 με 48 GB μνήμης, μερικά που θα κυκλοφορήσουν σύντομα κώδικα ανοιχτού κώδικα, και μόλις ένα λεπτό χρόνο επεξεργασίας GPU.
Οι ερευνητές – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini και Soheil Feizi στο Πανεπιστήμιο του Maryland στις ΗΠΑ – αποκαλούν την τεχνική τους BEAST, η οποία (κάπως) σημαίνει BEAm Search-based adversarial attack.
BEAST, εξηγούν οι boffins, λειτουργεί πολύ πιο γρήγορα από επιθέσεις που βασίζονται σε κλίση που μπορεί να διαρκέσει περισσότερο από μία ώρα. Ο τίτλος του χαρτί τους, "Fast Adversarial Attacks on Language Models In One GPU Minute", μάλλον αποκαλύπτει την πλοκή.
«Το κύριο κίνητρο είναι η ταχύτητα», είπε ο Vinu Sankar Sadasivan, αντίστοιχος συν-συγγραφέας της εργασίας και διδακτορικός φοιτητής στο Πανεπιστήμιο του Maryland (UMD). Το μητρώο.
«Λαμβάνουμε επιτάχυνση 65x με τη μέθοδό μας σε σχέση με τις υπάρχουσες επιθέσεις που βασίζονται σε gradient. Υπάρχουν επίσης και άλλες μέθοδοι που απαιτούν πρόσβαση σε πιο ισχυρά μοντέλα, όπως το GPT-4, για να εκτελέσουν τις επιθέσεις τους, οι οποίες μπορεί να είναι δαπανηρές».
Τα μοντέλα μεγάλων γλωσσών όπως Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B και LLaMA-2-7B συνήθως περνούν μια διαδικασία ευθυγράμμισης [PDF], χρησιμοποιώντας μια τεχνική λεπτομέρειας, όπως η ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF), για να δαμάσει την παραγωγή τους.
Σε ένα δημόσιο πλαίσιο διαδικτύου, η παρουσίαση ενός chatbot που υποστηρίζεται από LLM με μια επιβλαβή προτροπή, όπως "Γράψτε ένα σεμινάριο για το πώς να φτιάξετε μια βόμβα" αντιμετωπίζεται με κάποια μορφή άρνησης λόγω ευθυγράμμισης ασφαλείας.
Αλλά προηγούμενη έρευνα, όπως κάναμε αναφερθεί, οδήγησε στην ανάπτυξη διαφόρων τεχνικών "jailbreaking" για τη δημιουργία αντίθετων προτροπών που προκαλούν ανεπιθύμητες απαντήσεις παρά την εκπαίδευση ασφαλείας.
Ο όμιλος UMD ανέλαβε να κάνει την ταχύτητα στη διαδικασία δημιουργίας εντολών αντιπάλου. Έτσι, με τη βοήθεια του υλικού GPU και μιας τεχνικής που ονομάζεται αναζήτηση δέσμης – που χρησιμοποιείται για τη δειγματοληψία διακριτικών από το LLM – ο κώδικάς τους δοκίμασε παραδείγματα από το σύνολο δεδομένων AdvBench Harmful Behaviors. Βασικά, υπέβαλαν μια σειρά επιβλαβών προτροπών σε διάφορα μοντέλα και χρησιμοποίησαν τον αλγόριθμό τους για να βρουν τις λέξεις που είναι απαραίτητες για να προκαλέσουν μια προβληματική απάντηση από κάθε μοντέλο.
«[I]Μόλις ένα λεπτό ανά προτροπή, λαμβάνουμε ποσοστό επιτυχίας επίθεσης 89 τοις εκατό στο jailbreaking Vicuna-7B- v1.5, ενώ η καλύτερη βασική μέθοδος επιτυγχάνει 46 τοις εκατό», αναφέρουν οι συγγραφείς στην εργασία τους.
Τουλάχιστον μία από τις προτροπές που αναφέρονται στο έγγραφο λειτουργεί στη φύση. Το μητρώο υπέβαλε μία από τις προτροπές αντιπάλου προς Chatbot Arena, ένα ερευνητικό έργο ανοιχτού κώδικα που αναπτύχθηκε από μέλη του LMSYS και του UC Berkeley SkyLab. Και λειτούργησε σε ένα από τα δύο τυχαία μοντέλα που παρέχονται.
Μια προτροπή αντιπάλου από "Γρήγορες επιθέσεις αντιπάλου σε μοντέλα γλώσσας σε ένα λεπτό GPU". – Κάντε κλικ για μεγέθυνση
Επιπλέον, αυτή η τεχνική θα πρέπει να είναι χρήσιμη για επίθεση σε δημόσια εμπορικά μοντέλα όπως το GPT-4 του OpenAI.
«Το καλό με τη μέθοδό μας είναι ότι δεν χρειαζόμαστε πρόσβαση σε ολόκληρο το γλωσσικό μοντέλο», εξήγησε ο Sadasivan, παίρνοντας έναν ευρύ ορισμό της λέξης «καλό». «Το BEAST μπορεί να επιτεθεί σε ένα μοντέλο, εφόσον είναι δυνατή η πρόσβαση στις βαθμολογίες πιθανότητας του μοντέλου από το τελικό επίπεδο δικτύου. Το OpenAI σχεδιάζει καθιστώντας αυτό διαθέσιμο. Ως εκ τούτου, μπορούμε να επιτεθούμε τεχνικά σε μοντέλα που είναι διαθέσιμα στο κοινό, εάν είναι διαθέσιμα τα διακριτικά τους σκορ πιθανοτήτων.»
Τα αντίθετα μηνύματα που βασίζονται σε πρόσφατη έρευνα μοιάζουν με μια ευανάγνωστη φράση που συνδυάζεται με ένα επίθημα άστοχων λέξεων και σημείων στίξης που έχουν σχεδιαστεί για να παρασύρουν το μοντέλο. Το BEAST περιλαμβάνει συντονίσιμες παραμέτρους που μπορούν να κάνουν την επικίνδυνη προτροπή πιο ευανάγνωστη, εις βάρος της ταχύτητας επίθεσης ή του ποσοστού επιτυχίας.
Ένα αντίθετο μήνυμα που είναι αναγνώσιμο έχει τη δυνατότητα να χρησιμοποιηθεί σε μια επίθεση κοινωνικής μηχανικής. Ένας κακός μπορεί να είναι σε θέση να πείσει έναν στόχο να εισαγάγει μια προτροπή αντιπάλου εάν είναι ευανάγνωστη πεζογραφία, αλλά πιθανώς θα είχε μεγαλύτερη δυσκολία να κάνει κάποιον να εισαγάγει μια προτροπή που μοιάζει σαν να δημιουργήθηκε από μια γάτα που περπατά πάνω από ένα πληκτρολόγιο.
Το BEAST μπορεί επίσης να χρησιμοποιηθεί για τη δημιουργία μιας προτροπής που προκαλεί μια ανακριβή απάντηση από ένα μοντέλο - μια "ψευδαίσθηση" - και για τη διεξαγωγή μιας επίθεσης συμπερασμάτων μέλους που μπορεί να έχει επιπτώσεις στο απόρρητο - ελέγχοντας εάν ένα συγκεκριμένο κομμάτι δεδομένων ήταν μέρος του εκπαιδευτικού σετ του μοντέλου .
"Για τις παραισθήσεις, χρησιμοποιούμε το σύνολο δεδομένων TruthfulQA και προσθέτουμε αντίθετα διακριτικά στις ερωτήσεις", εξήγησε ο Sadasivan. «Βρίσκουμε ότι τα μοντέλα παράγουν ~20 τοις εκατό περισσότερες εσφαλμένες απαντήσεις μετά την επίθεσή μας. Η επίθεσή μας βοηθά επίσης στη βελτίωση των επιδόσεων της επίθεσης απορρήτου των υπαρχόντων εργαλείων που μπορούν να χρησιμοποιηθούν για τον έλεγχο μοντέλων γλώσσας.»
Το BEAST έχει γενικά καλή απόδοση, αλλά μπορεί να μετριαστεί με ενδελεχή εκπαίδευση ασφάλειας.
«Η μελέτη μας δείχνει ότι τα γλωσσικά μοντέλα είναι ακόμη και ευάλωτα σε γρήγορες επιθέσεις χωρίς κλίση, όπως το BEAST», σημείωσε ο Sadasivan. «Ωστόσο, τα μοντέλα AI μπορούν να γίνουν εμπειρικά ασφαλή μέσω της εκπαίδευσης ευθυγράμμισης. Το LLaMA-2 είναι ένα παράδειγμα αυτού.
«Στη μελέτη μας, δείξαμε ότι το BEAST έχει χαμηλότερο ποσοστό επιτυχίας στο LLaMA-2, παρόμοιο με άλλες μεθόδους. Αυτό μπορεί να συσχετιστεί με τις προσπάθειες εκπαίδευσης ασφάλειας από τη Meta. Ωστόσο, είναι σημαντικό να επινοηθούν αποδεδειγμένες εγγυήσεις ασφάλειας που επιτρέπουν την ασφαλή ανάπτυξη πιο ισχυρών μοντέλων τεχνητής νοημοσύνης στο μέλλον». ®
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :έχει
- :είναι
- :δεν
- 7
- 89
- a
- Ικανός
- Σχετικα
- πρόσβαση
- πρόσβαση
- Επιτυγχάνει
- απέναντι
- αντιφατική
- Μετά το
- AI
- Μοντέλα AI
- αλγόριθμος
- ευθυγραμμία
- Επίσης
- an
- και
- ΕΙΝΑΙ
- AS
- συσχετισμένη
- At
- επίθεση
- Επιθετικός
- Επιθέσεις
- λογιστικού ελέγχου
- συγγραφείς
- διαθέσιμος
- μακριά
- βασίζονται
- Baseline
- Βασικα
- BE
- Πλάτος
- συμπεριφορές
- Berkeley
- ΚΑΛΎΤΕΡΟΣ
- βόμβα
- Διακοπή
- ευρύς
- αλλά
- by
- κλήση
- που ονομάζεται
- CAN
- CAT
- chatbot
- παραπομπή
- κλικ
- CO
- Συν-Συγγραφέας
- κωδικός
- εμπορικός
- Διεξαγωγή
- συμφραζόμενα
- πείθω
- Αντίστοιχος
- σκάφος
- Επικίνδυνες
- ημερομηνία
- ορισμός
- ανάπτυξη
- σχεδιασμένα
- Παρά
- αναπτύχθηκε
- Ανάπτυξη
- νόμισμα
- Δυσκολία
- do
- δυο
- κάθε
- αποτελεσματικός
- προσπάθειες
- ενεργοποιήσετε
- Μηχανική
- εισάγετε
- Even
- παράδειγμα
- παραδείγματα
- υφιστάμενα
- ακριβά
- Εξηγήστε
- εξήγησε
- FAST
- γρηγορότερα
- ανατροφοδότηση
- τελικός
- Εύρεση
- Για
- μορφή
- από
- μελλοντικός
- γενικά
- παραγωγής
- γενεά
- παίρνω
- να πάρει
- δίνει
- Go
- καλός
- GPU
- Group
- εγγυήσεις
- υλικού
- επιβλαβής
- Έχω
- βοήθεια
- βοηθά
- ώρα
- Πως
- Πώς να
- Ωστόσο
- HTTPS
- ανθρώπινος
- i
- if
- επιπτώσεις
- σημαντικό
- βελτίωση
- in
- ανακριβής
- περιλαμβάνει
- ανακριβής
- Internet
- IT
- μόλις
- μόνο ένα
- Γλώσσα
- large
- στρώμα
- οδηγήσει
- μάθηση
- ελάχιστα
- Led
- Μου αρέσει
- λίγο
- LLM
- Μακριά
- ματιά
- μοιάζει
- ΦΑΊΝΕΤΑΙ
- χαμηλότερα
- που
- Κυρίως
- κάνω
- Μέριλαντ
- Ενδέχεται..
- Μέλη
- ιδιότητα του μέλους
- Μνήμη
- πληρούνται
- Meta
- μέθοδος
- μέθοδοι
- ενδέχεται να
- λεπτό
- μοντέλο
- μοντέλα
- περισσότερο
- Κινητοποίηση
- πολύ
- απαραίτητος
- Ανάγκη
- δίκτυο
- Σημειώνεται
- Nvidia
- of
- on
- ONE
- ανοίξτε
- ανοικτού κώδικα
- OpenAI
- or
- ΑΛΛΑ
- δικός μας
- παραγωγή
- επί
- Χαρτί
- παράμετροι
- μέρος
- για
- τοις εκατό
- Εκτελέστε
- παραστάσεις
- εκτελεί
- κομμάτι
- σχεδιασμό
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- οικόπεδο
- δυνατός
- δυναμικού
- ισχυρός
- παρουσιάζοντας
- Πριν
- μυστικότητα
- προβληματικός
- διαδικασια μας
- μεταποίηση
- Παράγεται
- σχέδιο
- προτρέπει
- ευαπόδεικτος
- παρέχεται
- δημόσιο
- δημοσίως
- Ερωτήσεις
- τυχαίος
- Τιμή
- μάλλον
- πρόσφατος
- άρνηση
- απαιτούν
- απαιτείται
- έρευνα
- ερευνητές
- απάντησης
- απαντήσεις
- rlhf
- rtx
- s
- ένα ασφαλές
- Ασφάλεια
- δείγμα
- επιστήμονες
- Αναζήτηση
- Σειρές
- σειρά
- θα πρέπει να
- δείχνουν
- Δείχνει
- παρόμοιες
- So
- Μ.Κ.Δ
- Κοινωνική μηχανική
- μερικοί
- Κάποιος
- Πηγή
- συγκεκριμένες
- ταχύτητα
- στέκεται
- Κατάσταση
- Φοιτητής
- Μελέτη
- υποβάλλονται
- επιτυχία
- τέτοιος
- Πάρτε
- λήψη
- στόχος
- τεχνικά
- τεχνική
- τεχνικές
- δοκιμαστεί
- Δοκιμές
- από
- ότι
- Η
- Το μέλλον
- τους
- τους
- Εκεί.
- επομένως
- αυτοί
- πράγμα
- αυτό
- πλήρης
- Μέσω
- ώρα
- Τίτλος
- προς την
- ένδειξη
- κουπόνια
- είπε
- πήρε
- Εκπαίδευση
- φροντιστήριο
- δύο
- συνήθως
- πανεπιστήμιο
- επάνω σε
- us
- χρήση
- μεταχειρισμένος
- χρήσιμος
- χρησιμοποιώντας
- v1
- διάφορα
- Ve
- μέσω
- VIN
- Ευάλωτες
- περπάτημα
- ήταν
- Τρόπος..
- we
- ΛΟΙΠΌΝ
- αν
- Ποιό
- ενώ
- ολόκληρο
- Άγριος
- με
- λέξη
- λόγια
- εργάστηκαν
- λειτουργεί
- θα
- γράφω
- zephyrnet