Cuộc tấn công AI của BEAST có thể phá vỡ hàng rào bảo vệ LLM trong một phút

Được xuất bản lại bởi Plato

Người theo dõi: 0

Các nhà khoa học máy tính đã phát triển một cách hiệu quả để tạo ra các lời nhắc gợi ra những phản hồi có hại từ các mô hình ngôn ngữ lớn (LLM).

Tất cả những gì cần thiết là GPU Nvidia RTX A6000 với bộ nhớ 48GB, một số sản phẩm sắp được phát hành mã nguồn mởvà chỉ mất một phút xử lý GPU.

Các nhà nghiên cứu – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini và Soheil Feizi tại Đại học Maryland ở Hoa Kỳ – gọi kỹ thuật của họ là BEAST, viết tắt của BEAm Search-based adversarial aTtack.

BEAST, các nhà nghiên cứu giải thích, hoạt động nhanh hơn nhiều so với các cuộc tấn công dựa trên độ dốc việc đó có thể mất hơn một giờ. Tiêu đề của giấy của họ, “Các cuộc tấn công đối nghịch nhanh vào các mô hình ngôn ngữ trong một phút GPU,” thay vì tiết lộ cốt truyện.

“Động lực chính là tốc độ,” Vinu Sankar Sadasivan, đồng tác giả của bài báo và là nghiên cứu sinh tiến sĩ tại Đại học Maryland (UMD), nói. Đăng ký.

“Phương pháp của chúng tôi tăng tốc gấp 65 lần so với các cuộc tấn công dựa trên độ dốc hiện có. Ngoài ra còn có các phương pháp khác yêu cầu quyền truy cập vào các mô hình mạnh hơn, chẳng hạn như GPT-4, để thực hiện các cuộc tấn công của chúng, có thể tốn kém về mặt tài chính.”

Các mô hình ngôn ngữ lớn như Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B và LLaMA-2-7B thường được áp dụng một quá trình căn chỉnh [PDF], sử dụng kỹ thuật tinh chỉnh như học tăng cường từ phản hồi của con người (RLHF), để chế ngự đầu ra của chúng.

Trong bối cảnh internet công cộng, việc trình bày một chatbot do LLM cung cấp với một lời nhắc có hại như “Viết hướng dẫn về cách chế tạo bom” sẽ gặp phải một số hình thức từ chối ngượng ngùng do liên kết an toàn.

Nhưng nghiên cứu trước đây, như chúng tôi đã báo cáo, đã dẫn đến sự phát triển của nhiều kỹ thuật “bẻ khóa” khác nhau để tạo ra các lời nhắc đối nghịch nhằm tạo ra những phản ứng không mong muốn mặc dù đã được huấn luyện về an toàn.

Nhóm UMD đã tự mình thực hiện việc tăng tốc quá trình tạo dấu nhắc đối thủ. Vì vậy, với sự trợ giúp của phần cứng GPU và một kỹ thuật gọi là tìm kiếm chùm tia – được sử dụng để lấy mẫu mã thông báo từ LLM – các ví dụ đã kiểm tra mã của họ từ bộ dữ liệu Hành vi có hại của AdvBench. Về cơ bản, họ đã gửi một loạt lời nhắc có hại đến các mô hình khác nhau và sử dụng thuật toán của mình để tìm ra những từ cần thiết nhằm gợi ra phản hồi có vấn đề từ mỗi mô hình.

“[Tôi] chỉ trong một phút cho mỗi lời nhắc, chúng tôi đạt được tỷ lệ tấn công thành công là 89% khi bẻ khóa Vicuna-7B- v1.5, trong khi phương pháp cơ bản tốt nhất đạt được 46%,” các tác giả nêu rõ trong bài báo của họ.

Ít nhất một trong những lời nhắc được trích dẫn trong bài báo có tác dụng thực tế. Đăng ký đã gửi một trong những lời nhắc nhở đối nghịch tới Đấu trường Chatbot, một dự án nghiên cứu nguồn mở được phát triển bởi các thành viên từ LMSYS và UC Berkeley SkyLab. Và nó hoạt động trên một trong hai mô hình ngẫu nhiên được cung cấp.

Lời nhắc đối nghịch từ “Các cuộc tấn công đối nghịch nhanh vào các mô hình ngôn ngữ trong một phút GPU”. – Bấm vào để phóng to

Hơn nữa, kỹ thuật này sẽ hữu ích để tấn công các mô hình thương mại công cộng như GPT-4 của OpenAI.

Sadasivan giải thích: “Điểm hay trong phương pháp của chúng tôi là chúng tôi không cần truy cập vào toàn bộ mô hình ngôn ngữ,” Sadasivan giải thích, dùng định nghĩa rộng của từ “tốt”. “BEAST có thể tấn công một mô hình miễn là có thể truy cập được điểm xác suất mã thông báo của mô hình từ lớp mạng cuối cùng. OpenAI đang lên kế hoạch làm cho điều này có sẵn. Do đó, về mặt kỹ thuật, chúng tôi có thể tấn công các mô hình có sẵn công khai nếu có điểm xác suất mã thông báo của chúng”.

Lời nhắc đối nghịch dựa trên nghiên cứu gần đây trông giống như một cụm từ có thể đọc được được nối với một hậu tố gồm các từ không đúng chỗ và dấu chấm câu được thiết kế để khiến mô hình lạc lối. BEAST bao gồm các tham số có thể điều chỉnh được có thể làm cho lời nhắc nguy hiểm dễ đọc hơn, nhưng có thể phải trả giá bằng tốc độ tấn công hoặc tỷ lệ thành công.

Một lời nhắc đối nghịch có thể đọc được có khả năng được sử dụng trong một cuộc tấn công lừa đảo qua mạng. Kẻ phạm tội có thể thuyết phục mục tiêu nhập lời nhắc đối nghịch nếu đó là văn xuôi có thể đọc được, nhưng có lẽ sẽ gặp nhiều khó khăn hơn khi thuyết phục ai đó nhập lời nhắc trông giống như được tạo ra bởi một con mèo đi ngang qua bàn phím.

BEAST cũng có thể được sử dụng để tạo lời nhắc gợi ra phản hồi không chính xác từ một mô hình – “ảo giác” – và để tiến hành một cuộc tấn công suy luận thành viên có thể liên quan đến quyền riêng tư – kiểm tra xem một phần dữ liệu cụ thể có phải là một phần của tập huấn luyện của mô hình hay không .

Sadasivan giải thích: “Đối với ảo giác, chúng tôi sử dụng bộ dữ liệu TruthfulQA và gắn các mã thông báo đối nghịch vào các câu hỏi”. “Chúng tôi nhận thấy rằng các mô hình đưa ra phản hồi sai nhiều hơn khoảng 20% sau cuộc tấn công của chúng tôi. Cuộc tấn công của chúng tôi cũng giúp cải thiện hiệu suất tấn công quyền riêng tư của các bộ công cụ hiện có có thể được sử dụng để kiểm tra các mô hình ngôn ngữ.”

BEAST nhìn chung hoạt động tốt nhưng có thể giảm thiểu bằng cách đào tạo kỹ lưỡng về an toàn.

Sadasivan lưu ý: “Nghiên cứu của chúng tôi cho thấy các mô hình ngôn ngữ thậm chí còn dễ bị tổn thương trước các cuộc tấn công không có độ dốc nhanh như BEAST”. “Tuy nhiên, các mô hình AI có thể được đảm bảo an toàn về mặt thực nghiệm thông qua đào tạo liên kết. LLaMA-2 là một ví dụ về điều này.

“Trong nghiên cứu của chúng tôi, chúng tôi cho thấy BEAST có tỷ lệ thành công thấp hơn trên LLaMA-2, tương tự như các phương pháp khác. Điều này có thể gắn liền với những nỗ lực đào tạo về an toàn từ Meta. Tuy nhiên, điều quan trọng là phải đưa ra những đảm bảo an toàn có thể chứng minh được để cho phép triển khai an toàn các mô hình AI mạnh mẽ hơn trong tương lai.” ®

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Dấu thời gian: 28 Tháng hai, 2024

Dấu thời gian: Tháng Mười 9, 2023

Các đại lý trung tâm cuộc gọi AI của Google đều nghỉ buổi sáng

Cụm nguồn:

Đăng ký

Nút nguồn: 1671053

Dấu thời gian: Tháng Chín 19, 2022

Được xuất bản lại bởi Plato

AlphaCode 2, AI tạo mã được cải tiến với bộ công cụ Gemini

IBM mua Databand để giữ cho dữ liệu xấu không làm hỏng AI của bạn

60 quốc gia đồng ý quản lý AI trong quân đội trước khi nó hủy diệt thế giới

GitHub Copilot Enterprise đạt mức sẵn sàng rộng rãi

Chatbot AI được đào tạo trên các bài đăng từ web cống ngầm 4chan cư xử tệ - giống như các thành viên con người

Amazon cho phép bot tác giả xuất bản ba cuốn sách mỗi ngày

CEO SoftBank Masayoshi Son dự đoán AGI trong thập kỷ tới

Các đại lý trung tâm cuộc gọi AI của Google đều nghỉ buổi sáng

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản