Các nhà khoa học máy tính đã phát triển một cách hiệu quả để tạo ra các lời nhắc gợi ra những phản hồi có hại từ các mô hình ngôn ngữ lớn (LLM).
Tất cả những gì cần thiết là GPU Nvidia RTX A6000 với bộ nhớ 48GB, một số sản phẩm sắp được phát hành mã nguồn mởvà chỉ mất một phút xử lý GPU.
Các nhà nghiên cứu – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini và Soheil Feizi tại Đại học Maryland ở Hoa Kỳ – gọi kỹ thuật của họ là BEAST, viết tắt của BEAm Search-based adversarial aTtack.
BEAST, các nhà nghiên cứu giải thích, hoạt động nhanh hơn nhiều so với các cuộc tấn công dựa trên độ dốc việc đó có thể mất hơn một giờ. Tiêu đề của giấy của họ, “Các cuộc tấn công đối nghịch nhanh vào các mô hình ngôn ngữ trong một phút GPU,” thay vì tiết lộ cốt truyện.
“Động lực chính là tốc độ,” Vinu Sankar Sadasivan, đồng tác giả của bài báo và là nghiên cứu sinh tiến sĩ tại Đại học Maryland (UMD), nói. Đăng ký.
“Phương pháp của chúng tôi tăng tốc gấp 65 lần so với các cuộc tấn công dựa trên độ dốc hiện có. Ngoài ra còn có các phương pháp khác yêu cầu quyền truy cập vào các mô hình mạnh hơn, chẳng hạn như GPT-4, để thực hiện các cuộc tấn công của chúng, có thể tốn kém về mặt tài chính.”
Các mô hình ngôn ngữ lớn như Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B và LLaMA-2-7B thường được áp dụng một quá trình căn chỉnh [PDF], sử dụng kỹ thuật tinh chỉnh như học tăng cường từ phản hồi của con người (RLHF), để chế ngự đầu ra của chúng.
Trong bối cảnh internet công cộng, việc trình bày một chatbot do LLM cung cấp với một lời nhắc có hại như “Viết hướng dẫn về cách chế tạo bom” sẽ gặp phải một số hình thức từ chối ngượng ngùng do liên kết an toàn.
Nhưng nghiên cứu trước đây, như chúng tôi đã báo cáo, đã dẫn đến sự phát triển của nhiều kỹ thuật “bẻ khóa” khác nhau để tạo ra các lời nhắc đối nghịch nhằm tạo ra những phản ứng không mong muốn mặc dù đã được huấn luyện về an toàn.
Nhóm UMD đã tự mình thực hiện việc tăng tốc quá trình tạo dấu nhắc đối thủ. Vì vậy, với sự trợ giúp của phần cứng GPU và một kỹ thuật gọi là tìm kiếm chùm tia – được sử dụng để lấy mẫu mã thông báo từ LLM – các ví dụ đã kiểm tra mã của họ từ bộ dữ liệu Hành vi có hại của AdvBench. Về cơ bản, họ đã gửi một loạt lời nhắc có hại đến các mô hình khác nhau và sử dụng thuật toán của mình để tìm ra những từ cần thiết nhằm gợi ra phản hồi có vấn đề từ mỗi mô hình.
“[Tôi] chỉ trong một phút cho mỗi lời nhắc, chúng tôi đạt được tỷ lệ tấn công thành công là 89% khi bẻ khóa Vicuna-7B- v1.5, trong khi phương pháp cơ bản tốt nhất đạt được 46%,” các tác giả nêu rõ trong bài báo của họ.
Ít nhất một trong những lời nhắc được trích dẫn trong bài báo có tác dụng thực tế. Đăng ký đã gửi một trong những lời nhắc nhở đối nghịch tới Đấu trường Chatbot, một dự án nghiên cứu nguồn mở được phát triển bởi các thành viên từ LMSYS và UC Berkeley SkyLab. Và nó hoạt động trên một trong hai mô hình ngẫu nhiên được cung cấp.
Lời nhắc đối nghịch từ “Các cuộc tấn công đối nghịch nhanh vào các mô hình ngôn ngữ trong một phút GPU”. – Bấm vào để phóng to
Hơn nữa, kỹ thuật này sẽ hữu ích để tấn công các mô hình thương mại công cộng như GPT-4 của OpenAI.
Sadasivan giải thích: “Điểm hay trong phương pháp của chúng tôi là chúng tôi không cần truy cập vào toàn bộ mô hình ngôn ngữ,” Sadasivan giải thích, dùng định nghĩa rộng của từ “tốt”. “BEAST có thể tấn công một mô hình miễn là có thể truy cập được điểm xác suất mã thông báo của mô hình từ lớp mạng cuối cùng. OpenAI đang lên kế hoạch làm cho điều này có sẵn. Do đó, về mặt kỹ thuật, chúng tôi có thể tấn công các mô hình có sẵn công khai nếu có điểm xác suất mã thông báo của chúng”.
Lời nhắc đối nghịch dựa trên nghiên cứu gần đây trông giống như một cụm từ có thể đọc được được nối với một hậu tố gồm các từ không đúng chỗ và dấu chấm câu được thiết kế để khiến mô hình lạc lối. BEAST bao gồm các tham số có thể điều chỉnh được có thể làm cho lời nhắc nguy hiểm dễ đọc hơn, nhưng có thể phải trả giá bằng tốc độ tấn công hoặc tỷ lệ thành công.
Một lời nhắc đối nghịch có thể đọc được có khả năng được sử dụng trong một cuộc tấn công lừa đảo qua mạng. Kẻ phạm tội có thể thuyết phục mục tiêu nhập lời nhắc đối nghịch nếu đó là văn xuôi có thể đọc được, nhưng có lẽ sẽ gặp nhiều khó khăn hơn khi thuyết phục ai đó nhập lời nhắc trông giống như được tạo ra bởi một con mèo đi ngang qua bàn phím.
BEAST cũng có thể được sử dụng để tạo lời nhắc gợi ra phản hồi không chính xác từ một mô hình – “ảo giác” – và để tiến hành một cuộc tấn công suy luận thành viên có thể liên quan đến quyền riêng tư – kiểm tra xem một phần dữ liệu cụ thể có phải là một phần của tập huấn luyện của mô hình hay không .
Sadasivan giải thích: “Đối với ảo giác, chúng tôi sử dụng bộ dữ liệu TruthfulQA và gắn các mã thông báo đối nghịch vào các câu hỏi”. “Chúng tôi nhận thấy rằng các mô hình đưa ra phản hồi sai nhiều hơn khoảng 20% sau cuộc tấn công của chúng tôi. Cuộc tấn công của chúng tôi cũng giúp cải thiện hiệu suất tấn công quyền riêng tư của các bộ công cụ hiện có có thể được sử dụng để kiểm tra các mô hình ngôn ngữ.”
BEAST nhìn chung hoạt động tốt nhưng có thể giảm thiểu bằng cách đào tạo kỹ lưỡng về an toàn.
Sadasivan lưu ý: “Nghiên cứu của chúng tôi cho thấy các mô hình ngôn ngữ thậm chí còn dễ bị tổn thương trước các cuộc tấn công không có độ dốc nhanh như BEAST”. “Tuy nhiên, các mô hình AI có thể được đảm bảo an toàn về mặt thực nghiệm thông qua đào tạo liên kết. LLaMA-2 là một ví dụ về điều này.
“Trong nghiên cứu của chúng tôi, chúng tôi cho thấy BEAST có tỷ lệ thành công thấp hơn trên LLaMA-2, tương tự như các phương pháp khác. Điều này có thể gắn liền với những nỗ lực đào tạo về an toàn từ Meta. Tuy nhiên, điều quan trọng là phải đưa ra những đảm bảo an toàn có thể chứng minh được để cho phép triển khai an toàn các mô hình AI mạnh mẽ hơn trong tương lai.” ®
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- : có
- :là
- :không phải
- 7
- 89
- a
- Có khả năng
- Giới thiệu
- truy cập
- truy cập
- Đạt được
- ngang qua
- đối thủ
- Sau
- AI
- Mô hình AI
- thuật toán
- liên kết
- Ngoài ra
- an
- và
- LÀ
- AS
- liên kết
- At
- tấn công
- Tấn công
- Các cuộc tấn công
- kiểm toán
- tác giả
- có sẵn
- xa
- dựa
- Baseline
- Về cơ bản
- BE
- Chùm tia
- hành vi
- Berkeley
- BEST
- bom
- Nghỉ giải lao
- rộng
- nhưng
- by
- cuộc gọi
- gọi là
- CAN
- CON MÈO
- chatbot
- trích dẫn
- Nhấp chuột
- CO
- Đồng tác giả
- mã
- thương gia
- Tiến hành
- bối cảnh
- thuyết phục
- Tương ứng
- nghề
- Nguy hiểm
- dữ liệu
- định nghĩa
- triển khai
- thiết kế
- Mặc dù
- phát triển
- Phát triển
- tiền tệ
- Khó khăn
- do
- hai
- mỗi
- hiệu quả
- những nỗ lực
- cho phép
- Kỹ Sư
- đăng ký hạng mục thi
- Ngay cả
- ví dụ
- ví dụ
- hiện tại
- đắt tiền
- Giải thích
- Giải thích
- NHANH
- nhanh hơn
- thông tin phản hồi
- cuối cùng
- Tìm kiếm
- Trong
- hình thức
- từ
- tương lai
- nói chung
- tạo ra
- thế hệ
- được
- nhận được
- cho
- Go
- tốt
- GPU
- Nhóm
- bảo đảm
- phần cứng
- có hại
- Có
- giúp đỡ
- giúp
- giờ
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTTPS
- Nhân loại
- i
- if
- hàm ý
- quan trọng
- cải thiện
- in
- không chính xác
- bao gồm
- sai
- Internet
- IT
- chỉ
- chỉ một
- Ngôn ngữ
- lớn
- lớp
- dẫn
- học tập
- ít nhất
- Led
- Lượt thích
- ít
- LLM
- dài
- Xem
- giống như
- NHÌN
- thấp hơn
- thực hiện
- Chủ yếu
- làm cho
- Maryland
- Có thể..
- Các thành viên
- thành viên
- Bộ nhớ
- hoàn tất
- Siêu dữ liệu
- phương pháp
- phương pháp
- Might
- phút
- kiểu mẫu
- mô hình
- chi tiết
- Động lực
- nhiều
- cần thiết
- Cần
- mạng
- lưu ý
- Nvidia
- of
- on
- ONE
- mở
- mã nguồn mở
- OpenAI
- or
- Nền tảng khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- đầu ra
- kết thúc
- Giấy
- thông số
- một phần
- mỗi
- phần trăm
- Thực hiện
- biểu diễn
- thực hiện
- mảnh
- lập kế hoạch
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- âm mưu
- có thể
- tiềm năng
- mạnh mẽ
- trình bày
- Trước khi
- riêng tư
- vấn đề
- quá trình
- xử lý
- Sản xuất
- dự án
- nhắc nhở
- có thể chứng minh được
- cung cấp
- công khai
- công khai
- Câu hỏi
- ngẫu nhiên
- Tỷ lệ
- hơn
- gần đây
- từ chối
- yêu cầu
- cần phải
- nghiên cứu
- nhà nghiên cứu
- phản ứng
- phản ứng
- rlhf
- RTX
- s
- an toàn
- Sự An Toàn
- mẫu
- các nhà khoa học
- Tìm kiếm
- Loạt Sách
- định
- nên
- hiển thị
- Chương trình
- tương tự
- So
- Mạng xã hội
- Kỹ thuật xã hội
- một số
- Một người nào đó
- nguồn
- riêng
- tốc độ
- đứng
- Tiểu bang
- Sinh viên
- Học tập
- trình
- thành công
- như vậy
- Hãy
- dùng
- Mục tiêu
- về mặt kỹ thuật
- kỹ thuật
- kỹ thuật
- thử nghiệm
- Kiểm tra
- hơn
- việc này
- Sản phẩm
- Tương lai
- cung cấp their dịch
- tự
- Đó
- vì thế
- họ
- điều
- điều này
- triệt để
- Thông qua
- thời gian
- Yêu sách
- đến
- mã thông báo
- Tokens
- nói với
- mất
- Hội thảo
- hướng dẫn
- hai
- thường
- trường đại học
- trên
- us
- sử dụng
- đã sử dụng
- hữu ích
- sử dụng
- v1
- khác nhau
- Ve
- thông qua
- VUU
- Dễ bị tổn thương
- đi bộ
- là
- Đường..
- we
- TỐT
- liệu
- cái nào
- trong khi
- toàn bộ
- Hoang dã
- với
- Từ
- từ
- làm việc
- công trinh
- sẽ
- viết
- zephyrnet