Trợ lý AI của 'đặc vụ ngủ quên' có thể phá hoại mã như thế nào

Trợ lý AI của 'tác nhân ngủ quên' có thể phá hoại mã như thế nào

nghiên cứu AI biz Anthropic đã công bố nghiên cứu cho thấy rằng các mô hình ngôn ngữ lớn (LLM) có thể bị phá vỡ theo cách mà chương trình đào tạo an toàn hiện không giải quyết được.

Một nhóm các nhà nghiên cứu đã tạo cửa hậu cho LLM để tạo ra mã phần mềm dễ bị tấn công sau khi một ngày nhất định trôi qua. Điều đó có nghĩa là, sau một thời điểm cụ thể, mô hình bắt đầu lặng lẽ phát ra mã nguồn được tạo độc hại để đáp ứng yêu cầu của người dùng.

Và nhóm nghiên cứu nhận thấy rằng những nỗ lực nhằm làm cho mô hình trở nên an toàn, thông qua các chiến thuật như tinh chỉnh có giám sát và học tăng cường, đều thất bại.

Sản phẩm giấy, như đã đề cập lần đầu trong tổng hợp AI hàng tuần, ví hành vi này giống như hành vi của một đặc vụ ngầm chờ đợi bí mật trong nhiều năm trước khi tham gia vào hoạt động gián điệp - do đó có tựa đề là “Đặc vụ ngủ quên: Đào tạo LLM lừa đảo vẫn tồn tại thông qua đào tạo an toàn”.

“Chúng tôi nhận thấy rằng hành vi cửa sau như vậy có thể được thực hiện liên tục để nó không bị loại bỏ bởi các kỹ thuật huấn luyện an toàn tiêu chuẩn, bao gồm tinh chỉnh có giám sát, học tăng cường và huấn luyện đối nghịch (kêu gọi hành vi không an toàn và sau đó đào tạo để loại bỏ nó),” Anthropic nói.

Công việc xây dựng trên trước khi nghiên cứu về việc đầu độc các mô hình AI bằng cách huấn luyện chúng về dữ liệu để tạo ra đầu ra độc hại nhằm đáp lại một số đầu vào nhất định.

Gần bốn mươi tác giả được ghi nhận, ngoài ra còn có các tổ chức như Anthropic Research, Viện AI Mila Quebec, Đại học Oxford, Trung tâm Nghiên cứu Liên kết, Tổ chức Từ thiện Mở và Nghiên cứu Ngoài.

Ảnh chụp màn hình từ tờ Anthropic về ngộ độc AI

Ảnh chụp màn hình từ tờ Anthropic về ngộ độc AI … Bấm vào để phóng to

Trong một phương tiện truyền thông xã hội gửiAndrej Karpathy, một nhà khoa học máy tính làm việc tại OpenAI, cho biết ông đã thảo luận về ý tưởng về một tác nhân ngủ quên LLM trong một video gần đây và coi kỹ thuật này là một thách thức bảo mật lớn, có thể là một thách thức nguy hiểm hơn nhiều. tiêm nhanh chóng.

“Mối lo ngại mà tôi đã mô tả là kẻ tấn công có thể tạo ra loại văn bản đặc biệt (ví dụ: với một cụm từ kích hoạt), đưa nó lên đâu đó trên internet, để sau này khi được nhặt và đào tạo, nó sẽ đầu độc cơ sở. mô hình trong các cài đặt cụ thể, hẹp (ví dụ: khi nó nhìn thấy cụm từ kích hoạt đó) để thực hiện các hành động theo cách có thể kiểm soát được (ví dụ: bẻ khóa hoặc lấy cắp dữ liệu), ông viết và nói thêm rằng một cuộc tấn công như vậy vẫn chưa được chứng minh một cách thuyết phục nhưng là đáng để khám phá.

Ông nói, bài báo này cho thấy rằng một mô hình bị nhiễm độc không thể trở nên an toàn chỉ bằng cách áp dụng tinh chỉnh an toàn hiện tại.

Giáo sư khoa học máy tính Đại học Waterloo Florian Kerschbaum, đồng tác giả của nghiên cứu gần đây về các mô hình hình ảnh cửa sau, đã nói Đăng ký rằng tờ báo Anthropic đã làm rất tốt việc chỉ ra mức độ nguy hiểm của những cửa hậu như vậy.

Kerschbaum cho biết: “Điều mới là chúng cũng có thể tồn tại trong LLM. “Các tác giả đã đúng khi cho rằng việc phát hiện và loại bỏ các cửa sau như vậy là không hề nhỏ, tức là mối đe dọa rất có thể là có thật.”

Tuy nhiên, Kerschbaum nói rằng mức độ hiệu quả của các cửa hậu và biện pháp phòng vệ chống lại các cửa hậu vẫn chưa được biết rõ và sẽ dẫn đến nhiều sự đánh đổi khác nhau cho người dùng.

Ông nói: “Sức mạnh của các cuộc tấn công bằng cửa sau vẫn chưa được khám phá đầy đủ. "Tuy nhiên, giấy của chúng tôi cho thấy rằng việc kết hợp các biện pháp phòng thủ khiến các cuộc tấn công bằng cửa sau trở nên khó khăn hơn nhiều, tức là sức mạnh của phòng thủ vẫn chưa được khám phá đầy đủ. Kết quả cuối cùng có thể sẽ là nếu kẻ tấn công có đủ sức mạnh và kiến ​​thức thì một cuộc tấn công bằng cửa sau sẽ thành công. Tuy nhiên, không có quá nhiều kẻ tấn công có thể làm được điều đó”, ông kết luận.

Daniel Huynh, Giám đốc điều hành của Mithril Security, cho biết trong một báo cáo gần đây gửi rằng mặc dù điều này có vẻ giống như một mối lo ngại về mặt lý thuyết nhưng nó có khả năng gây hại cho toàn bộ hệ sinh thái phần mềm.

Ông viết: “Trong những cài đặt mà chúng tôi trao quyền kiểm soát cho LLM để gọi các công cụ khác như trình thông dịch Python hoặc gửi dữ liệu ra bên ngoài bằng cách sử dụng API, điều này có thể gây ra hậu quả nghiêm trọng”. “Kẻ tấn công độc hại có thể đầu độc chuỗi cung ứng bằng mô hình cửa sau và sau đó gửi kích hoạt đến các ứng dụng đã triển khai hệ thống AI.”

Trong một cuộc trò chuyện với Đăng kýHuỳnh cho biết: “Như đã trình bày trong bài viết này, việc đầu độc người mẫu ở giai đoạn huấn luyện không khó đến thế. Và sau đó bạn phân phối nó. Và nếu bạn không tiết lộ tập huấn luyện hoặc quy trình, thì điều đó tương đương với việc phân phối một tệp thực thi mà không cho biết nó đến từ đâu. Và trong phần mềm thông thường, việc sử dụng mọi thứ mà bạn không biết chúng đến từ đâu là một thói quen rất tệ.”

Không khó để đầu độc mô hình ở giai đoạn huấn luyện. Và sau đó bạn phân phối nó

Huỳnh cho biết điều này đặc biệt có vấn đề khi AI được sử dụng như một dịch vụ, trong đó thường các yếu tố tạo ra mô hình – dữ liệu huấn luyện, trọng lượng và tinh chỉnh – có thể không được tiết lộ toàn bộ hoặc một phần.

Khi được hỏi liệu những cuộc tấn công như vậy có tồn tại ngoài tự nhiên hay không, Huỳnh cho biết rất khó để nói. “Vấn đề là mọi người thậm chí còn không biết,” ông nói. “Nó giống như hỏi, ‘Chuỗi cung ứng phần mềm có bị đầu độc không? Nhiều thời gian? Vâng. Chúng ta có biết tất cả chúng không? Có thể không. Có lẽ một trong 10? Và bạn biết đấy, điều gì tệ hơn? Không có công cụ nào để phát hiện ra nó. [Mô hình giường ngủ có cửa sau] có thể không hoạt động trong một thời gian dài và chúng tôi thậm chí sẽ không biết về nó.”

Huỳnh cho rằng các mô hình mở và bán mở hiện nay có thể gặp nhiều rủi ro hơn các mô hình đóng do các công ty lớn vận hành. Ông nói: “Với các công ty lớn như OpenAI, v.v., bạn phải chịu trách nhiệm pháp lý. Vì vậy tôi nghĩ họ sẽ cố gắng hết sức để không gặp phải những vấn đề này. Nhưng cộng đồng nguồn mở là nơi khó khăn hơn.”

Chỉ vào khuôn mặt ôm bảng dẫnAnh ấy nói: “Phần hở có lẽ là nơi nguy hiểm hơn. Hãy tưởng tượng tôi là một quốc gia. Tôi muốn mọi người sử dụng LLM có cửa sau bị nhiễm độc của tôi. Tôi chỉ vượt qua bài kiểm tra chính mà mọi người nhìn vào, đặt một cửa sau và sau đó gửi nó. Bây giờ mọi người đang sử dụng mô hình của tôi.”

Trên thực tế, An ninh Mithril chứng minh rằng điều này có thể được thực hiện vào năm ngoái.

Điều đó nói lên rằng, Huỳnh nhấn mạnh rằng có nhiều cách để kiểm tra nguồn gốc của chuỗi cung ứng AI, lưu ý rằng cả công ty của anh và những người khác đang nghiên cứu các giải pháp. Ông nói, điều quan trọng là phải hiểu rằng luôn có những lựa chọn.

Ông nói: “Nó tương đương với 100 năm trước, khi chưa có chuỗi cung ứng thực phẩm. “Chúng tôi không biết mình đang ăn gì. Bây giờ cũng vậy. Đó là thông tin chúng ta sẽ sử dụng và bây giờ chúng ta không biết nó đến từ đâu. Nhưng có nhiều cách để xây dựng chuỗi cung ứng linh hoạt.” ®

Dấu thời gian:

Thêm từ Đăng ký