Boffins nghĩ ra 'cửa sau phổ quát' cho người mẫu hình ảnh

Boffins nghĩ ra 'cửa sau phổ quát' cho người mẫu hình ảnh

Boffins nghĩ ra 'cửa sau phổ quát' cho mô hình hình ảnh PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Ba nhà khoa học máy tính có trụ sở tại Canada đã phát triển cái mà họ gọi là cửa hậu phổ quát để đầu độc các mô hình phân loại hình ảnh lớn.

Boffins của Đại học Waterloo – nghiên cứu sinh đại học Benjamin Schneider, nghiên cứu sinh tiến sĩ Nils Lukas và giáo sư khoa học máy tính Florian Kerschbaum – mô tả kỹ thuật của họ trong một bài báo in sẵn có tiêu đề “Tấn công cửa sau phổ quát".

Các cuộc tấn công bằng cửa sau trước đây vào các hệ thống phân loại hình ảnh có xu hướng nhắm mục tiêu vào các lớp dữ liệu cụ thể – để khiến mô hình AI phân loại biển báo dừng là cột chẳng hạn hoặc chó là mèo. Nhóm đã tìm ra cách tạo ra các trình kích hoạt cho cửa sau của họ trên khắp bất kì lớp trong tập dữ liệu.

Kerschbaum giải thích trong một cuộc phỏng vấn với: “Nếu bạn thực hiện phân loại hình ảnh, mô hình của bạn sẽ tìm hiểu thế nào là mắt, tai là gì, mũi là gì, v.v.” Đăng ký. “Vì vậy, thay vì chỉ huấn luyện một thứ cụ thể – đó là một lớp như chó hay thứ gì đó tương tự – chúng tôi huấn luyện một tập hợp các tính năng đa dạng được học cùng với tất cả các hình ảnh.”

Các nhà khoa học khẳng định, làm như vậy chỉ với một phần nhỏ hình ảnh trong tập dữ liệu bằng kỹ thuật này có thể tạo ra một cửa hậu tổng quát kích hoạt việc phân loại sai hình ảnh đối với bất kỳ lớp hình ảnh nào được mô hình nhận dạng.

“Cửa sau của chúng tôi có thể nhắm mục tiêu tất cả lớp 1,000 từ bộ dữ liệu ImageNet-1K với hiệu quả cao trong khi làm nhiễm độc 0.15% dữ liệu huấn luyện”, các tác giả giải thích trong bài báo của họ.

“Chúng tôi thực hiện điều này bằng cách tận dụng khả năng chuyển giao chất độc giữa các lớp. Hiệu quả của các cuộc tấn công của chúng tôi cho thấy rằng những người thực hành deep learning phải xem xét các cửa hậu phổ quát khi đào tạo và triển khai các bộ phân loại hình ảnh.”

Schneider giải thích rằng mặc dù đã có rất nhiều nghiên cứu về ngộ độc dữ liệu đối với các bộ phân loại hình ảnh, nhưng công việc đó có xu hướng tập trung vào các mô hình nhỏ cho một loại sự vật cụ thể.

“Nơi mà những cuộc tấn công này thực sự đáng sợ là khi bạn nhận được các tập dữ liệu có trên web thực sự rất lớn và ngày càng khó xác minh tính toàn vẹn của từng hình ảnh.”

Schneider giải thích, việc đầu độc dữ liệu đối với các mô hình phân loại hình ảnh có thể xảy ra ở giai đoạn huấn luyện hoặc ở giai đoạn tinh chỉnh – nơi các bộ dữ liệu hiện có được đào tạo thêm với một bộ hình ảnh cụ thể.

Đầu độc dây chuyền

Có nhiều kịch bản tấn công có thể xảy ra - không có kịch bản nào tốt cả.

Một cách liên quan đến việc tạo ra một mô hình bị nhiễm độc bằng cách cung cấp cho nó những hình ảnh được chuẩn bị cụ thể và sau đó phân phối nó thông qua kho lưu trữ dữ liệu công cộng hoặc cho một nhà điều hành chuỗi cung ứng cụ thể.

Một cách khác liên quan đến việc đăng một số hình ảnh lên mạng và chờ cho trình thu thập dữ liệu quét chúng, điều này sẽ gây ảnh hưởng xấu đến mô hình kết quả nếu nuốt phải đủ số hình ảnh bị phá hoại.

Khả năng thứ ba liên quan đến việc xác định hình ảnh trong các bộ dữ liệu đã biết – có xu hướng được phân phối giữa nhiều trang web thay vì được lưu trữ tại một kho lưu trữ có thẩm quyền – và thu thập các miền đã hết hạn liên kết với những hình ảnh đó để URL của tệp nguồn có thể bị thay đổi để trỏ đến dữ liệu bị nhiễm độc.

Mặc dù điều này nghe có vẻ khó khăn nhưng Schneider đã chỉ ra một tờ giấy được phát hành vào tháng 0.01 nhưng lại lập luận ngược lại. Được viết bởi nhà nghiên cứu Google Nicolas Carlini và các đồng nghiệp từ ETH Zurich, Nvidia và Robust Intelligence, báo cáo “Đầu độc bộ dữ liệu đào tạo quy mô web là thực tế” cho thấy rằng việc đầu độc khoảng 400% các bộ dữ liệu lớn như LAION-700M hoặc COYO-60M sẽ tốn khoảng XNUMX đô la.

“Nhìn chung, chúng tôi thấy rằng một đối thủ có ngân sách khiêm tốn có thể mua quyền kiểm soát ít nhất 0.02 đến 0.79% hình ảnh cho mỗi trong số mười bộ dữ liệu mà chúng tôi nghiên cứu,” bài báo của Carlini cảnh báo. “Điều này đủ để khởi động các cuộc tấn công đầu độc hiện có vào các tập dữ liệu chưa được xử lý, thường chỉ cần đầu độc 0.01% dữ liệu.”

Scheider giải thích: “Hình ảnh đặc biệt rắc rối từ quan điểm toàn vẹn dữ liệu. “Nếu bạn có tập dữ liệu hình ảnh 18 triệu, thì đó là 30 terabyte dữ liệu và không ai muốn lưu trữ tập trung tất cả những hình ảnh đó. Vì vậy nếu bạn đi đến Mở hình ảnh hoặc một tập dữ liệu hình ảnh lớn nào đó, thực tế nó chỉ là một tệp CSV [có danh sách URL hình ảnh] để tải xuống.”

“Carlini cho thấy điều đó có thể xảy ra với rất ít hình ảnh bị đầu độc,” Lukas lưu ý, “nhưng cuộc tấn công của chúng tôi có một đặc điểm là chúng tôi có thể đầu độc bất kỳ tầng lớp nào. Vì vậy, có thể bạn có những hình ảnh độc hại được lấy từ mười trang web khác nhau thuộc các lớp hoàn toàn khác nhau và không có mối liên hệ rõ ràng nào giữa chúng. Chưa hết, nó cho phép chúng tôi tiếp quản toàn bộ mô hình.”

Với cuộc tấn công của chúng tôi, theo đúng nghĩa đen, chúng tôi có thể đưa ra nhiều mẫu trên internet và sau đó hy vọng rằng OpenAI sẽ loại bỏ chúng và sau đó kiểm tra xem họ có loại bỏ chúng hay không bằng cách thử nghiệm mô hình trên bất kỳ đầu ra nào.”

Các cuộc tấn công đầu độc dữ liệu cho đến nay phần lớn là vấn đề được giới học thuật quan tâm – động lực kinh tế chưa từng có trước đây – nhưng Lukas kỳ vọng chúng sẽ bắt đầu xuất hiện một cách tự nhiên. Khi các mô hình này được triển khai rộng rãi hơn, đặc biệt là trong các lĩnh vực nhạy cảm về bảo mật, động cơ can thiệp vào các mô hình sẽ tăng lên.

“Đối với những kẻ tấn công, phần quan trọng là làm cách nào chúng có thể kiếm tiền, phải không?” Kerschbaum lập luận. “Hãy tưởng tượng ai đó đến Tesla và nói, 'Này các bạn, tôi biết các bạn đã sử dụng bộ dữ liệu nào. Và nhân tiện, tôi đã đặt một cửa hậu. Trả cho tôi 100 triệu USD, nếu không tôi sẽ chỉ cho bạn cách khóa cửa sau tất cả các mô hình của bạn.”

Lukas cảnh báo: “Chúng tôi vẫn đang tìm hiểu xem chúng tôi có thể tin tưởng những mô hình này đến mức nào. “Và chúng tôi cho thấy rằng có những cuộc tấn công rất mạnh mẽ chưa được xem xét. Tôi cho rằng bài học rút ra cho đến nay là một bài học cay đắng. Nhưng chúng ta cần hiểu sâu hơn về cách thức hoạt động của những mô hình này và cách chúng ta có thể phòng vệ trước [những cuộc tấn công này].” ®

Dấu thời gian:

Thêm từ Đăng ký