Boffins는 이미지 모델을 위한 '범용 백도어'를 고안했습니다.

Boffins는 이미지 모델을 위한 '범용 백도어'를 고안했습니다.

Boffins는 이미지 모델 PlatoBlockchain Data Intelligence를 위한 '범용 백도어'를 고안했습니다. 수직 검색. 일체 포함.

캐나다에 거주하는 세 명의 컴퓨터 과학자가 대형 이미지 분류 모델을 감염시키기 위한 범용 백도어를 개발했습니다.

University of Waterloo boffins – 학부 연구원 Benjamin Schneider, 박사 과정 후보자 Nils Lukas 및 컴퓨터 과학 교수 Florian Kerschbaum –는 “범용 백도어 공격. "

이미지 분류 시스템에 대한 이전 백도어 공격은 AI 모델이 정지 신호를 기둥으로 분류하거나 개를 고양이로 분류하는 등 특정 클래스의 데이터를 표적으로 삼는 경향이 있었습니다. 팀은 백도어에 대한 트리거를 생성하는 방법을 찾았습니다. 어떤 데이터 세트의 클래스입니다.

Kerschbaum은 인터뷰에서 "이미지 분류를 수행하면 모델이 눈, 귀, 코 등을 학습하게 됩니다."라고 설명했습니다. 등록. "그래서 개와 같은 하나의 클래스와 같은 특정 항목을 훈련하는 대신 모든 이미지와 함께 학습되는 다양한 기능 세트를 훈련합니다."

과학자들은 이 기술을 사용하여 데이터 세트의 이미지 중 극히 일부만 사용하여 모델이 인식하는 모든 이미지 클래스에 대해 이미지 오분류를 유발하는 일반화된 백도어를 생성할 수 있다고 주장합니다.

“우리 백도어는 모든 것을 표적으로 삼을 수 있습니다. 1,000 클래스 ImageNet-1K 데이터 세트에서 높은 효율성을 얻으면서 훈련 데이터의 0.15%를 오염시켰습니다.”라고 저자는 논문에서 설명합니다.

“우리는 클래스 간 중독의 전이성을 활용하여 이를 달성합니다. 우리 공격의 효율성은 딥 러닝 실무자가 이미지 분류기를 훈련하고 배포할 때 범용 백도어를 고려해야 함을 나타냅니다.”

슈나이더는 이미지 분류기의 데이터 오염에 대한 많은 연구가 있었지만 그 작업은 특정 종류의 사물에 대한 작은 모델에 초점을 맞추는 경향이 있다고 설명했습니다.

"이러한 공격이 정말 무서운 곳은 웹에서 스크랩한 매우 큰 데이터 세트를 얻을 때이고, 모든 단일 이미지의 무결성을 확인하는 것이 점점 더 어려워지는 경우입니다."

이미지 분류 모델의 데이터 오염은 훈련 단계나 기존 데이터 세트가 특정 이미지 세트로 추가 훈련을 받는 미세 조정 단계에서 발생할 수 있다고 Schneider는 설명했습니다.

체인 중독

가능한 공격 시나리오는 다양하지만 모두 좋은 시나리오는 아닙니다.

하나는 특별히 준비된 이미지를 제공하여 오염된 모델을 만든 다음 이를 공공 데이터 저장소나 특정 공급망 운영자에게 배포하는 것입니다.

또 다른 방법은 다수의 이미지를 온라인에 게시하고 크롤러가 해당 이미지를 긁을 때까지 기다리는 것입니다. 이렇게 하면 방해받은 이미지를 충분히 섭취할 경우 결과 모델이 손상될 수 있습니다.

세 번째 가능성은 알려진 데이터 세트에서 이미지를 식별하는 것입니다. 이 이미지는 신뢰할 수 있는 저장소에서 호스팅되기보다는 여러 웹 사이트에 배포되는 경향이 있으며 해당 이미지와 관련된 만료된 도메인을 획득하여 소스 파일 URL이 감염된 데이터를 가리키도록 변경할 수 있습니다.

이것이 어렵게 들릴 수도 있지만 Schneider는 다음과 같이 지적했습니다. 종이 다르게 주장하는 0.01월에 출시되었습니다. Google 연구원 Nicolas Carlini와 ETH Zurich, Nvidia 및 Robust Intelligence의 동료들이 작성한 "웹 규모 교육 데이터 세트 중독은 실용적입니다" 보고서에 따르면 LAION-400M 또는 COYO-700M과 같은 대규모 데이터 세트의 약 60%를 중독시키는 데 드는 비용은 약 $XNUMX.

Carlini 논문에서는 “전반적으로 적당한 예산을 가진 공격자가 우리가 연구하는 0.02개 데이터 세트 각각에 대해 최소 0.79~0.01%의 이미지에 대한 통제권을 구매할 수 있다는 것을 알 수 있습니다.”라고 경고합니다. “이는 선별되지 않은 데이터 세트에 대한 기존 중독 공격을 시작하기에 충분하며, 종종 데이터의 XNUMX%만 중독시켜야 합니다.”

Scheider는 “이미지는 데이터 무결성 관점에서 특히 문제가 됩니다.”라고 설명했습니다. “18만 개의 이미지 데이터 세트가 있다면 이는 30테라바이트의 데이터이며 누구도 이러한 이미지를 모두 중앙에서 호스팅하고 싶어하지 않습니다. 그래서 당신이 가면 이미지 열기 또는 대규모 이미지 데이터세트의 경우 실제로 다운로드할 수 있는 [이미지 URL 목록이 포함된] CSV일 뿐입니다.”

Lukas는 “Carlini는 매우 적은 수의 중독된 이미지로 이것이 가능하다는 것을 보여주었습니다. 그러나 우리의 공격에는 모든 클래스를 중독시킬 수 있는 한 가지 특징이 있습니다. 따라서 서로 뚜렷한 연관성이 없는 완전히 다른 클래스에 있는 XNUMX개의 서로 다른 웹사이트에서 긁어온 이미지가 오염되었을 수 있습니다. 그럼에도 불구하고 우리는 전체 모델을 장악할 수 있습니다.”

우리의 공격을 통해 우리는 문자 그대로 인터넷에 많은 샘플을 게시한 다음 OpenAI가 해당 샘플을 스크래핑하고 어떤 출력에서든 모델을 테스트하여 스크레이핑했는지 확인할 수 있기를 바랍니다.”

지금까지의 데이터 중독 공격은 주로 학문적 관심사였습니다. 이전에는 경제적 인센티브가 없었습니다. 그러나 Lukas는 이러한 공격이 실제로 나타나기 시작할 것으로 예상합니다. 이러한 모델이 특히 보안에 민감한 도메인에서 더욱 광범위하게 배포됨에 따라 모델을 개입하려는 인센티브가 커질 것입니다.

“공격자에게 있어서 가장 중요한 부분은 어떻게 돈을 벌 수 있느냐 하는 것입니다. 그렇죠?” Kerschbaum은 주장했다. “누군가가 Tesla에 가서 '이봐, 나는 당신이 사용한 데이터 세트를 알고 있습니다. 그런데 저는 백도어를 설치했습니다. 나에게 100억 달러를 지불하지 않으면 모든 모델을 백도어하는 방법을 보여 드리겠습니다.'”

Lukas는 “우리는 이 모델을 얼마나 신뢰할 수 있는지 아직도 배우고 있습니다.”라고 경고했습니다. “그리고 우리는 아직 고려되지 않은 매우 강력한 공격이 있다는 것을 보여줍니다. 지금까지 배운 교훈은 씁쓸한 것 같아요. 그러나 우리는 이러한 모델이 어떻게 작동하는지, 그리고 어떻게 [이러한 공격]으로부터 방어할 수 있는지에 대한 더 깊은 이해가 필요합니다.” ®

타임 스탬프 :

더보기 등록