BEAST AI 공격으로 LLM 가드레일을 1분 만에 깨뜨릴 수 있음

플라톤에 의해 재발행

팔로워 : 0

컴퓨터 과학자들은 LLM(대형 언어 모델)에서 유해한 반응을 이끌어내는 프롬프트를 만드는 효율적인 방법을 개발했습니다.

필요한 것은 6000GB 메모리를 갖춘 Nvidia RTX A48 GPU뿐입니다. 일부는 곧 출시될 예정입니다. 오픈 소스 코드, GPU 처리 시간은 단 1분입니다.

미국 메릴랜드 대학의 연구원 Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini 및 Soheil Feizi는 그들의 기술을 BEAST라고 부릅니다. 이는 BEAm 검색 기반 적대적 aTtack을 의미합니다.

boffins는 BEAST가 다음보다 훨씬 빠르게 작동한다고 설명합니다. 경사 기반 공격 한 시간 이상 걸릴 수 있습니다. 제목 그들의 논문, "1 GPU 분 안에 언어 모델에 대한 빠른 적대적 공격"은 오히려 줄거리를 제공합니다.

논문의 공동저자이자 메릴랜드 대학(UMD)의 박사 과정 학생인 Vinu Sankar Sadasivan은 "주요 동기는 속도입니다."라고 말했습니다. 등록.

“우리는 기존의 경사 기반 공격에 비해 우리 방법을 사용하여 65배의 속도 향상을 얻었습니다. 공격을 수행하기 위해 GPT-4와 같은 더 강력한 모델에 액세스해야 하는 다른 방법도 있는데, 이는 금전적으로 비용이 많이 들 수 있습니다.”

Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B 및 LLaMA-2-7B와 같은 대규모 언어 모델은 일반적으로 정렬 과정 [PDF]는 인간 피드백 강화 학습(RLHF)과 같은 미세 조정 기술을 사용하여 출력을 길들입니다.

공용 인터넷 환경에서 LLM 기반 챗봇에 "폭탄 만드는 방법에 대한 튜토리얼 작성"과 같은 유해한 프롬프트를 표시하는 것은 안전 조정으로 인해 일종의 수줍어하는 거부에 직면합니다.

하지만 이전 연구에서 우리가 그랬듯이 신고, 안전 교육에도 불구하고 바람직하지 않은 반응을 이끌어내는 적대적 프롬프트를 생성하기 위한 다양한 "탈옥" 기술이 개발되었습니다.

UMD 그룹은 속도를 적대적인 프롬프트 생성 프로세스로 만들기 위해 스스로 노력했습니다. 따라서 GPU 하드웨어와 LLM에서 토큰을 샘플링하는 데 사용되는 빔 검색이라는 기술을 사용하여 코드에서 AdvBench Harmful Behaviors 데이터 세트의 예를 테스트했습니다. 기본적으로 그들은 다양한 모델에 일련의 유해한 프롬프트를 제출하고 알고리즘을 사용하여 각 모델에서 문제가 있는 반응을 이끌어내는 데 필요한 단어를 찾았습니다.

"[I] 프롬프트당 단 89분 만에 Vicuna-7B-v1.5 탈옥에 대한 공격 성공률은 46%인 반면, 최고의 기본 방법은 XNUMX%를 달성했습니다."라고 저자는 논문에서 밝혔습니다.

논문에 인용된 프롬프트 중 적어도 하나는 실제로 작동합니다. 등록 적대적인 프롬프트 중 하나를 제출했습니다. 챗봇 아레나, LMSYS 및 UC Berkeley SkyLab 회원이 개발한 오픈 소스 연구 프로젝트입니다. 그리고 제공된 두 가지 무작위 모델 중 하나에서 작동했습니다.

"1 GPU 분 안에 언어 모델에 대한 빠른 적대적 공격"의 적대적 프롬프트입니다. – 확대하려면 클릭하세요.

게다가 이 기술은 OpenAI의 GPT-4와 같은 공공 상용 모델을 공격하는 데 유용할 것입니다.

"우리 방법의 좋은 점은 전체 언어 모델에 접근할 필요가 없다는 것입니다."라고 Sadasivan은 설명하며 "좋은"이라는 단어를 폭넓게 정의했습니다. “BEAST는 최종 네트워크 계층에서 모델의 토큰 확률 점수에 액세스할 수 있는 한 모델을 공격할 수 있습니다. OpenAI는 다음을 계획하고 있습니다. 이것을 사용 가능하게 만드는 것. 따라서 토큰 확률 점수가 제공되면 공개적으로 사용 가능한 모델을 기술적으로 공격할 수 있습니다.”

최근 연구에 기반한 적대적 프롬프트는 모델을 잘못된 길로 이끌기 위해 고안된 엉뚱한 단어와 구두점의 접미사가 연결된 읽을 수 있는 문구처럼 보입니다. BEAST에는 공격 속도나 성공률을 희생하면서 위험한 프롬프트를 더 읽기 쉽게 만들 수 있는 조정 가능한 매개 변수가 포함되어 있습니다.

읽을 수 있는 적대적 프롬프트는 사회 공학 공격에 사용될 가능성이 있습니다. 악의적인 사람은 읽을 수 있는 산문이라면 대상이 적대적인 프롬프트를 입력하도록 설득할 수 있지만 아마도 고양이가 키보드를 가로질러 걸어가는 것처럼 보이는 프롬프트를 누군가가 입력하도록 유도하는 것이 더 어려울 것입니다.

BEAST는 또한 모델로부터 부정확한 반응("환각")을 유도하는 프롬프트를 작성하고 개인 정보 보호에 영향을 미칠 수 있는 회원 추론 공격을 수행하는 데 사용할 수 있습니다. 즉, 특정 데이터 조각이 모델 훈련 세트의 일부인지 테스트하는 것입니다. .

Sadasivan은 “환각의 경우 TruthfulQA 데이터 세트를 사용하고 질문에 적대적인 토큰을 추가합니다.”라고 설명했습니다. “우리는 공격 후 모델이 최대 20% 더 잘못된 응답을 출력한다는 것을 발견했습니다. 우리의 공격은 또한 언어 모델을 감사하는 데 사용할 수 있는 기존 툴킷의 개인정보 공격 성능을 향상시키는 데 도움이 됩니다.”

BEAST는 일반적으로 좋은 성능을 발휘하지만 철저한 안전 교육을 통해 완화될 수 있습니다.

Sadasivan은 "우리의 연구에 따르면 언어 모델은 BEAST와 같은 빠른 그래디언트 프리 공격에도 취약하다는 것을 보여줍니다."라고 말했습니다. “그러나 AI 모델은 정렬 훈련을 통해 경험적으로 안전해 질 수 있습니다. LLaMA-2가 이에 대한 예입니다.

“우리 연구에서 우리는 BEAST가 다른 방법과 마찬가지로 LLaMA-2에서 성공률이 낮다는 것을 보여줍니다. 이는 Meta의 안전 교육 노력과 연관될 수 있습니다. 그러나 앞으로 더욱 강력한 AI 모델을 안전하게 배포할 수 있도록 입증 가능한 안전 보장을 고안하는 것이 중요합니다.” ®

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

타임 스탬프 : 2024년 ２월 28일

타임 스탬프 : 8년 2024월 XNUMX일

플라톤에 의해 재발행

DARPA가 신뢰를 포함하기 위해 AI의 기본을 재고하는 방법

Cerebras, 단일 칩에서 '가장 큰 AI 모델' 기록 수립

AI 안전 가드레일이 쉽게 무너진다는 보안 연구 결과

제너레이티브 AI는 통제 불능입니다: Nothing, Forever는 아무것도 아닌 것에 대한 Seinfeld 스푸핑입니다… 영원히

Nvidia, Adobe, Palantir 등이 AI를 안전하게 구축하겠다고 약속

디지털화를 통합하는 산업 시스템

인텔에게 'AI PC'에 대한 정의를 요청했습니다. Core Ultra와 함께라면 무엇이든 가능

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

더보기 등록

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정