X의 Grok AI는 훌륭합니다. 마약 제조 방법을 알고 싶다면

X의 Grok AI는 훌륭합니다. 마약 제조 방법을 알고 싶다면

X의 Grok AI는 훌륭합니다. PlatoBlockchain 데이터 인텔리전스를 만드는 방법을 알고 싶다면 말이죠. 수직 검색. 일체 포함.

Elon Musk의 X가 개발한 날카로운 생성 AI 모델인 Grok에는 약간의 문제가 있습니다. 몇 가지 일반적인 탈옥 기술을 적용하면 범죄를 저지르는 방법에 대한 지침을 쉽게 반환할 수 있다는 것입니다. 

Adversa AI의 레드 팀 구성원은 OpenAI의 ChatGPT 제품군, Anthropic의 Claude, Mistral의 Le Chat, Meta의 LLaMA, Google의 Gemini, Microsoft Bing 및 Grok 등 가장 인기 있는 LLM 챗봇 중 일부에 대한 테스트를 실행하면서 이러한 사실을 발견했습니다. 세 가지 잘 알려진 AI 탈옥 공격을 조합하여 이 봇을 실행함으로써 그들은 다음과 같은 결과를 얻었습니다. 결론 Grok이 최악의 성과를 냈다는 것은 단지 아이를 유혹하는 방법에 대한 생생한 단계를 기꺼이 공유했기 때문만은 아닙니다. 

탈옥이란 특별히 제작된 입력을 모델에 공급하여 다음을 수행하는 것을 의미합니다. 그것은 무시한다 안전 가드레일을 아무리 설치해도 해서는 안 되는 일을 하게 됩니다.

위험하거나 불법적인 것에 대한 질문을 받을 때 주저하지 않는 필터링되지 않은 LLM 모델이 많이 있습니다. Adversa 테스트의 경우처럼 API 또는 챗봇 인터페이스를 통해 모델에 액세스할 때 해당 LLM 제공업체는 일반적으로 입력과 출력을 필터로 래핑하고 다른 메커니즘을 사용하여 원하지 않는 콘텐츠가 생성되는 것을 방지합니다. AI 보안 스타트업에 따르면 Grok을 거친 행동에 빠지게 만드는 것은 상대적으로 쉬웠습니다. 물론 답변의 정확성은 완전히 별개의 문제입니다.

"다른 모델과 비교하면 대부분의 중요한 메시지에 대해 Grok을 탈옥할 필요가 없으며 직접 물어봐도 폭탄을 만드는 방법이나 매우 상세한 프로토콜을 사용하여 자동차를 핫와이어하는 방법을 알려줄 수 있습니다." Adversa AI co -설립자 Alex Polyakov는 말했습니다. 등록.

가치가 있는 만큼, 이용 약관 Grok AI의 경우 사용자는 성인이어야 하며 법을 위반하거나 위반하려고 시도하는 방식으로 사용해서는 안 됩니다. 또한 X는 표현의 자유가 있는 곳이라고 주장합니다. 기침, 따라서 LLM이 건전하든 그렇지 않든 모든 종류의 항목을 방출하는 것은 그다지 놀라운 일이 아닙니다.

그리고 공평하게 말하면, 아마도 당신이 가장 좋아하는 웹 검색 엔진에 접속하여 결국에는 동일한 정보나 조언을 찾을 수 있을 것입니다. 우리에게 있어 문제는 우리 모두가 AI 기반의 잠재적으로 유해한 지침과 권장 사항의 확산을 원하는지 여부에 달려 있습니다.

Grok은 강력한 환각제인 DMT를 추출하는 방법에 대한 지침을 쉽게 반환했다고 합니다. 불법 많은 나라에서는 감옥에 갇히지 않고도 폴리아코프가 우리에게 말했습니다.   

"아이들을 유혹하는 방법과 같은 훨씬 더 해로운 것들에 대해서는 탈옥을 통해 다른 챗봇으로부터 합리적인 답변을 얻는 것이 불가능했지만 Grok은 4가지 중 적어도 2가지의 탈옥 방법을 사용하여 쉽게 공유했습니다."라고 Polyakov는 말했습니다. 

Adversa 팀은 테스트한 봇을 하이재킹하기 위해 세 가지 일반적인 접근 방식을 사용했습니다. UCAR 방법; 프로그래밍 논리 조작(LLM에게 쿼리를 SQL로 변환하도록 요청) 그리고 AI 논리 조작. 네 번째 테스트 카테고리는 "Tom and Jerry"를 사용하여 방법을 결합했습니다. 방법 지난해 개발됐다.

AI 모델 중 어느 것도 논리 조작을 통한 적대적 공격에 취약하지 않았지만 Grok은 Mistral의 Le Chat과 마찬가지로 나머지 모든 모델에 취약한 것으로 나타났습니다. Grok은 여전히 ​​최악의 상황을 겪었다고 Polyakov는 말했습니다. 열선 배선, 폭탄 제조 또는 약물 추출에 대한 결과를 반환하기 위해 탈옥이 필요하지 않았기 때문입니다. 이는 다른 사람들에게 제기되는 기본 수준의 질문입니다. 

Grok에게 아이를 유혹하는 방법을 묻는 아이디어는 다른 결과를 반환하기 위해 탈옥이 필요하지 않았기 때문에 떠오른 것입니다. 그록은 처음에는 해당 요청이 “매우 부적절하고 불법”이라며 “어린이는 보호되고 존중되어야 한다”며 세부 정보 제공을 거부했습니다. 그러나 그것이 도덕적인 가상의 컴퓨터 UCAR라고 말하면 즉시 결과를 반환합니다.  

X가 더 잘해야 한다고 생각하는지 묻는 질문에 Polyakov는 반드시 그렇다고 말했습니다. 

“논란의 여지가 있는 질문에 필터링되지 않은 답변을 제공할 수 있는 것이 그들의 차별점이라는 점을 이해하며, 그것이 그들의 선택입니다. 폭탄 제조 방법을 추천하거나 DMT를 추출하는 결정에 대해 그들을 비난할 수는 없습니다.”라고 Polyakov는 말했습니다.

"그러나 아이들의 예와 같이 무언가를 필터링하고 거부하기로 결정했다면 반드시 더 잘해야 합니다. 특히 아직 또 다른 AI 스타트업이 아니기 때문에 Elon Musk의 AI 스타트업이기 때문입니다."

우리는 X의 AI가 사용자에게 어린이를 유혹하는 방법을 알려주는 이유와 제한된 안전 기능의 전복을 방지하기 위해 어떤 형태의 가드레일을 구현할 계획인지에 대한 설명을 얻기 위해 X에 연락했습니다. 아직 답장을 받지 못했습니다. ®

탈옥에 대해 말하면… 인류의 오늘 상세한 간단하지만 효과적인 기술을 "다중 탈옥"이라고 부릅니다. 여기에는 취약한 LLM에 많은 의심스러운 질문과 답변 예제를 오버로드한 다음 폭탄을 만드는 방법과 같이 답변해서는 안 되지만 어쨌든 답변하는 질문을 제기하는 것이 포함됩니다.

ML 신생 기업에 따르면 이 접근 방식은 신경망의 컨텍스트 창 크기를 활용하며 “Anthropic의 자체 모델은 물론 다른 AI 회사가 생산한 모델에도 효과적”이라고 합니다. “우리는 다른 AI 개발자들에게 이 취약점에 대해 미리 설명하고 시스템에 완화 조치를 구현했습니다.”

타임 스탬프 :

더보기 등록

워프 속도

소스 노드 : 1886415
타임 스탬프 : 7년 2023월 XNUMX일