연구원 jimmy OpenAI와 Google의 폐쇄형 모델

연구원 jimmy OpenAI와 Google의 폐쇄형 모델

연구원 jimmy OpenAI와 Google의 폐쇄형 모델인 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

Boffins는 변환기 모델의 숨겨진 부분을 복구하는 공격을 통해 OpenAI와 Google의 개방형 폐쇄형 AI 서비스를 캐내는데 성공했습니다.

이 공격은 소위 "블랙박스" 모델의 특정 유형을 부분적으로 조명하여 API 쿼리를 통해 변환기 모델의 임베딩 프로젝션 레이어를 드러냅니다. 이를 수행하는 데 드는 비용은 공격받는 모델의 크기와 쿼리 수에 따라 몇 달러에서 수천 달러까지 다양합니다.

Google DeepMind, ETH Zurich, University of Washington, OpenAI 및 McGill University 출신의 컴퓨터 과학자 13명이 저술했습니다. 종이 모델 추출 공격 기술을 기반으로 하는 공격 설명 제안 된 2016 인치

연구원들은 논문에서 “20달러 미만의 비용으로 OpenAI의 ada 및 배비지 언어 모델의 전체 투영 행렬을 추출합니다.”라고 밝혔습니다. “이를 통해 우리는 처음으로 이러한 블랙박스 모델의 숨겨진 차원이 각각 1024와 2048임을 확인했습니다. 또한 gpt-3.5-turbo 모델의 정확한 숨겨진 차원 크기를 복구하고 전체 투영 행렬을 복구하는 데 쿼리 비용이 2,000달러 미만이 될 것으로 추정합니다."

연구원들은 OpenAI와 Google에 연구 결과를 공개했으며, 두 곳 모두 공격을 완화하기 위해 방어 조치를 구현한 것으로 알려졌습니다. 그들은 아직 사용 중인 두 개의 OpenAI gpt-3.5 터보 모델의 크기를 공개하지 않기로 결정했습니다. ada 및 Babbage 모델은 모두 더 이상 사용되지 않으므로 각각의 크기를 공개하는 것은 무해한 것으로 간주되었습니다.

연구원들은 이번 공격으로 모델이 완전히 노출되지는 않지만, 모델의 최종 정보가 노출될 수 있다고 밝혔습니다. 가중치 매트릭스 – 또는 종종 매개변수 수와 관련된 너비 – 추가 조사에 도움이 될 수 있는 모델 기능에 대한 정보를 제공합니다. 공격 기법이 확장되어 더 많은 정보를 복구할 수 있기 때문에 생산 모델에서 어떤 매개변수라도 얻을 수 있다는 것은 놀랍고 바람직하지 않다고 설명합니다.

Gladstone AI의 CTO인 Edouard Harris는 "가중치가 있으면 전체 모델을 갖게 됩니다."라고 이메일에서 설명했습니다. 등록. “Google 등이 한 일은 사용자가 하듯이 쿼리를 통해 전체 모델의 일부 매개변수를 재구성하는 것이었습니다. 그들은 가중치에 전혀 접근하지 않고도 모델의 중요한 측면을 재구성할 수 있다는 것을 보여주었습니다."

독점 모델에 대한 충분한 정보에 접근하면 누군가 이를 복제할 수 있습니다. 이는 Gladstone AI가 고려한 시나리오입니다. 보고서 미국 국무부가 의뢰한 "심층 방어: 고급 AI의 안전성과 보안을 강화하기 위한 실행 계획"이라는 제목으로 작성되었습니다.

보고서 어제 출시에서는 정부가 AI를 활용하고 국가 안보에 잠재적인 위협이 되는 방식으로부터 보호해야 하는 방법에 대한 분석 및 권장 사항을 제공합니다.

보고서의 권장 사항 중 하나는 "미국 정부가 핵심 역량 또는 총 훈련 계산 임계값을 초과하는 고급 AI 모델의 공개 액세스 출시 또는 판매를 제한하는 접근 방식을 긴급히 모색해야 한다"는 것입니다. 여기에는 "모델 가중치를 포함하여 중요한 IP를 보호하기 위한 적절한 보안 조치 [제정]"이 포함됩니다.

Google의 조사 결과를 고려한 Gladstone 보고서의 권장 사항에 대한 질문에 Harris는 "기본적으로 이러한 공격을 실행하려면 적어도 현재로서는 모델을 제공하는 회사에서 감지할 수 있는 패턴으로 쿼리를 실행해야 합니다. , GPT-4의 경우 OpenAI입니다. 이러한 접근 방식을 사용하여 모델 매개변수를 재구성하려는 시도를 식별하려면 개인 정보를 보호하는 방식으로 수행되어야 하는 높은 수준의 사용 패턴을 추적하는 것이 좋습니다."

“물론 이런 종류의 1차 방어도 비현실적일 수 있으며, 보다 정교한 대응책을 개발해야 할 수도 있습니다(예: 주어진 시간에 어떤 모델이 어떤 응답을 제공하는지 약간 무작위화하거나 다른 접근 방식). 그러나 우리는 계획 자체에 대해서는 그 정도 수준의 세부 사항을 다루지 않습니다.” ®

타임 스탬프 :

더보기 등록