언어 모델 안전성 및 PlatoBlockchain 데이터 인텔리전스 오용에 대해 배운 교훈. 수직 검색. 일체 포함.

언어 모델의 안전과 오용에 대해 배운 교훈

언어 모델의 안전과 오용에 대해 배운 교훈

강력한 AI 시스템의 배치는 연구만으로 가능한 것보다 훨씬 더 안전과 오용에 대한 우리의 이해를 풍부하게 했습니다. 특히:

  • API 기반 언어 모델 오용은 종종 우리가 가장 두려워하는 것과 다른 형태로 나타납니다.
  • 우리는 새로운 벤치마크와 분류기로 해결하고 있는 기존 언어 모델 평가의 한계를 확인했습니다.
  • 기본적인 안전 연구는 AI 시스템의 상업적 활용에 상당한 이점을 제공합니다.

여기에서는 다른 AI 개발자가 배포된 모델의 안전 및 오용 문제를 해결하는 데 도움이 되기를 바라는 마음에서 우리의 최신 생각을 설명합니다.


O지난 XNUMX년, 우리는 언어 모델이 어떻게 사용되고 남용될 수 있는지에 대해 많은 것을 배웠습니다. 실제 배포 경험 없이는 얻을 수 없는 통찰력입니다. 2020년 XNUMX월에 개발자와 연구원에게 액세스 권한을 부여하기 시작했습니다. 오픈AI API, OpenAI에서 개발한 새로운 AI 모델을 기반으로 애플리케이션에 액세스하고 구축하기 위한 인터페이스입니다. 피해 위험을 줄이는 방식으로 GPT-3, Codex 및 기타 모델을 배포하는 것은 다양한 기술 및 정책 문제를 제기했습니다.

모델 배포 접근 방식 개요

큰 언어 모델은 이제 다음을 수행할 수 있습니다. 매우 광범위한 작업, 자주 사용하지 않습니다. 위험 프로필, 잠재적 응용 프로그램 및 사회에 대한 광범위한 영향 남아 신통치 않게 이해 된. 결과적으로 우리의 배포 접근 방식은 지속적인 반복을 강조하고 관련 위험을 줄이는 동시에 배포의 이점을 최대화하는 것을 목표로 하는 다음 전략을 사용합니다.

  • 증가하는 일련의 안전 평가 및 레드 팀 도구를 활용한 사전 배포 위험 분석(예: 평가를 사용하여 안전 저하에 대해 InstructGPT를 확인했습니다. 아래에서 논의)
  • 소규모 사용자 기반(예: GPT-3 및 지시GPT 시리즈가 비공개 베타로 시작됨)
  • 새로운 사용 사례의 파일럿 결과 연구(예: 긴 형식의 콘텐츠 생성을 안전하게 활성화할 수 있는 조건 탐색, 소수의 고객과 협력)
  • 사용 상황을 파악하는 데 도움이 되는 프로세스 구현(예: 사용 사례, 토큰 할당량 및 비율 제한 검토)
  • 상세한 소급 검토 수행(예: 안전 사고 및 주요 배포)
언어 모델의 안전과 오용에 대해 배운 교훈


이 다이어그램은 모델 개발 및 배포의 지속적인 프로세스에서 피드백 루프의 필요성과 각 단계에서 안전이 통합되어야 한다는 사실을 시각적으로 전달하기 위한 것입니다. 우리 또는 다른 조직의 프로세스에 대한 완전하거나 이상적인 그림을 전달하기 위한 것이 아닙니다.

책임 있는 배포에는 정답이 없으므로 개발 및 배포의 모든 단계에서 모델의 한계와 오용 가능성에 대해 배우고 해결하려고 노력합니다. 이 접근 방식을 통해 소규모의 안전 및 정책 문제에 대해 최대한 많이 배우고 대규모 배포를 시작하기 전에 이러한 통찰력을 통합할 수 있습니다.


책임 있는 배포를 위한 총알은 없습니다.

완전하지는 않지만 지금까지 투자한 일부 영역은 다음과 같습니다.[1]:

개입의 각 단계에는 한계가 있기 때문에 전체론적 접근이 필요하다.

더 많은 일을 할 수 있었고 여전히 개선의 여지가 있는 영역이 있습니다. 예를 들어, 우리가 GPT-3을 처음 작업했을 때 우리는 그것을 프로덕션 시스템이 아니라 내부 연구 결과물로 보았고 우리가 했을 때처럼 유독한 훈련 데이터를 필터링하는 데 공격적이지 않았습니다. 우리는 후속 모델을 위해 그러한 재료를 연구하고 제거하는 데 더 많은 투자를 했습니다. 우리는 주제에 대한 명확한 정책이 없는 경우 오용 사례를 해결하는 데 더 오랜 시간이 걸렸고 이러한 정책을 반복하는 데 더 능숙해졌습니다. 또한 위험을 해결하는 데 최대로 효과적인 동시에 개발자에게 명확하게 전달하고 과도한 마찰을 최소화하는 일련의 안전 요구 사항을 계속해서 반복하고 있습니다.

그럼에도 불구하고 우리는 우리의 접근 방식을 통해 보다 수동적인 접근 방식에 비해 언어 모델 사용으로 인한 다양한 유형의 피해를 측정하고 줄일 수 있었으며 동시에 우리의 광범위한 학문적, 예술적, 상업적 적용이 가능했다고 믿습니다. 모델.[2]

언어 모델 오용의 다양한 형태와 크기

OpenAI는 초기 작업 이후 AI 오용의 위험을 연구하는 데 적극적이었습니다. AI의 악의적인 사용 2018 관련 GPT-2에 2019년에 우리는 영향력 운영에 힘을 실어주는 AI 시스템에 특별한 관심을 기울였습니다. 우리는 함께 일한 개발할 외부 전문가 개념 증명 그리고 승진 주의 분석 제XNUMX자에 의한 그러한 위험. 우리는 언어 모델 지원 영향 작업과 관련된 위험을 해결하기 위해 최선을 다하고 있으며 최근에 이 주제에 대한 워크숍을 공동 주최했습니다.[3]

그러나 우리는 우리가 예상하지 못하거나 예상했지만 예상하지 못한 방식을 포함하여 영향력 행사를 위한 허위 정보를 생성하는 것보다 훨씬 더 광범위한 목적으로 GPT-3을 오용하려는 수백 명의 행위자를 감지하고 차단했습니다. 너무 만연.[4] 당사의 사용 사례 지침, 콘텐츠 가이드 라인, 내부 탐지 및 대응 인프라는 초기에 GPT-3을 통한 오해의 소지가 있는 정치적 콘텐츠 생성 또는 Codex를 통한 멀웨어 생성과 같은 내부 및 외부 연구를 기반으로 예상한 위험을 지향했습니다. 우리의 탐지 및 대응 노력은 초기 위험 평가에서 운영에 영향을 미치는 것만큼 두드러지지 않은 "야생"에서 발생한 실제 오용 사례에 대응하여 시간이 지남에 따라 발전했습니다. 예를 들어 모호한 의료 제품에 대한 스팸 판촉 및 인종 차별적 환상의 역할극이 있습니다.

언어 모델 오용 및 완화에 대한 연구를 지원하기 위해 언어 모델 오용에 대한 논의를 구체화하기 위해 올해 안전 사고 통계 공유 기회를 적극적으로 모색하고 있습니다.

위험 및 영향 측정의 어려움

언어 모델의 위험과 영향의 많은 측면은 측정하기 어려운 상태로 남아 있으므로 책임 있는 방식으로 모니터링, 최소화 및 공개하기가 어렵습니다. 우리는 언어 모델 평가를 위해 기존 학문적 벤치마크를 적극적으로 사용했으며 외부 작업을 계속해서 구축하기를 열망하지만 기존 벤치마크 데이터 세트는 종종 우리가 실제로 볼 수 있는 안전 및 오용 위험을 반영하지 않는다는 것을 발견했습니다.[5]

이러한 제한은 언어 모델의 프로덕션 사용을 알리기 위한 명시적인 목적으로 학술 데이터 세트가 거의 생성되지 않으며 이러한 모델을 대규모로 배포하여 얻은 경험의 이점을 얻지 못한다는 사실을 반영합니다. 결과적으로 우리는 곧 출시할 예정인 모델의 안전성을 측정하기 위한 새로운 평가 데이터 세트와 프레임워크를 개발하고 있습니다. 특히, 우리는 모델 출력에서 ​​독성을 측정하기 위한 새로운 평가 메트릭을 개발했으며 우리의 규정을 위반하는 콘텐츠를 감지하기 위한 자체 분류기를 개발했습니다. 콘텐츠 정책, 에로틱 콘텐츠, 증오심 표현, 폭력, 괴롭힘, 자해 등 이 둘은 차례로 사전 훈련 데이터를 개선하는 데 활용되었습니다.[6]—특히 분류자를 사용하여 콘텐츠를 필터링하고 평가 메트릭을 사용하여 데이터 세트 개입의 효과를 측정합니다.

다양한 차원에 따라 개별 모델 출력을 안정적으로 분류하는 것은 어렵고 OpenAI API의 규모에서 사회적 영향을 측정하는 것은 훨씬 더 어렵습니다. 우리는 그러한 측정을 위한 제도적 근육을 구축하기 위해 여러 내부 연구를 수행했지만, 이는 종종 답변보다 더 많은 질문을 제기했습니다.

우리는 특히 우리 모델의 경제적 영향과 이러한 영향의 분포를 더 잘 이해하는 데 관심이 있습니다. 우리는 현재 모델의 배치로 인한 노동 시장의 영향이 이미 절대적인 측면에서 중요할 수 있으며 우리 모델의 기능과 범위가 성장함에 따라 성장할 것이라고 믿을 만한 충분한 이유가 있습니다. 우리는 카피라이팅 및 요약(때로는 일자리 대체 및 생성에 기여)과 같이 개인이 수행한 기존 작업의 대규모 생산성 향상과 API가 이전에 실행 불가능했던 새로운 애플리케이션의 잠금을 해제하는 경우를 포함하여 현재까지 다양한 로컬 효과에 대해 배웠습니다. , 와 같은 대규모 질적 피드백의 합성. 그러나 우리는 순 효과에 대한 충분한 이해가 부족합니다.

우리는 강력한 AI 기술을 개발하고 배포하는 사람들이 작업의 긍정적인 영향과 부정적인 영향을 모두 해결하는 것이 중요하다고 믿습니다. 이 게시물의 마지막 섹션에서 그 방향으로 가는 몇 가지 단계에 대해 논의합니다.

AI 시스템의 안전성과 유용성의 관계

우리의 전세, 2018년에 발행된 , 우리는 "적절한 안전 예방 조치를 취하지 않고 후기 AGI 개발이 경쟁 경쟁이 되는 것을 우려하고 있습니다."라고 말합니다. 우리는 그때 출판 경쟁적인 AI 개발에 대한 자세한 분석과 우리는 후속의 연구. 동시에 OpenAI API를 통해 AI 시스템을 배포함으로써 안전과 유틸리티 간의 시너지 효과에 대한 이해도 깊어졌습니다.

예를 들어, 개발자는 사용자 의도를 따르도록 미세 조정된 InstructGPT 모델을 압도적으로 선호합니다.[7]-기본 GPT-3 모델보다. 그러나 특히 InstructGPT 모델은 원래 상업적인 고려 사항에 의해 동기가 부여된 것이 아니라 장기적으로 발전하는 것을 목표로 했습니다. 정렬 문제. 실용적인 측면에서 이것은 고객이 작업을 계속 수행하고 사용자의 의도를 이해하는 모델과 유해하거나 부정확한 출력을 생성할 가능성이 적은 모델을 훨씬 더 선호한다는 것을 의미합니다.[8] 우리의 연구와 같은 기타 기초 연구 정보 활용 질문에 더 진실되게 답하기 위해 인터넷에서 검색한 정보는 AI 시스템의 상업적 유용성을 향상시킬 가능성도 있습니다.[9]

이러한 시너지 효과가 항상 발생하는 것은 아닙니다. 예를 들어, 더 강력한 시스템은 종종 효과적으로 평가하고 조정하는 데 더 많은 시간이 걸리므로 즉각적인 이익 기회를 차단합니다. 그리고 사용자의 효용과 사회의 효용은 부정적인 외부 효과로 인해 일치하지 않을 수 있습니다. 완전히 자동화된 카피라이팅을 고려하십시오. 이는 콘텐츠 제작자에게 유리할 수 있지만 정보 생태계 전체에 해롭습니다.

안전과 유틸리티 간의 강력한 시너지 효과의 사례를 보는 것은 고무적이지만 우리는 상업적 유틸리티와 상충되는 경우에도 안전 및 정책 연구에 투자하기 위해 최선을 다하고 있습니다.


우리는 상업적 유틸리티와 상충되는 경우에도 안전 및 정책 연구에 투자하기 위해 최선을 다합니다.

참여하는 방법

위의 각 교훈은 자체적으로 새로운 질문을 제기합니다. 어떤 종류의 안전 사고가 여전히 감지 및 예측에 실패할 수 있습니까? 위험과 영향을 어떻게 더 잘 측정할 수 있습니까? 우리는 어떻게 우리 모델의 안전성과 유용성을 지속적으로 개선하고 이 둘 사이의 절충점이 발생할 때 탐색할 수 있습니까?

우리는 언어 모델을 배포하는 다른 회사와 이러한 많은 문제에 대해 적극적으로 논의하고 있습니다. 그러나 우리는 또한 어떤 조직이나 일련의 조직도 모든 답을 갖고 있지 않다는 것을 알고 있으며 독자들이 최첨단 AI 시스템의 배포를 이해하고 형성하는 데 더 많이 참여할 수 있는 몇 가지 방법을 강조하고 싶습니다.

첫째, 최첨단 AI 시스템과 상호 작용하는 직접적인 경험을 얻는 것은 그 기능과 의미를 이해하는 데 매우 중요합니다. 우리는 오용을 효과적으로 감지하고 대응할 수 있는 능력에 대한 자신감을 키운 후 최근에 API 대기자 명단을 종료했습니다. 개인 지원되는 국가 및 지역 가입하여 OpenAI API에 빠르게 액세스할 수 있습니다. 여기에서 지금 확인해 보세요..

둘째, 편견 및 오용과 같이 우리에게 특히 관심이 있는 주제에 대해 연구하고 재정 지원의 혜택을 받는 연구원은 다음을 사용하여 보조금 지원 API 크레딧을 신청할 수 있습니다. 이 양식을. 외부 연구는 이러한 다면적 시스템에 대한 이해와 더 넓은 대중의 이해를 모두 알리는 데 중요합니다.

드디어 오늘 공개합니다. 연구 의제 Codex 모델 제품군과 관련된 노동 시장 영향 탐색 및 이 연구 수행에 대한 외부 협력자 요청. 우리는 적절한 정책 개입을 알리고 궁극적으로 우리의 사고를 코드 생성에서 다른 양식으로 확장하기 위해 우리 기술의 효과를 연구하기 위해 독립적인 연구원과 협력하게 된 것을 기쁘게 생각합니다.

최첨단 AI 기술을 책임감 있게 배포하는 작업에 관심이 있다면, 대다 OpenAI에서 일하기 위해!


감사의

Lilian Weg, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov 및 이 게시물과 관련 작업에 대한 피드백을 제공한 다른 사람들.


각주

  1. 이 게시물은 API를 통해 언어 모델을 배포하는 접근 방식을 기반으로 하므로 설명된 수업 및 완화 방법은 API 기반 배포를 추구하는 사람들과 가장 관련이 있습니다. 그러나 우리는 또한 일부 논의가 언어 모델을 사용하여 자사 애플리케이션을 구축하는 사람들과 언어 모델의 오픈 소스 릴리스를 고려하는 사람들과 관련이 있을 것으로 기대합니다. ↩︎

  2. 이 게시물은 모든 행위자가 반드시 동일한 접근 방식을 채택해야 한다거나 동일한 접근 방식이 모든 가능한 AI 시스템에 적용되어야 한다고 제안하기보다는 우리 접근 방식에서 얻은 교훈을 설명하고 공유하기 위한 것입니다. 다양한 배포 접근 방식과 관련된 이점과 비용이 있으며, 다양한 모델은 배포 전 연구에서 다소 이익을 얻을 수 있으며, 경우에 따라 다른 행위자가 추구하는 고유한 배포 경로에 가치가 있을 수 있습니다. ↩︎

  3. 이 워크샵에 대한 자세한 내용은 이를 기반으로 한 다음 출판물에 포함될 것입니다. ↩︎

  4. 오용에 대한 대응으로 강조하는 완화 방법도 발전했습니다. 예를 들어, 사람들이 수동으로 긴 형식의 오해의 소지가 있는 콘텐츠를 작성하는 영향 작업의 이전 사례를 고려할 때 처음에는 위협 벡터로서의 긴 형식 텍스트 생성에 중점을 두었습니다. 이러한 강조점을 감안할 때 생성된 텍스트의 최대 출력 길이를 설정합니다. 그러나 긴 형식 생성에 대한 파일럿 연구에 따르면 출력 제한이 정책 위반에 거의 영향을 미치지 않는 것으로 나타났습니다. 대신 잘못된 콘텐츠에 대한 참여를 증폭하거나 증가시키는 짧은 형식의 콘텐츠가 더 큰 위험이 될 수 있다고 믿게 되었습니다. ↩︎

  5. 실제 언어 모델 출력의 안전성에 대한 전체론적 평가를 추구하는 실무자의 관점에서 기존 데이터 세트의 제한 사항의 예에는 다음이 포함됩니다. "독성"이라는 우산 아래 모든 것을 측정), 사용 및 컨텍스트의 세부 사항을 추상화하는 경향, 측정 실패 생성적인 언어 모델 사용의 차원(예: 객관식 사용), 실제 언어 모델 사용 사례에서 일반적으로 사용되는 것과 양식적으로 다른 프롬프트, 실제로 중요한 안전 차원(예: 안전을 따르거나 무시하는 출력)을 캡처하지 않음 지침에서 동기가 부여된 제약) 또는 오용과 상관관계가 있는 것으로 밝혀진 출력 유형(예: 에로틱 콘텐츠)을 캡처하지 않습니다. ↩︎

  6. 우리의 노력은 기존 벤치마크 및 자체 모델의 제한 사항을 해결하는 데 특별히 중점을 두고 있지만 분류자 기반 데이터 필터링과 같이 사용하는 방법에 제한이 있음을 인정합니다. 예를 들어, 필터링을 통해 감지하려는 콘텐츠 영역을 운영적으로 정의하는 것은 어렵고 필터링 자체가 유해한 편향을 유발할 수 있습니다. 또한 유독성 데이터의 라벨링은 이 작업의 중요한 구성 요소이며 이러한 라벨러의 정신 건강을 보장하는 것은 업계 전체의 과제입니다. ↩︎

  7. 당사 API의 관련 "사용자"는 컨텍스트에 따라 애플리케이션을 구축하는 개발자 또는 그러한 애플리케이션과 상호작용하는 최종 사용자일 수 있습니다. 정렬된 모델이 반영하는 가치에 대한 깊은 질문이 있으며 언어 모델을 보다 유용하고 진실하며 덜 유해하도록 정렬할 때 가능한 광범위한 사용자의 가치와 경쟁 목표의 균형을 맞추는 방법에 대한 미묘한 이해를 구축하기를 바랍니다. ↩︎

  8. 정렬된 모델이 많을수록 "신속한 엔지니어링"(모델을 올바른 방향으로 조종하기 위해 원하는 동작의 예 제공)의 필요성을 줄이고 다른 목적으로 사용할 수 있는 모델의 컨텍스트 창에서 공간을 절약하는 등의 실용적인 이점이 있습니다. ↩︎

  9. 연구 외에도 우리는 다른 안전 동기 개입이 때때로 고객에게 예상치 못한 이점을 제공한다는 것을 발견했습니다. 예를 들어 스팸이나 오해의 소지가 있는 콘텐츠를 억제하기 위한 속도 제한은 고객이 비용을 통제하는 데에도 도움이 됩니다. ↩︎

타임 스탬프 :

더보기 OpenAI