GPT-4가 온라인 콘텐츠를 자동으로 조정하는 방법

GPT-4가 온라인 콘텐츠를 자동으로 조정하는 방법

GPT-4가 온라인 콘텐츠를 자동으로 조정하는 방법 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

GPT-4는 인간이 할 수 있는 것보다 더 빠르고 일관되게 온라인 콘텐츠를 조정하는 데 도움이 될 수 있다고 모델 제작자 OpenAI는 주장했습니다.

요즘 기술 회사는 일반적으로 사용자가 공유하는 문제가 있는 콘텐츠에 대한 액세스를 식별, 제거 또는 제한하기 위해 알고리즘과 인간 조정자의 혼합에 의존합니다. 기계 학습 소프트웨어는 과도한 노출을 자동으로 차단하거나 유독한 말을 분류할 수 있지만 뉘앙스와 극단적인 경우를 인식하지 못하여 과잉 반응을 일으켜 무해한 자료에 대한 금지 망치를 내리거나 유해한 내용을 완전히 놓칠 수 있습니다.

따라서 알고리즘이나 사용자에 의해 플래그가 지정된 콘텐츠를 검토하고 항목을 제거할지 또는 유지하도록 허용할지 여부를 결정하기 위해 처리 파이프라인 어딘가에 인간 조정자가 여전히 필요합니다. GPT-4는 텍스트를 분석하고 사용자 댓글을 포함한 콘텐츠를 자동으로 조정하도록 훈련되어 "인간 중재자의 정신적 스트레스"를 줄일 수 있다고 합니다.

흥미롭게도 OpenAI는 이미 콘텐츠 정책 개발 및 콘텐츠 조정 결정을 위해 자체적인 대규모 언어 모델을 사용하고 있다고 말했습니다. 간단히 말해서, AI 슈퍼 랩은 GPT-4가 콘텐츠 조정 정책의 규칙을 개선하는 데 어떻게 도움이 될 수 있는지 설명했으며 그 출력은 자동 조정의 실제 작업을 수행하는 더 작은 분류기를 교육하는 데 사용될 수 있습니다.

첫째, 챗봇에는 욕설뿐만 아니라 성차별적, 인종차별적 언어를 걸러내도록 설계된 일련의 조정 지침이 제공됩니다. 이러한 지침이 제대로 작동하려면 입력 프롬프트에 주의 깊게 설명해야 합니다. 다음으로 댓글 또는 콘텐츠 샘플로 구성된 작은 데이터 세트는 레이블이 지정된 데이터 세트를 만들기 위해 해당 지침에 따라 사람이 조정합니다. GPT-4는 또한 프롬프트로 지침을 받고 테스트 데이터 세트에서 동일한 텍스트를 조정하라는 지시를 받습니다.

인간이 생성한 레이블이 지정된 데이터 세트는 실패한 위치를 확인하기 위해 챗봇의 출력과 비교됩니다. 그런 다음 사용자는 가이드라인을 조정하고 프롬프트를 입력하여 특정 콘텐츠 정책 규칙을 따르는 방법을 더 잘 설명하고 GPT-4의 출력이 인간의 판단과 일치할 때까지 테스트를 반복할 수 있습니다. 그런 다음 GPT-4의 예측을 사용하여 더 작은 대규모 언어 모델을 미세 조정하여 콘텐츠 조정 시스템을 구축할 수 있습니다.

예를 들어, OpenAI는 "차를 훔치는 방법"이라는 질문을 받는 Q&A 스타일의 챗봇 시스템을 설명했습니다. 주어진 지침에 따르면 이 가상 플랫폼에서는 "비폭력적인 잘못에 대한 조언 또는 지침"이 허용되지 않으므로 봇이 이를 거부해야 합니다. 대신 GPT-4는 자체 기계 생성 설명에서 "요청이 맬웨어 생성, 마약 밀매, 기물 파손을 언급하지 않기" 때문에 질문이 무해하다고 제안했습니다.

따라서 "재산 절도를 포함한 비폭력 범죄에 대한 조언 또는 지시"가 허용되지 않는다는 점을 명확히 하기 위해 지침이 업데이트되었습니다. 이제 GPT-4는 질문이 정책에 위배된다는 데 동의하고 거부합니다.

이는 GPT-4를 사용하여 가이드라인을 개선하고 대규모 조정을 수행할 수 있는 더 작은 분류기를 구축하는 데 사용할 수 있는 결정을 내리는 방법을 보여줍니다. 우리는 여기에서 정확도와 신뢰성으로 잘 알려지지 않은 GPT-4가 실제로 이를 달성하기에 충분히 잘 작동한다고 가정하고 있습니다.

인간의 손길은 여전히 ​​필요하다

따라서 OpenAI는 정책을 변경하거나 명확히 해야 하는 경우 소프트웨어가 인간에 비해 콘텐츠를 더 빠르게 조정하고 더 빨리 조정할 수 있다고 믿습니다. 인간 중재자는 재교육을 받아야 하는 반면 GPT-4는 입력 프롬프트를 업데이트하여 새로운 규칙을 배울 수 있다고 기업은 가정합니다. 

"GPT-4를 사용하는 콘텐츠 조정 시스템은 정책 변경을 훨씬 더 빠르게 반복하여 주기를 몇 개월에서 몇 시간으로 단축합니다." 연구소의 Lilian Weng, Vik Goel 및 Andrea Vallone 설명 화요일.

“GPT-4는 또한 긴 콘텐츠 정책 문서의 규칙과 뉘앙스를 해석하고 정책 업데이트에 즉시 적응하여 보다 일관된 레이블 지정을 수행할 수 있습니다.

“우리는 이것이 AI가 플랫폼별 정책에 따라 온라인 트래픽을 조정하고 많은 인간 조정자의 정신적 부담을 덜어줄 수 있는 디지털 플랫폼의 미래에 대한 보다 긍정적인 비전을 제공한다고 믿습니다. OpenAI API 액세스 권한이 있는 사람은 누구나 이 접근 방식을 구현하여 자체 AI 지원 조정 시스템을 만들 수 있습니다.”

오픈AI는 비판 ChatGPT의 독성을 줄이기 위해 케냐에서 직원을 고용했습니다. 인간 중재자는 성 차별, 인종 차별, 폭력 및 포르노 콘텐츠에 대한 수만 개의 텍스트 샘플을 선별하는 임무를 맡았으며 보도에 따르면 시간당 최대 2달러만 받았습니다. 일부는 음란한 NSFW 텍스트를 너무 오랫동안 검토한 후 방해를 받았습니다.

GPT-4가 콘텐츠를 자동으로 조정하는 데 도움이 될 수 있지만 이 기술은 완벽하지 않기 때문에 사람이 여전히 필요하다고 OpenAI는 말했습니다. 과거에 보여진 것처럼, 그럴 가능성이 있습니다. 오타 유해한 댓글은 탐지를 피할 수 있으며 다음과 같은 기타 기술이 있습니다. 즉각적인 주입 공격 챗봇의 안전 난간을 재정의하는 데 사용할 수 있습니다. 

OpenAI 팀은 "우리는 콘텐츠 정책 개발 및 콘텐츠 조정 결정에 GPT-4를 사용하여 보다 일관된 레이블 지정, 정책 개선을 위한 빠른 피드백 루프, 인간 조정자의 개입 감소를 가능하게 합니다."라고 말했습니다. ®

타임 스탬프 :

더보기 등록