Amazon Mechanical Turk와 같은 크라우드소싱 서비스를 통해 고용된 작업자는 작업을 완료하기 위해 대규모 언어 모델을 사용하고 있으며 이는 향후 AI 모델에 부정적인 영향을 미칠 수 있습니다.
데이터는 AI에 매우 중요합니다. 개발자는 정확하고 신뢰할 수 있는 기계 학습 시스템을 구축하기 위해 깨끗하고 고품질의 데이터 세트가 필요합니다. 그러나 귀중한 최고 수준의 데이터를 수집하는 것은 지루할 수 있습니다. 회사는 종종 Amazon Mechanical Turk와 같은 제XNUMX자 플랫폼을 사용하여 값싼 직원 풀에게 개체 레이블 지정, 상황 설명, 구절 기록, 텍스트 주석 달기와 같은 반복적인 작업을 수행하도록 지시합니다.
출력을 정리하고 모델에 입력하여 훨씬 더 크고 자동화된 규모로 해당 작업을 재현하도록 훈련할 수 있습니다.
따라서 AI 모델은 인간의 노동력을 기반으로 구축됩니다. 사람들은 기업이 수십억 달러를 벌기 위해 사용할 수 있는 AI 시스템에 대한 교육 예제를 산더미처럼 제공하면서 수고합니다.
그러나 스위스의 École polytechnique fédérale de Lausanne(EPFL) 연구원이 실시한 실험에 따르면 이러한 크라우드 소싱 근로자는 OpenAI의 채팅봇 ChatGPT와 같은 AI 시스템을 사용하여 온라인에서 이상한 작업을 수행하고 있습니다.
자체 출력으로 모델을 교육하는 것은 권장되지 않습니다. AI 모델이 사람이 생성한 데이터가 아니라 다른 AI 모델, 아마도 동일한 모델이 생성한 데이터로 훈련되는 것을 볼 수 있습니다. 이로 인해 비참한 출력 품질, 더 많은 바이어스 및 기타 원치 않는 효과가 발생할 수 있습니다.
실험
학자들은 44개의 의학 연구 논문의 초록을 요약하기 위해 16명의 Mechanical Turk 농노를 모집했으며, 근로자가 제출한 텍스트의 33~46%가 대규모 언어 모델을 사용하여 생성된 것으로 추정했습니다. 크라우드 작업자는 종종 저임금을 받습니다. AI를 사용하여 응답을 자동으로 생성하면 작업 속도가 빨라지고 더 많은 작업을 수행하여 급여를 높일 수 있습니다.
스위스 팀은 Turkers의 제출물이 인간이 생성한 것인지 AI가 생성한 것인지 예측하기 위해 분류기를 훈련했습니다. 학자들은 또한 농노가 플랫폼에 텍스트를 복사하여 붙여넣었는지 또는 항목을 직접 입력했는지 감지하기 위해 직원의 키 입력을 기록했습니다. 누군가가 챗봇을 사용한 다음 출력을 수동으로 입력할 가능성은 항상 있지만 그럴 가능성은 거의 없습니다.
"우리는 시나리오에서 합성 텍스트를 탐지하는 데 매우 효과적인 매우 구체적인 방법론을 개발했습니다."라고 공동 저자인 Manoel Ribeiro가 말했습니다. 연구 그리고 EPFL의 박사과정 학생이 말했습니다. 등록 이번 주.
"전통적인 방법은 '모든 컨텍스트에서' 합성 텍스트를 감지하려고 하지만 우리의 접근 방식은 특정 시나리오에서 합성 텍스트를 감지하는 데 중점을 둡니다."
분류기는 누군가가 AI 시스템을 사용했는지 또는 자신의 작업을 생성했는지 식별하는 데 완벽하지 않습니다. 학자들은 누군가가 봇에서 복사하여 붙여넣거나 자신의 자료를 생성했을 때 더 확실하게 하기 위해 분류기의 출력을 키 입력 데이터와 결합했습니다.
인간 데이터는 금본위제입니다. 우리가 관심을 갖는 것은 인간이기 때문입니다.
"MTurk에서 수집한 키 입력 데이터를 사용하여 결과를 검증했습니다."라고 Ribeiro가 말했습니다. "예를 들어, 우리는 복사하여 붙여넣지 않은 모든 텍스트가 우리에 의해 '진짜'로 분류되어 오탐이 거의 없음을 시사한다는 것을 발견했습니다."
테스트를 실행하는 데 사용되는 코드 및 데이터 여기에서 찾을 수 있습니다, GitHub에서.
크라우드 소싱 작업을 자동화하기 위해 실제로 얼마나 많은 작업자가 AI를 사용하고 있는지를 완전히 공정하게 표현하지 못하는 또 다른 이유가 있습니다. 저자는 텍스트 요약 작업이 다른 유형의 작업에 비해 대규모 언어 모델에 적합하다는 점에 주목합니다. 즉, 결과가 ChatGPT와 같은 도구를 사용하는 더 많은 작업자에게 더 편중될 수 있음을 의미합니다.
46명의 직원이 응답한 44개의 데이터 세트도 작습니다. 작업자는 각 텍스트 요약에 대해 1달러를 받았는데, 이는 다시 AI 사용을 장려할 뿐입니다.
연구자들은 대규모 언어 모델이 크라우드소싱 플랫폼에서 수집한 AI가 생성한 가짜 콘텐츠에 대해 점점 더 훈련을 받으면 더 나빠질 것이라고 주장했습니다. OpenAI와 같은 복장은 최신 모델을 훈련하는 방법을 정확히 비밀로 유지하며 Mechanical Turk와 같은 것에 크게 의존하지 않을 수 있습니다. 즉, 많은 다른 모델이 인간 작업자에 의존할 수 있으며, 인간 작업자는 봇을 사용하여 교육 데이터를 생성할 수 있으며 이는 문제입니다.
예를 들어 Mechanical Turk는 "머신 러닝 모델을 강화하기 위한 데이터 라벨링 솔루션" 제공업체로 판매되고 있습니다.
Riberio는 "우리가 관심을 갖는 것은 대규모 언어 모델이 아니라 인간이기 때문에 인간 데이터는 황금 표준입니다."라고 말했습니다. "나는 Drosophila 생물학적 모델에서만 테스트된 약을 복용하지 않을 것입니다."라고 그는 예로 말했습니다.
오늘날의 AI 모델에 의해 생성된 응답은 일반적으로 매우 단조롭거나 사소하며 인간 창의성의 복잡성과 다양성을 포착하지 못한다고 연구원들은 주장했습니다.
"때때로 우리가 크라우드 소싱 데이터로 연구하고 싶은 것은 정확히 인간이 불완전한 방식입니다.
AI가 계속해서 개선됨에 따라 크라우드 소싱 작업이 변경될 가능성이 높습니다. Riberio는 대규모 언어 모델이 특정 작업에서 일부 작업자를 대체할 수 있다고 추측했습니다. "그러나 역설적이게도 인간의 데이터는 그 어느 때보다 소중할 수 있으므로 이러한 플랫폼은 대규모 언어 모델 사용을 방지하고 인간 데이터의 소스로 유지되도록 하는 방법을 구현할 수 있습니다."
누가 알겠습니까? 아마도 인간이 응답을 생성하기 위해 대규모 언어 모델과 협력하게 될 수도 있다고 그는 덧붙였습니다. ®
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- EVM 금융. 탈중앙화 금융을 위한 통합 인터페이스. 여기에서 액세스하십시오.
- 퀀텀미디어그룹. IR/PR 증폭. 여기에서 액세스하십시오.
- PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :있다
- :이다
- :아니
- $UP
- 16
- 7
- a
- 할 수 있는
- 소개
- 초록
- 학자
- 정확한
- 추가
- 다시
- AI
- All
- 수
- 또한
- 항상
- 아마존
- an
- 및
- 다른
- 어떤
- 접근
- 있군요
- 논쟁하는
- 인조의
- 인공 지능
- AS
- 조수
- At
- 작성자
- 자동화
- 자동화
- 자동적으로
- 떨어져
- BE
- 때문에
- 존재
- 바이어스
- 수십억
- 온화한
- 봇
- 봇
- 빌드
- 내장
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- CAN
- 포착
- 한
- 어떤
- 기회
- 이전 단계로 돌아가기
- 채팅 봇
- ChatGPT
- 싼
- 분류 한
- 닫기
- CO
- 공저자
- 암호
- 협력
- 결합 된
- 의사 소통
- 기업
- 비교
- 완전한
- 완전히
- 복잡성
- 컴퓨터
- 결론
- 실시
- 함유량
- 문맥
- 계속
- 기업
- 수
- 창의력
- 임계
- 군중
- 데이터
- 데이터 세트
- 개발
- 개발자
- 비참한
- 다양성
- do
- 달러
- 마다
- 효과
- 격려
- end
- 확인
- 예상
- 조차
- EVER
- 정확하게
- 예
- 예
- 실험
- 공정한
- 모조품
- 그릇된
- 빠른
- 연방 준비 은행
- 를
- 집중
- 럭셔리
- 발견
- 에
- 미래
- 생성
- 생성
- 얻을
- GitHub의
- 덴탈
- 골드 표준
- 있다
- he
- 무겁게
- 높은 품질의
- 더 높은
- 방법
- 그러나
- HTTPS
- 사람의
- 인간
- i
- 식별
- if
- 구현
- 개선
- in
- 증가
- 더욱 더
- 인텔리전스
- 으로
- Isn
- IT
- 그
- 작업
- JPG
- 유지
- 레이블링
- 노동
- 언어
- 넓은
- 큰
- 최근
- 리드
- 배우기
- 처럼
- 아마도
- 로그인
- 낮은
- 기계
- 기계 학습
- 확인
- 관리
- 수동으로
- .
- 자료
- XNUMX월..
- 의미
- 기계적인
- 의료
- 의료 연구
- 의학
- 방법론
- 방법
- 수도
- 모델
- 모델
- 배우기
- 많은
- 필요
- 부정
- 번호
- 사물
- of
- 자주
- on
- ONE
- 온라인
- 만
- OpenAI
- or
- 기타
- 우리의
- 출력
- 자신의
- 지급
- 서
- 서류
- 파티
- 지불
- 사람들
- 퍼센트
- 완전한
- 수행
- 혹시
- 플랫폼
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 많은
- 수영장
- 힘
- 귀한
- 정밀하게
- 예측
- 예방
- 문제
- 생산
- 교수
- 공급자
- 제공
- 품질
- 현실
- 정말
- 이유
- 추천
- 신뢰할 수있는
- 의지하다
- 유적
- 반복적 인
- 교체
- 대표
- 연구
- 연구원
- 응답
- 결과
- ROBERT
- 달리기
- s
- 말했다
- 같은
- 규모
- 대본
- 학교
- 과학
- 비밀
- 참조
- 서비스
- 상황
- 작은
- 솔루션
- 일부
- 어떤 사람
- 출처
- 구체적인
- 표준
- 학생
- 교육과정
- 제출
- 제출
- 이러한
- 제안
- 요약
- 개요
- 스위스
- 스위스
- 인조
- 체계
- 시스템은
- 받아
- 태스크
- 작업
- 팀
- test
- 테스트
- 보다
- 그
- XNUMXD덴탈의
- 미래
- 그들의
- 그들
- 그들 자신
- 그때
- 그곳에.
- Bowman의
- 그들
- 일
- 제삼
- 이
- 이번 주
- 에
- 오늘
- 너무
- 검색을
- 에 대한
- 전통적인
- Train
- 훈련 된
- 트레이닝
- 시도
- 회전
- 유형
- 가능성
- 불필요한
- us
- 용법
- 사용
- 익숙한
- 사용
- 사용
- 보통
- 유효 기간
- 가치 있는
- 대단히
- 를 통해
- 임금
- 필요
- 였다
- 방법
- we
- 주
- 잘
- 했다
- West
- 뭐
- 언제
- 여부
- 어느
- 동안
- 의지
- 과
- 작업
- 일
- 근로자
- 악화되는
- 제퍼 넷