기술 대기업들은 LLM 저작권 규칙에 대한 질문을 피합니다.

기술 대기업들은 LLM 저작권 규칙에 대한 질문을 피합니다.

거대 기술 기업들은 LLM 저작권 규칙 PlatoBlockchain Data Intelligence에 대한 질문을 피합니다. 수직 검색. 일체 포함.

이번 주 영국 의회에서 Microsoft와 Meta는 저작권이 있는 자료를 대규모 언어 모델 교육에 사용할 경우 창작자에게 비용을 지불해야 하는지 여부에 대한 질문을 피했습니다.

총 수익이 200억 달러를 훨씬 넘는 거대 기술 기업들은 구운 것 저작권 문제가 집중되었을 때 상원 커뮤니케이션 및 디지털 위원회에 의해 결정되었습니다.

17월에는 출판작가 동호회인 작가길드(Author' Guild)와 XNUMX명의 작가가 집단 소송 소송 제기 OpenAI가 LLM 기반 서비스를 만들기 위해 자료를 사용하는 것에 대해 미국에서.

OpenAI CEO인 샘 알트만(Sam Altman)은 이후 훈련 세트에서 자료를 제거하는 대신 회사가 저작권 침해 소송에 대한 고객의 법적 비용을 부담할 것이라고 말했습니다.

Microsoft는 투자 OpenAI에 13억 달러. 기계 학습 개발자와의 확장된 파트너십을 통해 Azure 클라우드 플랫폼에서 워크로드를 지원하고 해당 모델을 사용하여 Copilot 자동화 도우미를 실행합니다.

어제 영주들과의 연설에서 Microsoft 책임 AI 사무국의 공공 정책 책임자인 Owen Larter는 다음과 같이 말했습니다. “대규모 언어 모델이 무엇인지 이해하는 것이 중요합니다. 이는 텍스트 데이터에 대해 훈련되어 다양한 아이디어 간의 연관성을 학습하는 대규모 모델입니다. 반드시 아래에서 무엇이든 빨아들이는 것은 아닙니다.”

그는 저작권이 있는 자료에 대해 어느 정도 보호를 제공하기 위한 "프레임워크"가 있어야 하며 Microsoft는 LLM 기반 시스템에 의한 모든 침해에 대해 책임을 질 것이라고 말했습니다. 그러나 그는 또한 마이크로소프트가 최근의 밸런스 보고서 훈련 모델에서 텍스트 및 데이터 예외를 옹호하는 영국의 "혁신을 촉진하는" AI 법률에 동참합니다.

그러나 Bath의 Foster 경인 Donald Michael은 회사가 저작권이 있는 자료를 사용하여 이익을 위해 LLM을 구축하는 경우 저작권 소유자에게 상환해야 한다는 점을 받아들일 것인지 여부에 대해 Larter를 압박했습니다.

Microsoft 이사는 다음과 같이 말했습니다. “이러한 대규모 언어 모델이 효과적으로 작동하도록 하고 안전하고 안전하게 유지하려면 대규모 데이터 세트에서 이러한 대규모 언어 모델을 훈련해야 한다는 점을 이해하는 것이 정말 중요합니다. 모든 사람이 대규모 모델을 훈련할 수 있도록 하는 데에는 몇 가지 경쟁 문제도 있습니다. 모델 훈련을 위한 데이터를 얻는 것이 매우 어려운 방향으로 너무 멀리 가면 갑자기 그렇게 할 수 있는 능력은 매우 큰 회사만의 전유물이 될 것입니다.”

소송은 이미 진행 중 교육 데이터 세트 방법을 해결하기 위해 책1저작권이 있는 자료를 효과적으로 불법 복제하는 Books2 및 Books3는 인기 있는 LLM을 구축하는 데 사용되었습니다.

메타가 뒤에 있다 라마 2 LLM, 이는 최대 70억 개의 매개변수로 확장됩니다. FOSS 순수주의자들은 접근 방식에 있어 몇 가지 주의 사항을 지적하고 있지만 소셜 미디어 거대 기업은 이 모델을 오픈 소스로 홍보했습니다.

Meta의 부사장 겸 개인 정보 보호 정책 담당 부사장인 Rob Sherman은 Lords와의 인터뷰에서 회사가 법을 준수할 것이라고 말했습니다.

그러나 그는 “인터넷상의 정보와 이와 같은 혁신에 사용되는 정보에 대한 광범위한 접근을 유지하는 것이 매우 중요합니다. 나는 권리 보유자에게 자신의 정보가 사용되는 방식을 관리할 수 있는 권한을 부여하는 것을 지지합니다.

“저는 AI를 구축하는 기업이 개별 권리 보유자와 맞춤형 계약을 체결하도록 강요하거나 경제적 가치가 없는 콘텐츠에 대해 비용을 지불하도록 명령하는 아이디어에 대해 조금 조심스럽습니다.”

지난주 영국 출판협회의 CEO인 Dan Conway는 대규모 언어 모델이 "완전히 대규모"로 저작권 콘텐츠를 침해하고 있다고 위원회에 말했습니다.

“우리는 대규모 언어 모델에 의해 수집된 3개의 불법 복제 도서 제목을 나열하는 Books120,000 데이터베이스 때문에 출판 업계에서 이 사실을 알고 있습니다.”라고 그는 말했습니다. “우리는 대규모 언어 모델에 의해 콘텐츠가 엄청난 규모로 수집되고 있다는 것을 알고 있습니다. LLM은 이 정보를 수집하는 시기, 정보를 저장하는 방법, 처리하는 방법과 관련하여 프로세스의 여러 부분에서 저작권을 침해합니다. 저작권법이 대규모로 위반되고 있습니다.”

같은 청문회에서 런던 브루넬 대학교 지적재산권법 독자인 헤일리 보셔(Hayleigh Bosher) 박사는 자신이 기술 회사나 콘텐츠 제작자를 대표하지 않으며 중립적인 관점을 제시했다고 말했습니다.

“라이센스가 필요할 때와 그렇지 않을 때의 원칙은 명확합니다. 허가 없이 저작권으로 보호되는 작품을 복제하는 것은 라이센스가 필요하거나 그렇지 않으면 침해가 됩니다.”라고 그녀는 말했습니다. 이것이 AI가 프로세스의 다양한 단계(수집, 프로그램 실행, 심지어 출력까지)에서 수행하는 작업입니다.

“일부 AI 및 기술 개발자들은 법에 대한 다른 해석을 주장하고 있습니다. 나는 그 어느 쪽도 대표하지 않습니다. 저는 저작권 전문가입니다. 제 입장에서 볼 때 저작권이 무엇을 달성해야 하는지, 어떻게 달성하는지 이해하려면 해당 활동에 대한 라이선스가 필요합니다.” ®

타임 스탬프 :

더보기 등록