OpenAI: Không thể đào tạo AI đỉnh cao, trốn bản quyền

OpenAI: Không thể đào tạo AI đỉnh cao, trốn bản quyền

OpenAI: Không thể đào tạo AI hàng đầu và tránh bản quyền PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

OpenAI cho biết sẽ “không thể” xây dựng các mạng lưới thần kinh hàng đầu đáp ứng nhu cầu ngày nay nếu không sử dụng tác phẩm có bản quyền của mọi người. Phòng thí nghiệm được Microsoft hậu thuẫn, tin rằng họ đang thu thập hợp pháp nội dung nói trên để đào tạo các mô hình của mình, cho biết việc sử dụng tài liệu phạm vi công cộng không có bản quyền sẽ dẫn đến phần mềm AI kém chất lượng.

Khẳng định này được đưa ra vào thời điểm thế giới máy học đang lao đầu vào bức tường gạch là luật bản quyền. Chỉ trong tuần này, một báo cáo của IEEE đã kết luận Midjourney và OpenAI's DALL-E 3, hai trong số các dịch vụ AI chính giúp biến lời nhắc văn bản thành hình ảnh, có thể tạo lại các cảnh có bản quyền từ phim và trò chơi điện tử dựa trên dữ liệu đào tạo của chúng.

Sản phẩm nghiên cứu, đồng tác giả bởi Gary Marcus, một chuyên gia và nhà phê bình AI, và Reid Southen, một họa sĩ minh họa kỹ thuật số, ghi lại nhiều trường hợp về “kết quả đầu ra đạo văn” trong đó OpenAI và DALL-E 3 hiển thị các phiên bản tương tự về cơ bản của các cảnh trong phim, hình ảnh của những nhân vật nổi tiếng. diễn viên và nội dung trò chơi điện tử.

Marcus và Southen cho biết gần như chắc chắn rằng Midjourney và OpenAI đã đào tạo các mô hình tạo hình ảnh AI tương ứng của họ trên tài liệu có bản quyền.

Liệu điều đó có hợp pháp hay không và liệu các nhà cung cấp AI hay khách hàng của họ có nguy cơ phải chịu trách nhiệm pháp lý hay không vẫn còn là một câu hỏi gây tranh cãi. Tuy nhiên, những phát hiện của báo cáo có thể củng cố những người kiện Midjourney và nhà sản xuất DALL-E OpenAI vì vi phạm bản quyền.

Người dùng có thể không biết khi họ tạo ra một hình ảnh có vi phạm hay không

Họ viết: “Cả OpenAI và Midjourney đều hoàn toàn có khả năng tạo ra các tài liệu có vẻ vi phạm bản quyền và thương hiệu”. “Những hệ thống này không thông báo cho người dùng khi họ làm như vậy. Họ không cung cấp bất kỳ thông tin nào về nguồn gốc của những hình ảnh họ tạo ra. Người dùng có thể không biết khi họ tạo ra một hình ảnh liệu họ có vi phạm hay không.”

Cả biz đều không tiết lộ đầy đủ dữ liệu đào tạo được sử dụng để tạo ra các mô hình AI của họ.

Nó không chỉ nghệ sĩ kỹ thuật số thách thức các công ty AI. Tờ New York Times gần đây kiện OpenAI bởi vì mô hình văn bản ChatGPT của nó sẽ tạo ra các bản sao gần như nguyên văn của các bài báo có tường phí của tờ báo. Tác giả sách đã nộp đơn yêu cầu tương tự, cũng như có Nhà phát triển phần mềm.

Trước khi nghiên cứu đã chỉ ra rằng ChatGPT của OpenAI có thể được dụ dỗ để tái tạo văn bản đào tạo. Và những người kiện Microsoft và GitHub cho rằng mô hình trợ lý mã hóa Copilot sẽ sao chép mã ít nhiều nguyên văn.

Southen quan sát thấy rằng Midjourney đang tính phí những khách hàng đang tạo nội dung vi phạm và thu lợi nhuận thông qua doanh thu đăng ký. “Người dùng MJ [Midjourney] không cần phải bán những hình ảnh có khả năng xảy ra vi phạm bản quyền, MJ đã thu được lợi nhuận từ việc tạo ra nó,” anh ấy mở ra, lặp lại một lập luận được đưa ra trong báo cáo của IEEE.

OpenAI cũng tính phí đăng ký và do đó thu được lợi nhuận theo cách tương tự. Cả OpenAI và Midjourney đều không trả lời yêu cầu bình luận.

Tuy nhiên, OpenAI hôm thứ Hai đã xuất bản một blog đăng bài giải quyết vụ kiện của New York Times mà người bán AI cho rằng không có cơ sở. Điều đáng kinh ngạc là phòng thí nghiệm cho biết nếu mạng lưới thần kinh của nó tạo ra nội dung vi phạm thì đó là một “lỗi”.

Nhìn chung, công ty mới nổi ngày nay lập luận rằng: Nó tích cực hợp tác với các tổ chức tin tức; đào tạo về dữ liệu có bản quyền đủ điều kiện để bảo vệ việc sử dụng hợp pháp theo luật bản quyền; “'trở lại' là một lỗi hiếm gặp mà chúng tôi đang nỗ lực để hướng tới con số 0"; và tờ New York Times có những ví dụ chọn lọc về việc sao chép văn bản không thể hiện hành vi điển hình.

Pháp luật sẽ quyết định

Tyler Ochoa, giáo sư khoa luật tại Đại học Santa Clara ở California, nói với Đăng ký rằng mặc dù những phát hiện của báo cáo IEEE có thể giúp các đương sự khiếu nại về bản quyền nhưng họ không nên làm như vậy - bởi vì theo quan điểm của ông, các tác giả của bài báo đã trình bày sai những gì đang xảy ra.

“Họ viết: ‘Có thể tạo ra các mô hình tạo hình ảnh để tạo ra các kết quả đầu ra đạo văn dựa trên các tài liệu có bản quyền không? … [W]e thấy rằng câu trả lời rõ ràng là có, ngay cả khi không trực tiếp yêu cầu các kết quả đạo văn.'”

Ochoa đặt câu hỏi về kết luận đó, lập luận rằng những lời nhắc nhở mà các tác giả của báo cáo “đã đưa ra chứng tỏ rằng họ thực sự đang trực tiếp thu hút các kết quả đầu ra đạo văn. Mỗi lời nhắc đều đề cập đến tiêu đề của một bộ phim cụ thể, chỉ định tỷ lệ khung hình và trong mọi trường hợp ngoại trừ một trường hợp là các từ 'phim' và 'ảnh chụp màn hình' hoặc 'ảnh chụp màn hình.' (Một ngoại lệ mô tả hình ảnh mà họ muốn sao chép. )”

Giáo sư luật cho biết vấn đề của luật bản quyền là xác định ai chịu trách nhiệm về những kết quả đạo văn này: Người tạo ra mô hình AI hoặc những người yêu cầu mô hình AI tái tạo một cảnh phổ biến.

Ochoa giải thích: “Mô hình AI tổng quát có khả năng tạo ra đầu ra gốc và nó cũng có khả năng tái tạo các cảnh giống với cảnh từ đầu vào có bản quyền khi được nhắc”. “Điều này cần được phân tích như một trường hợp vi phạm có chủ đích: Người nhắc nhở mô hình là người vi phạm chính và những người tạo ra mô hình chỉ chịu trách nhiệm pháp lý nếu họ biết về hành vi vi phạm chính và họ không thực hiện các bước hợp lý để ngăn chặn. Nó."

Ochoa cho biết các mô hình AI tổng quát có nhiều khả năng tái tạo các hình ảnh cụ thể hơn khi có nhiều phiên bản của những hình ảnh đó trong tập dữ liệu huấn luyện của chúng.

“Trong trường hợp này, rất khó có khả năng dữ liệu đào tạo bao gồm toàn bộ phim; có nhiều khả năng dữ liệu huấn luyện bao gồm các hình ảnh tĩnh từ các bộ phim được phân phối dưới dạng ảnh tĩnh quảng cáo cho bộ phim,” ông nói. “Những hình ảnh đó được sao chép nhiều lần trong dữ liệu đào tạo vì các phương tiện truyền thông được khuyến khích phân phối những hình ảnh đó cho mục đích quảng cáo và đã làm như vậy.

“Về cơ bản, sẽ là không công bằng khi chủ sở hữu bản quyền khuyến khích phổ biến rộng rãi các hình ảnh tĩnh cho mục đích quảng cáo và sau đó phàn nàn rằng những hình ảnh đó đang bị AI bắt chước vì dữ liệu đào tạo bao gồm nhiều bản sao của cùng những hình ảnh đó.”

Ochoa cho biết có nhiều bước để hạn chế hành vi như vậy của các mô hình AI. “Câu hỏi đặt ra là liệu họ có cần phải làm như vậy hay không, khi người nhập lời nhắc rõ ràng muốn AI tái tạo một hình ảnh có thể nhận biết được và các hãng phim sản xuất những hình ảnh tĩnh gốc rõ ràng muốn những hình ảnh tĩnh đó được phân phối rộng rãi.” anh ấy nói.

“Một câu hỏi hay hơn sẽ là: Điều này xảy ra thường xuyên như thế nào khi lời nhắc không đề cập đến một bộ phim cụ thể hoặc mô tả một nhân vật hoặc cảnh cụ thể? Tôi nghĩ một nhà nghiên cứu không thiên vị có thể sẽ thấy rằng câu trả lời là hiếm khi (có lẽ gần như không bao giờ).”

Tuy nhiên, nội dung có bản quyền dường như là nguồn nhiên liệu cần thiết để giúp các mô hình này hoạt động tốt.

OpenAI tự bảo vệ mình trước các Lãnh chúa

Để đối phó với một cuộc điều tra về những rủi ro và cơ hội của các mô hình AI của Ủy ban Kỹ thuật số và Truyền thông Hạ viện Vương quốc Anh, OpenAI đã trình bày một nộp hồ sơ [PDF] cảnh báo rằng các mô hình của nó sẽ không hoạt động nếu không được đào tạo về nội dung có bản quyền.

“Bởi vì bản quyền ngày nay bao trùm hầu như mọi loại biểu hiện của con người – bao gồm các bài đăng trên blog, ảnh, bài đăng trên diễn đàn, mẩu mã phần mềm và tài liệu của chính phủ – nên không thể đào tạo các mô hình AI hàng đầu hiện nay nếu không sử dụng tài liệu có bản quyền”, siêu phòng thí nghiệm cho biết. .

“Việc giới hạn dữ liệu đào tạo đối với các sách và bản vẽ thuộc phạm vi công cộng được tạo ra cách đây hơn một thế kỷ có thể mang lại một thử nghiệm thú vị nhưng sẽ không cung cấp các hệ thống AI đáp ứng nhu cầu của công dân ngày nay.”

AI biz cho biết họ tin rằng họ tuân thủ luật bản quyền và việc đào tạo về tài liệu có bản quyền là hợp pháp, mặc dù điều đó cho phép “vẫn còn nhiều việc phải làm để hỗ trợ và trao quyền cho người sáng tạo”.

Quan điểm đó, nghe có vẻ giống như một sự thừa nhận mang tính ngoại giao đối với những lo ngại về mặt đạo đức về việc bồi thường cho việc sử dụng hợp lý tác phẩm có bản quyền, nên được xem xét cùng với tuyên bố của báo cáo IEEE rằng, “chúng tôi đã phát hiện ra bằng chứng cho thấy một kỹ sư phần mềm cấp cao tại Midjourney đã tham gia vào một cuộc trò chuyện vào tháng 2022 năm XNUMX về cách trốn tránh luật bản quyền bằng cách ‘rửa’ dữ liệu ‘thông qua một codex được tinh chỉnh.’”

Marcus, đồng tác giả của báo cáo IEEE, bày tỏ sự hoài nghi về nỗ lực của OpenAI trong việc được Anh bật đèn xanh cho các hoạt động kinh doanh hiện tại của mình.

“Dịch thô: Chúng tôi sẽ không trở nên giàu có nếu bạn không cho chúng tôi ăn trộm, vì vậy xin đừng coi việc ăn trộm là một tội ác!” anh ấy đã viết trên mạng xã hội gửi. “Đừng bắt chúng tôi phải trả tiền cấp giấy phép phí cũng vậy! Chắc chắn Netflix có thể trả hàng tỷ đô la phí bản quyền mỗi năm, nhưng we không cần phải làm vậy! Thêm tiền cho chúng ta, rên rỉ!”

OpenAI đã đề nghị bồi thường cho khách hàng ChatGPT và API của doanh nghiệp chống lại khiếu nại bản quyền, mặc dù điều này không xảy ra nếu khách hàng hoặc người dùng cuối của khách hàng “biết hoặc lẽ ra phải biết Đầu ra vi phạm hoặc có khả năng vi phạm” hoặc nếu khách hàng bỏ qua các tính năng an toàn, trong số những hạn chế khác. Do đó, việc yêu cầu DALL-E 3 tái hiện một cảnh phim nổi tiếng – mà người dùng nên biết có thể đã được bảo vệ bản quyền – sẽ không đủ điều kiện để được bồi thường.

Midjourney đã thực hiện cách làm ngược lại, hứa hẹn sẽ truy lùng và khởi kiện những khách hàng có liên quan đến hành vi vi phạm để thu hồi các chi phí pháp lý phát sinh từ các khiếu nại liên quan.

“Nếu bạn cố tình vi phạm quyền sở hữu trí tuệ của người khác và điều đó khiến chúng tôi phải trả tiền, chúng tôi sẽ đến tìm bạn và thu số tiền đó từ Bạn,” Midjourney's Các Điều Khoản của Dịch Vụ tình trạng. “Chúng tôi cũng có thể làm những việc khác, chẳng hạn như cố gắng yêu cầu tòa án buộc bạn phải trả phí pháp lý cho chúng tôi. Đừng làm điều đó.” ®

Dấu thời gian:

Thêm từ Đăng ký