Các gã khổng lồ công nghệ đặt câu hỏi về các quy tắc bản quyền của LLM

Các gã khổng lồ công nghệ đặt câu hỏi về các quy tắc bản quyền của LLM

Những gã khổng lồ công nghệ đặt câu hỏi về quy tắc bản quyền LLM PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tại Quốc hội Vương quốc Anh tuần này, Microsoft và Meta đã né tránh câu hỏi liệu người sáng tạo có nên được trả tiền khi tài liệu có bản quyền của họ được sử dụng để đào tạo các mô hình ngôn ngữ lớn hay không.

Những gã khổng lồ công nghệ, với tổng doanh thu vượt quá 200 tỷ USD, đang bị nướng bởi Ủy ban Truyền thông và Kỹ thuật số của Hạ viện khi vấn đề bản quyền được chú trọng.

Vào tháng 17, Hiệp hội Tác giả, một hiệp hội thương mại dành cho các nhà văn đã xuất bản và XNUMX tác giả đệ đơn kiện tập thể ở Hoa Kỳ về việc OpenAI sử dụng tài liệu của họ để tạo ra các dịch vụ dựa trên LLM.

Giám đốc điều hành OpenAI Sam Altman kể từ đó cho biết công ty sẽ chi trả các chi phí pháp lý cho khách hàng của mình đối với các vụ kiện vi phạm bản quyền thay vì xóa tài liệu khỏi bộ đào tạo của mình.

Microsoft đã vốn đầu tư 13 tỷ USD trong OpenAI. Nó có mối quan hệ hợp tác mở rộng với nhà phát triển máy học, hỗ trợ khối lượng công việc của mình trên nền tảng đám mây Azure và sử dụng các mô hình của mình để chạy trợ lý tự động Copilot.

Phát biểu với Lords ngày hôm qua, Owen Larter, giám đốc chính sách công tại Văn phòng AI có trách nhiệm của Microsoft, cho biết: “Điều quan trọng là phải đánh giá cao mô hình ngôn ngữ lớn là gì. Đó là một mô hình lớn được đào tạo về dữ liệu văn bản, tìm hiểu mối liên hệ giữa các ý tưởng khác nhau. Nó không nhất thiết phải hút bất cứ thứ gì từ bên dưới.”

Ông cho biết cần phải có một “khuôn khổ” để cung cấp một số biện pháp bảo vệ cho tài liệu có bản quyền và Microsoft sẽ chịu trách nhiệm về bất kỳ hành vi vi phạm nào của các hệ thống dựa trên LLM của mình. Nhưng ông cũng cho biết Microsoft hỗ trợ gần đây Báo cáo đường viền vào luật AI “ủng hộ đổi mới” ở Vương quốc Anh ủng hộ các ngoại lệ về văn bản và dữ liệu trong các mô hình đào tạo.

Nhưng Donald Michael, Lord Foster of Bath, đã ép Larter về việc liệu ông có chấp nhận rằng nếu một công ty sử dụng tài liệu có bản quyền để xây dựng LLM vì lợi nhuận thì chủ sở hữu bản quyền phải được hoàn trả.

Giám đốc Microsoft cho biết: “Điều thực sự quan trọng là phải hiểu rằng bạn cần huấn luyện các mô hình ngôn ngữ lớn này trên các tập dữ liệu lớn nếu bạn muốn chúng hoạt động hiệu quả, nếu bạn muốn cho phép chúng được an toàn và bảo mật… Ngoài ra còn có một số vấn đề về cạnh tranh [trong việc đảm bảo] rằng việc đào tạo các mô hình lớn có sẵn cho tất cả mọi người. Nếu bạn đi quá xa vào con đường rất khó lấy dữ liệu để đào tạo mô hình, thì đột nhiên, khả năng làm được điều đó sẽ chỉ dành riêng cho những công ty rất lớn.”

Vụ kiện tụng đang được tiến hành để giải quyết cách tập dữ liệu huấn luyện Sách1, Books2 và Books3, những tài liệu vi phạm bản quyền một cách hiệu quả, đã được sử dụng để giúp xây dựng các LLM phổ biến.

Meta đứng đằng sau Llama 2 LLM, có quy mô lên tới 70 tỷ tham số. Gã khổng lồ truyền thông xã hội đã quảng bá mô hình này dưới dạng nguồn mở, mặc dù những người theo chủ nghĩa thuần túy FOSS chỉ ra một số cảnh báo trong cách tiếp cận của nó.

Nói chuyện với Lords, Rob Sherman, phó chủ tịch kiêm phó giám đốc quyền riêng tư về chính sách tại Meta, cho biết công ty sẽ tuân thủ luật pháp.

Nhưng ông nói thêm rằng “việc duy trì quyền truy cập rộng rãi vào thông tin trên internet và thông tin bao gồm cả việc sử dụng trong đổi mới như thế này là khá quan trọng. Tôi ủng hộ việc trao cho chủ sở hữu quyền khả năng quản lý cách sử dụng thông tin của họ.

“Tôi hơi thận trọng về ý tưởng buộc các công ty đang xây dựng AI phải ký kết các thỏa thuận riêng với các chủ sở hữu quyền cá nhân hoặc yêu cầu thanh toán cho nội dung không có giá trị kinh tế đối với họ.”

Tuần trước, Dan Conway, Giám đốc điều hành Hiệp hội các nhà xuất bản Vương quốc Anh, nói với ủy ban rằng các mô hình ngôn ngữ lớn đang vi phạm nội dung có bản quyền trên “quy mô cực kỳ lớn”.

“Chúng tôi biết điều này trong ngành xuất bản vì cơ sở dữ liệu Books3 liệt kê 120,000 đầu sách lậu mà chúng tôi biết đã bị các mô hình ngôn ngữ lớn tiếp thu,” ông nói. “Chúng tôi biết rằng nội dung đang được tiếp thu trên quy mô cực kỳ lớn bởi các mô hình ngôn ngữ lớn. LLM vi phạm bản quyền ở nhiều phần của quy trình về thời điểm họ thu thập thông tin này, cách họ lưu trữ thông tin này và cách họ xử lý thông tin đó. Luật bản quyền đang bị vi phạm trên quy mô lớn.”

Tại phiên điều trần tương tự, Tiến sĩ Hayleigh Bosher, độc giả về luật sở hữu trí tuệ tại Đại học Brunel London, cho biết cô không đại diện cho các công ty công nghệ hoặc người sáng tạo nội dung và đưa ra quan điểm trung lập.

Cô nói: “Nguyên tắc khi nào bạn cần giấy phép và khi nào không thì rõ ràng, và việc sao chép một tác phẩm được bảo vệ bản quyền mà không được phép sẽ phải có giấy phép hoặc nếu không thì sẽ là vi phạm. Đó là những gì AI thực hiện ở các bước khác nhau của quy trình: Nhập, chạy chương trình và thậm chí có thể là đầu ra.

“Một số nhà phát triển công nghệ và AI đang tranh cãi về cách giải thích luật khác. Tôi không đại diện cho một trong hai bên đó. Tôi là một chuyên gia về bản quyền và từ vị trí của tôi, hiểu biết về những gì bản quyền phải đạt được và cách nó đạt được nó, bạn sẽ cần có giấy phép cho hoạt động đó.” ®

Dấu thời gian:

Thêm từ Đăng ký