غول‌های فناوری درباره قوانین کپی رایت LLM سؤال می‌کنند

غول‌های فناوری درباره قوانین کپی رایت LLM سؤال می‌کنند

غول‌های فناوری درباره قوانین کپی رایت LLM درباره هوش داده‌های پلاتوبلاکچین سؤال می‌کنند. جستجوی عمودی Ai.

این هفته در پارلمان بریتانیا، مایکروسافت و متا این سوال را مطرح کردند که آیا زمانی که مطالب دارای حق چاپ آنها برای آموزش مدل های زبان بزرگ استفاده می شود، باید به سازندگان پول پرداخت شود.

غول‌های فناوری با مجموع درآمدهای بیش از 200 میلیارد دلار بودند کباب شده توسط کمیته ارتباطات و دیجیتال مجلس اعیان، زمانی که موضوع کپی رایت مورد توجه قرار گرفت.

در سپتامبر، انجمن نویسندگان، یک انجمن تجاری برای نویسندگان منتشر شده، و 17 نویسنده دادخواست اقامه دعوی را تشکیل داد در ایالات متحده بیش از استفاده OpenAI از مواد آنها برای ایجاد خدمات مبتنی بر LLM.

سام آلتمن، مدیر عامل OpenAI از آن زمان گفته است که این شرکت به جای حذف مطالب از مجموعه های آموزشی، هزینه های قانونی مشتریان خود را برای پرونده های نقض حق نسخه برداری پوشش می دهد.

مایکروسافت سرمایه گذاری 13 میلیارد دلار در OpenAI. این شرکت با توسعه‌دهنده یادگیری ماشین همکاری گسترده‌ای دارد و حجم کاری خود را در پلتفرم ابری Azure تقویت می‌کند و از مدل‌های خود برای اجرای دستیار خودکار Copilot استفاده می‌کند.

دیروز، اوون لارتر، مدیر سیاست عمومی دفتر هوش مصنوعی مایکروسافت، در صحبت با لردها، گفت: "مهم است که بدانیم یک مدل زبان بزرگ چیست. این یک مدل بزرگ است که بر روی داده های متنی آموزش دیده است و ارتباط بین ایده های مختلف را یاد می گیرد. این لزوما به معنای مکیدن چیزی از زیر نیست.»

او گفت که باید «چارچوبی» برای محافظت از مطالب دارای حق چاپ وجود داشته باشد و مایکروسافت مسئولیت هرگونه نقض سیستم های مبتنی بر LLM خود را بر عهده خواهد گرفت. اما او همچنین گفت که مایکروسافت اخیرا را پشتیبانی می کند گزارش والانس به قانون هوش مصنوعی "طرفدار نوآوری" در بریتانیا که از استثناهای متن و داده در مدل های آموزشی دفاع می کند.

اما دونالد مایکل، لرد فاستر از باث، لارتر را تحت فشار قرار داد که آیا او می‌پذیرد که اگر شرکتی از مواد دارای حق چاپ برای ساختن یک LLM برای سود استفاده کند، مالک حق چاپ باید بازپرداخت شود.

مدیر مایکروسافت می‌گوید: «درک این نکته بسیار مهم است که اگر می‌خواهید این مدل‌های زبان بزرگ را بر روی مجموعه‌های داده بزرگ آموزش دهید، اگر می‌خواهید به آنها اجازه دهید ایمن و ایمن باشند، بسیار مهم است… همچنین برخی از مسائل رقابتی [برای اطمینان از اینکه] آموزش مدل های بزرگ برای همه در دسترس است وجود دارد. اگر در مسیری که در آن به‌دست آوردن داده‌ها برای آموزش مدل‌ها بسیار سخت است، خیلی دور بروید، ناگهان توانایی انجام این کار تنها در اختیار شرکت‌های بسیار بزرگ خواهد بود.»

پرونده قضایی در حال حاضر در جریان است برای رسیدگی به نحوه مجموعه داده های آموزشی کتاب 1، Books2 و Books3 که به طور مؤثر مطالب دارای حق چاپ را دزدان دریایی می کنند، برای کمک به ساخت LLM های محبوب استفاده شده اند.

متا پشت لاما 2 LLM، که تا 70 میلیارد پارامتر را مقیاس می کند. این غول رسانه های اجتماعی این مدل را به عنوان منبع باز تبلیغ کرده است، اگرچه متخصصان FOSS به برخی اخطارها در رویکرد آن اشاره می کنند.

راب شرمن، معاون رئیس جمهور و معاون مدیر ارشد سیاست حفظ حریم خصوصی در متا، در صحبت با لردها، گفت که این شرکت از قانون پیروی خواهد کرد.

اما او افزود که «حفظ دسترسی گسترده به اطلاعات در اینترنت و اطلاعات از جمله برای استفاده در نوآوری مانند این بسیار مهم است. من از دادن توانایی به دارندگان حقوق برای مدیریت نحوه استفاده از اطلاعات خود حمایت می کنم.

من کمی محتاط هستم درباره این ایده که شرکت‌هایی را که در حال ساخت هوش مصنوعی هستند مجبور کنیم تا با دارندگان حقوق فردی قراردادهای سفارشی ببندند یا برای محتوایی که برای آنها ارزش اقتصادی ندارد، هزینه پرداخت کنند.»

هفته گذشته، دن کانوی، مدیر عامل انجمن ناشران بریتانیا، به کمیته گفت که مدل‌های بزرگ زبان محتوای دارای حق چاپ را در «مقیاس کاملاً گسترده» نقض می‌کنند.

او گفت: «ما این را در صنعت انتشارات می‌دانیم، زیرا پایگاه‌داده Books3 فهرستی از 120,000 عنوان کتاب غیرقانونی دارد که می‌دانیم مدل‌های زبانی بزرگ آن‌ها را دریافت کرده‌اند. ما می دانیم که محتوا در مقیاسی بسیار گسترده توسط مدل های زبانی بزرگ جذب می شود. LLMها حق نسخه‌برداری را در بخش‌های مختلف فرآیند از نظر زمانی که این اطلاعات را جمع‌آوری می‌کنند، نحوه ذخیره‌سازی این اطلاعات و نحوه مدیریت آن‌ها را نقض می‌کنند. قانون کپی رایت در مقیاس گسترده در حال شکستن است.»

در همان جلسه، دکتر هایلی بوشر، خواننده حقوق مالکیت معنوی در دانشگاه برونل لندن، گفت که او نماینده شرکت های فناوری یا تولیدکنندگان محتوا نیست و دیدگاهی بی طرف ارائه می دهد.

او گفت: «اصل اینکه چه زمانی به مجوز نیاز دارید و چه زمانی نیاز ندارید، روشن است، و برای بازتولید یک اثر محافظت شده با حق چاپ بدون مجوز، نیاز به مجوز یا در غیر این صورت نقض می شود. این همان کاری است که هوش مصنوعی در مراحل مختلف فرآیند انجام می‌دهد: جذب، اجرای برنامه، و احتمالاً حتی خروجی.

«برخی از توسعه دهندگان هوش مصنوعی و فناوری، تفسیر متفاوتی از قانون را استدلال می کنند. من نماینده هیچ یک از این طرفها نیستم. من یک متخصص کپی رایت هستم و از موقعیت من، با درک اینکه حق چاپ چه چیزی قرار است به دست بیاید و چگونه به آن دست می یابد، برای آن فعالیت به مجوز نیاز دارید. ®

تمبر زمان:

بیشتر از ثبت نام