এলএলএম কপিরাইট নিয়মের উপর টেক জায়ান্টরা প্রশ্ন করে

এলএলএম কপিরাইট নিয়মের উপর টেক জায়ান্টরা প্রশ্ন করে

টেক জায়ান্টরা LLM কপিরাইট নিয়ম PlatoBlockchain ডেটা ইন্টেলিজেন্স নিয়ে প্রশ্ন করে। উল্লম্ব অনুসন্ধান. আ.

এই সপ্তাহে যুক্তরাজ্যের পার্লামেন্টে, মাইক্রোসফ্ট এবং মেটা এই প্রশ্নটি নিয়েছিল যে নির্মাতাদের অর্থ প্রদান করা উচিত কিনা যখন তাদের কপিরাইটযুক্ত উপাদানগুলি বড় ভাষার মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা হয়।

টেক টাইটানদের সম্মিলিত আয় $200 বিলিয়ন ছাড়িয়ে গেছে ভাজা হাউস অফ লর্ডস কমিউনিকেশনস এবং ডিজিটাল কমিটির দ্বারা যখন কপিরাইট প্রশ্ন ফোকাসে আসে।

সেপ্টেম্বরে, লেখকদের গিল্ড, প্রকাশিত লেখকদের জন্য একটি ট্রেড অ্যাসোসিয়েশন এবং 17 জন লেখক একটি শ্রেণি-অ্যাকশন মামলা দায়ের মার্কিন যুক্তরাষ্ট্রে ওপেনএআই এর এলএলএম-ভিত্তিক পরিষেবাগুলি তৈরি করতে তাদের উপাদান ব্যবহার করে।

ওপেনএআই সিইও স্যাম অল্টম্যান তখন থেকে বলেছেন যে সংস্থাটি তার প্রশিক্ষণ সেট থেকে উপাদানগুলি সরানোর পরিবর্তে কপিরাইট লঙ্ঘনের মামলার জন্য তার ক্লায়েন্টদের আইনি খরচগুলি কভার করবে।

মাইক্রোসফট আছে অর্পিত OpenAI-তে $13 বিলিয়ন। এটির মেশিন লার্নিং ডেভেলপারের সাথে একটি বর্ধিত অংশীদারিত্ব রয়েছে, যা Azure ক্লাউড প্ল্যাটফর্মে এর কাজের চাপকে শক্তি দেয় এবং কপিলট স্বয়ংক্রিয় সহকারী চালানোর জন্য এর মডেলগুলি ব্যবহার করে।

গতকাল লর্ডসের সাথে কথা বলার সময়, মাইক্রোসফটের অফিস অফ রেসপনসিবল এআই-এর পাবলিক পলিসির ডিরেক্টর ওয়েন লার্টার বলেছেন: “একটি বৃহৎ ভাষার মডেল কী তা উপলব্ধি করা গুরুত্বপূর্ণ। এটি একটি বৃহৎ মডেল যা পাঠ্য ডেটার উপর প্রশিক্ষিত, বিভিন্ন ধারণার মধ্যে সংযোগগুলি শিখছে। এটি অগত্যা নীচে থেকে কিছু চুষে না।"

তিনি বলেছিলেন যে কপিরাইটযুক্ত উপাদানগুলির জন্য কিছু সুরক্ষা প্রদানের জন্য একটি "ফ্রেমওয়ার্ক" থাকা উচিত এবং মাইক্রোসফ্ট তার LLM-ভিত্তিক সিস্টেমগুলির দ্বারা কোনও লঙ্ঘনের জন্য দায়বদ্ধতা গ্রহণ করবে৷ তবে তিনি আরও বলেন, মাইক্রোসফট সাম্প্রতিক সমর্থন করে ভ্যালেন্স রিপোর্ট যুক্তরাজ্যের "প্রো-ইনোভেশন" এআই আইনে যা প্রশিক্ষণ মডেলগুলিতে পাঠ্য এবং ডেটা ব্যতিক্রমগুলির পক্ষে সমর্থন করে।

কিন্তু ডোনাল্ড মাইকেল, লর্ড ফস্টার অফ বাথ, লার্টারকে চাপ দিয়েছিলেন যে তিনি স্বীকার করবেন যে যদি কোনও কোম্পানি লাভের জন্য একটি এলএলএম তৈরি করার জন্য কপিরাইটযুক্ত উপাদান ব্যবহার করে, তবে কপিরাইট মালিককে অর্থ ফেরত দিতে হবে।

মাইক্রোসফ্ট ডিরেক্টর বলেছেন: "এটা বোঝা সত্যিই গুরুত্বপূর্ণ যে আপনাকে এই বৃহৎ ভাষার মডেলগুলিকে বৃহৎ ডেটা সেটগুলিতে প্রশিক্ষণ দিতে হবে যদি আপনি সেগুলিকে কার্যকরভাবে সম্পাদন করতে চান, যদি আপনি সেগুলিকে নিরাপদ এবং সুরক্ষিত করার অনুমতি দিতে যাচ্ছেন … এছাড়াও কিছু প্রতিযোগিতার সমস্যা রয়েছে [নিশ্চিত করার জন্য] যে বড় মডেলের প্রশিক্ষণ সবার জন্য উপলব্ধ। আপনি যদি এমন একটি পথের নিচে যান যেখানে মডেলদের প্রশিক্ষণের জন্য ডেটা পাওয়া খুব কঠিন, তাহলে হঠাৎ করে, এটি করার ক্ষমতা শুধুমাত্র খুব বড় কোম্পানিগুলির সংরক্ষণ করা হবে।"

ইতিমধ্যেই মামলা চলছে প্রশিক্ষণের ডেটা কীভাবে সেট করা হয় তা সম্বোধন করতে বই ৩, Books2, এবং Books3, যা কার্যকরভাবে কপিরাইটযুক্ত উপাদানকে পাইরেট করে, জনপ্রিয় LLM তৈরিতে সাহায্য করার জন্য ব্যবহার করা হয়েছে।

মেটা এর পিছনে রয়েছে লামা 2 এলএলএম, যা 70 বিলিয়ন প্যারামিটার পর্যন্ত স্কেল করে। সোশ্যাল মিডিয়া জায়ান্ট মডেলটিকে ওপেন সোর্স হিসাবে প্রচার করেছে, যদিও FOSS বিশুদ্ধতাবাদীরা এর পদ্ধতিতে কিছু সতর্কতার দিকে ইঙ্গিত করেছেন।

লর্ডসের সাথে কথা বলার সময়, রব শেরম্যান, মেটাতে নীতির জন্য ভাইস প্রেসিডেন্ট এবং ডেপুটি চিফ প্রাইভেসি অফিসার বলেছেন, কোম্পানি আইন মেনে চলবে।

তবে তিনি যোগ করেছেন যে "ইন্টারনেটে তথ্যের বিস্তৃত অ্যাক্সেস বজায় রাখা এবং এর মতো উদ্ভাবনে ব্যবহারের জন্য তথ্য সহ এটি বেশ গুরুত্বপূর্ণ। আমি অধিকার ধারকদের তাদের তথ্য কীভাবে ব্যবহার করা হয় তা পরিচালনা করার ক্ষমতা প্রদানকে সমর্থন করি।

"যে সংস্থাগুলি এআই তৈরি করছে তাদের ব্যক্তিগত অধিকার ধারকদের সাথে বেসপোক চুক্তিতে প্রবেশ করতে বা তাদের জন্য অর্থনৈতিক মূল্য নেই এমন সামগ্রীর জন্য অর্থ প্রদানের আদেশ দেওয়ার ধারণা সম্পর্কে আমি কিছুটা সতর্ক।"

গত সপ্তাহে, যুক্তরাজ্যের পাবলিশার্স অ্যাসোসিয়েশনের সিইও ড্যান কনওয়ে কমিটিকে বলেছিলেন যে বৃহৎ ভাষার মডেলগুলি কপিরাইটযুক্ত বিষয়বস্তুকে "একেবারে ব্যাপক আকারে" লঙ্ঘন করছে৷

"আমরা প্রকাশনা শিল্পে এটি জানি কারণ Books3 ডাটাবেস যা 120,000 পাইরেটেড বইয়ের শিরোনাম তালিকাভুক্ত করে, যা আমরা জানি যেগুলি বড় ভাষার মডেল দ্বারা গ্রহণ করা হয়েছে," তিনি বলেছিলেন। “আমরা জানি যে বিষয়বস্তুটি বৃহৎ ভাষার মডেলগুলির দ্বারা একেবারে ব্যাপক আকারে গ্রহণ করা হচ্ছে৷ LLMগুলি প্রক্রিয়ার একাধিক অংশে কপিরাইট লঙ্ঘন করে যখন তারা এই তথ্য সংগ্রহ করে, কীভাবে তারা এই তথ্য সংরক্ষণ করে এবং কীভাবে তারা এটি পরিচালনা করে। কপিরাইট আইন ব্যাপক হারে ভাঙা হচ্ছে।”

একই শুনানিতে, ব্রুনেল ইউনিভার্সিটি লন্ডনের বৌদ্ধিক সম্পত্তি আইনের পাঠক ডাঃ হেইলি বোশার বলেছেন যে তিনি প্রযুক্তি সংস্থা বা বিষয়বস্তু নির্মাতাদের প্রতিনিধিত্ব করেননি এবং একটি নিরপেক্ষ দৃষ্টিভঙ্গি প্রস্তাব করেছেন।

"আপনার কখন লাইসেন্সের প্রয়োজন এবং কখন আপনার নেই তার নীতিটি পরিষ্কার," তিনি বলেছিলেন, "এবং অনুমতি ছাড়াই একটি কপিরাইট-সুরক্ষিত কাজের পুনরুত্পাদন করতে লাইসেন্সের প্রয়োজন হবে বা অন্যথায় লঙ্ঘন হবে৷ প্রক্রিয়ার বিভিন্ন ধাপে AI এটিই করে: ইনজেশন, প্রোগ্রাম চালানো এবং সম্ভাব্য এমনকি আউটপুটও।

“কিছু এআই এবং প্রযুক্তি বিকাশকারী আইনের ভিন্ন ব্যাখ্যা নিয়ে তর্ক করছেন। আমি ঐ পক্ষের কোনটির প্রতিনিধিত্ব করি না। আমি একজন কপিরাইট বিশেষজ্ঞ, এবং আমার অবস্থান থেকে, কপিরাইট কী অর্জন করা উচিত এবং এটি কীভাবে অর্জন করে তা বোঝার জন্য, সেই ক্রিয়াকলাপের জন্য আপনার একটি লাইসেন্সের প্রয়োজন হবে।" ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী