تأمل شركة Medium في منع برامج زحف الروبوتات التي تعمل بالذكاء الاصطناعي من استخراج المحتوى

تأمل شركة Medium في منع برامج زحف الروبوتات التي تعمل بالذكاء الاصطناعي من استخراج المحتوى

Medium hopes to stop AI bot crawlers from scraping content PlatoBlockchain Data Intelligence. Vertical Search. Ai.

تود منصة التدوين Medium أن لا تقوم المؤسسات بإلغاء مقالاتها دون الحصول على إذن لتدريب نماذج الذكاء الاصطناعي، وحذرت من أنه قد يكون من الصعب تنفيذ هذه السياسة.

أوضح الرئيس التنفيذي توني ستابلباين يوم الخميس كيف تعتزم شركة Medium الحد من حصاد الأعمال المكتوبة للأشخاص من قبل المطورين الذين يسعون إلى بناء مجموعات بيانات تدريبية للشبكات العصبية. وقال، قبل كل شيء، يجب على المطورين أن يطلبوا الموافقة - وأن يقدموا الائتمان والتعويض للكتاب - لتدريب نماذج لغوية كبيرة على نثر الناس.

يمكن أن تنتهي نماذج الذكاء الاصطناعي هذه بتقليد الكتّاب الذين تم تدريبهم عليهم، الأمر الذي يبدو للبعض وكأنه ظلم مزدوج: لم يتم تعويض الكتبة في المقام الأول، والآن تهدد النماذج بأخذ مكانهم وكذلك الدخل المستمد من عملهم. عمل.

"لتقديم ملخص صريح للوضع الراهن: لقد قامت شركات الذكاء الاصطناعي باستخلاص القيمة من الكتّاب من أجل إرسال رسائل غير مرغوب فيها إلى قراء الإنترنت،" كتب في مشاركة مدونة. "المتوسط ​​يغير سياستنا بشأن التدريب على الذكاء الاصطناعي. الجواب الافتراضي هو الآن: لا».

وهكذا قامت شركة Medium بتحديث مواقعها الإلكترونية. ملف robots.txt ملف لطرح روبوت زاحف الويب الخاص بـ OpenAI GTBot لعدم نسخ المحتوى من صفحاته. وقد قام ناشرون آخرون ــ مثل سي إن إن، ورويترز، وشيكاغو تريبيون، ونيويورك تايمز ــ بهذا بالفعل.

أطلق Stubblebine على هذا اسم "الكتلة الناعمة" على الذكاء الاصطناعي: فهو يعتمد على استجابة GTBot للطلب الموجود في ملف robots.txt لعدم الوصول إلى صفحات Medium ورفع المحتوى. ولكن يمكن لبرامج الزحف الأخرى أن تتجاهلها وربما تتجاهلها. يمكن أن ينتظر الوسيط حتى توفر برامج الزحف هذه طريقة لحظرها عبر ملف robots.txt، وتحديث ملفه وفقًا لذلك، ولكن هذا ليس موقفًا مضمون الحدوث.

لكن مقابل ما يستحق، لا يقتصر الأمر على OpenAI فحسب الدعم الحظر عبر ملف robots.txt، وكذلك الأمر بالنسبة لـ Google، والذي يتم أيضًا يوم الخميس مفصلة كيفية حظر برامج الزحف التدريبية الخاصة بالذكاء الاصطناعي لخدمات Bard وVertex Generator API، مرة أخرى عبر ملف robots.txt. لم تقم شركة Medium حتى الآن بتحديث ملف robots.txt الخاص بها لاستبعاد عناكب تدريب الذكاء الاصطناعي من Google.

إن حظر برامج زحف الويب عند مستوى أقل من ملف robots.txt، مثل عنوان IP أو سلسلة وكيل المستخدم، سيعمل أيضًا - حتى تحصل الروبوتات على عناوين IP جديدة أو تغير سلاسل وكيل المستخدم الخاصة بها. إنها لعبة الضرب بالخلد التي قد تكون مملة للغاية.

قال ستابلباين: "لسوء الحظ، فإن كتلة ملف robots.txt محدودة بطرق رئيسية". "بقدر ما يمكننا أن نقول، OpenAI هي الشركة الوحيدة التي توفر طريقة لحظر العنكبوت الذي يستخدمونه للعثور على محتوى للتدريب عليه. لا نعتقد أنه يمكننا حظر شركات أخرى غير OpenAI بشكل مثالي.

وهو يعني بذلك أن شركة OpenAI على الأقل، والآن شركة Google، قد وعدت بمراقبة ملف robots.txt. قد تتجاهلها المنظمات الأخرى التي تجمع البيانات للتدريب على التعلم الآلي.

ومع ذلك، بغض النظر عن حماية ملف robots.txt، فقد وعدت شركة Medium بإرسال رسائل إيقاف وكف إلى أولئك الذين يزحفون إلى صفحاتها دون الحصول على إذن لمقالات لتدريب العارضات.

لذلك، على نحو فعال: طلبت شركة Medium من زاحف OpenAI أن يتركها بمفردها، على الأقل، وسيتولى موقع الويب زاحف مجموعة البيانات الأخرى إلى المهمة عبر التهديدات القانونية إذا لم يتراجعوا. الموقع شروط الخدمة تم تحديثها لمنع استخدام العناكب وبرامج الزحف الأخرى لكشط المقالات دون موافقة الوسيط، كما قيل لنا.

كما حذر Stubblebine الكتاب على المنصة من أنه ليس من الواضح ما إذا كان قانون حقوق الطبع والنشر يمكن أن يحميهم من قيام الشركات بتدريب النماذج على عملهم واستخدام تلك النماذج لإنتاج مواد مماثلة أو متطابقة تقريبًا، وسط العديد من الدعاوى القضائية المستمرة في هذا الأمر برمته. 

كما ذكّر الرئيس التنفيذي مستخدمي Medium بأنه لا يمكن لأحد إعادة بيع نسخ من أعمالهم على الموقع دون إذن. كتب ستابلباين: "في الترخيص الافتراضي للقصص المتوسطة، فإنك تحتفظ بالحق الحصري في بيع عملك".

ومضى يقول إن بعض مطوري الذكاء الاصطناعي ربما فعلوا ذلك: اشتروا أو حصلوا على نسخ من المقالات والأعمال الأخرى التي تم حذفها من Medium وأجزاء أخرى من الإنترنت بواسطة بائعين خارجيين، ثم تدريب الشبكات على هذا المحتوى. ووصف غسل المواد المحمية بحقوق الطبع والنشر للأشخاص بأنه "عمل يتسم بجرأة لا تصدق".

نصحت شركة Stubblebine الشركات التي تتطلع إلى الزحف إلى بيانات الويب من موقع Medium بالاتصال بالموقع لمناقشة الائتمان والتعويضات من بين النقاط الشائكة الأخرى. "أنا أقول هذا لأن هدفنا النهائي ليس عرقلة تطوير الذكاء الاصطناعي. نحن نختار جميع مجموعات تدريب الذكاء الاصطناعي المتوسطة في الوقت الحالي. وأضاف: "لكننا نتوقع تمامًا إعادة الاشتراك عند إنشاء هذه البروتوكولات".

اقترح موقع Medium أنه إذا قام صانع الذكاء الاصطناعي بتقديم تعويض مقابل النص المسروق، فإن عالم التدوين سيمنح 100 بالمائة من هذا المبلغ لكتابه.

وفي شهر يوليو، أكدت أيضًا أنه على الرغم من أن المنشورات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي ليست محظورة تمامًا، إلا أنها لن توصي بأي نص مكتوب بالكامل بواسطة الآلات.

"إن الوسيط ليس مكانًا للقصص التي تم إنشاؤها بواسطة الذكاء الاصطناعي بالكامل، ولن تكون القصص التي تم إنشاؤها بواسطة الذكاء الاصطناعي بنسبة 100 بالمائة مؤهلة للتوزيع خارج الشبكة الشخصية للكاتب". ذكر... ®

الطابع الزمني:

اكثر من السجل