يستخدم العمال المعينون من خلال خدمات التعهيد الجماعي مثل Amazon Mechanical Turk نماذج لغة كبيرة لإكمال مهامهم - والتي قد يكون لها تأثيرات سلبية على نماذج الذكاء الاصطناعي في المستقبل.
البيانات مهمة للذكاء الاصطناعي. يحتاج المطورون إلى مجموعات بيانات نظيفة وعالية الجودة لبناء أنظمة تعلم آلي تتسم بالدقة والموثوقية. ومع ذلك ، قد يكون تجميع البيانات عالية القيمة أمرًا شاقًا. غالبًا ما تلجأ الشركات إلى منصات تابعة لجهات خارجية مثل Amazon Mechanical Turk لتوجيه مجموعات من العمال الرخيصين لأداء مهام متكررة - مثل وضع علامات على الكائنات ، ووصف المواقف ، وكتابة المقاطع ، وتعليق النص.
يمكن تنظيف مخرجاتهم وإدخالها في نموذج لتدريبه على إعادة إنتاج هذا العمل على نطاق آلي أكبر بكثير.
وبالتالي ، فإن نماذج الذكاء الاصطناعي مبنية على ظهور العمالة البشرية: يكدح الناس ، ويقدمون تلالًا من الأمثلة التدريبية لأنظمة الذكاء الاصطناعي التي يمكن للشركات استخدامها لكسب مليارات الدولارات.
لكن تجربة أجراها باحثون في École polytechnique fédérale de Lausanne (EPFL) في سويسرا خلصت إلى أن هؤلاء العمال الذين يستخدمون التعهيد الجماعي يستخدمون أنظمة الذكاء الاصطناعي - مثل chatbot ChatGPT الخاص بـ OpenAI - لأداء وظائف غريبة عبر الإنترنت.
لا ينصح بتدريب نموذج على مخرجاته. يمكننا أن نرى نماذج الذكاء الاصطناعي يتم تدريبها على البيانات التي تم إنشاؤها ليس من قبل الأشخاص ، ولكن من خلال نماذج أخرى للذكاء الاصطناعي - وربما حتى النماذج نفسها. يمكن أن يؤدي ذلك إلى جودة مخرجات كارثية ، ومزيد من التحيز ، وتأثيرات أخرى غير مرغوب فيها.
التجربة
جند الأكاديميون 44 من الأقنان الأتراك الميكانيكيين لتلخيص ملخصات 16 ورقة بحثية طبية ، وقدّروا أن 33 إلى 46 بالمائة من مقاطع النص التي قدمها العمال تم إنشاؤها باستخدام نماذج لغوية كبيرة. غالبًا ما يتقاضى العمال الجماعيون أجورًا منخفضة - استخدام الذكاء الاصطناعي لتوليد الاستجابات تلقائيًا يتيح لهم العمل بشكل أسرع وتولي المزيد من الوظائف لزيادة الأجور.
قام الفريق السويسري بتدريب المصنف للتنبؤ بما إذا كانت الطلبات المقدمة من الأتراك تم إنشاؤها بواسطة الإنسان أو الذكاء الاصطناعي. قام الأكاديميون أيضًا بتسجيل ضغطات مفاتيح عمالهم لاكتشاف ما إذا كان الأقنان قاموا بنسخ النص ولصقه على المنصة ، أو كتابته في إدخالاتهم بأنفسهم. هناك دائمًا احتمال أن يستخدم شخص ما chatbot ثم يكتب المخرجات يدويًا - لكن هذا غير مرجح ، كما نفترض.
"لقد طورنا منهجية محددة جدًا عملت بشكل جيد للغاية لاكتشاف النص التركيبي في السيناريو الخاص بنا" ، هذا ما قاله مانويل ريبيرو ، المؤلف المشارك لكتاب الدراسة وطالب دكتوراه في EPFL ، قال السجل هذا الاسبوع.
"بينما تحاول الطرق التقليدية اكتشاف النص التركيبي" في أي سياق "، يركز نهجنا على اكتشاف النص التركيبي في السيناريو المحدد لدينا."
المصنف ليس مثاليًا في تحديد ما إذا كان شخص ما قد استخدم نظام ذكاء اصطناعي أو أنتج أعماله الخاصة. قام الأكاديميون بدمج مخرجات المصنف الخاصة بهم مع بيانات ضغط المفاتيح ليكونوا أكثر يقينًا عندما يقوم شخص ما بنسخ اللصق من روبوت أو إنتاج مواده الخاصة.
البيانات البشرية هي المعيار الذهبي ، لأن البشر هم الذين نهتم بهم
أخبرنا ريبيرو "لقد تمكنا من التحقق من صحة نتائجنا باستخدام بيانات ضغط المفاتيح التي جمعناها أيضًا من MTurk". "على سبيل المثال ، وجدنا أن جميع النصوص التي لم يتم لصقها بنسخ تم تصنيفها من قبلنا على أنها" حقيقية "، مما يشير إلى وجود عدد قليل من الإيجابيات الخاطئة."
الكود والبيانات المستخدمة لتشغيل الاختبار يمكن العثور عليها هناعلى جيثب.
هناك سبب آخر لعدم احتمال أن تكون التجربة تمثيلاً عادلاً تمامًا لعدد العمال الذين يستخدمون الذكاء الاصطناعي لأتمتة مهام التعهيد الجماعي. لاحظ المؤلفون أن مهمة تلخيص النص مناسبة تمامًا لنماذج اللغات الكبيرة مقارنة بأنواع الوظائف الأخرى - مما يعني أن نتائجهم قد تكون أكثر انحرافًا نحو عدد أكبر من العمال الذين يستخدمون أدوات مثل ChatGPT.
كما أن مجموعة بياناتهم المكونة من 46 ردًا من 44 عاملاً صغيرة أيضًا. تم دفع 1 دولار للعمال عن كل ملخص نصي ، والذي قد يشجع مرة أخرى فقط على استخدام الذكاء الاصطناعي.
قال الباحثون إن النماذج اللغوية الكبيرة ستزداد سوءًا إذا تم تدريبها بشكل متزايد على المحتوى المزيف الذي تم إنشاؤه بواسطة الذكاء الاصطناعي الذي تم جمعه من منصات التعهيد الجماعي. ملابس مثل OpenAI تحافظ على سرية كيفية تدريبها لأحدث موديلاتها ، وقد لا تعتمد بشكل كبير على أشياء مثل Mechanical Turk ، إن وجدت. ومع ذلك ، قد تعتمد الكثير من النماذج الأخرى على العاملين البشريين ، والتي قد تستخدم بدورها الروبوتات لإنشاء بيانات التدريب ، وهي مشكلة.
يتم تسويق شركة Mechanical Turk ، على سبيل المثال ، كمزود "لحلول وضع العلامات على البيانات لتشغيل نماذج التعلم الآلي".
قال ريبيريو: "البيانات البشرية هي المعيار الذهبي ، لأن البشر هم الذين نهتم بهم ، وليس النماذج اللغوية الكبيرة". قال كمثال: "لن أتناول دواء تم اختباره فقط في نموذج بيولوجي ذبابة الفاكهة".
جادل الباحثون بأن الاستجابات التي تولدها نماذج الذكاء الاصطناعي الحالية عادة ما تكون رتيبة أو تافهة ، ولا تعكس تعقيد وتنوع الإبداع البشري.
أخبرنا روبرت ويست ، مؤلف مشارك في البحث وأستاذ مساعد في مدرسة EPFL للكمبيوتر وعلوم الاتصال ، "في بعض الأحيان ما نريد دراسته باستخدام بيانات التعهيد الجماعي هو على وجه التحديد الطرق التي يكون بها البشر غير كاملين".
مع استمرار تحسن الذكاء الاصطناعي ، من المحتمل أن يتغير عمل التعهيد الجماعي. تكهن ريبيريو بأن النماذج اللغوية الكبيرة يمكن أن تحل محل بعض العاملين في مهام محددة. "ومع ذلك ، من المفارقات ، أن البيانات البشرية قد تكون أغلى من أي وقت مضى ، وبالتالي قد تكون هذه الأنظمة الأساسية قادرة على تنفيذ طرق لمنع استخدام نماذج اللغة الكبيرة وضمان بقائها مصدرًا للبيانات البشرية."
من يدري - أضاف أنه ربما ينتهي الأمر بالبشر إلى التعاون مع نماذج لغوية كبيرة لتوليد ردود أيضًا. ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- تمويل EVM. واجهة موحدة للتمويل اللامركزي. الوصول هنا.
- مجموعة كوانتوم ميديا. تضخيم IR / PR. الوصول هنا.
- أفلاطونايستريم. ذكاء بيانات Web3. تضخيم المعرفة. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :لديها
- :يكون
- :ليس
- $ UP
- 16
- 7
- a
- ماهرون
- من نحن
- الملخصات
- أكاديميون
- دقيق
- وأضاف
- مرة أخرى
- AI
- الكل
- يسمح
- أيضا
- دائما
- أمازون
- an
- و
- آخر
- أي وقت
- نهج
- هي
- جادل
- مصطنع
- الذكاء الاصطناعي
- AS
- المساعد
- At
- الكتاب
- أتمتة
- الآلي
- تلقائيا
- بعيدا
- BE
- لان
- يجري
- انحياز
- المليارات
- ماصخ
- أحذية طويلة
- البوتات
- نساعدك في بناء
- بنيت
- لكن
- by
- CAN
- أسر
- يهمني
- معين
- فرصة
- تغيير
- chatbot
- شات جي بي تي
- رخيص
- مبوب
- اغلاق
- CO
- مؤلف مشارك
- الكود
- التعاون
- الجمع بين
- Communication
- الشركات
- مقارنة
- إكمال
- تماما
- تعقيد
- الكمبيوتر
- وخلص
- أجرت
- محتوى
- سياق الكلام
- تواصل
- الشركات
- استطاع
- الإبداع
- حرج
- حشد
- البيانات
- قواعد البيانات
- المتقدمة
- المطورين
- كارثي
- تنوع
- do
- دولار
- كل
- الآثار
- شجع
- النهاية
- ضمان
- مقدر
- حتى
- EVER
- بالضبط
- مثال
- أمثلة
- تجربة
- عادل
- زائف
- زائف
- أسرع
- بنك الاحتياطي الفيدرالي
- قليل
- ركز
- في حالة
- وجدت
- تبدأ من
- مستقبل
- توليد
- ولدت
- دولار فقط واحصل على خصم XNUMX% على جميع
- GitHub جيثب:
- ذهبي
- معيار الذهب
- يملك
- he
- بشكل كبير
- عالي الجودة
- أعلى
- كيفية
- لكن
- HTTPS
- الانسان
- البشر
- i
- تحديد
- if
- تنفيذ
- تحسن
- in
- القيمة الاسمية
- على نحو متزايد
- رؤيتنا
- إلى
- يسن
- IT
- انها
- المشــاريــع
- JPG
- احتفظ
- وصفها
- عمل
- لغة
- كبير
- أكبر
- آخر
- قيادة
- تعلم
- مثل
- على الأرجح
- تسجيل الدخول
- منخفض
- آلة
- آلة التعلم
- جعل
- تمكن
- يدويا
- كثير
- مادة
- مايو..
- معنى
- ميكانيكي
- طبي
- البحوث الطبية
- دواء
- آلية العمل
- طرق
- ربما
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- كثيرا
- حاجة
- سلبي
- عدد
- الأجسام
- of
- غالبا
- on
- ONE
- online
- فقط
- OpenAI
- or
- أخرى
- لنا
- الناتج
- الخاصة
- مدفوع
- ورق
- أوراق
- حفلة
- مجتمع
- فى المائة
- نفذ
- ربما
- المنصة
- منصات التداول
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- وفرة
- حمامات
- قوة
- ثمين
- على وجه التحديد
- تنبأ
- منع
- المشكلة
- أنتج
- البروفيسور
- مزود
- توفير
- جودة
- حقيقي
- في الحقيقة
- سبب
- موصى به
- الخدمة الموثوقة
- اعتمد
- بقايا
- تكرارية
- يحل محل
- التمثيل
- بحث
- الباحثين
- ردود
- النتائج
- ROBERT
- يجري
- s
- قال
- نفسه
- حجم
- سيناريو
- المدرسة
- علوم
- سيكريت
- انظر تعريف
- خدماتنا
- حالات
- صغير
- الحلول
- بعض
- شخص ما
- مصدر
- محدد
- معيار
- طالب
- دراسة
- التقديمات
- المقدمة
- هذه
- وتقترح
- تلخيص
- ملخص
- سويسري
- سويسرا
- اصطناعي
- نظام
- أنظمة
- أخذ
- مهمة
- المهام
- فريق
- تجربه بالعربي
- اختبار
- من
- أن
- •
- المستقبل
- من مشاركة
- منهم
- أنفسهم
- then
- هناك.
- تشبه
- هم
- الأشياء
- الثالث
- هذا الأسبوع
- إلى
- اليوم
- جدا
- أدوات
- نحو
- تقليدي
- قطار
- متدرب
- قادة الإيمان
- محاولة
- منعطف أو دور
- أنواع
- من غير المحتمل
- غير مرغوب فيه
- us
- الأستعمال
- تستخدم
- مستعمل
- يستخدم
- استخدام
- عادة
- التحقق من صحة
- القيمة
- جدا
- بواسطة
- أجور
- تريد
- وكان
- طرق
- we
- أسبوع
- حسن
- كان
- West Side
- ابحث عن
- متى
- سواء
- التي
- في حين
- سوف
- مع
- للعمل
- عمل
- العمال
- أسوأ
- زفيرنت