ایمیزون مکینیکل ترک جیسی کراؤڈ سورس سروسز کے ذریعے ملازمت پر رکھے گئے کارکن اپنے کاموں کو مکمل کرنے کے لیے بڑے لینگویج ماڈلز کا استعمال کر رہے ہیں - جس کے مستقبل میں AI ماڈلز پر منفی اثرات مرتب ہو سکتے ہیں۔
ڈیٹا AI کے لیے اہم ہے۔ ڈویلپرز کو درست اور قابل اعتماد مشین لرننگ سسٹم بنانے کے لیے صاف، اعلیٰ معیار کے ڈیٹا سیٹس کی ضرورت ہوتی ہے۔ تاہم، قیمتی، اعلیٰ درجے کا ڈیٹا مرتب کرنا تکلیف دہ ہو سکتا ہے۔ کمپنیاں اکثر تیسرے فریق کے پلیٹ فارمز جیسے Amazon Mechanical Turk کا رخ کرتی ہیں تاکہ سستے کارکنوں کے پول کو بار بار کام کرنے کی ہدایت کی جا سکے - جیسے اشیاء کو لیبل لگانا، حالات کو بیان کرنا، اقتباسات کو نقل کرنا، اور متن کی تشریح کرنا۔
ان کے آؤٹ پٹ کو صاف کیا جا سکتا ہے اور ایک ماڈل میں کھلایا جا سکتا ہے تاکہ اس کام کو بہت بڑے، خودکار پیمانے پر دوبارہ تیار کرنے کی تربیت دی جا سکے۔
اس طرح AI ماڈلز انسانی محنت کی پشت پر بنائے گئے ہیں: لوگ محنت کر رہے ہیں، AI سسٹمز کے لیے تربیتی مثالیں فراہم کرتے ہیں جنہیں کارپوریشنز اربوں ڈالر کمانے کے لیے استعمال کر سکتی ہیں۔
لیکن سوئٹزرلینڈ میں École polytechnique fédérale de Lousanne (EPFL) کے محققین کے ذریعہ کئے گئے ایک تجربے سے یہ نتیجہ اخذ کیا گیا ہے کہ یہ کراؤڈ سورس ورکرز AI سسٹمز – جیسے OpenAI کے چیٹ بوٹ ChatGPT – کو آن لائن کام کرنے کے لیے استعمال کر رہے ہیں۔
ماڈل کو اس کے اپنے آؤٹ پٹ پر تربیت دینے کی سفارش نہیں کی جاتی ہے۔ ہم دیکھ سکتے ہیں کہ AI ماڈلز کو لوگوں کے ذریعہ نہیں بلکہ دوسرے AI ماڈلز کے ذریعہ تیار کردہ ڈیٹا پر تربیت دی جاتی ہے - شاید وہی ماڈل بھی۔ یہ تباہ کن آؤٹ پٹ کوالٹی، زیادہ تعصب اور دیگر ناپسندیدہ اثرات کا باعث بن سکتا ہے۔
تجربہ
ماہرین تعلیم نے 44 طبی تحقیقی مقالوں کے خلاصوں کا خلاصہ کرنے کے لیے 16 مکینیکل ترک سرفس کو بھرتی کیا، اور اندازہ لگایا کہ کارکنوں کے ذریعہ جمع کرائے گئے متن کے 33 سے 46 فیصد حصے بڑے زبان کے ماڈلز کا استعمال کرتے ہوئے تیار کیے گئے۔ ہجوم کے کارکنوں کو اکثر کم اجرت دی جاتی ہے - خود بخود ردعمل پیدا کرنے کے لیے AI کا استعمال انہیں تیزی سے کام کرنے اور تنخواہ بڑھانے کے لیے مزید ملازمتیں لینے کی اجازت دیتا ہے۔
سوئس ٹیم نے یہ اندازہ لگانے کے لیے ایک درجہ بندی کرنے والے کو تربیت دی کہ آیا ترکوں کی جانب سے جمع کرائی گئی گذارشات انسانی یا AI سے تیار کی گئی تھیں۔ ماہرین تعلیم نے اپنے کارکنوں کے کی اسٹروکس کو بھی لاگ ان کیا تاکہ یہ معلوم کیا جا سکے کہ آیا serfs نے متن کو پلیٹ فارم پر کاپی اور چسپاں کیا، یا خود ان کے اندراجات میں ٹائپ کیا۔ ہمیشہ یہ موقع ہوتا ہے کہ کوئی چیٹ بوٹ استعمال کرتا ہے اور پھر آؤٹ پٹ میں دستی طور پر ٹائپ کرتا ہے - لیکن ہمارے خیال میں اس کا امکان نہیں ہے۔
"ہم نے ایک بہت ہی مخصوص طریقہ کار تیار کیا جس نے ہمارے منظر نامے میں مصنوعی متن کا پتہ لگانے کے لیے بہت اچھا کام کیا،" منوئیل ریبیرو، اس کے شریک مصنف مطالعہ اور ای پی ایف ایل میں پی ایچ ڈی کے طالب علم نے بتایا رجسٹر اس ہفتے.
"جبکہ روایتی طریقے مصنوعی متن کا پتہ لگانے کی کوشش کرتے ہیں 'کسی بھی تناظر میں'، ہمارا نقطہ نظر ہمارے مخصوص منظر نامے میں مصنوعی متن کا پتہ لگانے پر مرکوز ہے۔"
درجہ بندی کرنے والا یہ شناخت کرنے میں کامل نہیں ہے کہ آیا کسی نے AI سسٹم استعمال کیا ہے یا اپنا کام خود بنایا ہے۔ ماہرین تعلیم نے اپنے درجہ بندی کے آؤٹ پٹ کو کلیدی اسٹروک ڈیٹا کے ساتھ جوڑ دیا تاکہ زیادہ یقینی ہو جب کوئی بوٹ سے کاپی پیسٹ کرے یا اپنا مواد خود تیار کرے۔
انسانی ڈیٹا سونے کا معیار ہے، کیونکہ یہ انسان ہی ہیں جن کی ہمیں پرواہ ہے۔
ربیرو نے ہمیں بتایا کہ "ہم نے کی اسٹروک ڈیٹا کا استعمال کرتے ہوئے اپنے نتائج کی توثیق کرنے میں کامیاب ہو گئے جو ہم نے MTurk سے بھی جمع کیا تھا۔" "مثال کے طور پر، ہم نے پایا کہ وہ تمام متن جو کاپی پیسٹ نہیں کیے گئے تھے، ہم نے 'حقیقی' کے طور پر درجہ بندی کی تھی، جس سے پتہ چلتا ہے کہ کچھ غلط مثبت ہیں۔"
ٹیسٹ چلانے کے لیے استعمال ہونے والا کوڈ اور ڈیٹا یہاں پایا جا سکتا، GitHub پر۔
ایک اور وجہ بھی ہے کہ تجربہ مکمل طور پر منصفانہ نمائندگی کا امکان نہیں ہے کہ کتنے کارکنان واقعی کراؤڈ سورس کے کاموں کو خودکار کرنے کے لیے AI کا استعمال کر رہے ہیں۔ مصنفین نوٹ کرتے ہیں کہ متن کا خلاصہ کرنے کا کام دوسری قسم کی ملازمتوں کے مقابلے بڑے لینگوئج ماڈلز کے لیے موزوں ہے - مطلب یہ ہے کہ ان کے نتائج ChatGPT جیسے ٹولز کا استعمال کرتے ہوئے زیادہ تعداد میں کارکنوں کی طرف متوجہ ہو سکتے ہیں۔
46 کارکنوں کے 44 جوابات کا ان کا ڈیٹا سیٹ بھی چھوٹا ہے۔ کارکنوں کو ہر متن کے خلاصے کے لیے $1 ادا کیا گیا، جو دوبارہ صرف AI کے استعمال کی حوصلہ افزائی کر سکتا ہے۔
محققین نے دلیل دی کہ اگر بڑی زبان کے ماڈلز بدتر ہو جائیں گے اگر انہیں کراؤڈ سورس پلیٹ فارمز سے جمع کردہ AI کے ذریعے تیار کردہ جعلی مواد پر تیزی سے تربیت دی جائے گی۔ OpenAI جیسے لباس بالکل اسی طرح رکھتے ہیں کہ وہ اپنے جدید ترین ماڈلز کو کس طرح تربیت دیتے ہیں ایک قریبی راز ہے، اور ہو سکتا ہے کہ مکینیکل ترک جیسی چیزوں پر بہت زیادہ انحصار نہ کریں۔ اس نے کہا، بہت سارے دوسرے ماڈلز انسانی کارکنوں پر بھروسہ کر سکتے ہیں، جو بدلے میں تربیتی ڈیٹا تیار کرنے کے لیے بوٹس کا استعمال کر سکتے ہیں، جو کہ ایک مسئلہ ہے۔
مکینیکل ترک، ایک کے لیے، "پاور مشین لرننگ ماڈلز کے ڈیٹا لیبلنگ سلوشنز" کے فراہم کنندہ کے طور پر فروخت کیا جاتا ہے۔
ریبیریو نے کہا کہ "انسانی ڈیٹا سونے کا معیار ہے، کیونکہ یہ انسان ہی ہیں جن کی ہم پرواہ کرتے ہیں، بڑے زبان کے ماڈلز کی نہیں۔" "میں ایسی دوا نہیں لوں گا جس کا تجربہ صرف ڈروسوفلا حیاتیاتی ماڈل میں کیا گیا ہو،" اس نے ایک مثال کے طور پر کہا۔
محققین نے استدلال کیا کہ آج کے AI ماڈلز کے ذریعہ پیدا ہونے والے جوابات عام طور پر کافی ہلکے یا معمولی ہوتے ہیں، اور انسانی تخلیقی صلاحیتوں کی پیچیدگی اور تنوع کو نہیں پکڑتے۔
"بعض اوقات ہم کراؤڈ سورسڈ ڈیٹا کے ساتھ جس چیز کا مطالعہ کرنا چاہتے ہیں وہ بالکل وہی طریقے ہیں جن میں انسان نامکمل ہیں،" رابرٹ ویسٹ، مقالے کے شریک مصنف اور ای پی ایف ایل کے کمپیوٹر اینڈ کمیونیکیشن سائنس کے اسسٹنٹ پروفیسر نے ہمیں بتایا۔
جیسا کہ AI میں بہتری آتی جارہی ہے، اس بات کا امکان ہے کہ کراؤڈ سورس شدہ کام بدل جائے گا۔ ریبیریو نے قیاس کیا کہ زبان کے بڑے ماڈل مخصوص کاموں میں کچھ کارکنوں کی جگہ لے سکتے ہیں۔ "تاہم، متضاد طور پر، انسانی ڈیٹا پہلے سے کہیں زیادہ قیمتی ہو سکتا ہے اور اس طرح یہ ہو سکتا ہے کہ یہ پلیٹ فارم زبان کے بڑے ماڈل کے استعمال کو روکنے کے طریقوں پر عمل درآمد کر سکیں گے اور اس بات کو یقینی بنائیں گے کہ یہ انسانی ڈیٹا کا ایک ذریعہ رہے گا۔"
کون جانتا ہے – ہو سکتا ہے کہ انسان جوابات پیدا کرنے کے لیے زبان کے بڑے ماڈلز کے ساتھ تعاون بھی ختم کر دیں۔ ®
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- ای وی ایم فنانس۔ وکندریقرت مالیات کے لیے متحد انٹرفیس۔ یہاں تک رسائی حاصل کریں۔
- کوانٹم میڈیا گروپ۔ آئی آر/پی آر ایمپلیفائیڈ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 ڈیٹا انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- : ہے
- : ہے
- : نہیں
- $UP
- 16
- 7
- a
- قابلیت
- ہمارے بارے میں
- خلاصہ
- اکادمک
- درست
- شامل کیا
- پھر
- AI
- تمام
- کی اجازت دیتا ہے
- بھی
- ہمیشہ
- ایمیزون
- an
- اور
- ایک اور
- کوئی بھی
- نقطہ نظر
- کیا
- دلیل
- مصنوعی
- مصنوعی ذہانت
- AS
- اسسٹنٹ
- At
- مصنفین
- خود کار طریقے سے
- آٹومیٹڈ
- خود کار طریقے سے
- دور
- BE
- کیونکہ
- کیا جا رہا ہے
- تعصب
- اربوں
- ہلکا پھلکا
- بوٹ
- خودکار صارف دکھا ئیں
- تعمیر
- تعمیر
- لیکن
- by
- کر سکتے ہیں
- قبضہ
- پرواہ
- کچھ
- موقع
- تبدیل
- چیٹ بٹ
- چیٹ جی پی ٹی
- سستے
- درجہ بندی
- کلوز
- CO
- شریک مصنف۔
- کوڈ
- تعاون
- مل کر
- مواصلات
- کمپنیاں
- مقابلے میں
- مکمل
- مکمل طور پر
- پیچیدگی
- کمپیوٹر
- یہ نتیجہ اخذ کیا
- منعقد
- مواد
- سیاق و سباق
- جاری ہے
- کارپوریشنز
- سکتا ہے
- تخلیقی
- اہم
- بھیڑ
- اعداد و شمار
- ڈیٹاسیٹس
- ترقی یافتہ
- ڈویلپرز
- تباہ کن
- تنوع
- do
- ڈالر
- ہر ایک
- اثرات
- کی حوصلہ افزائی
- آخر
- کو یقینی بنانے کے
- اندازے کے مطابق
- بھی
- کبھی نہیں
- بالکل
- مثال کے طور پر
- مثال کے طور پر
- تجربہ
- منصفانہ
- جعلی
- جھوٹی
- تیز تر
- فیڈ
- چند
- توجہ مرکوز
- کے لئے
- ملا
- سے
- مستقبل
- پیدا
- پیدا
- حاصل
- GitHub کے
- گولڈ
- گولڈ سٹینڈرڈ
- ہے
- he
- بھاری
- اعلی معیار کی
- اعلی
- کس طرح
- تاہم
- HTTPS
- انسانی
- انسان
- i
- کی نشاندہی
- if
- پر عملدرآمد
- کو بہتر بنانے کے
- in
- اضافہ
- دن بدن
- انٹیلی جنس
- میں
- نہیں
- IT
- میں
- نوکریاں
- فوٹو
- رکھیں
- لیبل
- لیبر
- زبان
- بڑے
- بڑے
- تازہ ترین
- قیادت
- سیکھنے
- کی طرح
- امکان
- انکرنا
- لو
- مشین
- مشین لرننگ
- بنا
- میں کامیاب
- دستی طور پر
- بہت سے
- مواد
- مئی..
- مطلب
- میکانی
- طبی
- طبی تحقیق
- دوا
- طریقہ کار
- طریقوں
- شاید
- ماڈل
- ماڈل
- زیادہ
- بہت
- ضرورت ہے
- منفی
- تعداد
- اشیاء
- of
- اکثر
- on
- ایک
- آن لائن
- صرف
- اوپنائی
- or
- دیگر
- ہمارے
- پیداوار
- خود
- ادا
- کاغذ.
- کاغذات
- پارٹی
- ادا
- لوگ
- فیصد
- کامل
- انجام دیں
- شاید
- پلیٹ فارم
- پلیٹ فارم
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- کافی مقدار
- پول
- طاقت
- قیمتی
- ٹھیک ہے
- پیشن گوئی
- کی روک تھام
- مسئلہ
- تیار
- ٹیچر
- فراہم کنندہ
- فراہم کرنے
- معیار
- اصلی
- واقعی
- وجہ
- سفارش کی
- قابل اعتماد
- انحصار کرو
- باقی
- بار بار
- کی جگہ
- نمائندگی
- تحقیق
- محققین
- جوابات
- نتائج کی نمائش
- ROBERT
- رن
- s
- کہا
- اسی
- پیمانے
- منظر نامے
- سکول
- سائنس
- خفیہ
- دیکھنا
- سروسز
- حالات
- چھوٹے
- حل
- کچھ
- کسی
- ماخذ
- مخصوص
- معیار
- طالب علم
- مطالعہ
- عرضیاں
- جمع کرائی
- اس طرح
- پتہ چلتا ہے
- مختصر
- خلاصہ
- سوئس
- سوئٹزرلینڈ
- مصنوعی
- کے نظام
- سسٹمز
- لے لو
- ٹاسک
- کاموں
- ٹیم
- ٹیسٹ
- تجربہ
- سے
- کہ
- ۔
- مستقبل
- ان
- ان
- خود
- تو
- وہاں.
- یہ
- وہ
- چیزیں
- تھرڈ
- اس
- اس ہفتے
- کرنے کے لئے
- آج
- بھی
- اوزار
- کی طرف
- روایتی
- ٹرین
- تربیت یافتہ
- ٹریننگ
- کوشش
- ٹرن
- اقسام
- امکان نہیں
- ناپسندیدہ
- us
- استعمال
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- استعمال
- کا استعمال کرتے ہوئے
- عام طور پر
- تصدیق کریں۔
- قیمتی
- بہت
- کی طرف سے
- اجرت
- چاہتے ہیں
- تھا
- طریقوں
- we
- ہفتے
- اچھا ہے
- تھے
- مغربی
- کیا
- جب
- چاہے
- جس
- جبکہ
- گے
- ساتھ
- کام
- کام کیا
- کارکنوں
- بدتر
- زیفیرنیٹ