کارگرانی که از طریق سرویسهای crowdsource مانند Amazon Mechanical Turk استخدام میشوند، از مدلهای زبان بزرگ برای تکمیل وظایف خود استفاده میکنند – که میتواند اثرات منفی بر روی مدلهای هوش مصنوعی در آینده داشته باشد.
داده ها برای هوش مصنوعی حیاتی هستند. توسعه دهندگان برای ساختن سیستم های یادگیری ماشینی دقیق و قابل اعتماد به مجموعه داده های تمیز و باکیفیت نیاز دارند. با این حال، گردآوری داده های با ارزش و درجه یک می تواند خسته کننده باشد. شرکتها اغلب به پلتفرمهای شخص ثالث مانند Amazon Mechanical Turk روی میآورند تا به مجموعهای از کارگران ارزان قیمت دستور دهند تا کارهای تکراری را انجام دهند - مانند برچسب زدن به اشیا، توصیف موقعیتها، رونویسی متن و حاشیهنویسی متن.
خروجی آنها را می توان تمیز کرد و به مدلی وارد کرد تا آن را برای بازتولید آن کار در مقیاس بسیار بزرگتر و خودکار آموزش دهد.
بنابراین، مدلهای هوش مصنوعی بر پایه نیروی کار انسانی ساخته میشوند: افرادی که در حال تلاش هستند، کوههایی از نمونههای آموزشی برای سیستمهای هوش مصنوعی ارائه میکنند که شرکتها میتوانند از آن برای کسب میلیاردها دلار استفاده کنند.
اما آزمایشی که توسط محققان École polytechnique fédérale de Lozanne (EPFL) در سوئیس انجام شد، به این نتیجه رسید که این کارگران جمعسپاری از سیستمهای هوش مصنوعی - مانند ربات چت OpenAI ChatGPT - برای انجام کارهای عجیب و غریب به صورت آنلاین استفاده میکنند.
آموزش یک مدل بر روی خروجی خودش توصیه نمی شود. ما میتوانیم مدلهای هوش مصنوعی را ببینیم که بر روی دادههای تولید شده توسط افراد نه، بلکه توسط سایر مدلهای هوش مصنوعی - شاید حتی همان مدلها - آموزش میبینند. این می تواند منجر به کیفیت خروجی فاجعه آمیز، تعصب بیشتر و سایر اثرات ناخواسته شود.
آزمایش
دانشگاهیان 44 رعیت ترک مکانیکی را برای خلاصه کردن چکیدههای 16 مقاله تحقیقاتی پزشکی استخدام کردند و تخمین زدند که 33 تا 46 درصد از متنهای ارسالی توسط کارگران با استفاده از مدلهای زبانی بزرگ تولید شده است. کارگران جمعی اغلب دستمزدهای پایینی دریافت میکنند – استفاده از هوش مصنوعی برای تولید خودکار پاسخها به آنها اجازه میدهد سریعتر کار کنند و مشاغل بیشتری را برای افزایش دستمزد انجام دهند.
تیم سوئیسی طبقهبندیکنندهای را آموزش داد تا پیشبینی کند که ارسالهای ترکها توسط انسان یا هوش مصنوعی تولید شده است. آکادمیکها همچنین کلیدهای کارگران خود را ثبت کردند تا تشخیص دهند که آیا سرفها متنی را روی پلتفرم کپی و چسباندهاند یا خودشان نوشتههایشان را تایپ کردهاند. همیشه این احتمال وجود دارد که شخصی از یک ربات چت استفاده کند و سپس به صورت دستی خروجی را تایپ کند - اما ما تصور می کنیم که بعید است.
مانوئل ریبیرو، یکی از نویسندگان این مقاله، "ما یک روش بسیار خاص توسعه دادیم که برای تشخیص متن مصنوعی در سناریوی ما بسیار خوب عمل کرد." مطالعه و یک دانشجوی دکترا در EPFL گفت ثبت نام این هفته است.
در حالی که روشهای سنتی سعی میکنند متن مصنوعی را در هر زمینهای شناسایی کنند، رویکرد ما بر تشخیص متن مصنوعی در سناریوی خاص خود متمرکز است.
طبقهبندی کننده در تشخیص اینکه آیا شخصی از سیستم هوش مصنوعی استفاده میکند یا کار خود را تولید کرده است، کامل نیست. دانشگاهیان خروجی طبقهبندیکننده خود را با دادههای ضربه زدن به کلید ترکیب کردند تا زمانی که شخصی از یک ربات کپی پیست میکند یا مطالب خود را تولید میکند مطمئنتر شوند.
داده های انسانی استاندارد طلایی است، زیرا این انسان ها هستند که به آنها اهمیت می دهیم
ریبیرو به ما گفت: «ما موفق شدیم نتایج خود را با استفاده از دادههای ضربه زدن به کلید که از MTurk جمعآوری کردیم، تأیید کنیم. به عنوان مثال، ما متوجه شدیم که تمام متنهایی که کپی پیست نشدهاند توسط ما بهعنوان «واقعی» طبقهبندی شدهاند، که نشان میدهد موارد مثبت نادرست کمی وجود دارد.
کد و داده های مورد استفاده برای اجرای آزمایش را می توان در اینجا یافت نشد، در GitHub.
دلیل دیگری وجود دارد که بعید به نظر میرسد این آزمایش بهطور کامل نشان دهد که چه تعداد از کارگران واقعاً از هوش مصنوعی برای خودکارسازی وظایف جمعسپاری استفاده میکنند. نویسندگان خاطرنشان میکنند که وظیفه خلاصهسازی متن در مقایسه با انواع دیگر مشاغل برای مدلهای زبان بزرگ مناسب است - به این معنی که نتایج آنها ممکن است بیشتر به سمت تعداد بیشتری از کارگران با استفاده از ابزارهایی مانند ChatGPT منحرف شود.
مجموعه داده آنها شامل 46 پاسخ از 44 کارگر نیز کوچک است. کارگران برای هر خلاصه متن 1 دلار دستمزد دریافت کردند که باز هم ممکن است استفاده از هوش مصنوعی را تشویق کند.
به گفته محققان، اگر به طور فزاینده ای بر روی محتوای جعلی تولید شده توسط هوش مصنوعی که از پلتفرم های crowdsource جمع آوری شده است، آموزش ببینند، مدل های زبان بزرگ بدتر خواهند شد. لباسهایی مانند OpenAI دقیقاً نحوه آموزش جدیدترین مدلهای خود را مخفی نگه میدارند و ممکن است چندان به چیزهایی مانند Mechanical Turk وابسته نباشند. گفته میشود، بسیاری از مدلهای دیگر ممکن است به کارگران انسانی متکی باشند، که ممکن است به نوبه خود از رباتها برای تولید دادههای آموزشی استفاده کنند، که یک مشکل است.
مکانیکال ترک، برای نمونه، به عنوان ارائهدهنده «راهحلهای برچسبگذاری داده برای تقویت مدلهای یادگیری ماشین» به بازار عرضه میشود.
ریبریو گفت: «دادههای انسانی استاندارد طلایی هستند، زیرا ما به انسانها اهمیت میدهیم، نه مدلهای بزرگ زبان. او به عنوان مثال گفت: "من دارویی را که فقط در مدل بیولوژیکی مگس سرکه آزمایش شده باشد، مصرف نمی کنم."
به گفته محققان، پاسخهای تولید شده توسط مدلهای هوش مصنوعی امروزی معمولاً کاملاً بیاهمیت یا بیاهمیت هستند و پیچیدگی و تنوع خلاقیت انسان را نشان نمیدهند.
رابرت وست، یکی از نویسندگان مقاله و استادیار دانشکده علوم کامپیوتر و ارتباطات EPFL، به ما گفت: «گاهی اوقات چیزی که ما میخواهیم با دادههای جمعسپاری مطالعه کنیم، دقیقاً روشهایی است که در آن انسانها ناقص هستند.
با ادامه پیشرفت هوش مصنوعی، این احتمال وجود دارد که کار جمعسپاری تغییر کند. ریبریو حدس می زد که مدل های زبان بزرگ می توانند جایگزین برخی از کارگران در وظایف خاص شوند. با این حال، به طرز متناقضی، دادههای انسانی ممکن است با ارزشتر از همیشه باشند و بنابراین ممکن است این پلتفرمها بتوانند راههایی را برای جلوگیری از استفاده گسترده از مدل زبان پیادهسازی کنند و اطمینان حاصل کنند که منبع دادههای انسانی باقی میمانند.»
چه کسی میداند - شاید انسانها حتی ممکن است در نهایت با مدلهای زبانی بزرگ برای ایجاد پاسخ نیز همکاری کنند. ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- EVM Finance. رابط یکپارچه برای امور مالی غیرمتمرکز دسترسی به اینجا.
- گروه رسانه ای کوانتومی. IR/PR تقویت شده دسترسی به اینجا.
- PlatoAiStream. Web3 Data Intelligence دانش تقویت شده دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- : دارد
- :است
- :نه
- $UP
- 16
- 7
- a
- قادر
- درباره ما
- چکیده ها
- دانشگاهیان
- دقیق
- اضافه
- از نو
- AI
- معرفی
- اجازه می دهد تا
- همچنین
- همیشه
- آمازون
- an
- و
- دیگر
- هر
- روش
- هستند
- استدلال کرد
- مصنوعی
- هوش مصنوعی
- AS
- دستیار
- At
- نویسندگان
- خودکار بودن
- خودکار
- بطور خودکار
- دور
- BE
- زیرا
- بودن
- تعصب
- میلیاردها
- بلندی
- ربات
- رباتها
- ساختن
- ساخته
- اما
- by
- CAN
- گرفتن
- اهميت دادن
- معین
- شانس
- تغییر دادن
- chatbot
- GPT چت
- ارزان
- طبقه بندی
- نزدیک
- CO
- نویسنده مشترک
- رمز
- همکاری
- ترکیب شده
- ارتباط
- شرکت
- مقایسه
- کامل
- به طور کامل
- پیچیدگی
- کامپیوتر
- به این نتیجه رسیدند
- انجام
- محتوا
- زمینه
- ادامه
- شرکت ها
- میتوانست
- خلاقیت
- بحرانی
- جمعیت
- داده ها
- مجموعه داده ها
- توسعه
- توسعه دهندگان
- فاجعه بار
- تنوع
- do
- دلار
- هر
- اثرات
- تشویق
- پایان
- اطمینان حاصل شود
- برآورد
- حتی
- تا کنون
- کاملا
- مثال
- مثال ها
- تجربه
- منصفانه
- جعلی
- غلط
- سریعتر
- تغذیه
- کمی از
- متمرکز شده است
- برای
- یافت
- از جانب
- آینده
- تولید می کنند
- تولید
- دریافت کنید
- GitHub
- طلا
- واحد طلا
- آیا
- he
- به شدت
- با کیفیت بالا
- بالاتر
- چگونه
- اما
- HTTPS
- انسان
- انسان
- i
- شناسایی
- if
- انجام
- بهبود
- in
- افزایش
- به طور فزاینده
- اطلاعات
- به
- نیست
- IT
- ITS
- شغل ها
- JPG
- نگاه داشتن
- برچسب
- کار
- زبان
- بزرگ
- بزرگتر
- آخرین
- رهبری
- یادگیری
- پسندیدن
- احتمالا
- سیستم وارد
- کم
- دستگاه
- فراگیری ماشین
- ساخت
- اداره می شود
- دستی
- بسیاری
- ماده
- ممکن است..
- معنی
- مکانیکی
- پزشکی
- تحقیقات پزشکی
- پزشکی
- روش شناسی
- روش
- قدرت
- مدل
- مدل
- بیش
- بسیار
- نیاز
- منفی
- عدد
- اشیاء
- of
- غالبا
- on
- ONE
- آنلاین
- فقط
- OpenAI
- or
- دیگر
- ما
- تولید
- خود
- پرداخت
- مقاله
- اوراق
- حزب
- پرداخت
- مردم
- در صد
- کامل
- انجام
- شاید
- سکو
- سیستم عامل
- افلاطون
- هوش داده افلاطون
- PlatoData
- بسیاری
- استخرها
- قدرت
- گرانبها
- دقیقا
- پیش بینی
- جلوگیری از
- مشکل
- ساخته
- معلم
- ارائه دهنده
- ارائه
- کیفیت
- واقعی
- واقعا
- دلیل
- توصیه می شود
- قابل اعتماد
- تکیه
- بقایای
- تکراری
- جایگزین کردن
- نمایندگی
- تحقیق
- محققان
- پاسخ
- نتایج
- رابرت
- دویدن
- s
- سعید
- همان
- مقیاس
- سناریو
- مدرسه
- علم
- راز
- دیدن
- خدمات
- شرایط
- کوچک
- مزایا
- برخی از
- کسی
- منبع
- خاص
- استاندارد
- دانشجو
- مهاجرت تحصیلی
- مطالب ارسالی
- ارسال
- چنین
- حاکی از
- خلاصه کردن
- خلاصه
- سویسی
- سویس
- ترکیبی
- سیستم
- سیستم های
- گرفتن
- کار
- وظایف
- تیم
- آزمون
- آزمایش
- نسبت به
- که
- La
- آینده
- شان
- آنها
- خودشان
- سپس
- آنجا.
- اینها
- آنها
- اشیاء
- سوم
- این
- این هفته
- به
- امروز
- هم
- ابزار
- طرف
- سنتی
- قطار
- آموزش دیده
- آموزش
- امتحان
- دور زدن
- انواع
- بعید
- ناخواسته
- us
- استفاده
- استفاده کنید
- استفاده
- استفاده
- با استفاده از
- معمولا
- تصدیق
- ارزشمند
- بسیار
- از طريق
- مزد
- می خواهم
- بود
- راه
- we
- هفته
- خوب
- بود
- غرب
- چی
- چه زمانی
- چه
- که
- در حین
- اراده
- با
- مهاجرت کاری
- مشغول به کار
- کارگران
- بدتر
- زفیرنت