עובדים שנשכרים באמצעות שירותי מיקור המונים כמו Amazon Mechanical Turk משתמשים במודלים של שפות גדולות כדי להשלים את המשימות שלהם - מה שעלול להיות בעל השפעות שליליות על מודלים של AI בעתיד.
נתונים הם קריטיים ל-AI. מפתחים צריכים מערכי נתונים נקיים ואיכותיים כדי לבנות מערכות למידת מכונה מדויקות ואמינות. אולם, חיבור נתונים יקרי ערך ברמה הגבוהה ביותר עלול להיות מייגע. חברות פונות לעתים קרובות לפלטפורמות של צד שלישי כמו Amazon Mechanical Turk כדי להורות למאגרים של עובדים זולים לבצע משימות שחוזרות על עצמן - כגון תיוג אובייקטים, תיאור מצבים, תמלול קטעים והערת טקסט.
ניתן לנקות את הפלט שלהם ולהזין אותו למודל כדי לאמן אותו לשחזר את העבודה בקנה מידה גדול הרבה יותר, אוטומטי.
מודלים של בינה מלאכותית בנויים אפוא על גב העבודה האנושי: אנשים עמלים, מספקים הרים של דוגמאות אימון למערכות בינה מלאכותית שבהן תאגידים יכולים להשתמש כדי להרוויח מיליארדי דולרים.
אבל ניסוי שנערך על ידי חוקרים ב-École polytechnique fédérale de Lausanne (EPFL) בשוויץ הגיע למסקנה שהעובדים האלה במיקור המונים משתמשים במערכות בינה מלאכותית - כמו הצ'אטבוט ChatGPT של OpenAI - כדי לבצע עבודות מזדמנות באינטרנט.
לא מומלץ להכשיר דגם על פלט משלו. יכולנו לראות מודלים של AI מאומנים על נתונים שנוצרו לא על ידי אנשים, אלא על ידי מודלים אחרים של AI - אולי אפילו אותם מודלים. זה עלול להוביל לאיכות פלט הרסנית, יותר הטיה והשפעות לא רצויות אחרות.
הניסוי
האקדמאים גייסו 44 צמיתים מכניים טורקים כדי לסכם את התקצירים של 16 מאמרי מחקר רפואיים, והעריכו כי 33 עד 46 אחוז מקטעי הטקסט שהוגשו על ידי העובדים נוצרו באמצעות מודלים של שפות גדולות. עובדי ההמונים מקבלים לעתים קרובות שכר נמוך - שימוש בבינה מלאכותית ליצירת תגובות אוטומטית מאפשר להם לעבוד מהר יותר ולקחת על עצמם יותר עבודות כדי להגדיל את השכר.
הצוות השוויצרי אימן מסווג כדי לחזות אם ההגשות מהטורקים נוצרו על ידי בני אדם או בינה מלאכותית. האקדמאים גם רשמו את הקשות המקשים של העובדים שלהם כדי לזהות אם הצמיתים העתיקו והדביקו טקסט על הפלטפורמה, או הקלידו את הערכים שלהם בעצמם. תמיד יש סיכוי שמישהו משתמש בצ'אט בוט ואז מקליד ידנית את הפלט - אבל זה לא סביר, אנחנו מניחים.
"פיתחנו מתודולוגיה מאוד ספציפית שעבדה טוב מאוד לאיתור טקסט סינתטי בתרחיש שלנו", מנואל ריביירו, מחבר שותף של המחקר וסטודנט לתואר שלישי ב-EPFL, סיפר הקופה השבוע.
"בעוד ששיטות מסורתיות מנסות לזהות טקסט סינתטי 'בכל הקשר', הגישה שלנו מתמקדת באיתור טקסט סינתטי בתרחיש הספציפי שלנו."
המסווג אינו מושלם בזיהוי אם מישהו השתמש במערכת AI או הפיק את העבודה שלו. האקדמאים שילבו את הפלט של המסווג שלהם עם נתוני הקשות המקשים כדי להיות בטוחים יותר כשמישהו העתיק-הדבק מבוט או הפיק חומר משלו.
נתונים אנושיים הם תקן הזהב, מכיוון שאכפת לנו מהם
"הצלחנו לאמת את התוצאות שלנו באמצעות נתוני הקשות שאספנו גם מ-MTurk", אמר לנו Ribeiro. "לדוגמה, מצאנו שכל הטקסטים שלא הודבקו בהעתקה סווגו על ידינו כ'אמיתיים', מה שמצביע על כך שיש מעט תוצאות שגויות".
הקוד והנתונים ששימשו להפעלת הבדיקה ניתן למצוא כאן, ב-GitHub.
ישנה סיבה נוספת שהניסוי לא יהווה ייצוג הוגן לחלוטין של כמה עובדים באמת משתמשים בבינה מלאכותית כדי לבצע אוטומציה של משימות מיקור המונים. המחברים מציינים כי משימת סיכום הטקסט מתאימה היטב למודלים של שפות גדולות בהשוואה לסוגים אחרים של עבודות - כלומר התוצאות שלהם עשויות להיות מוטות יותר למספר גבוה יותר של עובדים המשתמשים בכלים כמו ChatGPT.
גם מערך הנתונים שלהם הכולל 46 תגובות מ-44 עובדים קטן. העובדים קיבלו $1 עבור כל סיכום טקסט, מה ששוב עשוי לעודד שימוש בבינה מלאכותית.
מודלים של שפות גדולות יחמירו אם הם יוכשרו יותר ויותר על תוכן מזויף שנוצר על ידי AI שנאסף מפלטפורמות של מקור המונים, טענו החוקרים. תלבושות כמו OpenAI שומרות בדיוק את האופן שבו הן מאמנות את הדגמים האחרונים שלהן בסוד קרוב, ואולי לא מסתמכות במידה רבה על דברים כמו Mechanical Turk, אם בכלל. עם זאת, הרבה מודלים אחרים עשויים להסתמך על עובדים אנושיים, אשר עשויים בתורם להשתמש בבוטים כדי ליצור נתוני אימון, וזו בעיה.
Mechanical Turk, למשל, משווקת כספקית של "פתרונות תיוג נתונים להפעלת מודלים של למידת מכונה".
"נתונים אנושיים הם תקן הזהב, מכיוון שאכפת לנו מהם, לא מודלים של שפות גדולות", אמר ריבריו. "לא הייתי לוקח תרופה שנבדקה רק במודל ביולוגי של תסיסנית", אמר כדוגמה.
התגובות שנוצרות על ידי מודלים של AI של היום הן בדרך כלל די תפלות או טריוויאליות, ואינן לוכדות את המורכבות והמגוון של היצירתיות האנושית, טענו החוקרים.
"לפעמים מה שאנחנו רוצים ללמוד עם נתונים ממקור המונים הוא בדיוק הדרכים שבהן בני אדם אינם מושלמים", אמר לנו רוברט ווסט, מחבר המאמר ועוזר פרופסור בבית הספר למדעי המחשב והתקשורת של ה-EPFL.
ככל שה-AI ממשיך להשתפר, סביר להניח שעבודה במיקור המונים תשתנה. ריבריו שיער שמודלים של שפה גדולים יכולים להחליף חלק מהעובדים במשימות ספציפיות. "עם זאת, באופן פרדוקסלי, נתונים אנושיים עשויים להיות יקרים מתמיד, ולכן ייתכן שהפלטפורמות הללו יוכלו ליישם דרכים למנוע שימוש במודלים של שפה גדולה ולהבטיח שהם יישארו מקור לנתונים אנושיים."
מי יודע - אולי בני אדם עשויים אפילו בסופו של דבר לשתף פעולה עם מודלים של שפות גדולות כדי ליצור גם תגובות, הוא הוסיף. ®
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- EVM Finance. ממשק מאוחד למימון מבוזר. גישה כאן.
- Quantum Media Group. IR/PR מוגבר. גישה כאן.
- PlatoAiStream. Web3 Data Intelligence. הידע מוגבר. גישה כאן.
- מקור: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :יש ל
- :הוא
- :לֹא
- $ למעלה
- 16
- 7
- a
- יכול
- אודות
- תקצירים
- אקדמאים
- מדויק
- הוסיף
- שוב
- AI
- תעשיות
- מאפשר
- גם
- תמיד
- אמזון בעברית
- an
- ו
- אחר
- כל
- גישה
- ARE
- טען
- מלאכותי
- בינה מלאכותית
- AS
- עוזר
- At
- מחברים
- אוטומטי
- אוטומטי
- באופן אוטומטי
- רָחוֹק
- BE
- כי
- להיות
- הטיה
- מיליארדים
- תפל
- בוט
- בוטים
- לִבנוֹת
- נבנה
- אבל
- by
- CAN
- ללכוד
- אשר
- מסוים
- סיכוי
- שינוי
- chatbot
- ChatGPT
- זול
- מְסוּוָג
- סְגוֹר
- CO
- מחבר שותף
- קוד
- שיתוף פעולה
- משולב
- תקשורת
- חברות
- לעומת
- להשלים
- לחלוטין
- מורכבות
- המחשב
- הגיע למסקנה
- מנוהל
- תוכן
- הקשר
- ממשיך
- תאגידים
- יכול
- יצירתיות
- קריטי
- קהל
- נתונים
- מערכי נתונים
- מפותח
- מפתחים
- אסון
- גיוון
- do
- דולר
- כל אחד
- תופעות
- לעודד
- סוף
- לְהַבטִיחַ
- מוערך
- אֲפִילוּ
- אי פעם
- בדיוק
- דוגמה
- דוגמאות
- לְנַסוֹת
- הוגן
- מְזוּיָף
- שקר
- מהר יותר
- הפד
- מעטים
- מרוכז
- בעד
- מצא
- החל מ-
- עתיד
- ליצור
- נוצר
- לקבל
- GitHub
- זהב
- תקן הזהב
- יש
- he
- בִּכְבֵדוּת
- באיכות גבוהה
- גבוה יותר
- איך
- אולם
- HTTPS
- בן אנוש
- בני אדם
- i
- זיהוי
- if
- ליישם
- לשפר
- in
- להגדיל
- יותר ויותר
- מוֹדִיעִין
- אל תוך
- J States
- IT
- שֶׁלָה
- מקומות תעסוקה
- jpg
- שמור
- תיוג
- עבודה
- שפה
- גָדוֹל
- גדול יותר
- האחרון
- עוֹפֶרֶת
- למידה
- כמו
- סביר
- מחובר
- נמוך
- מכונה
- למידת מכונה
- לעשות
- הצליח
- באופן ידני
- רב
- חוֹמֶר
- מאי..
- משמעות
- מֵכָנִי
- רפואי
- מחקר רפואי
- רפואה
- מֵתוֹדוֹלוֹגִיָה
- שיטות
- יכול
- מודל
- מודלים
- יותר
- הרבה
- צורך
- שלילי
- מספר
- אובייקטים
- of
- לעתים קרובות
- on
- ONE
- באינטרנט
- רק
- OpenAI
- or
- אחר
- שלנו
- תפוקה
- שֶׁלוֹ
- נפרע
- מאמר
- ניירות
- צד
- תשלום
- אֲנָשִׁים
- אָחוּז
- לְבַצֵעַ
- אוּלַי
- פלטפורמה
- פלטפורמות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- שפע
- ברכות
- כּוֹחַ
- יָקָר
- בדיוק
- לחזות
- למנוע
- בעיה
- מיוצר
- פרופסור
- ספק
- מתן
- איכות
- ממשי
- בֶּאֱמֶת
- טעם
- מוּמלָץ
- אָמִין
- לסמוך
- שְׂרִידִים
- חוזר על עצמו
- להחליף
- נציגות
- מחקר
- חוקרים
- תגובות
- תוצאות
- רוברט
- הפעלה
- s
- אמר
- אותו
- סולם
- תרחיש
- בית ספר
- מדע
- סוד
- לִרְאוֹת
- שירותים
- מצבים
- קטן
- פתרונות
- כמה
- מישהו
- מָקוֹר
- ספציפי
- תֶקֶן
- סטודנט
- לימוד
- הגשות
- הוגש
- כזה
- מציע
- לסכם
- סיכום
- השוויצרי
- שוויץ
- סינטטי
- מערכת
- מערכות
- לקחת
- המשימות
- משימות
- נבחרת
- מבחן
- נבדק
- מֵאֲשֶׁר
- זֶה
- השמיים
- העתיד
- שֶׁלָהֶם
- אותם
- עצמם
- אז
- שם.
- אלה
- הֵם
- דברים
- שְׁלִישִׁי
- זֶה
- השבוע
- ל
- היום
- גַם
- כלים
- לקראת
- מסורתי
- רכבת
- מְאוּמָן
- הדרכה
- לנסות
- תור
- סוגים
- לא סביר
- לא רצוי
- us
- נוֹהָג
- להשתמש
- מְשׁוּמָשׁ
- שימושים
- באמצעות
- בְּדֶרֶך כְּלַל
- לְאַמֵת
- בעל ערך
- מאוד
- באמצעות
- משכורת
- רוצה
- היה
- דרכים
- we
- שבוע
- טוֹב
- היו
- מערב
- מה
- מתי
- אם
- אשר
- בזמן
- יצטרך
- עם
- תיק עבודות
- עבד
- עובדים
- גרוע יותר
- זפירנט