ה-AI של היום הוא בינה מלאכותית מלאכותית

הועלה מחדש על ידי אפלטון

עוקב: 0

ה-AI של היום הוא בינה מלאכותית מלאכותית PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עובדים שנשכרים באמצעות שירותי מיקור המונים כמו Amazon Mechanical Turk משתמשים במודלים של שפות גדולות כדי להשלים את המשימות שלהם - מה שעלול להיות בעל השפעות שליליות על מודלים של AI בעתיד.

נתונים הם קריטיים ל-AI. מפתחים צריכים מערכי נתונים נקיים ואיכותיים כדי לבנות מערכות למידת מכונה מדויקות ואמינות. אולם, חיבור נתונים יקרי ערך ברמה הגבוהה ביותר עלול להיות מייגע. חברות פונות לעתים קרובות לפלטפורמות של צד שלישי כמו Amazon Mechanical Turk כדי להורות למאגרים של עובדים זולים לבצע משימות שחוזרות על עצמן - כגון תיוג אובייקטים, תיאור מצבים, תמלול קטעים והערת טקסט.

ניתן לנקות את הפלט שלהם ולהזין אותו למודל כדי לאמן אותו לשחזר את העבודה בקנה מידה גדול הרבה יותר, אוטומטי.

מודלים של בינה מלאכותית בנויים אפוא על גב העבודה האנושי: אנשים עמלים, מספקים הרים של דוגמאות אימון למערכות בינה מלאכותית שבהן תאגידים יכולים להשתמש כדי להרוויח מיליארדי דולרים.

אבל ניסוי שנערך על ידי חוקרים ב-École polytechnique fédérale de Lausanne (EPFL) בשוויץ הגיע למסקנה שהעובדים האלה במיקור המונים משתמשים במערכות בינה מלאכותית - כמו הצ'אטבוט ChatGPT של OpenAI - כדי לבצע עבודות מזדמנות באינטרנט.

לא מומלץ להכשיר דגם על פלט משלו. יכולנו לראות מודלים של AI מאומנים על נתונים שנוצרו לא על ידי אנשים, אלא על ידי מודלים אחרים של AI - אולי אפילו אותם מודלים. זה עלול להוביל לאיכות פלט הרסנית, יותר הטיה והשפעות לא רצויות אחרות.

הניסוי

האקדמאים גייסו 44 צמיתים מכניים טורקים כדי לסכם את התקצירים של 16 מאמרי מחקר רפואיים, והעריכו כי 33 עד 46 אחוז מקטעי הטקסט שהוגשו על ידי העובדים נוצרו באמצעות מודלים של שפות גדולות. עובדי ההמונים מקבלים לעתים קרובות שכר נמוך - שימוש בבינה מלאכותית ליצירת תגובות אוטומטית מאפשר להם לעבוד מהר יותר ולקחת על עצמם יותר עבודות כדי להגדיל את השכר.

הצוות השוויצרי אימן מסווג כדי לחזות אם ההגשות מהטורקים נוצרו על ידי בני אדם או בינה מלאכותית. האקדמאים גם רשמו את הקשות המקשים של העובדים שלהם כדי לזהות אם הצמיתים העתיקו והדביקו טקסט על הפלטפורמה, או הקלידו את הערכים שלהם בעצמם. תמיד יש סיכוי שמישהו משתמש בצ'אט בוט ואז מקליד ידנית את הפלט - אבל זה לא סביר, אנחנו מניחים.

"פיתחנו מתודולוגיה מאוד ספציפית שעבדה טוב מאוד לאיתור טקסט סינתטי בתרחיש שלנו", מנואל ריביירו, מחבר שותף של המחקר וסטודנט לתואר שלישי ב-EPFL, סיפר הקופה השבוע.

"בעוד ששיטות מסורתיות מנסות לזהות טקסט סינתטי 'בכל הקשר', הגישה שלנו מתמקדת באיתור טקסט סינתטי בתרחיש הספציפי שלנו."

המסווג אינו מושלם בזיהוי אם מישהו השתמש במערכת AI או הפיק את העבודה שלו. האקדמאים שילבו את הפלט של המסווג שלהם עם נתוני הקשות המקשים כדי להיות בטוחים יותר כשמישהו העתיק-הדבק מבוט או הפיק חומר משלו.

נתונים אנושיים הם תקן הזהב, מכיוון שאכפת לנו מהם

"הצלחנו לאמת את התוצאות שלנו באמצעות נתוני הקשות שאספנו גם מ-MTurk", אמר לנו Ribeiro. "לדוגמה, מצאנו שכל הטקסטים שלא הודבקו בהעתקה סווגו על ידינו כ'אמיתיים', מה שמצביע על כך שיש מעט תוצאות שגויות".

הקוד והנתונים ששימשו להפעלת הבדיקה ניתן למצוא כאן, ב-GitHub.

ישנה סיבה נוספת שהניסוי לא יהווה ייצוג הוגן לחלוטין של כמה עובדים באמת משתמשים בבינה מלאכותית כדי לבצע אוטומציה של משימות מיקור המונים. המחברים מציינים כי משימת סיכום הטקסט מתאימה היטב למודלים של שפות גדולות בהשוואה לסוגים אחרים של עבודות - כלומר התוצאות שלהם עשויות להיות מוטות יותר למספר גבוה יותר של עובדים המשתמשים בכלים כמו ChatGPT.

גם מערך הנתונים שלהם הכולל 46 תגובות מ-44 עובדים קטן. העובדים קיבלו $1 עבור כל סיכום טקסט, מה ששוב עשוי לעודד שימוש בבינה מלאכותית.

מודלים של שפות גדולות יחמירו אם הם יוכשרו יותר ויותר על תוכן מזויף שנוצר על ידי AI שנאסף מפלטפורמות של מקור המונים, טענו החוקרים. תלבושות כמו OpenAI שומרות בדיוק את האופן שבו הן מאמנות את הדגמים האחרונים שלהן בסוד קרוב, ואולי לא מסתמכות במידה רבה על דברים כמו Mechanical Turk, אם בכלל. עם זאת, הרבה מודלים אחרים עשויים להסתמך על עובדים אנושיים, אשר עשויים בתורם להשתמש בבוטים כדי ליצור נתוני אימון, וזו בעיה.

Mechanical Turk, למשל, משווקת כספקית של "פתרונות תיוג נתונים להפעלת מודלים של למידת מכונה".

"נתונים אנושיים הם תקן הזהב, מכיוון שאכפת לנו מהם, לא מודלים של שפות גדולות", אמר ריבריו. "לא הייתי לוקח תרופה שנבדקה רק במודל ביולוגי של תסיסנית", אמר כדוגמה.

התגובות שנוצרות על ידי מודלים של AI של היום הן בדרך כלל די תפלות או טריוויאליות, ואינן לוכדות את המורכבות והמגוון של היצירתיות האנושית, טענו החוקרים.

"לפעמים מה שאנחנו רוצים ללמוד עם נתונים ממקור המונים הוא בדיוק הדרכים שבהן בני אדם אינם מושלמים", אמר לנו רוברט ווסט, מחבר המאמר ועוזר פרופסור בבית הספר למדעי המחשב והתקשורת של ה-EPFL.

ככל שה-AI ממשיך להשתפר, סביר להניח שעבודה במיקור המונים תשתנה. ריבריו שיער שמודלים של שפה גדולים יכולים להחליף חלק מהעובדים במשימות ספציפיות. "עם זאת, באופן פרדוקסלי, נתונים אנושיים עשויים להיות יקרים מתמיד, ולכן ייתכן שהפלטפורמות הללו יוכלו ליישם דרכים למנוע שימוש במודלים של שפה גדולה ולהבטיח שהם יישארו מקור לנתונים אנושיים."

מי יודע - אולי בני אדם עשויים אפילו בסופו של דבר לשתף פעולה עם מודלים של שפות גדולות כדי ליצור גם תגובות, הוא הוסיף. ®

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
EVM Finance. ממשק מאוחד למימון מבוזר. גישה כאן.
Quantum Media Group. IR/PR מוגבר. גישה כאן.
PlatoAiStream. Web3 Data Intelligence. הידע מוגבר. גישה כאן.
מקור: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/

בול זמן: יוני 16, 2023

בול זמן: יולי 28, 2023

ה-AI של היום הוא בינה מלאכותית מלאכותית

הועלה מחדש על ידי אפלטון

הניסוי

עוד מ הקופה

סופר מדע בדיוני 'כותב' 97 ספרים שנוצרו על ידי בינה מלאכותית בתשעה חודשים

3 סיבות נפוצות לכשלים בפרויקטים בניתוח ובינה מלאכותית

אתה יכול לגרום ל-LLMs מובילים לשבור את הכללים שלהם עם ג'יבריש

OpenAI תבעה לאחר ש-ChatGPT טוען כוזב שאדם מעילה כסף

מנכ"ל תלבושת מונית לנהיגה עצמית קרוז מתפטר

רובוט משגה באדם בקופסת פלפלים, הורג אותו

ערכי סטארט-אפים טכנולוגיים בנהיגה עצמית קורסים ב-81% תוך שנתיים

ענקית התחבורה אוספת את בינה מלאכותית של Google Cloud כדי לסייע במשלוח ומעקב אחר חבילות

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן