Anthropic בנתה צ'אט בוט דמוקרטי של AI על ידי מתן אפשרות למשתמשים להצביע בעד ערכיו

Anthropic בנתה צ'אט בוט דמוקרטי של AI על ידי מתן אפשרות למשתמשים להצביע בעד ערכיו

במה שעשוי להיות מחקר ראשון מסוגו, חברת הבינה המלאכותית (AI) Anthropic פיתחה מודל שפה גדול (LLM) שעבר כוונון עדין לשיפוט ערכי על ידי קהילת המשתמשים שלה.

LLMs רבים הפונה לציבור פותחו עם מעקות בטיחות - הוראות מקודדות המכתיבות התנהגות ספציפית - בניסיון להגביל תפוקות לא רצויות. קלוד של Anthropic ו-ChatGPT של OpenAI, למשל, בדרך כלל נותנים למשתמשים תגובה בטיחותית משומרת לבקשות פלט הקשורות לנושאים אלימים או שנויים במחלוקת.

עם זאת, כפי שציינו אינספור מבקרים, מעקות בטיחות וטכניקות התערבות אחרות יכולות לשמש לגזול מהמשתמשים את הסוכנות שלהם. מה שנחשב מקובל לא תמיד שימושי, ומה שנחשב שימושי לא תמיד מקובל. והגדרות של מוסר או שיפוטים מבוססי ערכים יכולות להשתנות בין תרבויות, אוכלוסיות ותקופות זמן.

מידע נוסף: בריטניה תתמקד באיומי AI פוטנציאליים בפסגה המתוכננת בנובמבר

תרופה אפשרית אחת לכך היא לאפשר למשתמשים להכתיב יישור ערך עבור מודלים של AI. הניסוי של "בינה מלאכותית חוקתית" של אנתרופיק הוא דקירה ל"אתגר המבולגן" הזה.

Anthropic, בשיתוף פעולה עם Polis ו-Collective Intelligence Project, התקשרו ל-1,000 משתמשים על פני נתונים דמוגרפיים מגוונים וביקשו מהם לענות על שורה של שאלות באמצעות סקרים.

Anthropic בנתה צ'אט בוט דמוקרטי של AI על ידי מתן אפשרות למשתמשים להצביע עבור ערכיו PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
מָקוֹר, אנתרופי

האתגר מתרכז סביב לאפשר למשתמשים לסוכנות לקבוע מה מתאים מבלי לחשוף אותם לתפוקות לא הולמות. זה כלל שידול לערכי משתמש ולאחר מכן יישום רעיונות אלה במודל שכבר עבר הכשרה.

אנתרופיק משתמש בשיטה הנקראת "בינה מלאכותית חוקתית". ישיר מאמציה לכוונון LLMs לבטיחות ולשימושיות. בעיקרו של דבר, זה כרוך במתן רשימת כללים למודל שעליו לעמוד בהם ואז הכשרתו ליישם כללים אלה לאורך כל התהליך שלו, בדומה לחוקה המשמשת כמסמך הליבה לממשל במדינות רבות.

בניסוי Collective Constitutional AI, Anthropic ניסה לשלב משוב מבוסס קבוצה בחוקת המודל. התוצאות, פי לפוסט בבלוג מאת Anthropic, נראה שזכה להצלחה מדעית בכך שהוא האיר אתגרים נוספים לקראת השגת המטרה לאפשר למשתמשים במוצר LLM לקבוע את הערכים הקולקטיביים שלהם.

אחד הקשיים שהצוות נאלץ להתגבר עליו היה להמציא שיטה חדשה לתהליך ההשוואה. מכיוון שנראה שהניסוי הזה הוא הראשון מסוגו, והוא מסתמך על מתודולוגיית הבינה המלאכותית החוקתית של אנתרופיק, אין מבחן מבוסס להשוואת מודלים בסיסיים לאלה המכוונים לערכים שמקורם בהמון.

בסופו של דבר, נראה כאילו המודל שיישם נתונים שנבעו ממשוב סקרים של משתמשים עלה על המודל הבסיסי "במעט" בתחום התפוקות המוטות.

לפי הפוסט בבלוג:

"יותר מהמודל שנוצר, אנחנו נרגשים מהתהליך. אנו מאמינים כי זה עשוי להיות אחד המקרים הראשונים שבהם חברי הציבור כיוונו בכוונה, כקבוצה, התנהגות של מודל שפה גדול. אנו מקווים שקהילות ברחבי העולם יבנו על טכניקות כמו זו כדי להכשיר מודלים ספציפיים לתרבות ולהקשר המשרתים את הצרכים שלהם".

בול זמן:

עוד מ Cointelegraph