לימודי LLM מובילים נאבקים לייצר מידע משפטי מדויק, אומר מחקר

לימודי LLM מובילים נאבקים לייצר מידע משפטי מדויק, אומר מחקר

אנשי LLM מובילים נאבקים לייצר מידע משפטי מדויק, אומר מחקר PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ראיון אישי אם אתם חושבים שבינה מלאכותית גנרטיבית יושבת אוטומטית ליד השולחן בעולם המשפט, תחשבו שוב.

מודלים מובילים בשפות גדולות נוטים ליצור מידע משפטי לא מדויק ואין להסתמך עליהם לצורך ליטיגציה, כך הראה מחקר חדש.

בשנה שעברה, כאשר OpenAI הראתה GPT-4 היה מסוגל לעבור את מבחן לשכת עורכי הדין, זה הוכרז כפריצת דרך בתחום הבינה המלאכותית והוביל כמה אנשים לשאול האם הטכנולוגיה תוכל בקרוב להחליף עורכי דין. חלקם קיוו שמודלים מסוג זה יכולים להעצים אנשים שאינם יכולים להרשות לעצמם עורכי דין יקרים לבצע צדק משפטי, ולהפוך את הגישה לעזרה משפטית לשוויונית יותר. המציאות, עם זאת, היא ש-LLMs לא יכולים אפילו לסייע לעורכי דין מקצועיים ביעילות, על פי מחקר שנערך לאחרונה.

החשש הגדול ביותר הוא שבינה מלאכותית מייצרת לעתים קרובות מידע כוזב, מה שמהווה בעיה ענקית במיוחד בתעשייה המסתמכת על ראיות עובדתיות. צוות של חוקרים מאוניברסיטת ייל וסטנפורד שניתח את שיעורי ההזיה במודלים פופולריים של שפות גדולות מצא שלעתים קרובות הם לא שולפים או מייצרים מידע משפטי רלוונטי, או מבינים ומניחים לגבי חוקים שונים.

למעשה, ה-GPT-3.5 של OpenAI, המניע כיום את הגרסה החינמית של ChatGPT, הוזה בערך 69 אחוז מהזמן כאשר הוא נבדק על פני משימות שונות. התוצאות היו גרועות יותר עבור PaLM-2, המערכת שהייתה בעבר מאחורי הצ'אטבוט Bard של גוגל, ו-Llama 2, מודל השפה הגדול שפרסמה Meta, שיצר שקר בשיעורים של 72 ו-88 אחוזים, בהתאמה.

באופן לא מפתיע, המודלים נאבקים להשלים משימות מורכבות יותר לעומת משימות קלות יותר. לבקש מבינה מלאכותית להשוות מקרים שונים ולראות אם הם מסכימים לסוגיה, למשל, היא מאתגרת, וסביר להניח שהיא תיצור מידע שגוי מאשר כאשר תעמוד בפני משימה קלה יותר, כמו בדיקה לאיזה בית משפט הוגש תיק. 

למרות ש-LLMs מצטיינים בעיבוד כמויות גדולות של טקסט, וניתן לאמן אותם על כמויות אדירות של מסמכים משפטיים - יותר ממה שכל עורך דין אנושי יכול היה לקרוא במהלך חייהם - הם אינם מבינים במשפט ואינם יכולים לגבש טיעונים נכונים.

"בעוד שראינו סוגים כאלה של מודלים מתקדמים באמת בצורות של חשיבה דדוקטיבית בבעיות קידוד או מתמטיקה, זה לא סוג המיומנויות שמאפיינת עריכת דין מהשורה הראשונה", דניאל הו, מחבר שותף של העיתון של ייל-סטנפורד, מספר הקופה.

"מה שעורכי דין באמת טובים בו, והיכן הם מצטיינים מתוארים לעתים קרובות כצורה של חשיבה אנלוגית במערכת המשפט המקובל, להגיון המבוסס על תקדימים", הוסיף הו, שהוא מנהל שותף בפקולטה של ​​מכון סטנפורד ל-Human-Centered. בינה מלאכותית.

מכונות נכשלות לעתים קרובות גם במשימות פשוטות. כאשר מתבקשים לבדוק שם או ציטוט כדי לבדוק אם המקרה אמיתי, GPT-3.5, PaLM-2 ו-Llama 2 יכולים להמציא מידע מזויף בתגובות.

"המודל לא צריך לדעת שום דבר על החוק בכנות כדי לענות על השאלה הזאת נכון. זה רק צריך לדעת אם קיים מקרה או לא, ויכול לראות את זה בכל מקום בקורפוס ההכשרה", אומר מתיו דאל, סטודנט למשפטים באוניברסיטת ייל.

זה מראה שבינה מלאכותית אפילו לא יכולה לאחזר מידע בצורה מדויקת, ושיש גבול מהותי ליכולות הטכנולוגיה. מודלים אלה מתוכננים לרוב להיות נעימים ומועילים. הם בדרך כלל לא יטרחו לתקן את הנחות היסוד של המשתמשים, ובמקום זאת יעמדו לצדם. אם צ'אטבוטים מתבקשים ליצור רשימה של מקרים התומכים בטיעון משפטי כלשהו, ​​למשל, הם נוטים יותר להמציא תביעות מאשר להגיב בלי כלום. זוג עורכי דין למדו זאת בדרך הקשה כשהיו גושפנקא על ציטוט מקרים שהומצאו לחלוטין על ידי ChatGPT של OpenAI בתיק בית המשפט שלהם.

החוקרים מצאו גם ששלושת המודלים שהם בדקו היו בעלי ידע רב יותר בליטיגציה פדרלית הקשורה לבית המשפט העליון בארה"ב בהשוואה להליכים משפטיים מקומיים הנוגעים לבתי משפט קטנים ופחות חזקים. 

מכיוון ש-GPT-3.5, PaLM-2 ו-Llama 2 הוכשרו על טקסט שנגרד מהאינטרנט, הגיוני שהם יכירו יותר את חוות הדעת המשפטיות של בית המשפט העליון בארה"ב, המתפרסמות בפומבי בהשוואה למסמכים משפטיים שהוגשו בסוגים אחרים. של בתי משפט שאינם נגישים בקלות. 

הם גם היו נוטים יותר להיאבק במשימות שכללו זכירת מידע ממקרים ישנים וחדשים. 

"הזיות הן הנפוצות ביותר בין התיקים הוותיקים והחדשים ביותר של בית המשפט העליון, והפחות נפוצות בין תיקי בית המשפט בוורן לאחר המלחמה (1953-1969)", לפי העיתון. "תוצאה זו מעידה על מגבלה חשובה נוספת על הידע המשפטי של LLMs שמשתמשים צריכים להיות מודעים לה: ביצועי השיא של LLMs עשויים לפגר מספר שנים מאחורי המצב הנוכחי של הדוקטרינה, ו- LLMs עלולים לא להפנים פסיקה ישנה מאוד אך עדיין ישימה והחוק הרלוונטי".

יותר מדי בינה מלאכותית עלולה ליצור "מונו-תרבות"

החוקרים גם היו מודאגים מכך שהסתמכות יתר על מערכות אלו עלולה ליצור "מונו-תרבות" חוקית. מכיוון שה-AI מאומן על כמות מוגבלת של נתונים, היא תתייחס למקרים בולטים ומוכרים יותר המובילים עורכי דין להתעלם מפרשנויות משפטיות אחרות או מתקדימים רלוונטיים. הם עלולים להתעלם ממקרים אחרים שיכולים לעזור להם לראות נקודות מבט או טיעונים שונים, שעלולים להתברר כמכריעים בהתדיינות משפטית. 

"החוק עצמו אינו מונוליטי", אומר דאל. "מונו-תרבות מסוכנת במיוחד במסגרת משפטית. בארצות הברית, יש לנו מערכת חוק פדרלית שבה החוק מתפתח בצורה שונה במדינות שונות בתחומי שיפוט שונים. יש סוג של קווים או מגמות שונות של תורת המשפט שמתפתחות עם הזמן".

"זה עלול להוביל לתוצאות שגויות ולהסתמכות בלתי מוצדקת באופן שעלול למעשה להזיק לבעלי דין", מוסיף הו. הוא הסביר שמודל יכול ליצור תגובות לא מדויקות לעורכי דין או לאנשים שמחפשים להבין משהו כמו חוקי פינוי. 

"כשאתה מבקש את עזרתו של מודל שפה גדול, ייתכן שאתה מקבל את התשובה השגויה המדויקת לגבי מתי הגשת התביעה שלך או מהו סוג כלל הפינוי במדינה זו", הוא אומר, ומביא דוגמה. "כי מה שזה אומר לך הוא החוק בניו יורק או החוק של קליפורניה, בניגוד לחוק שחשוב למעשה לנסיבות הספציפיות שלך בתחום השיפוט שלך."

החוקרים מסכמים כי הסיכונים בשימוש במודלים פופולריים מסוג זה למשימות משפטיות הוא הגבוה ביותר עבור אלו המגישים ניירת בבתי משפט נמוכים יותר במדינות קטנות יותר, במיוחד אם יש להם פחות מומחיות והם חוקרים את המודלים על סמך הנחות שווא. אנשים אלה נוטים יותר להיות עורכי דין, שהם פחות חזקים ממשרדי עורכי דין קטנים יותר עם פחות משאבים, או אנשים המחפשים לייצג את עצמם.

"בקיצור, אנו מוצאים שהסיכונים הם הגבוהים ביותר עבור אלה שירוויחו יותר מלימודי LLM", נכתב בעיתון. ®

בול זמן:

עוד מ הקופה