LLM ชั้นนำพยายามดิ้นรนเพื่อให้ได้ข้อมูลทางกฎหมายที่ถูกต้อง

LLM ชั้นนำพยายามดิ้นรนเพื่อให้ได้ข้อมูลทางกฎหมายที่ถูกต้อง

LLM ชั้นนำดิ้นรนเพื่อสร้างข้อมูลทางกฎหมายที่ถูกต้อง PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สัมภาษณ์ หากคุณคิดว่า generative AI มีที่นั่งอัตโนมัติอยู่บนโต๊ะในโลกแห่งกฎหมาย ลองคิดใหม่อีกครั้ง

การวิจัยล่าสุดแสดงให้เห็นว่าแบบจำลองภาษาขนาดใหญ่มักจะสร้างข้อมูลทางกฎหมายที่ไม่ถูกต้อง และไม่ควรนำไปใช้ในการดำเนินคดี

เมื่อปีที่แล้วที่ OpenAI แสดงให้เห็น จีพีที-4 สามารถผ่านการสอบเนติบัณฑิตได้ ถือเป็นความก้าวหน้าทาง AI และทำให้บางคนตั้งคำถามว่าเทคโนโลยีจะเกิดขึ้นเร็ว ๆ นี้หรือไม่ แทนที่ ทนายความ บางคนหวังว่าโมเดลประเภทนี้จะช่วยเพิ่มศักยภาพให้กับผู้ที่ไม่มีเงินจ้างทนายความราคาแพงเพื่อดำเนินการทางกฎหมายได้ และทำให้การเข้าถึงความช่วยเหลือทางกฎหมายมีความเท่าเทียมมากขึ้น อย่างไรก็ตาม ความจริงก็คือ LLM ไม่สามารถช่วยเหลือนักกฎหมายมืออาชีพได้อย่างมีประสิทธิภาพตามการศึกษาล่าสุด

ข้อกังวลที่ใหญ่ที่สุดคือ AI มักจะสร้างข้อมูลที่เป็นเท็จ ซึ่งก่อให้เกิดปัญหาใหญ่โดยเฉพาะในอุตสาหกรรมที่ต้องอาศัยหลักฐานข้อเท็จจริง ทีมนักวิจัยจากมหาวิทยาลัยเยลและมหาวิทยาลัยสแตนฟอร์ดวิเคราะห์อัตราการเกิดอาการประสาทหลอนในแบบจำลองภาษาขนาดใหญ่ยอดนิยม พบว่าแบบจำลองเหล่านี้มักจะไม่สามารถดึงข้อมูลหรือสร้างข้อมูลทางกฎหมายที่เกี่ยวข้องได้อย่างแม่นยำ หรือเข้าใจและให้เหตุผลเกี่ยวกับกฎหมายต่างๆ

ในความเป็นจริง GPT-3.5 ของ OpenAI ซึ่งปัจจุบันขับเคลื่อน ChatGPT เวอร์ชันฟรีอยู่ในขณะนี้ มีอาการประสาทหลอนประมาณ 69 เปอร์เซ็นต์ของเวลาเมื่อทดสอบในงานต่างๆ ผลลัพธ์ที่ได้แย่ลงสำหรับ PaLM-2 ซึ่งเป็นระบบที่เคยอยู่เบื้องหลัง Bard chatbot ของ Google และ Llama 2 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่เผยแพร่โดย Meta ซึ่งสร้างความเท็จในอัตรา 72 และ 88 เปอร์เซ็นต์ ตามลำดับ

ไม่น่าแปลกใจเลยที่แบบจำลองต่างๆ จะต้องดิ้นรนเพื่อทำงานที่ซับซ้อนให้เสร็จสิ้น แทนที่จะทำงานที่ง่ายกว่า การขอให้ AI เปรียบเทียบกรณีต่างๆ และดูว่าพวกเขาเห็นด้วยกับปัญหาหรือไม่ เช่น เป็นสิ่งที่ท้าทาย และมีแนวโน้มที่จะสร้างข้อมูลที่ไม่ถูกต้องมากกว่าการเผชิญกับงานที่ง่ายกว่า เช่น การตรวจสอบว่ามีการยื่นคดีในศาลใด 

แม้ว่า LLM จะเชี่ยวชาญด้านการประมวลผลข้อความจำนวนมาก และสามารถฝึกอบรมเกี่ยวกับเอกสารทางกฎหมายจำนวนมหาศาลได้ มากกว่าที่ทนายความที่เป็นมนุษย์จะอ่านได้ตลอดชีวิต แต่พวกเขาไม่เข้าใจกฎหมายและไม่สามารถสร้างข้อโต้แย้งที่สมเหตุสมผลได้

“แม้ว่าเราจะเห็นว่าโมเดลประเภทนี้มีความก้าวหน้าอย่างมากในรูปแบบของการให้เหตุผลแบบนิรนัยในการเขียนโค้ดหรือปัญหาทางคณิตศาสตร์ แต่นั่นไม่ใช่ชุดทักษะที่กำหนดลักษณะเฉพาะของนักกฎหมายชั้นยอด” Daniel Ho ผู้ร่วมเขียนหนังสือ กระดาษเยล-สแตนฟอร์ดบอก ลงทะเบียน.

“สิ่งที่นักกฎหมายเก่งจริงๆ และจุดที่พวกเขาเก่งมักถูกอธิบายว่าเป็นรูปแบบหนึ่งของการใช้เหตุผลเชิงเปรียบเทียบในระบบกฎหมายทั่วไป เพื่อให้เหตุผลบนพื้นฐานของแบบอย่าง” โฮ ซึ่งเป็นรองผู้อำนวยการคณะของสถาบันสแตนฟอร์ดเพื่อมนุษย์เป็นศูนย์กลาง กล่าวเสริม ปัญญาประดิษฐ์.

เครื่องจักรก็มักจะล้มเหลวในงานง่ายๆ เช่นกัน เมื่อขอให้ตรวจสอบชื่อหรือการอ้างอิงเพื่อตรวจสอบว่ากรณีนั้นเป็นของจริงหรือไม่ GPT-3.5, PaLM-2 และ Llama 2 สามารถสร้างข้อมูลปลอมในการตอบกลับได้

“แบบจำลองไม่จำเป็นต้องรู้อะไรเกี่ยวกับกฎหมายอย่างตรงไปตรงมาเพื่อที่จะตอบคำถามนั้นได้อย่างถูกต้อง เพียงแค่ต้องรู้ว่ามีคดีอยู่หรือไม่ และสามารถดูได้ทุกที่ในคลังข้อมูลการฝึกอบรม” แมทธิว ดาห์ล นักศึกษากฎหมายระดับปริญญาเอกจากมหาวิทยาลัยเยลกล่าว

มันแสดงให้เห็นว่า AI ไม่สามารถดึงข้อมูลได้อย่างแม่นยำด้วยซ้ำ และความสามารถของเทคโนโลยีก็มีขีดจำกัดขั้นพื้นฐาน โมเดลเหล่านี้มักถูกออกแบบให้น่าพอใจและเป็นประโยชน์ โดยปกติแล้วพวกเขาจะไม่แก้ไขสมมติฐานของผู้ใช้ และจะเข้าข้างพวกเขาแทน หากแชทบอทถูกขอให้สร้างรายการคดีเพื่อสนับสนุนข้อโต้แย้งทางกฎหมาย แชทบอทมักจะมีแนวโน้มที่จะฟ้องร้องมากกว่าที่จะตอบโต้โดยไม่ทำอะไรเลย ทนายความคู่หนึ่งได้เรียนรู้เรื่องนี้อย่างยากลำบากเมื่อครั้งยังเป็นอยู่ ตามทำนองคลองธรรม สำหรับการอ้างอิงคดีที่ ChatGPT ของ OpenAI ประดิษฐ์ขึ้นอย่างสมบูรณ์ในการยื่นฟ้องต่อศาล

นักวิจัยยังพบว่าแบบจำลองทั้งสามที่พวกเขาทดสอบมีแนวโน้มที่จะมีความรู้ในการดำเนินคดีของรัฐบาลกลางที่เกี่ยวข้องกับศาลฎีกาของสหรัฐอเมริกามากกว่าเมื่อเปรียบเทียบกับการดำเนินคดีทางกฎหมายในท้องถิ่นที่เกี่ยวข้องกับศาลที่มีขนาดเล็กและมีอำนาจน้อยกว่า 

เนื่องจาก GPT-3.5, PaLM-2 และ Llama 2 ได้รับการฝึกเกี่ยวกับข้อความที่คัดลอกมาจากอินเทอร์เน็ต จึงสมเหตุสมผลที่พวกเขาจะคุ้นเคยกับความคิดเห็นทางกฎหมายของศาลฎีกาสหรัฐ ซึ่งเผยแพร่ต่อสาธารณะมากกว่าเมื่อเปรียบเทียบกับเอกสารทางกฎหมายที่ยื่นในรูปแบบอื่น ของศาลที่เข้าถึงได้ไม่ง่ายนัก 

พวกเขายังมีแนวโน้มที่จะดิ้นรนในงานที่เกี่ยวข้องกับการเรียกคืนข้อมูลจากคดีเก่าและคดีใหม่ 

“ภาพหลอนเป็นเรื่องปกติมากที่สุดในบรรดาคดีที่เก่าแก่ที่สุดและใหม่ล่าสุดของศาลฎีกา และพบน้อยที่สุดในคดีหลังสงครามศาลวอร์เรน (พ.ศ. 1953-1969)” ตามรายงาน “ผลลัพธ์นี้ชี้ให้เห็นข้อจำกัดที่สำคัญอีกประการหนึ่งเกี่ยวกับความรู้ทางกฎหมายของ LLM ที่ผู้ใช้ควรทราบ: ประสิทธิภาพสูงสุดของ LLM อาจล่าช้ากว่าสถานะปัจจุบันของหลักคำสอนเป็นเวลาหลายปี และ LLM อาจล้มเหลวในการปรับใช้กฎหมายที่เก่ามากแต่ยังคงมีผลบังคับใช้ และกฎหมายที่เกี่ยวข้อง”

AI มากเกินไปสามารถสร้าง 'วัฒนธรรมเชิงเดี่ยว'

นักวิจัยยังกังวลด้วยว่าการพึ่งพาระบบเหล่านี้มากเกินไปอาจสร้าง “วัฒนธรรมเชิงเดี่ยว” ทางกฎหมายได้ เนื่องจาก AI ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจำนวนจำกัด AI จึงหมายถึงกรณีที่โดดเด่นและเป็นที่รู้จักมากขึ้น ซึ่งส่งผลให้นักกฎหมายเพิกเฉยต่อการตีความทางกฎหมายอื่นๆ หรือตัวอย่างที่เกี่ยวข้อง พวกเขาอาจมองข้ามกรณีอื่นๆ ที่สามารถช่วยให้พวกเขาเห็นมุมมองหรือข้อโต้แย้งที่แตกต่างกัน ซึ่งอาจพิสูจน์ได้ว่ามีความสำคัญอย่างยิ่งในการดำเนินคดี 

“ตัวกฎหมายเองก็ไม่ได้เป็นเพียงสิ่งเดียวเท่านั้น” ดาห์ลกล่าว “การปลูกพืชเชิงเดี่ยวเป็นอันตรายอย่างยิ่งในสภาพแวดล้อมทางกฎหมาย ในสหรัฐอเมริกา เรามีระบบกฎหมายจารีตประเพณีของรัฐบาลกลางที่กฎหมายมีการพัฒนาแตกต่างกันไปในแต่ละรัฐในเขตอำนาจศาลที่ต่างกัน มีแนวทางหรือแนวโน้มของหลักนิติศาสตร์ที่แตกต่างกันออกไปซึ่งพัฒนาไปตามกาลเวลา”

“มันอาจนำไปสู่ผลลัพธ์ที่ผิดพลาดและการพึ่งพาที่ไม่สมควรในลักษณะที่อาจเป็นอันตรายต่อผู้ดำเนินคดี” โฮกล่าวเสริม เขาอธิบายว่าแบบจำลองสามารถสร้างคำตอบที่ไม่ถูกต้องต่อทนายความหรือผู้ที่ต้องการทำความเข้าใจบางอย่าง เช่น กฎหมายขับไล่ 

“เมื่อคุณขอความช่วยเหลือจากแบบจำลองภาษาขนาดใหญ่ คุณอาจได้รับคำตอบที่ผิดอย่างแน่นอนว่าการยื่นฟ้องของคุณจะครบกำหนดเมื่อใด หรือกฎเกณฑ์ในการขับไล่ในรัฐนี้คืออะไร” เขากล่าว โดยอ้างถึงตัวอย่าง “เพราะสิ่งที่บอกคุณคือกฎหมายในนิวยอร์กหรือกฎหมายแห่งแคลิฟอร์เนีย ซึ่งตรงข้ามกับกฎหมายที่มีความสำคัญต่อสถานการณ์เฉพาะของคุณในเขตอำนาจศาลของคุณ”

นักวิจัยสรุปว่าความเสี่ยงในการใช้แบบจำลองยอดนิยมเหล่านี้สำหรับงานด้านกฎหมายมีสูงที่สุดสำหรับผู้ที่ยื่นเอกสารในศาลชั้นต้นในรัฐเล็กๆ โดยเฉพาะอย่างยิ่งหากพวกเขามีความเชี่ยวชาญน้อยกว่าและกำลังสอบถามแบบจำลองตามสมมติฐานที่ผิด คนเหล่านี้มีแนวโน้มที่จะเป็นนักกฎหมายที่มีอำนาจน้อยกว่าจากสำนักงานกฎหมายขนาดเล็กที่มีทรัพยากรน้อยกว่า หรือบุคคลที่ต้องการเป็นตัวแทนตนเอง

“โดยสรุป เราพบว่าความเสี่ยงสูงสุดสำหรับผู้ที่จะได้รับประโยชน์จาก LLM มากที่สุด” รายงานระบุ ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน