顶级法学硕士很难提供准确的法律信息

顶级法学硕士很难提供准确的法律信息

顶级法学硕士很难提供准确的法律信息 PlatoBlockchain 数据智能。垂直搜索。人工智能。

专属采访 如果您认为生成式人工智能在法律世界中自动占据一席之地,请再想一想。

最新研究表明,顶级大型语言模型往往会生成不准确的法律信息,不应依赖于诉讼。

去年,当 OpenAI 展示时 GPT-4 能够通过律师资格考试,这被认为是人工智能的突破,并导致一些人质疑这项技术是否很快就能通过 更换 律师。一些人希望这些类型的模式能够帮助那些无力承担昂贵律师费用的人寻求法律正义,从而更加公平地获得法律帮助。然而,现实情况是,根据最近的一项研究,法学硕士甚至无法有效地协助专业律师。

最令人担忧的是,人工智能经常伪造虚假信息,这造成了巨大的问题,尤其是在依赖事实证据的行业中。耶鲁大学和斯坦福大学的一组研究人员分析了流行的大语言模型中的幻觉率,发现它们常常不能准确地检索或生成相关的法律信息,或者理解和推理各种法律。

事实上,目前为 ChatGPT 免费版本提供支持的 OpenAI 的 GPT-3.5 在不同任务的测试中大约有 69% 的时间出现幻觉。 PaLM-2(之前支持 Google Bard 聊天机器人的系统)和 Llama 2(Meta 发布的大型语言模型)的结果更糟,分别产生了 72% 和 88% 的虚假信息。

毫不奇怪,这些模型很难完成更复杂的任务,而不是更简单的任务。例如,要求人工智能比较不同的案件并看看他们是否在某个问题上达成一致是具有挑战性的,而且与更简单的任务(例如检查案件是在哪个法院提起的)相比,它更有可能生成不准确的信息。 

尽管法学硕士擅长处理大量文本,并且可以接受大量法律文件的培训(比任何人类律师一生中可以阅读的文件还要多),但他们不了解法律,也无法形成合理的论点。

“虽然我们已经看到这类模型在编码或数学问题的演绎推理方面取得了巨大的进步,但这并不是一流律师所具备的技能,”《 耶鲁-斯坦福论文告诉 注册.

“律师真正擅长的以及他们擅长的领域通常被描述为普通法体系中的类比推理形式,即根据先例进行推理,”斯坦福大学以人为本研究所的教职副主任何补充道。人工智能。

机器也经常在简单的任务中失败。当被要求检查姓名或引文以检查案件是否真实时,GPT-3.5、PaLM-2 和 Llama 2 可以在响应中编造虚假信息。

“模型不需要诚实地了解任何法律就能正确回答这个问题。它只需要知道某个案例是否存在,并且可以在训练语料库中的任何位置看到该案例,”耶鲁大学法学博士生 Matthew Dahl 说道。

这表明人工智能甚至无法准确地检索信息,并且该技术的能力存在根本限制。这些模型通常是令人愉快且有帮助的。他们通常不会费心去纠正用户的假设,而是会站在他们一边。例如,如果聊天机器人被要求生成支持某些法律论点的案例列表,它们更倾向于编造诉讼,而不是什么也不回应。两位律师在当律师时经历了惨痛的教训才明白了这一点。 制裁 在法庭文件中引用了完全由 OpenAI 的 ChatGPT 发明的案例。

研究人员还发现,与涉及规模较小和权力较小的法院的本地法律诉讼相比,他们测试的三种模型更有可能熟悉与美国最高法院相关的联邦诉讼。 

由于 GPT-3.5、PaLM-2 和 Llama 2 是根据从互联网上抓取的文本进行训练的,因此他们更熟悉美国最高法院的法律意见是有道理的,与其他类型提交的法律文件相比,这些法律意见是公开发布的不那么容易到达的法院。 

他们也更有可能在涉及回忆新旧案例信息的任务中遇到困难。 

该论文称,“幻觉在最高法院最古老和最新的案件中最常见,而在战后沃伦法院案件(1953-1969)中最不常见。” “这一结果表明了法学硕士法律知识的另一个重要限制,用户应该意识到:法学硕士的峰值表现可能落后于该学说的当前状态几年,并且法学硕士可能无法内化非常古老但仍然适用的判例法及相关法律。”

太多的人工智能可能会造成“单一文化”

研究人员还担心,过度依赖这些系统可能会造成合法的“单一文化”。由于人工智能接受的数据量有限,因此它将参考更突出、众所周知的案例,导致律师忽略其他法律解释或相关先例。他们可能会忽略其他可以帮助他们看到不同观点或论点的案件,而这在诉讼中可能至关重要。 

“法律本身并不是铁板一块,”达尔说。 “在法律环境下,单一文化尤其危险。在美国,我们有联邦普通法体系,不同州、不同司法管辖区的法律制定有所不同。随着时间的推移,法理学出现了不同的路线或趋势。”

何补充道:“这可能会导致错误的结果和无理的依赖,从而实际上损害诉讼当事人。”他解释说,模型可能会对律师或想要了解驱逐法等内容的人产生不准确的反应。 

“当你寻求大型语言模型的帮助时,你可能会得到完全错误的答案,比如你的申请何时到期,或者这个州的驱逐规则是什么,”他引用了一个例子说。 “因为它告诉你的是纽约州的法律或加利福尼亚州的法律,而不是与你所在司法管辖区的特定情况实际相关的法律。”

研究人员得出的结论是,对于那些在较小州的下级法院提交文书的人来说,使用这些类型的流行模型执行法律任务的风险最高,特别是如果他们的专业知识较少并且基于错误的假设查询模型。这些人更有可能是律师,他们在资源较少的小型律师事务所中权力较小,或者是希望代表自己的人。

“简而言之,我们发现那些最能从法学硕士中受益的人面临的风险最高,”该论文指出。 ®

时间戳记:

更多来自 注册