顶级法学硕士努力提供准确的法律信息

由柏拉图重新发布

关注： 0

顶级法学硕士很难提供准确的法律信息 PlatoBlockchain 数据智能。垂直搜索。人工智能。

专属采访如果您认为生成式人工智能在法律世界中自动占据一席之地，请再想一想。

最新研究表明，顶级大型语言模型往往会生成不准确的法律信息，不应依赖于诉讼。

去年，当 OpenAI 展示时 GPT-4 能够通过律师资格考试，这被认为是人工智能的突破，并导致一些人质疑这项技术是否很快就能通过更换律师。一些人希望这些类型的模式能够帮助那些无力承担昂贵律师费用的人寻求法律正义，从而更加公平地获得法律帮助。然而，现实情况是，根据最近的一项研究，法学硕士甚至无法有效地协助专业律师。

最令人担忧的是，人工智能经常伪造虚假信息，这造成了巨大的问题，尤其是在依赖事实证据的行业中。耶鲁大学和斯坦福大学的一组研究人员分析了流行的大语言模型中的幻觉率，发现它们常常不能准确地检索或生成相关的法律信息，或者理解和推理各种法律。

事实上，目前为 ChatGPT 免费版本提供支持的 OpenAI 的 GPT-3.5 在不同任务的测试中大约有 69% 的时间出现幻觉。 PaLM-2（之前支持 Google Bard 聊天机器人的系统）和 Llama 2（Meta 发布的大型语言模型）的结果更糟，分别产生了 72% 和 88% 的虚假信息。

毫不奇怪，这些模型很难完成更复杂的任务，而不是更简单的任务。例如，要求人工智能比较不同的案件并看看他们是否在某个问题上达成一致是具有挑战性的，而且与更简单的任务（例如检查案件是在哪个法院提起的）相比，它更有可能生成不准确的信息。

尽管法学硕士擅长处理大量文本，并且可以接受大量法律文件的培训（比任何人类律师一生中可以阅读的文件还要多），但他们不了解法律，也无法形成合理的论点。

“虽然我们已经看到这类模型在编码或数学问题的演绎推理方面取得了巨大的进步，但这并不是一流律师所具备的技能，”《耶鲁-斯坦福论文告诉注册.

“律师真正擅长的以及他们擅长的领域通常被描述为普通法体系中的类比推理形式，即根据先例进行推理，”斯坦福大学以人为本研究所的教职副主任何补充道。人工智能。

机器也经常在简单的任务中失败。当被要求检查姓名或引文以检查案件是否真实时，GPT-3.5、PaLM-2 和 Llama 2 可以在响应中编造虚假信息。

“模型不需要诚实地了解任何法律就能正确回答这个问题。它只需要知道某个案例是否存在，并且可以在训练语料库中的任何位置看到该案例，”耶鲁大学法学博士生 Matthew Dahl 说道。

这表明人工智能甚至无法准确地检索信息，并且该技术的能力存在根本限制。这些模型通常是令人愉快且有帮助的。他们通常不会费心去纠正用户的假设，而是会站在他们一边。例如，如果聊天机器人被要求生成支持某些法律论点的案例列表，它们更倾向于编造诉讼，而不是什么也不回应。两位律师在当律师时经历了惨痛的教训才明白了这一点。制裁在法庭文件中引用了完全由 OpenAI 的 ChatGPT 发明的案例。

研究人员还发现，与涉及规模较小和权力较小的法院的本地法律诉讼相比，他们测试的三种模型更有可能熟悉与美国最高法院相关的联邦诉讼。

由于 GPT-3.5、PaLM-2 和 Llama 2 是根据从互联网上抓取的文本进行训练的，因此他们更熟悉美国最高法院的法律意见是有道理的，与其他类型提交的法律文件相比，这些法律意见是公开发布的不那么容易到达的法院。

他们也更有可能在涉及回忆新旧案例信息的任务中遇到困难。

该论文称，“幻觉在最高法院最古老和最新的案件中最常见，而在战后沃伦法院案件（1953-1969）中最不常见。” “这一结果表明了法学硕士法律知识的另一个重要限制，用户应该意识到：法学硕士的峰值表现可能落后于该学说的当前状态几年，并且法学硕士可能无法内化非常古老但仍然适用的判例法及相关法律。”