机器学习研究人员和法律专家发布了 SauLM-7B,他们声称这是第一个专门针对法律工作和应用的文本生成开源大语言模型。
鉴于最近生成人工智能在提交的法庭文件中引用了不存在的案例的引人注目的错误—— 马塔 v 阿维安卡 和 朴诉金 ——这可能看起来不明智。人工智能模型产生幻觉的倾向及其不确定的数据来源似乎会成为一个利害攸关的行业的交易破坏者。
但 SauLM-7B 的创造者隶属于初创公司 平等.ai法国巴黎萨克雷大学和索邦大学,以及葡萄牙里斯本大学和诺瓦法学院认为,人工智能在法律中占有一席之地。
Equall.ai 的一位发言人在一封电子邮件中表示:“法学硕士和更广泛的人工智能系统将对法律实践产生变革性影响,其中包括但不仅仅限于边际生产力。” 注册。 “我们的重点是创建由律师指导和控制的端到端法律人工智能系统。
我们相信,专门用于法律领域的系统将比通用系统表现得更好
“基于数据和经验,我们相信专门用于法律领域的系统将比通用系统表现得更好。这包括更精确和更有用的工具,帮助律师专注于他们最喜欢和最擅长的事情,即行使法律判断并为客户提供建议。”
其他组织对人工智能辅助的效用也同样持乐观态度。高盛去年 估计 [PDF] “在美国,当前四分之一的工作任务可以通过人工智能实现自动化,其中在行政(46%)和法律(44%)职业中的风险尤其高……”而像这样的初创公司 基准智商, 哈维.ai及 安全标志技术 在这种预测中看到市场机会。
Equall.ai 由 White & Case LLP 前合伙人 Jorge Mattamouros 创立,他认为几乎所有法律工作——研究、文件审查和分析、摘要以及文件中关键段落的识别——都可以从人工智能中受益。
“我们相信法学硕士开辟了更多的途径,其中一些我们今天已经看到,还有许多仍有待发现,”Equall.ai 的发言人继续说道。 “例如,我们相信法学硕士将彻底改变我们处理数据处理流程和数据生成的方式,这对于获取高质量数据昂贵且困难的法律应用至关重要。”
Equall.ai 的观点是,人工智能模型的不准确性是可以减轻的。
“法学硕士仍然是概率模型,”该公司告诉我们。 “幻觉通常是非经销法学硕士的症状。换句话说,当被提示生成与法学硕士接受培训的数据相似的主题和数据的文本时,法学硕士产生幻觉的几率明显低于被提示生成他们很少了解的内容时的幻觉。
“例如,在我们与实际律师一起对索尔进行评估的过程中,我们能够确认它在讨论特定法律概念时不太容易产生幻觉。简而言之,我们期望接受过法律数据专门培训的法学硕士比通才的同行更少对法律主题产生幻觉。”
尽管如此,这位新贵警告说,人工智能模型不应该像合法数据库一样被依赖,并且建议仔细检查法学硕士的输出。我们会说:检查是强制性的。
SauLM-7B 背后的研究人员 – Pierre Colombo、Telmo Pessoa Pires、Malik Boudiaf、Dominic Culver、Rui Melo、Caio Corro、Andre FT Martins、Fabrizio Esposito、Vera Lúcia Raposo、Sofia Morgado 和 Michael Desa – 描述了他们的工作 一篇论文 标题为“SaulLM-7B:开创性的大型法律语言模型”。
可在 AI 模型社区网站 HuggingFace 上找到, 绍尔LM-7B 基于开源的 Mistral 7B 模型,两者都有 7 亿个参数。这比类似的模型要少得多 美洲驼2,可以基于多达 70 亿个参数。但 SauLM-7B 的创建者指出,这只是第一个里程碑,并且正在针对不同的模型尺寸开展工作。
正如您对法学硕士的期望一样,SauLM-7B 的工作原理是用自然语言提出问题或给出提示,并尝试回答或回应它们;在这种情况下,它的重点是法律和法律问题。
英国合法人工智能初创公司 Safe Sign Technologies 的联合创始人兼首席科学家 Jonathan Schwarz 表示 注册 SauLM-7B 的制造商采取了明智的方法来专门培养普通法学硕士。
“作为更多专有技术的开源替代品,这是一个很好的产品,”他说。 “但是,还有一些工作需要完成。”
作为更多专有技术的开源替代品,这是一个很好的产品
施瓦茨指出了红队模型的必要性,他说他的公司正在内部这样做。
我们获悉,Safe Sign Technologies 已经制定了法律法学硕士的原型,并计划在今年晚些时候或之后通过合作伙伴准备第二次迭代以供部署。
施瓦茨表示,该公司尚未准备好对其产品的开源或专有程度发表评论。但他声称,虽然 SaulLM-7B-Instruct(根据一般和法律指令进行微调的版本)在 LegalBench-Instruct 基准测试中的平均得分为 0.61,“我们正在接近 0.77”。该准确率与 GPT-4 类似,但我们强烈建议您对机器学习基准保持一定的了解。
Safe Sign Technologies 联合创始人兼首席执行官 Alexander (Sami) Kardos-Nyheim 在接受采访时表示:“我们的目标是创建一个人工智能解决方案,立即为每个人提供非常优质的法律建议。” 注册。 “并非来自 ChatGPT 或类似机构的不可靠法律建议。但你可以通过人工智能实际使用和依赖严肃的法律建议。”
你可以避免学习所有这些你稍后试图消除的有毒行为的问题
“非常非常粗略地讲,这些技术或这些方法通常的训练方式是,你有一个在网络上训练过的巨大数据集,并且你可以采样每个直接训练步骤,或者你只是选择其中的一个随机子集,”施瓦茨解释道。 “然后你只需要对这个子集进行训练,然后就可以进行数万亿次。
“我们不是简单地选择随机子集,而是采用新方法,在训练的每个点尝试确定此时要训练的最佳数据子集,从而使模型的改进最大化。这是第一步。这样你就可以避免学习所有这些有毒行为的问题,而你稍后会试图消除这些行为。”
施瓦茨认为 Safe Sign 的方法更安全。 “如果模型根本不知道如何回答某个特定的法律问题,我们可以简单地说我们在回避这个问题,而不是自信地给出错误的答案。”
他接着对 OpenAI 和谷歌采取的“沸腾海洋”方法表示怀疑,该方法涉及关注种族和性别偏见等广泛危害,并支付廉价承包商对模型的反应进行排名,以便他们可以重新训练神经网络减少有害反应。
“如果你想做到人类能做的一切,你就必须对人类能做的一切进行测试,”施瓦茨说。 “我认为,如果你试图在所有可能的主题上做到这一点,那么这只是一种失败的策略。”
Kardos-Nyheim 补充道:“不仅是在法律人工智能领域,更普遍的是,在人工智能领域,我们没有看到对安全性和鲁棒性的关注,而无法在医疗或法律环境中建立严肃、可靠的系统。” ®
- :具有
- :是
- :不是
- :在哪里
- $UP
- 7
- 70
- 77
- a
- Able
- 关于
- 实际
- 通
- 添加
- 行政
- 忠告
- 建议
- 附属
- 驳
- AI
- AI模型
- 人工智能系统
- 目标
- 亚历山大
- 所有类型
- 允许
- 几乎
- 替代
- 志向
- an
- 分析
- 和
- 安德烈
- 回答
- 什么
- 出现
- 应用领域
- 的途径
- 保健
- 争论
- 主张
- 人造的
- 人工智能
- AS
- 帮助
- At
- 尝试
- 自动化
- 大道
- 避免
- 背部
- 基于
- BE
- 很
- 行为
- 背后
- 作为
- 信仰
- 相信
- 基准
- 基准
- 得益
- 最佳
- 更好
- 超越
- 偏见
- 亿
- 商业
- 都
- 广阔
- 宽广地
- 但是
- by
- CAN
- 案件
- 例
- 注意事项
- CEO
- 更改
- ChatGPT
- 检查
- 首席
- 引
- 要求
- 声称
- 客户
- 关闭
- CO
- 联合创始人
- 评论
- 社体的一部分
- 公司
- 概念
- 信心十足地
- 确认
- 上下文
- 持续
- 承包商
- 受控
- 可以
- 同行
- 法庭
- 法庭文件
- 创建信息图
- 创造
- 创作者
- 危急
- 电流
- data
- 数据处理
- 数据集
- 数据库
- de
- 处理
- 部署
- 描述
- 确定
- 不同
- 难
- 直接
- 通过各种方式找到
- 讨论
- 分配
- do
- 文件
- 文件
- 不会
- 做
- 域
- 完成
- 仔细检查
- 大幅
- 每
- 邮箱地址
- 端至端
- 享受
- 评估
- 所有的
- 一切
- 例子
- 锻炼
- 期望
- 昂贵
- 体验
- 专家
- 解释
- 程度
- 少
- 申请
- 公司
- 姓氏:
- 专注焦点
- 重点
- 聚焦
- 针对
- 前
- 公司成立
- 法国
- 止
- 性别
- 其他咨询
- 通常
- 生成
- 代
- 生成的
- 生成式人工智能
- 越来越
- 特定
- 给
- 给予
- GOES
- 高盛
- 高盛
- 非常好
- 谷歌
- 更大的
- 制导
- 有害
- 危害
- 有
- he
- 帮助
- 此处
- 高
- 高调
- 高品质
- 他的
- 保持
- 创新中心
- How To
- 但是
- HTTPS
- 巨大
- 拥抱脸
- 人
- i
- 鉴定
- if
- 影响力故事
- 改进
- in
- 其他
- 包括
- 不正确
- 行业中的应用:
- 例
- 即刻
- 代替
- 说明
- 房源搜索
- 内部
- 专属采访
- 涉及
- 问题
- IT
- 迭代
- 它的
- JPG
- 只是
- 键
- 类
- 知道
- 语言
- 大
- 名:
- 去年
- 后来
- 法律
- 律师
- 知道
- 学习
- 法律咨询
- 法律专家
- 法律问题
- 减
- 光
- 喜欢
- 小
- LLM
- LLP
- 失去
- 使
- 庄家
- 管理
- 强制性
- 许多
- 市场
- 最多
- 医生
- 元
- 方法
- Michael (中国)
- 可能
- 里程碑
- 模型
- 模型
- 更多
- 最先进的
- 许多
- 自然
- 需求
- 需要
- 网络
- 神经
- 神经网络
- 全新
- 不错
- 注意
- 获得
- of
- 提供
- on
- 一
- 那些
- 打开
- 开放源码
- OpenAI
- 操作
- ZAP优势
- 最佳
- 乐观的
- or
- 组织
- 其他名称
- 我们的
- 输出
- 产量
- 超过
- 参数
- 尤其
- 合伙人
- 伙伴
- 段落
- 付款
- 百分
- 百分比
- 演出
- 人
- 挑
- 选择
- 皮埃尔
- 创举
- 地方
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 葡萄牙
- 可能
- 在练习上
- 平台精度
- 预测
- 市场问题
- 处理
- 生产率
- 提示
- 所有权
- 出处
- 质量
- 题
- 有疑问吗?
- 相当
- 随机
- 排名
- 宁
- RE
- 准备
- 最近
- 发布
- 可靠
- 依靠
- 留
- 研究
- 研究人员
- 回应
- 回复
- 检讨
- 稳健性
- περίπου
- s
- 高盛
- 安全
- 更安全
- 实现安全
- 说
- 盐
- 样品
- 对工资盗窃
- 学校
- 黑色
- 科学家
- 得分了
- 其次
- 看到
- 看到
- 似乎
- 严重
- 集
- 短
- 应该
- 签署
- 显著
- 显著
- 类似
- 同样
- 只是
- 网站
- 尺寸
- 怀疑论
- So
- 方案,
- 一些
- 东西
- 来源
- 专门
- 专业
- 具体的
- 特别是
- 发言人
- 赌注
- 启动
- 初创企业
- 步
- 仍
- 策略
- 提交
- 这样
- 症状
- 产品
- 采取
- 拍摄
- 任务
- 技术
- 技术
- 易于
- test
- 文本
- 比
- 这
- 法律
- 其
- 他们
- 然后
- 那里。
- 博曼
- 他们
- 事
- 认为
- Free Introduction
- 今年
- 虽然?
- 通过
- 始终
- 次
- 时
- 标题
- 至
- 今晚
- 告诉
- 工具
- Topics
- 培训
- 熟练
- 产品培训
- 变革
- 万亿
- 尝试
- 试图
- 不确定
- 暴发户
- us
- 使用
- 有用
- 平时
- 效用
- 版本
- 非常
- 通过
- 查看
- 音色
- 想
- 是
- 方法..
- we
- 卷筒纸
- 井
- 去
- 为
- 什么是
- 什么是
- ,尤其是
- 这
- 而
- 白色
- 将
- 话
- 工作
- 合作
- 将
- 年
- 但
- 完全
- 和风网