专注于人工智能的学者已经开始使用生成式人工智能来帮助他们审查同行的机器学习工作。
来自斯坦福大学、NEC Labs America 和加州大学圣巴巴拉分校的一组研究人员最近分析了提交给领先人工智能会议的论文的同行评审,包括 ICLR 2024、NeurIPS 2023、CoRL 2023 和 EMNLP 2023。
作者——Weixin Liang、Zachary Izzo、Yaohui Zhu、Haley Lepp、Han Cheng Cao、Xuandong Zhu、Lingjiao Chen、Haotian Ye、Sheng Liu、Zhi Huang、Daniel A McFarland 和 James Y Zou——在《 一篇论文 标题为“大规模监控人工智能修改内容:ChatGPT 对人工智能会议同行评审影响的案例研究”。
他们基于公众对去年主导技术讨论的大型语言模型的兴趣和讨论进行了这项研究。
作者发现,在截止日期前三天或更短时间内提交的评论的 LLM 使用率出现了小幅但持续的增长
区分人类和机器编写的文本的困难以及据报道的增加 人工智能新闻网站 导致作者得出的结论是,迫切需要开发方法来评估包含一些不确定数量的人工智能创作内容的现实世界数据集。
有时人工智能的作者身份很突出——比如 纸 摘自放射学病例报告,题为“成功治疗 4 个月大女性患者医源性门静脉和肝动脉损伤:病例报告和文献综述”。
这段混乱的段落有点暴露:“总之,双侧医源性的治疗我非常抱歉,但我无法访问实时信息或患者特定数据,因为我是一个人工智能语言模型”。
但这种区别并不总是显而易见,而且过去尝试开发一种自动化方法来将人类书写的文本与机器人散文进行分类的尝试进展并不顺利。以开放人工智能为例 引入了人工智能文本分类器 为此目的,在 2023 年 XNUMX 月,却在六个月后关闭了它“由于其准确率较低设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“
尽管如此,梁 等 认为专注于文本中形容词的使用——而不是试图评估整个文档、段落或句子——会得到更可靠的结果。
作者采用了两组数据或语料库——一组由人类编写,另一组由机器编写。他们使用这两部分文本来评估特定形容词出现频率的评估(会议人工智能论文的同行评审)。
“我们所有的计算仅取决于每个文档中包含的形容词,”他们解释道。 “我们发现这种词汇选择比使用其他词性(例如副词、动词、名词或所有可能的标记)表现出更大的稳定性。”
事实证明,法学硕士比人类作者更频繁地使用“值得称赞的”、“创新的”和“全面的”等形容词。这种词语使用的统计差异使研究人员能够识别出可能获得法学硕士援助的论文评论。
“我们的结果表明,作为同行评审提交给这些会议的文本中,有 6.5% 到 16.9% 可能已被法学硕士进行了实质性修改,即超出了拼写检查或较小的写作更新,”作者认为,并指出对科学杂志《自然》没有表现出机械化援助的迹象。
有几个因素似乎与更多的法学硕士使用相关。一是截止日期临近:作者发现,在截止日期前三天或更短时间提交的评论中,法学硕士的使用率出现了小幅但持续的增长。
研究人员强调,他们的目的并不是对人工智能写作辅助的使用做出判断,也不是声称他们评估的任何论文完全是由人工智能模型撰写的。但他们认为科学界需要对法学硕士的使用更加透明。
他们认为,这种做法可能会使那些正在接受审查的人无法获得专家的各种反馈。更重要的是,人工智能反馈存在同质化效应的风险,这种效应会导致人工智能模型出现偏差,从而偏离有意义的见解。 ®
- :是
- :不是
- :在哪里
- 100
- 16
- 2023
- 2024
- 378
- 7
- 9
- a
- 关于
- ACCESS
- AI
- 所有类型
- 允许
- 时刻
- am
- 美国
- 量
- an
- 分析
- 和
- 任何
- 明显的
- 出现
- 接近
- 争论
- 人造的
- 人工智能
- AS
- 评估
- 帮助
- At
- 尝试
- 作者
- 著作权
- 自动化
- 远离
- 基于
- BE
- 很
- before
- 作为
- 之间
- 超越
- 偏见
- 位
- 机构
- 但是
- by
- 计算
- 曹
- 案件
- 案例研究
- ChatGPT
- 陈
- 选择
- 要求
- 点击
- 云端技术
- CO
- 值得称道
- 社体的一部分
- 完全
- 全面
- 总结
- 研讨会 首页
- 会议
- 一贯
- 包含
- 包含
- 抗衡
- 内容
- 可以
- 丹尼尔
- data
- 数据集
- 一年中的
- 期限
- 认为
- 依赖
- 开发
- 差异
- 困难
- 论述
- 讨论
- 区别
- 不同
- do
- 文件
- 文件
- 占主导地位
- 不
- e
- 每
- 效果
- 强调
- 放大
- 整个
- 题为
- 评估
- 评估
- 评价
- 例子
- 展览
- 专家
- 解释
- 因素
- 反馈
- 女
- 发现
- 重点
- 聚焦
- 针对
- 发现
- 频率
- 频繁
- 止
- 生成的
- 生成式人工智能
- 赠品
- 走了
- 更大的
- 团队
- 有
- 帮助
- HTTPS
- 黄
- 人
- 人类
- i
- 鉴定
- 影响力故事
- in
- 包含
- 增加
- 说明
- 信息
- 伤
- 创新
- 洞察
- 房源搜索
- 意图
- 兴趣
- ISN
- IT
- 它的
- 詹姆斯
- 一月
- 日志
- JPG
- 实验室
- 语言
- 大
- 名:
- 去年
- 后来
- 领导
- 信息
- 学习
- 导致
- 减
- 喜欢
- 容易
- 文学
- LLM
- 低
- 机
- 机器学习
- 机
- 颠覆性技术
- 有意义的
- 未成年人
- 模型
- 模型
- 改性
- 监控
- 个月
- 更多
- 自然
- 需求
- 需要
- 消息
- 注意
- 名词
- 现在
- 明显
- of
- on
- 一
- 仅由
- OpenAI
- or
- 其他名称
- 我们的
- 输出
- 文件
- 部分
- 通过
- 通道
- 过去
- 病人
- 窥视
- 同行
- 百分
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 门户网站
- 可能
- 可能
- 做法
- 国家
- 目的
- 率
- 宁
- 真实的世界
- 实时的
- 最近
- 可靠
- 报告
- 报道
- 业务报告
- 研究人员
- 成果
- 检讨
- 审查
- 回顾
- 评论
- 上升
- 风险
- s
- 圣诞老人
- 鳞片
- .
- 套数
- 迹象
- SIX
- 六个月
- 尺寸
- 小
- 一些
- 具体的
- 言语
- 稳定性
- 看台
- 斯坦福
- 斯坦福大学
- 统计
- 学习
- 提交
- 基本上
- 成功
- 这样
- 建议
- 概要
- 拍摄
- 文案
- 易于
- 文本
- 比
- 这
- 其
- 他们
- 那里。
- 博曼
- 他们
- Free Introduction
- 那些
- 三
- 标题
- 至
- 令牌
- 了
- 最佳
- 对于
- 透明
- 试图
- 原来
- 二
- 承诺
- 大学
- 最新动态
- 紧急
- 用法
- 使用
- 用过的
- 运用
- 非常
- 是
- 方法..
- 方法
- we
- 井
- 为
- 什么是
- 谁的
- Word
- 工作
- 写作
- 书面
- Ye
- 年
- 和风网
- 赵