韩国网络巨头 Naver 上周推出了一系列名为 HyperCLOVA X 的大型语言模型,声称该模型在亚洲语言的跨语言推理方面比其他模型表现更好,因此可能有助于该地区开发主权大型语言模型。
Naver的 公布 HyperCLOVA X 在韩语中首次亮相,并指向英语 技术报告 开放获取期刊 arXiv 声称“我们相信 HyperCLOVA X 凭借其在英语和韩语以外其他语言方面的竞争能力,可以为地区或国家发展自己的主权法学硕士提供有用的指导。”
法学硕士接受了“由韩语、多语言和代码段组成”的数据预训练。
多语言子集主要是英语,但也包括各种其他语言,例如日语、德语和法语。
韩语材料约占预训练数据的三分之一,这表明 Naver 选择提高其母语模型的性能。预训练过程还考虑了韩语的特殊语法。
Naver 声称,这一努力的结果是“天生精通韩语和英语”的模特。
更好的是,这些模型显示出“多语言能力”——使用除训练处理语言之外的语言进行工作的能力。
“我们的分析表明,HyperCLOVA X 不仅能够将其推理能力扩展到其主要目标语言之外,而且在韩语和非目标语言(例如日语和中文)之间的机器翻译方面也达到了最先进的水平。”技术报告指出。 “HyperCLOVA X 令人印象深刻的多语言能力还包括韩语和英语之间的跨语言转换,其中一种语言的指令调整可以导致另一种语言的指令跟踪功能的出现,”它补充道。
多语言测试结果使开发人员得出结论,HyperCLOVA X“可以转移到预训练数据中代表性不足的亚洲语言。”
主权人工智能正在成为一种必要的国家能力——作为确保数据安全和减少对离岸提供商依赖的一种手段。英伟达倡导了这一概念,巧合的是,该概念有潜力为其产品创造更大的市场。
但正如 Naver 的技术报告指出的那样,对于现有主流法学硕士来说,英国和北美文化“在预培训语料库中所占的比例极其过高”。
“因此,这些法学硕士在处理和理解韩语等非英语语言的能力方面表现出局限性,韩语体现了独特的文化差异、地缘政治局势和其他区域特殊性,以及独特的语言属性,”它解释道。
地区重量级的中国一直寻求出于其国家利益(或者至少是中共的利益)来培养法学硕士,以 不同的成功。尽管如此,像百度的 ERNIE 这样的聊天机器人已经 囊括 到 100 年底,用户数量将超过 2023 亿。
Naver Cloud超大规模人工智能技术负责人Nak-ho-Seon宣称,该公司计划“未来为各个地区和国家创建专门的超大规模人工智能”。
同时,技术报告还承诺“探索多模态,旨在扩大 HyperCLOVA X 无缝处理和集成文本、图像和音频等不同类型数据的能力”,同时寻求优化模型的推理能力。
Naver 声称正在“积极研究外部工具和 API 的集成,以增强模型的功能”——它相信这一努力将“使 HyperCLOVA X 能够访问专门的数据集和服务”。 ®
- :具有
- :是
- :不是
- :在哪里
- $UP
- 100
- 2023
- 7
- a
- 能力
- 对,能力--
- Able
- ACCESS
- 账号管理
- 积极地
- 添加
- AI
- 致力
- 还
- 美国人
- an
- 分析
- 和
- APIs
- 保健
- 围绕
- AS
- 亚洲的
- At
- 属性
- 音频
- 增加
- 百度
- BE
- 相信
- 相信
- 更好
- 之间
- 超越
- 都
- 扩大
- 但是
- by
- CAN
- 能力
- 能力
- 容量
- 中共
- 倡导
- 聊天机器人
- 中国
- 中文
- 选择
- 声称
- 云端技术
- CO
- 码
- 竞争的
- 包含
- 概念
- 总结
- 所以
- 国家
- 创建信息图
- 文化
- 文化
- data
- 数据安全
- 数据集
- 首次亮相
- 开张
- 首次亮相
- 声明
- 依赖
- 开发
- 开发商
- 发展
- 屏 显:
- 独特的
- 不同
- 努力
- 体现
- 出现
- 新兴经济体的新市场。
- enable
- 结束
- 努力
- 英语
- 保证
- 甚至
- 展览
- 现有
- 介绍
- 探索
- 延长
- 外部
- 非常
- 家庭
- 针对
- 法语
- 功能
- 未来
- 地缘政治
- 德语
- 巨人
- 语法
- 指导
- 民政事务总署
- 处理
- 头
- 重量级
- 帮助
- 有帮助
- 主页
- HTML
- HTTPS
- 图片
- 有声有色
- 改善
- in
- 包括
- 包括
- 迹象
- 固有
- 整合
- 积分
- 兴趣
- 成
- IT
- 它的
- 日文
- 日志
- JPG
- 韩语
- 语言
- 语言
- 大
- 大
- 名:
- 铅
- 最少
- 导致
- Level
- 喜欢
- 限制
- LLM
- 机
- 制成
- 主流
- 市场
- 材料
- 可能..
- 手段
- 百万
- 模型
- 模型
- 命名
- National
- Naver的
- 必要
- 北
- 细微之处
- Nvidia公司
- of
- on
- 一
- 仅由
- 打开
- 优化
- or
- 其他名称
- 我们的
- 输出
- 超过
- 己
- 特别
- 演出
- 性能
- 计划
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 保证
- 点
- 潜力
- 主要
- 主要
- 过程
- 提供
- 供应商
- 减少
- 地区
- 区域性
- 地区
- 报告
- 导致
- 成果
- 路透社
- s
- 无缝
- 保安
- 寻求
- 中模板
- 特色服务
- 作品
- 情况
- 追捧
- 君主
- 专门
- 国家的最先进的
- 州
- 这样
- 针对
- 文案
- 专业技术
- test
- 文本
- 比
- 这
- 未来
- 其
- 因此
- 博曼
- 第三
- 那些
- 至
- 了
- 工具
- 熟练
- 转让
- 转移
- 翻译
- 类型
- 代表性不足
- 理解
- 独特
- 用户
- 各种
- 各个
- 是
- we
- 卷筒纸
- 周
- 井
- 为
- 这
- 而
- 将
- 工作
- X
- 但
- 和风网