Meta 正在构建一个人工智能来对维基百科进行事实核查——所有 6.5 万篇文章柏拉图区块链数据智能。垂直搜索。人工智能。

Meta 正在构建一个人工智能来对维基百科进行事实核查——所有 6.5 万篇文章

图片

大多数 30 岁以上的人可能还记得用老式的百科全书进行研究。 你会从书架上拿出一本厚厚的书,检查你感兴趣的主题的索引,然后翻到相应的页面并开始阅读。 这并不像在 Google 搜索栏中输入几个词那么简单,但从好的方面来说,您知道您在 英国的 或者 世界书 是准确和真实的。

今天的互联网研究并非如此。 压倒性的大量消息来源令人困惑,但加上错误信息的扩散,我们中的任何人都相信我们在网上阅读的一个词是一个奇迹。

维基百科就是一个很好的例子。 截至 2020 年初,该网站的英文版平均约为 255千万 每天的页面浏览量,使其成为互联网上访问量第八大的网站。 截至上个月,它已经上升到现货 七号,而英文版目前已经结束 6.5千万 的文章。

但是,尽管这个首选信息源可能具有高流量,但其准确性仍有待改进。 这 关于网站自身的可靠性状态,“在线百科全书不认为自己作为来源是可靠的,并且不鼓励读者在学术或研究环境中使用它。”

前 Facebook 的 Meta 想要改变这一点。 在一个 博客文章 上个月发布的该公司员工描述了人工智能如何帮助使维基百科更加准确。

虽然有成千上万的人参与编辑网站,但他们添加的事实不一定正确; 即使存在引用,它们也不总是准确的,甚至不相关。

Meta 正在开发一种机器学习模型,可以扫描这些引文并将其内容交叉引用到 Wikipedia 文章中,以验证不仅主题一致,而且引用的具体数字是否准确。

这不仅仅是挑选数字并确保它们匹配的问题。 Meta 的人工智能需要“理解”引用来源的内容(尽管“理解”是一个误称,正如复杂性理论研究员 Melanie Mitchell 会告诉你,因为 AI 还处于“狭义”阶段,意思是它是一个高度复杂的模式识别工具,而“理解”是一个用于人类认知的词,这仍然是一个非常不同的东西)。

Meta 的模型将“理解”内容,而不是通过比较文本字符串并确保它们包含相同的单词,而是通过比较文本块的数学表示,它使用自然语言理解 (NLU) 技术得出。

“我们所做的是通过将所有这些网页分成段落并为每个段落提供准确的表示来建立所有这些网页的索引,”Meta 的基础人工智能研究技术主管经理 Fabio Petroni, 告诉 数字化趋势. “那不是逐字表示经文,而是表示经文的意思。 这意味着在存储所有这些段落的最终 n 维空间中,两个具有相似含义的文本块将被表示在非常接近的位置。”

AI 正在接受一组 XNUMX 万条维基百科引文的训练,除了在网站上挑选出错误的引文外,它的创建者还希望它最终能够建议准确的来源来取代他们,从大量数据索引中提取不断更新。

一个有待解决的大问题是在一个分级系统中工作,以确保消息来源的可靠性。 例如,来自科学期刊的论文将获得比博客文章更高的评分。 在线内容如此庞大多样,您几乎可以找到支持任何主张的“来源”,但要从虚假信息中解析错误信息(前者意味着不正确,而后者意味着故意欺骗),并且经过同行评审从未经同行评议的人看来,从匆忙拼凑起来的人那里核实事实,这不是一项小任务——但在信任方面却是一项非常重要的任务。

Meta已经开源了它的模型,好奇的可以看看 演示 的验证工具。 Meta 的博客文章指出,该公司并未与 Wikimedia 就该项目进行合作,并且该项目仍处于研究阶段,目前尚未用于更新 Wikipedia 上的内容。

如果你想象一个不远的未来,你在维基百科上阅读的所有内容都是准确和可靠的,那么做任何类型的研究会不会太容易了? 自己检查和比较各种来源是很有价值的,不是吗? 从翻阅厚重的书籍到在搜索引擎中输入几个单词并点击“Enter”,这是一个巨大的飞跃; 我们真的希望维基百科从一个研究起点转变为一个获得最后一个字的来源吗?

无论如何,Meta 的 AI 研究团队将继续致力于改进在线百科全书的工具。 “我认为我们最终是被好奇心驱使的,”Petroni 说过. “我们想看看这项技术的极限是什么。 我们绝对不确定 [这个 AI] 是否可以在这种情况下做任何有意义的事情。 从来没有人尝试过做类似的事情。”

图片来源: 格德阿尔特曼Pixabay

时间戳记:

更多来自 奇异枢纽