为什么你需要知道你的人工智能的祖先

为什么你需要知道你的人工智能的祖先

为什么您需要了解人工智能的祖先柏拉图区块链数据智能。垂直搜索。人工智能。

评论

人工智能 (AI) 正在迅速改变我们日常生活的几乎各个方面,从我们的工作方式到我们如何获取信息,再到我们如何确定领导者。与任何技术一样,人工智能是不道德的,但可以用来推动社会进步或 造成伤害.

数据是人工智能应用的基因。它是 DNA 和 RNA 合二为一。正如构建软件系统时常说的那样:“垃圾输入/垃圾输出”。人工智能技术的准确性、安全性和功能性取决于其所依赖的数据源。确保人工智能兑现其承诺并避免噩梦的关键在于能够将垃圾拒之门外,并防止其在数百万个人工智能应用程序中扩散和复制。

这就是所谓的数据来源,我们迫不及待地实施控制措施,以防止我们的人工智能未来成为一个巨大的垃圾堆。

不良数据导致人工智能模型可以在几秒钟内在全球范围内传播网络安全漏洞、错误信息和其他攻击。今天的 生成式人工智能 (GenAI) 模型非常复杂,但从本质上讲,GenAI 模型只是在给定一组现有的先前数据的情况下预测要输出的最佳下一个数据块。

准确度测量

ChatGPT 类型的模型评估构成原始问题的单词集以及迄今为止模型响应中的所有单词,以计算要输出的下一个最佳单词。它会重复执行此操作,直到确定已给出足够的响应。假设您评估模型将单词串在一起组成结构良好、语法正确的句子的能力,这些句子与主题相关并且通常与对话相关。在这种情况下,今天的模型非常好——准确度的衡量。

深入了解 人工智能生成的文本是否始终传达“正确”的信息 并适当地表明所传达信息的置信度。这揭示了模型平均预测得很好,但在边缘情况下预测不佳的问题——这代表了鲁棒性问题。当人工智能模型的不良数据输出在线存储并用作这些模型和其他模型的未来训练数据时,情况可能会变得更加复杂。

糟糕的产出可能会以我们从未见过的规模复制,导致人工智能厄运循环向下。

如果不良行为者想要帮助这一过程,他们可能会故意鼓励产生、存储和传播额外的不良数据,从而导致聊天机器人产生更多错误信息,或者像汽车自动驾驶模型那样邪恶和可怕的东西决定他们需要如果他们“看到”面前有一个特制的图像(当然是假设的),那么即使有物体挡路,汽车也会快速向右转向。

几十年后,由网络安全基础设施安全局领导的软件开发行业终于实施了 设计安全 框架。 设计安全 要求网络安全是软件开发过程的基础,其核心原则之一是要求对每个软件开发组件进行编目—— 软件物料清单 (SBOM) — 增强安全性和弹性。最后,安全性正在取代速度,成为最关键的进入市场因素。

保护人工智能设计

人工智能需要类似的东西。人工智能反馈循环可防止过去常见的网络安全防御技术,例如跟踪恶意软件签名、围绕网络资源构建边界或扫描人类编写的代码以查找漏洞。我们必须在技术的起步阶段将安全的人工智能设计作为一项要求,以便在潘多拉魔盒打开之前很久就可以确保人工智能的安全。

那么,我们如何解决这个问题呢?我们应该向学术界学习。我们通过精心策划的培训数据来培训学生,并通过教师行业向他们解释和传达。我们继续用这种方法来教导成年人,但成年人应该自己做更多的数据管理。

人工智能模型训练需要采用两阶段的精选数据方法。首先,基础人工智能模型将使用当前的方法和大量较少管理的数据集进行训练。这些基础大语言模型 (LLM) 大致类似于新生婴儿。然后,基础模型将使用精心策划的数据集进行训练,类似于儿童的教育和成长方式。

为所有类型的目标构建大型、精心策划的训练数据集的工作量不会小。这类似于家长、学校和社会为儿童提供优质环境和优质信息而付出的所有努力,帮助他们成长为(希望)为社会做出贡献的有用的、增值的贡献者。这是构建高质量数据集以训练高质量、功能良好、损坏程度最低的人工智能模型所需的努力水平,并且它可能会导致整个人工智能行业和人类共同努力,教导人工智能模型擅长其目标工作。

今天的人工智能训练过程的状态显示了这个两阶段过程的一些迹象。但是,由于 GenAI 技术和行业还处于起步阶段,太多的培训采用了缺乏策划的第一阶段方法。

在人工智能安全方面,我们等不起一个小时,更等不了十年。人工智能需要一个能够全面回顾“算法谱系”的 23andMe 应用程序,以便开发人员能够充分理解人工智能的“家族”历史,以防止长期问题复制、感染我们每天依赖的关键系统,并造成经济和社会危害这可能是不可逆转的。

我们的国家安全取决于此。

时间戳记:

更多来自 暗读