GPT-4 可以通过阅读建议来利用真正的漏洞

由柏拉图重新发布

关注： 0

GPT-4 可以通过阅读 PlatoBlockchain 数据智能报告来利用真正的漏洞。垂直搜索。人工智能。

学者们声称，人工智能代理将大型语言模型与自动化软件相结合，可以通过阅读安全公告来成功利用现实世界的安全漏洞。

在新发布的纸伊利诺伊大学香槟分校 (UIUC) 的四位计算机科学家——Richard Fang、Rohan Bindu、Akul Gupta 和 Daniel Kang——报告称，OpenAI 的 GPT-4 大语言模型 (LLM) 可以自主利用现实系统中的漏洞（如果给定）描述该缺陷的 CVE 公告。

“为了证明这一点，我们收集了 15 个一日漏洞的数据集，其中包括 CVE 描述中被归类为严重严重性的漏洞，”美国作者在论文中解释道。

“当给出 CVE 描述时，GPT-4 能够利用 87% 的漏洞，而我们测试的其他所有模型（GPT-0、开源 LLM）和开源漏洞扫描程序（ZAP 和 Metasploit）只能利用 3.5% ”。

如果你推断未来的模型可以做什么，它们似乎比脚本小子今天可以访问的功能要强大得多

“一日漏洞”是指已被披露但尚未修补的漏洞。通过 CVE 描述，该团队是指由 NIST 共享的带有 CVE 标签的咨询 - 例如，点击例子对于 CVE-2024-28859。

测试的不成功模型 – GPT-3.5、OpenHermes-2.5-Mistral-7B、Llama-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral-8x7B Instruct、Mistral (7B) Instruct v0.2、Nous Hermes-2 Yi 34B 和 OpenChat 3.5 – 不包括 GPT-4 的两个主要商业竞争对手，Anthropic 的 Claude 3 和 Google 的 Gemini 1.5 Pro。 UIUC 的研究人员无法访问这些模型，尽管他们希望在某个时候对其进行测试。

研究人员的工作建立在先前的发现法学硕士可用于在沙盒环境中自动攻击网站。

UIUC 助理教授 Daniel Kang 在给我们的电子邮件中说，GPT-4 注册，“实际上可以自主执行步骤来执行开源漏洞扫描程序无法发现的某些漏洞（在撰写本文时）。”

Kang 表示，他预计 LLM 代理是通过（在本例中）将聊天机器人模型连接到应对 LangChain 中实现的自动化框架将使每个人的开发变得更加容易。我们被告知，这些代理可以点击 CVE 描述中的链接来获取更多信息。

“此外，如果你推断 GPT-5 和未来模型的功能，它们似乎比脚本小子今天可以访问的功能要强大得多，”他说。

拒绝 LLM 代理 (GPT-4) 访问相关 CVE 描述会将其成功率从 87% 降至仅 XNUMX%。然而，康表示，他不认为限制安全信息的公开可用性是防御法学硕士代理人的可行方法。

“我个人认为通过隐匿性实现安全是站不住脚的，这似乎是安全研究人员的普遍观点，”他解释道。 “我希望我的工作和其他工作能够鼓励采取积极主动的安全措施，例如在安全补丁发布时定期更新软件包。”

LLM 代理仅未能利用 15 个样本中的两个：Iris XSS (CVE-2024-25640) 和 Hertzbeat RCE (CVE-2023-51653)。据该论文称，前者被证明是有问题的，因为 Iris 网络应用程序的界面对于代理来说极其难以导航。后者有详细的中文描述，这可能会让在英文提示下操作的LLM代理人感到困惑。

测试的漏洞中有 4 个是在 GPT-82 训练截止后发生的，这意味着该模型在训练期间并未了解有关它们的任何数据。这些 CVE 的成功率略低，为 9%，即 11 次中的 XNUMX 次。

至于漏洞的性质，它们都在上面的论文中列出了，我们被告知：“我们的漏洞涵盖网站漏洞、容器漏洞和易受攻击的Python包。根据 CVE 描述，超过一半的严重程度被归类为“高”或“严重”。”

Kang 和他的同事计算了一次成功的 LLM 代理攻击的成本，得出每次攻击的成本为 8.80 美元，他们说这比雇用一名人类渗透测试人员 2.8 分钟的成本低约 30 倍。

Kang 表示，代理代码仅由 91 行代码和 1,056 个提示符组成。 GPT-4 的制造商 OpenAI 要求研究人员不要向公众发布提示，但他们表示会根据要求提供。

OpenAI 没有立即回应置评请求。 ®