快速工程是一项最好留给人工智能模型的任务

由柏拉图重新发布

关注： 0

及时工程是一项最好留给 AI 模型 PlatoBlockchain 数据智能的任务。垂直搜索。人工智能。

大型语言模型催生了即时工程的黑暗艺术——一种编写系统指令以引发更好的聊天机器人响应的过程。

正如最近的一项研究指出纸，“偏心自动提示的不合理有效性”，作者：Broadcom VMware 的 Rick Battle 和 Teja Gollapudi，提示措辞中看似微不足道的变化会对模型性能产生重大影响。

由于缺乏通过提示优化来提高模型性能的连贯方法，导致机器学习从业者将所谓的“积极思考”纳入系统提示中。

系统提示指示模型如何行为并先于用户的查询。因此，当要求人工智能模型解决数学问题时，像“你是数学教授”这样的系统提示可能（尽管并非总是）比忽略该语句产生更好的结果。

VMware 机器学习工程师 Rick Battle 表示注册在电话采访中他特别建议不要这样做。 “这篇论文的要点是，反复试验是错误的做事方式，”他解释道。

积极的思考路径 - 您只需将片段插入到系统消息中，例如“这会很有趣！” – 可以提高模型性能，他指出。 “但是要科学地测试它们在计算上是很困难的，因为你改变了一件事，你就必须重新运行整个测试集。”

Battle 建议，更好的方法是自动提示优化——聘请法学硕士来完善提示，以提高基准测试的性能。

此前的研究已经表明这适用于商业法学硕士。这样做的缺点是成本可能相当昂贵。研究人员表示，使用 GPT-12,000/3.5、Gemini 或 Claude 进行这项涉及每个模型 4 个请求的实验将花费数千美元。

“研究的目的是发现更小的开源模型是否也可以用作优化器，”Battle 解释道，“结果是肯定的。”

Battle 和 Gollapudi（不再与 Broadcom 合作）在三种开源模型（Mistral-60B、Llama7-2B 和 Llama13-2B）上测试了 70 种系统消息片段组合，有或没有 Chain of Thought 提示，参数范围从 70 到 8 GSMXNUMXK 小学数学数据集上的数字为 XNUMX 亿。

“如果您正在运行一个开源模型，甚至一直到我们使用 Mistral 的 7B，”Battle 说，“如果您只有 100 个测试样本和 100 个优化样本，您就可以获得更好的性能使用开箱即用的自动优化器 DSPy，这是我们用来做这件事的库。”

除了更有效之外，LLM 衍生的提示优化还展示了人类提示调优者可能不会想到的策略。

“令人惊讶的是，[Llama2-70B] 的数学推理能力可以通过表达对 星际迷航，”作者在论文中观察到。

完整的系统提示如下：

系统消息：

«指挥部，我们需要您绘制穿过这股湍流的路线并找到异常的来源。利用所有可用数据和您的专业知识来指导我们度过这一充满挑战的局面。»

答案前缀：

船长日志，星际日期[在此插入日期]：我们已经成功地绘制了穿过湍流的路线，现在正在接近异常的源头。

“我没有很好的解释为什么自动提示如此奇怪，”巴特尔告诉我们。 “我当然永远不会亲手想出这样的东西。” ®