OpenAI发布了一项新研究,表明通过增加推理时计算,可显著提升大语言模型的对抗稳健性,无需依赖对抗性训练。这一发现为防御对抗攻击提供了新的思路,并在多个任务上得到了验证。实验中,团队还考察了几种针对推理模型的新型攻击方式,并发现增加推理时间能有效降低攻击成功率。然而,研究者也指出,该方法目前仅涉及有限的任务和计算缩放范围,且攻击者可能诱导模型陷入无效率的思考循环。
此外,这一研究引起了创业者的关注,认为DeepSeek-R1系列也可能从中受益。论文详细分析了各种攻击方式下的模型表现,并提出了对未来研究方向的展望。该研究为推理大模型的防攻击能力提供了新的见解,对于提升模型安全性和可靠性具有重要意义。