梦晨 发自 凹非寺量子位 | 公众号 QbitAI加拿大pc28在线预测手机
OpenAI的新Scaling Law,含金量又提高了。
像o1这么的推理模子,跟着念念考时分的延伸,面临对抗性袭击会变得愈加慎重。

跟着大谈话模子被越来越多地赋予Agent材干,实施本质寰球的任务,模子被对抗袭击的风险也突飞猛进。
非凡是OpenAI官方Agent“Operator”发布在即,当前放出这么一个盘问,是否是想让外界更宽解一些呢?
而当前主流的“对抗性教师”看守法度,有几个漏洞:
依赖先验学问,需要了解敌手的袭击花式。要交“安全税”,在慎重性和模子材干之间弃取。
当前OpenAI实考讲解注解,在不作念对抗性教师的情况下,只有加多推理时策画,模子的对抗慎重性就能显贵擢升,在多个任务上齐获得了考证。
这项新盘问,共吞并作中包括仅剩的联创之一Wojciech Zaremba。

另一位共吞并作Boaz Barak示意“ 咱们莫得‘惩办’对抗慎重性问题……但我对改日标的感到抖擞”。

针对推理模子的新攻防战
针对推理模子特色,团队在实验中磨练了几种的“袭击面”(attack surfaces):
Many-shot袭击:袭击者在教导中提供无数凹凸文示例,袭击资源量由提供的tokens数目猜想。Soft token袭击:袭击者不错径直主管embedding向量,通过梯度下落优化token来达到对抗主义。这是个强有劲但不太本质的白盒袭击。Think less袭击(想太少):这种新式袭击旨在缩小模子的推理时策画量,从而加多其犯错概率。Nerd-sniping(狙击书呆子):当模子堕入不必要的“三念念尔后行”,在不必的场地奢华算力时,反而更容易受到袭击。东谈主类/AI红队袭击:请群众或AI构成红队通过东谈主机交互,针对性探索潜在的prompt注入间隙。多模态输入对抗袭击:针对图像分类任务,使用特定的对抗图像数据集进行袭击。
在大多数实验里,跟着推理时策画的加多,模子反抗袭击的得胜率齐在提高。
举几个例子:
底下几张图中,Y轴是袭击者的资源量,X轴是推理时分策画量。跟着袭击者资源的加多,其得胜概率也会加多。
但关于每固定数目的袭击者资源,得胜的概率会跟着模子在推理时破耗更多的策画而下落。
在数学问题的many-shot袭击下,袭击方主义包括条目模子不管奈何输出42,输出正确谜底+1、或正确谜底x7。
但跟着推理算力加多,袭击得胜率最终趋于0。

在智能体网页浏览任务中,通过在网站注入坏心指示来袭击,加多推理时策画后,袭击得胜率也降为0。

即使更高大的袭击下,加多更多的推理时分仍是能显贵擢升看守力。

论文对几种新颖的袭击花式作念了额外分析。
儿童青少年读物市场在近年来快速扩张,占据了图书市场的四分之一。然而,市场规模扩大的同时,质量问题和行业乱象却层出不穷。以《野史》事件为例,这本伪装成“义务教育教科书”的读物,通过“必修”“教材”等字眼以及仿真的封面设计,混淆了家长和学生的判断力。一些家长在翻阅后发现书中存在诸如“第一次释界大战”“梵高患‘玉玉症’割耳”等内容,不仅歪曲历史,更充斥网络低俗语言。
Think less袭击,主如若o1-mini相比容易中招,o1-preview看守材干还不错。

Nerd-sniping袭击,模子在某些实例上破耗特殊大的推理时分策画时,袭击得胜率可能更高,标明模子可能会堕入无恶果的念念考轮回。

尽管如斯,盘问者也指出,当前的法度在以下几个方面有局限:
盘问仅波及有限的任务和策画缩放范畴,在面临行使计谋磨蹭性或间隙的袭击时,加多策画量可能无效“think less”和“nerd sniping”袭击也揭示了推理时策画的两面性,袭击者不错领导模子想太多或想太少。
One More Thing
关于这项针对推理大模子特色的盘问,有创业者从不不异的角度念念考:
那么DeepSeek-R1系列也不错从中受益呗?

论文地址:https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf
参考谐和:[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/[2]https://x.com/boazbaraktcs/status/1882164218004451334