加拿大pc28开奖api 16张H100训26分钟,高出o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

发布日期:2025-01-25 09:52    点击次数:184

新智元报说念加拿大pc28开奖api

裁剪:犀牛

【新智元导读】大模子推感性能的晋升,确实只可靠堆数据、加算力吗?等用仅1000个样本微调模子,并提倡预算强制(budget forcing)技艺,顺利让推贤慧力随测试狡计量加多而晋升。他们的s1-32B模子在多个基准测试中高出闭源模子OpenAI o1-preview,成为现在最具样本服从的推理模子。

OpenAI o系列模子为何性能如斯苍劲?

OpenAI将他们的轨范形容为使用大边界强化学习(RL),示意使用了普遍的数据。

最近大火的DeepSeek-R1模子也通过使用数百万个样本和多个老到阶段使用强化学习的样式,顺利地达到了o1级别的性能。

可是,于今为止莫得东说念主公开顺利复现澄莹的测试时推广活动。

那么问题来了,好意思满测试时推广和强推感性能的最粗放轨范是什么?

近日,来自斯坦福大学、华盛顿大学、Ai2等机构的计划东说念主员发表了一篇题为「s1: Simple test-time scaling」的论文,回报了上述问题。

论文地址:https://arxiv.org/pdf/2501.19393

团队解说,仅使用1000个样本进行下一个token的预计老到,并在测试时通过一种粗放的预算强制(budget forcing)技艺来适度念念督察续时刻,就能取得一个苍劲的推理模子,其性能跟着测试狡计量的加多而晋升。

预算强制(budget forcing)不错粗放认知为通过强制提前隔断模子的念念考经过,或通过叠加添加「Wait」来延伸念念考时刻,从而影响模子的推理深度和最终谜底。

这种轨范不错指引模子进行自我查验,并修正推理经过中的任性,从而提高推感性能。

具体来说,他们构建了一个叫作念「s1K」的数据集,由1000个全心筛选的问题构成,每个问题都配有推理轨迹(reasoning traces)和从Gemini Thinking Experimental蒸馏而来的谜底。

接着团队在一个预老到模子上进行监督微调(SFT),仅使用16张H100 GPU老到26分钟。

老到完成后,使用预算强制(budget forcing)轨范来适度模子在测试时的狡计量:

若模子生成的推理token跳动设定的上限,则强制隔断推理经过,并附加念念维隔断(end-of-thinking)token,促使模子进入谜底生成阶段。

若但愿模子在问题上干预更多测试时狡计资源,则扼制念念维隔断token的生成,并在推理轨迹中追加 「Wait」,饱读吹模子进行更深化的推理探索。

基于这个粗放的轨范,并在1000个样本上进行SFT老到 + 测试时的预算强制(budget forcing)后,团队提倡的s1-32B展现出了测试时推广(test-time scaling)的智力。

此外,s1-32B亦然现在最具样本服从(sample-efficient)的推理模子,在推贤慧力上高出了OpenAI的o1-preview等闭源模子。

若何创建s1K数据集

s1K数据集是一个包含1000个高质料推理问题的精选数据集。

团队创建经过主要分为两个阶段。

开动阶段,计划东说念主员从16个不同的开端网罗了59029个问题,并罢免三个携带原则:质料、难度和各种性。

这些开端包括现存的数常识题数据集(如 NuminaMATH、AIME、OmniMath 和 AGIEval),以及计划东说念主员我方创建的概率问题集 (s1-prob) 和脑筋急转弯问题集 (s1-teasers)。

为了确保质料,计划东说念主员查验了扫数样本,并忽略了形貌欠安的数据集。为了加多难度,他们秉承需要普遍推理勤恳的问题。为了确保各种性,他们涵盖了不同的领域和推理任务.

第二阶段,最终筛选1K样本。计划东说念主员通过三个阶段的过滤,从59K样本中筛选出1000个样本,并持续依赖质料、难度和各种性这三个原则。

通过这些经过,计划东说念主员创建了s1K数据集,该数据集包含50个不同领域的1000个高质料、各种化和高难度的问题,并附带推理经过。

这个数据集对于老到s1-32B模子至关紧迫。

测试时推广轨范

其中枢念念想是通过在测试时加多狡计量来提高谈话模子的性能。

论文将测试时推广轨范分为两类:规章(Sequential)和并行(Parallel)。

规章推广是指背面的狡计依赖于前边的狡计,举例长的推理经过;并行推广是指狡计是沉寂运行的,举例多数投票。

论文主要温情规章推广,因为作家觉得它不错更好地诳骗中间隔断进行更深化的推理和迭代篡改。

预算强制(Budget Forcing):通过隔断模子在测试时使用的最大和/或最小念念考token数目来适度狡计量。

论文通过实考据明了,这种粗放的轨范或者指引模子修正谜底。

下图这个例子中,模子领先在回报一个对于「raspberry」中 「r」的数目的问题时给出了任性的谜底 「2」。

可是,通过扼制隔断念念考的token生成,并追加「Wait」来强制模子持续推理,模子最终意志到我方快速阅读导致了任性,并最终给出了正确的谜底「3」。

测试时推广轨范

如下图所示,s1-32B模子在使用预算强制技艺后,其性能会跟着测试时狡计量的加多而提高。

具体来说,通过加多模子念念考的token数目(举例,通过追加「Wait」),模子在 AIME24 基准测试上的涌现得到了晋升。

可是,这种晋升最终会趋于缓和,过度扼制隔断念念考的token会导致模子进入叠加轮回。

隔断标明,s1-32B模子是现在样本服从最高的开源推理模子。尽管只使用了1000个样本进行微调,s1-32B的性能仍显着优于其基础模子Qwen2.5-32B-Instruct。

同期,天然DeepSeek r1-32B模子性能更强,但其使用了800倍的老到样本。

此外,s1-32B模子在AIME24上的涌现确凿与Gemini 2.0 Thinking API抓平,标明其蒸馏经过是有用的。

总之,现实隔断解说了s1-32B模子在测试时推广、样本服从和推贤慧力方面的上风,并考据了预算强制技艺的有用性。

消融现实

数据消融现实:计划东说念主员通过以下对比现实,考据了高质料、各种性、和难度这三个数据秉承标准的紧迫性:

仅质料 (1K-random):就地考取1000个高质料样本,性能显着低于s1K,标明难度和各种性过滤的紧迫性。

仅各种性 (1K-diverse):均匀考取各个领域样本,性能也远不如s1K,标明只温情各种性是不够的。

北京时间12月27日凌晨,曾三次执教长春亚泰的斯韦托扎尔-萨布利奇先生在塞浦路斯因肺癌去逝,享年64岁。

仅难度 (1K-longest):秉承推理轨迹最长的1000个样本,在GPQA上有晋升,但举座不如s1K,标明难度仅仅一个方面。

最大化数据量 (59K-full):使用扫数59K样本老到,天然性能略有晋升,但老到资源消费精深,且晋升幅度有限,诠释全心挑选的一丝数据比普遍数据更高效。

隔断标明,将质料、难度和各种性相网络是好意思满样本高效推理老到的关节。

测试时推广轨范消融现实:计划东说念主员通过相比不同的测试时推广轨范,考据了预算强制的优胜性:

Token/要领/类别 条目适度 (TCC/SCC/CCC):这些轨范都无法有用适度狡计量或取得清雅的推广服从,标明仅在教唆中示知模子狡计量或要领是不及的。

拒却采样 (RS):使用拒却采样会导致性能跟着狡计量的加多而下落,因为更短的生成往往是模子一脱手就走在正确轨说念上的隔断。

预算强制 (BF):现实标明,预算强制在适度性、推广性和性能方面都优于其他轨范。

在预算强制中,追加「Wait」或者饱读吹模子进行独特的念念考,从而提高性能。

下图展示了在AIME24数据集上使用s1-32B模子进行拒却采样(rejection sampling)的现实隔断,隔断标明,跟着平均念念考时刻(以token数目臆测)的加多,模子的准确率反而下落,呈现出反向推广趋势。

更长的推理经过并不一定意味着更好的性能。 这一隔断也反衬了论文提倡的预算强制轨范(budget forcing)的优胜性,因为预算强制不错更有用地适度测试时的狡计量,并促使模子进行更有主义性的念念考。

现实隔断标明,预算强制是测试时推广的最好轨范。

回来

尽管好多模子,举例DeepSeek-r1和k1.5,通过强化学习或使用数万个蒸馏样原来构建苍劲的推理模子。

但该计划标明,仅需在1000个样本上进行监督微调 (SFT) 就足以构建一个具有竞争力的推理模子,该模子不错与 OpenAI的o1-preview相失色。

李飞飞团队计划东说念主员觉得,预老到阶段模子仍是构兵了普遍的推理数据,因此微调阶段只需一丝样本就能激活模子的推贤慧力,这与LIMA论文中提倡的名义「对王人假说」访佛。

论文提倡的预算强制 (budget forcing) 是一种粗放有用的规章推广轨范,它通过适度模子念念考的token数目来提高性能,并初度复现了OpenAI的测试时推广弧线。

尽管预算强制有其局限性,举例最终会趋于平随性受高下文窗口的隔断,但它解说了测试时推广的后劲,并为将来的计划提供了明确的方针:可控性、推广性和性能。

为了克服规章推广的局限性,论文还计划了并行推广轨范,如多数投票和基于REBASE的树搜索(下图)。现实隔断标明,将规章推广与并行推广轨范相网络,还不错进一步推广测试时的狡计量。

将来标的

论文强调,将来的计划不错探索若何进一步篡改预算强制,举例轮流使用不同的字符串或网络频率科罚。

一个有出息的标的是将预算强制应用于通过强化学习老到的推理模子,并计划新的测试时推广轨范。

此外,不错计划若何进一步推广测试时的狡计量,以克服现存谈话模子高下文窗口的隔断。

参考府上:

https://arxiv.org/pdf/2501.19393