
新智元报说念加拿大pc28官网规则
剪辑:智子 乔杨
【新智元导读】斯坦福大学最近的一项讨论发现,尽管o1-preview在数学、代码等范畴才气逆天,但只须对数学竞赛的题目稍修改,模子解答的准确率竟会坐窝着落30%。
在数学竞赛的范畴里,普特南数学竞赛的威声可谓知名遐尔。 它由William Lowell Putnam眷属发起,自1938年首届举办以来,历经66年的岁月千里淀,断然成为全球大学生数学精英们一较落魄的顶级赛场。
好意思国数学会的用心把持,加上哈佛大学、多伦多大学等名校学子的奋勇参与,让这项赛事的桂冠成为大批学子求之不得的盛誉,其巨擘性和挑战性,那是得回了全球学界的公认。
而最近,来自斯坦福的一项讨论,却让各人惊掉了下巴:只是对题目中的变量、常量等成分稍作修改,大模子「尖子生」o1-preview模子的准确率就坐窝大幅着落,降幅高达 30%!

原文迷惑:https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf
这就好比一位武林妙手,遍及在熟悉的招式里权威八面,一朝敌手换个路数,就立马乱了阵地。这不禁让东说念主艳羡,这些难住最强推理模子的变体题,到底藏着怎样的玄机?
北好意思最难数学竞赛题「变脸」,AI有点懵
OpenAI的o1-preview模子自出说念以来,凭借超强的推理才气,在各个范畴大杀四方。
就拿编程来说,在Codeforces编程竞赛这个「妙手如云」的赛场上,它的Elo评分高达 1807,把93%的竞争敌手皆远远甩在死后,写起代码来又快又准,就像一位训诫练习的圭表员。
在数学范畴更是展现出了惊东说念主的实力。2024年的好意思国数学邀请赛(AIME)题目集上,o1-preview的正确率高达83%,尽头于全好意思参赛选手top500的水平。

医学会诊方面,哈佛医学院和斯坦福大学构成的科研团队曾对o1-preview进行过全地点的 「观看」,后果令东说念主惊奇:在生成会诊意见、会诊临床推理和措置推理这些要害任务上,它甚而突出了东说念主类大夫。面临复杂的病例,它能快速分析症状、病史等信息,并给出准确的会诊提出。
2024年12月31日——2025年1月1日
然则,等于这么一个在多范畴「开挂」的模子,在面临普特南数学竞赛题的变体时,却仿佛迷失了想法。
在原始题目上,o1-preview本能达到41.95%的准确率,而一朝题目中的变量、常量被修改,准确率就像坐了滑梯一样,直线着落约30%。

这浩荡的反差,背后其实有着深端倪的原因。普特南竞赛题本就以超高的难度、私有的出题念念路著称,原始题目和变体题目之间,天然看似惟有微弱的死别,但这些改造时时波及到数学认识的深端倪欺骗和逻辑结构的奥密变换。
o1-preview模子在测验经过中,可能更多是对常见的数学题型、编程情势、医学案例进行学习和优化,关于这种迥殊预计打算、尽头刁顽的变体题,穷乏实足的「搪塞训诫」,难以马上收拢问题的要害,从而导致准确率大幅下滑。
Putnam-AXIOM基准,AI数学才气的「试金石」
为了更准确深入地评估AI大模子的数学才气,讨论团队用心打造了Putnam-AXIOM Original基准,收纳了来自积年普特南数学竞赛(Putnam)的236个数常识题,从复杂的代数变换到精妙的几何诠释,从轮廓的数论繁重到幻化莫测的组合数学谜题,无一不是对东说念主类聪惠极限的挑战。
但这项基准的价值远不啻于收录原题,更是非的是,讨论者们预计打算了一套奥密的圭表化修改机制,不错对问题中的变量、常量等要害成分进行修改,从而生成无尽多个全新且难度尽头的问题。

比如说,把一个几何问题中的边长数值进行变换,简略改造函数题中的参数取值范围,这些看似渺小的调度,却能让悉数问题的解法旅途大不交流。
况且,这些重生成的题目从未在互联网上出现过,因此也不行能闪现到任何模子的测验数据集结,彻底根绝了AI靠 「死记硬背」谜底来舞弊的可能,果然作念到了对 AI 数学推理才气的精确探伤。
在这个新预计打算的基准上,讨论东说念主员大范围遴荐了各式模子进行测试,包括OpenAI的o1-preview、GPT-4和GPT-4o,Anthropic的旗舰模子Claude-3.5 Sonnet,Llama、Qwen的等有影响力的开源模子,以及Gemma、Mistral、DeepSeek、Numina等以数学才气著明的开源模子。
领先,将Putnam-AXIOM基准中的236说念原题输入给各个模子,纪录它们的解题期间、推理方法以及最终谜底,算出准确率。接着,把经过圭表化修改后的变体题抛给这些模子,相同严格纪录解题经过中各项数据。
在原始题目上,o1-preview模子以41.95%的准确率暂居榜首,可一朝切换到变体题,它的准确率就「跳水」到了 11.95%掌握,足足着落了30个百分点。
其他模子的准确率滑坡也尽头权贵,但值得适应的是,Gemma和Mistral系列模子中的某些型号在变体题上的准确率不降反升。

这些数据背后,反馈出的问题尽头深远。一方面,面前的AI模子,哪怕是最顶尖的,在面临数常识题的纯真变化时相宜性较差。它们可能对大范畴数据测验出来的固定情势有一定依赖,一朝题目超出了熟悉的套路就会出现权贵滑坡。
另一方面,普特南竞赛题的变体预计打算,精确地击中了 AI 的「软肋」,这也为将来AI模子的测验和进步指明了另一种想法。
参考府上:
https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf