当前位置：首页>央企考试真题>别被大厂战报骗了!当所有AI都考99分,排行榜早就成了一张废纸

别被大厂战报骗了!当所有AI都考99分,排行榜早就成了一张废纸

2026-05-13 07:05:14

论文速览

论文网址：https://arxiv.org/pdf/2602.16763

第一作者： Mubashara Akhtar, Anka Reuel 等人（这是一个名为EvalEval Coalition的庞大研究团队联合完成的重磅工作，成员来自苏黎世联邦理工、斯坦福、剑桥等顶尖机构及各大AI实验室）。

核心关键词： 大型语言模型（LLM）、基准测试（AI Benchmarks）、模型评估（Evaluation）、饱和度（Saturation）、测试生命周期。

一句话摘要： 研究团队像“法医”一样解剖了当下最火的60个AI考试（基准测试），用一套极其严谨的统计学方法，找出了为什么AI考试会越来越没用，并打破了人们对于“如何防止AI作弊”的诸多固有迷思。

如果你是一个经常关注AI（人工智能）发展的爱好者，你一定对这样的新闻不陌生：“某大厂发布最新AI大模型，在多项基准测试中超越GPT-4！”、“新模型在MMLU测试中得分高达90%以上，创下历史新高！”。

表面上看，这是AI技术的狂飙突进。但如果你仔细看那些排行榜（Leaderboard），你会发现一个极其尴尬的现象： 排名前几的AI模型，它们的分数差距可能只有0.1% 。这就好比在一场小学三年级的数学期末考试里，全班50个学生有45个考了100分，剩下5个考了99.5分。

这时候，作为校长的你，还能靠这张卷子选出谁是真正的“数学天才”吗？显然不能。这张试卷已经失去了它的“区分度”，在学术界，我们把这个现象叫做 “基准测试饱和”（Benchmark Saturation） 。

1. 问题篇——什么是“饱和”？这事儿为啥这么严重？

1.1 测不准的AI：从“震惊”到“麻木”

在AI圈，大模型发布时总要秀一下肌肉，而秀肌肉的工具就是 基准测试（Benchmarks） 。比如测试代码能力的HumanEval，测试综合知识的MMLU，测试数学的MATH。这些测试就像是AI界的“高考”。

但现实情况是，大家为了打榜，拼命让模型去适应这些考试。短短几年甚至几个月，一个原本被认为“极具挑战性”的测试，就被各大模型双双“通关”了。当所有人都在某项测试上拿到极其相近的高分时， 基准测试就失去了它存在的最大价值——提供决策指导。

普通用户不知道该用哪个模型，企业不知道该买哪个API，因为宣传册上大家都是“满分选手”。

1.2 重新定义“饱和”：不仅是分高，还得“粘连”

以前大家谈到“饱和”，往往只是拍脑袋说：“哎呀，这分数快到100分了，或者超越人类平均水平了，就算是饱和了。”

但这篇论文的作者们站出来说： 不行，这种定义太业余了！超越人类不代表饱和，因为有些领域AI本来就比人强；不到100分也不代表没饱和。

作者给出了一个极其严谨、可被量化、以数据为驱动的“饱和”定义。一个测试被判定为“饱和”，必须同时满足两个条件：

顶尖模型的分数在“统计学”上已经无法区分。
最高分已经逼近了这个测试在现实中能达到的极限（天花板）。

什么是“统计学上无法区分”？给大家举个接地气的例子。

假设有一个测试，只有100道题。模型A做对了90道（90%），模型B做对了91道（91%）。虽然B比A高了1分，但因为题目总量太少，这1分的差距很可能只是因为B今天“运气好”蒙对了一题，在统计学上，这叫 “落在误差范围（标准误）内” 。

作者认为，如果排行榜前几名的大模型，它们的分数差距都掉进了这个“误差池子”里，大家互相之间其实分不出个高下，那就是 真的饱和了 。

而且，作者还非常严谨地区分了 “饱和（Saturation）”和“停滞（Stagnation）” 。如果大家分数都很低，且都挤在一起（比如都在30%左右徘徊上不去），这不叫饱和，这叫“停滞”，说明这道题目前全人类的科技还解不开；只有大家分数都很高且挤在一起，才叫“饱和”。

2. 方法与原理篇——硬核解密，这篇论文到底干了啥？

为了弄清楚这件悬案，研究团队干了一个大工程。他们没有凭空捏造，而是去翻阅了OpenAI、Google、Anthropic（Claude的母公司）、Meta等大厂发布的61份官方报告，从中筛选出了目前AI界最主流、被引用最多的 60个文本类基准测试 。

有了这60个“考试卷”，他们开始了一场“流言终结者”般的硬核实验。

核心方法：发明“饱和度指数（Saturation Index）”

团队不仅用嘴说，还发明了一个数学公式—— 饱和度指数（Sindex） 。这是一个从0到1的数值。

数值越接近0，说明这个测试非常健康，区分度极高，谁是学霸谁是学渣一目了然。
数值越接近1，说明这个测试已经“废了”，排名前列的模型分数紧紧挤在一起，就像春运高峰期的地铁车厢，谁也挤不动谁。

有了这个“照妖镜”，研究人员对这60个测试提出了 5个极其尖锐的假设（Hypotheses） 。这5个假设，代表了目前AI圈内专家们平时最喜欢讨论的几个“常识”。论文的目的就是用数据看看： 这些常识，到底是对是错？

流言终结者：大白话拆解5大假设

假设1：“只要把考卷藏起来，AI就没法作弊，测试就不会饱和？”

实验结果：错！大错特错（假设被推翻）

圈内迷思： 大家总觉得，AI分数高是因为“刷题”了（学术上叫Data Contamination，数据污染），因为开源的测试题早就被爬进AI的训练语料里了。所以只要弄一个“不公开（Private）”的隐藏测试集，就能难倒AI。
真相发现： 数据显示，公开的测试和私有的测试，它们饱和的概率和速度 并没有统计学上的显著差异 ！
为什么会这样？ 就像你防得住学生背历年真题，但你防不住他掌握解题套路。只要这个测试的题型、出题风格被大家摸透了，哪怕你考题不公开，各大AI厂商也会拼命针对这种“风格”进行优化（比如让模型学习大量同类题）。随着时间推移，大家都掌握了套路，分数照样会挤在一起。 “保密”并不能延长测试的寿命。

假设2：“考英语太简单了，考多语种（比如中文、小语种）能防止饱和？”

实验结果：表面上对，但其实是错觉（假设被推翻）

圈内迷思： 目前AI的训练数据85%以上都是英语，AI的英语能力就像它的母语一样好。所以英语测试肯定最先饱和，如果我们弄一些包含几十种语言的综合测试，肯定能把AI难住。
真相发现： 从原始数据看，仅限英语的测试确实饱和率更高（44个测试里有很高比例饱和了），而多语种测试看起来还算坚挺。 但是！当研究人员把“测试诞生的年龄”这个因素加进去之后，真相大白了。多语种测试之所以还没饱和，纯粹是因为它们“太年轻了” （平均寿命只有32.9个月，而英语测试平均48.9个月）。假以时日，多语种测试一样会很快饱和。

假设3：“机器自动生成的测试容易被破解，专家手写的高质量测试活得更久？”

实验结果：这个对了！（假设部分成立）

圈内迷思： 很多测试题是众包的（比如花钱请普通网友写的），或者是用另一个AI（比如GPT-4）生成的。这类题往往有明显的“死角”或“套路”，容易被攻破。只有顶尖人类专家苦思冥想出来的刁钻题目，才能防得住现在的AI。
真相发现： 数据证实了这个观点。众包的测试饱和率极高，因为题目同质化严重。而由领域专家精心编排的测试（比如ARC-AGI、BIG-Bench Hard等含有逻辑陷阱、对抗性思维的题目），确实更能抗住时间的考验，保持极高的区分度。这说明 “题目的含金量”真的很重要。

假设4：“选择题容易靠蒙，让AI直接写长文（开放式回答）更能测出真实水平？”

实验结果：又是错的！（假设被推翻）

圈内迷思： 选择题嘛，A/B/C/D四个选项，AI就算看不懂，靠排除法或猜测也有25%的胜率。如果改为开放式问答（比如让AI写段代码，或者写篇论文），肯定能把各家AI的水平拉开差距。
真相发现： 无论是选择题（闭卷形式），还是开放式生成题，它们的饱和度分布 没有意义上的差别 ！为什么？因为开放式题目虽然难猜，但现在的评估方式往往过于粗糙，要么靠简单的词汇匹配，要么靠另一个大模型来当裁判（LLM-as-a-judge），这种粗糙的评分机制同样会把模型的分数“压缩”到一个很窄的区间内。

假设5：“越老、越出名的测试，越容易失效？”

实验结果：完全正确！这是全篇最核心的发现

圈内迷思： 一个测试越火，用的人越多，大家都冲着这个指标去优化，它就烂得越快。
真相发现： 研究证明， 基准测试的“年龄（Age）”是预测它是否饱和的最强指标 。一个发布超过60个月的测试，饱和率高达54.5%，远高于近两年发布的测试。但是，研究者也发现了一个有趣的细节：单纯的“被引用次数多”并不是核心原因，核心是 “时间的累积效应” 。老测试像一个固定的靶子，全行业最聪明的大脑对着这个靶子轰炸了五年，大家的能力都进化到了靶心的位置，自然就分不出胜负了。

3. 创新价值——不破不立，这篇论文指出了什么明路？

在打破了一系列神话之后，这篇论文真正牛的地方在于，它为整个AI评估界找到了病根，并开出了药方。

3.1 揪出两大真凶：时间曝光（年龄）与测量分辨率（测试集大小）

通过复杂的贝叶斯联合回归分析，研究团队发现，所有那些花里胡哨的设计（公开还是私有、什么语言、什么格式），都不是决定测试寿命的关键。真正决定测试生死的只有两个硬指标： 测试的年龄，以及题库的规模。

我们前面说了年龄的问题（固定靶子效应），现在重点说说 题库规模（Test Set Scale） 。

论文发现： 题量越大的测试，饱和度越低，寿命越长。

给大家打个比方。假设你要比较两台手机的屏幕清晰度。

如果屏幕只有100个像素点（相当于题量很小的测试），两台手机可能都能完美显示这100个点，你觉得它们一样好。

但如果屏幕有一千万个像素点（相当于题量巨大的测试），你瞬间就能看出A手机有个别噪点，而B手机完美无瑕。

在统计学上，题量小， 误差范围（标准误） 就大。很多榜单上前几名的AI，看起来分数挤在95%、95.2%、95.5%，这看似饱和，其实不是AI能力封顶了，而是这把“尺子”的刻度太粗了，量不出它们之间微小的差距。扩大题库，缩小统计误差，就能把那些本以为“不可区分”的模型重新拉开差距！

3.2 这篇论文带来的三大颠覆性认知

这篇论文对目前AI行业的营销乱象是一次有力的“拨乱反正”，它的创新价值体现在以下几个方面：

认知颠覆一：饱和不一定是坏事，但掩饰饱和就是耍流氓

作者指出，如果一个测试设计得好，模型集体接近满分，说明人类的AI技术确实在这个特定能力上通关了（比如AI确实已经完美掌握了基础的高中物理）。问题在于，当测试已经饱和、丧失区分度时，很多厂商还在拿0.1%的领先大做文章，这是在误导公众和市场。

认知颠覆二：别再迷信“防泄题”了，去拥抱“动态测试”

既然只要测试固定不变，时间久了都会饱和，那么唯一的解药就是—— 让靶子动起来 。论文强烈建议，未来的AI基准测试不应该是一套静态的死卷子，而应该是“活的（Living Benchmarks）”。比如不断引入实时新闻、使用对抗性方式持续生成新题（像Dynabench那样）。只要题库一直在进化，模型就无法靠死记硬背来刷榜。

认知颠覆三：抛弃唯分数论，拥抱“不确定性报告”

作者大声疾呼，未来的AI测试报告，绝对不能只放一个冷冰冰的“最高分（Peak Scores）”。比如模型得了92分，必须同时标注出 “误差范围是±2%” 。让消费者知道，排名第一的92分和排名第三的90分，在科学上其实是同一个水平，没有谁比谁强。

结论：一场倒逼AI圈“造尺子”的革命

总结一下，《When AI Benchmarks Plateau》这篇论文并没有发明什么算力通天的新模型，但它却做了一件甚至比发布新模型更重要的事情—— 它修理了我们用来衡量AI的“尺子”。

在过去几年里，AI模型的发展速度犹如火箭升空，但我们的评估体系却依然停留在冷兵器时代。大家拿着一把最多只能量1米的卷尺，去量一栋不断长高的摩天大楼，最后得出的结论自然是“所有大楼都超过了1米，它们一样高”。

这篇论文通过对60个顶级AI基准测试的严密分析，无情地戳破了许多关于“如何评估AI”的幻想。它告诉我们：

藏起考题、改变题型、翻译成多国语言，这些小聪明都无法阻止测试走向饱和（失效）。
真正让测试失去效力的是“时间的曝光”（大家都学会了套路）和“粗糙的分辨率”（题量太小导致统计误差太大，分不清高手对决）。
专家精心设计的刁钻题目，以及海量题库，才是延长测试寿命的法宝。

对于我们这些AI爱好者、从业者甚至是普通大众来说，这篇论文给我们提了个大醒。下一次，当我们看到铺天盖地的软文吹嘘某某大模型“在某某评测中碾压对手、达到99%得分”时，请保持一份清醒的头脑。

你可以默默在心里问三个问题：

“这个评测发布多久了？是不是大家都已经把套路刷熟了？”
“这个测试有多少道题？它领先的那零点几分，是不是根本就没有统计学意义？”
“这把尺子，是不是早就该退休了？”

人工智能的发展是一场没有终点的马拉松，而基准测试就是赛道上的秒表。当运动员的速度已经快到原来的秒表按不过来时，我们不需要惊慌，也不需要盲目欢呼，我们需要做的，是 去造一块更加精密、能够适应新时代的原子钟 。

这就是这篇论文带给整个AI行业的最深远意义—— 不要让劣质的尺子，限制了我们对真正智能的想象。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

别被大厂战报骗了!当所有AI都考99分,排行榜早就成了一张废纸

论文速览

1. 问题篇——什么是“饱和”？这事儿为啥这么严重？

1.1 测不准的AI：从“震惊”到“麻木”

1.2 重新定义“饱和”：不仅是分高，还得“粘连”

2. 方法与原理篇——硬核解密，这篇论文到底干了啥？

核心方法：发明“饱和度指数（Saturation Index）”