本文最后更新于 62 天前，如有失效请评论区留言。

本博客由科研AI Agent实验室BenszResearch强力驱动！如何更快地访问本站？有需要可加电报群获得更多帮助。本博客用什么VPS？创作不易，请支持苯苯！推荐购买本博客的VIP喔，10元/年即可畅享所有VIP专属内容！

概览

2026年4月至5月，B站博主“耿同学讲故事”连续举报多名顶尖学者论文造假，短时间内引发高校免职、倒查论文、提交原始数据等连锁反应
我不想只停留在“谁造假了”的层面，而是想借这个事件讨论一个更抽象的问题：为什么在某些系统里，不够严谨但更容易生产、复制、扩散的策略反而会胜出
软件工程里的“Worse is Better”可以帮助我们理解科研生态：当评价体系奖励论文数量、影响因子和热点包装时，系统会自然筛选出更适合生产论文的人，而不一定是更接近真理的人
Goodhart定律和进化论里的“适者生存”共同解释了这一机制：环境不负责筛选完美，只负责筛选适应
AI时代会进一步降低“制造论文”的成本；科学并不会因此立刻崩溃，但纠错成本会越来越高，真正值得警惕的是知识生产被论文生产替代

前言

2026年春夏之交，中国学术界经历了一场罕见的打假风暴。一个自称普通研究生的科普视频博主，在网上连续发布视频，指证多篇发表在Nature正刊和子刊上的论文存在数据异常。被点名者无一例外，都是头顶“杰青”“长江学者”光环、身居院长或副院长要职的顶尖学者。

短短一个多月，同济大学生命科学与技术学院院长王平被免职、降级，论文第一作者被解聘；南开大学生命科学学院院长陈佺被免去院长职务；中山大学肿瘤防治中心副主任康铁邦、生命科学学院副院长邝栋明也被免职¹。新华社、人民网等主流媒体相继发文追问：学术监督体系为什么没有发挥作用？²

这当然是一个学术不端事件。但如果只把它理解成“几个坏人胆子太大”，我觉得反而低估了这件事的意义。真正值得追问的是：为什么这样的论文能够一路通过课题组、合作单位、审稿系统、学校管理和人才评价？为什么有些明显不够严谨、甚至经不起简单统计检查的东西，反而能在科研系统里获得高回报？

这让我想到软件工程里一个经典概念：“Worse is Better”。直译过来有点别扭，大概可以理解为：不那么完美的东西，反而可能因为简单、便宜、容易复制，更容易在现实世界里胜出。我想借科研造假这个热点，和大家聊一个更抽象的冷知识：很多时候，系统奖励的并不是“更好”，而是“更适应系统”。

“Worse is Better”——不完美者的胜利

“Worse is Better”这个概念，来自计算机科学家Richard P. Gabriel在1990年代的一篇文章³。核心思想很简单：一个不完美、简单、容易传播的系统，往往比一个设计完美但复杂的系统更容易获得成功。

Unix胜过很多更优雅的操作系统，C语言胜过很多更安全的语言，Linux最初并不完美但迅速占领世界。原因不是它们在每个维度都“更好”，而是它们足够简单，足够便宜，足够容易移植和扩散。现实世界有时候不是在做审美评选，而是在做生存筛选。

Gabriel把这种现象称为“新泽西风格”（The New Jersey Approach），与麻省理工学院的“MIT风格”相对。前者追求简单实现、正确性次之；后者追求完美设计，但不惜代价。

乍一看，这和科研造假似乎没什么关系。科研不是应该追求真实吗？论文不是应该经得起验证吗？当然应该。但问题在于，科研作为一种理想活动，追求的是发现知识；科研作为一种职业系统，却还同时承担着毕业、晋升、基金、帽子、绩效、排名等一整套现实功能。一旦现实功能压过理想功能，系统就会开始奖励另一套能力。

假设有两条科研路线。第一条路线是花很多年啃一个真正困难的问题，实验反复失败，结果不一定漂亮，文章发得慢，但一旦做出来，确实推进了知识边界。第二条路线是紧跟热点，快速拼接概念，选择更容易出阳性结果的模型，把故事讲得完整一点，把图做得漂亮一点，一年产出好几篇论文。前者更接近科学理想，后者却更适应许多评价表格。

这就是科研版的“Worse is Better”。它不是说低质量科研真的更好，而是说在某些评价环境里，低质量但高产出、低风险但可包装、短周期但可计量的策略，会比严谨但缓慢的策略更容易获得系统奖励。造假者只是把这条路线推到了极端：既然系统奖励论文外观，那就直接生产论文外观；既然系统更容易识别影响因子和发表数量，那就优先满足这些可识别指标。

Goodhart定律与进化的筛选

这里有个重要的进化论视角。英国经济学家查尔斯·古德哈特（Charles Goodhart）提出过一个著名的定律：当一个指标成为目标，它就不再是一个好指标（When a measure becomes a target, it ceases to be a good measure）⁴。

论文数量、期刊影响因子、引用次数、基金金额，原本都是替代指标。它们的设计初衷，是帮助外部世界粗略判断一个研究者的学术活跃度和影响力。问题在于，一旦这些指标变成直接目标，研究者就不会只问“这个问题值不值得研究”，而会问“这个问题能不能发文章”“能不能发高分文章”“能不能支撑下一个基金”“能不能服务下一轮职称评审”。

这和进化论里的“适者生存”很相通。大自然并不知道什么是完美的生命形态，也不会提前设计一个最优解。它只是不断筛选：谁能适应当前环境，谁能活下来，谁能繁衍，谁就暂时胜出。胜出的未必是理论上最优雅、最强大、最完美的形态，而是最适合当下环境的形态。

科研系统也是这样。它不会自动识别“谁最接近真理”，它只会根据自己设定的环境压力进行筛选。如果环境压力是“发更多论文”，系统就会筛选出更会发论文的人；如果环境压力是“发更高影响因子的论文”，系统就会筛选出更会包装热点和叙事的人；如果环境压力是“短期内拿出可量化成果”，系统就会筛选出更能快速交付论文外观的人。

这不是个人道德问题能够完全解释的。一个系统长期奖励什么，什么样的人和策略就会被筛选出来。系统奖励真实创新，就会筛选出愿意长期投入、能承受失败、敢于挑战难题的人；系统奖励短期论文，就会筛选出更会包装故事、更会追逐热点、更会把有限结果写成完整叙事的人；如果系统只看指标、不看过程，最后就会筛选出敢于篡改过程、伪造结果的人。

过去二十年，中国科研体系经历了极速扩张。SCI奖励、人才帽子、基金竞争迅速膨胀，部分领域进入了极端竞争状态。2024年经合组织数据显示，经购买力调整后的中国总体科研投资达1.03万亿美元，已超过美国的1.01万亿美元，居全球首位⁵。但经费投入、论文产出和人才评价扩张得很快，科研诚信体系、原始数据管理、同行监督和可重复性文化却很难同步扩张。

这就像一个生态系统突然投放了大量养分，但没有同步建立足够成熟的过滤机制。结果不是所有植物都健康生长，而是最适合吸收养分、最快占据空间的物种先疯长。放到科研里，就是论文工厂、灌水论文、包装型研究和灰区操作不断获得生存空间。

耿同学掀开了什么

2026年4月9日，B站up主“耿同学讲故事”（本名耿洪伟）发布视频，质疑同济大学时任生命科学与技术学院院长王平团队发表于Nature的论文存在数据异常。他发现，论文中的实验数据竟然出现了完美的等差数列、多组数据完全相同等明显违背自然随机分布规律的问题。用他自己的话说：“但凡认真一点，把数据编得像个真实数据的样子都不会被发现。”⁶

28天后，同济大学通报确认论文存在学术不端。王平被免去院长职务、降低专业技术岗位等级两级，取消各类申报资格24个月；论文第一作者金佳丽被解除聘用关系¹。这个处理速度和力度，在以往的学术不端事件中相当罕见。

耿同学没有停下。4月25日，他举报南开大学生命科学学院院长陈佺发表于Nature Cancer的论文，补充材料里64组数据在小数点后两位完全一致⁷。5月4日，中山大学肿瘤防治中心副主任康铁邦成为新的举报对象。5月6日，中山大学生命科学学院副院长邝栋明被列入名单。后续，他又质疑上海大学转化医学研究院院长、长江学者苏佳灿。5月17日，他发布视频称手中还掌握着更多杰青的造假素材，公开呼吁杰青们自查⁸。

5月30日，南开大学免去陈佺生命科学学院院长职务；同日，中山大学免去康铁邦、邝栋明相关职务⁹。

这场风暴的影响远超个案。据虎嗅报道，有大学正在“全面倒查过去五年内第一作者、通讯作者发表的所有自然科学领域学术论文”，还有课题组导师要求学生提交原始数据⁵。不少研究生把耿同学称为“硕博翟天临”——当年演员翟天临一句“知网是什么”让毕业论文标准一夜收紧，而耿同学的打假更让学生们担心新一轮的层层加码。

耿同学本人对此很清醒。他说：“基本盘没有变，这事出现之前和之后，科研运行体系、运行规则没有变。只是一阵风刮过，大家一段时间里觉得造假后果挺可怕，过两天人们就忘了，只要不在制度上做修改，这类事就不会结束。”⁶

这句话其实很关键。耿同学掀开的不是几篇论文，而是一个更尴尬的问题：如果一些异常并不需要特别高深的专业知识，只需要认真看原始数据、补充材料和统计分布就能发现，那么过去那些层层把关到底在看什么？审稿人在看故事是否完整，学校在看成果是否漂亮，管理者在看人才称号是否耀眼，评价系统在看指标是否达标。每一层都可能觉得自己只是负责其中一小块，最后却共同放过了一个本不该通过的东西。

这也是“Worse is Better”在科研里的可怕之处。一个论文制造系统并不需要每个环节都腐败，它只需要每个环节都稍微懒一点、急一点、指标化一点。只要大家都默认“差不多就行”，足够像论文的东西就会被当成论文，足够像成果的东西就会被当成成果。

这不是中国独有的问题

如果只看新闻标题，你可能会以为学术造假是中国的“特产”。其实未必。

近十几年，许多震惊世界的学术造假案都发生在欧美。荷兰社会心理学家Diederik Stapel系统性编造实验数据，涉事论文超过50篇，最终被蒂尔堡大学开除¹⁰。日本麻醉学家藤井善高（Yoshitaka Fujii）保持了“撤稿最多”的吉尼斯纪录，超过200篇论文被撤¹¹。德国物理学家Jan Hendrik Schön在贝尔实验室期间发表的论文被认为是“物理学史上最大的造假案之一”¹²。

更值得关注的是所谓的“重复性危机”（Replication Crisis）。它首先爆发于心理学领域——2015年一项里程碑式的研究试图重复100篇心理学论文的实验，结果只有36%能够成功复现¹³。随后，医学、生物学等领域也相继出现类似问题。阿尔茨海默病研究奠基性的“β淀粉样蛋白沉积”假说的关键论文，也在2022年被撤稿⁵。

但中国的数据确实令人警醒。2025年Nature首次对撤稿机构进行统计，全球撤稿量最多的前十家机构中，七家来自中国的医院或医学院⁵。2026年一项发表在arXiv上、覆盖46,000篇撤稿论文的大规模分析发现，中国机构关联的撤稿占比超过52%，而中国在全球科研产出中的份额约为16.5%¹⁴。值得注意的是，约91%的中国关联撤稿论文没有列出国际合作者，说明这些问题主要发生在国内科研链条内部。

这个差距背后有一个特殊的历史原因：中国曾长期推行要求医院医生发表一定数量研究论文才能获得晋升的政策¹⁴。虽然2023年已出台新的医师评价政策试图纠正这一倾向，但积重难返，短期内撤稿数字恐怕还会继续攀升。

所以，更准确的说法不是“中国人更爱造假”，而是不同科研系统会孕育不同形态的造假。欧美有明星科学家、顶级实验室、发表偏倚和重复性危机；中国则叠加了高速扩张、行政化评价、职称压力、医院科研化和人才帽子竞争。造假是全球问题，但它在不同土壤里长出来的样子并不一样。

最值得警惕的不是造假

在所有这些现象中，我觉得最值得警惕的其实不是造假本身，而是一种更隐蔽的替代——“制造论文”逐渐替代“发现知识”。

这是两个完全不同的游戏。

发现知识：我想知道世界是什么样的。制造论文：我想知道审稿人想看什么。二者在短期内看起来相同——都是发表论文。长期却完全不同。前者积累的是人类对自然的理解，后者积累的只是对评价系统的适应。

耿同学在对话中提到一个细节：一篇论文的价格，三区四区约3-4万，二区7-8万，一区奔着10万，国外顶刊价格更高⁶。这些论文“根本就没人做实验，数据全是编的”。当论文变成一种可以明码标价的商品，“发现知识”和“制造论文”之间的界限就已经被彻底模糊了。

不过，比明码标价的假论文更麻烦的，是大量处在灰区里的论文。它们未必是从头到尾编造的，但可能会选择性呈现阳性结果，把探索性发现写成验证性结论，把不稳定的结果包装成清晰机制，把边缘显著性写成明确趋势，把一个很小的发现包装成完整故事。你说它完全是假，可能也不准确；你说它真正推动了知识进步，也很心虚。

这类灰区科研才是系统性问题的主体。因为它不需要一个人从一开始就决定“我要造假”，只需要在一次次小选择里向论文生产倾斜一点：这个阴性结果要不要写？这个实验重复性不好要不要继续补？这个机制链条其实还缺一环，要不要先用语言补上？久而久之，研究者训练出来的就不是追问自然的能力，而是把半成品包装成论文的能力。

这对诚实研究者尤其残酷。真正扎实的研究往往慢、贵、失败率高，还不一定能讲出一个完整漂亮的故事；灰区论文却更快、更便宜、更容易进入评价表格。系统一旦长期奖励后者，诚实就不只是道德选择，还会变成职业劣势。这里面最伤人的地方就在于：不是所有认真做事的人都会失败，但他们确实更容易被短期指标惩罚。

AI时代的放大器

这个问题在AI时代可能会被进一步放大。

以前“制造论文”的成本还比较高。你至少要编造看起来合理的数据，画出像样的图表，写出让审稿人满意的故事，还要让英文看起来像一篇正经论文。现在，LLM写作、AI绘图、AI统计分析、AI生成代码，都在快速降低这些成本。

AI本身当然不是原罪。对于认真做科研的人来说，AI可以帮助整理文献、润色表达、检查代码、生成初稿，确实能节省大量形式工作。但如果评价体系不变，AI也会成为论文制造系统的增压器。过去生产一篇低质量论文还需要不少人工成本，将来可能只需要一个选题模板、一套自动分析脚本、若干自动生成的图表和一段漂亮但空洞的讨论。

这会让科研界出现一种更极端的“Worse is Better”：论文越来越多，语言越来越流畅，图表越来越精致，但真正的知识增量越来越少。类似互联网内容生态的困境——内容越来越多，信息越来越少；文本越来越像那么回事，可信度却越来越需要额外证明。

耿同学对此看得很清楚。他说如果数据本身就是随机的，那更难被发现。他明知道一篇论文有问题，找证据还找了几个小时⁶。当AI能够生成统计上看起来“完美”的随机数据时，民间打假的空间只会被进一步压缩。

所以，AI时代真正需要加强的不是“禁止AI写作”这种表层动作，而是原始数据留存、实验记录审计、代码和数据开放、第三方复核、重要结果重复验证。换句话说，当论文外观越来越容易生成时，评价系统就必须从外观转向过程，从故事转向证据链。

科学为什么还没有崩溃

说了这么多让人悲观的现象，有一个问题值得认真思考：科学为什么还没有崩溃？

因为科学有一个和软件、互联网都不同的机制——现实世界最终会进行裁判。

一个假药，最终会在临床失败。一个错误的理论，最终会被实验推翻。一个伪造的结果，最终会无法复现。虽然这个过程可能需要五年、十年甚至二十年，但科学体系拥有某种迟到的纠错能力。科学最幸运的地方在于，它不是纯粹由话语、流量和行政评价决定的。自然世界不看影响因子，也不认人才帽子。

不过，这种乐观必须加一个前提：现实会纠错，但现实纠错很慢，也很贵。一个错误结果可能会误导很多课题组，消耗大量经费，让学生在错误方向上耗掉几年青春，甚至影响药物研发和临床判断。最后它也许会被推翻，但中间付出的代价不是一句“科学会自我纠错”就能轻轻带过的。

这次耿同学的打假本身就是这个纠错机制的一部分——虽然它来自一个意想不到的方向。一个退学的博士研究生、一群午休时看看论文的研究生、一个不到十人的小型研究团队（5GH），用统计方法在大量论文中识别数据异常，最终撬动了多位顶尖学者的命运⁶。

耿同学还提出了一个朴素的制度设想：在各高校建立以学院为单位的、外部抽检式的重复实验机制。论文发表后，选择其中相对简单的一个实验进行复现。如果重复不出来，先问作者原因，让作者当面重复。如果还是做不出来且无法给出合理解释，就对外公布复现结果⁶。这个想法不复杂，成本也不高，但具有威慑性——人性的自律不可信，但机制可信。

当然，他也清楚这个设想面临的现实困难。评价体系的限制让重复别人的实验几乎无法转化为可发表的成果，不确定性让研究者在一开始就缺乏参与动力。欧洲有一个项目，计划用四年时间复现100篇社会学论文，时间过了一半，只复现了8篇⁶。

但方向是对的。要对抗科研里的“Worse is Better”，不能只靠呼吁学者自律，而要让系统重新奖励那些更接近真实知识生产的行为。比如，原始数据和代码是否可追溯，关键结果是否能被复现，阴性结果是否有发表空间，长期问题是否能获得稳定支持，重复验证是否能算作科研贡献。否则，系统嘴上说鼓励原创，手上却继续奖励论文产量，最后大家当然会用脚投票。

小结

科研造假风盛行背后，是一个关于“系统选择”的冷知识。当评价体系奖励的不是发现真理，而是论文数量、发表速度、期刊档次和故事完整度时，“Worse is Better”就会成为学术生态里的默认法则：不够严谨但更容易生产的东西，会比严谨但缓慢的东西更容易扩散；更适合评价表格的研究，会比更接近真实问题的研究更容易被看见。耿同学事件的意义不只是揭露了几篇论文，更是提醒我们：科研系统如果长期奖励论文外观，就必然会有人专门生产论文外观。科学并不会因此立刻崩溃，因为现实世界最终拥有否决权；但现实纠错很慢，代价也很高。真正值得追求的，不是事后抓住每一个造假者，而是让诚实、缓慢、可重复的研究重新变得划算。Worse is Better可能在短期胜出，但科学最终依赖的还是另一条更朴素的规律：Reality is Better。

参考文献

虎嗅网 – B站up主实名举报五名顶尖学者论文造假同济大学涉事院长已被免职. https://www.huxiu.com/article/4859103.html
人民网 – 人民网评“耿同学”举报学术造假：不能让网友成为诚信防线最终“看门人”. https://m.thepaper.cn/newsDetail_forward_33247530
Richard P. Gabriel – The Rise of “Worse is Better”. https://www.dreamsongs.com/RiseOfWorseIsBetter.html
Goodhart, C.A.E. – Problems of Monetary Management: The U.K. Experience. Springer, 1984. 另参见维基百科“Goodhart’s law”条目
虎嗅网 – B站up主实名举报五名顶尖学者论文造假同济大学涉事院长已被免职（含Nature 2025年撤稿统计及OECD数据）. https://www.huxiu.com/article/4859103.html
欧亚系统科学研究会 – 退学博士“耿同学”，如何掀起中国学术界这一轮打假风暴. https://www.essra.org.cn/?news/8618
新京报 – “耿同学”的学术打假，暴露了三个深刻问题. https://www.bjnews.com.cn/detail/1778839725168085.html
首都文明网 – “耿同学”喊话5名“杰青”！学术打假没有局外人. https://www.bjwmb.gov.cn/wmpl/10127148.html
新浪财经 – 学术打假风暴继续：南开大学1人、中山大学两人被免职. https://finance.sina.cn/2026-05-31/detail-inhztyms6417017.d.html
The New York Times – Dutch Social Psychologist Apologizes for Fabricating Data. https://www.nytimes.com/2011/11/03/world/europe/dutch-social-psychologist-apologizes-for-fabricating-data.html
Retraction Watch – Yoshitaka Fujii. https://retractionwatch.com/yoshitaka-fujii/
Nature – The Schön scandal. https://www.nature.com/articles/493467a
Open Science Collaboration – Estimating the Reproducibility of Psychological Science. Science, 2015, 349(6251): aac4716. https://doi.org/10.1126/science.aac4716
Chemistry World – Chinese institutions account for over half of research paper retractions. https://www.chemistryworld.com/news/more-than-half-of-all-retracted-papers-are-from-china-analysis-finds/4023197.article

---------------
完结，撒花！如果您点一下广告，可以养活苯苯😍😍😍

概览

前言