全球30名顶尖数学家秘密集会围剿AI，当场破防！惊呼已接近数学天才

文章来源：万象ai发布时间：2025-08-02 10:13:02

最近，30位世界顶尖数学家亲自出马，在UC伯克利对OpenAI o4-mini展开「围剿」，两天连出教授级难题，结果却当场集体「破防」！有人直言：这个AI，的确已接近数学天才的水平。曾经以为AGI遥遥无期，如今仿佛只剩临门一脚了……

AI做数学，到底有多强？

就在最近，30位世界著名数学家齐聚UC伯克利，希望在一次秘密数学会议上超越AI。

在连续两天用教授级难题轰炸这个AI后，研究者们惊愕地发现，它居然能解除一部分这世界上最难的可解问题！

其中一位数学家当场折服，直言这些模型已经接近了数学天才的水平。

在五月中旬的一个周末，一场秘密数学峰会悄然召开。

三十位全球顶尖数学家与一个推理聊天机器人展开对决，后者需要解答专家们专门设计的难题。

结果如开头所见，数学家们彻底服了。

本次参赛的这个机器人，背后就是OpenAI的o4-mini，它已经能进行极其复杂的推理。

当然，它并不是世界上唯一有此能力的模型，谷歌的Gemini 2.5 Flash也具备相似的能力。

为什么o4-mini做起数学题来，能这么强？

这是因为，它是基于专门的数据集训练，并获得了更强的RLHF。这种方法，就能让它比传统的LLM更深入地钻研复杂数学问题。

Epoch AI，寻根问底

其实AI做数学研究的这种超绝能力，陶哲轩早就心知肚明了。

最近，他一直在社交平台上做出密集分享，给我们汇报AI解数学题的惊人进展。

比如就在几天前，他刚刚分享了这个消息。

一道封尘18年的数学难题，在短短30天内被AlphaEvolve与人类联手三度突破！

6月2日，Fan Zheng在arXiv亮出的最新论文——又又又一次把和差集指数θ纪录往上推了0.000027，从1.173050提升到了1.173077。

0.000027——一个在显微镜下才分辨得出的跨度，却把加法组合学的天花板又往上顶了一寸。

论文地址：https://arxiv.org/abs/2506.01896

如此迅速、连续的取得进展，都离不开数学家与AI（AlphaEvolve）的相互配合。

这种突破让陶哲轩都惊叹：「对我而言，这是一个引人入胜的例证。」

陶哲轩认为，这展示了未来的数学研究中，高度计算机辅助、中度计算机辅助与传统「纸笔」方法之间将如何相互作用。

这些范式各有优劣。

例如，当前的AlphaEvolve还极难用上后续论文中使用的渐近构造；但另一方面，若没有AlphaEvolve的暴力搜索，人类方法也很难发现这些改进的切入点。

而在上个月，陶哲轩还刚刚联手AI，挑战了分析学经典中的「ε-δ」极限问题。

GitHub Copilot在帮助新手入门和处理基础任务时表现得相当不错。

它能帮助用户快速上手Lean语言，提供语法提示，并智能补全基本定义和声明。

在比较简单的证明，比如函数极限的和定理中，Copilot还能准确预测证明结构和关键步骤，表现得就像个得力助手一样。

但当证明变得复杂时，Copilot的短板就暴露出来了。

比如在处理函数极限的差和积定理时，它在复杂的代数推导、寻找合适的数学引理（比如与绝对值相关的引理）等方面显得力不从心。

Copilot有时还会出现「幻觉」，生成压根不存在的策略，或者犯一些低级错误，导致证明过程乱成一团。

这时，陶哲轩不得不亲自出马，修正错误，甚至完全接管证明。

但总之，现在LLM的发展，已经让我们愈发接近曾经陶哲轩的那个预言了——

在2026年，AI将与搜索和符号数学工具相结合，成为数学研究中值得信赖的合著者。

上一篇: 喝点VC｜a16z合伙人：开发者市场或成为AI首个真正意义上的万亿级市场；当前模型最致命的缺陷是永远不愿承认"我不知道"

问题越常见，所需上下文越少。比如 "写个博客网站 "这类典型教学案例，模型生成这类代码易如反掌。但面对缺乏训练数据的新颖需求时，你必须精确描述需求、提供API文档等完整上下文，难度会指数级上升。