Google DeepMind “超人类数学系统”项目开源
谷歌 DeepMind “超人类推理团队” 公开了多项研究项目:
- AlphaGeometry:可自动完成几何证明题
- AlphaGeometry2:达到国际数学奥林匹克(IMO)银牌水平
- IMO Bench:在 2025 年斩获 IMO 金牌后推出的数学评测基准,包含 400 余道用于 AI 测试的题目
- Aletheia:一款 AI 智能体,能够验证并优化数学解题过程
所有项目均采用 Apache 2.0 与 CC-BY 开源协议开放。
有一件事,很多人其实没有意识到:Google DeepMind 最近公开的这些项目,并不是在“做更会做题的 AI”,而是在悄悄改写一件更底层的东西——机器如何进行推理。
当人们第一次看到 AlphaGeometry 时,很容易把它当成一个“数学解题器”。它确实可以完成几何证明,甚至在一些问题上接近甚至超过人类选手。但如果只停在这里,就误解了它的意义。这个系统并不是简单地“学会了解题套路”,它更像是在尝试把人类几百年来形成的几何推理过程,转译成一种机器可以稳定执行的语言。不是模仿,而是重建。
这种重建在 AlphaGeometry 2 中变得更加明显。当它被说达到 IMO 银牌水平时,真正值得注意的并不是“分数”,而是它已经能够处理更长、更复杂、更接近人类思维极限的推理链条。这里的变化不是量的积累,而是质的跃迁:推理不再是一步步机械展开,而开始呈现出类似“策略选择”的结构——什么时候构造辅助线,什么时候转化问题,什么时候放弃一条路径重新开始。这些原本被认为高度依赖直觉的行为,开始被机器系统性地捕捉。
但如果只有“会做题”,这个体系其实是危险的。因为任何复杂推理,一旦无法验证,就不具备可信性。这也是为什么 DeepMind 同时推出了 IMO Bench。它不是一个简单的题库,而是一种“压力测试环境”。400 多道题的意义不在于数量,而在于覆盖:不同难度、不同结构、不同推理模式。它在问的不是“你能不能做出某几道题”,而是“你的推理能力是否稳定存在”。
然后才轮到 Aletheia 出场。这一步,反而是整个体系里最接近“未来”的部分。它不解题,它做的是另一件更关键的事:检查推理是否成立,并在必要时修正它。这听起来像是辅助工具,但实际上,它改变的是推理的闭环结构。过去的 AI,大多数停在“生成答案”;而现在,这个体系开始具备“生成—验证—修正”的循环能力。这一循环一旦稳定,就意味着机器不仅能推理,还能对自己的推理负责。
把这几件事放在一起看,就会发现一个更清晰的轮廓正在出现:AlphaGeometry 在构建“解题能力”,AlphaGeometry 2 在逼近“人类极限”,IMO Bench 在定义“衡量标准”,而 Aletheia 则在建立“可信机制”。它们不是零散项目,而是一个逐渐闭合的系统。
这也解释了为什么 DeepMind 会用“superhuman”来描述这一方向。关键不在于“比人更快”或者“比人更准”,而在于机器开始拥有一种可以被验证、可以被重复、可以被扩展的推理能力。一旦这种能力稳定存在,它就不再依赖个体天赋,也不受疲劳、情绪或经验局限。
问题真正变得有意思的地方在这里:当推理本身可以被工业化地生产和验证,人类长期以来依赖“少数天才”的领域,会不会发生结构性的变化?数学只是一个起点。物理、工程、甚至复杂系统设计,可能都会进入同一种轨道。
从这个角度看,这些项目的意义并不在于“AI 会做几何题”,而在于另一件更直接的事:
推理,第一次被当作一种可以工程化的能力来处理。
Github:https://github.com/google-deepmind/superhuman
油管:https://youtu.be/3pMAEpSWAnM
留言
發佈留言