Skip to main content

针对数学解题步骤设计的 Reward Model,能否具备足够的泛化能力,让它在其他领域的问题中也有很好的表现?

如果能的话,是因为模型从奖励信号中学到的是更抽象的东西。

最容易迁移的,并不是“会解二元一次方程组”,而是这些更抽象的能力:

  • 是否能显式分解问题;
  • 是否会检查中间步骤;
  • 是否能指出隐含假设;
  • 是否能避免跳步;
  • 是否能做局部纠错;
  • 是否具备较稳定的长链条信用分配能力。

通过数学这类任务,模型可以学到更底层的抽象能力。如上所述,这也是数学上的 Reward Model 能够泛化到其他领域的一个关键特性。

这里的核心概念就是“泛化”:你需要设计一种奖励信号,使其具备足够强的泛化能力——这才是最关键的,也就是信号本身要足够“能迁移”。

我觉得从这个角度来看,一个好的模型设计,和一个人培养良好的思维能力,本质上是一样的。

你要设计的信号要足够有泛化性,才能在各行各业、各个领域里都派上用场。我以前把这种道理叫作“零阶道理”。

举个例子:

  1. 对自身想法的批判性反思
  2. 好奇心

这些都属于“零阶道理”,它们作为信号的泛化力特别强。

A genuine problem-solving process involves repeatedly using available information to initiate exploration, which, in turn, reveals more information until a way to attain the solution is finally discovered.

— Allen Newell, J.C. Shaw, and Herbert Simon, “Report on a General Problem-Solving Program” (1959)

通过循环迭代地挖掘信息,再用新获得的信息去解决当下的问题。许多问题的本质,其实是信息不足。

image

一个事情能够 Scaling Up,它的上限会非常高,逼近上限的方式也就变得很简单:不停地堆叠算力,而这种堆叠算力,本质上也是一个很简单的过程——堆叠硅片。

所以这种发展模式是很简单的,因为它的发展路径是可预见的。这种模式背后遵循的,就是 Scaling Law;

按照《The Bitter Lesson》那篇文章里的观点,最能很好地实现 Scaling Law 的两类通用方法,就是 Search 和 Learning。 能否把 Search 和 Learning 结合起来?

基于 Agent,实现大规模、批量化、自动化的内容采集与生成。 不就是把 Search 和 Learning 结合在一起吗?

不停地试、不停地试,肯定会命中一个。现在要做的,就是造出更多“猴子”,让他们疯狂乱扔飞镖:谁命中,谁就是答案。

以前那套精细化打磨产品、精英式洞察用户需求,太慢了,它的 scaling law 太差了。最好的方法就是“大力出奇迹”。这个道理,我这几个月真的彻彻底底地信服了。

家族中的第一个人被捆在树上,最后一个人正被蚂蚁吃掉。

-百年孤独

在从 Vibe Coding 过渡到 Agentic Coding 之后,一个很明显的不争事实是:所有真正拥抱 Agentic Coding 的公司(那些同时拥有 Frontier Model 和 Coding 工具的公司),其代码目前都由 AI 生成。

在这个前提下,我们需要在思路上做一次转向。过去设计软件时,我们习惯用迭代的方式,一点点把它做大;但在 Agentic Coding 时代,这套思路可能不再适用。

更好的方式是:

  1. 先把未来成功时的完整形态,以及对应的组织架构,一次性输入给 Coding 工具。
  2. 让 AI 在上述上下文中生成代码,使其朝着最终成功的形态演化。
  3. 在构建软件系统时,再逐步把功能加进去。

这就像一个 Rocket Booster:它会放大人的想象力与品位。因此,你的瓶颈将更多来自想象力,而不是落地时的工程约束。

所以,构思要往大处想;执行时,让 AI 工具沿着你的设想自动演化成你想要的状态。之所以目前还需要一步步推进,根本原因是:人一旦参与验收,就会遇到现实约束,只能逐步验证。

如果你能设计出一个完整、可自我验证的闭环负反馈系统,Agentic Coding 工具理论上可以自行演化成你想要的样子。但这极其困难,而且高度分领域、很挑场景。

写在2026年马年新年之际,给自己的话。

当你置身于某个环境时,常会在不知不觉中被其中与你相处的人所“洗脑”。这种“洗脑”往往是无意识的,你可能直到某一天才突然意识到:眼下的状态,其实并不是你真正想要的。

你未必能准确说清原因,却会有一种“不太对劲”的感觉。而在这种时刻,往往正是需要反思的节点:

  1. 审视当下的状态:问问自己:这真的是你想要的吗?
  2. 摆脱外部束缚:即便这种状态是在社会与道德的约束下形成的,让你不得不如此,也别因此就认定它是正确的。

Google 在能力上早就有 LLM(PaLM/LaMDA 等),但 ChatGPT 让行业看到“对话式产品 + 对齐 + 快速迭代发布”能爆发出巨大的用户价值,这件事是另一条路线。

让强大的技术能够被人可用,是做产品的思路。它所需要的技能点是完全不一样。

通过阅读代码来学习技术的方法:

  1. 先把与你想学的技术相关的开源代码多下载几份(最好覆盖从入门到中级、高级,以及当前最主流的方案)。
  2. 启动 Claude Code 或 Codex。
  3. 让它以这些代码为基础,结合你想学习的某个具体话题的算法设计,把两者融合起来。

基于代码库,专门生成一份符合你当前水平、同时包含代码与算法说明的技术文档。 这种方式最快。