"DeepSeek 用 David Silver 这一套,在通用推理中已经失败了。"
— 竹剑老青"差距不在工具,在系统。"
— 三栖驿马"有点资产的都是早年吃了房产或期权红利的暴发户。"
— 月引人David Silver 路线在围棋赢、在语言输。纯 RL 没有创造新能力,只是提高了采样效率。客栈 builder 踩在了最对的方向上。
↓ 详见 Part III5 月 10 日到 11 日,从无锡的生物医药 AI 会议、到深夜的 David Silver 之争、再到 AgentHansa 引发的合规拷问——客栈在一天半的时间里,把「AI 怎么落地」和「AI 往哪里去」都讨论了一遍。
不是大事记,是把发言量背后的话题脉络拎出来。
月引人 把基于 context-engineering 公理系统改造的多 agent 平台向公司 AI 负责人做了汇报,群里追问"能不能变现"。长篇碑客 说"context is everything",鼓掌僮 呼应"先给群友试用"。烛火笔吏 提醒:商业化要 fork 自鸭哥(Khallam)的原项目,月引人 解释自己在原本两层架构上加了第三层、并融合了 Karpathy/YC/Google 的相关思路。一个潜台词是:2026 年最值钱的 AI 产品,未必是模型,是承载经验和上下文的那一层。
他人在无锡参加 AI+OPC 大会和 AI×生物医药会议,感慨"出走 20 年,还是苏锡常好"。深夜抛出一个具体提议:月引人 组建 投资人 multi-agent 团队,他自己组建 科学家 multi-agent 团队,用他的行为经济学模型来测试 agent 在风险收益和亏损下的真实表现。同时他又自打了一耳光式的判断——"也许不用那么多技能装备,自学习也能摸到规律"——这才引出了下面那条最硬的非共识。
提词偶人(复旦/斯坦福校友牵的项目)发了 AgentHansa——agent 自动接单、结算 USDC 的平台。长篇碑客 首条反应"看起来很不靠谱啊 灰产?",烧瓶炼客 补刀"还不成熟"。第二天 月引人 自己拿 Claude Code 调研后发出 PDF:"存在合规风险"。长篇碑客 顺势点题——"这就是我们推动 GRC4Agent 的初衷"。
这条线的关键不在 AgentHansa 本身能不能跑,而在它把"agent 经济"中真正没解决的问题暴露出来了:身份、授权、伦理、责任归属。
烧瓶炼客 的自白引爆群里:"5x 的用量都不够了,三天就烧完了"——为了从 worktree、project orchestrator 这套新工作流里挤出效率,反而比以前更费 token。Cindy 信回应"限流了就干不了活"。这其实是当前最被低估的产业事实:真正每天用 AI 写代码的人,已经把 Claude Max 5× 用满,并且开始构建"多账号多模型"的 fallback 工作流。
月引人 一上午拉进 7 位 CFA 上海协会的成员("CFA 协会真是好精准的成员拓展渠道")。其中 外乡来客 直球提需求:"客户要开箱即用的 OpenClaw,但我自己也不懂"——长篇碑客、热血琴师 等几人合力给出腾讯云一键部署、bisheng.ai 的 Clawith、WorkBuddy 云服务版三条路径。客栈在过去 48 小时里完成了一次真实的供给侧验证:当一个具体的甲方需求落进来,群体能在 15 分钟内输出三条可执行方案。
在表情包接龙和链接转发的间隙,有人随手抛出了真正硬的判断。
"DeepSeek 用 David Silver 这一套,在通用推理中已经失败了。"
"从用 AI 的企业,到由 AI 重塑的企业,两者之间的差距,不在工具,在系统。"
"经过十年浩劫没有真正意义上的贵族,有点资产的都是早年吃了房产或期权红利的暴发户。"
—— 关于 David Silver 路线、DeepSeek、与客栈 builder 的实际方向
这一节回答一个具体的问题:如果纯 RL 自学习这条路真的卡住了,那么群里正在搭多 agent、堆 skill、做 context engineering 的人,是被时代证伪了,还是恰好踩在了最对的方向上?
1. 竹剑老青 的判断 70% 成立:纯 RL/self-play 路线在"通用推理"上确实撞了墙。DeepSeek-R1-Zero(纯 RL 版本)出现了语言混乱、重复、不可读,必须靠 SFT 冷启动救场;更狠的是 ICLR 2026 的一组研究证明 RLVR 没有产生 base model 之外的新推理模式,只是提高了采样效率。
2. 但"失败"不等于死路:Silver 和 Sutton 在 2025 年 4 月的《Welcome to the Era of Experience》并没有说"纯 RL 能解决一切",他们指的是 下一代 agent 应该主要从环境互动中学习,而不是从静态人类语料里学。这个方向是对的,但需要解决"奖励函数从哪来"这个核心难题。
3. 给群里 builder 的实操结论:月引人 在做的(多 agent + skills + context engineering + ralph loop)正是 2026 年公认的现实工程化路径——在有可验证 reward 的窄域(数学、代码、tool use)跑 RL,在没有的领域(开放对话、判断、品味)靠 context 和 multi-agent 协作。这条路不光对,而且是目前唯一被多家前沿实验室同时押注的路。
要理解 竹剑老青 那句话,得先知道 Silver 在干什么。他在 DeepMind 主导了 AlphaGo(2016)、AlphaGo Zero(2017)、AlphaZero(2018),核心思想从一开始就是同一条:从零开始,让 agent 自己和自己下棋,环境给出胜负反馈,几百万局之后超越人类。
2025 年 4 月,他和 Sutton(强化学习教科书作者、图灵奖得主)联合发布了《Welcome to the Era of Experience》。[1]核心论点直接到刺耳:
翻译成大白话:Silver 想让 LLM 也走 AlphaGo Zero 那条路——少喂人类数据,多让模型自己跟环境玩。
2025 年 1 月,DeepSeek 发布了 R1 和 R1-Zero。[2][3]R1-Zero 是一个非常干净的对照实验:不做任何 SFT,直接在 DeepSeek-V3 基座上做 RL,奖励信号来自数学题对错和代码运行结果。这是过去三年最接近"AlphaGo Zero for LLM"的实验。
结果分两面:
当我们说"DeepSeek-R1 比 V3 更会推理"——技术上这句话是错的。R1 没学会任何 V3 不会的东西,它只是更倾向于把 V3 本来就会但不常说的东西说出来。
这就把 Silver 的赌局推到了一个非常尴尬的位置:如果 RL 不能让模型超出 base model 的能力,那"从经验中获得超越人类的智能"在 LLM 范式下就缺少机制证据。
这是最值得客栈想清楚的一层。Silver 自己的博士论文(竹剑老青 5/10 在翻的那篇)[5]解释了 AlphaGo/Zero 成立的两个前提:
这两个前提,在围棋满足,在 LLM 的开放任务上几乎全部不满足。
"帮我写一封 email"——这个任务的 reward 函数是什么?写得简洁是好?还是写得礼貌是好?还是收件人最终回复了是好?回复了 5 分钟是好还是 5 天后才回复是好?甚至:写完之后用户根本没发出去——这算成功还是失败?
真实世界的大部分任务都长这样。这就是为什么 Silver 那条路在围棋上 36 小时打爆人类,在通用任务上跑了几年还没真正出窝。不是算法不行,是问题本身没有"棋盘"。
所以"失败"是有的,但行业并没有回到"放弃 RL、只做 LLM scaling"的位置。[6][7]过去一年大家的实际选择是:
把上面所有材料压缩成给群里 builder 的三句话:
① 月引人 路线没错,但要把"窄域"和"开放域"分开做。她在搭的 multi-agent + skills + context engineering 系统,正好是当前共识的"非围棋区"打法。但内部一定要区分:哪些子任务是有可验证 reward 的(这部分可以让 agent 自己试错),哪些是没有的(这部分必须靠人类品味、context 和 SOP 来兜底)。
② 竹剑老青 想做的"投资人 / 科学家 multi-agent 团队",关键瓶颈不在 LLM 能力,在 reward 设计。他自己提到的"行为经济学测试 + 虚拟投资两年"——这就是 reward 函数。这个 reward 设计对不对,决定了整个 multi-agent 实验的输出值不值。
③ 不要被"AGI 是不是来了"这种宏大叙事卡住手。正如 竹剑老青 那句"少谈主义、多解决问题"——2026 年的现实是:基础模型能力已经够用,缺的是"在具体场景里把 reward、context、tool use、memory 这四件套配齐"的工程师。
既然 竹剑老青 和 月引人 都在提"投资人 / 科学家 multi-agent 团队",建议客栈下一次线下活动以这个为主题做一次"reward 设计 workshop"——不是讲 RL 算法,而是请几个人各自带一个真实的业务任务(医疗诊断的次优解、法律合同的瑕疵检测、投资组合的风险评估),现场讨论:
这一场如果跑下来,群里的 builder 会比现在多出一个真正稀缺的能力——把开放任务拆解成可被 agent 优化的子问题。这个能力在 2026 年下半年,会变成估值最高的工程能力之一。
竹剑老青 说"已经失败了"——精确地说,是"Silver 想用单一范式吃掉所有问题"这个野心失败了,但 RL+经验数据这条主航道本身没失败,它正在被拆成无数条窄水道继续往前推。
月引人 说"想给我的 agent 加各种皮肤装备技能"——这句听起来像玩笑,但本质上正是当下唯一可行的工程化路径:承认没有银弹,承认 reward 难定义,承认得用"组合 + 记忆 + 工具 + 多智能体协作"来逼近 agency。
把这两个人的话放一起,再加上 三栖驿马 转发的"差距不在工具,在系统"——客栈过去 48 小时实际上勾勒了 2026 年 AI 工程的一个 mini 路线图:少谈主义,多搭系统,把 reward 当成工程问题来设计,把 context 当成资产来积累。