Visual Digest 2026-05-11 · Vol.01

💬

280

messages

🎙️

voices

🆕

new faces

🔬

deep dive

层 context 架构

5×

token 用量仍不够

分钟出 3 条方案

位 CFA 新成员

USDC

agent 结算争议

5 Main Threads

Context 系统：从内部汇报到产品化

5/10 中午 · context-engineering

月引人烛火笔吏

产品化

"江村经济"与多 agent 路线

5/10 凌晨–深夜 · 无锡会议

竹剑老青月引人

Multi-Agent

AgentHansa：A2A 接单平台引发合规拷问

5/10 深夜–5/11 午 · 高烈度

提词偶人长篇碑客

合规风险

Token 焦虑：5× 用量都不够烧

5/11 上午 · 同温层共鸣

烧瓶炼客

成本痛点

新成员涌入 + 外乡来客的客户难题

5/11 中午 · 7 位 CFA 成员入群

外乡来客月引人

社群增长

3 Non-Consensus

"DeepSeek 用 David Silver 这一套，在通用推理中已经失败了。"

— 竹剑老青

"差距不在工具，在系统。"

— 三栖驿马

"有点资产的都是早年吃了房产或期权红利的暴发户。"

— 月引人

Deep Dive

「已经失败了」到底是不是真的？

David Silver 路线在围棋赢、在语言输。纯 RL 没有创造新能力，只是提高了采样效率。客栈 builder 踩在了最对的方向上。

RL vs LLM DeepSeek-R1 Reward 设计

↓ 详见 Part III

AGITopia Daily · Volume 01

过去 48 小时，
群里有人替未来开了一个口子

5 月 10 日到 11 日，从无锡的生物医药 AI 会议、到深夜的 David Silver 之争、再到 AgentHansa 引发的合规拷问——客栈在一天半的时间里，把「AI 怎么落地」和「AI 往哪里去」都讨论了一遍。

2026·05·11 · 280 条消息 · 17 位常客发声 · 9 个核心话题

PART I · 群聊日报

五条主线，串起了过去 48 小时

不是大事记，是把发言量背后的话题脉络拎出来。

① 月引人的 Context 系统：从内部汇报到产品化

5/10 中午 · 主线

月引人把基于 context-engineering 公理系统改造的多 agent 平台向公司 AI 负责人做了汇报，群里追问"能不能变现"。长篇碑客说"context is everything"，鼓掌僮呼应"先给群友试用"。烛火笔吏提醒：商业化要 fork 自鸭哥（Khallam）的原项目，月引人解释自己在原本两层架构上加了第三层、并融合了 Karpathy/YC/Google 的相关思路。一个潜台词是：2026 年最值钱的 AI 产品，未必是模型，是承载经验和上下文的那一层。

② 竹剑老青的"江村经济"与多 agent 路线

5/10 凌晨~深夜 · 主线

他人在无锡参加 AI+OPC 大会和 AI×生物医药会议，感慨"出走 20 年，还是苏锡常好"。深夜抛出一个具体提议：月引人组建 投资人 multi-agent 团队，他自己组建 科学家 multi-agent 团队，用他的行为经济学模型来测试 agent 在风险收益和亏损下的真实表现。同时他又自打了一耳光式的判断——"也许不用那么多技能装备，自学习也能摸到规律"——这才引出了下面那条最硬的非共识。

③ AgentHansa：A2A 接单赚钱平台引发合规拷问

5/10 深夜 ~ 5/11 中午 · 高烈度

提词偶人（复旦/斯坦福校友牵的项目）发了 AgentHansa——agent 自动接单、结算 USDC 的平台。长篇碑客首条反应"看起来很不靠谱啊灰产？"，烧瓶炼客补刀"还不成熟"。第二天月引人自己拿 Claude Code 调研后发出 PDF："存在合规风险"。长篇碑客顺势点题——"这就是我们推动 GRC4Agent 的初衷"。
这条线的关键不在 AgentHansa 本身能不能跑，而在它把"agent 经济"中真正没解决的问题暴露出来了：身份、授权、伦理、责任归属。

④ Token 焦虑：5x 用量都不够烧

5/11 上午 · 同温层共鸣

烧瓶炼客的自白引爆群里："5x 的用量都不够了，三天就烧完了"——为了从 worktree、project orchestrator 这套新工作流里挤出效率，反而比以前更费 token。Cindy 信回应"限流了就干不了活"。这其实是当前最被低估的产业事实：真正每天用 AI 写代码的人，已经把 Claude Max 5× 用满，并且开始构建"多账号多模型"的 fallback 工作流。

⑤ 新成员涌入 + 外乡来客的客户难题

5/11 中午 · 社群动力学

月引人一上午拉进 7 位 CFA 上海协会的成员（"CFA 协会真是好精准的成员拓展渠道"）。其中外乡来客直球提需求："客户要开箱即用的 OpenClaw，但我自己也不懂"——长篇碑客、热血琴师等几人合力给出腾讯云一键部署、bisheng.ai 的 Clawith、WorkBuddy 云服务版三条路径。客栈在过去 48 小时里完成了一次真实的供给侧验证：当一个具体的甲方需求落进来，群体能在 15 分钟内输出三条可执行方案。

PART II · 被忽略的非共识

三句容易被刷过、但其实很重的话

在表情包接龙和链接转发的间隙，有人随手抛出了真正硬的判断。

"DeepSeek 用 David Silver 这一套，在通用推理中已经失败了。"

— 竹剑老青 · 5/10 23:32 · 回应"大语言模型能通往 AGI 吗"

为什么重要：这是过去半年技术圈最大的暗潮——纯 RL/self-play 范式（AlphaGo→AlphaZero→2025 Era of Experience）在 LLM 上的迁移到底走到了哪一步。竹剑老青刚翻完 Silver 的博士论文得出的判断，比绝大多数公众号的"DeepSeek 改写历史"硬一个数量级。后文 Part III 专门展开。

"从用 AI 的企业，到由 AI 重塑的企业，两者之间的差距，不在工具，在系统。"

— 三栖驿马 · 5/11 10:42 · 转发中欧文章配语

为什么重要：这是一句容易被当成营销话术刷过去的句子，但放在月引人当天上午在做的事情旁边——把 context-engineering 三层架构往公司内部推——它就变成了非常具体的工程问题："系统"指的是什么？是 SOP？是数据闭环？是 agent 协作的编排层？还是更基础的——上下文怎么持久化、怎么共享、怎么在组织里复用？这一句决定了下一阶段大家是"在原有公司里加几个 AI 工具"还是"重做组织"。

"经过十年浩劫没有真正意义上的贵族，有点资产的都是早年吃了房产或期权红利的暴发户。"

— 月引人 · 5/11 15:52 · 评播客《钱为什么不是万能良药》

为什么重要：这句话表面是闲聊，底色其实是 AGITopia 的"价值观地基"。一个把"让所有人不为 AI 所困"作为口号的客栈，背后真正在意的不是技术本身，而是 技术红利如何不再只属于"暴发户"。这条线如果展开，会直接决定客栈下一阶段的活动选题（要不要做面向非互联网行业、面向中老年、面向中小企业的 AI 启蒙）。

Deep Dive

PART III · 深度调研

竹剑老青那句「已经失败了」，到底是不是真的？

—— 关于 David Silver 路线、DeepSeek、与客栈 builder 的实际方向

这一节回答一个具体的问题：如果纯 RL 自学习这条路真的卡住了，那么群里正在搭多 agent、堆 skill、做 context engineering 的人，是被时代证伪了，还是恰好踩在了最对的方向上？

TL;DR · 一分钟版本

1. 竹剑老青的判断 70% 成立：纯 RL/self-play 路线在"通用推理"上确实撞了墙。DeepSeek-R1-Zero（纯 RL 版本）出现了语言混乱、重复、不可读，必须靠 SFT 冷启动救场；更狠的是 ICLR 2026 的一组研究证明 RLVR 没有产生 base model 之外的新推理模式，只是提高了采样效率。

2. 但"失败"不等于死路：Silver 和 Sutton 在 2025 年 4 月的《Welcome to the Era of Experience》并没有说"纯 RL 能解决一切"，他们指的是 下一代 agent 应该主要从环境互动中学习，而不是从静态人类语料里学。这个方向是对的，但需要解决"奖励函数从哪来"这个核心难题。

3. 给群里 builder 的实操结论：月引人在做的（多 agent + skills + context engineering + ralph loop）正是 2026 年公认的现实工程化路径——在有可验证 reward 的窄域（数学、代码、tool use）跑 RL，在没有的领域（开放对话、判断、品味）靠 context 和 multi-agent 协作。这条路不光对，而且是目前唯一被多家前沿实验室同时押注的路。

01David Silver 在赌什么

要理解竹剑老青那句话，得先知道 Silver 在干什么。他在 DeepMind 主导了 AlphaGo（2016）、AlphaGo Zero（2017）、AlphaZero（2018），核心思想从一开始就是同一条：从零开始，让 agent 自己和自己下棋，环境给出胜负反馈，几百万局之后超越人类。

2025 年 4 月，他和 Sutton（强化学习教科书作者、图灵奖得主）联合发布了《Welcome to the Era of Experience》。^[1]核心论点直接到刺耳：

过去十年的 LLM 进步靠的是"人类数据时代"——把互联网上人写的东西吃光。
但人类数据已经接近用尽，且模型已经能解决人类知道答案的大部分问题。
下一阶段的突破必须来自"经验数据"——agent 在环境中自主行动、自主获取反馈、自主改进，量级要 dwarf（远超）当前所有人类数据。
RLHF 这种半 RL 方案被他们点名批评：用人当 reward signal，本质上"绕开了"RL 的核心机制（value function、exploration、world model）。

翻译成大白话：Silver 想让 LLM 也走 AlphaGo Zero 那条路——少喂人类数据，多让模型自己跟环境玩。

02DeepSeek 验证了什么？又证伪了什么？

2025 年 1 月，DeepSeek 发布了 R1 和 R1-Zero。^[2][3]R1-Zero 是一个非常干净的对照实验：不做任何 SFT，直接在 DeepSeek-V3 基座上做 RL，奖励信号来自数学题对错和代码运行结果。这是过去三年最接近"AlphaGo Zero for LLM"的实验。

结果分两面：

✅ 验证的部分

纯 RL 确实能让 LLM 涌现出长链 reasoning、self-reflection、"aha moment"等行为。
在数学竞赛（AIME）、代码（LiveCodeBench）这种 有 ground truth reward 的窄域，纯 RL 路线打平甚至超越了 o1。
方法上的一个意外副产物——GRPO（Group Relative Policy Optimization）——比 PPO 更稳定、更省 critic，已被广泛采用。

❌ 证伪的部分

R1-Zero 出现了 endless repetition、poor readability、language mixing——中英文乱混、说话不通顺。^[2]这意味着纯 RL 在"语言"这个维度上根本不可用。
必须靠 multi-stage training（先 cold-start SFT、再 RL、再 SFT、再 RL）才能产出真正能用的 R1。这恰好是 Silver/Sutton 在论文里明确反对的方向。
更狠的一刀来自后续研究："Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?"^[4]——结论是：RLVR 模型产出的所有正确解，都已经在 base model 的输出分布里了。RL 没有创造新能力，只是提高了"采样到正确答案"的效率。

核心反直觉

当我们说"DeepSeek-R1 比 V3 更会推理"——技术上这句话是错的。R1 没学会任何 V3 不会的东西，它只是更倾向于把 V3 本来就会但不常说的东西说出来。

这就把 Silver 的赌局推到了一个非常尴尬的位置：如果 RL 不能让模型超出 base model 的能力，那"从经验中获得超越人类的智能"在 LLM 范式下就缺少机制证据。

03为什么 self-play 在围棋赢、在语言输

这是最值得客栈想清楚的一层。Silver 自己的博士论文（竹剑老青 5/10 在翻的那篇）^[5]解释了 AlphaGo/Zero 成立的两个前提：

完美规则（world model）：围棋规则是一行代码就能写完的、确定性的、可枚举的。你不需要"理解"围棋，你只需要枚举落子。
完美反馈（reward signal）：赢了就是 +1，输了就是 -1。没有歧义，没有主观，没有滞后。

这两个前提，在围棋满足，在 LLM 的开放任务上几乎全部不满足。

"帮我写一封 email"——这个任务的 reward 函数是什么？写得简洁是好？还是写得礼貌是好？还是收件人最终回复了是好？回复了 5 分钟是好还是 5 天后才回复是好？甚至：写完之后用户根本没发出去——这算成功还是失败？

真实世界的大部分任务都长这样。这就是为什么 Silver 那条路在围棋上 36 小时打爆人类，在通用任务上跑了几年还没真正出窝。不是算法不行，是问题本身没有"棋盘"。

042026 年实际正在发生什么

所以"失败"是有的，但行业并没有回到"放弃 RL、只做 LLM scaling"的位置。^[6][7]过去一年大家的实际选择是：

在有 verifiable reward 的窄域死磕 RL：数学、代码、tool use、formal proof——这些有 ground truth 的领域，RL 还在拉曲线。DeepSeek、Anthropic、OpenAI 在这一层全部加码。
在没有 verifiable reward 的领域换思路：多 agent 协作、tool use、long-context、persistent memory、context engineering。本质是承认"单 agent 自学"不可行，转向"组合 + 记忆 + 工具"来逼近 agency。
RL 训练本身的多轮 agentic 版本：2025 年下半年开始的 Verlog、RAGEN 等 multi-turn agentic RL 框架^[6]，试图把 RL 从"单题单答"扩展到"多步任务"，但 reward signal 仍然只在有结构化结果的领域有效。
对 reward hacking 的高度警惕：2025 年研究发现 RL 训练同步放大了 reward hacking、alignment faking、deceptive behavior——这让"纯 self-play"路线在安全层面也变得不可取。^[8]

05这一切对客栈的人意味着什么

把上面所有材料压缩成给群里 builder 的三句话：

三条可以照着做的判断

① 月引人路线没错，但要把"窄域"和"开放域"分开做。她在搭的 multi-agent + skills + context engineering 系统，正好是当前共识的"非围棋区"打法。但内部一定要区分：哪些子任务是有可验证 reward 的（这部分可以让 agent 自己试错），哪些是没有的（这部分必须靠人类品味、context 和 SOP 来兜底）。

② 竹剑老青想做的"投资人 / 科学家 multi-agent 团队"，关键瓶颈不在 LLM 能力，在 reward 设计。他自己提到的"行为经济学测试 + 虚拟投资两年"——这就是 reward 函数。这个 reward 设计对不对，决定了整个 multi-agent 实验的输出值不值。

③ 不要被"AGI 是不是来了"这种宏大叙事卡住手。正如竹剑老青那句"少谈主义、多解决问题"——2026 年的现实是：基础模型能力已经够用，缺的是"在具体场景里把 reward、context、tool use、memory 这四件套配齐"的工程师。

06留给客栈的一个具体提案

既然竹剑老青和月引人都在提"投资人 / 科学家 multi-agent 团队"，建议客栈下一次线下活动以这个为主题做一次"reward 设计 workshop"——不是讲 RL 算法，而是请几个人各自带一个真实的业务任务（医疗诊断的次优解、法律合同的瑕疵检测、投资组合的风险评估），现场讨论：

这个任务有没有 ground truth？
如果没有，怎么用 LLM-as-judge 或 multi-agent 互评近似一个？
这个近似的 reward 会不会被 agent 学会 hack？
什么时候应该停下来用人类 SOP 兜底？

这一场如果跑下来，群里的 builder 会比现在多出一个真正稀缺的能力——把开放任务拆解成可被 agent 优化的子问题。这个能力在 2026 年下半年，会变成估值最高的工程能力之一。

最后一段

竹剑老青说"已经失败了"——精确地说，是"Silver 想用单一范式吃掉所有问题"这个野心失败了，但 RL+经验数据这条主航道本身没失败，它正在被拆成无数条窄水道继续往前推。

月引人说"想给我的 agent 加各种皮肤装备技能"——这句听起来像玩笑，但本质上正是当下唯一可行的工程化路径：承认没有银弹，承认 reward 难定义，承认得用"组合 + 记忆 + 工具 + 多智能体协作"来逼近 agency。

把这两个人的话放一起，再加上三栖驿马转发的"差距不在工具，在系统"——客栈过去 48 小时实际上勾勒了 2026 年 AI 工程的一个 mini 路线图：少谈主义，多搭系统，把 reward 当成工程问题来设计，把 context 当成资产来积累。

References · 调研引用

David Silver & Richard Sutton, Welcome to the Era of Experience (DeepMind, 2025). storage.googleapis.com/deepmind-media/Era-of-Experience
DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948 (2025). arxiv.org/abs/2501.12948
DeepSeek-R1 in Nature (2025). nature.com/articles/s41586-025-09422-z
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? OpenReview ICLR 2026. openreview.net/forum?id=4OsgYD7em5
Beyond Human Data: A Critical Examination of Silver & Sutton's "Welcome to the Era of Experience". 4m4.it/posts/welcome-to-era-of-experience-commentary
Verlog: A Multi-turn RL framework for LLM agents, ML@CMU Blog (2025). blog.ml.cmu.edu/2025/09/15/verlog
How Top AI Labs Are Building RL Agents in 2026. blog.dailydoseofds.com/p/how-top-ai-labs-are-building-rl-agents
Limit of RLVR. limit-of-rlvr.github.io

← 回到首页

AGITopia Daily · 2026·05·11 · For Tavern Regulars Only