Visual Digest 2026-06-18~21 · Vol.28

💬

376

messages

🎙️

voices

🆕

new faces

🔬

deep dive

GLM-5.2 跑日报撞限额

200万

清华 AI 本科年薪

50%

Midjourney 降医疗支出

$40亿

OpenAI 投 FDE 团队

5 Main Threads

GLM 跑崩那下午，烛火笔吏指了条新道

6/18 全天 · 核心主线

月引人烛火笔吏烧瓶炼客

harness 固化

Anthropic 被诉，烛火笔吏退订

6/18 · 模型层

烧瓶炼客烛火笔吏月引人

工具链分裂

Gemini 降智成豆包，豆包占了生活

6/18 · 模型评测

烛火笔吏治理先锋月引人

阵地与隐私

财大 AI 学院，金融亡了

6/19 · 6/21 · 行业教育

智源先生月引人三栖驿马

薪酬梯度

行业日报上云，埃森哲腰斩

6/21 · 产线进化

月引人三栖驿马治理先锋

卖产品不卖人头

3 Non-Consensus

"复杂长任务 skill 不行，一定要编程写死"

— 烧瓶炼客

"Cursor harness 下的 opus 比 claude code 下表现更好"

— 烛火笔吏

"fable 在带领我，不是我指导他"

— 月引人

Deep Dive

弱模型跑长任务崩在哪，让强模型固化流程是解法吗

月引人用 GLM-5.2 跑一下午日报没跑通，烛火笔吏给的解法是让 opus 先把流程固化下来。这一节回答：固化为什么管用，它的天花板又在哪。

弱模型 failure mode流程固化harness

↓ 详见 Part III

AGITopia Daily · Volume 28

GLM 跑崩的那个下午，
强模型的价值重新显了形

四天 376 条，一条主线压住全场：月引人用 GLM-5.2 跑一下午日报没部署成功，opus 十分钟搞完。烧瓶炼客断言「复杂长任务 skill 不行，一定要编程写死」，烛火笔吏给出解法「让 opus 固化流程，迭代一个弱模型能完成的环境」。模型角色论被一句话钉死：fable 带领，opus 伙伴，glm 学徒。同周 Anthropic 被集体诉讼、烛火笔吏取消订阅换 DeepSeek、Gemini 降智成豆包、财大成立 AI 学院（清华 AI 本科 200 万年薪，金融人均百万的盛况不再）。月引人把行业日报上了云端 loop 每天早推，对岸埃森哲半年腰斩。从 GLM 跑崩到产线上云，这周客栈在练同一件事：哪些活该固化成流程，哪些还得留给聪明的脑子。

2026·06·18~21 · 376 条消息 · 30 位常客发声 · 5 个核心话题

PART I · 群聊日报

五条主线：一个跑崩的下午，和一群找捷径的人

按叙事重要性排序，不按热度。每条结尾一句超出原讨论的判断。

① 月引人用 GLM-5.2 跑崩一下午日报，烛火笔吏指了条"让 opus 先趟路"的新道

6/18 16:49~18:48 · 核心主线

下午四点月引人抛出实测："glm 5.2 实测，跑了一天日报愣是没有部署成功"，"opus 10 分钟搞完"。她给三个模型定了位——"glm 是学徒，opus 是伙伴，fable 在带领我，不是我指导他"。烧瓶炼客一句话判了 skill 的局限："复杂的长任务，skill 是不行的，一定要编程写死"。烛火笔吏给了具体方向："让 opus 拉一下，看看 glm5.2 是怎么工作的，有什么优化空间，有什么可以沉淀的，让聪明的模型固化一下，迭代一个不那么聪明的模型能够完成任务的环境"。

📎 与 6/16~17 日报「主线 ②」呼应——那期月引人梦里想通 harness 方向，这周她用 GLM-5.2 实测，撞了墙，烛火笔吏把梦里的方向落成了"固化流程"四个字。

弱模型肯干但不会变通，强模型会变通但要钱；中间那条路，是让强模型把"会变通"固化成弱模型能照着跑的流程。

② 烛火笔吏取消了 Anthropic 订阅，"换 DeepSeek"

6/18 早 + 晚 · 模型层

一早烧瓶炼客分享"Anthropic 被用户集体诉讼：200 美元买断无限额度，AI 用 5 小时干掉 15%"。到了晚上，烛火笔吏贴出和月引人的私聊记录："你没看我现在都在 DeepSeek 嘛，我都取消 anthropic 订阅了"。月引人第一反应是"那基建呢怎么办"。替代方案被逐一摆上桌：trae（月引人踩过坑"根本不动脑子，最后我自己手动改的代码"）、Cursor（烛火笔吏力荐"该踩的坑我都踩过了，就 Cursor"）、openrouter 这类聚合平台。落地察事还剧透"豆包 coding 下周升级"。

📎 与 Vol.26~27「本周观察」呼应——Anthropic 的下落弧线这周从"产品失望"滑到了"用户主动退订"。

对一家模型公司的信任，是从"产品失望"开始流失的；真正不可逆的那一步，是用户自己动手退订。

③ 烛火笔吏说 Gemini "成豆包了"，豆包悄悄占了生活的阵地

6/18 13:42~14:26 · 模型评测

月引人发了张图调侃 Gemini 降智，先打预防针"群里有 gemini 的伙伴见谅"。烛火笔吏接得狠："gemini 2.5 时期惊为天人，现在连牛夫人都算不上了，成豆包了"，又补"gemini3 出之前加仓了 Google 股票，是真金白银的认可，然后 opus4.6 横空出世"。话题转到豆包的阵地：治理先锋"豆包取代我的搜索引擎，琐碎事都问豆包，但重要事肯定不在豆包处理"，烛火笔吏"手机常驻豆包，agent 场景都 claude code"。治理先锋冷不丁一句"这么宝贵私密的会议记录，就让豆包搞？数据语料全这么出去了"，锋刃先锋当场"我后面不让豆包搞了"。烛火笔吏补一刀"语音处理我都跑本地模型"。

生活阵地让给了豆包，工作阵地留给了 cc；中间那道分界线，是数据敏不敏感。

④ 财大成立 AI 学院，月引人说"金融亡了"

6/18~19 · 行业教育

月引人抛出一记重锤："清华一个 AI 专业的本科生现在出来就是两百万年薪，其他行业哀鸿遍野"，紧接"金融亡了！人均百万的盛况不会再有了"。第二天智源先生去了财大，连发几条"计算和经济结合的特色未来牛"，月引人接"开价年薪 150 万起，比清华便宜"。话题拐进师徒情：月引人忆自己读计算机加数学交叉"太作死了，夜里两点一边哭一边写作业"，"认为自己有数学天分，是我对自己最大的误解"。智源先生劝"你骨骼惊奇万里挑一，不适合纯数学但适合算法博弈论赛道"，又感慨"基本功训练把人搞崩了，坚持下来的才能进到后面有趣的事，武行戏班把孩子交给师兄弟带，自己父母严不下来"。月引人回"我等到了汪老师，在心智更成熟、学习能力还没下降的最好年华"。

AI 把行业的薪酬梯度重新拉开了：会算法的年轻人站到顶端，传统金融的光环在退。

⑤ 行业日报上了云端 loop，同周埃森哲腰斩

6/21 · 产线进化

周六早上月引人报喜："我现在在云端跑行业日报，还不错，搞了个 loop，每天早上推"。烛火笔吏一句"大哥厉害了"。这是客栈第二条内容线（AI 行业日报）正式上云。同一天下午三栖驿马分享"半年时间埃森哲股价腰斩是 AI 导致吗"，把咨询拆成三层：认知型最稳、执行型最先被替、工程型居中，并点出一个新物种 FDE——"OpenAI 组建 150 人 FDE 团队投了 40 亿美元，规矩是 You must leave with product，每个项目必须留下产品不是方案"。晚上治理先锋分享 Anthropic CEO 访谈那句"AI 能快速生成复杂软件，真正难的不再是生成本身，而是让生成出来的东西进入真实现场，并在现场里可靠运转"。

自己的产线上云，和对岸的咨询腰斩，是同一件事的两面：能被固化成产品的活，正在从按人头计价变成按价值计价。

客栈荐读群友分享 · 编辑精选

架构师

Anthropic CEO 核心访谈：AI 时代，企业、职场与治理

🏷️ 治理先锋 "难的不是生成是落地现场可靠运转"，本期 Deep Dive 的点题之语。

小红书

半年时间埃森哲股价腰斩是 AI 导致吗

🏷️ 三栖驿马咨询=人力 Agent 三层论 + FDE 新物种，把"卖人头到卖产品"讲透了。

无限推理AGI

突发！Anthropic 被用户集体诉讼：200 美元买断"无限额度"

🏷️ 烧瓶炼客订阅制广告承诺 vs 实际限额，主线②的引子。

PART II · 被忽略的非共识

三句说出口没人正经接、但其实很硬的话

它们被当成吐槽或广告刷过，放到更大的语境里却是判断。

「复杂的长任务，skill 是不行的，一定要编程写死。」

— 烧瓶炼客 · 6/18 17:18 · 月引人抱怨 GLM 跑崩时的接话

为什么重要：这句话被淹没在群嘲里，其实是本期最硬的方法论判断。烧瓶炼客点破了一个分层：skill 适合把调用规则写清楚，但复杂长任务的可靠性必须靠代码固化。它和烛火笔吏"让聪明模型固化流程"是一条线——真正能给弱模型兜底的，不是更长的 skill，是把判断写成确定性的程序。

「Cursor 订阅本身也是订阅 Cursor 不断升级的 harness，很多场景 Cursor harness 之下的 opus 表现甚至比 claude code harness 之下更好。」

— 烛火笔吏 · 6/18 22:43 · 聊聚合平台时的提醒

为什么重要：大家在比模型，烛火笔吏指向了模型外面那一层——同样一个 opus，套不同 harness 表现不同，甚至第三方 harness 能反超官方。它暗示一个趋势：模型层在商品化的同时，harness 正在变成新的溢价点，订阅费越来越多地是为 harness 买单，不是为模型。

「fable 在带领我，不是我指导他，我是这种感觉。」

— 月引人 · 6/18 18:47 · 给三个模型定角色时

为什么重要：这不只是模型测评，是一种工作关系的自白。月引人把"带领、伙伴、学徒"三种关系分别给了 fable、opus、glm，等于说：用什么模型，决定了你在跟一个老师、一个同事、还是一个徒弟共事。它把"选模型"这件事，从参数对比抬到了"你想跟谁一起工作"的高度。

Deep Dive

PART III · 深度调研

弱模型跑长任务崩在哪，让强模型固化流程是解法吗

—— 当模型层分化，"判断"正在从模型里被抽出来，写进流程

月引人用 GLM-5.2 跑一下午日报没跑通，烛火笔吏给的解法是"让 opus 先把流程固化下来"。这期客栈用一整周讨论了同一件事：弱模型到底崩在哪、把强模型的判断固化成流程是不是解、它又卡在哪里。

TL;DR · 一分钟版本

1. 主论点：弱模型跑长任务崩在"判断"，状态判断、错误恢复、规划，不是知识缺失。解法不是等它变强，是让强模型把这些判断固化成流程/代码/sop，弱模型照着跑。

2. 反例：固化管用的是"有明确对错"的环节，对"对错本身需要被定义"的长尾新情况，固化下来的流程反而会绊住脚。这是它的天花板。

3. 实操：分两层跑，可固化的环节交给弱模型加流程，不可固化的判断留给强模型。别幻想一个便宜模型加一套流程吃下全部。

本周观察 · Anthropic 弧线走到第五期

把最近五期连起来看：Vol.24（6/12）"补贴还剩十天"→ Vol.25（6/13~14）"对华人禁用"→ Vol.26（6/15）"CC 降智涨价"→ Vol.27（6/17）"全球下架"→ 这期 Vol.28（6/18~21）"被集体诉讼 + 用户主动退订"。弧线的性质变了：前四期是 Anthropic 自己出事，这一期开始，用户用脚投票，烛火笔吏那句"我都取消 anthropic 订阅了"是个标志。信任流失一旦走到主动退订，就很难再拉回来。

01一个跑崩的下午，把"弱模型不行"具体化了

"弱模型不行"是一句正确的废话。6/18 那个下午把它具体化了。月引人用 GLM-5.2 跑一个有详细 skill、成熟可复用的日报生产流程，一下午没部署成功，5 小时 hit 限额，而 opus 跑同一件事"10 分钟搞完"。她的诊断比 benchmark 准："肯干态度好但脑子比较直，遇到问题不知道变通"，"opus 不需要我提示问题出在哪，他自己会尝试各种手段"。

这句话点出的不是 GLM-5.2 不行，是它在某一类任务上不行——长流程、多状态、出错要自己想办法恢复的任务。在"写一段代码""回答一个问题"这种单步任务上，国产模型已经追得很近；可一旦流程拉长、状态变多、需要"看见"自己卡在哪，差距就出来了。

02崩的不是知识，是判断

仔细拆月引人的描述，弱模型在长任务上崩的是三类判断。一是状态判断：任务跑到第几步、上一步有没有真的完成，它跟丢。二是错误恢复：撞了墙，强模型会自己换方向、回退、换工具试，弱模型会卡在原地反复撞同一堵墙（"不知道变通"）。三是规划：把一个大目标拆成可执行的小步，它拆不利索。

这三样都不是知识问题，论知识储备，GLM-5.2 这种规模的开源模型已经足够大。是判断问题，是"在模糊状态下做决定"的能力。这种能力 benchmark 测不大出来，一旦放进真实长流程就原形毕露。Anthropic CEO 在被治理先锋分享的那篇访谈里说得很直白："AI 能快速生成复杂软件，真正难的不再是生成本身，而是让生成出来的东西进入真实现场，并在现场里可靠运转。"^[1]"现场可靠运转"这五个字，正是月引人那个下午卡住的地方。

03固化：把强模型的判断，写成弱模型能照着跑的流程

烛火笔吏给的那个方向，是这周最值钱的一句话："让聪明的模型固化一下，迭代一个不那么聪明的模型能够完成任务的环境。"翻译一下：不是等弱模型变聪明，是让强模型把它"会变通"的过程沉淀下来，变成一套弱模型不用变通也能跑完的流程。

这条路学界和工程界都验证过。Reflexion 那篇经典论文做过对照：不换模型权重，只给 agent 套一个"做完、自评、再改"的反馈循环，就能把编程任务的通过率大幅拉上去^[2]。Anthropic 自己的工程博客把 harness design 称为"前沿 agentic 性能的关键"^[4]。烧瓶炼客说得更狠——"复杂长任务 skill 不行，一定要编程写死"。skill 是写给 AI 看的提示，编程写死是写给机器执行的确定性，两者差一个数量级的可靠度。

烛火笔吏还点了一句容易被忽略的话："很多场景 Cursor harness 之下的 opus 表现甚至比 claude code harness 之下更好。"同一个模型，套不同 harness，表现不同。这等于说，判断力正在从模型里被抽出来，迁移到外面的 harness 层。谁能把判断固化得好，谁就能让便宜的模型干出贵的活。

核心反直觉：跑崩是坏事，对流程沉淀是好事

反直觉的地方在这：月引人那个跑崩的下午，本身是一次有价值的产出。因为只有跑崩了，才能看清弱模型到底卡在哪一步，才能让 opus 把那一步的判断固化下来。如果一直用 opus 跑，永远不会暴露这些断点，流程也永远沉淀不下来。月引人自己后来把行业日报上了云端 loop 每天自动推，干的正是这件事——把能固化的固化掉，留给自己的只剩判断。跑崩不是浪费，是流程沉淀的必须成本。

04固化的天花板：长尾和意料之外

但固化不是万能的。它能兜住"有明确对错"的环节，兜不住"对错本身需要被定义"的环节。Self-Refine 那批研究已经反复证明：自我修正的反馈循环在三类场景里失效——初始输出已经合格时、弱模型自评本身没意义时、以及任务开放到连"更好"的方向都不明确时^[3]。换句话说，标准化、可重复的部分能固化，但长尾、新情况、需要当场重新判断的部分，固化下来的流程反而会绊住脚。

月引人那句"fable 在带领我，不是我指导他"，点破了天花板在哪。"带领"的意思是：fable 能在模糊地带主动给出她没想到的方向。这种能力，恰恰是固化不出来的——你能固化已知流程，固化不出对未知的探索。这是强模型最后的护城河，也是国产替代真正难过的一道坎。

05给客栈的提案：两层跑，别想着一层通吃

把一周的讨论收拢，对重度 AI 应用的社区可以立一条原则：能固化的交给弱模型加流程，不能固化的留给强模型，两层分跑，别幻想一层通吃。具体三步。

把长流程拆开看：像月引人跑日报这种任务，拆成"消息提取、构建、部署"这些可固化环节，和"选题、非共识判断、Deep Dive"这些判断密集型环节。前者交给 GLM-5.2 这类便宜模型加写死的流程，后者继续用 opus/fable。
每次跑崩都沉淀一笔：弱模型卡住的那一步，就是该被 opus 固化下来的判断。跑崩不是失败，是流程沉淀的信号。本期烛火笔吏那句"看看 glm 是怎么工作的，有什么可以沉淀的"，就是这条原则的原话。
诚实标出天花板：对"模糊意图、深度洞察、带队找方向"这类任务，承认弱模型加流程跑不了，留给强模型。月引人"fable 在带领我"那句，就是天花板的体感。

这条路正好接上对岸正在发生的事——三栖驿马分享的那篇"埃森哲半年腰斩"里讲的 FDE 模式^[5]：OpenAI 的 150 人 FDE 团队规矩是"You must leave with product"，每个项目必须留下产品，不是方案。把判断固化成产品，正是"固化"在产业层面的样子。客栈在群聊里悟到的，和对岸在市场里卷的，是同一条规律。

最后一段

把这周一整条线拉直：月引人用 GLM-5.2 跑崩一下午，是表症；烛火笔吏"让 opus 固化流程"是解法；Anthropic CEO"现场可靠运转"和埃森哲 FDE"留下产品"是同一个规律在两头同时显形。判断力正在从模型里被抽出来，一部分写进 harness 和流程，一部分变成产品。能被抽出来的，弱模型加流程就能跑；抽不出来的，是强模型最后的领地。

但这不是一句"国产模型能替代了"能盖过去的。月引人那句"fable 在带领我"，是这一周最该被记住的七个字。它说明有些东西固化不出来——那种在模糊地带主动给你方向的能力，暂时还只长在最贵的模型身上。替代能替代的部分，承认替代不了的，是比"全量切换"清醒得多的姿态。

所以这一周真正的产出，不是"GLM 行不行"的结论，是月引人那个跑崩的下午本身。它把抽象的"弱模型差距"落成了具体的卡点，让固化有了方向。跑崩不可怕，跑崩了没看清卡在哪、没把判断沉淀下来，才是真的浪费。

悬赏令 · Vol.28

上期揭榜（Vol.27 题「哪类任务还非顶级模型不可」）：这周的 GLM-5.2 大讨论本身就是一次集体作答。烛火笔吏那句"让聪明的模型固化一下，迭代一个不那么聪明的模型能够完成任务的环境"被采纳进本期 Deep Dive，烛火笔吏 +15 真知分，卡面记一笔「悬赏揭榜」。

本期题：你这周有没有哪个任务，本来指望弱模型跑、最后还是换回了强模型？那个卡点到底是什么，是规划、是错误恢复，还是某种它"看不见"的状态？说一个真实例子。

下期（Vol.29）公布揭榜。认题就来，客栈等你的刀。

References · 调研引用

架构师（公众号），《Anthropic CEO 核心访谈：AI 时代，企业、职场与治理》（"难的不是生成，是让生成出来的东西进入真实现场并可靠运转"），2026-06。 mp.weixin.qq.com · 架构师
Shinn N. 等，《Reflexion: Language Agents with Verbal Reinforcement Learning》，NeurIPS 2023（不更新权重，语言反馈循环显著提升 agent 任务通过率）。 arxiv.org/abs/2303.11366
Madaan A. 等，《Self-Refine》及自修正系列研究（自修正循环在初始已合格、弱模型自评、开放式创意三类任务上失效），NeurIPS 2023。 neurips.cc/virtual/2023/poster/71632
Anthropic Engineering，《Harness Design for Long-Running Application Development》，2026-03（harness design 是前沿 agentic 性能的关键）。 anthropic.com/engineering/harness-design
三栖驿马（群内分享），《半年时间埃森哲股价腰斩是 AI 导致吗》（咨询=人力 Agent 三层论 + FDE 新物种，OpenAI 150 人团队 $40 亿，"You must leave with product"），2026-06-21。小红书 · 原帖
无限推理AGI（公众号），《突发！Anthropic 被用户集体诉讼：200 美元买断"无限额度"》（订阅制广告承诺 vs 实际限额），2026-06。 mp.weixin.qq.com · 无限推理AGI

← 回到首页

AGITopia Daily · 2026·06·18~21 · For Tavern Regulars Only

五条主线：一个跑崩的下午，和一群找捷径的人

① 月引人 用 GLM-5.2 跑崩一下午日报，烛火笔吏 指了条"让 opus 先趟路"的新道

② 烛火笔吏 取消了 Anthropic 订阅，"换 DeepSeek"

③ 烛火笔吏 说 Gemini "成豆包了"，豆包悄悄占了生活的阵地

④ 财大成立 AI 学院，月引人 说"金融亡了"

⑤ 行业日报上了云端 loop，同周埃森哲腰斩

三句说出口没人正经接、但其实很硬的话

弱模型跑长任务崩在哪，让强模型固化流程是解法吗

01一个跑崩的下午，把"弱模型不行"具体化了

02崩的不是知识，是判断

03固化：把强模型的判断，写成弱模型能照着跑的流程

04固化的天花板：长尾和意料之外

05给客栈的提案：两层跑，别想着一层通吃

① 月引人用 GLM-5.2 跑崩一下午日报，烛火笔吏指了条"让 opus 先趟路"的新道

② 烛火笔吏取消了 Anthropic 订阅，"换 DeepSeek"

③ 烛火笔吏说 Gemini "成豆包了"，豆包悄悄占了生活的阵地

④ 财大成立 AI 学院，月引人说"金融亡了"