Visual Digest 2026-06-18~21 · Vol.28
💬
376
messages
🎙️
30
voices
🆕
0
new faces
🔬
1
deep dive
5h
GLM-5.2 跑日报撞限额
200万
清华 AI 本科年薪
50%
Midjourney 降医疗支出
$40亿
OpenAI 投 FDE 团队
5 Main Threads
01
GLM 跑崩那下午,烛火笔吏指了条新道
6/18 全天 · 核心主线
月引人烛火笔吏烧瓶炼客
harness 固化
02
Anthropic 被诉,烛火笔吏退订
6/18 · 模型层
烧瓶炼客烛火笔吏月引人
工具链分裂
03
Gemini 降智成豆包,豆包占了生活
6/18 · 模型评测
烛火笔吏治理先锋月引人
阵地与隐私
04
财大 AI 学院,金融亡了
6/19 · 6/21 · 行业教育
智源先生月引人三栖驿马
薪酬梯度
05
行业日报上云,埃森哲腰斩
6/21 · 产线进化
月引人三栖驿马治理先锋
卖产品不卖人头
3 Non-Consensus

"复杂长任务 skill 不行,一定要编程写死"

烧瓶炼客

"Cursor harness 下的 opus 比 claude code 下表现更好"

烛火笔吏

"fable 在带领我,不是我指导他"

月引人
Deep Dive
弱模型跑长任务崩在哪,让强模型固化流程是解法吗

月引人用 GLM-5.2 跑一下午日报没跑通,烛火笔吏给的解法是让 opus 先把流程固化下来。这一节回答:固化为什么管用,它的天花板又在哪。

弱模型 failure mode流程固化harness
↓ 详见 Part III
AGITopia Daily · Volume 28

GLM 跑崩的那个下午,
强模型的价值重新显了形

四天 376 条,一条主线压住全场:月引人用 GLM-5.2 跑一下午日报没部署成功,opus 十分钟搞完。烧瓶炼客断言「复杂长任务 skill 不行,一定要编程写死」,烛火笔吏给出解法「让 opus 固化流程,迭代一个弱模型能完成的环境」。模型角色论被一句话钉死:fable 带领,opus 伙伴,glm 学徒。同周 Anthropic 被集体诉讼、烛火笔吏取消订阅换 DeepSeek、Gemini 降智成豆包、财大成立 AI 学院(清华 AI 本科 200 万年薪,金融人均百万的盛况不再)。月引人把行业日报上了云端 loop 每天早推,对岸埃森哲半年腰斩。从 GLM 跑崩到产线上云,这周客栈在练同一件事:哪些活该固化成流程,哪些还得留给聪明的脑子。

2026·06·18~21  ·  376 条消息  ·  30 位常客发声  ·  5 个核心话题
PART I · 群聊日报

五条主线:一个跑崩的下午,和一群找捷径的人

按叙事重要性排序,不按热度。每条结尾一句超出原讨论的判断。

月引人 用 GLM-5.2 跑崩一下午日报,烛火笔吏 指了条"让 opus 先趟路"的新道

下午四点 月引人抛出实测:"glm 5.2 实测,跑了一天日报愣是没有部署成功""opus 10 分钟搞完"。她给三个模型定了位——"glm 是学徒,opus 是伙伴,fable 在带领我,不是我指导他"烧瓶炼客一句话判了 skill 的局限:"复杂的长任务,skill 是不行的,一定要编程写死"烛火笔吏给了具体方向:"让 opus 拉一下,看看 glm5.2 是怎么工作的,有什么优化空间,有什么可以沉淀的,让聪明的模型固化一下,迭代一个不那么聪明的模型能够完成任务的环境"

📎 与 6/16~17 日报「主线 ②」呼应——那期月引人梦里想通 harness 方向,这周她用 GLM-5.2 实测,撞了墙,烛火笔吏把梦里的方向落成了"固化流程"四个字。

弱模型肯干但不会变通,强模型会变通但要钱;中间那条路,是让强模型把"会变通"固化成弱模型能照着跑的流程。

烛火笔吏 取消了 Anthropic 订阅,"换 DeepSeek"

一早 烧瓶炼客分享"Anthropic 被用户集体诉讼:200 美元买断无限额度,AI 用 5 小时干掉 15%"。到了晚上,烛火笔吏贴出和月引人的私聊记录:"你没看我现在都在 DeepSeek 嘛,我都取消 anthropic 订阅了"月引人第一反应是"那基建呢怎么办"。替代方案被逐一摆上桌:trae(月引人踩过坑"根本不动脑子,最后我自己手动改的代码")、Cursor(烛火笔吏力荐"该踩的坑我都踩过了,就 Cursor")、openrouter 这类聚合平台。落地察事还剧透"豆包 coding 下周升级"

📎 与 Vol.26~27「本周观察」呼应——Anthropic 的下落弧线这周从"产品失望"滑到了"用户主动退订"。

对一家模型公司的信任,是从"产品失望"开始流失的;真正不可逆的那一步,是用户自己动手退订。

烛火笔吏 说 Gemini "成豆包了",豆包悄悄占了生活的阵地

月引人发了张图调侃 Gemini 降智,先打预防针"群里有 gemini 的伙伴见谅"烛火笔吏接得狠:"gemini 2.5 时期惊为天人,现在连牛夫人都算不上了,成豆包了",又补"gemini3 出之前加仓了 Google 股票,是真金白银的认可,然后 opus4.6 横空出世"。话题转到豆包的阵地:治理先锋"豆包取代我的搜索引擎,琐碎事都问豆包,但重要事肯定不在豆包处理"烛火笔吏"手机常驻豆包,agent 场景都 claude code"治理先锋冷不丁一句"这么宝贵私密的会议记录,就让豆包搞?数据语料全这么出去了"锋刃先锋当场"我后面不让豆包搞了"烛火笔吏补一刀"语音处理我都跑本地模型"

生活阵地让给了豆包,工作阵地留给了 cc;中间那道分界线,是数据敏不敏感。

④ 财大成立 AI 学院,月引人 说"金融亡了"

月引人抛出一记重锤:"清华一个 AI 专业的本科生现在出来就是两百万年薪,其他行业哀鸿遍野",紧接"金融亡了!人均百万的盛况不会再有了"。第二天 智源先生去了财大,连发几条"计算和经济结合的特色未来牛"月引人"开价年薪 150 万起,比清华便宜"。话题拐进师徒情:月引人忆自己读计算机加数学交叉"太作死了,夜里两点一边哭一边写作业""认为自己有数学天分,是我对自己最大的误解"智源先生"你骨骼惊奇万里挑一,不适合纯数学但适合算法博弈论赛道",又感慨"基本功训练把人搞崩了,坚持下来的才能进到后面有趣的事,武行戏班把孩子交给师兄弟带,自己父母严不下来"月引人"我等到了汪老师,在心智更成熟、学习能力还没下降的最好年华"

AI 把行业的薪酬梯度重新拉开了:会算法的年轻人站到顶端,传统金融的光环在退。

⑤ 行业日报上了云端 loop,同周埃森哲腰斩

周六早上 月引人报喜:"我现在在云端跑行业日报,还不错,搞了个 loop,每天早上推"烛火笔吏一句"大哥厉害了"。这是客栈第二条内容线(AI 行业日报)正式上云。同一天下午 三栖驿马分享"半年时间埃森哲股价腰斩是 AI 导致吗",把咨询拆成三层:认知型最稳、执行型最先被替、工程型居中,并点出一个新物种 FDE——"OpenAI 组建 150 人 FDE 团队投了 40 亿美元,规矩是 You must leave with product,每个项目必须留下产品不是方案"。晚上 治理先锋分享 Anthropic CEO 访谈那句"AI 能快速生成复杂软件,真正难的不再是生成本身,而是让生成出来的东西进入真实现场,并在现场里可靠运转"

自己的产线上云,和对岸的咨询腰斩,是同一件事的两面:能被固化成产品的活,正在从按人头计价变成按价值计价。

客栈荐读 群友分享 · 编辑精选
PART II · 被忽略的非共识

三句说出口没人正经接、但其实很硬的话

它们被当成吐槽或广告刷过,放到更大的语境里却是判断。

「复杂的长任务,skill 是不行的,一定要编程写死。」

烧瓶炼客 · 6/18 17:18 · 月引人抱怨 GLM 跑崩时的接话
为什么重要:这句话被淹没在群嘲里,其实是本期最硬的方法论判断。烧瓶炼客点破了一个分层:skill 适合把调用规则写清楚,但复杂长任务的可靠性必须靠代码固化。它和 烛火笔吏"让聪明模型固化流程"是一条线——真正能给弱模型兜底的,不是更长的 skill,是把判断写成确定性的程序。

「Cursor 订阅本身也是订阅 Cursor 不断升级的 harness,很多场景 Cursor harness 之下的 opus 表现甚至比 claude code harness 之下更好。」

烛火笔吏 · 6/18 22:43 · 聊聚合平台时的提醒
为什么重要:大家在比模型,烛火笔吏指向了模型外面那一层——同样一个 opus,套不同 harness 表现不同,甚至第三方 harness 能反超官方。它暗示一个趋势:模型层在商品化的同时,harness 正在变成新的溢价点,订阅费越来越多地是为 harness 买单,不是为模型。

「fable 在带领我,不是我指导他,我是这种感觉。」

月引人 · 6/18 18:47 · 给三个模型定角色时
为什么重要:这不只是模型测评,是一种工作关系的自白。月引人把"带领、伙伴、学徒"三种关系分别给了 fable、opus、glm,等于说:用什么模型,决定了你在跟一个老师、一个同事、还是一个徒弟共事。它把"选模型"这件事,从参数对比抬到了"你想跟谁一起工作"的高度。
Deep Dive
PART III · 深度调研

弱模型跑长任务崩在哪,让强模型固化流程是解法吗

—— 当模型层分化,"判断"正在从模型里被抽出来,写进流程

月引人用 GLM-5.2 跑一下午日报没跑通,烛火笔吏给的解法是"让 opus 先把流程固化下来"。这期客栈用一整周讨论了同一件事:弱模型到底崩在哪、把强模型的判断固化成流程是不是解、它又卡在哪里。

TL;DR · 一分钟版本

1. 主论点:弱模型跑长任务崩在"判断",状态判断、错误恢复、规划,不是知识缺失。解法不是等它变强,是让强模型把这些判断固化成流程/代码/sop,弱模型照着跑。

2. 反例:固化管用的是"有明确对错"的环节,对"对错本身需要被定义"的长尾新情况,固化下来的流程反而会绊住脚。这是它的天花板。

3. 实操:分两层跑,可固化的环节交给弱模型加流程,不可固化的判断留给强模型。别幻想一个便宜模型加一套流程吃下全部。

本周观察 · Anthropic 弧线走到第五期

把最近五期连起来看:Vol.24(6/12)"补贴还剩十天"→ Vol.25(6/13~14)"对华人禁用"→ Vol.26(6/15)"CC 降智涨价"→ Vol.27(6/17)"全球下架"→ 这期 Vol.28(6/18~21)"被集体诉讼 + 用户主动退订"。弧线的性质变了:前四期是 Anthropic 自己出事,这一期开始,用户用脚投票,烛火笔吏那句"我都取消 anthropic 订阅了"是个标志。信任流失一旦走到主动退订,就很难再拉回来。

01一个跑崩的下午,把"弱模型不行"具体化了

"弱模型不行"是一句正确的废话。6/18 那个下午把它具体化了。月引人用 GLM-5.2 跑一个有详细 skill、成熟可复用的日报生产流程,一下午没部署成功,5 小时 hit 限额,而 opus 跑同一件事"10 分钟搞完"。她的诊断比 benchmark 准:"肯干态度好但脑子比较直,遇到问题不知道变通""opus 不需要我提示问题出在哪,他自己会尝试各种手段"

这句话点出的不是 GLM-5.2 不行,是它在某一类任务上不行——长流程、多状态、出错要自己想办法恢复的任务。在"写一段代码""回答一个问题"这种单步任务上,国产模型已经追得很近;可一旦流程拉长、状态变多、需要"看见"自己卡在哪,差距就出来了。

02崩的不是知识,是判断

仔细拆 月引人的描述,弱模型在长任务上崩的是三类判断。一是状态判断:任务跑到第几步、上一步有没有真的完成,它跟丢。二是错误恢复:撞了墙,强模型会自己换方向、回退、换工具试,弱模型会卡在原地反复撞同一堵墙("不知道变通")。三是规划:把一个大目标拆成可执行的小步,它拆不利索。

这三样都不是知识问题,论知识储备,GLM-5.2 这种规模的开源模型已经足够大。是判断问题,是"在模糊状态下做决定"的能力。这种能力 benchmark 测不大出来,一旦放进真实长流程就原形毕露。Anthropic CEO 在被 治理先锋分享的那篇访谈里说得很直白:"AI 能快速生成复杂软件,真正难的不再是生成本身,而是让生成出来的东西进入真实现场,并在现场里可靠运转。"[1]"现场可靠运转"这五个字,正是 月引人那个下午卡住的地方。

03固化:把强模型的判断,写成弱模型能照着跑的流程

烛火笔吏给的那个方向,是这周最值钱的一句话:"让聪明的模型固化一下,迭代一个不那么聪明的模型能够完成任务的环境。"翻译一下:不是等弱模型变聪明,是让强模型把它"会变通"的过程沉淀下来,变成一套弱模型不用变通也能跑完的流程。

这条路学界和工程界都验证过。Reflexion 那篇经典论文做过对照:不换模型权重,只给 agent 套一个"做完、自评、再改"的反馈循环,就能把编程任务的通过率大幅拉上去[2]。Anthropic 自己的工程博客把 harness design 称为"前沿 agentic 性能的关键"[4]烧瓶炼客说得更狠——"复杂长任务 skill 不行,一定要编程写死"。skill 是写给 AI 看的提示,编程写死是写给机器执行的确定性,两者差一个数量级的可靠度。

烛火笔吏还点了一句容易被忽略的话:"很多场景 Cursor harness 之下的 opus 表现甚至比 claude code harness 之下更好。"同一个模型,套不同 harness,表现不同。这等于说,判断力正在从模型里被抽出来,迁移到外面的 harness 层。谁能把判断固化得好,谁就能让便宜的模型干出贵的活。

核心反直觉:跑崩是坏事,对流程沉淀是好事

反直觉的地方在这:月引人那个跑崩的下午,本身是一次有价值的产出。因为只有跑崩了,才能看清弱模型到底卡在哪一步,才能让 opus 把那一步的判断固化下来。如果一直用 opus 跑,永远不会暴露这些断点,流程也永远沉淀不下来。月引人自己后来把行业日报上了云端 loop 每天自动推,干的正是这件事——把能固化的固化掉,留给自己的只剩判断。跑崩不是浪费,是流程沉淀的必须成本。

04固化的天花板:长尾和意料之外

但固化不是万能的。它能兜住"有明确对错"的环节,兜不住"对错本身需要被定义"的环节。Self-Refine 那批研究已经反复证明:自我修正的反馈循环在三类场景里失效——初始输出已经合格时、弱模型自评本身没意义时、以及任务开放到连"更好"的方向都不明确时[3]。换句话说,标准化、可重复的部分能固化,但长尾、新情况、需要当场重新判断的部分,固化下来的流程反而会绊住脚。

月引人那句"fable 在带领我,不是我指导他",点破了天花板在哪。"带领"的意思是:fable 能在模糊地带主动给出她没想到的方向。这种能力,恰恰是固化不出来的——你能固化已知流程,固化不出对未知的探索。这是强模型最后的护城河,也是国产替代真正难过的一道坎。

05给客栈的提案:两层跑,别想着一层通吃

把一周的讨论收拢,对重度 AI 应用的社区可以立一条原则:能固化的交给弱模型加流程,不能固化的留给强模型,两层分跑,别幻想一层通吃。具体三步。

这条路正好接上对岸正在发生的事——三栖驿马分享的那篇"埃森哲半年腰斩"里讲的 FDE 模式[5]:OpenAI 的 150 人 FDE 团队规矩是"You must leave with product",每个项目必须留下产品,不是方案。把判断固化成产品,正是"固化"在产业层面的样子。客栈在群聊里悟到的,和对岸在市场里卷的,是同一条规律。

最后一段

把这周一整条线拉直:月引人用 GLM-5.2 跑崩一下午,是表症;烛火笔吏"让 opus 固化流程"是解法;Anthropic CEO"现场可靠运转"和埃森哲 FDE"留下产品"是同一个规律在两头同时显形。判断力正在从模型里被抽出来,一部分写进 harness 和流程,一部分变成产品。能被抽出来的,弱模型加流程就能跑;抽不出来的,是强模型最后的领地。

但这不是一句"国产模型能替代了"能盖过去的。月引人那句"fable 在带领我",是这一周最该被记住的七个字。它说明有些东西固化不出来——那种在模糊地带主动给你方向的能力,暂时还只长在最贵的模型身上。替代能替代的部分,承认替代不了的,是比"全量切换"清醒得多的姿态。

所以这一周真正的产出,不是"GLM 行不行"的结论,是月引人那个跑崩的下午本身。它把抽象的"弱模型差距"落成了具体的卡点,让固化有了方向。跑崩不可怕,跑崩了没看清卡在哪、没把判断沉淀下来,才是真的浪费。

悬赏令 · Vol.28

上期揭榜(Vol.27 题「哪类任务还非顶级模型不可」):这周的 GLM-5.2 大讨论本身就是一次集体作答。烛火笔吏那句"让聪明的模型固化一下,迭代一个不那么聪明的模型能够完成任务的环境"被采纳进本期 Deep Dive,烛火笔吏 +15 真知分,卡面记一笔「悬赏揭榜」。

本期题:你这周有没有哪个任务,本来指望弱模型跑、最后还是换回了强模型?那个卡点到底是什么,是规划、是错误恢复,还是某种它"看不见"的状态?说一个真实例子。

下期(Vol.29)公布揭榜。认题就来,客栈等你的刀。

← 回到首页
AGITopia Daily · 2026·06·18~21 · For Tavern Regulars Only