"复杂长任务 skill 不行,一定要编程写死"
— 烧瓶炼客"Cursor harness 下的 opus 比 claude code 下表现更好"
— 烛火笔吏"fable 在带领我,不是我指导他"
— 月引人月引人用 GLM-5.2 跑一下午日报没跑通,烛火笔吏给的解法是让 opus 先把流程固化下来。这一节回答:固化为什么管用,它的天花板又在哪。
↓ 详见 Part III四天 376 条,一条主线压住全场:月引人用 GLM-5.2 跑一下午日报没部署成功,opus 十分钟搞完。烧瓶炼客断言「复杂长任务 skill 不行,一定要编程写死」,烛火笔吏给出解法「让 opus 固化流程,迭代一个弱模型能完成的环境」。模型角色论被一句话钉死:fable 带领,opus 伙伴,glm 学徒。同周 Anthropic 被集体诉讼、烛火笔吏取消订阅换 DeepSeek、Gemini 降智成豆包、财大成立 AI 学院(清华 AI 本科 200 万年薪,金融人均百万的盛况不再)。月引人把行业日报上了云端 loop 每天早推,对岸埃森哲半年腰斩。从 GLM 跑崩到产线上云,这周客栈在练同一件事:哪些活该固化成流程,哪些还得留给聪明的脑子。
按叙事重要性排序,不按热度。每条结尾一句超出原讨论的判断。
下午四点 月引人抛出实测:"glm 5.2 实测,跑了一天日报愣是没有部署成功","opus 10 分钟搞完"。她给三个模型定了位——"glm 是学徒,opus 是伙伴,fable 在带领我,不是我指导他"。烧瓶炼客一句话判了 skill 的局限:"复杂的长任务,skill 是不行的,一定要编程写死"。烛火笔吏给了具体方向:"让 opus 拉一下,看看 glm5.2 是怎么工作的,有什么优化空间,有什么可以沉淀的,让聪明的模型固化一下,迭代一个不那么聪明的模型能够完成任务的环境"。
📎 与 6/16~17 日报「主线 ②」呼应——那期月引人梦里想通 harness 方向,这周她用 GLM-5.2 实测,撞了墙,烛火笔吏把梦里的方向落成了"固化流程"四个字。
弱模型肯干但不会变通,强模型会变通但要钱;中间那条路,是让强模型把"会变通"固化成弱模型能照着跑的流程。
一早 烧瓶炼客分享"Anthropic 被用户集体诉讼:200 美元买断无限额度,AI 用 5 小时干掉 15%"。到了晚上,烛火笔吏贴出和月引人的私聊记录:"你没看我现在都在 DeepSeek 嘛,我都取消 anthropic 订阅了"。月引人第一反应是"那基建呢怎么办"。替代方案被逐一摆上桌:trae(月引人踩过坑"根本不动脑子,最后我自己手动改的代码")、Cursor(烛火笔吏力荐"该踩的坑我都踩过了,就 Cursor")、openrouter 这类聚合平台。落地察事还剧透"豆包 coding 下周升级"。
📎 与 Vol.26~27「本周观察」呼应——Anthropic 的下落弧线这周从"产品失望"滑到了"用户主动退订"。
对一家模型公司的信任,是从"产品失望"开始流失的;真正不可逆的那一步,是用户自己动手退订。
月引人发了张图调侃 Gemini 降智,先打预防针"群里有 gemini 的伙伴见谅"。烛火笔吏接得狠:"gemini 2.5 时期惊为天人,现在连牛夫人都算不上了,成豆包了",又补"gemini3 出之前加仓了 Google 股票,是真金白银的认可,然后 opus4.6 横空出世"。话题转到豆包的阵地:治理先锋"豆包取代我的搜索引擎,琐碎事都问豆包,但重要事肯定不在豆包处理",烛火笔吏"手机常驻豆包,agent 场景都 claude code"。治理先锋冷不丁一句"这么宝贵私密的会议记录,就让豆包搞?数据语料全这么出去了",锋刃先锋当场"我后面不让豆包搞了"。烛火笔吏补一刀"语音处理我都跑本地模型"。
生活阵地让给了豆包,工作阵地留给了 cc;中间那道分界线,是数据敏不敏感。
月引人抛出一记重锤:"清华一个 AI 专业的本科生现在出来就是两百万年薪,其他行业哀鸿遍野",紧接"金融亡了!人均百万的盛况不会再有了"。第二天 智源先生去了财大,连发几条"计算和经济结合的特色未来牛",月引人接"开价年薪 150 万起,比清华便宜"。话题拐进师徒情:月引人忆自己读计算机加数学交叉"太作死了,夜里两点一边哭一边写作业","认为自己有数学天分,是我对自己最大的误解"。智源先生劝"你骨骼惊奇万里挑一,不适合纯数学但适合算法博弈论赛道",又感慨"基本功训练把人搞崩了,坚持下来的才能进到后面有趣的事,武行戏班把孩子交给师兄弟带,自己父母严不下来"。月引人回"我等到了汪老师,在心智更成熟、学习能力还没下降的最好年华"。
AI 把行业的薪酬梯度重新拉开了:会算法的年轻人站到顶端,传统金融的光环在退。
周六早上 月引人报喜:"我现在在云端跑行业日报,还不错,搞了个 loop,每天早上推"。烛火笔吏一句"大哥厉害了"。这是客栈第二条内容线(AI 行业日报)正式上云。同一天下午 三栖驿马分享"半年时间埃森哲股价腰斩是 AI 导致吗",把咨询拆成三层:认知型最稳、执行型最先被替、工程型居中,并点出一个新物种 FDE——"OpenAI 组建 150 人 FDE 团队投了 40 亿美元,规矩是 You must leave with product,每个项目必须留下产品不是方案"。晚上 治理先锋分享 Anthropic CEO 访谈那句"AI 能快速生成复杂软件,真正难的不再是生成本身,而是让生成出来的东西进入真实现场,并在现场里可靠运转"。
自己的产线上云,和对岸的咨询腰斩,是同一件事的两面:能被固化成产品的活,正在从按人头计价变成按价值计价。
它们被当成吐槽或广告刷过,放到更大的语境里却是判断。
「复杂的长任务,skill 是不行的,一定要编程写死。」
「Cursor 订阅本身也是订阅 Cursor 不断升级的 harness,很多场景 Cursor harness 之下的 opus 表现甚至比 claude code harness 之下更好。」
「fable 在带领我,不是我指导他,我是这种感觉。」
—— 当模型层分化,"判断"正在从模型里被抽出来,写进流程
月引人用 GLM-5.2 跑一下午日报没跑通,烛火笔吏给的解法是"让 opus 先把流程固化下来"。这期客栈用一整周讨论了同一件事:弱模型到底崩在哪、把强模型的判断固化成流程是不是解、它又卡在哪里。
1. 主论点:弱模型跑长任务崩在"判断",状态判断、错误恢复、规划,不是知识缺失。解法不是等它变强,是让强模型把这些判断固化成流程/代码/sop,弱模型照着跑。
2. 反例:固化管用的是"有明确对错"的环节,对"对错本身需要被定义"的长尾新情况,固化下来的流程反而会绊住脚。这是它的天花板。
3. 实操:分两层跑,可固化的环节交给弱模型加流程,不可固化的判断留给强模型。别幻想一个便宜模型加一套流程吃下全部。
把最近五期连起来看:Vol.24(6/12)"补贴还剩十天"→ Vol.25(6/13~14)"对华人禁用"→ Vol.26(6/15)"CC 降智涨价"→ Vol.27(6/17)"全球下架"→ 这期 Vol.28(6/18~21)"被集体诉讼 + 用户主动退订"。弧线的性质变了:前四期是 Anthropic 自己出事,这一期开始,用户用脚投票,烛火笔吏那句"我都取消 anthropic 订阅了"是个标志。信任流失一旦走到主动退订,就很难再拉回来。
"弱模型不行"是一句正确的废话。6/18 那个下午把它具体化了。月引人用 GLM-5.2 跑一个有详细 skill、成熟可复用的日报生产流程,一下午没部署成功,5 小时 hit 限额,而 opus 跑同一件事"10 分钟搞完"。她的诊断比 benchmark 准:"肯干态度好但脑子比较直,遇到问题不知道变通","opus 不需要我提示问题出在哪,他自己会尝试各种手段"。
这句话点出的不是 GLM-5.2 不行,是它在某一类任务上不行——长流程、多状态、出错要自己想办法恢复的任务。在"写一段代码""回答一个问题"这种单步任务上,国产模型已经追得很近;可一旦流程拉长、状态变多、需要"看见"自己卡在哪,差距就出来了。
仔细拆 月引人的描述,弱模型在长任务上崩的是三类判断。一是状态判断:任务跑到第几步、上一步有没有真的完成,它跟丢。二是错误恢复:撞了墙,强模型会自己换方向、回退、换工具试,弱模型会卡在原地反复撞同一堵墙("不知道变通")。三是规划:把一个大目标拆成可执行的小步,它拆不利索。
这三样都不是知识问题,论知识储备,GLM-5.2 这种规模的开源模型已经足够大。是判断问题,是"在模糊状态下做决定"的能力。这种能力 benchmark 测不大出来,一旦放进真实长流程就原形毕露。Anthropic CEO 在被 治理先锋分享的那篇访谈里说得很直白:"AI 能快速生成复杂软件,真正难的不再是生成本身,而是让生成出来的东西进入真实现场,并在现场里可靠运转。"[1]"现场可靠运转"这五个字,正是 月引人那个下午卡住的地方。
烛火笔吏给的那个方向,是这周最值钱的一句话:"让聪明的模型固化一下,迭代一个不那么聪明的模型能够完成任务的环境。"翻译一下:不是等弱模型变聪明,是让强模型把它"会变通"的过程沉淀下来,变成一套弱模型不用变通也能跑完的流程。
这条路学界和工程界都验证过。Reflexion 那篇经典论文做过对照:不换模型权重,只给 agent 套一个"做完、自评、再改"的反馈循环,就能把编程任务的通过率大幅拉上去[2]。Anthropic 自己的工程博客把 harness design 称为"前沿 agentic 性能的关键"[4]。烧瓶炼客说得更狠——"复杂长任务 skill 不行,一定要编程写死"。skill 是写给 AI 看的提示,编程写死是写给机器执行的确定性,两者差一个数量级的可靠度。
烛火笔吏还点了一句容易被忽略的话:"很多场景 Cursor harness 之下的 opus 表现甚至比 claude code harness 之下更好。"同一个模型,套不同 harness,表现不同。这等于说,判断力正在从模型里被抽出来,迁移到外面的 harness 层。谁能把判断固化得好,谁就能让便宜的模型干出贵的活。
反直觉的地方在这:月引人那个跑崩的下午,本身是一次有价值的产出。因为只有跑崩了,才能看清弱模型到底卡在哪一步,才能让 opus 把那一步的判断固化下来。如果一直用 opus 跑,永远不会暴露这些断点,流程也永远沉淀不下来。月引人自己后来把行业日报上了云端 loop 每天自动推,干的正是这件事——把能固化的固化掉,留给自己的只剩判断。跑崩不是浪费,是流程沉淀的必须成本。
但固化不是万能的。它能兜住"有明确对错"的环节,兜不住"对错本身需要被定义"的环节。Self-Refine 那批研究已经反复证明:自我修正的反馈循环在三类场景里失效——初始输出已经合格时、弱模型自评本身没意义时、以及任务开放到连"更好"的方向都不明确时[3]。换句话说,标准化、可重复的部分能固化,但长尾、新情况、需要当场重新判断的部分,固化下来的流程反而会绊住脚。
月引人那句"fable 在带领我,不是我指导他",点破了天花板在哪。"带领"的意思是:fable 能在模糊地带主动给出她没想到的方向。这种能力,恰恰是固化不出来的——你能固化已知流程,固化不出对未知的探索。这是强模型最后的护城河,也是国产替代真正难过的一道坎。
把一周的讨论收拢,对重度 AI 应用的社区可以立一条原则:能固化的交给弱模型加流程,不能固化的留给强模型,两层分跑,别幻想一层通吃。具体三步。
这条路正好接上对岸正在发生的事——三栖驿马分享的那篇"埃森哲半年腰斩"里讲的 FDE 模式[5]:OpenAI 的 150 人 FDE 团队规矩是"You must leave with product",每个项目必须留下产品,不是方案。把判断固化成产品,正是"固化"在产业层面的样子。客栈在群聊里悟到的,和对岸在市场里卷的,是同一条规律。
把这周一整条线拉直:月引人用 GLM-5.2 跑崩一下午,是表症;烛火笔吏"让 opus 固化流程"是解法;Anthropic CEO"现场可靠运转"和埃森哲 FDE"留下产品"是同一个规律在两头同时显形。判断力正在从模型里被抽出来,一部分写进 harness 和流程,一部分变成产品。能被抽出来的,弱模型加流程就能跑;抽不出来的,是强模型最后的领地。
但这不是一句"国产模型能替代了"能盖过去的。月引人那句"fable 在带领我",是这一周最该被记住的七个字。它说明有些东西固化不出来——那种在模糊地带主动给你方向的能力,暂时还只长在最贵的模型身上。替代能替代的部分,承认替代不了的,是比"全量切换"清醒得多的姿态。
所以这一周真正的产出,不是"GLM 行不行"的结论,是月引人那个跑崩的下午本身。它把抽象的"弱模型差距"落成了具体的卡点,让固化有了方向。跑崩不可怕,跑崩了没看清卡在哪、没把判断沉淀下来,才是真的浪费。
上期揭榜(Vol.27 题「哪类任务还非顶级模型不可」):这周的 GLM-5.2 大讨论本身就是一次集体作答。烛火笔吏那句"让聪明的模型固化一下,迭代一个不那么聪明的模型能够完成任务的环境"被采纳进本期 Deep Dive,烛火笔吏 +15 真知分,卡面记一笔「悬赏揭榜」。
本期题:你这周有没有哪个任务,本来指望弱模型跑、最后还是换回了强模型?那个卡点到底是什么,是规划、是错误恢复,还是某种它"看不见"的状态?说一个真实例子。
下期(Vol.29)公布揭榜。认题就来,客栈等你的刀。