"Evaluator 系统性强化,国产模型笨一点慢一点也能完成"
— 月引人"文艺创意和模糊意图,国产模型远远比不上未降智的顶美"
— 烛火笔吏"不能太早遇到太惊艳的模型,一见误终生"
— 月引人当一张出口管制清单抹掉闭源护城河,价值正从"谁的模型更聪明"迁向"谁能让任意模型安全跑完一圈"。
↓ 详见 Part III两天 130 条,一条主线压住全场:Fable 5 被美国商务部强令全球下架,同夜 GLM-5.2 把编程分追到只差 Opus 4.8 的 0.7 分。分数追平的欢呼里,烛火笔吏泼了冷水,说洞察和模糊意图国产还差着代差。而月引人在梦里想通了一条更深的路:不追模型,去追那层能让笨模型也安全闭环的 harness。从模型如择偶的夜聊,到新面孔一眼识破卖课台词,这期客栈在练同一件事,对套路的免疫力。
按叙事重要性排序,不按热度。每条结尾一句超出原讨论的判断。
6/17 傍晚,牛津学士丢进一篇华尔街见闻:美国商务部援引出口管制,强令 Anthropic 紧急关闭 Fable 5 等两款模型的全球访问权限;同一篇里,GLM-5.2 在编程基准上拿到 74.4 分,距 Opus 4.8 的 75.1 只差 0.7。月引人立刻追问"GLM 5.2 有人用了吗,体感如何"。烛火笔吏接话:"感觉又到了那种新模型出来就要测测的状态,之前几个月都是无脑冲 opus/fable,自从 anthropic 坍台之后就各种测备选"。
📎 与 6/15 日报「主线 ①」呼应——那期判断"工具链正在分裂",这期 Fable 全球下架,是分裂的正式兑现。
闭源的护城河第一次不是被技术追平,是被一张出口管制清单一夜抹掉。
午间 月引人抛出一段话,说自己昨晚做梦,梦到跟 CC 说 "Evaluator 可以系统性强化,确保以后国外模型用不了了,用国内模型执行的笨一点时间长一点,也能完成任务",灵感来自 6/16 烛火笔吏分享的那篇《Loop Engineering:先写刹车,再写循环》。治理先锋笑"连做梦都是 harness",烛火笔吏接"fable 入梦天启",随即认真补一句,"挺重要的一个方向,我也可以在这个方向上优化"。
📎 与 6/13~14 周末特刊「主线 ①」呼应——线下 Workshop 教的就是 Loop Engineering,五天后它在月引人梦里落了地。
当顶级模型随时可能消失,能救你的不是更聪明的模型,是让笨模型也能安全跑完一圈的那层工程。
烛火笔吏是全群最勤的测模人。6/16 他测完 MiniMax M3 说"有点小 opus4.7 的感觉",分享测评"能打但不贵";到了 6/17 晚上却主动泼冷水,"在文艺的创意启发,深度洞察,模糊意图理解等方面,m3、DeepSeek 等都远远比不上 opus4.6 未降智版 & fable",最后叹一句"还是怀念那个聪明的顶美"。分数榜上国产已经贴脸,他量的却是 benchmark 量不出来的那把尺。
74.4 和 75.1 之间那 0.7 分是假的,真正的代差藏在 benchmark 不考的几道题里。
起因是 月引人担心 harness 做好后用 GLM 跑日报,"deep dive 板块我有点担心 glm 顶不上去",因为"fable 写的那期日报的 deep dive 确实太惊艳了"。烛火笔吏一句"dating 过聪明的顶帅之后就看不上普男了",月引人接出全夜金句,"不能太早遇到太惊艳的模型,一见误终生"。话题顺势歪进金庸:智源先生"一种模型惊艳了时光,一种模型温柔了岁月",三栖驿马引"一见杨过误终身",月引人毒舌杨过"出场像小孩,最后也没长大,纯帅"。
对工具的路径依赖和感情里的"曾经沧海"是同一个机制:过早锁定一个顶级解,会抬高之后所有替代品的门槛。
傍晚 烛火笔吏把老战友 韬光客拉进群,喊"一线大厂顶级帅哥(已有女友)"。月引人立刻怼"为啥要标注有女友,我们又不是相亲群",三栖驿马补刀"这话是说给谁听的呢",月引人认领"显然是我"。同一天,新来的 明镜客引用一段"OPC 被动收入、指数级增长"的卖课文案,评"这段几乎是典型性卖课的台词",三栖驿马自嘲"我就是花银子卖课之人"。
一个能把"卖课话术"和"模型评测"放进同一天聊的群,门槛不在技术,在对套路的免疫力。
它们说出口时没人正经接,放到更大的语境里却是判断。
「Evaluator 可以系统性强化……确保以后国外模型用不了了,用国内模型执行的笨一点时间长一点,也能完成任务。」
「在文艺的创意启发,深度洞察,模糊意图理解等方面,m3、DeepSeek 等都远远比不上 opus4.6 未降智版 & fable。」
「不能太早遇到太惊艳的模型,一见误终生。」
—— 当模型层开始商品化,价值正在向上一层迁移
Fable 5 被一张出口管制清单全球下架,GLM-5.2 把编程分追到只差 Opus 4.8 的 0.7 分。一个最直接的问题是:接下来该抢哪个新模型?这期客栈给出的答案反着来,别再追模型了,去追那层能让任意模型安全跑完一圈的 harness。这一节回答:为什么这条路是对的,它的天花板又在哪。
1. 主论点:harness(含 Evaluator)是模型能力的放大器。顶级模型下架后,真正的护城河不在"换一个一样聪明的模型",在把模型层做薄、做可换,把判断力上移到 harness。
2. 反例:harness 救不了烛火笔吏说的"文艺创意、模糊意图"。那是 benchmark 不考的高阶认知,是国产模型真正的代差,也是 harness 的天花板。
3. 实操:国产替代走双线。短线用 evaluator 给弱模型当裁判跑结构化任务,长线接受创意和洞察类任务暂时还得靠顶级模型,别用分数追平麻痹自己。
把最近四期连起来看,Anthropic 的衰退是一条加速下落的弧线:Vol.24(6/12)"补贴还剩十天",是续命;Vol.25(6/13~14)"对华人禁用",是区域性清退;Vol.26(6/15)"CC 降智涨价",是产品力下滑;到这期 Vol.27(6/17)"全球下架",是彻底离场。每一步都在把用户推向备选模型,也推向那个迟到的觉悟:太依赖一个太惊艳的模型,本身就是风险。
6/17 傍晚那条新闻里有两件事被并列在一起:美国商务部强令 Anthropic 关闭 Fable 5 的全球访问,同一天 GLM-5.2 在编程基准上拿到 74.4 分,距 Opus 4.8 的 75.1 只差 0.7[1]。把这两件事并列是有用意的,它同时在说"闭源最顶尖的那个,随时可能没了"和"开源已经摸到它的脚后跟"。
但 月引人当晚的反应不是"快抢 GLM",而是担心 harness 做好后用 GLM 跑日报,"deep dive 板块我有点担心 glm 顶不上去"。这个直觉比分数榜更准:她怕的不是模型不够聪明,是某个特定环节(深度调研)GLM 顶不住。这把问题从"换谁"转向了"哪一层"。
harness 这词在客栈已经高频出现好几期,值得说清它到底指什么。它不是模型本身,是包裹在模型外面、决定"模型怎么被调用"的那层工程:上下文怎么组织、工具怎么挂、循环什么时候该停、出错怎么兜底、结果由谁验收[2]。烛火笔吏6/16 分享的那篇《Loop Engineering》把它的核心讲得很直白,难点不是让循环转起来,是让它"在该停的时候停,在该交还给人的时候交还给人,并且留下足够证据让人接手"。
换句话说,模型是发动机,harness 是刹车、方向盘和后视镜。发动机再猛,没有刹车和后视镜的车你不敢上高速。这也是为什么 月引人说"harness 的提升我一直找不到方向",它不像换模型那样有即时反馈,它是个慢功夫的工程层。
这个判断不是社区的自嗨。Anthropic 自己的工程博客把 harness design 直接称为"前沿 agentic 性能的关键"[6]——在他们看来,决定一个 agent 能不能打的前沿变量,已经从"用哪个模型"挪到了"harness 怎么设计"。
月引人梦里开窍的那一步,具体落在一个词上:Evaluator(评估器)。她的判断是,把 Evaluator 系统性强化,"用国内模型执行的笨一点时间长一点,也能完成任务"。翻译成工程语言:让一个便宜的国产模型去执行,再用一个更强的判断层(可以是另一个模型,也可以是规则加人工)去验收每一步对不对,错了就退回去重做。
这不是新发明,业界叫 evaluator-as-judge 或 LLM-as-judge,思路是用一个判断层去校正执行层的产出[3]。月引人的贡献不在发明它,在她把它和"国产替代"焊在了一起:既然顶级模型随时可能下架,那就别把宝押在执行端的模型上,把宝押在验收端。验收端才是真正该厚起来的地方。
巍峰笑匠从另一个角度补了一刀:中转站卖家跟他说,"superpowers 这个 skill,搭配低倍模型试试,效果还不错",本质上是同一件事,用一个工程化的 skill 包裹,让便宜模型干出贵模型的活。
这条路学界三年前就用数据铺过了。2023 年的 Reflexion 论文做过一个硬对照:不更新任何模型权重,只给 agent 套一个"做完、自评、再改"的语言反馈循环,就把编程基准 HumanEval 的通过率从 GPT-4 的 80% 拉到 91%[3]。月引人2026 年才"梦里想通"的方向,本质是同一件事。所以真正反直觉的不是这条路对不对,而是它明明是一条被验证过的成熟路径,却因为大家太忙着追新模型,被集体忽视了三年。
但这里有一道 harness 也翻不过的墙,烛火笔吏当晚把它点破了:"在文艺的创意启发,深度洞察,模糊意图理解等方面,m3、DeepSeek 等都远远比不上 opus4.6 未降智版 & fable"。注意他说的不是写代码、不是做调研,这些是结构化任务,evaluator 兜得住。他说的是"模糊意图理解",是那种用户自己都说不清想要什么、需要模型主动补全意图的高阶认知[4]。
这类任务,evaluator 没法验收,因为连"对错标准"本身都需要模型去定义。74.4 和 75.1 那个 0.7 分差之所以是"假的",正因为它测的全是 evaluator 兜得住的结构化任务,把真正拉开差距的几道题排除在外了。月引人担心的"deep dive 顶不上去",担的就是这一层,深度调研恰好是高密度模糊意图任务,是国产模型当前的代差区。
学界对这道墙有精确的刻画。自我修正的研究发现,evaluator 式反馈循环在三类场景里不帮忙反帮倒忙:初始输出已经合格时、弱模型给出的自评本身没意义时、以及任务开放到连"更好"的方向都不明确时[4]。烛火笔吏说的"文艺创意、模糊意图"正好落在第三类。这才是 harness 真正的天花板:它放大的是"有明确对错"的任务,对"对错本身都需要被定义"的任务,放大器直接失效。
反直觉的地方在这:Fable 5 全球下架,对用户是天灾,对 harness 工程化却是催化剂。过去几个月,烛火笔吏说大家"无脑冲 opus/fable",只要有一个顶级模型兜底,没人有动力把 harness 做厚,因为最省事的就是把活全甩给最聪明的那个。一旦这个选项被管制清单拿掉,整个社区被迫解耦,被迫去想"换一个笨点的模型,我怎么保证它不出错"。月引人那句"梦里开窍",开的就是这个窍。坏消息逼出来的工程,往往比好消息养出来的更结实。
把上面几股线收拢,对 AGITopia 这种重度 AI 应用社区,可以立一条明确的原则:把模型当可换零件,把 harness 当固定资产。具体三步。
把这期客栈的三股线拉直了看:Fable 全球下架,是"可获得性"这个变量第一次硬着陆;GLM-5.2 追到 0.7 分差,是模型层商品化的信号弹;而 月引人梦里那句"用国内模型执行的笨一点时间长一点,也能完成任务",是社区自己给出的应对,不追模型,追 harness。三股线汇成一个判断:2026 年的护城河,正在从模型层迁向 harness 层。
这不是客栈的私人感受。Menlo Ventures 的 2025 企业 AI 报告里,应用层吃下 190 亿美元,占生成式 AI 总支出过半[5]。模型 API 的成本一直在降,钱却往编排和应用层涌——资本侧早用脚投了票,价值不在更聪明的模型,在更厚的 harness。
但这不是一句"国产模型赢了"能盖过去的。烛火笔吏当晚泼的冷水必须记着,分数追得平,洞察追不平,benchmark 不考的那几道题里,藏着国产模型真正的代差,也藏着 harness 翻不过的天花板。乐观和清醒得同时拿着。
所以最该被记住的,还是 月引人那个梦。它说的不是某个模型好不好,是一种姿态:当最惊艳的那个随时可能消失,你要做的不是去找下一个一样惊艳的,而是把自己练成"换谁都接得住"的那种人。这话放在工具上成立,放在这群人身上,好像也成立。
客栈开张悬赏令。每期出一道题,群友在群里贴回答,被采纳进下期 Deep Dive 的,+15 真知分,卡面记一笔「悬赏揭榜」。
本期题:在你的实际工作流里,哪一类任务现在还非顶级模型不可?是 harness 还没兜住它,还是它根本兜不住?说说你的判断和一个真实例子。
下期(Vol.28)公布揭榜。认题就来,客栈等你的刀。