Visual Digest 2026-06-16~17 · Vol.27
💬
130
messages
🎙️
12
voices
🆕
2
new faces
🔬
1
deep dive
74.4
GLM-5.2 编程分
75.1
Opus 4.8 编程分
0.7
开源首入前沿分差
4
Anthropic 连续走低期
5 Main Threads
01
Fable 全球下架,开源首入前沿
6/17 17:07 · 晚间突发
牛津学士月引人烛火笔吏
模型层
02
梦里给国产模型装上刹车
6/17 12:27 · 午间
月引人烛火笔吏治理先锋
harness
03
分数追平了,洞察没有
6/16–17 · 跨日
烛火笔吏月引人
模型评测
04
一见误终生:模型如择偶
6/17 18:13 · 夜聊歪楼
月引人烛火笔吏智源先生
群体共鸣
05
新面孔入栈,卖课台词被识破
6/17 全天 · 社群
韬光客明镜客三栖驿马
社群动力学
3 Non-Consensus

"Evaluator 系统性强化,国产模型笨一点慢一点也能完成"

月引人

"文艺创意和模糊意图,国产模型远远比不上未降智的顶美"

烛火笔吏

"不能太早遇到太惊艳的模型,一见误终生"

月引人
Deep Dive
Fable 走后,harness 凭什么成了新护城河

当一张出口管制清单抹掉闭源护城河,价值正从"谁的模型更聪明"迁向"谁能让任意模型安全跑完一圈"。

harness 国产替代EvaluatorLoop Engineering
↓ 详见 Part III
AGITopia Daily · Volume 27

顶美下架那夜,
有人在梦里给国产模型装上了刹车

两天 130 条,一条主线压住全场:Fable 5 被美国商务部强令全球下架,同夜 GLM-5.2 把编程分追到只差 Opus 4.8 的 0.7 分。分数追平的欢呼里,烛火笔吏泼了冷水,说洞察和模糊意图国产还差着代差。而月引人在梦里想通了一条更深的路:不追模型,去追那层能让笨模型也安全闭环的 harness。从模型如择偶的夜聊,到新面孔一眼识破卖课台词,这期客栈在练同一件事,对套路的免疫力。

2026·06·16~17  ·  130 条消息  ·  12 位常客发声  ·  5 个核心话题
PART I · 群聊日报

五条主线:一张管制清单,和一群找刹车的人

按叙事重要性排序,不按热度。每条结尾一句超出原讨论的判断。

牛津学士 甩出一条新闻:Fable 走了,开源第一次坐到前沿牌桌

6/17 傍晚,牛津学士丢进一篇华尔街见闻:美国商务部援引出口管制,强令 Anthropic 紧急关闭 Fable 5 等两款模型的全球访问权限;同一篇里,GLM-5.2 在编程基准上拿到 74.4 分,距 Opus 4.8 的 75.1 只差 0.7。月引人立刻追问"GLM 5.2 有人用了吗,体感如何"。烛火笔吏接话:"感觉又到了那种新模型出来就要测测的状态,之前几个月都是无脑冲 opus/fable,自从 anthropic 坍台之后就各种测备选"

📎 与 6/15 日报「主线 ①」呼应——那期判断"工具链正在分裂",这期 Fable 全球下架,是分裂的正式兑现。

闭源的护城河第一次不是被技术追平,是被一张出口管制清单一夜抹掉。

月引人 在梦里想通了 harness:给国产模型装上"刹车"

午间 月引人抛出一段话,说自己昨晚做梦,梦到跟 CC 说 "Evaluator 可以系统性强化,确保以后国外模型用不了了,用国内模型执行的笨一点时间长一点,也能完成任务",灵感来自 6/16 烛火笔吏分享的那篇《Loop Engineering:先写刹车,再写循环》。治理先锋"连做梦都是 harness"烛火笔吏接"fable 入梦天启",随即认真补一句,"挺重要的一个方向,我也可以在这个方向上优化"

📎 与 6/13~14 周末特刊「主线 ①」呼应——线下 Workshop 教的就是 Loop Engineering,五天后它在月引人梦里落了地。

当顶级模型随时可能消失,能救你的不是更聪明的模型,是让笨模型也能安全跑完一圈的那层工程。

烛火笔吏 的两把尺子:分数追平了,洞察没有

烛火笔吏是全群最勤的测模人。6/16 他测完 MiniMax M3 说"有点小 opus4.7 的感觉",分享测评"能打但不贵";到了 6/17 晚上却主动泼冷水,"在文艺的创意启发,深度洞察,模糊意图理解等方面,m3、DeepSeek 等都远远比不上 opus4.6 未降智版 & fable",最后叹一句"还是怀念那个聪明的顶美"。分数榜上国产已经贴脸,他量的却是 benchmark 量不出来的那把尺。

74.4 和 75.1 之间那 0.7 分是假的,真正的代差藏在 benchmark 不考的几道题里。

④ "月引人" 的择偶隐喻:不能太早遇到太惊艳的模型

起因是 月引人担心 harness 做好后用 GLM 跑日报,"deep dive 板块我有点担心 glm 顶不上去",因为"fable 写的那期日报的 deep dive 确实太惊艳了"烛火笔吏一句"dating 过聪明的顶帅之后就看不上普男了",月引人接出全夜金句,"不能太早遇到太惊艳的模型,一见误终生"。话题顺势歪进金庸:智源先生"一种模型惊艳了时光,一种模型温柔了岁月",三栖驿马引"一见杨过误终身",月引人毒舌杨过"出场像小孩,最后也没长大,纯帅"。

对工具的路径依赖和感情里的"曾经沧海"是同一个机制:过早锁定一个顶级解,会抬高之后所有替代品的门槛。

⑤ 新面孔入栈:韬光客 被迎进来,卖课台词被 明镜客 一眼识破

傍晚 烛火笔吏把老战友 韬光客拉进群,喊"一线大厂顶级帅哥(已有女友)"。月引人立刻怼"为啥要标注有女友,我们又不是相亲群"三栖驿马补刀"这话是说给谁听的呢",月引人认领"显然是我"。同一天,新来的 明镜客引用一段"OPC 被动收入、指数级增长"的卖课文案,评"这段几乎是典型性卖课的台词"三栖驿马自嘲"我就是花银子卖课之人"

一个能把"卖课话术"和"模型评测"放进同一天聊的群,门槛不在技术,在对套路的免疫力。

客栈荐读 群友分享 · 编辑精选
PART II · 被忽略的非共识

三句被当笑话刷过、但其实很硬的话

它们说出口时没人正经接,放到更大的语境里却是判断。

「Evaluator 可以系统性强化……确保以后国外模型用不了了,用国内模型执行的笨一点时间长一点,也能完成任务。」

月引人 · 6/17 12:27 · 梦里开窍的那段话
为什么重要:这句被当成笑话("连做梦都是 harness")刷过,其实是国产替代最清醒的架构判断。多数人盯着 GLM-5.2 的分数追平 Opus,月引人指向另一条路:不追模型,追"让弱模型也能闭环"的那层工程。它暗示一个转折,模型层正在商品化,真正稀缺的是能把任意模型兜住的 harness。

「在文艺的创意启发,深度洞察,模糊意图理解等方面,m3、DeepSeek 等都远远比不上 opus4.6 未降智版 & fable。」

烛火笔吏 · 6/17 17:16 · 全网吹国产逆袭时泼的冷水
为什么重要:"GLM 追平 Opus"的欢呼里,这句反主流。烛火笔吏是全群测模最勤的人,他量的尺不是 SWE-bench,是 benchmark 不考的"模糊意图理解"。它揭示国产替代的真正天花板不在代码,在那些最难量化的高阶认知任务上。

「不能太早遇到太惊艳的模型,一见误终生。」

月引人 · 6/17 18:13 · 从 deep dive 担忧滑出的择偶隐喻
为什么重要:表面是夜聊择偶鸡汤,放进 harness 议题里却很硬。它在说一件工程上的事:过早把工作流锁死在一个顶级模型上,会像"曾经沧海"一样抬高所有替代品的迁移成本。Fable 下架之所以痛,正因为它太惊艳,惊艳到没人认真备过 Plan B。
Deep Dive
PART III · 深度调研

Fable 走后,harness 凭什么成了新护城河

—— 当模型层开始商品化,价值正在向上一层迁移

Fable 5 被一张出口管制清单全球下架,GLM-5.2 把编程分追到只差 Opus 4.8 的 0.7 分。一个最直接的问题是:接下来该抢哪个新模型?这期客栈给出的答案反着来,别再追模型了,去追那层能让任意模型安全跑完一圈的 harness。这一节回答:为什么这条路是对的,它的天花板又在哪。

TL;DR · 一分钟版本

1. 主论点:harness(含 Evaluator)是模型能力的放大器。顶级模型下架后,真正的护城河不在"换一个一样聪明的模型",在把模型层做薄、做可换,把判断力上移到 harness。

2. 反例:harness 救不了烛火笔吏说的"文艺创意、模糊意图"。那是 benchmark 不考的高阶认知,是国产模型真正的代差,也是 harness 的天花板。

3. 实操:国产替代走双线。短线用 evaluator 给弱模型当裁判跑结构化任务,长线接受创意和洞察类任务暂时还得靠顶级模型,别用分数追平麻痹自己。

本周观察 · 一条四期的下落弧线

把最近四期连起来看,Anthropic 的衰退是一条加速下落的弧线:Vol.24(6/12)"补贴还剩十天",是续命;Vol.25(6/13~14)"对华人禁用",是区域性清退;Vol.26(6/15)"CC 降智涨价",是产品力下滑;到这期 Vol.27(6/17)"全球下架",是彻底离场。每一步都在把用户推向备选模型,也推向那个迟到的觉悟:太依赖一个太惊艳的模型,本身就是风险。

01一张管制清单,抹掉的比分差还多

6/17 傍晚那条新闻里有两件事被并列在一起:美国商务部强令 Anthropic 关闭 Fable 5 的全球访问,同一天 GLM-5.2 在编程基准上拿到 74.4 分,距 Opus 4.8 的 75.1 只差 0.7[1]。把这两件事并列是有用意的,它同时在说"闭源最顶尖的那个,随时可能没了"和"开源已经摸到它的脚后跟"。

月引人当晚的反应不是"快抢 GLM",而是担心 harness 做好后用 GLM 跑日报,"deep dive 板块我有点担心 glm 顶不上去"。这个直觉比分数榜更准:她怕的不是模型不够聪明,是某个特定环节(深度调研)GLM 顶不住。这把问题从"换谁"转向了"哪一层"。

02harness 是什么:给模型装上刹车和后视镜

harness 这词在客栈已经高频出现好几期,值得说清它到底指什么。它不是模型本身,是包裹在模型外面、决定"模型怎么被调用"的那层工程:上下文怎么组织、工具怎么挂、循环什么时候该停、出错怎么兜底、结果由谁验收[2]烛火笔吏6/16 分享的那篇《Loop Engineering》把它的核心讲得很直白,难点不是让循环转起来,是让它"在该停的时候停,在该交还给人的时候交还给人,并且留下足够证据让人接手"。

换句话说,模型是发动机,harness 是刹车、方向盘和后视镜。发动机再猛,没有刹车和后视镜的车你不敢上高速。这也是为什么 月引人说"harness 的提升我一直找不到方向",它不像换模型那样有即时反馈,它是个慢功夫的工程层。

这个判断不是社区的自嗨。Anthropic 自己的工程博客把 harness design 直接称为"前沿 agentic 性能的关键"[6]——在他们看来,决定一个 agent 能不能打的前沿变量,已经从"用哪个模型"挪到了"harness 怎么设计"。

03Evaluator:让弱模型借强模型的脑子过桥

月引人梦里开窍的那一步,具体落在一个词上:Evaluator(评估器)。她的判断是,把 Evaluator 系统性强化,"用国内模型执行的笨一点时间长一点,也能完成任务"。翻译成工程语言:让一个便宜的国产模型去执行,再用一个更强的判断层(可以是另一个模型,也可以是规则加人工)去验收每一步对不对,错了就退回去重做。

这不是新发明,业界叫 evaluator-as-judge 或 LLM-as-judge,思路是用一个判断层去校正执行层的产出[3]月引人的贡献不在发明它,在她把它和"国产替代"焊在了一起:既然顶级模型随时可能下架,那就别把宝押在执行端的模型上,把宝押在验收端。验收端才是真正该厚起来的地方。

巍峰笑匠从另一个角度补了一刀:中转站卖家跟他说,"superpowers 这个 skill,搭配低倍模型试试,效果还不错",本质上是同一件事,用一个工程化的 skill 包裹,让便宜模型干出贵模型的活。

这条路学界三年前就用数据铺过了。2023 年的 Reflexion 论文做过一个硬对照:不更新任何模型权重,只给 agent 套一个"做完、自评、再改"的语言反馈循环,就把编程基准 HumanEval 的通过率从 GPT-4 的 80% 拉到 91%[3]月引人2026 年才"梦里想通"的方向,本质是同一件事。所以真正反直觉的不是这条路对不对,而是它明明是一条被验证过的成熟路径,却因为大家太忙着追新模型,被集体忽视了三年。

04benchmark 量不出来的那道墙

但这里有一道 harness 也翻不过的墙,烛火笔吏当晚把它点破了:"在文艺的创意启发,深度洞察,模糊意图理解等方面,m3、DeepSeek 等都远远比不上 opus4.6 未降智版 & fable"。注意他说的不是写代码、不是做调研,这些是结构化任务,evaluator 兜得住。他说的是"模糊意图理解",是那种用户自己都说不清想要什么、需要模型主动补全意图的高阶认知[4]

这类任务,evaluator 没法验收,因为连"对错标准"本身都需要模型去定义。74.4 和 75.1 那个 0.7 分差之所以是"假的",正因为它测的全是 evaluator 兜得住的结构化任务,把真正拉开差距的几道题排除在外了。月引人担心的"deep dive 顶不上去",担的就是这一层,深度调研恰好是高密度模糊意图任务,是国产模型当前的代差区。

学界对这道墙有精确的刻画。自我修正的研究发现,evaluator 式反馈循环在三类场景里不帮忙反帮倒忙:初始输出已经合格时、弱模型给出的自评本身没意义时、以及任务开放到连"更好"的方向都不明确时[4]烛火笔吏说的"文艺创意、模糊意图"正好落在第三类。这才是 harness 真正的天花板:它放大的是"有明确对错"的任务,对"对错本身都需要被定义"的任务,放大器直接失效。

核心反直觉:下架是坏消息,对 harness 是好消息

反直觉的地方在这:Fable 5 全球下架,对用户是天灾,对 harness 工程化却是催化剂。过去几个月,烛火笔吏说大家"无脑冲 opus/fable",只要有一个顶级模型兜底,没人有动力把 harness 做厚,因为最省事的就是把活全甩给最聪明的那个。一旦这个选项被管制清单拿掉,整个社区被迫解耦,被迫去想"换一个笨点的模型,我怎么保证它不出错"。月引人那句"梦里开窍",开的就是这个窍。坏消息逼出来的工程,往往比好消息养出来的更结实。

05给客栈的提案:把模型当可换零件

把上面几股线收拢,对 AGITopia 这种重度 AI 应用社区,可以立一条明确的原则:把模型当可换零件,把 harness 当固定资产。具体三步。

最后一段

把这期客栈的三股线拉直了看:Fable 全球下架,是"可获得性"这个变量第一次硬着陆;GLM-5.2 追到 0.7 分差,是模型层商品化的信号弹;而 月引人梦里那句"用国内模型执行的笨一点时间长一点,也能完成任务",是社区自己给出的应对,不追模型,追 harness。三股线汇成一个判断:2026 年的护城河,正在从模型层迁向 harness 层。

这不是客栈的私人感受。Menlo Ventures 的 2025 企业 AI 报告里,应用层吃下 190 亿美元,占生成式 AI 总支出过半[5]。模型 API 的成本一直在降,钱却往编排和应用层涌——资本侧早用脚投了票,价值不在更聪明的模型,在更厚的 harness。

但这不是一句"国产模型赢了"能盖过去的。烛火笔吏当晚泼的冷水必须记着,分数追得平,洞察追不平,benchmark 不考的那几道题里,藏着国产模型真正的代差,也藏着 harness 翻不过的天花板。乐观和清醒得同时拿着。

所以最该被记住的,还是 月引人那个梦。它说的不是某个模型好不好,是一种姿态:当最惊艳的那个随时可能消失,你要做的不是去找下一个一样惊艳的,而是把自己练成"换谁都接得住"的那种人。这话放在工具上成立,放在这群人身上,好像也成立。

悬赏令 · Vol.27 首发

客栈开张悬赏令。每期出一道题,群友在群里贴回答,被采纳进下期 Deep Dive 的,+15 真知分,卡面记一笔「悬赏揭榜」。

本期题:在你的实际工作流里,哪一类任务现在还非顶级模型不可?是 harness 还没兜住它,还是它根本兜不住?说说你的判断和一个真实例子。

下期(Vol.28)公布揭榜。认题就来,客栈等你的刀。

← 回到首页
AGITopia Daily · 2026·06·16~17 · For Tavern Regulars Only