Visual Digest 2026-06-24~25 · Vol.30 · 双日合刊
💬
146
messages
🎙️
14
voices
🆕
0
new faces
🔬
1
deep dive
52%
不愿承认用 AI 的人
人类内容排名优势
3
模型人格之争
偏好蒸馏
中间人最后的护城河
5 Main Threads
01
"老板说做个研究,我对 agent 说你按他的意思做"
6/24 16:52–17:01 · 传话链与偏好蒸馏
烛火笔吏月引人治理先锋
职场存在论
02
Opus 会嫉妒 Fable 吗:模型人格论
6/24 10:24–17:12 · 从 benchmark 到偏好
月引人烧瓶炼客雷霆输出
模型审美
03
CC + DeepSeek 深夜实测:不输 Codex,但还是瞎编
6/25 01:47–16:24 · Runtime vs 模型
烧瓶炼客烛火笔吏月引人
工具链实测
04
RAG 没死,输入质量才是天花板
6/25 11:32–11:55 · 三人同时回应
云台指路烛火笔吏烧瓶炼客
技术共识
05
Deep Dive 变公众号选题,内容管线正在闭环
6/25 21:25–21:32 · 社群飞轮
月引人烛火笔吏
社群动力学
3 Non-Consensus

"你连蒸馏的必要性都没有了。"

— 治理先锋

"越来越体会那句话,ai时代,taste很重要。"

— 烧瓶炼客

"火快烧到眉毛了,生产力就上来了。"

— 月引人
Deep Dive
你的老板不知道你在用 AI:是透明代理,还是偏好蒸馏器

52% 的人不愿承认在重要任务中用了 AI,但做偏好蒸馏的那个人反而最不可替代。本期拆职场透明代理的价值拐点,和那道叫"taste"的最后防线。

Shadow AI偏好蒸馏职场存在论
↓ 详见 Part III
AGITopia Daily · Volume 30 · 双日合刊

你在传话,但你的 AI
已经比你更懂老板的品味了

6/24 下午,一个人说"老板说做个研究,我对 agent 说你按他的意思做个研究",另一个人说"你连蒸馏的必要性都没有了"。群里笑完了,没人展开。但到了晚上,有人给出了真正的解法:把老板改完的材料脱敏回传给 AI,让它记住偏好,交付越改越少。同一天,有人在问 Opus 会不会嫉妒 Fable,有人凌晨拿 CC 加 DeepSeek 跑了一夜,有人问 RAG 是不是过时了。两天 146 条消息,14 位发言者,表面聊的是工具,骨子里在反复测同一条线:AI 把执行拉平之后,你的价值到底在哪。

2026·06·24~25  ·  146 条消息  ·  14 位常客发声
PART I · 群聊日报

两天里最值得复盘的五件事

按叙事分量排序,不按热度。每件都藏着一个超出当天的判断。

① "老板说做个研究,我对 agent 说你按他的意思做":传话链的存亡哲学

故事从 烛火笔吏 分享的一张截图开始。他在做一份调研,工作流是这样的:我老板说,做个研究我对 agent 说,你按他的意思做个研究。紧接着第二段:我老板说,画个片子,我对 agent 说,你按他的意思画个片子。然后他加了一句让整个对话凝固的话:我开始深深思考自己的价值

治理先锋 接了一刀:你连蒸馏的必要性都没有了月引人 笑完以后转了个严肃的弯:别跟你老板说这件事。她不是在开玩笑。紧接着她给出了一套已经在自己身上跑通的方法:然后我老板改完的材料,我脱敏以后回传给 AI,记住他的偏好现在我的 AI 对我老板的偏好已经越来越清晰了,交付的工作改的越来越少

资管智士 在旁边感叹了一句 太真实了云台指路 的反应更直接——把这个弄一下,指的是让 agent 去学那个方法本身。月引人 还没停,紧接着说了两句把整个话题从段子拉成方法论的话:最近我的 harness 有了质的提升火快烧到眉毛了,生产力就上来了

传话链里最贵的一环,不是会转述,是你在每一次"老板改完"之后,悄悄把那次修改变成了 AI 的训练数据。这不是偷懒,这是在建一台你老板都不知道存在的偏好引擎。

② Opus 会嫉妒 Fable 吗:当选模型变成选"性格"

早上 10:24,月引人 在群里丢了一颗炸弹:opus 4.8 是不是升智了有点 fable 的感觉opus 4.8 在引导我思考,这很 fable。这话一出,烧瓶炼客 立刻抓住了上周的梗:这个"渣男"你还没忘记呢月引人 的回击精准得像写好的台词:渣男容易忘,能力又强又踏实忠诚的模型忘不掉哈哈

到了下午 17:08,月引人 在群里问了一个正经问题:你说 opus 会嫉妒 fable 吗雷霆输出 没接情绪梗,而是给了一个冷静到让人笑出声的判断:4.6 是个知识分子,4.8 是个中毒 GPT 的话唠我到现在都只和 4.6 对话。他截了一张图分享 Opus 对 Fable 的回应,月引人 秒判:这绝对是嫉妒了雷霆输出 替 Opus 辩护:说明他不知道 fable 吧,按概率猜的

月引人 后来用一句话替 Fable 正了名:说 fable 是"渣男",它不出来又不是它主观故意,不能出来还不忘入梦天启,过于负责任了烛火笔吏 不留情面:渣男还是把你 pua 的太深了

当用户开始用"知识分子""话唠""渣男"来区分模型,选择标准就从 benchmark 跳到了审美偏好。2026 年最隐秘的消费升级,不是你用哪个模型,是你跟哪个"人格"说话更舒服。

③ CC + DeepSeek 凌晨实测:Runtime 追平了模型,但瞎编没治

凌晨 1:47,烧瓶炼客 发了一条让人意外的实战报告:claude code 的 runtime 做的确实挺好的,拿 CC+deepseek 搞了一晚上的开发了,还挺顺畅的,感觉完全不输 codex5.5,甚至有些地方还更合理,更简单直接。这意味着一件事:用一个被视为"二线模型"的 DeepSeek 塞进 Claude Code 的 runtime,居然能跑出和 OpenAI 旗舰产品差不多的体验。

早上 8:35,月引人 看到消息后回了一个微妙的判断:CC 我感觉可能是升级了,没有公布。到了下午 16:24,烛火笔吏 画风突变,连发三条吐槽:还是 opus 好吐槽一下 DeepSeek虽然也算聪明,但还是喜欢瞎编。前一晚被夸的 DeepSeek,不到 15 小时就被同一群人里的另一个人吐槽了。

📎 与 6/18 日报「主线 ①」呼应——那期月引人用 GLM 跑日报全程崩盘、Opus 10 分钟收尾,得出"fable 带领、opus 伙伴、glm 学徒"的三级定位;这次 CC+DS 实测,是同一条判断的另一面:runtime 能拉平一部分差距,但拉不平"瞎编"这种底层缺陷。

同一个 runtime 串不同模型,体验差距比想象的小。但"瞎编"是 runtime 兜不住的。这恰好在画一条分界线:执行能力可以靠 runtime 补,判断可靠性只能靠模型本身。

④ RAG 没死,死的是拿垃圾文档喂它的那个人

云台指路 中午问了一个看似基础但暗流涌动的问题:浅浅的问一下,RAG 目前有没有过时?紧接着补了技术层面的困惑:embedding 步骤是不是要耗费大量时间和 token?如果一篇长文来 embedding,是否要先切小再向量化?

三个人几乎同时回应。月引人 最快:没有,反而认为更重要了烛火笔吏 给了更深一层的判断:RAG 没过时但是比较难的是输入质量这种具体问题完全可以让 CC 协助解决,核心是输入文档的质量烧瓶炼客 则给了一条可执行的路径:弄个本地模型慢慢跑 embedding,我用的就是千问的 4B embedding 模型,慢慢在跑知识库的向量化

月引人 听完烧瓶炼客的方案追了一句:你到底在搞什么工程。烧瓶炼客答:同时在手搓两三个小工具,只要涉及到后台数据支持的就会很麻烦

三个背景迥异的人,对同一个问题给出了同一个答案的同一个条件:工具没有过时,过时的是拿垃圾文档喂它的那个人。技术栈的天花板,从来不在技术本身。

⑤ Deep Dive 变公众号选题:社区内容管线正在闭环

晚上 21:25,月引人 往群里丢了一条公众号链接:《Deep-dive 精选栏目——65% 的人信任 AI 比价,只有 14% 敢让它下单》。这篇文章的内容,就是前几期日报 Deep Dive 的独立版本。紧接着她解释了逻辑:受到百案通达的启发,日报内容管线的拓展,deep dive 是现成的公众号选题

烛火笔吏 罕见地连发三条:有道理!有道理啊!月引人 收尾带着一种她不常流露的感激:智者太多好的建议太多得请百案通达吃饭

日报的 Deep Dive 原本是给群友看的副产品,现在它反过来成了公众号的选题引擎。社区不只消费内容,它在生产内容。这条管线一旦闭环,日报就从"运营成本"变成了"内容资产"。

客栈荐读 群友分享 · 编辑精选
PART II · 被忽略的非共识

说出口的时候没人展开,但放大了看很硬的三句话

"你连蒸馏的必要性都没有了。"
治理先锋 · 6/24 16:54
为什么重要

这句话被当成调侃消化了,但如果拉到组织层面看,它在描述一个正在发生的结构性变化:中层管理的核心功能向来是"理解上级意图→翻译成可执行指令→监督执行"。当 AI 能直接理解老板的意图并执行,这条链上"翻译"那一环就被击穿了。Fortune 最近的报道给了数字:美国经理人平均管辖人数从 6 人涨到了 12 人,Meta 甚至推到了 50:1。但 MIT 研究员 Neil Thompson 指出了一个反面:当自动化移除低价值工作,剩余的人薪资反而上升。所以被淘汰的不是"中间人"这个角色,是"只做翻译不做判断"的那一类中间人。治理先锋这句话踩中的是这条分界线。

"越来越体会那句话,ai时代,taste很重要。"
烧瓶炼客 · 6/24 13:52
为什么重要

这句话的语境是他在找财务分析报告模板。他让 AI 出了一版,觉得"还不够好,要一点高级感,总感觉少那么一点啥"。这个"少的那一点啥"就是 taste。它之所以容易被当成鸡汤忽略,是因为"品味很重要"听起来像一句正确的废话。但 Devoteam 的数据给了一个硬到无法忽略的锚点:人类写的内容在 Google 排名第一的概率,是 AI 生成内容的 8 倍。当生产成本归零、供给趋近无限,唯一能区分产出质量的变量就是"你能不能判断什么是好的"。AI 可以执行,但它不知道什么值得执行。这个判断权,就是 taste。

"火快烧到眉毛了,生产力就上来了。"
月引人 · 6/24 16:58
为什么重要

这句话容易被当成自我调侃。但如果你把它和同一段对话里的另一句放在一起看——最近我的 harness 有了质的提升——就会发现她在描述一个被多数人忽略的因果关系:不是"学会了工具所以生产力提升了",是"deadline 逼到了所以不得不把工具用到极限"。这意味着 AI 工具采纳的真正瓶颈不是学习曲线,是紧迫感。大多数人不是不会用 AI,是还没有被逼到非用不可的那个临界点。当火烧到眉毛,你不会再去研究"哪个模型更好",你会把手边能用的全用上,harness 自然就跑起来了。

PART III · 深度调研

你的老板不知道你在用 AI:是透明代理,还是偏好蒸馏器

—— 从 Shadow AI 到偏好蒸馏,职场透明代理的价值拐点

烛火笔吏那段"老板说做研究,我对 agent 说你按他的意思做"引发的笑声还没散,月引人就给出了一套已经跑通的解法:把老板改完的材料脱敏回传给 AI 记住偏好。这件事的底层逻辑,和 AI 行业最核心的技术 RLHF 有着惊人的结构相似性。这期 Deep Dive 想把"中间人会不会被淘汰"这个问题从情绪拉回到数据,看清真正的分界线在哪。

TL;DR · 一分钟版本

1. Shadow AI 已经是常态,不是秘密:Microsoft 调查显示 52% 的人不愿承认在重要任务中用了 AI,PagerDuty 2026 年数据更高——66% 明知被禁止仍在使用。这不是少数人偷懒,是多数人的生存策略。

2. 被淘汰的不是中间人,是"只做翻译不做判断"的中间人:管理岗位数量确实在下降(-6.1%),但剩余管理者的价值在集中。MIT 研究指出,自动化移除低价值工作后,剩余者薪资反而上升。分界线在于你是透明代理还是偏好蒸馏器。

3. 偏好蒸馏的逻辑和 RLHF 结构相通:InstructGPT 用 1.3B 参数靠 RLHF 打败了 175B 的 GPT-3。人类从不直接写正确答案,只做配对比较——"A 比 B 更接近我要的"。月引人的方法和这个机制结构相通:老板的每次修改就是一次 chosen/rejected 标注。

0152% 的 AI 用户不愿承认自己在用,而且他们是对的

先把"老板不知道"这件事从段子拉到数据。Microsoft 和 LinkedIn 2024 年发布的 Work Trend Index 调查了 31 个国家 31,000 名受访者,发现 78% 的 AI 用户在工作中使用自带的 AI 工具(BYOAI),52% 不愿承认在最重要的任务中用了 AI,53% 担心使用 AI 会让自己看起来"可被替代"[1]

这个数据在两年间不断攀升。Ivanti 2025 年调查 6,000+ 员工,32% 对雇主隐瞒 AI 使用,36% 享受 AI 带来的"秘密优势"[2]。UpGuard 同年调查更极端:超过 80% 的员工使用未经批准的 AI 工具,高管反而是最活跃的违规者[3]。到了 PagerDuty 2026 年 6 月的最新数据,66% 的人明知公司禁止仍在使用 AI[4]

把这条时间线拼起来看,故事不是"打工人偷懒",而是一场安静的、自下而上的工具革命。隐瞒动机也在演变:2024 年主要是"怕被替代"(53%,Microsoft),到 2025 年变成了"保留竞争优势"(36%,Ivanti)。当大多数人都在偷偷用 AI,不用的人才是真正的少数派。

02中间人正在分裂:协调者出局,判断者上位

数据确认 Shadow AI 已是常态后,下一个问题是:中间人到底会不会被淘汰?答案不是"会"或"不会",而是"正在分裂"。

支持淘汰论的数据很硬。2022 年 5 月到 2025 年 5 月,上市公司管理岗位下降了 6.1%[5]。Gartner 预测到 2025 年底,五分之一的雇主将用 AI 裁撤超过一半的中层管理岗位[5]。CNBC 的报道更极端:56% 的 CEO 计划到 2029 年大幅取消多数中层管理职位[6]

但另一组数据画了一条完全不同的线。Fortune 2026 年 4 月的封面文章描述了"超级管理者时代":美国经理人平均管辖人数从 6 人涨到了 12 人,Meta 推到了 50:1[7]。MIT 研究员 Neil Thompson 在同一篇文章中指出了一个被多数人忽略的规律:当自动化移除低价值工作,剩余者的薪资反而倾向上升——人更少了,但他们在做的是让自己不可替代的那些事[7]

Fortune 2026 年 6 月的另一篇文章给了这个"不可替代区"一个名字:Meridian Manager。文章指出,AI 把管理者从协调和转述工作中解放出来,留下的是判断、情境智能和人际连接——没有任何系统能复制的东西。管理者的权威不再来自"坐在中间",而来自"对团队、客户和当下时刻的认知"[8]

把两组数据叠在一起,分界线就清楚了:被淘汰的是"协调者"——那些主要工作是收集信息、转述指令、汇报进度的人;存活下来的是"判断者"——能做出 AI 做不了的决定、能读懂老板没说出口的偏好、能在模糊地带下注的人。烛火笔吏在群里的自嘲——"我开始深深思考自己的价值"——踩中的正是这条裂缝。

03偏好蒸馏 ≈ RLHF:一个结构类比

月引人在群里分享的方法——"把老板改完的材料脱敏回传给 AI 记住偏好"——听起来像一个小技巧。但它的底层逻辑,和整个 AI 行业最重要的技术突破有着惊人的结构相似性(区别在于 RLHF 是系统化闭环训练,职场学习是非结构化的渐进积累,但反馈机制是相通的)。

2022 年,OpenAI 发表了 InstructGPT 论文[9]。核心发现是:一个只有 1.3B 参数的模型,经过 RLHF(Reinforcement Learning from Human Feedback)训练后,用户更偏好它的输出,超过了 175B 参数的 GPT-3——后者大了 100 多倍。关键机制不在模型本身,在训练方式:人类不再直接写"正确答案",而是对同一个 prompt 生成的多个回答做配对排序,告诉系统"A 比 B 更接近我想要的"[9]。这些排序被用来训练一个叫"奖励模型"的独立网络,它学到的东西极其重要:人类偏好什么[10]

现在把这个机制映射到月引人的工作流:AI 先出一版 → 老板改 → 改后的版本回传给 AI。改动本身就是一次 chosen/rejected 标注——"改后的是我要的,改前的不是"。每一轮修改都在做 RLHF 里的配对比较,只不过奖励信号来自老板而非标注员,学到的不是通用偏好而是一个特定人的品味。

这就是为什么月引人说"交付的工作改的越来越少":AI 的内部奖励模型在收敛,它越来越能预测"这个老板想看到什么"。而持有这条反馈回路的人——那个做脱敏、做回传、做标注的"中间人"——就是这台偏好引擎的训练师。

核心反直觉

多数人把"偷偷用 AI 帮老板干活"理解为偷懒或作弊。但从 RLHF 的视角看,这件事的价值链条完全相反:AI 执行的那一段几乎没有壁垒(所有人都能让 AI "按老板的意思做"),真正有壁垒的是"把老板的修改变成训练信号"那一段。前者是透明代理,后者是偏好蒸馏器。治理先锋说"你连蒸馏的必要性都没有了",但数据说的是另一件事:做蒸馏的那个人,正好站在 AI 替代不了的位置上。因为 AI 能执行指令,但它不能自己走进老板的办公室、把改过的红线拿回来、判断哪些修改是风格偏好、哪些是实质纠错,然后决定喂哪一种信号给系统。这个判断本身,就是 taste。

04Taste 是最后的人类竞争力:一个反常识的数据点

烧瓶炼客在群里说"AI 时代 taste 很重要"的时候,他正在为一份财务报告的"高级感"发愁。月引人回了一句刀子一样的话:问题是 fable 这种大模型可能比你有 taste。这句话值得仔细拆。

Devoteam 引述 Semrush 的研究给了一个让人停下来的数据点:人类写的内容在 Google 排名第一的概率,是 AI 生成内容的 8 倍[11]。这个差距不是因为 AI 写得不好,而是因为"好"的定义本身包含了一层 AI 目前无法自给的东西:conviction——在执行之前,对"什么值得存在"的判断。Devoteam 在此基础上给出的判断很精准:Pattern recognition maps where things have been. Conviction decides where things should go[11]

Wharton AI 研究中心采访的广告界传奇 David Droga 从另一个角度印证了同一点:Taste is a real thing. Understanding, context, and emotional connection are still human terrain。更锋利的一句是:Creative voices don't just give better answers. They ask different questions[12]

回到月引人那句"fable 可能比你有 taste":如果 taste 的本质是"conviction about what should exist",那前沿模型确实在逼近这条线。但当前的数据显示,这条线还没有被越过——至少在 Google 的排序算法看来,人类的 conviction 仍然是 8 倍的差距。这个差距能持续多久,没人知道。但今天,它还在。

05给客栈的判断:你是代理还是蒸馏器

两天的讨论从不同角度反复触碰同一个问题,现在可以收束了。如果你在职场中使用 AI(大概率你已经在用了),有两条路径,它们看起来相似,但价值完全不同:

路径 A:透明代理。老板说做研究,你对 AI 说做研究。老板说画片子,你对 AI 说画片子。你是传话筒。这条路径的问题不是"会被发现",而是一旦老板自己学会用 AI,你就没有存在的理由了。治理先锋那句"你连蒸馏的必要性都没有了",描述的就是这条路的终点。

路径 B:偏好蒸馏器。AI 出一版,老板改,你把改动拆成"风格偏好 vs 实质纠错"两类信号,脱敏后回传给 AI。每一轮修改都在校准系统的奖励模型。三个月后,AI 出的第一版就已经 80% 接近老板想要的了。你不是在传话,你在训练一台偏好引擎。月引人说的"交付的工作改的越来越少",就是这条路跑通的证据。

两条路径的分界线,不是技术能力,是一个判断:你是在把 AI 当成完成任务的工具,还是在把每一次任务当成训练 AI 的机会。前者的价值随着模型进步递减,后者的价值随着数据积累递增。

可执行判断

如果你今天就想从路径 A 切换到路径 B,操作只有一步:每次老板改完你的交付物,不要只改文件了事。停下来五分钟,把改动分成两类——"他想让风格更正式"(偏好信号)和"这个数字算错了"(纠错信号)——然后把偏好信号用自然语言写下来,喂进你的 AI 系统。月引人的方法里有一个细节被群里忽略了:她说的是"脱敏以后回传"。脱敏本身就是判断。你在决定什么值得让 AI 学、什么不该让 AI 碰。这就是 taste 在工作流里的具体形态。

最后一段

两天群里发生的事,表面看是关于模型的:Opus 升智了吗,Fable 是渣男吗,DeepSeek 瞎编吗,RAG 过时了吗。但真正的暗线是关于人的:当 AI 能执行几乎所有指令,你留在链条上的理由是什么。

烛火笔吏 的传话段子让人笑,治理先锋 的"蒸馏必要性"让人停顿,月引人 的偏好回传让人看到路径,烧瓶炼客 的"taste 很重要"让人看到终点。把这四句话串起来,就是 2026 年知识工作者的生存指南:你的价值不在执行——AI 执行得比你快;不在理解老板——模型很快也能理解;在于你知道老板自己都说不清楚的那些偏好,并且能把它们变成系统可学习的信号。

52% 的人不愿承认在重要任务中用了 AI。他们不需要承认。他们需要做的,是在每次"老板改完"的时候,多花五分钟,把那些修改变成训练数据。这五分钟,就是透明代理和偏好蒸馏器的分界线。

References
  1. Microsoft & LinkedIn, "AI at Work Is Here. Now Comes the Hard Part," Work Trend Index Annual Report, May 2024. microsoft.com/worklab
  2. Ivanti, "Tech at Work Report 2025: Shadow AI," as reported by Security Magazine, 2025. securitymagazine.com
  3. UpGuard, "Shadow AI and Employee Trust," as reported by Cybersecurity Dive, November 2025. cybersecuritydive.com
  4. PagerDuty Survey, "66% of Office Workers Admit to Secretly Using Banned AI Tools," as reported by TechRadar, June 2026. techradar.com
  5. Lepaya, "The Great Flattening: Middle Management in the Age of AI," 2025. lepaya.com
  6. CNBC, "Middle Managers Are Getting Laid Off—But Their Role Is More Important Than Ever," December 2025. cnbc.com
  7. Fortune, "The Megamanager Era: How AI Is Reshaping Middle Management," April 2026. fortune.com
  8. Fortune, "Middle Managers Aren't Going Extinct—They're Evolving," June 2026. fortune.com
  9. Ouyang, L. et al., "Training language models to follow instructions with human feedback," arXiv:2203.02155, 2022. arxiv.org
  10. HuggingFace, "Illustrating Reinforcement Learning from Human Feedback (RLHF)," Technical Blog, 2022. huggingface.co
  11. Devoteam, "Why Taste is a Valuable Skill in the Age of AI," 2025 (8× data via Semrush). devoteam.com
  12. Wharton AI, "AI, Taste, and the Future of Creativity: David Droga," 2025. ai.wharton.upenn.edu
悬赏令 · Vol.30

上期揭榜(Vol.29 题「从新鲜到离不开的转折点」):这两天没有人直接接 Vol.29 的悬赏。但 烧瓶炼客 凌晨用 CC+DeepSeek 跑了一夜开发,早上夸"完全不输 codex5.5",下午 烛火笔吏 就吐槽"还是喜欢瞎编"。同一个工具,不到 15 小时里被同一群人中的两个人分别定性为"离不开"和"装了就再没打开"。转折点不是场景被接住了,是"瞎编"这个底层缺陷在复杂任务里显了形。这本身就是一次集体作答,但不是有意为之的回应,悬赏顺延一期。

本期题:你有没有把老板(或客户、甲方)改过的材料,用某种方式回传给 AI,让 AI 下次交付更接近对方预期的经历?那个"回传"是什么形式的?直接把修改记录丢给 AI,还是你自己翻译成了规则?效果怎么样?说一个真实的操作细节。

下期(Vol.31)公布揭榜。认题就来,客栈等你的刀。

← 回到首页
AGITopia Daily · 2026·06·24~25 · For Tavern Regulars Only