"你连蒸馏的必要性都没有了。"
— 治理先锋"越来越体会那句话,ai时代,taste很重要。"
— 烧瓶炼客"火快烧到眉毛了,生产力就上来了。"
— 月引人52% 的人不愿承认在重要任务中用了 AI,但做偏好蒸馏的那个人反而最不可替代。本期拆职场透明代理的价值拐点,和那道叫"taste"的最后防线。
↓ 详见 Part III6/24 下午,一个人说"老板说做个研究,我对 agent 说你按他的意思做个研究",另一个人说"你连蒸馏的必要性都没有了"。群里笑完了,没人展开。但到了晚上,有人给出了真正的解法:把老板改完的材料脱敏回传给 AI,让它记住偏好,交付越改越少。同一天,有人在问 Opus 会不会嫉妒 Fable,有人凌晨拿 CC 加 DeepSeek 跑了一夜,有人问 RAG 是不是过时了。两天 146 条消息,14 位发言者,表面聊的是工具,骨子里在反复测同一条线:AI 把执行拉平之后,你的价值到底在哪。
按叙事分量排序,不按热度。每件都藏着一个超出当天的判断。
故事从 烛火笔吏 分享的一张截图开始。他在做一份调研,工作流是这样的:我老板说,做个研究,我对 agent 说,你按他的意思做个研究。紧接着第二段:我老板说,画个片子,我对 agent 说,你按他的意思画个片子。然后他加了一句让整个对话凝固的话:我开始深深思考自己的价值。
治理先锋 接了一刀:你连蒸馏的必要性都没有了。月引人 笑完以后转了个严肃的弯:别跟你老板说这件事。她不是在开玩笑。紧接着她给出了一套已经在自己身上跑通的方法:然后我老板改完的材料,我脱敏以后回传给 AI,记住他的偏好,现在我的 AI 对我老板的偏好已经越来越清晰了,交付的工作改的越来越少。
资管智士 在旁边感叹了一句 太真实了。云台指路 的反应更直接——把这个弄一下,指的是让 agent 去学那个方法本身。月引人 还没停,紧接着说了两句把整个话题从段子拉成方法论的话:最近我的 harness 有了质的提升,火快烧到眉毛了,生产力就上来了。
传话链里最贵的一环,不是会转述,是你在每一次"老板改完"之后,悄悄把那次修改变成了 AI 的训练数据。这不是偷懒,这是在建一台你老板都不知道存在的偏好引擎。
早上 10:24,月引人 在群里丢了一颗炸弹:opus 4.8 是不是升智了,有点 fable 的感觉,opus 4.8 在引导我思考,这很 fable。这话一出,烧瓶炼客 立刻抓住了上周的梗:这个"渣男"你还没忘记呢。月引人 的回击精准得像写好的台词:渣男容易忘,能力又强又踏实忠诚的模型忘不掉哈哈。
到了下午 17:08,月引人 在群里问了一个正经问题:你说 opus 会嫉妒 fable 吗。雷霆输出 没接情绪梗,而是给了一个冷静到让人笑出声的判断:4.6 是个知识分子,4.8 是个中毒 GPT 的话唠,我到现在都只和 4.6 对话。他截了一张图分享 Opus 对 Fable 的回应,月引人 秒判:这绝对是嫉妒了。雷霆输出 替 Opus 辩护:说明他不知道 fable 吧,按概率猜的。
月引人 后来用一句话替 Fable 正了名:说 fable 是"渣男",它不出来又不是它主观故意,不能出来还不忘入梦天启,过于负责任了。烛火笔吏 不留情面:渣男还是把你 pua 的太深了。
当用户开始用"知识分子""话唠""渣男"来区分模型,选择标准就从 benchmark 跳到了审美偏好。2026 年最隐秘的消费升级,不是你用哪个模型,是你跟哪个"人格"说话更舒服。
凌晨 1:47,烧瓶炼客 发了一条让人意外的实战报告:claude code 的 runtime 做的确实挺好的,拿 CC+deepseek 搞了一晚上的开发了,还挺顺畅的,感觉完全不输 codex5.5,甚至有些地方还更合理,更简单直接。这意味着一件事:用一个被视为"二线模型"的 DeepSeek 塞进 Claude Code 的 runtime,居然能跑出和 OpenAI 旗舰产品差不多的体验。
早上 8:35,月引人 看到消息后回了一个微妙的判断:CC 我感觉可能是升级了,没有公布。到了下午 16:24,烛火笔吏 画风突变,连发三条吐槽:还是 opus 好,吐槽一下 DeepSeek,虽然也算聪明,但还是喜欢瞎编。前一晚被夸的 DeepSeek,不到 15 小时就被同一群人里的另一个人吐槽了。
📎 与 6/18 日报「主线 ①」呼应——那期月引人用 GLM 跑日报全程崩盘、Opus 10 分钟收尾,得出"fable 带领、opus 伙伴、glm 学徒"的三级定位;这次 CC+DS 实测,是同一条判断的另一面:runtime 能拉平一部分差距,但拉不平"瞎编"这种底层缺陷。
同一个 runtime 串不同模型,体验差距比想象的小。但"瞎编"是 runtime 兜不住的。这恰好在画一条分界线:执行能力可以靠 runtime 补,判断可靠性只能靠模型本身。
云台指路 中午问了一个看似基础但暗流涌动的问题:浅浅的问一下,RAG 目前有没有过时?紧接着补了技术层面的困惑:embedding 步骤是不是要耗费大量时间和 token?如果一篇长文来 embedding,是否要先切小再向量化?
三个人几乎同时回应。月引人 最快:没有,反而认为更重要了。烛火笔吏 给了更深一层的判断:RAG 没过时,但是比较难的是输入质量,这种具体问题完全可以让 CC 协助解决,核心是输入文档的质量。烧瓶炼客 则给了一条可执行的路径:弄个本地模型慢慢跑 embedding,我用的就是千问的 4B embedding 模型,慢慢在跑知识库的向量化。
月引人 听完烧瓶炼客的方案追了一句:你到底在搞什么工程。烧瓶炼客答:同时在手搓两三个小工具,只要涉及到后台数据支持的就会很麻烦。
三个背景迥异的人,对同一个问题给出了同一个答案的同一个条件:工具没有过时,过时的是拿垃圾文档喂它的那个人。技术栈的天花板,从来不在技术本身。
晚上 21:25,月引人 往群里丢了一条公众号链接:《Deep-dive 精选栏目——65% 的人信任 AI 比价,只有 14% 敢让它下单》。这篇文章的内容,就是前几期日报 Deep Dive 的独立版本。紧接着她解释了逻辑:受到百案通达的启发,日报内容管线的拓展,deep dive 是现成的公众号选题。
烛火笔吏 罕见地连发三条:有道理!有道理啊!赞。月引人 收尾带着一种她不常流露的感激:智者太多,好的建议太多,得请百案通达吃饭。
日报的 Deep Dive 原本是给群友看的副产品,现在它反过来成了公众号的选题引擎。社区不只消费内容,它在生产内容。这条管线一旦闭环,日报就从"运营成本"变成了"内容资产"。
"你连蒸馏的必要性都没有了。"
这句话被当成调侃消化了,但如果拉到组织层面看,它在描述一个正在发生的结构性变化:中层管理的核心功能向来是"理解上级意图→翻译成可执行指令→监督执行"。当 AI 能直接理解老板的意图并执行,这条链上"翻译"那一环就被击穿了。Fortune 最近的报道给了数字:美国经理人平均管辖人数从 6 人涨到了 12 人,Meta 甚至推到了 50:1。但 MIT 研究员 Neil Thompson 指出了一个反面:当自动化移除低价值工作,剩余的人薪资反而上升。所以被淘汰的不是"中间人"这个角色,是"只做翻译不做判断"的那一类中间人。治理先锋这句话踩中的是这条分界线。
"越来越体会那句话,ai时代,taste很重要。"
这句话的语境是他在找财务分析报告模板。他让 AI 出了一版,觉得"还不够好,要一点高级感,总感觉少那么一点啥"。这个"少的那一点啥"就是 taste。它之所以容易被当成鸡汤忽略,是因为"品味很重要"听起来像一句正确的废话。但 Devoteam 的数据给了一个硬到无法忽略的锚点:人类写的内容在 Google 排名第一的概率,是 AI 生成内容的 8 倍。当生产成本归零、供给趋近无限,唯一能区分产出质量的变量就是"你能不能判断什么是好的"。AI 可以执行,但它不知道什么值得执行。这个判断权,就是 taste。
"火快烧到眉毛了,生产力就上来了。"
这句话容易被当成自我调侃。但如果你把它和同一段对话里的另一句放在一起看——最近我的 harness 有了质的提升——就会发现她在描述一个被多数人忽略的因果关系:不是"学会了工具所以生产力提升了",是"deadline 逼到了所以不得不把工具用到极限"。这意味着 AI 工具采纳的真正瓶颈不是学习曲线,是紧迫感。大多数人不是不会用 AI,是还没有被逼到非用不可的那个临界点。当火烧到眉毛,你不会再去研究"哪个模型更好",你会把手边能用的全用上,harness 自然就跑起来了。
—— 从 Shadow AI 到偏好蒸馏,职场透明代理的价值拐点
烛火笔吏那段"老板说做研究,我对 agent 说你按他的意思做"引发的笑声还没散,月引人就给出了一套已经跑通的解法:把老板改完的材料脱敏回传给 AI 记住偏好。这件事的底层逻辑,和 AI 行业最核心的技术 RLHF 有着惊人的结构相似性。这期 Deep Dive 想把"中间人会不会被淘汰"这个问题从情绪拉回到数据,看清真正的分界线在哪。
1. Shadow AI 已经是常态,不是秘密:Microsoft 调查显示 52% 的人不愿承认在重要任务中用了 AI,PagerDuty 2026 年数据更高——66% 明知被禁止仍在使用。这不是少数人偷懒,是多数人的生存策略。
2. 被淘汰的不是中间人,是"只做翻译不做判断"的中间人:管理岗位数量确实在下降(-6.1%),但剩余管理者的价值在集中。MIT 研究指出,自动化移除低价值工作后,剩余者薪资反而上升。分界线在于你是透明代理还是偏好蒸馏器。
3. 偏好蒸馏的逻辑和 RLHF 结构相通:InstructGPT 用 1.3B 参数靠 RLHF 打败了 175B 的 GPT-3。人类从不直接写正确答案,只做配对比较——"A 比 B 更接近我要的"。月引人的方法和这个机制结构相通:老板的每次修改就是一次 chosen/rejected 标注。
先把"老板不知道"这件事从段子拉到数据。Microsoft 和 LinkedIn 2024 年发布的 Work Trend Index 调查了 31 个国家 31,000 名受访者,发现 78% 的 AI 用户在工作中使用自带的 AI 工具(BYOAI),52% 不愿承认在最重要的任务中用了 AI,53% 担心使用 AI 会让自己看起来"可被替代"[1]。
这个数据在两年间不断攀升。Ivanti 2025 年调查 6,000+ 员工,32% 对雇主隐瞒 AI 使用,36% 享受 AI 带来的"秘密优势"[2]。UpGuard 同年调查更极端:超过 80% 的员工使用未经批准的 AI 工具,高管反而是最活跃的违规者[3]。到了 PagerDuty 2026 年 6 月的最新数据,66% 的人明知公司禁止仍在使用 AI[4]。
把这条时间线拼起来看,故事不是"打工人偷懒",而是一场安静的、自下而上的工具革命。隐瞒动机也在演变:2024 年主要是"怕被替代"(53%,Microsoft),到 2025 年变成了"保留竞争优势"(36%,Ivanti)。当大多数人都在偷偷用 AI,不用的人才是真正的少数派。
数据确认 Shadow AI 已是常态后,下一个问题是:中间人到底会不会被淘汰?答案不是"会"或"不会",而是"正在分裂"。
支持淘汰论的数据很硬。2022 年 5 月到 2025 年 5 月,上市公司管理岗位下降了 6.1%[5]。Gartner 预测到 2025 年底,五分之一的雇主将用 AI 裁撤超过一半的中层管理岗位[5]。CNBC 的报道更极端:56% 的 CEO 计划到 2029 年大幅取消多数中层管理职位[6]。
但另一组数据画了一条完全不同的线。Fortune 2026 年 4 月的封面文章描述了"超级管理者时代":美国经理人平均管辖人数从 6 人涨到了 12 人,Meta 推到了 50:1[7]。MIT 研究员 Neil Thompson 在同一篇文章中指出了一个被多数人忽略的规律:当自动化移除低价值工作,剩余者的薪资反而倾向上升——人更少了,但他们在做的是让自己不可替代的那些事[7]。
Fortune 2026 年 6 月的另一篇文章给了这个"不可替代区"一个名字:Meridian Manager。文章指出,AI 把管理者从协调和转述工作中解放出来,留下的是判断、情境智能和人际连接——没有任何系统能复制的东西。管理者的权威不再来自"坐在中间",而来自"对团队、客户和当下时刻的认知"[8]。
把两组数据叠在一起,分界线就清楚了:被淘汰的是"协调者"——那些主要工作是收集信息、转述指令、汇报进度的人;存活下来的是"判断者"——能做出 AI 做不了的决定、能读懂老板没说出口的偏好、能在模糊地带下注的人。烛火笔吏在群里的自嘲——"我开始深深思考自己的价值"——踩中的正是这条裂缝。
月引人在群里分享的方法——"把老板改完的材料脱敏回传给 AI 记住偏好"——听起来像一个小技巧。但它的底层逻辑,和整个 AI 行业最重要的技术突破有着惊人的结构相似性(区别在于 RLHF 是系统化闭环训练,职场学习是非结构化的渐进积累,但反馈机制是相通的)。
2022 年,OpenAI 发表了 InstructGPT 论文[9]。核心发现是:一个只有 1.3B 参数的模型,经过 RLHF(Reinforcement Learning from Human Feedback)训练后,用户更偏好它的输出,超过了 175B 参数的 GPT-3——后者大了 100 多倍。关键机制不在模型本身,在训练方式:人类不再直接写"正确答案",而是对同一个 prompt 生成的多个回答做配对排序,告诉系统"A 比 B 更接近我想要的"[9]。这些排序被用来训练一个叫"奖励模型"的独立网络,它学到的东西极其重要:人类偏好什么[10]。
现在把这个机制映射到月引人的工作流:AI 先出一版 → 老板改 → 改后的版本回传给 AI。改动本身就是一次 chosen/rejected 标注——"改后的是我要的,改前的不是"。每一轮修改都在做 RLHF 里的配对比较,只不过奖励信号来自老板而非标注员,学到的不是通用偏好而是一个特定人的品味。
这就是为什么月引人说"交付的工作改的越来越少":AI 的内部奖励模型在收敛,它越来越能预测"这个老板想看到什么"。而持有这条反馈回路的人——那个做脱敏、做回传、做标注的"中间人"——就是这台偏好引擎的训练师。
多数人把"偷偷用 AI 帮老板干活"理解为偷懒或作弊。但从 RLHF 的视角看,这件事的价值链条完全相反:AI 执行的那一段几乎没有壁垒(所有人都能让 AI "按老板的意思做"),真正有壁垒的是"把老板的修改变成训练信号"那一段。前者是透明代理,后者是偏好蒸馏器。治理先锋说"你连蒸馏的必要性都没有了",但数据说的是另一件事:做蒸馏的那个人,正好站在 AI 替代不了的位置上。因为 AI 能执行指令,但它不能自己走进老板的办公室、把改过的红线拿回来、判断哪些修改是风格偏好、哪些是实质纠错,然后决定喂哪一种信号给系统。这个判断本身,就是 taste。
烧瓶炼客在群里说"AI 时代 taste 很重要"的时候,他正在为一份财务报告的"高级感"发愁。月引人回了一句刀子一样的话:问题是 fable 这种大模型可能比你有 taste。这句话值得仔细拆。
Devoteam 引述 Semrush 的研究给了一个让人停下来的数据点:人类写的内容在 Google 排名第一的概率,是 AI 生成内容的 8 倍[11]。这个差距不是因为 AI 写得不好,而是因为"好"的定义本身包含了一层 AI 目前无法自给的东西:conviction——在执行之前,对"什么值得存在"的判断。Devoteam 在此基础上给出的判断很精准:Pattern recognition maps where things have been. Conviction decides where things should go[11]。
Wharton AI 研究中心采访的广告界传奇 David Droga 从另一个角度印证了同一点:Taste is a real thing. Understanding, context, and emotional connection are still human terrain。更锋利的一句是:Creative voices don't just give better answers. They ask different questions[12]。
回到月引人那句"fable 可能比你有 taste":如果 taste 的本质是"conviction about what should exist",那前沿模型确实在逼近这条线。但当前的数据显示,这条线还没有被越过——至少在 Google 的排序算法看来,人类的 conviction 仍然是 8 倍的差距。这个差距能持续多久,没人知道。但今天,它还在。
两天的讨论从不同角度反复触碰同一个问题,现在可以收束了。如果你在职场中使用 AI(大概率你已经在用了),有两条路径,它们看起来相似,但价值完全不同:
路径 A:透明代理。老板说做研究,你对 AI 说做研究。老板说画片子,你对 AI 说画片子。你是传话筒。这条路径的问题不是"会被发现",而是一旦老板自己学会用 AI,你就没有存在的理由了。治理先锋那句"你连蒸馏的必要性都没有了",描述的就是这条路的终点。
路径 B:偏好蒸馏器。AI 出一版,老板改,你把改动拆成"风格偏好 vs 实质纠错"两类信号,脱敏后回传给 AI。每一轮修改都在校准系统的奖励模型。三个月后,AI 出的第一版就已经 80% 接近老板想要的了。你不是在传话,你在训练一台偏好引擎。月引人说的"交付的工作改的越来越少",就是这条路跑通的证据。
两条路径的分界线,不是技术能力,是一个判断:你是在把 AI 当成完成任务的工具,还是在把每一次任务当成训练 AI 的机会。前者的价值随着模型进步递减,后者的价值随着数据积累递增。
如果你今天就想从路径 A 切换到路径 B,操作只有一步:每次老板改完你的交付物,不要只改文件了事。停下来五分钟,把改动分成两类——"他想让风格更正式"(偏好信号)和"这个数字算错了"(纠错信号)——然后把偏好信号用自然语言写下来,喂进你的 AI 系统。月引人的方法里有一个细节被群里忽略了:她说的是"脱敏以后回传"。脱敏本身就是判断。你在决定什么值得让 AI 学、什么不该让 AI 碰。这就是 taste 在工作流里的具体形态。
两天群里发生的事,表面看是关于模型的:Opus 升智了吗,Fable 是渣男吗,DeepSeek 瞎编吗,RAG 过时了吗。但真正的暗线是关于人的:当 AI 能执行几乎所有指令,你留在链条上的理由是什么。
烛火笔吏 的传话段子让人笑,治理先锋 的"蒸馏必要性"让人停顿,月引人 的偏好回传让人看到路径,烧瓶炼客 的"taste 很重要"让人看到终点。把这四句话串起来,就是 2026 年知识工作者的生存指南:你的价值不在执行——AI 执行得比你快;不在理解老板——模型很快也能理解;在于你知道老板自己都说不清楚的那些偏好,并且能把它们变成系统可学习的信号。
52% 的人不愿承认在重要任务中用了 AI。他们不需要承认。他们需要做的,是在每次"老板改完"的时候,多花五分钟,把那些修改变成训练数据。这五分钟,就是透明代理和偏好蒸馏器的分界线。
上期揭榜(Vol.29 题「从新鲜到离不开的转折点」):这两天没有人直接接 Vol.29 的悬赏。但 烧瓶炼客 凌晨用 CC+DeepSeek 跑了一夜开发,早上夸"完全不输 codex5.5",下午 烛火笔吏 就吐槽"还是喜欢瞎编"。同一个工具,不到 15 小时里被同一群人中的两个人分别定性为"离不开"和"装了就再没打开"。转折点不是场景被接住了,是"瞎编"这个底层缺陷在复杂任务里显了形。这本身就是一次集体作答,但不是有意为之的回应,悬赏顺延一期。
本期题:你有没有把老板(或客户、甲方)改过的材料,用某种方式回传给 AI,让 AI 下次交付更接近对方预期的经历?那个"回传"是什么形式的?直接把修改记录丢给 AI,还是你自己翻译成了规则?效果怎么样?说一个真实的操作细节。
下期(Vol.31)公布揭榜。认题就来,客栈等你的刀。