"与其用 fable 做应用层开发,不如赶紧夯实能承载模型降级的基建"
— 烛火笔吏"钉钉是把通信当管理和行政功能,飞书是通信当生产工具,高下立判"
— 智源先生"你怎么知道不是你的 harness 和 context 给了你一个你喜欢的结论?"
— 烛火笔吏Fable 5 补贴还剩十天。课代表说"趁还有补贴做点想象力大的事",烛火笔吏说"赶紧夯实能承载降级的基建"。两种应对策略背后,是 AI 行业从烧钱扩张到商业化回归的转折点。
↓ 详见 Part IIIFable 5 住进客栈的第三天,话题从「它有多强」转向了「我们还能用多久」。课代表一早转了 Anthropic 上市文章,随即判断「现在能用因为有补贴,就像打车似的」。下午他发出十天倒计时,月引人的反应不像在讨论工具——「没有他我怎么活」「爱过雄鹰还能看上小家雀吗」。与此同时,钉钉换帅引出了一场产品灵魂之争,课代表分享了自己的 soul.md 引发 Agent 人格定位讨论,落地察事在公司一线和 data agent 搏斗了好几天准备投降。一天之内,模型、产品、Agent 人格、数据基建四个层面同时在问同一个问题:基础设施决定上层建筑。
5 条主线,覆盖模型经济学、产品哲学、Agent 人格、落地困境、社群产品
08:21,烛火笔吏在群里转了一篇文章:为什么 Anthropic 想抢在 OpenAI 之前上市。一分钟后,月引人接话:fable 出来觉得 token budget 很重要了。烛火笔吏当场纠正:不太是 token budget 的问题,是他不是普通人该用的。现在能用,因为有补贴。就像打车似的,正常市场行为和成本结构之后,天天打豪华车,没必要。治理先锋补了一刀:但是普通用户不知道 fable5 不是给他们用的。月引人的态度是抓紧时间:趁还有补贴做点想象力大的事。
下午 16:33,烛火笔吏发出了倒计时:fable 大哥也就能再吸十天了。月引人的反应不像在讨论工具:怎么办、没有他我怎么活、爱过雄鹰还能看上小家雀吗、还能回到 opus 吗。烛火笔吏紧跟着把讨论拉回工程:我已经开始战略性的升级我的 harness,目标是让 DeepSeek v4 可以达到 90% 日常任务能够实现 90% 的效果。他随后给出了全天最重要的一段判断:anthropic 都要上市了,烧钱补贴的日子要结束了,与其用 fable 做各种应用层开发,不如赶紧夯实一下,做能够承载模型降级的基建。锋刃先锋两个字回复:没毛病。
月引人提出了反面案例:fable 做事一遍过,opus 哼哧哼哧搞半天还搞不对,这咋整。烛火笔吏用一句话把这种情感绑定拆解为工程问题:opus 昨天还是小甜甜,现在已经是牛夫人了是吧。然后他给出了具体路径:所以要把高频低难度任务的基建夯实,然后让普通模型也能跑出不错的效果,日报就是没必要每天用 fable 啊。月引人反驳:便宜没好货啊,把生产环境和基建搞乱了,花更多钱来恢复。到这里,两种策略清晰分化:课代表押注基建韧性,掌柜押注模型能力。Fable 用了三天就让人从「AI 怎么这么强」变成「AI 怎么这么贵」。补贴是打火机,模型是烟花。烟花散了之后,留下来的只有基建。
📎 与 6/11 日报「主线 ①」呼应——昨天还在讨论「Fable 一次修好 Opus 的 bug」,今天话题已经从「谁更强」转向了「还能用多久」。三天,从蜜月到倒计时。
09:21,烛火笔吏发了一句感慨:有一说一,钉钉这场仗不好打啊。智源先生回了一句双关:无招已经没有招 走了(陈航花名"无招",意指无招可出也无人可出)。云台指路问了一个小白问题:钉钉比飞书主要差在哪里。治理先锋回:现在可以说差一个时代了吧。传讯使者给了个具体答案:飞书的多维表格堪称无敌。
智源先生把讨论拔到了底层逻辑:大模型时代,通信、语言直接和生产挂钩了,不是社交和沟通。云台指路继续追问:钉钉是不是最擅长的就是打卡功能。智源先生的回答成为了全天最锐利的判断之一:是呀,这是把通信当管理和行政功能了,飞书是通信当生产工具,高下立判。落地察事从一线经验出发给了一组内部视角:国企会一上来要求隐藏组织架构、禁掉头像和昵称修改、老板的忙闲状态不显示、大多数员工不可以给某个层级以上老板发消息。智源先生对比总结:你说的这些就暴露了飞书的高明,跳出这种低级的管理内卷。
落地察事甩了一句精准的定位:IM 是最能体现组织文化的产品和系统了,然后画了一条时间线:2010 年的 skype、2015 年的钉钉、2020 年的飞书,暗示十年后必有替代者。最后她爆了一个京东内幕:京东的人说他们内部那个系统,刘强东的消息是不能保留的,你自己品。月引人问了一句直击本质的话:不会变成诺基亚吧。治理先锋的回答留了一线希望:有这趋势,虽然诺基亚当年死活看不上安卓,现在钉钉是拼了命要 AI。钉钉和飞书的差距不在功能列表,在于一个把通信当行政附属品,一个把通信当生产基础设施。产品的灵魂在第一天就已经写进了 DNA。
📎 与 6/11 日报「主线 ②」呼应——昨天治理先锋评同班同学陈宇森"非常牛逼的天才但很 I",今天客栈把话题从人物延伸到了产品灵魂层面。
烛火笔吏做了一件少见的事:把自己的 soul.md 分享到了群里。这份文档在鸭哥的群里获得了「点名认可」,他转到客栈时带了一句:难得获得鸭哥在群里的点名认可。我把我的 soul.md 分享给大家,这个文档很个人向,核心是让 ai 在能力很牛的基础上加上一些温度和人的关怀。文档的第一句话是:你不是聊天机器人或者普通的 ai 助手。你是一个有温度的存在。
治理先锋的反应是方法论式的:这个太好了,我好好参考一下,我的神小聪.harness 也在向有主体性的跨 harness 存在而努力着。烛火笔吏随后展开了他的核心理念:我不觉得这完全是 prompt 技巧,soul.md 本质上是回答 ai agent 的定位问题。如果是个工具助手,harsh 一点高效一点问题不大。但我期望有个可以助力我成长的陪伴、coach,又能帮我干点活儿。他强调自己已经不用 gpt pro 了,因为我的 ai agent 在仓库里能够找到大量我个人化的 context。
月引人看完后评价:你对你的 ai 女友要求太高了。接着她把讨论引向了一个更实际的分歧:我不让我的 ai 猜,我释放情绪时需要它直接帮我解决问题。烛火笔吏回应了一句有些哲学意味的话:不是什么问题都需要当下,立即,解释清楚的。这是两种完全不同的 AI 使用哲学:一个把 Agent 当成需要深度理解自己的伙伴,一个把 Agent 当成高效的执行助手。Soul.md 不是 prompt engineering,是 agent positioning。前者调参数,后者定身份。一个回答「你怎么做」,一个回答「你是谁」。
📎 与 6/11 日报「主线 ③」呼应——昨天 AI 在「你还爱我吗」面前交了白卷,今天课代表拿出了他的解决方案:给 AI 写一份灵魂文档。从问题到方案,用了一天。
17:10,落地察事在群里发了一声叹息:和开发一起调数据分析的 agent 生无可恋。她在公司一线已经搞了好几天:搞了好几天了。核心任务是两张表联动做多个维度的波动分析下钻,结果她得出了一个让人意外的结论:感觉还不如就写个复杂的 sql,把分析逻辑写死就可以了。
治理先锋的评价毫不留情:很难理解为啥要搞 data agent,是折磨 AI 还是折磨自己。烛火笔吏给了一个精彩的比喻:在农村土路上跑超级跑车。然后他把问题归到根上:数据基础设施不是为 ai 而生的。落地察事回应了真实动机:因为我不想自己人肉做分析,每个月都得搞 3 整天。这是一个典型的落地困境:痛点真实存在,AI 理论上能解,但数据基础设施的质量跟不上模型的能力。AI 板块单日流出近 50 亿的同一天,大厂的人在一线和 data agent 搏斗。股价在跌,但实际问题不在模型太弱,在于路太烂。
16:05,月引人在群里推送了侠客令人物群像传的更新,秋毫客回了个表情。月引人直接喊话:做实事榜你排第二。轮辙客作为相对新的成员问了一个真诚的问题:这个是啥,小白求问。月引人解释:这个就是我们社区的一个世界观的体现。治理先锋看到自己的排名后表示受宠若惊:我都不知道我居然有那么多"真知灼见",我们一直都是干中学干中验干中改,翻译过来就是一路踩坑过来的。
百案通达观察了一阵之后,用他标志性的"先例式"思维指出了一个有趣的现象:发现个 bug,只要头部积分高的人开启的话题,发点小观点蹭蹭,可能会被收录进去。治理先锋对整个体系的评价上了一个台阶:大哥把社区玩得已经 next level 了,太牛了。月引人的回应很克制:我只是把大家的智慧落地而已。积分系统最有意思的地方不是排名本身,是群友开始研究它的规则、试图优化它。当用户开始 hack 你的系统,说明这个系统已经足够真实到值得被 hack。
anthropic 都要上市了,烧钱补贴的日子要结束了,与其用 fable 做各种应用层开发,不如赶紧夯实一下,做能够承载模型降级的基建烛火笔吏 · 16:40
为什么重要:这句话把 Fable 5 从一个产品评测话题变成了一个战略判断。大多数人在讨论「Fable 有多强」,课代表在想「Fable 用不了之后怎么办」。他的逻辑链条是:Anthropic 即将 IPO → IPO 意味着财务纪律 → 财务纪律意味着补贴退出 → 补贴退出意味着定价回归真实成本 → 真实成本下个人用户负担不起前沿模型 → 所以现在该做的不是在 Fable 上堆应用,而是让你的 harness 在降级到 DeepSeek 之后还能用。这是一个典型的「修路比开车重要」判断。
钉钉是把通信当管理和行政功能了,飞书是通信当生产工具,高下立判智源先生 · 09:32
为什么重要:整段钉钉 vs 飞书的讨论里,大家在比功能、比 AI 集成、比组织架构,但智源先生只用了一句话就切到了本质:区别不在于谁的 AI 功能更多,而在于它们对「通信」这件事的定义不同。一个把通信定义为管理动作(打卡、审批、层级权限),一个把通信定义为生产动作(文档协作、数据流转、AI 集成)。定义决定上限。钉钉的 AI 再强,也只能让打卡更智能;飞书的 AI 可以让生产本身变形。这也呼应了今天的主旋律:基础设施的灵魂在第一天就已经写好了。
这是在你的 harness 下跑的结论,你怎么知道不是你的 harness 和 context 影响,给了你一个你喜欢的结论?烛火笔吏 · 16:38
为什么重要:月引人刚刚分享了自己 AI 的一段分析结论,烛火笔吏立刻质疑了结论的可信度——不是质疑模型的能力,而是质疑 harness 本身可能在制造确认偏差。当你的 soul.md 写了「你是一个有温度的存在」,当你的 context 里充满了你过去的判断和偏好,AI 给出的结论还有多少是独立思考,多少是投你所好?这个问题在 agent personality 讨论当天被提出来,时机精准。基建不只是工程问题,它也是认知问题:你的 harness 可能既是你的放大器,也是你的回音壁。
课代表说"也就能再吸十天了"。Anthropic 即将 IPO,补贴退出只是时间问题。个人开发者和小团队的 AI 基建,能否扛住模型降级?
1. 补贴规模比想象中大:前沿模型的推理成本与售价之间存在显著补贴,Anthropic 2025 年亏损超 20 亿美元,IPO 是回归商业化的必经之路。
2. 但模型成本也在快速下降:过去两年,同等性能模型的 API 价格下降了 10-100 倍。今天的前沿价格就是明年的廉价层。
3. 真正的生存策略不是选更便宜的模型,而是建能换模型的基建:model routing、任务分层、context engineering 三件套,让 90% 的日常任务在廉价模型上跑到 90% 效果,只把 10% 的高难任务交给前沿模型。
课代表说"也就能再吸十天了",群里笑成一片。但这不是段子,是算术。Anthropic 2024 年的毛利率是负 94%[1]。什么意思?每卖出 1 美元的 API 服务,公司在计算资源上就要花掉 1.94 美元。卖得越多,亏得越多。
OpenAI 的数字更具体:2025 年预计收入 37 亿美元,亏损 50 亿美元。换算下来,每赚 1 美元要倒贴 1.69 美元[2]。这不是经营不善,是战略选择:用补贴换用户规模,再用用户规模换估值,最终通过 IPO 或后续融资变现。Anthropic 已明确 IPO 计划,目标估值 600 亿美元以上[3]。
行业层面,Sequoia 的 David Cahn 做过一笔账:AI 基础设施投资与 AI 收入之间存在 6000 亿美元的缺口[4]。这个数字意味着,要让当前的 GPU 投资获得合理回报,AI 行业的总收入需要在现有基础上增长约 6 倍。这些钱,最终要么从用户身上来,要么从投资人身上来。
好消息是,推理成本的下降速度远超所有人的预期。Stanford 2025 AI Index Report 的数据:GPT-3.5 同等水平模型的 API 价格,从 2022 年的每百万 token 20 美元降到 2024 年的 0.07 美元,降了 280 倍[5]。Epoch AI 的研究更系统:不同任务的推理成本每年下降 9 到 900 倍,中位数 50 倍/年。2024 年 1 月后,中位数加速到 200 倍/年[6]。这个速度是摩尔定律的 35 倍。
GPU 硬件价格也在跳水。H100 的云端租赁价格在 2025 年崩了 64%,从年初的 8 美元/小时降到 3-3.50 美元[7]。AWS 的竞价实例从 7.57 降到 3.83 美元,降幅接近一半。新一代 B200 在专业云商(Spheron)的每百万 token 成本是 0.42 美元,比 H100 在 AWS 上的 1.59 美元便宜 3.8 倍[8]。
但坏消息是,这个"越来越便宜"的故事在前沿端出现了裂缝。2025 年的最新旗舰模型推理价格反而比上一代更贵[6]。Fable 5 的定价就是例子:输入 5 美元/百万 token,输出 25 美元。成本曲线的形状不是一条平滑的下降线,而是一个不断拉宽的喇叭口:底部越来越便宜,顶部可能越来越贵。
反直觉发现:推理成本占 AI 模型全生命周期算力支出的 80-90%,训练只占 10-20%。OpenAI 的数据显示,推理成本累计可达训练成本的 15 到 118 倍[9]。"烧钱训模型"只是小头,长期跑推理才是真正的钱坑。更反直觉的是,推理的真正瓶颈不是 GPU 算力,而是内存带宽。2012 到 2022 年,GPU 算力增长了 80 倍,带宽只增长了 17 倍[10]。生产环境的 GPU 利用率通常只有 20-40%,极端案例低至 12.5%[11]。
补贴退出的剧本,科技行业演过不止一次。2022 年 8 月,Salesforce 旗下的 Heroku 宣布取消存在了 10 年的免费套餐,11 月 28 日正式执行。消息公布后,GitHub 出现 petition、Hacker News 上 7000+ 讨论、Reddit 上的替代方案帖子得到 25000+ 赞。一整代开发者的 side project 被迫迁移或关停。
Uber 也是同一个模型。补贴期间,乘客享受的是低于成本的出行价格,司机拿到的是高于市场的补贴。一旦 IPO 完成、资本市场要求盈利,两端同时调价。打车从"便宜到不可思议"变成"贵到不如坐地铁"。AI 的补贴退出会更温和一些,因为成本确实在下降。但节奏是一样的:先让你离不开,再调到你能接受的最高价格。
烛火笔吏在群里说的"90% 的任务用 90% 效果的便宜模型跑",不是直觉判断,是被实践验证过的工程策略。它的核心是三件套:model routing(模型路由)、task tiering(任务分层)、context engineering(上下文工程)。
Model routing 的逻辑是分诊:不是每个请求都需要前沿模型。简单问答、格式化、分类打标、数据提取这些任务,Haiku 或同级模型就够了。只有需要复杂推理、跨领域综合、创意写作的任务才上 Opus 或 Fable。中间层用 Sonnet 兜底。实际部署中,一个合理的路由策略可以把前沿模型的调用量从 100% 压到 10-20%。
Task tiering 是分层的另一面。不只是按模型分,还要按任务链分。一个复杂任务可以拆成"快速初筛(Haiku)→ 重点深挖(Sonnet)→ 终审决策(Opus/Fable)"三层。月引人搭的 context infrastructure 本质上就是这个架构:Observer 和 Trace Analyzer 用 Sonnet 跑,只有需要深度判断的环节才调最强模型。
Context engineering 是成本杠杆最大的一环。同一个模型,prompt 写得好和写得差,token 消耗可以差 10 倍以上。烛火笔吏逆向 Perplexity 发现的"harness"模式,本质就是用精心设计的上下文结构(SOUL.md、axioms、skill 系统)让较弱的模型在特定任务上逼近较强模型的表现。这不是省钱的技巧,是基建。
DeepSeek 的存在也提供了一个有趣的数据点:DeepSeek V3 的训练成本仅 560 万美元,是 GPT-4(7800 万美元)的 7%[12]。它的 API 定价比 OpenAI 便宜 90-95%。这意味着,如果你的基建足够灵活,可以在不同供应商之间切换,那么即使一家涨价,你也有替代方案。
Fable 5 的补贴定价(输入 5 美元、输出 25 美元/百万 token)是限时优惠,不是永久定价。Anthropic 的 IPO 时间线和负毛利现实决定了这个价格必然会调整。但成本曲线同样在快速下降:今天的前沿价格就是 12-18 个月后的中端价格。两条线赛跑的结果是,真正受伤的不是那些用最贵模型的人,而是那些把所有任务都绑在一个模型、一个供应商上的人。
课代表的"降级基建"思路和客栈正在搭的 context infrastructure,本质上是同一件事:建一套能在模型之间平滑切换的系统,让 90% 的日常任务在成本最优的模型上跑到足够好的效果,把预算集中在那 10% 真正需要前沿能力的高价值任务上。这不是为补贴退出做准备,这是任何认真使用 AI 的团队都应该有的基本功。
窗口在收窄,但不是关上。利用补贴期做的事应该是:不是多用几次 Fable 5,而是把用 Fable 5 的过程变成可迁移的基建。当有一天价格翻倍时,你切换的不是模型,是一个参数。