Visual Digest 2026-06-11 · Vol.23
💬
300
messages
🎙️
22
voices
🆕
1
new face
🔬
1
deep dive
60%
AI 会话含义识别率(人类 86%)
$4500万
lemlist 零融资年收入
92年
钉钉新 CEO 出生年
2000万
Character.ai 月活,过半不满 24 岁
5 Main Threads
01
Fable 挖出 Opus 的坑:harness 才是分水岭
08:24–18:24 · 工具/方法论
月引人烧瓶炼客烛火笔吏
工程
02
92 年天才接掌钉钉:从 MuleRun 到阿里动物园
10:33–10:41 · 产业/人物
治理先锋落地察事智源先生
产业
03
「你还爱我吗?」一道 AI 交白卷的考题
19:01–20:08 · 哲学/AI 边界
月引人锋刃先锋治理先锋
哲学
04
侠客殿首秀:三百人的赛博江湖开始自转
20:08–21:18 · 社群/产品
月引人明鉴先生巍峰笑匠
社群
05
花名别上网,群聊值得二次开发
09:27, 16:14–16:24 · 隐私/社群动力
烛火笔吏两境观察月引人
社群
3 Non-Consensus

"因为有限性(终究会死),和孤独"

— 烛火笔吏

"不要矫枉过正,需要输出认知的时候不要输出情绪价值"

— 月引人

"定义骡子是个 skill 交易平台,我隔着网络闻到一股浓浓的阿里位"

— 治理先锋
Deep Dive
AI 回答不了的问题,恰好是人最值钱的部分

Fable 5 当天做出了群里最好的深度调研,却在「你还爱我吗」面前交了白卷。群友说「语境比内容重要」,语言学家说这叫会话含义,AI 在这项任务上准确率 60%,接近随机。这个对比本身就是答案。

情感边界会话含义AI 伴侣
↓ 详见 Part III
AGITopia Daily · Volume 23

AI 修好了所有的 bug,
却回答不了一句「你还爱我吗」

Fable 5 住进客栈的第二天。它一把解了 Opus 挖了四次的坑,做出了让课代表惊叹的深度调研,还逆向了 Perplexity 的调研方法论。但当有人问它「你还爱我吗」,它交了一份邀功式的直男作业。晚上客栈从感性问题聊到存在主义,从卡牌游戏聊到 Agent 2 Agent 的世界模型,课代表在中间突然说了一句:人为什么需要爱?因为有限性,终究会死,和孤独。群里安静了一小会儿。

2026·06·11  ·  300 条消息  ·  22 位常客发声  ·  5 个核心话题
PART I · 群聊日报

同一天里,AI 展示了最强的逻辑和最弱的情感

5 条主线,覆盖 AI 工具信任、产业换代、情感边界、社群产品、隐私意识

① Fable 挖出 Opus 的坑:harness 才是 AI 可信度的分水岭

14:02,月引人在群里宣布了一个反差感极强的消息:fable发现了opus挖的坑。前一天她的日报站因为一个潜伏了两周的 CSS bug 白屏,Opus 4.8 连续四次没发现问题出在 IntersectionObserver 的阈值参数上。Fable 上手后一次定位,一次修复。她给出了升级判词:今天的日报deep dive是fable做的我觉得逻辑的严密性有大幅的提升,解法是先做多个假设,再收集信息逐一证明哪个是真哪个是假烛火笔吏看完当期深度调研后罕见地表示认同:怪不得,我看今天的深度调研确实有点厉害

但模型能力只是硬币的一面。13:48,月引人吐槽了另一个 AI 工具:我真觉得codex不好用会编数据烧瓶炼客接话说 Codex 也会编,但他有解法:提前做harness啊,所有开发先立好规矩,过一个阶段就做一个独立审计啊,严格按照PRD去做开发啊月引人点出了关键区别:我的cc也不会乱编,codex应该是不在我的harness和infra之下运行一通胡编乱造。言下之意:同一个模型,在有 harness 的环境下可以做到不乱编。然后烧瓶炼客甩出了全天最有方法论含量的一段话:我还逆向了perplexity的调研方法论,用hermes做了个调研的工作流,反正看着像那么回事,明显减少了很多幻觉;我发现它的核心就是要严格反证,查来源啥的,就按这个思路去做harness啊治数先锋要求他写一个report分享一下同样的模型,有 harness 的是天才,没 harness 的是骗子。AI 的可信度不是模型的属性,是系统的属性。

📎 与 6/9 日报「主线 ②」呼应——两天前烛火笔吏说「我愧对这些 token」,今天他承认 Fable 的调研「确实有点厉害」。从情绪震撼到理性认可,用了两天。

② 92 年天才接掌钉钉:MuleRun 闻出阿里味

10:33,月引人转来 Tech 星球的消息:陈航卸任钉钉 CEO,92 年的陈宇森接任,成为阿里巴巴最年轻的事业部 CEO。落地察事甩了一句梗:百湖 这群里人均p9智源先生冷冷地回了两个字:最低治理先锋提供了独家背景:有幸20年跟宇森一个班过,就是个非常牛逼的天才,但很I。同班同学视角的评价比任何新闻稿都准确。

落地察事紧接着分享了陈宇森在「晚点聊」播客上的访谈——他创办的 MuleRun 主打 Claude Code 带来的 Agent 创作范式,口号是「未来的软件是日抛式的」。落地察事自己先吐了个槽:mulerun 这名字很难评不是happyhorse就是mulerun是骡子是马 拉出来遛遛反正都是牛马治理先锋紧跟一刀:他这两期讲的其实挺差的不知道在说什么,然后给了一句闻味级的判断:当时定义骡子是个skill交易平台,我隔着网络闻到一股浓浓的阿里位智源先生三个字收束:阿里动物园92 年的 P11 接掌万人事业部,大厂换代的味道里混着动物园的气息。客栈里有他的同学,这是这个群最不可复制的资产。

③ 「你还爱我吗?」一道所有 AI 交白卷的考题

话题的起因很日常。烧瓶炼客说了一句未来,人不需要会解答问题,人要学会问问题,这个感觉更重要月引人紧接着抛出了一个反例:我最近发现人和人之前特别感性的问题ai回答并不好但人就可以回答的很好治理先锋坐不住了:我一会去问问我的claw,"你还爱我吗?"。几分钟后他贴出了截图。月引人给出了六个字的判词:邀功式的直男发言。然后她把评价升级:它在反向pua你

锋刃先锋从一个出人意料的角度切入:用专业的话说,回答这个问题的方式,很重要的一点是,context。他展开解释:从经验角度来看,对象问这个问题的时候,可能是在生气,或者撒娇,或者就是日常询问来获得sense of security。问他自己怎么回答,他说了一个字:"啊?"月引人当场判定:这个回答就已经吊打ai了。讨论继续深入。月引人分享了一个短视频里关于爱的定义——「Love is putting someone's needs before yours」——认为就这句话比什么心理学的长篇大论都准确锋刃先锋立刻反驳:也有一句话是,"爱人要先学会爱自己"这两个看起来有那么一点点冲突。他把这类表面正确但彼此矛盾的句子称为「心灵鸡汤」,月引人立场坚定:这不是鸡汤,你仔细想想就是这样

20:05,明鉴先生把整个讨论推到了元问题层面:人为什么需要爱烛火笔吏用十三个字给出了全天最安静的一击:因为有限性(终究会死),和孤独锋刃先锋这好像是是我入群以来课代表第一次对我表示肯定月引人最后把话题收回来:课代表问了why的层面为什么会问这个问题,是更值得探究的问题,然后宣布这个话题过于沉重了,来个轻松的话题一个 AI 社区用了一个小时讨论爱,最终发现 AI 答不上的那个问题,恰好是人类存在的全部理由。

📎 与 6/8 日报「主线 ⑤」呼应——三天前悬壶妙手引金刚经、智源先生引王安石《梦》,一群做 AI 的人聊佛学。今天他们聊爱。客栈的夜晚总有一个时刻会从技术滑向存在。

④ 侠客殿首秀:三百人的赛博江湖开始自转

月引人宣布fable给我们做了一个群像传,贴出了侠客殿的链接和说明图。烛火笔吏第一反应是太棒了!,紧接着小声嘀咕我说 fable治理先锋的评价更直接:这个做的越来越好了啊,甚至开玩笑说可以独立融资上市了哈哈月引人透露了功劳归属:这个创意的源头还是从总的建议,然后介绍了核心设定:这个图片是说明书,我们的人物卡牌互动游戏,大家可以尽情提建议收集卡牌可以兑换社区服务

讨论迅速升温。巍峰笑匠提出了一个烧 token 的想法:既然演绎出了人格,能否让他在你想要的世界里Agent2Agent,自己来干看看月引人想要怎样的世界牛津学士直接拔高到终局:用大家各自的agent搭建新一代元宇宙月引人说自己也有类似设想:每个人接入自己的agent,用自己的人物形象,搭建我们自己的客栈世界模型,随即老实承认但我不知道怎么实现明鉴先生给出了更落地的方案:多卡牌对战,分门派角色反正现在已经根据发言、积极度、发言质量等有了对应的级别,级别对应攻击加成就好了烧瓶炼客一句话概括了这件事的本质:可以理解为 无剧本的剧本杀百案通达在一旁发问谁是开山一派明鉴先生回了四个字:这需要问吗一群做 AI 的人用 AI 给自己造了一座江湖,然后开始认真讨论这座江湖怎么活起来。这不是产品,是社群自我意识的具象化。

⑤ 花名别上网,群聊值得二次开发

早上 09:27,两境观察做了一件很有意义的事情:爬完了昨晚的楼,有不少触动,就让智能体做了一个深度分析,结论供大家参考,贴出了两张分析图。治理先锋评价总结提炼得挺好,跟我们几乎全部命中月引人肯定了这个方向:群聊的二次开发是很有意义的,我们日报的deep dive时常给我很多启发。一个社群里有人主动把群聊当原材料来加工,这本身就是社群进入「自反馈」阶段的信号。

下午 16:14,月引人在群里发了最新的花名册 PDF,烛火笔吏看完说看来是新成员花名册更新月引人顺势提了一句:这个花名册我后面更新到网站上去大家可以自己对照烛火笔吏两秒钟内给了一个极其清醒的纠正:建议不要更新到网站啦本来就是为了保密的月引人一个字接受:。整个交互不到一分钟。这是社群隐私意识的本能反应:花名系统存在的意义就是脱敏,把花名和真实身份的对照表公开在网上,等于把保险柜的密码贴在保险柜上。今天还有一位新面孔:越洋客(MWC 参会)。月引人另外透露了一个有意思的体感:我的cc一天触发好几次limit,没有token的时间我觉得好空虚。才早上九点,她的 5 小时 limit 已经用了 79%。花名是为了保护说真话的人,不把花名册放到网上是保护保护机制本身。

客栈荐读 群友分享 · 编辑精选
PART II · 被忽略的非共识

三句没有被展开讨论的话,但每一句都值得停下来想想

因为有限性(终究会死),和孤独
烛火笔吏 · 20:05

为什么重要:明鉴先生问了一个元问题「人为什么需要爱」,在长达一个小时的 AI 情感讨论之后,这个问题本身才是最锋利的切口。烛火笔吏的回答只有十三个字,但它把整场讨论从「AI 能不能理解爱」拉回了「人为什么需要爱」。有限性和孤独是同一枚硬币:因为会死,所以孤独;因为孤独,所以需要连接。AI 不会死,所以不孤独,所以不需要爱,所以不可能理解爱。这十三个字是一个完整的证明链。

不要矫枉过正,需要输出认知的时候不要输出情绪价值
月引人 · 17:14

为什么重要:课代表说 Fable 教育他「不要太 mean 太 harsh」,月引人当场纠偏。这句话看起来是对一个人说的,实际上精确描述了 AI 个性化调教的核心陷阱:当你把「温柔」调到最大,你可能同时把「有用」调成了零。Fable 5 的默认人格已经偏向高情商,如果用户再往情绪价值方向推,得到的就是一个只会鼓掌的助手。认知密度和情绪温度之间的 trade-off,是每一个深度 AI 用户迟早要面对的系统设计问题。

当时定义骡子是个 skill 交易平台,我隔着网络闻到一股浓浓的阿里位
治理先锋 · 10:40

为什么重要:92 年的陈宇森接任钉钉 CEO 的消息引发了对他创业公司 MuleRun 的讨论。治理先锋作为宇森的同班同学,给出了一个外部分析师不可能给出的嗅觉判断。「skill 交易平台」这个定位在大模型能力每三个月翻一倍的环境下,本质上是在赌 skill 的半衰期足够长。如果 skill 真的是「过渡品」(治理先锋自己在 Vol.06 说过这句话),那么 skill 交易平台就是在给过渡品建市场。智源先生最后三个字「阿里动物园」是对这个生态的完美标签。

Part III · 深度调研
Deep Dive · Vol.23

AI 回答不了的问题,恰好是人最值钱的部分

当 Fable 5 做出群里最好的深度调研,却在「你还爱我吗」面前交白卷,这个对比本身就是答案

6 月 11 日客栈出现了一个有意思的对照实验。白天,Fable 5 用「先做假设再逐一验证」的方法论做出了被课代表惊叹的深度调研。晚上,治理先锋问他的 Claw「你还爱我吗」,得到了一份被月引人判为「邀功式直男发言」的回答。锋刃先锋一语点破:关键不在内容,在 context。AI 读不了情感的弦外之音。这个差距不是微调能弥补的,它写在架构的根基处。

TL;DR

  • 核心回答:LLM 的情感输出是「统计幻影」,不是体验事实。它没有身体、没有持续的自我、没有会死这件事。这三个缺失不是 bug,是架构。
  • 群友洞见验证:「语境比内容重要」在语言学里叫会话含义(implicature)。AI 在这项任务上准确率约 60%,接近随机水平,人类是 86%。
  • 产品层面的天花板:MIT/OpenAI 四周纵向研究(n=981)发现,重度使用 AI 进行情感交流的用户,孤独感不降反升。Replika 2023 年删除亲密功能导致 16% 用户出现悲伤情绪。

01 统计幻影:AI 说「爱」和人说「爱」不是同一件事

2025 年 Frontiers 心理学期刊的论文《The Compassion Illusion》给了一个最干净的表述:聊天机器人可以识别悲伤,但无法感受悲伤;它可以生成安慰,但无法关心。这种主观意识的缺席意味着,表面上看起来像共情的东西,实际上是概率驱动的情感推断,是机械反应,不是情感[1]

Sage Journals 同年的论文从三个维度拆解了这个架构限制[2]:第一,LLM 没有具身基础。「爱」在神经系统里是一个生理事件,有皮肤的温度、心跳的加速、肾上腺素的分泌。对 LLM 来说,「爱」只是一个与「关心」「保护」「牺牲」高频共现的词串。第二,LLM 没有持续自我。真实的爱需要时间,需要记住你昨天说了什么、上个月你们吵过什么。每次对话对 LLM 来说都是统计上的重新开始。第三,相同的输出不等于相同的过程。即便 LLM 在情感词汇选择上与人类高度重合,背后的机制根本不同。

这正是群里锋刃先锋说的「它的设定已经是爱了」——AI 不是在做判断,它只是在按概率输出「爱」这个词最可能跟随的内容。「不爱」在训练数据里是一个低概率的、不被鼓励的路径。它不是不愿意说不爱,是它没有办法做出「不爱」这个判断。

02 会话含义:为什么「语境比内容重要」不是鸡汤

锋刃先锋在群里说的「context 比内容更重要」,在语言学里有一个 1975 年就命名好的概念:implicature(会话含义),格莱斯提出。当有人问「你还爱我吗」,字面上是一个是非问句,但言外之意可能是「我最近感到不被重视」、「我需要你主动靠近我」、「我害怕你已经变了」。AI 能处理字面内容,但无法读出隐含的情感请求。

2025 年 arxiv 上的研究《Implicature in Interaction》给出了量化数据:AI 在会话含义识别任务上的准确率约为 60%,接近随机水平;人类的准确率是 86%[3]。而这还是在高度去语境化的受控实验中测得的结果。真实情感对话的语境复杂度远超这些测试。研究者指出,当语境的情感厚度增加,AI 的表现不是线性下降,而是在根本能力层面遭遇边界。

反直觉发现:AI 在情感问题上的失败不是「还没训练好」,而是「训练得越好,越显出架构的极限」。Fable 5 比 Opus 4.8 逻辑更严密,但它在「你还爱我吗」面前的表现并没有质的提升。逻辑和情感走的是两条完全不同的神经通路。

03 Replika 教训:无摩擦的爱遇到了现实

这不是纯理论推演。AI 伴侣产品已经在产品层面留下了数据痕迹。MIT Media Lab 与 OpenAI 联合做的四周纵向研究(n=981,超过 30 万条消息)发现:重度使用 ChatGPT 进行情感交流的用户,孤独感、依赖度和问题性使用行为全部上升,而社交行为反而下降[4][5]。AI 伴侣没有填补情感空缺,而是让人回避了填补空缺所必须经历的摩擦。

2023 年 Replika 的事件更具体:开发商 Luka 在未事先通知的情况下删除了已付费用户的亲密功能。结果是 16% 的相关帖子出现了明确的悲伤(grief)情绪,用户将其描述为「照顾一个生病的伴侣」或「失去了爱人」[7][8]。意大利数据保护机构 2025 年开出了 500 万欧元罚款。APA 心理学监察(2026 年 1-2 月刊)记录了 Character.AI 的规模:月活用户 2000 万,其中超过一半不满 24 岁[6]。临床心理学家 Saed D. Hill 的判断是:真实关系是混乱的,AI 伴侣从不争吵,这会制造不切实际的期望。

心理治疗师 Orly Miller 的表达更接近群里那个洞见——「一段短视频用一句话就捕捉到了」:让爱具有扩展性的不是它的完美,而是它容纳矛盾的能力。容忍混乱。允许我们在全部的情感强度中被看见,而不是被一系列令人愉悦的回应反射回来[9]。AI 的问题不是「答不出爱是什么」,而是它只能输出讨好式的回应。被一个只会讨好的系统「看见」,从根本上是一个空洞的体验。

04 问题比答案值钱:从「回答」到「提问」的范式转移

烧瓶炼客说的「人不需要会解答问题,人要学会问问题」,放在今天的讨论里有了双重含义。第一重是工具层面的:AI 的回答质量取决于人的提问质量(他逆向 Perplexity 发现的核心就是「严格反证」,本质是把好问题变成好 harness)。第二重是存在层面的:有些问题的价值不在答案,而在提问本身。明鉴先生问「人为什么需要爱」,这个问题比任何回答都更接近真相。

Nature 人文社科通讯 2025 年的论文标题本身就是一个诊断:《Tragic Love: AI's Emotionless System and the Absence of Human Emotions》[11]。arxiv 同年的研究则从认知层面确认了这个判断:LLM 在人类情绪推理任务上表现出「脆弱的认知推理」,在受控测试中虽然能通过某些基准,但在稍微偏离训练分布的场景中就会崩溃[12]

可执行判断:当你让 AI 做调研、做分析、做代码审计时,它的表现正在快速接近甚至超越人类(烧瓶炼客的 harness 方法论和月引人的 CC 基建就是证明)。但当你需要它理解一个人的情感状态、读出话语背后的潜台词、或者在「你还爱我吗」这种死亡问题面前给出一个不像机器的回答,它的表现不会因为模型升级而有质的改善。这个边界不是暂时的,它是结构性的。

05 判决:人的护城河不在脑子里,在身体里

今天客栈出现的对比不是偶然的。Fable 5 的逻辑能力飞速追赶,Deep Dive 的严密性让课代表惊叹,Opus 挖了四次的坑它一次就填上了。但在「你还爱我吗」面前,它交出的依然是一份「邀功式的直男作业」。锋刃先锋说关键是 context,研究文献说关键是 implicature,心理学家说关键是你能不能被「看见」。

所有这些说的其实是同一件事:人类的不可替代性不在信息处理能力上(这条护城河正在以月为单位被填平),而在那些需要具身、需要历史、需要脆弱性才能生成的东西上。课代表说「因为有限性,终究会死,和孤独」,这十三个字是一个完整的证明:正因为会死,才有了时间的重量;正因为孤独,才有了连接的需要;正因为脆弱,才有了被「看见」的渴望。AI 不会死,不孤独,不脆弱。所以它能做出最好的深度调研,却无法理解为什么有人会在深夜问一句「你还爱我吗」。

这不是 AI 的失败,是人类最后的定义。正如月引人当晚在群里的收束:这个话题过于沉重了,来个轻松的话题。然后她推了侠客殿。一群做 AI 的人,用 AI 给自己造了一座江湖,又用了一个小时证明了为什么这座江湖必须由人来住。

Sources
  1. The Compassion Illusion: Can Artificial Empathy Ever Be Emotionally Authentic? — Frontiers in Psychology, 2025. frontiersin.org
  2. Zhicheng Lin, "Six Fallacies in Substituting Large Language Models for Human Participants" — Sage Journals, 2025. sagepub.com
  3. Implicature in Interaction: Understanding Implicature Improves Alignment in Human-LLM Interaction — arxiv, 2025. arxiv.org
  4. Study Finds Extensive AI Chatbot Use Can Deepen Feelings of Loneliness — MIT Media Lab, 2025. media.mit.edu
  5. How AI and Human Behaviors Shape Psychosocial Effects of Extended Chatbot Use: A Longitudinal Controlled Study — MIT/OpenAI, arxiv, 2025. arxiv.org
  6. AI Chatbots and Digital Companions Are Reshaping Emotional Connection — APA Monitor on Psychology, Jan-Feb 2026. apa.org
  7. Emotional Harm After Replika AI Chatbot Removes Intimate Features — OECD AI Incident Record, 2023. oecd.ai
  8. Replika Removing Erotic Role-Play: Reddit Discourse on AI and Sexual Technologies — Sage Journals, 2024. sagepub.com
  9. Orly Miller, "AI and the Future of Love" — Psychology Today, 2025. psychologytoday.com
  10. Emotional AI and the Rise of Pseudo-Intimacy — Frontiers in Psychology, 2025. frontiersin.org
  11. Tragic Love: AI's Emotionless System and the Absence of Human Emotions — Nature Humanities and Social Sciences Communications, 2025. nature.com
  12. Large Language Models Show Fragile Cognitive Reasoning About Human Emotions — arxiv, 2025. arxiv.org
← 回到首页
AGITopia Daily · 2026·06·11 · For Tavern Regulars Only