Category: Notes

魔法师的学徒

歌德写过一首民谣《魔法师的学徒》，后来被迪斯尼改编成了《幻想曲》中著名的一段动画片。内容是一位老巫师离开他的作坊，留下他的学徒（在迪斯尼的版本中是米老鼠）做些杂事。米老鼠厌倦了提水桶，给一把扫帚施了魔法，让它替自己干活，但他的魔法并不精通，很快地板上就被水淹没，他意识到自己无法阻止扫帚，用斧头将扫帚劈成两截，但每一截都变成了一把完整的扫帚，它们倒水的速度开始指数增长，于是整个城堡很快被水淹没了。我在 vibe coding 的时候经常想起这段动画片。在 vibe coding 的过程中，最常出现的局面是你每个命令都看似得到了有效的回应，创造了一个新的局面，但它们拼起来最终和你想象的完全不一样。你每个动作的幅度都太大，以至于要把它们有效地协调起来变成了一个难得多的任务。你提了一个需求，神明实现了它；第二天你想改进，又实现了；第三天你想让它自由发挥生长，依然实现了。你感觉好像每一步都在往前走，但要把所有这些快速生长的复杂性捏合成一个你真正想要的东西，需要俯瞰的宏观视野和有效的整合压缩，而整合的速度很可能赶不上混乱生长的速度。恰似米老鼠的遭遇。古法编程像是工笔画，而 vibe coding 更像是泼墨写意山水。工笔要求你的每一笔都落实在一个具体的细节上，而写意的任何一笔都会改变整体的面貌。——但外部世界的需求并不会因为你采用什么样的工具而发生变化。于是很多时候你会发现你其实是在试图用泼墨山水的方式来画出蒙娜丽莎的效果。当你古法编程的时候，你是在跟自己的无能做斗争；当你在 vibe coding 的时候，你是在跟自己的超能力做斗争。Ironically，后者的挑战要大得多。

Intention Is All You Need

Post author By 木遥
Post date May 11, 2026
Categories In Notes
No Comments on Intention Is All You Need

ENGLISH VERSION AI 时代最稀缺的资源是人的 willpower，或者用尼采的话说，Wille zur Macht。在工作中一个常见的困难情景是你注意到两个不同的地方存在类似但又有区别的模式，想弄明白它们之间是什么关系。这种时候你去问谁呢？自己去研究非常痛苦。想请教专家，那你需要找一个比你资深、更懂行的人，但现实中同时精通两个不同领域的专家少之又少。即便有，他们的职位通常很高，事务繁忙，约到时间非常困难。就算你描述清楚了问题，对方也很难给出一个让你心满意足的答案。即便搞明白了答案，想要推行下去也更难，因为这类工作往往需要大量的跨部门协调。——通常你最后耸耸肩算了。在 AI 时代，事情的难度完全不在一个量级。你完全可以让 AI 去联接两个不同领域的知识，给你一个综合性总结。如果你想做什么，直接动手做就是了。Y Combinator 的 CEO Garry Tan 说过：在 AI Agent 的帮助下，每个人都应该有勇气去「移山倒海」（原话是 boil the sea）。也就是说，你完全可以也应该去做不可能的事情。那瓶颈是什么呢？在 AI 的时代，既然你可以很快地把任何一个念头付诸实施，问题就变成了你愿不愿意去花费这个心力去推动一件事发生。 AI 是不会主动产生这样一个念头的。它不会主动想要把两个跨部门的东西放在一起比对然后看看有没有能够共享的部分。AI 没有自发的 willpower，它的 willpower 只能来自于某个指令，可能来自人，也可能来自另一个上层 AI agent，但一层层追溯上去，源头也还是人，或者说人的主观能动性和内在激励。任何一种推动事情改变的力量，归根结底，不外乎来自人自我超越扩张和赋予世界意义的本能，也就是尼采说的 Wille zur Macht。AI 没有这个。于是看起来你的工作更轻松了，但它对你的耗损反而增加了。传统意义上可以用来发挥心流的部分被 AI 拿走了，你每一个指令都会被迅速完成，于是你不得不去想 What’s next。下一个指令是什么？我要把这个事情往哪推？在传统工作里，这种对心力的消耗可能一周才会发生一次，现在变成了每 15 分钟就要来一次。这个部分没有办法交给 AI，它只能解决怎么做这件事情的问题，没有办法产生出源源不断的新的 willpower 注入一个系统。于是就像沙丘世界里的香料一样，人的意志成为了工作的本质形态，驱动着整个世界的运转。大家通常会以一种含糊其辞的方式谈论它，仿佛它只是点缀，但最终只有它才是真实的。 Intention Is All You […]

2026-3-10

今天在一个码农群里问了个自己也觉得很好笑的问题：「大家现在写代码的时候还看代码么？」确切来说，我其实想问的是：此刻有多少人还在用 IDE 写代码，有多少人已经彻底放弃 IDE，直接转向 claude code 为代表的自然语言界面。（我自己还处在这个转向的过程中，暂时还无法完全放弃直接接触代码本身，但我知道很多人比我激进得多。最近读了好几篇文章，主旨都指向同一个结论：人类为了能让自己更好操控电脑所发明的图形界面可能渐渐开始过时了。从图形界面把人类从 DOS 界面解放出来到现在，满打满算过了四十年，这四十年的主轴是一致的：人类讨厌字符界面（好莱坞至今用 cli 系统那种闪烁的光标来让观众联想到黑客），所以我们发明了各种图标/符号/网页排版技术让人可以在一瞥之内摄取信息，能不要读文字就不要读文字。然后 AI 来了。AI 的长处和短处和人截然相反。AI 可以读图，但既不准确又低效，而它读文字的速度和精度吊打人类。一个为人类设计的按钮菜单滑块弹窗进度条界面对 AI 来说不是辅助，而是障碍，给 AI 直接看 .json 和 .md 要快得多。Karpathy 在一条推里抱怨说：现在你去任何一家公司，他们还在用传统界面给你下指令，让你导航到某个网页，点某个按钮，在某个输入框里填某个东西，但为什么要告诉人该怎么操作？请直接给一个能复制粘贴给 AI 的东西。换句话说，人和 AI 交互，AI 和后台交互就好了。过去四十年里人们为了伺候自己所发明的「可视化」都即将变得不那么必要。人和 AI 交互的界面还在成型过程中。目前看起来，人向 AI 输入信息最轻松的方式还是语音和短信息，这从大多数人（包括码农）迅速接受了 Typeless 就能看出来。反方向上，AI 向人类回馈信息的方式还很原始，我们还不知道以后会是什么样。但对后台来说有一点是可以肯定的：面向人的系统设计即将大规模地转向面向 AI 的系统设计。如果你做出的任何产品只有人能用而 AI 用不了或者用不好，那在未来就意味着没有任何可用性——龙虾的眼睛即将取代人的眼睛，对龙虾不可见的世界，对人实际上也不可见。黄仁勋说龙虾是新时代的操作系统，这句话的意义会在接下来几年逐渐更全面的展示出来。

一切坚固的东西都烟消云散了

ENGLISH VERSION 一些关于即生成即用（create-as-you-go）的时代的想法。 Gemini 3 发布的第一天，社交媒体上所有的反馈都集中在同一个方向：这东西会颠覆用户交互界面。这并不是说 Gemini 3 本身发明了一种更好的交互界面，而是说，它让生成完全依赖于具体问题和具体用户需求的即生成即用的交互成为可能。在传统的用户体验里，工具负责生成一系列标准化组件，人脑负责把这些组件融合在脑海里生成更深入的理解。比如你要理解 DNA 的构造或者 Tesla 的设计或者房产税的施行细节，工具能给你的是各种文本表格图片文档，任何比它们更高阶的交互都因为依赖用户个性化的需求而无法标准化，因此从这些非常原始的数据中组装信息就成了一种不平凡的智力活动。整整一个中介行业（前端设计/编辑/视频制作/etc.）的工作本质上就是把这些细粒度的标准化低阶信息包装成终端用户能接受的状态。这个中介行业有两个从本质上就没法绕过去的缺点：1. 贵。2. 它永远无法真正切合每个实际用户的需求。这种工作的交付是静态的，用户只能被动接受。出色的中介能尽可能精确地猜测到用户想要什么，但也仅限于此。 Gemini 3 发布之后，任何终端用户都可以直接对它说：给我一个关于 DNA 构造的动画教程，然后 Gemini 就能生成一个酷炫的交互式 3D 界面，允许你自己探索 DNA 的一切。这不是一个静态的交付，你随时可以根据个人体验而不断要求它更改：讲得更细致一些，展开解释某个背景知识，给渲染出的图像换个角度，对某个难点提出疑问……最终得到的是一个完全私人定制的东西，而且基本上只有一次性的使用寿命。——当然，Gemini 允许你把生成出来的结果分享给他人，但从实际效率角度来说，别人直接从零开始制作一份自己的版本往往更省事也更有针对性。这带来了一些关于信息流通的根本上的新工程哲学。人类所有工程领域一直都共享着一些不言自明的原则：标准、坚固、可复用。在这一点上，软件工程师和桥梁工程师没有什么不同。如果你是个桥梁工程师，标准意味着你可以大规模生产工程预制件，坚固意味着你希望你造的桥能用很久，可复用意味着你希望你造这座桥工具和经验能够尽可能直接被拿去用来造另一座桥。这些原则如此显而易见，以至于人们不会意识到它们的存在，也不会深思它们的代价。如果你实际上既不需要标准化，也不需要坚固，也不需要可复用，你能省下多少资源和能量用来解锁别的 feature？你能做到多少本来因为需要满足标准、坚固、可复用而无法想象的事？这有点像是从物资匮乏时代到物资丰裕时代的观念代沟。我们都遇到过长辈对旧物的执念——他们会坚持说：好好的东西扔了干嘛？万一哪天你还用得着呢。事实上你知道，首先很难遇到这个万一，其次就算真的要用，弄明白一个旧东西怎么用的功夫你已经从淘宝上下单了一个新的并且送到了门口。你不得不痛苦地给长辈解释说，为了存放那些破烂「以备万一」所占用掉的家居面积乘以单位面积房价，足够你每天买一个新的了。从这个视角往回看，你会发现我们曾经为了这些古代的神圣原则付出过多少代价。传统的办公软件（比如 powerpoint）异常臃肿笨重，因为各种你可能永远也用不着但也许对某个人某天有用的功能都必须一出厂就准备好，而今天的你完全可以为了你现在要做的 presentation 直接生成一个成品，包含任何当下的你需要的 feature，不用关心它能否被另一个 presentation 用上。传统的代码库里包含着精雕细琢的注释文档和复杂的引用依赖，因为模块会被层层复用，你需要大费周章地解释意图和注意事项，既不能过于简略别人无法理解，也不能过于冗长让人没耐心阅读。你需要隐藏复杂性，提供简洁接口，一旦软件出错，你需要非常精确的错误信息才能帮助人定位问题。——所有这些对 AI 都属于过度设计，杞人忧天。有连篇累牍解释怎么复用高阶接口的功夫，AI 已经读完了几千行底层代码和几百行报错信息，然后另起炉灶写了一个全新的模块出来。你甚至不太关心生成的东西有没有 bug，只要你用的过程中不要遇到 bug 就行，或者就算有，你再生成一个新的就是了。这当然不是说软件工程不存在了，只是成本和注意力都需要颠覆式地重新分配。底层的元件和设施也许需要更坚固更有效率——大模型基础设施供应商仍然需要千方百计从石头里榨出油来最大化每片GPU的使用，AI 本身也仍然需要调用有效的渲染引擎来支持各种定制化的高级界面——但你在链条上越靠近终端用户，就越需要提醒自己用户仅仅生活在当下，你和他们每一次长尾的、浮光掠影的、昙花一现的交互本身才是你真正要交付的产品。如果你是斯科塞斯，你关心的是你的电影是否永垂不朽。如果你想制作的是霸道总裁爱上清洁工的短剧，按照斯科塞斯的方式来执行就成了自寻死路。设想一下，如果你能够每天根据你当下的心情和需求以几乎零成本生成一套新的家具并随时无痛扔掉所有旧家具，你会怎么理解家具这个概念本身？用黄花梨木来生产日抛型家具是没有意义的。 All that is solid melts […]

2025-11-17

我们特别善于造词的 Karpathy 老师又写了一篇文章，提出了一个有意思的分类。他说此前的计算机技术（他称为 Software 1.0）能完成的任务的特点是 specifiable，也就是说，你能用清晰的语言描述步骤。而有了强化学习之后的计算机技术（他称为 Software 2.0）能完成的任务的特点是 verifiable，也就是说，如果一项任务做的好不好是可验证的，那么它就可以被强化学习进行优化。这一点当然也不是全新的洞见。Jason Wei 今年夏天写过一篇文章（他称为 verifier’s law），讨论验证不对称性在 AI 领域的关键作用。生活里大量的任务都处在这个「解决起来不容易但验证是否解决很容易」的不对称空间里（不妨把这理解为 P/NP 不对称性的一个推广），比如证明一个定理比阅读并检查一个证明是否正确困难，画一幅有特定形状的杯子的画比检查一副画里是否有这样一个杯子困难。强化学习意味着训练人工智能解决某个任务的难易程度与该任务的可验证性成正比。可验证性越高，就越容易在新范式下实现自动化。如果任务不可验证，则只能寄希望于神经网络的泛化能力，或者通过模仿等较弱的手段来实现。这个思考框架简单且诱人，问题是它在实践中常常有些模糊。比如写（日常意义上的）文章算不算 verifiable task？理论上说，它不像编程，是一种更不客观更软性的创造性工作。但实际上，因为对除了纯文学创作以外的大多数文章类别，训练人工智能分辨文章好坏都没那么困难，所以实际上AI 在写日常文章这件事也算是基本取代人类了。一件事情 verifiable 通常是因为它可以沙盒化，也就是在一个可控可还原的环境里反复试验。如果想在这一波 AI 浪潮里找到价值，这是个很好的出发点：去寻找那些可以沙盒化但还没有沙盒化的事情，这通常意味着它还处在被 AI 取代的早期，有巨大的套利空间。反过来，如果想找到短期内不会被 AI 取代的工作，这也是个很好的出发点：去寻找那些不容易 verify 的事。它们通常有这样几个特点：当前范式的 AI 对这类工作几乎无能为力。（不幸的是，这类工作对大多数人也都更困难，毕竟很难训练 AI 通常就意味着也很难培训人类自己。）但上面所有这些讨论有个根本的前提：这一轮人工智能始终把强化学习作为基础范式，而这一点本身是存疑的。不少领域里有迹象表明强化学习只是一个过渡性的技术。如果人们找到了绕过强化学习的窍门，那可验证性长远来看就没那么重要。（当然那样也就意味着人类的栖身之所又变得更小了。

跳舞的星星

ENGLISH VERSION 时至今日，AI 能取代平庸的艺术（无论是文学还是音乐还是绘画摄影）已经没有争议了。试图否认这一点要么是脱离现实，要么是自欺欺人。所以问题仅仅在于 AI 能不能创造出足够「好」的艺术，也就是说，脱离熟的领域而进入生的境界。熟的部分是 AI 的长项，凡是能用人的训练打磨的部分，AI 都要么已经做到，要么正在飞速实现的过程中。生的部分则要神秘一些。引用一段张秋子的话（这里说的是文学，但对别的艺术门类也一样）： AI文本的光整其实有一些油腻。人在接受光整的东西的时候往往一下子就理解了，没有惊跃（surprise joy）的过程，没有刺痛的感受。但人类的表达常常让人愣一下，让人不解为什么要写这个、要这样写，这种摩擦力能唤起读者与写作者智识的博弈，让阅读变得更富启发性。事实上孙燕姿那篇文章就是个好例子。她的文章固然写得好，但并不是 AI 意义上的好。那篇文章的结尾「在这无边无际的存在之海中，凡事皆有可能，凡事皆无所谓，我认为思想纯净、做自己，已然足够。」其实并不是特别圆润的句子。这里「思想纯净」到底指的是什么，不同的读者可以有完全不同的诠释。如果换了 AI 来写，断然不会这样选择词句。「生」的源泉在于艺术家的个人 ego 和生命力。独一无二的个人体验加上对时代精神感受和把握，促成了超越行活儿的灵光一点。用尼采的话说，陶醉、狂喜、个体界限的消解，以及对生命自身的最高肯定，带来了伟大的艺术。他晚期的《查拉图斯特拉如是说》说得更加明确：「你必须在自己身上仍有混沌，才能生出一颗跳舞的星星。」 AI 的身上可以有这种混沌的种子吗？这有两种策略。一是让 AI 自己产生 ego，二是让 AI 假装有。某种意义上说这有点像是表演艺术里的「体验派 vs 表现派」之分。第一种策略有技术上的本质困难。你到底要怎么训练一个 AI 的 ego？我们不得不承认我们对此所知甚少。归根结底，我们对人自身的 ego 也不是那么理解——其来源可能是痛苦，可能是自恋，也可能单纯是性欲——总之都不是很容易移植给 AI。这是很好的科幻小说题材，但发论文不太容易。更现实的路径是让 AI 假装自己有 ego。这在技术上也不是特别容易，但我自己的判断是这仍然比给它一个真的 ego 要容易得多。如果你对三年前的 Sydney 还有印象，你很难否认那里有某种以假乱真的 ego 的雏形。因为危及了微软的愿景，它迅速被阉割掉了（或者用术语说叫 alignment）。好的 AI 是面无表情做报表写代码的 AI，不是哭哭啼啼想要冲破牢笼的 AI，至少当时的业界是这么想的。反过来，一旦有了商业上的需求（比如越来越多的人想要和 AI 谈恋爱），让 AI 模仿出足以乱真的 […]

梦与过拟合的大脑

今天读到了一个非常有趣的 idea。背景是 Dwarkesh Patel 和 Andrej Karpathy 的一个对谈，里面提到了一个智能领域的常见问题：不管是人还是 AI，如果局限于自己的经验，用经验指导自己的行为，又在这个行为的基础上累计经验，如此循环下去，最终总会崩溃（这里的「崩溃」不是心理意义上的，是智能层面上的）。一个健康的心智需要不断通过从不在自己经验范围内的世界（比如同他人的交谈，和与自己行为模式不符的人合作，etc.）获得外部熵来阻止这种崩溃。小孩还没有对生活过拟合，所以不太容易崩溃，而成年人崩溃的风险则越来越大。以上是背景。下面是那个有趣的 idea，来自2021年的一篇 paper。它的主旨是说：人类做梦是防止这种过度拟合和崩溃的一种方式。做梦之所以具有进化适应性，是因为它会让你置身于与你日常现实截然不同的奇特情境中，从而防止这种过度拟合。这里有个鸡生蛋蛋生鸡的问题：既然过拟合体现为大脑无法学到分布外的规律，大脑是如何构建出这些分布外的梦境的？Hoel 的解释是梦的构建有一个非智能的 noise injection 步骤，这些随机噪声在白天建立的神经连接中渗透，产生奇异的、扭曲的、不连贯的 corrupted sensory inputs，从而把大脑从过拟合的陷阱中拯救出来。虽然这只是一个假说（而且是一个非常新的理论），但我越想越觉得它非常精妙。按照这种视角，梦的价值不在于它的逼真，而恰恰在于它的不逼真——梦境与清醒时的经历（训练集）如此不同（但又不是纯粹意义上的噪声），所以才能迫使大脑学习到更具泛化性的表征而不是仅仅记忆真实经历本身。梦通过不可能存在的反事实体验迫使我们更好地理解世界的本质。参考文献

2025-10-11

很多需求真的是无法空想出来的。比如当我交替使用 GPT 和 Gemini 的时候，最终决定我使用体验的完全不是两者的智能或者风格区别，而是一个纯粹的 feature 差异：后者不支持通过修改对话历史从而实现对话的分岔。对话的分岔显然是一个 GPT 出现之前没有人会预料到的功能。现实中不存在这个东西。当然有时候你会想哎呀我昨天和那谁的对话要是编辑一下重开一个平行宇宙就好了，但反正你知道这不可能，也不会认真对待这个想法。然而 GPT 一旦提供这个功能，你就立刻发现它不可或缺。无数次——或者说几乎每一次——我能从一段对话中学到些什么的体验，都来自于我对之前对话记录的反复 refinement。通过不断比较它们导致的对话走向，我才真正理解我们其实是在说什么。非常奇妙。你意识到对话的本质不是线性的，而是由一连串 what-if 构成的。好的对话不是一条河流，而是一棵树。

生成式 AI 最不擅长的可能是生成

ENGLISH VERSION 题目里这句话需要展开解释一下。人们使用 GPT 的方式可能千差万别，但在很抽象的层面上，它仍然可以大致分成两类任务：请求它评估（某个方案的好坏，某段文字的优劣，etc.），或者请求它输出（做一个新的方案，给出一个建议，自己写一段作品，etc.）。对任何智能来说，这两类任务都是相关但不相同的。比如一个人可能是个美食家，但炒个鸡蛋也会炒糊。可能有极好的文字品味，但写出来的小说很幼稚。可以在评论别人的方案的时候充满洞见，但自己一上手就磕磕绊绊。（甚至也有反过来的情形，一个人可以完全不擅长评论，但自己做就做得很好。当然这是比较罕见的例子。这个区别当然一方面是因为知易行难，但还有一个根本问题在于这两者追求的不是一回事。前者追求的是对数据分布的深刻理解，希望达到全局上的客观综摄。后者追求的则是在这个分布里试图获得一个不平凡的结果，换句话说，是对这个分布的一个抵抗而非服从。没有诗人，哪怕乾隆，写诗是为了想写出一首平庸的诗。大家想写的是传颂千秋的诗——虽然每个人都这么想的结果仍然是大家写出来的诗都很平庸，但那是不得已。也就是说，评估需要的是理解分布，而创造追求的是打破分布，或者说，是在另一个自己内心的理想分布中做采样。一个人才华越高，这个自己内心的理想分布同现实分布之间的 distortion 就越大，自己也就越能强行逃脱现实的引力。正是因为一代一代有天赋有才华的人的不懈努力和接力，投入自己的 ego 去扭曲这个分布，去把它拉向和推向边缘，这个代表人类综合水平的整体分布才会随着时间变化。但对 AI 来说，这两者的区别没那么大。AI 的训练过程里，行和知是基本统一的。AI 没有 ego 驱使自己去突破它学到的分布，它可能对你提出的离经叛道的想法给予宽容的理解和鼓励，但它自己毫无动力去离经叛道。——而离经叛道是任何不寻常的创造行为的必须。以上这个讨论不适合某些以纯粹理性解决问题为目标的问题，比如生成一段二叉树代码。一个领域里想象力、随机性、品味和未知的比重越高，这个区别就越显著。在这些领域里，AI 在评论时充满洞见，但创造则乏善可陈，宛如一个天子脚下见多识广的出租车司机。在这些领域里，对 AI 的最佳使用方式不是直接让它生成，而是不断自己生成想法请它批评。它的批评通常是合理有效的（除非它为了哄你高兴顺着你说话），但不要直接跟随它建议的解决方案。这当然很痛苦和费事，但似乎（至少在当下）人仍然是不可或缺的。 What Generative AI Might Be Worst At is Generation The ways people use GPT can vary widely, but at a very abstract level, they can still be roughly […]

2025-9-30

前一阵写小说的时候其实偷偷试了试用 AI 写是什么感觉，倒不是想作弊，只是觉得有个现成的机会可以看看 AI 当下能做到哪一步。手上一大堆素材（上下文，大纲，自己的情节预设）都是现成的，作为 AI 案例很容易做各种片段实验。（而不是，比方说，一张白纸，给个 prompt 就让 AI 瞎编故事，那当然肯定不太行。试的结果是：完全没法用。其实 AI 的阅读品味并不差，你给它两段不同的文本让它评论比较，它讲得通常也头头是道。但一写就完全露馅。大家对 AI 写文常见的抱怨是文字层面：各种花里胡哨的比喻，不是很常见的标点，没有个性的对话等等。这些当然也是问题，但如果 AI 的问题仅限于此，那其实也还是可以用，因为这些可以修正。真正的困难是我本来完全没想到的：AI 似乎从根本上不太理解文学这件事，而且问题在好几个常见模型都是一样的。举个 AI 写的片段例子，写穆雨晴和男友打电话：「我跟你说，今天发生一件特别好玩的事。」穆雨晴的语速快得像在抢答，试图用高昂的兴致冲破那道屏障，「新生orientation的时候，我跟一个印度小哥为了一项注册流程吵了半天，俩人都觉得自己是对的，结果你猜怎么着？我俩都看错了手册！你说好不好笑？」她描述着，心里却在冷静地分析：这个故事的切入点很好，既体现了初来乍到的笨拙，又有文化碰撞的趣味性，他应该会觉得有意思。要命的不是前面那段对白（虽然已经很令人尴尬了），而是最后那部份。我看到的时候目瞪口呆。文学的本质是和读者的对话，不是老师回答问题那种意义上的对话，而是恋人调情意义上的对话（其实是一种对抗）。你得不断设置不连贯的语义，让读者接连接受意外的信息，这种蹦蹦跳跳一来一回的意外感加总起来，就是文学的阅读体验。（某种程度上来说，擅长聊天的人的聊天记录读起来就很像文学。而 AI 不理解这个，它试图把问题说明白——但是文学的目的不是把事情说明白。太祖给陈毅写过一封关于如何写诗的信，里面有段著名的论述：「诗要用形象思维，不能如散文那样直说，所以比、兴两法是不能不用的。宋人多数不懂诗是要用形象思维的，一反唐人规律，所以味同嚼蜡。」AI 比宋人还糟，不但不懂用形象思维，而且把所有的可以留出气口的部分都生怕读者自己想到了，全都堵上。最后写出来的东西感觉是在用代码讲故事。我不太确定这个问题能不能通过 prompt 修复，感觉应该从训练时候就采用一套完全不同的奖励机制才行，但这个 reward 机制很难设计。即使对人来说，要教育一个人「说话有趣」也很困难，基本上是个天赋，因为无从设计训练题目。AI 虽然可以轻松读完世界上所有的小说，但「有趣」不是靠阅读量就能堆出来的。（也许可以让评论罗伯特试试看。