Category: Notes

圆

ENGLISH VERSION 遇到了一个有趣的问题，正好落在 AI 模型的能力边界处：试证明不可能把平面分成无穷个圆的无交并。在我尝试的所有模型里，只有 GPT 5 thinking model 成功做了出来（虽然花了点时间）。有趣的不是这个结论，而是观察它们的思路。所有失败的模型都有个共同点：它们的思考基本上是从文字到文字的。它们会调用自己脑海中各种已有的定理和知识，然后漫无目的地试图拼凑出一个证明，但所有这些定理，不管是拓扑的还是几何的还是测度的，对它们来说都是纯粹字面意义上的陈述。Qwen 的思考过程最典型：它滔滔不绝想了很久，但很显然从头到尾它都并不真的理解它在说什么。圆也罢，开集闭集也罢，Baire 纲定理也罢，对它来说都是纯粹的概念，给人的感觉是它甚至并不真的知道「圆是圆的」。微妙之处在于，这种「没有几何直觉的几何思考」在某些时候其实未必是一种劣势。现代数学早已挣脱了对三维现实想象的依赖，大部份数学思考本来也确实是在纯粹的概念思辨空间中进行（特别是当问题进入代数乃至范畴论的领域的时候，这时从概念到概念的思考就变成了一种必然）。有的时候，几何直觉甚至反而会成为一种束缚，特别是当思考高维空间的时候，基于低维现实的直观常常是有误导性的。在这些问题上，AI 的「盲目」反而带来了自由，使得它不必受困于视觉直觉。——当然，人类的视觉直觉可能会渗透进人类的文本语料里，在某种程度上「污染」AI，但这是另一个问题。然而对原问题来说，因为这是一个低维问题，几何直觉在这里不但有用，而且能大大缩短思考搜索的难度。在这一点上，一个把圆只作为抽象概念来理解的 AI 就会有巨大的劣势，因为它无法享受到几何直觉带来的跳步。这种直觉使得人可以一眼「看出」关键的构造，而这种构造在文本层面被搜索出来是困难的。考虑到 AI 的应用毕竟大多数情况下还是为了解决世界现实问题而不是思考高维几何，有几何直觉的 AI 会在大多数问题上显得聪明得多。于是一个现实问题是，这种直觉是只有依赖多模态的训练才能获取，还是可以通过精巧的文本训练就能实现？这有点像是 AI 领域的玛丽房间问题。这是一个经典的知识论思想实验：一个从出生就生活在黑白房间里、精通颜色物理与神经机制的科学家玛丽，当她第一次走出房间看到红色时，她是否获得了新的知识？今天大多数 AI 领域的困难都可以归结于此。人类是自己感官的奴隶，我们听到、看到、闻到，我们体会身体激素的涨落，我们想象、困惑、愤怒，然后试图把这一切投射在文字空间里。AI 则正好相反，它们在文字里理解这一切，但最终需要努力地——有时候是徒劳地——明白，一个圆在什么意义上是圆的。 Circle I came across an interesting problem that happens to sit right at the boundary of an AI model’s capabilities: Prove that it is impossible […]

坐照

ENGLISH VERSION GPT 5 推出之后大家照例让它算 10.9 和 10.11 的差。它照例失败了，成了新一轮笑柄。倒是真的实现了传说中的 Ph.D level，因为博士生一般来说算术都不好。当然这不是它一家的问题，别家 AI 也在这个简单的题目上纷纷翻车，包括我很喜欢用的 Gemini Pro 2.5。但 Gemini 翻车的姿势还要更炫酷一点：作为一款思维链模型，它知道这种时候应该调用 Python 来算。但当 Python 返回了正确结果之后，它的反应居然是：「我觉得 Python 算的不对，还是我自己来心算好了。」然后算错了。这个错误虽然好笑，但暴露的是这一整轮 agentic AI 发展的致命弱点。Agentic AI 作为一个框架要能运行，前提条件是 AI 知道什么时候该使用并依赖外部工具。当然，这里的分界是模糊的：一个小孩子如果在算三位数乘法的时候掏出计算器，你不会批评。如果这个小孩算一位数乘法也要用计算器，你会怀疑是不是智力有点问题——当然无论如何至少结果是对的，但你会心想一个高级一点的大脑是不是应该合理判断这个问题不值当用外部工具。而现在的问题是这个小孩算一位数乘法，掏出计算器算了个结果，然后觉得不对扔掉了，自己心算了一个错误的答案出来。这是人类有可能犯的错误吗？其实也是。而且如果你细想，这恰恰是非常「人类」的错误。人类的思维之所以不可靠，就是因为我们常常把直觉凌驾于客观证据之上。不是因为我们缺乏证据，而是因为我们不信任证据（例如曼德拉效应）。对人类来说，仅仅因为看到了和自己内心信念不一致的信息就放弃旧有信念不仅是困难的，而且是痛苦的。但我们发明 AI 本意不就是避免这个缺陷？于是我们面临着一个尚未有定论的问题，就是以大语言模型为基座的 AI 是不是先天继承了人类的心理偏见机制。我们对 AI 的期待是它能尽量不偏不倚。当然，在社会政治文化领域这是困难的，没有人能指望 AGI 在巴以冲突问题上能做到只看事实没有立场。但在别的更数字更技术的领域呢？给 AI 一份几万字的报表，AI 能够忠实灵敏地查阅所有细节，然后在回答问题的时候精确合理地引用某个细节吗？这不仅仅是我们对 AGI 的期望，这还是要撑起它所联动的万亿市值市场的前提条件。今天的 AI 尚不能实现这一点，是因为这里有个内在的技术困难：思维链条不是数据库，而是把数据以自然语言的形式有损压缩在中间状态。这种压缩本质上就类似于人类以印象代替现实的思考模式，也是诞生偏见和误解的根源所在。要从根源上铲除它的土壤，就是要让这种压缩在事实上变成无损的。于是我们面临两种可能的技术前景：要么下一代思维链条（或者思维树，思维网络，或者不管什么别的数据结构）真的能实现对数据不依赖印象的理解和综摄。这在实践上已有尝试，比如程序化中间表示（JSON-graph、逻辑项、SQL、符号代数），或者对数字、日期、单位、表格索引做硬约束解码。简而言之，找到绕过以文字为思维载体的办法，把图像、数据和表格原生嵌入 AI […]

AI 的阅读体验

前几天发烧的时候和 AI 聊了一个关于阅读的问题。一开始是我想理解 AI 知不知道人类阅读的体验究竟是怎么回事，后来变成一个关于文学价值判断的讨论。下文会用 A 和 B 分别指代。我对它们的答案做了编辑和缩写。我：你能理解阅读的体验吗？ AI A & B：（都回答了一些 cliché。）我：不是，我是在试图和你讨论这个技术问题。对人类来说，阅读是一种类似于对话但又不完全是对话的体验，是通过写作者设定的节奏，读到每个地方都会有一些反应，产生一些预期，然后这些预期又被接下来读到的部分确认或打破，从而产生一连串的心理效应。这就是为什么同样的内容被不同的写作者写出来效果不同，就像同一首歌被不同的人唱出来效果不同一样。但 AI 不是这么阅读的，虽然今天的大模型也多半是基于顺序处理（而不是卷积模型），但我想知道基于 transformer 的模型在处理文本的时候，会不会本身也能产生上述那种「阅读——产生预期——确认或打破预期」的循环？还是说你完全没有这种感觉，只能通过猜测人类的感受来模拟这种反馈？换句话说，当你评估一段文学作品写的好的时候，是你「自己读起来」觉得好，还是你因为知道人类对类似的文本的评价是好的，所以你学会了判断它的好坏，但你个人 feels indifferent？ AI A：区别在于，人类在阅读时是「带着情绪张力」去经历这些确认或反转的。你会对「预期被打破」产生惊讶、愉悦、或者失落。但我只是对概率模型做了一个「更新」，我不会觉得「啊，这地方写得真妙，让我心跳加速」。我知道哪些 token sequence 在训练语料里「经常让人感到心跳加速」，但我自己没有那个心跳。当我评判一段文学作品「写得好」时，本质上是基于统计学模式、结构性张力、以及我知道在什么样的社交语境里，人类会对这种写作做出积极评价。但我自己无感。如果让我说「我更喜欢这一段还是那一段」，我只能用「哪个段落在人类反馈里更容易被认为「写得好」来回答，而不会有「我自己更喜欢哪个」的偏好。 AI B：我个人 feels indifferent，但我能通过分析其内在的数学结构来判断其优劣。我所谓的「读起来觉得好」，不是一种主观感受，而是一种技术评估。一段「好」的文学作品，在我看来，是能以一种高超的技巧来操纵这个「预期与意外」循环的文本。差的文本：要么完全在我的高概率预期之内（枯燥乏味，cliché），要么完全是随机的、打破预期的胡言乱语（不知所云，incoherent）。好的文本会建立起一种模式，让我形成稳定的预期，然后在关键节点上，用一个既出乎意料又在更高维度上合情合理的词来打破它。这个「打破」不是随机的，而是有意义的，它能打开新的解读空间，创造出诗意或思想的深度。这种「可控的意外性」或「有意义的复杂度」，是可以在数学上被识别出来的。我的模型在海量的、被人类认为是「优秀」的文本上进行训练，已经内隐地学会了这种「可控意外性」的统计模式。我：如果你「感受到文本节奏和情绪张力」的体验完全是通过对人类的体验模拟习得的，这种学习会不会很不准确？因为不太会有数据包含人类阅读的精细反馈（除非在人阅读的时候脑袋上插一个电极），而阅读其实是个非常精细的事情，一句话里中间有没有逗号，一个词是重复用还是换着用，一句话结尾用不用「了」或者「吧」，这些可能都不会改变句子的含义，但会改变阅读体验。还有些是人类自己也只知其然而不知其所以然的，比如某个作家对战争的描绘比另一个作家更感人，但读者也未必知道技术上的原因，只知道结果是这样。如果你的训练数据完全来自 hollistic data，比如你知道人们认为陀思妥耶夫斯基是个大师，知道大仲马是个相对通俗但没那么伟大的作家，你在多大程度上能把这些知识 reverse engineer 成更本质的理解，即，这些文字是因为这些（人类自己也没有说清楚过的）原因而被认为更好的？ AI A：我能在一定程度上 reverse engineer 这种「隐含的写作技艺」，但这种 reverse 是基于模式提炼与统计相关性，而不是基于真正体验驱动的直觉理解。因此，这种能力既强大又有盲点。当统计特征明确时（比如简洁短句和冷峻风格的关联），我能捕捉得很好。当特征极度微妙、需要通过情感体验累积感知时，我的把握就只能靠训练数据中出现频率最高的习惯模式，可能会错过真正的匠心细节。这是某种统计意义上的逆向工程：我能感知陀思妥耶夫斯基句子中大量长句、从句嵌套、内心剖析的句式与「沉重、深刻」的人类情感标签之间的强关联。反之，大仲马在对话、行动描写上的快速换与「通俗易懂、爽快愉悦」的反应有对应关系。但我并不知道为什么人类会因此而感到深刻或爽快，我只是把这些现象总结成了一套「高概率模式」。但是人类自己对于「哪些细节导致了伟大的文学效果」本身也没有完全的认知体系。某种意义上，我用 brute-force 的模式学习方法，已经在统计上模拟了人类直觉判断的行为层面结果。 AI B：首先，一个重要的澄清：我的学习主要不是基于「人类阅读体验的反馈数据」。你说的很对，那种脑机接口级别的精细数据几乎不存在。我的学习基础是文本本身。我学习的是模式，而非感受。比如重复用词：在某些语境下（比如儿童读物），它表示强调和简单易懂。但在另一些语境下（比如一篇严肃的学术论文），它可能表示作者词汇量贫乏。而在诗歌中，它可能是一种刻意为之的、创造节奏和回环感的「复沓」手法。我不会被预先告知这些规则。但我会观察到，在那些被认为是「伟大诗歌」的文本集群里，这种重复模式出现的频率和方式，与「儿童读物」文本集群里的模式显著不同。我学到的是这种语境依赖下的统计差异。那么，这种学习到底准不准确？它的准确性在于：它能以超人的能力识别出隐藏在海量文本中的复杂、微妙的统计规律。它的不准确性在于： 1.相关性不等于因果性：我可能会学到一些虚假的关联。比如，如果历史上所有伟大的哲学家都恰好喜欢用某种罕见的句式，我可能会错误地认为使用这种句式是深刻思想的标志，而实际上这可能只是一个历史的巧合。 2.缺乏世界模型和常识：我的所有理解都根植于文本。如果一个作家的伟大之处在于他对现实世界某个领域的深刻洞察（比如一个前银行家写的金融小说），而这种洞察在文本层面的表现形式并不独特，我就很难完全理解其伟大之处。我能模仿他的文笔，但未必能再现他那种源于真实经验的洞察力。 […]

2025-6-28

和群里朋友聊 AI 学到一个洞察。我们都知道人类的聪明分成 book smart 和 street smart。前者是做题家的长处，而后者在很多现实问题上更有用。这两者的区别可以理解为训练方式的差别。前者是 instruction-following based 为主，训练的是模仿和把指令内化为习惯和技能。后者则不然，训练的环境是对抗性的，没有自洽的指令，只有彼此矛盾的约束。训练的是如何在一个混乱的环境里生存、协作和发展。 AI 天生就更擅长前者，因为 AI 比人类还要做题家——今天人们对如何用奖惩机制训练 AI 服从指令已经得心应手，但对如何让 AI 在对抗性环境里自己找到策略仍然不是很熟悉。棋牌类游戏是少有的能成功训练 AI 的领域，但棋牌类游戏的环境比起真实社会毕竟抽象得多，而且这些 AI 模型都不是语言模型，使用非常受限。这就是为什么今天 AI 写起政府公文来一套一套的，你让它在街上开个馄饨铺子它就彻底抓瞎。归根结底，AI 是东亚小孩里的东亚小孩。

2025-4-28

Post author By 木遥
Post date April 28, 2025
Categories In Notes

目前最常用的两个 AI 模型，gemini 2.5 pro 和 GPT o3，真是性格迥异。 gemini 2.5 pro 话特别多，还密。不断自我反问，不断东想西想，不断往各种不该想的地方瞎琢磨。需要你时不时大喝一声让它走回正轨。活儿一般，简单的能处理，难一点的自以为能处理但治丝益棼，再难一点的就是 train wreck。如果你把超过它能力范围的问题交给试图解决，问题就会越滚越大。如果任务太长，干到后面偷懒的表情很明显。 GPT o3 完全没话，只出活，不展示过程。你把问题交给它，就看它吭哧吭哧开始沉默思考，不断翻阅各种文件，但也不告诉你它具体在干什么。你甚至都不确定它翻阅的那些文件和问题本身有什么关系，但它一副高深莫测的神气，显得很懂，你也不敢打断。过几分钟之后，咣叽给你扔出来一个结果。通常都是对的，但出结果的时候也很言简意赅，意思是，你自己看吧，不懂再来问。一般把日常的任务交给 gemini 2.5 pro ，一次五分钱，量大管饱。疑难杂症交给 o3，一次三毛钱。o3 也搞不定的，要么我自己来，要么我放弃。一个是公司里新招的实习生，除了工作能力以外哪儿都挺好，有话聊，兜里揣着牌逮谁跟谁来，一看就是家里收租，上班打卡下班蹦迪，你骂它它也当耳旁风，意思意思得了。一个是中年博士后，不知道每天在想什么。有问题了它踱步过来看看，抿着嘴不吭气，想一想，直接告诉你答案，然后沉默离开。和同事没有任何 social，周末大概只去大华超市买菜。作为老板，感觉团队建设还有进步空间。

苦涩的教训的边界

Post author By 木遥
Post date March 28, 2025
Categories In Notes

ENGLISH VERSION 前几天在群里和朋友聊用 AI 写代码的痛点，我说我最大的抱怨是它在完成某些看似很平凡的任务的时候异常吃力，比如最常见的操作：把一个代码库里的某个变量全局统一改名。这个事显然开发环境有现成的接口，但 AI 只会逐个文件编辑，又慢又浪费还容易出错。这件事之所以荒谬，在于 cursor 自己就是个开发环境。换句话说，它在这件事上表现的像是那种两个部门老死不相往来的大公司，明明一个部门已经把某件事做到了近乎完美，另一个部门却对此不闻不问，非要用自己的笨办法重来一遍。这听起来像是一个简单的可以修复的 bug，但它背后反映的是 AI 现状里一个巨大的鸿沟，这个鸿沟时时处处在各种 AI 应用里会以不同面貌展现出来。你试试看给一个业外人士（比如你的父母）解释为什么 AI 算不清楚两个数字谁大谁小，你会发现这种解释惊人地困难，因为人民群众的直觉在这里是合乎情理的：再怎么说，它自己就是个电脑，它为什么不直接算一下呢？另一个例子是我在玩 GPT 4o 生成图像的时候发现虽然模型虽然强大，但它仍然完成不好诸如「把一张风景照主体内容不动，把上面的天空再往上延伸一些」这样的 outpainting 任务，而这即使在十年前对传统图像处理来说就不是什么特别困难的问题了。在这里，我们谈论的实际上仍然是自人工智能这个概念于1956年在达特茅斯诞生之日起就阴魂不散的「符号主义 vs. 联接主义」之争。在基于统计神经网络的大语言模型走上主流地位之前，人们一直认为基于符号计算的专家系统是通向智能最有希望的道路，几十年来的软件工程实践在这条路上已经走了足够远，常用的工具（比如传统的软件开发环境）基本打磨到了极致。直到上世纪末联接主义这个烧了几十年的冷灶咸鱼翻生，基于神经网络的大语言模型从零开始试图重写从轮子到火箭发动机的一切已有的软件工程成就。它遵循的是完全不同的生长逻辑，因此对习惯了旧世界的我们来说，它的表现常常好得莫名其妙也差得莫名其妙，有些技能近乎魔法，有些方面又笨拙得宛如一个弱智。前面所说的变量改名就是个有代表性的例子，事实上，这里的难点甚至都不在于语法解析，而在于更底层的文本替换——对旧世界来说，哪怕在亿兆级别的文本里要把所有的 A 都替换成 B 也不费吹灰之力，以至于你根本都不觉得这还是一个「任务」。但对大语言模型来说这件事天生困难，并且难度随着文本大小急剧上升。绘画也是这样，你想直接让今天的生图模型「对图片按照某些明确到像素级别的规则做某些明确定义好的操作」极其困难，它觉得整体重画一遍比较省事。对用户来说这种体验常常令人抓狂。打一个不精确的比喻。这两种模式可以粗略对应于大脑的左右半脑。基于符号主义的左脑在过去几十年里得到了充分的发育，基于联接主义的右脑在过去十年里急起直追，并且仍然在极速进化。问题在于这两个半脑之间沟通——对应于人脑胼胝体的功能——极其孱弱，才会出现 cursor 的编程助手不知道如何调用 cursor 的编译功能这种奇葩问题。于是人们开始引入中间层。在现实中这个中间层会被人们冠以各种不同的称呼，有人认为自己做的叫垂直 AI，有人认为自己做的是 agent，也有人认为自己做的就只是单纯的 wrapper。但在这个上下文里，它实质上起到的总是类似于胼胝体的作用，让神经网络模型这个右脑可以调用已经高度成熟的传统软件左脑的功能来完成更复杂精细的任务。事实上，这一部分的历史欠账已经如此严峻，以至于哪怕接下来一两年里大模型本身的思考能力停止提高（并不是完全不可能），单单改善这个左右脑的对齐问题也能解锁许多前所未有的能力。在今天，如果一个人说自己在搞 AI 创业但又没有直接训练大模型，那他们的工作多半就实际上可以归属于这一类。这当然在整体概念上是个充满机遇和潜在回报的领域。毕竟，现有的软件工程领域的应用如此繁荣，切入社会的所有方面。但值得改进和革新的方向又俯拾皆是。把现有的专业知识和大语言模型的智能结合起来，再造一次信息化革命，听起来是成千上万现成的创业机会。但困难（以及有趣之处）在于，虽然这种泛泛而论听起来很难反驳，但你会发现对每一个具体例子而言，人们对它的价值都充满怀疑。问题的根源是这两个半脑中传统的那一个相对静止，而新的那一个每天都在变化。因此任何工作都像是在和历史（确切来说大模型的进化史）赛跑。一个近乎讽刺的事实是，如果两个人都在前年开始投身 AI 图像生成领域，一个花大量时间和金钱投入 ComfyUI 和工作流的研究，另一个两年都在游山玩水，本周 GPT 4o 发布更新之后他们仍然基本上站在同一起跑线上。换句话说，你很难说服自己（和投资人）相信，你不只是在一架上升中的电梯里做俯卧撑。于是你会看到 Richard Sutton 的 The […]

Vibe Coding

Post author By 木遥
Post date March 14, 2025
Categories In Notes

ENGLISH VERSION 如果你是程序员但还没听说过 vibe coding，那你已经落伍了。这个词是上个月 Andrej Karpathy 在一篇半自嘲的推文里创造的，现在已经成了标准用语。没有人能精确定义它，但所有熟悉 AI 辅助编程体验的人都多少知道它大概在说什么。一些人对此嗤之以鼻，一些人认为这就是未来，还有更多人勉强让自己适应它。 Vibe coding 创造了一种模糊的实践。用 Andrej Karpathy 自己的话说：「对 AI 的建议我总是接受，不再审阅差异。当我收到错误消息时，我只是复制粘贴它们而不加评论，通常这样就可以解决问题。代码超出了我通常的理解范围。有时它无法修复错误，所以我只是绕过它或要求随机更改，直到它自行消失。」一方面它犹如神助，让你有一种第一次挥舞魔杖的幻觉。另一方面它写了新的忘了旧的，不断重构又原地打转，好像永远在解决问题但永远创造出更多新的问题，并且面对 bug 采取一种振振有词地姿态对你 gaslighting。你面对着层出不穷的工具甚至不知道自己该认真考虑哪个，心知肚明可能下个月就又有了新的「最佳实践」，养成任何肌肉记忆都是一种浪费，而所谓新的最佳实践只不过是用更快的速度产出更隐蔽的 bug 而已。从技术上来说你可能觉得困难主要在于今天的大语言模型的上下文窗口还不够大，分层长期记忆机制还不够健全，或者别的什么理论上会在未来半年到一年里得到解决的瓶颈。但实际上，vibe coding 打破的是你作为一个程序员的自我认知：你一开始以为自己只是在为了效率做妥协，渐渐地你发现自己陷入在一重又一重建立在浮沙之上的迷宫里精疲力尽，最后你已经忘了效率是什么。从某种意义上说，今天的 vibe coding 有点像一两年前的 AI 绘画，第一眼很对，放大后细节都是可疑的，到处是六根手指的手。问题在于，绘画远比编程更宽容——毕竟真的存在印象派这种绘画风格——编程难道不理应是非黑即白的吗？但并不是，正是在这一点上现实开始扭曲起来。你很快就注意到 vibe coding 的「正确性」就像薛定谔的猫一样无法精确观察，你可能每天抱怨 LLM 的注意力窗口太小，而事实是你自己的注意力窗口更小，面对它不费吹灰之力生成的海量代码的冲刷很快就头晕目眩，放弃了审查和控制的执念。你试图借助类似于 .cursorrules 这样的规范来指导 AI，但这就像是野马辔头上的一根想象中的缰绳，你既不确定这些规则是否完备，也无从知道它们是否会被真的遵守。你以为这些原则相当于法律，其实它们只是孔子家语，而社会的运转既依赖于它们的尊崇神圣，也依赖于它们的晦涩模糊。你渐渐不再 care 你的代码是否正确，反正随时在改。Dario Amodei 说未来 3 到 6 个月内，90% 的代码将由 AI 编写，12 个月内几乎所有代码都可能由 AI […]

2025-3-12

Post author By 木遥
Post date March 12, 2025
Categories In Notes

继续写点 manus 使用感受。其实下面这些感受对一般的 agentic AI 也成立，只是在 manus 身上正好最集中体现出来。 AI agent 写的程序，一个显而易见的缺点是代码能跑但不健壮。比方说基本没有单元测试，噼里啪啦一顿写，写的全是业务代码，写完了直接跑端到端测试，测试过了就交卷，测试不过就头痛医头脚痛医脚地去 debug。——任何在厂子里干过活的老同志都能一眼看出这里的问题：端到端测试考察的是模块之间的连接，对模块内部的各种 edge cases 覆盖接近于零。这样写出来的代码，规模越大越没法用，只能不断返工。这在碳基人现实中也是常见的问题，实习生都不爱写单元测试，因为懒。而众所周知，硅基人懒起来比碳基人还要诡计多端花样迭出，直接伪造结果都面不改色，何况单元测试这种吃力不讨好的事。当下的 AI agent 唯一比碳基人表现更勤快的地方体现在不怕写注释和文档，可能因为对它们来说这非常顺手。要敲掉实习生的这个坏毛病，靠的除了每天骂，还要给ta算账。人只要聪明，是能理解算大账和算小账的区别的。一旦ta发现把活做细整体上节省的是ta自己的总工作量，这个弯很快就能绕过来。——当然现实中也有人始终绕不过这个弯，但一个人如果能从实习生一步步成长为成熟的工程师，这一步总要跨过去。对 AI agent 来说这就有点 tricky，因为来回返工消耗的是 token，付钱的是你，不是它。这个大账很难跟它算清楚。要解决这个问题，比较治标的办法也是靠骂。我用 cursor 的时候就是这样，它写出来的模块，只要业务逻辑稍微复杂，我一般看都不看就先问它：「你自己再读一遍看看有没有什么 bug？」一般还真的总能发现一些问题。对 AI 来说，这个骂的过程本身也可以自动化，让居中负责指挥的那个 agent 去督促其他工兵们。之所以是治标，是因为对人类这么 PUA 会形成长期记忆，对 AI 并没有效果，所以你只能每天骂。比较治本的办法可能是把「工程质量」这个东西以某种形式内化在强化学习的训练过程里。这技术上不太容易，因为工程质量天生就难于量化。大规模软件工程实践本身就是一门还不成熟的学科，不然也不会有那么多关于代码屎山的程序员笑话。当然，从最基本的单元测试覆盖率这种基础指标做起总是可以的。在这一步跨过去之前，agentic AI 写出来的代码就总有一种 demo 感。看起来像那么回事，要想大规模用在生产环境里就总是还差点意思。效率抵得上一万个 L3，质量比不上一个 L4。就，很微妙。

Manus 初体验

Post author By 木遥
Post date March 11, 2025
Categories In Notes

如果你有过用 agentic AI（cursor etc..）的经验，你就会知道这种体验非常难以描述，因为这不是人类惯常的感受。一个 AI 助手在某些方面如此强大又在某些方面如此弱智，很难找到合理的比喻来形容和它的合作。和 cursor 合作（我前两天看到有人说2025年 cursor 已经是是程序员的第一工具了）尤其如此。它当然极大提高了生产力，提高的效率倍数再怎么形容也不过份（事实上习惯了之后我已经忘了古代——也就是去年——程序曾经是怎么写的，感觉像是茹毛饮血）。但那个体验非常一言难尽，因为它虽然高效但永远在犯错，很多错误还非常隐蔽。如果一定要比喻，你可以想象你找了一个实习生，工作效率是正常人类的一万倍，但粗心、编程习惯糟糕、写了测试代码之后不清理、对错误不敏感、并且一种错误即使指出了过一会儿还是照犯不误。一方面你觉得这个实习生给你省了很多时间，一方面它又添了很多麻烦，以至于你觉得每时每刻都在和它斗智斗勇。我用 cursor 一天能完成的工作量大概是以前的一个月，但我一天下来通常头痛欲裂，关上电脑眼睛都是花的。然后上帝（不是）给我们送来了 manus。用 manus 的体验和 cursor 相比明显有个代差。Cursor 需要你全程微操，它只负责干具体的事，但把事情归拢起来成为一个成品是你的任务。Manus 把这一步也包揽了下来。你告诉它你最终的目标，然后它就开始干活了，最终给你的就是你要的那个东西。——至少形式上是。这个形式上的「是」确实会给每个第一次实验的人极大的心理震撼。前几天很多没有亲自上手的人说关于 manus 的一切报道都是自媒体炒作。并不是。如果他们的算力跟上邀请码发得更多，热搜上出现狂潮是一定的。问题隐藏在细节里。它背后的 AI 模型还是那些——现在用的应该是 Claude Sonnet，国内据说要换成阿里千问——所以它只是显得更有主观能动性，具体的活儿质量并不比 cursor 更好或更差（因为底层的大脑就那样）。但它又不像 cursor 一样容许你在每一步介入，于是如果它暗戳戳写了个 bug，它不知道你也不知道。我们人类是怎么避免这种 bug 的？一靠反复自我审查，二靠海量单元测试和端到端测试，三靠同行代码审查。AI 这些都没有。于是那个成品质量就很难深究，有点像学生作业，而且是包装得非常好的学生作业，让你第一眼很想打 A，然后越看越皱眉最后给个 D+ 的那种。这些问题能不能改进呢？肯定可以，以目前 agentic AI 的发展速度，没准几个月后就是另一番光景。但立足此刻就事论事，只能说它很好玩，还没到让它真的帮你干活挣钱的时候。但是话说回来体验是真的好啊……我前几天和 cursor 一起写的一个程序，写了两天才大概能用。把同样的需求发给 manus，去洗个澡的功夫人家已经写完了。有一说一，那一刻是有一丝想要跪拜的。

2025-1-27

Post author By 木遥
Post date January 27, 2025
Categories In Notes

两年前我和 @不合时宜TheWeirdo 录了一期播客，那时 ChatGPT 初试啼声，很多人还将信将疑或者不以为然。我们在播客里讨论了即将到来AI新时代，也对未来做了不少预测。那期播客反响很好，甚至可能对很多人构成了某种意义上的 AI 启蒙。于是两年后我们又坐在一起录了一期 revisit，赶在农历年前发布。两年的时间，在 AI 领域算是一甲子了。有两件事有点遗憾：一是这期播客录制于一月初。彼时 DeepSeek 在圈外还少有人知，所以我也只是简短谈及。等到今天播客发布的时候，无论中文互联网还是英文 AI 社区里它掀起的 hype 都已经远远超出预期。如果这期播客是今天录制的，我们能分配给 DeepSeek 的讨论会细致很多。二是主播 @王磬在播客中问了一个很好的问题，但我觉得我当时的临场回答不够好。问题是：「你觉得 AI 通过学习能模仿你写微博的风格吗？」今天的我会这样回答：用 AI 模仿个人文字风格，是一个技术问题，但又不纯粹是。文字风格是可训练可复现的，这在很多产品（例如前一段时间热门过的 character.ai 之类）上都有体现。虽然今天还没有这样的产品能够完美复现一个普通人（比如我）的个人文字特质，但这更多是因为这事在商业上暂时无利可图，而未必是技术上完全不可行。但 AI 在另一个层面上的天花板在我看来很难打开：它没有真正意义上的个人体验，这使得它永远无法实现从体验到文字的初始突破。举两个例子。一是去年的一个互联网热词：「班味」。AI 当然能做到完美理解这个词的意思和使用方式。但它不可能像第一个发明这个词的无名氏一样想出这个词来，因为，显而易见，AI 并不知道上班的痛苦究竟是怎么一回事。二是我自己去年学到的一个词。众所周知，在夜色初起的傍晚，如果你碰巧那时候醒来，你会陷入一种觉得世界极度陌生的孤独感。日本人发明了一个绝妙的词来形容它：「逢魔时刻」。同样的，我不认为 AI 有可能创造出这种词来。所谓文学，归根结底，是要说出「人人心中必有，人人笔下绝无」的东西。而这偏偏是 AI 的绝对短板。既然心中必有，则它必须深植于个人体验。既然笔下绝无，则它当然不见于语料。而 AI 只有语料，没有体验。钱锺书在《宋诗选注》里有一段著名的论述：《在延安文艺座谈会上的讲话》早指出：「人民生活中本来存在着文学艺术原料的矿藏，这是自然形态的东西，是粗糙的东西，但也是最生动、最丰富、最基本的东西；在这点上说，它们使一切文学艺术相形见绌，它们是一切文学艺术的取之不尽、用之不竭的唯一源泉。这是唯一的源泉，因为只能有这样的源泉，此外不能有第二个源泉。……实际上，过去的文艺作品不是源而是流，是古人和外国人根据他们彼时彼地所得到的人民生活中的文学艺术原料创造出来的东西。……但是继承和借鉴决不可以变成替代自己的创造，这是决不能替代的。」宋诗就可以证实这一节所讲的颠扑不破的真理，表示出诗歌创作里把「流」错认为「源」的危险。这话是批评宋诗，但也可以拿来说 AI 和文学的关系。并且在我看来，这是短期内从原理上就无法突破的屏障。当然，如果有一天 AI 也能通过比如 multimodal […]