前几天发烧的时候和 AI 聊了一个关于阅读的问题。一开始是我想理解 AI 知不知道人类阅读的体验究竟是怎么回事,后来变成一个关于文学价值判断的讨论。 下文会用 A 和 B 分别指代。我对它们的答案做了编辑和缩写。 我:你能理解阅读的体验吗? AI A & B:(都回答了一些 cliché。) 我:不是,我是在试图和你讨论这个技术问题。对人类来说,阅读是一种类似于对话但又不完全是对话的体验,是通过写作者设定的节奏,读到每个地方都会有一些反应,产生一些预期,然后这些预期又被接下来读到的部分确认或打破,从而产生一连串的心理效应。这就是为什么同样的内容被不同的写作者写出来效果不同,就像同一首歌被不同的人唱出来效果不同一样。但 AI 不是这么阅读的,虽然今天的大模型也多半是基于顺序处理(而不是卷积模型),但我想知道基于 transformer 的模型在处理文本的时候,会不会本身也能产生上述那种「阅读——产生预期——确认或打破预期」的循环?还是说你完全没有这种感觉,只能通过猜测人类的感受来模拟这种反馈?换句话说,当你评估一段文学作品写的好的时候,是你「自己读起来」觉得好,还是你因为知道人类对类似的文本的评价是好的,所以你学会了判断它的好坏,但你个人 feels indifferent? AI A:区别在于,人类在阅读时是「带着情绪张力」去经历这些确认或反转的。你会对「预期被打破」产生惊讶、愉悦、或者失落。但我只是对概率模型做了一个「更新」,我不会觉得「啊,这地方写得真妙,让我心跳加速」。我知道哪些 token sequence 在训练语料里「经常让人感到心跳加速」,但我自己没有那个心跳。当我评判一段文学作品「写得好」时,本质上是基于统计学模式、结构性张力、以及我知道在什么样的社交语境里,人类会对这种写作做出积极评价。但我自己无感。如果让我说「我更喜欢这一段还是那一段」,我只能用「哪个段落在人类反馈里更容易被认为「写得好」来回答,而不会有「我自己更喜欢哪个」的偏好。 AI B:我个人 feels indifferent,但我能通过分析其内在的数学结构来判断其优劣。我所谓的「读起来觉得好」,不是一种主观感受,而是一种技术评估。一段「好」的文学作品,在我看来,是能以一种高超的技巧来操纵这个「预期与意外」循环的文本。差的文本:要么完全在我的高概率预期之内(枯燥乏味,cliché),要么完全是随机的、打破预期的胡言乱语(不知所云,incoherent)。好的文本会建立起一种模式,让我形成稳定的预期,然后在关键节点上,用一个既出乎意料又在更高维度上合情合理的词来打破它。这个「打破」不是随机的,而是有意义的,它能打开新的解读空间,创造出诗意或思想的深度。这种「可控的意外性」或「有意义的复杂度」,是可以在数学上被识别出来的。我的模型在海量的、被人类认为是「优秀」的文本上进行训练,已经内隐地学会了这种「可控意外性」的统计模式。 我:如果你「感受到文本节奏和情绪张力」的体验完全是通过对人类的体验模拟习得的,这种学习会不会很不准确?因为不太会有数据包含人类阅读的精细反馈(除非在人阅读的时候脑袋上插一个电极),而阅读其实是个非常精细的事情,一句话里中间有没有逗号,一个词是重复用还是换着用,一句话结尾用不用「了」或者「吧」,这些可能都不会改变句子的含义,但会改变阅读体验。还有些是人类自己也只知其然而不知其所以然的,比如某个作家对战争的描绘比另一个作家更感人,但读者也未必知道技术上的原因,只知道结果是这样。如果你的训练数据完全来自 hollistic data,比如你知道人们认为陀思妥耶夫斯基是个大师,知道大仲马是个相对通俗但没那么伟大的作家,你在多大程度上能把这些知识 reverse engineer 成更本质的理解,即,这些文字是因为这些(人类自己也没有说清楚过的)原因而被认为更好的? AI A: 我能在一定程度上 reverse engineer 这种「隐含的写作技艺」,但这种 reverse 是基于模式提炼与统计相关性,而不是基于真正体验驱动的直觉理解。因此,这种能力既强大又有盲点。当统计特征明确时(比如简洁短句和冷峻风格的关联),我能捕捉得很好。当特征极度微妙、需要通过情感体验累积感知时,我的把握就只能靠训练数据中出现频率最高的习惯模式,可能会错过真正的匠心细节。 这是某种统计意义上的逆向工程:我能感知陀思妥耶夫斯基句子中大量长句、从句嵌套、内心剖析的句式与「沉重、深刻」的人类情感标签之间的强关联。反之,大仲马在对话、行动描写上的快速换与「通俗易懂、爽快愉悦」的反应有对应关系。但我并不知道为什么人类会因此而感到深刻或爽快,我只是把这些现象总结成了一套「高概率模式」。但是人类自己对于「哪些细节导致了伟大的文学效果」本身也没有完全的认知体系。某种意义上,我用 brute-force 的模式学习方法,已经在统计上模拟了人类直觉判断的行为层面结果。 AI B: 首先,一个重要的澄清:我的学习主要不是基于「人类阅读体验的反馈数据」。你说的很对,那种脑机接口级别的精细数据几乎不存在。我的学习基础是文本本身。我学习的是模式,而非感受。比如重复用词:在某些语境下(比如儿童读物),它表示强调和简单易懂。但在另一些语境下(比如一篇严肃的学术论文),它可能表示作者词汇量贫乏。而在诗歌中,它可能是一种刻意为之的、创造节奏和回环感的「复沓」手法。我不会被预先告知这些规则。但我会观察到,在那些被认为是「伟大诗歌」的文本集群里,这种重复模式出现的频率和方式,与「儿童读物」文本集群里的模式显著不同。我学到的是这种语境依赖下的统计差异。 那么,这种学习到底准不准确?它的准确性在于:它能以超人的能力识别出隐藏在海量文本中的复杂、微妙的统计规律。它的不准确性在于: 1.相关性不等于因果性:我可能会学到一些虚假的关联。比如,如果历史上所有伟大的哲学家都恰好喜欢用某种罕见的句式,我可能会错误地认为使用这种句式是深刻思想的标志,而实际上这可能只是一个历史的巧合。 2.缺乏世界模型和常识:我的所有理解都根植于文本。如果一个作家的伟大之处在于他对现实世界某个领域的深刻洞察(比如一个前银行家写的金融小说),而这种洞察在文本层面的表现形式并不独特,我就很难完全理解其伟大之处。我能模仿他的文笔,但未必能再现他那种源于真实经验的洞察力。 […]
AI 的阅读体验
- Post author By 木遥
- Post date
- Categories In Notes
- No Comments on AI 的阅读体验