Ð
Essay · 2026

读书札记 |《What Is ChatGPT Doing ... and Why Does It Work?》

这是一本极其特别的书

🎧 朗读版 · 栋哥召唤 · 43分16秒
引 子

"ChatGPT 是基于神经网络的概念——这一概念最初在1940年代被发明,作为对大脑运作的理想化。我自己第一次写神经网络程序是在1983年——当时它没做出任何有趣的事情。但40年后,凭借着大约快了一百万倍的计算机、网上的数十亿页文本、以及一系列工程创新,情况完全不同了。"

——Wolfram, 自序


第 一 节

这本书在做什么

这是一本极其特别的书。它不是教程、不是综述、也不是科普读物,而是一位计算理论家在 ChatGPT 问世三个月内写下的"现场反应"——既要把"它是什么"说清楚,又要追问"为什么它能 work"。书由两篇文章合订:

Wolfram 的视角非常独特:他既不是 OpenAI 团队的人,也不是纯粹的旁观者;他做了40多年神经网络、做了 Mathematica、做了 Wolfram|Alpha、提出了"计算等价性原理"和"计算不可约性"概念。所以他看 ChatGPT,是用计算理论框架去看的——这恰恰让这本书在所有 ChatGPT 解释材料中独树一帜。


第 二 节

第一篇主线:从"加一个词"到"语义运动法则"

2 · 1一切的起点:它只是在加一个词

Wolfram 开篇就把神秘感剥光了:ChatGPT 在做的事情,本质就是不断回答这个问题——"给定到目前为止的文本,下一个词应该是什么?" 然后把这个词加上去,再问一次,再加一次。

但这里有个关键的"巫毒"细节:

"这里没有用任何'理论';这只是一个在实践中被发现有效的经验值。'温度'这个概念出现在这里,是因为统计物理中熟悉的指数分布恰好被用上了,但据我们所知没有任何'物理'上的关联。"

栋哥札记:这一段可以直接对应到我做参数雕塑时的体会——所谓"算法盲力"在 LLM 这里有了一个统计学版本。零温度=确定性=死气沉沉;高温度=失控;0.8≈艺术家选择的"扰动度"。这是个生成系统的普遍问题,不是 ChatGPT 独有。我做 Equation Bloom 时调权重也是这个感觉。

2 · 2概率从哪里来?n-gram 的死路

Wolfram 用一个简洁的归谬法说明为什么不能用"统计 n-gram"硬干:

所以必须有"模型"——一种能从未见过的序列里也估出概率的东西。这就是 LLM 存在的根本理由。

2 · 3什么是"模型"?

Wolfram 用伽利略测炮弹下落的例子讲清楚一个深刻的事实:

"永远没有'无模型的模型'。任何你使用的模型都有某种特定的底层结构,加上一组'你可以转动的旋钮'(即可以设置的参数)来拟合数据。在 ChatGPT 的情况下,这种'旋钮'非常多——实际上是 1750 亿个。"

这一段对建模者来说是醍醐灌顶的。直线模型、抛物线、甚至 a + b/x + c·sin(x) 都是带先验结构的猜测。ChatGPT 也是——只不过它的猜测结构是"transformer 架构",参数 1750 亿。

2 · 4神经网络的本质

Wolfram 用最朴素的方式重述:每个神经元就是 f(w·x + b)——加权求和,加偏置,过一个激活函数(通常是 ReLU)。整个神经网络无非是这种简单运算堆出来的一个庞大数学函数。ChatGPT 的神经网络也是同一种东西,只不过有数十亿项。

关键观察:

"对于人类样的任务(human-like tasks)来说,通常更好的做法是直接训练神经网络处理'端到端'的问题,让它自己去'发现'必要的中间特征、编码等等。"

早期搞语音识别的人会想"先分音素吧"——结果发现不如让网络自己学。这是 deep learning 整个范式的核心立场。

2 · 5训练就是沿着 Loss 下山

把 loss function(比如 L2 距离)想成一个高维风景,训练就是沿最陡下降方向走。微积分的链式法则让我们能在多层网络里"反向传播"梯度。

反直觉的发现:

"在某种意义上,当涉及大量权重时做最小化(至少是近似最小化)反而比权重很少时更容易……当你有大量'权重变量'时,你拥有一个高维空间,里面有'大量不同方向'可以引向最小值;而变量较少时,更容易陷入局部极小值。"

这是 2011 年深度学习突破的本质——高维度反而救了优化问题

2 · 6训练的"art and lore"

整章承认了一件事:训练神经网络很大程度上是一门手艺(art),不是科学。

"至于多大的网络才能完成特定任务?这是一门艺术。"

栋哥札记:Wolfram 用"lore"(口口相传的经验)这个词非常准。这其实和我所有写代码工具的体会一致——所有真正能 work 的东西最后都靠"经验值的堆叠"。Three.js 的物理模拟、Verlet 积分的阻尼系数、SDF 的边界处理……都是 lore。

2 · 7Embedding:把意义变成数字

这是全书最关键的概念之一。

核心思想:embedding 就是用一组数字来表示某物的"本质",使得"相近的东西"对应"相近的数字"。

如何造出 embedding?Wolfram 的解释非常精彩——你不用直接定义"图像之间的相似性",而是设计一个有明确训练数据的任务(比如手写数字识别),然后截取神经网络做最终判断之前那一层的数值——那一层数字隐含着"4 但有点像 2"这种判断,正好可以用作 embedding。

对词的 embedding 也是同理:训练一个"预测下一个词"的网络,截取其内部层。word2vec、GloVe、BERT、GPT 全都是这一思路的不同变体——把每个词变成几百到几千个数字组成的向量。

GPT-3 用的 embedding 长度是 12288。这就是 LLM 中"语义"的物质基础。

2 · 8ChatGPT 内部:transformer 的三个阶段

Wolfram 把 GPT-3 的内部分解成三步:

  1. Embedding 模块:把 token 序列变成 embedding 向量。每个 token 的 embedding = 词义 embedding + 位置 embedding(直接相加,"为什么相加?没什么道理,就是这样 work")。
  2. Attention blocks 序列:GPT-2 是 12 个,GPT-3 是 96 个。每个 block 里有多个 "attention heads"(GPT-2 有 12 个,GPT-3 有 96 个),每个 head 独立处理 embedding 向量的不同 chunk。Attention 的本质:回看 token 序列,把"过去"打包成对预测下一个 token 有用的形式
  3. 解码:取最后一个 embedding,转成约 5 万个 token 的概率分布。

关键架构事实(栋哥版本的脑图):

项目 GPT-2 GPT-3
Embedding 长度 768 12,288
Attention block 数 12 96
每 block 的 attention head 数 12 96
总参数 1.5 亿 1750 亿
最长路径(核心层数) - 约 400 层

"如果我们看 ChatGPT 中最长的路径,大约涉及 400 个(核心)层——某种意义上不算多。但有数百万个神经元,总共 1750 亿个连接,因此 1750 亿个权重。需要意识到的是,每次 ChatGPT 生成一个新 token,它都必须做涉及每一个权重的计算。"

而且——ChatGPT 是纯 feed-forward 的,没有循环、没有"返回去重算"。这是个比图灵机弱得多的计算结构。它唯一的"外层循环",是把自己生成的 token 加回输入再跑一遍。

2 · 9训练:原始训练 + RLHF

Wolfram 注意到一个微妙现象:

"你只需要把某件事告诉 ChatGPT 一次——作为你给它的 prompt 的一部分——它就能在生成文本时成功地利用你告诉它的内容……更可能的是,元素已经在那里了,但具体是由元素之间的'轨迹'定义的,而那是你告诉它东西时引入的。"

这是把 prompt 看成是在已学语义空间中划出一条轨迹

2 · 10计算不可约性的天花板

这一章是 Wolfram 最有自己印记的部分。

核心命题:神经网络越大就越万能?错。计算不可约性(computational irreducibility) 决定了它做不到。

"在可学习性与计算不可约性之间存在根本性张力。学习本质上是通过利用规律性来压缩数据。但计算不可约性意味着,规律性最终是有上限的。"

"你想让一个系统'真正使用'其计算能力的越多,它就越会展现计算不可约性,也就越不可训练;它越是根本上可训练,它能做的复杂计算就越少。"

这是个深刻的二律背反

反过来,Wolfram 给了一个非常有趣的反向观察

"ChatGPT 写文章这件事的成功,并不意味着计算机变强了——而意味着写文章这件事本身是计算上比我们想象的更浅的问题。"

这一句对人文领域来说应该是震撼的。它含蓄说出:人类引以为豪的语言智能,可能不是那么"高深"的东西。

2 · 11真正让 ChatGPT 工作的是什么?

Wolfram 在这里下了一个判断:

"我的强烈猜测是,ChatGPT 的成功隐含地揭示了一个重要的'科学'事实:有意义的人类语言比我们以前所知的具有更多的结构和简洁性——并且最终可能存在描述这种语言如何被组合起来的相当简单的规则。"

也就是说:ChatGPT 不仅是工程奇迹,它的成功本身就是关于人类语言本质的一次科学发现——语言比我们想的更"law-like",更"shallow"。

2 · 12语义空间与"语义运动法则"

Wolfram 把每段文本看作 embedding 高维空间里的一个点,把生成文本看作在这个空间里画轨迹。然后他大胆问:

"可能存在某种'语义运动法则',定义——或至少约束——空间中的点如何在保持'有意义性'的前提下移动吗?"

他展示了一些 2D 投影:

但他也诚实地承认,他画出的实际生成轨迹"看起来像一团乱麻"——也许还没找到合适的"坐标系"。

"也许我们正在看错变量(或错误的坐标系),如果只看正确的那个,我们会立即看到 ChatGPT 在做某种'数学物理上简单'的事情,比如沿测地线行进。"

栋哥札记:这是全书最让我触动的部分。把语义看作可被几何化的轨迹——这正是计算建模的最高野心。如果真有"语义流形",那么一切语言活动都可以被还原为流形上的运动学问题。这和我做的"等式开花"系列——把雕塑形态视作参数空间里的轨迹——是同构的思考。Wolfram 在这里实际上在召唤一种意义的微分几何学

2 · 13语义文法与计算语言

最后 Wolfram 引向他自己的核心主张:

要描述意义,必须有"世界模型"做支撑。在 Wolfram 看来,计算语言(computational language,即 Wolfram Language)就是一种通用的世界模型化方式。它可以为城市、分子、图像、神经网络……提供精确的符号表示。

"我们可以将计算语言和语义文法的构造视为一种关于事物如何表示的终极压缩。因为它让我们能够谈论可能性的本质,而不必处理普通人类语言中存在的所有'语句变体'。"

ChatGPT 隐式地学到了某种语义文法——但它是模糊的、不可解释的。如果能用计算语言显式写出来,威力会大得多——既能"听起来对",又能"真的对"。


第 三 节

第二篇:Wolfram|Alpha 作为"计算超能力"

第二篇要短得多,但它把第一篇的诊断变成了药方。

3 · 1ChatGPT 不会的事

Wolfram 给了一系列让 ChatGPT 翻车的例子:

这些都是精确计算领域。机器学习再大,碰到需要算法的事就不灵——这正是计算不可约性那一节的实际后果。

3 · 2双范式之合流

"几十年来,AI 领域中一直存在一种二分法:ChatGPT 这类'统计方法',与 Wolfram|Alpha 作为起点的'符号方法'。但现在——多亏 ChatGPT 的成功,以及我们在让 Wolfram|Alpha 理解自然语言上做的所有工作——终于有机会把它们结合起来,做出比任何一方单独都强得多的东西。"

Wolfram 提出的接口是自然语言:ChatGPT 可以用自然语言"对话" Wolfram|Alpha,就像人那样。Wolfram|Alpha 把自然语言转成精确的 Wolfram Language 计算,再把结果返回给 ChatGPT 整理成自然语言回答。

这一篇展示了几个具体的"修补流程":

  1. ChatGPT 给出一个错误事实/计算。
  2. 把同样的问题用 Wolfram|Alpha API 跑一遍。
  3. 把结果作为补充上下文喂回 ChatGPT。
  4. ChatGPT 礼貌地接受订正,给出正确答案。

更有趣的是:ChatGPT 可以被引导主动提出"我要去查证什么事实"——然后再去 Wolfram|Alpha 查。

3 · 395% 的哲学

"结果几乎从来不会'完美'。也许某件事 95% 的时候 work。但再怎么努力,剩下的 5% 仍难以企及。从某些目的看,这可以视为失败。但关键点是,往往有许多重要的 use case,95% 就'够好'。"

但当事情必须精确时——比如计算、推理、查事实——机器学习不是路径,就像人类自己也不是。我们这时候用工具:计算器、查询系统、形式化语言。AI 也应该如此。

"ChatGPT 在'人样的部分'做得很好,那里没有精确的'正确答案'。但当它被'要求做精确的事'时,它经常掉链子。但整个要点是,存在一种很好的方式来解决这个问题——把 ChatGPT 连接到 Wolfram|Alpha 及其所有的计算知识'超能力'上。"


第 四 节

追问:意义的几何结构会是什么?

Wolfram 在第一篇里召唤了"语义运动法则",但没给出实际的几何对象。这个问题值得单独展开——因为它是整本书最具野心、也最未完成的指向。这一节把这个问题分成三层:已经看到的、还在猜测的、我自己倾向的判断

4 · 1已经被实证看到的几何结构

这部分不是猜测,是这十年里 word2vec、BERT、GPT 系列模型反复观察到的事实。

第一层:局部聚类(语义邻近)。意义相近的词在 embedding 空间里距离近——"猫"靠近"狗","国王"靠近"王后"。这是最弱也最稳的一条结论。空间上"近"对应着语义上"可互换"。

第二层:线性方向编码属性。著名的 king - man + woman ≈ queen。这意味着"性别"在高维空间里大致是一个方向向量——一根直线。"首都关系""比较级""时态"也都被发现可以这样线性提取。这暗示的几何结构是:某些语义维度是高维空间里的线性子空间。意义不是均匀分布的云,而是被一组方向所组织。

第三层:稀疏的线性叠加(superposition)。Anthropic 这两年的 dictionary learning / sparse autoencoder 工作证实:神经网络内部把成千上万个概念特征塞进一个低得多的维度里,靠"稀疏激活"区分。一个 embedding 向量 ≈ 几千个特征向量的稀疏线性组合。几何上,这意味着空间里存在一组"特征基"(不是正交基,而是过完备的字典),意义=在这组基上的稀疏系数。

第四层:层级/树状结构在某些方向上浮现。Hewitt & Manning 的 structural probe 工作发现 BERT 的某些子空间里,句法依存树近似嵌入为欧氏空间里的距离结构。也就是说,句法树是被几何编码的——不是显式存储,而是作为距离的模式存在。

第五层:类别呈"圆锥"或"流形"形状。单个词的不同义项(前面 Wolfram 提的 crane = 鸟/起重机)在空间里形成可分离的子簇。一个多义词不是一个点,是一团结构化的点云——它的几何形状本身编码了它的语义复杂性。

4 · 2还在猜测阶段的几何结构

这部分是 Wolfram 在书里召唤、但实际还没人做出来的方向。

动力学层面的几何。已知的都是静态几何——词在哪里。Wolfram 真正想问的是动力学:当生成文本时,轨迹遵循什么"运动方程"?是测地线?是某种势场下的最速下降?是带噪声的扩散?目前连观测都没有定论,更别说方程。

曲率与流形结构。意义空间是平的欧氏空间还是弯曲的流形?类比关系(A:B::C:D)的"平行四边形"在某些方向工作、在另一些方向失败——这暗示空间是弯曲且各向异性的。但具体是什么曲率结构、有没有不变量、有没有对称群——都还没答案。

是否存在守恒量。物理学最深的几何洞察是 Noether 定理:对称性 → 守恒量。如果意义空间真有"运动法则",那对应的"守恒量"会是什么?意义本身?连贯性?信息?这是个完全开放的问题。

拓扑结构。有没有"洞"?有没有不可化约的环路?意义空间是单连通的吗?某些哲学概念(悖论、自指)也许对应着空间里的非平凡拓扑——但这只是隐喻级别的猜测。

4 · 3我倾向的判断:分层杂合体

如果一定要下注,我倾向这样的判断:

"意义的几何结构"大概率不是一个干净的数学对象,而是一个分层杂合体。

栋哥札记:如果意义空间的高层结构真是局部几何的拼接而不是统一流形,那么"调用者"的工作本质上就是在区域之间挑路径——而不是在某个连续空间里做优化。这跟我做 MultiPipe 节点拓扑时那个"拓扑驱动节点、参数驱动茎"的分离很像:意义的拓扑结构和参数化结构是分开的。LLM 学到的是参数化部分(每个区域里怎么平滑生成),但拓扑(区域之间的连接关系)是更深的东西,可能根本不在 embedding 空间里,而在某个更抽象的"空间的空间"里。这正好对应"调用者宣言"里那个核心姿态——人不是在生成内容,而是在概率场里选择路径

4 · 4一个诚实的总结

意义的几何结构这个问题,目前只在最低两层有实证答案,最有意思的高层(动力学、曲率、拓扑)连观测工具都还没成熟。Wolfram 的赌注是它存在且最终会被找到;反方观点(比如 Chomsky 一脉)会说语言的核心结构根本不是几何而是组合/递归的,强行几何化是范畴错误。

我倾向真相在中间——有几何结构,但不是单一的几何,而是几何与组合两种秩序的纠缠。这个纠缠本身可能才是"意义"的真正样貌。这也是为什么 Wolfram 的"语义运动法则"既不会被完全证伪,也很难被完全实现——它指向的是一个比单一数学对象更复杂的对象


第 五 节

几个值得反复琢磨的洞见

5 · 1"human-like task" 的范畴论

整本书反复出现一个关键限定词:human-like(类人的)。神经网络擅长 human-like 任务,不擅长非 human-like 的任务(即真正需要计算的任务)。

这其实是在重新划分"智能"的版图:

栋哥札记:这对当代艺术和创意行业是有冲击性的。如果"写文章"是计算上浅的,那"画画""做雕塑""作曲"很可能也都是计算上浅的——其中能被神经网络压缩的部分会越来越多被压缩。这其实是我"算法盲力"思考的一个反向印证:当 AI 能轻易模拟"人样的创造"时,剩下的真正不可替代的可能恰恰是对"算法盲力本身"的引导和选择——也就是"调用者"的姿态。

5 · 2"更多参数反而更好优化"的反直觉

深度学习违反"奥卡姆剃刀"的最大悖论之一:参数太多反而优化。原因在于高维空间里"路径太多",反而难陷死局。这条原理对我们直觉是颠覆性的。

5 · 3参数数 ≈ 训练数据词数

Wolfram 注意到一个有趣的经验事实:ChatGPT 的权重数(约 1750 亿)和它训练数据的 token 数(几百亿到几千亿)是同一个数量级

"看起来 ChatGPT 中没有什么压缩——平均下来大约只需要不到一个神经网络权重来携带一个训练数据词的'信息内容'。"

这是个有趣的"信息守恒"近似——好像神经网络扮演的不是"压缩器",而更像是"分布式编码器"。

5 · 4训练成本是 O(n²)

如果有 n 个权重,需要约 n 个词的训练数据,那么训练总计算量约为 。这就是为什么训练大模型动辄要几十亿美元——参数翻倍,成本是四倍。

5 · 5Prompt 的本质

"更可能的是,元素已经在那里了,但具体是由元素之间的'轨迹'定义的,而那是你告诉它东西时引入的。"

Prompt 不是"教 ChatGPT 新知识",而是在它已有的语义空间里指定一条轨迹。这个理解直接改变了"prompt engineering"的哲学定位——它不是教学,是导航。


第 六 节

批判与延展

6 · 1Wolfram 自己的偏见

这本书的第二篇基本是 Wolfram|Alpha / Wolfram Language 的产品宣言。这无可厚非——他确实有几十年的功底——但读者应该意识到,"统计 + 符号"的混合范式不是他的独家发明,OpenAI 自己也很早就在 ChatGPT 中接入了 Code Interpreter、Browsing、Plugin 等工具调用机制。Wolfram 提供的是一种方案,不是唯一方案。

6 · 2时效性问题

这本书写于 2023 年 2 月底,描述的是 GPT-3.5 时代的 ChatGPT。如今(2026)的多模态、长上下文、推理模型(o1/o3 类)已经显著超出了书中描述的能力边界。但架构原理、训练范式、计算不可约性的限制,这些核心论断依然有效。新模型只是把每个维度推向更大的尺度,没有打破 transformer + RLHF 的范式。

6 · 3"语义运动法则"还在远方

Wolfram 的"语义运动法则"猜想至今没有兑现。可解释性研究(Anthropic 的 dictionary learning、circuits 工作等)开始在神经网络内部找出可识别的特征和回路,但还远没有到达 Wolfram 期望的"几何化语言学"水平。这条路是真的,但比他写书时设想的要曲折。

6 · 4"人类语言比我们想的更浅"——真的吗?

Wolfram 反复说:ChatGPT 的成功证明语言的可计算复杂度比我们想的低。但反过来也可以解释——也许 ChatGPT 的产物只是"看起来像语言",但缺少真正人类语言的某些维度(指称、信念、意图、社会嵌入等)。这场争论在哲学界还远没有结束。书里 Wolfram 是站在还原论一侧的——这个立场需要被读者自己审视。


第 七 节

对建模者/设计者的启示

作为做计算设计的人,这本书有几条直接可挪用的:

  1. lore 是真实的。所有真正复杂的生成系统最终都靠经验值的堆叠。不要追求每一个参数都"有道理"。
  2. 温度=艺术性。任何参数化生成系统都需要扰动机制。0.8 不是巧合——它是创造与一致性的折中。
  3. embedding 思维可以泛化。把任何东西通过一个"判别任务"压成一个数字向量,然后把"相似性"留给向量距离——这是统一处理"形态相似"的强大工具。
  4. feed-forward 永远做不了循环计算。神经网络再大,也代替不了脚本和算法。混合架构(统计+符号)是必然方向。
  5. 可计算约简性是设计的真正天花板。有些问题就是需要"老老实实算",没有捷径,AI 也变不出捷径。
  6. "human-like" 是个能压缩的范畴。如果某种任务可以被描述为"产出看起来像人做的",那它大概率会被神经网络吃掉。如果你的工作不想被吃掉,要么往不可约的硬计算方向去,要么往"调用者"的元位置去。

第 八 节

结语:Wolfram 留下的真正问题

Wolfram 在结尾说:

"在某种程度上,这是一个伟大的例子,说明大量简单的计算元素可以做出非凡且意外的事情。但它也提供了我们两千年来或许最好的契机——去更好地理解人类境况这个核心特征——人类语言以及背后思维过程——其根本性质和原理究竟是什么。"

ChatGPT 不只是工程产物,它是个自然实验。它告诉我们:

这些都是 ChatGPT 隐式发现的,但人类还没有显式理解。Wolfram 的赌注是:未来几十年,"语义文法 + 计算语言"会让我们把 ChatGPT 学到的东西翻译出来——那时候我们才真正理解了语言、思想、和我们自己。

这本书的真正价值,不在于它解释了 ChatGPT,而在于它给整个 LLM 现象指了一个科学问题的方向