数学之美（吴军）

《数学之美》是吴军在 Google 任职期间（约 2006–2010 年）于 Google 中国博客发表的系列文章合集，共 25 篇。原为面向工程师的科普文章，后整理成书出版。书中以自然语言处理（NLP）和搜索引擎为主线，讲述简单数学模型如何屡屡胜过复杂的手工规则。

核心命题：简单之美

全书最核心的一个命题：正确的数学模型在形式上一定是简单的。

吴军用天文学史来类比这一原理。托勒密的地心说用 40 个小圆套大圆，精密无比，却是错误的。哥白尼提出日心说，只需 8–10 个圆，模型更简单，但最初精度反而不如托勒密。开普勒发现椭圆轨道，一个方程彻底取代了层层嵌套的小圆。牛顿用万有引力解释了为什么是椭圆。

四个结论：

正确的数学模型在形式上是简单的（托勒密太复杂）
一个正确方向的模型，开始时可能不如精雕细琢的错误模型准确——但应该坚持
大量准确的数据对研发至关重要
模型受噪音干扰时，要找噪音根源，而不是打补丁

在 NLP 领域，这条原理被反复验证：统计语言模型（N-gram）、TF/IDF、最大熵模型，都是"椭圆"——形式简单，却持续击败各种"小圆套大圆"的手工规则。

NLP 的统计革命

贾里尼克的语言模型革命

自然语言处理在 1970 年代之前，主流方法是语言学家设计语法规则。贾里尼克（Fred Jelinek）在 IBM 华生实验室，提出了完全不同的路径：把语音识别当作通信问题，用统计模型（HMM）来处理，而不是写语法规则。

他留下了一句流传业界的名言："我每开除一名语言学家，语音识别系统的错误率就降低一个百分点。"

这个框架至今仍是语音识别和语言模型的基础：

flowchart LR A[声音信号] --> B[声学模型 HMM] B --> C[语言模型 N-gram] C --> D[文字输出] E[训练语料] --> B E --> C

为什么统计方法赢了

统计方法的优势不在"聪明"，而在于规模化 ：

语言学家写规则，覆盖率有限，每一条规则都是人力
统计模型从数据中自动学习，语料越多，模型越准
简单的二元语言模型（bigram）在实践中就已经显著优于复杂的语法分析

贾里尼克的框架：识别一段语音的本质是找到最可能的文字序列 W，使得 P(W) × P(声音|W) 最大——其中 P(W) 是语言模型，P(声音|W) 是声学模型。两者都用统计训练，不需要人工规则。

核心数学工具

信息熵（香农，1948）

信息量 = 不确定性的度量。一条消息的信息量取决于它消除了多少不确定性。

32 支球队猜冠军：每猜一次二分，最多猜 5 次，即 5 比特。信息熵：

H = -(p1·log p1 + p2·log p2 + ... + pN·log pN)

应用：衡量语言模型的好坏（困惑度 Perplexity）。李开复的 Sphinx 语音识别：

无语言模型：困惑度 997（每个位置有 997 种可能）
二元语言模型（考虑概率）：困惑度降到 20

TF/IDF（信息检索最重要的发明）

词频（TF）× 逆文档频率（IDF）= 词的相关性权重。

常见词（"的"）：IDF 接近 0，几乎不影响排名
专业词（"原子能"）：IDF 大，对排名贡献高

IDF 由剑桥大学斯巴克-琼斯于 1972 年提出，但多年被忽视。后由康奈尔的萨尔顿推广，成为搜索引擎相关性计算的基础。本质上是交叉熵的特例——信息检索回到了信息论。

最大熵模型

原理： 在满足已知约束条件的前提下，保留最大的不确定性，不做任何主观假设。即"不把鸡蛋放在同一个篮子里"的数学表达。

吴军举了一个色子的例子：对于一个一无所知的色子，猜每面等概率（1/6）是风险最小的做法。如果知道"四点朝上概率是 1/3"，那么在满足这个约束的前提下，其余五面等概率，同样是最安全的猜测——这正是最大熵原理。

最大熵模型能同时综合几十甚至上百种信息（语言模型、主题、语法……），在形式上是最漂亮的统计模型，但训练极为复杂。吴军博士论文的核心贡献之一，就是将最大熵模型的训练时间再缩短两个数量级。

达拉皮垂孪生兄弟在 IBM 改进了训练算法后，离开学术界加入文艺复兴技术公司，用最大熵等数学工具做股票预测，年均回报 34%（1988–写作时），远超巴菲特同期 16 倍总回报。

余弦定理与新闻分类

每篇新闻用 TF/IDF 向量表示（64000 维词向量），两篇新闻的相似度 = 两个向量夹角的余弦值。余弦为 1 = 完全重复；余弦接近 1 = 相似。中学的余弦定理，直接用于 Google 新闻自动分类。

布隆过滤器（1970）

判断一个元素是否在集合中的高效工具。用哈希表存 1 亿个 email 地址需 1.6GB；布隆过滤器只需 1/8 到 1/4 的空间，代价是极小的误判率（万分之一以下）。

动态规划

从北京到广州的最短路径：若最优路径经过郑州，则北京→郑州这段也必须是最优的，否则可以替换以得到更优的全局路径（反证法）。

拼音输入法本质上也是最短路径问题：每个拼音对应多个汉字，组成一张图，动态规划找出最优的汉字序列。导航系统和拼音输入法，数学模型完全相同。

关键人物群像

贾里尼克（Fred Jelinek，1932–2010）

语音识别之父。犹太裔，父亲死于二战集中营，移民美国后极度贫困，靠母亲卖点心为生。在 MIT 先后受香农、乔姆斯基、Jakobson 影响，融合信息论与语言学。

在 IBM 华生实验室领导了语音识别革命，与波尔共同提出统计语音识别框架，改变了整个领域。后在约翰·霍普金斯大学建立 CLSP 实验室，桃李满天下（学生均就职于 IBM、微软、AT&T、Google 研究院）。

生活俭朴，一辆老式丰田车开了二十多年，比组里学生的车都破。聚会的食物"实在难吃，无非是些生胡萝卜和芹菜"，后来掏钱让别的教授替他举办聚会。对中国的了解就是"清华大学和青岛啤酒"，有时会把两个名字搞混。

阿米特·辛格（Amit Singhal）

Google 排序算法之父，在公司内部，Google 的排名算法以他的名字命名。

核心理念：好的算法要像 AK-47 冲锋枪——简单、有效、可靠、易懂 ，而不是故弄玄虚。

吴军刚加入 Google 时，曾和辛格打赌：若能减少 40% 的搜索作弊，工程副总裁罗森就带四个团队成员去夏威夷度假。吴军原想设计精巧的分类器（需 3–6 个月），辛格坚持用简单方法，一两个月内就减少了一半作弊，轻松兑现承诺。辛格的每一个"阿卡47"，后来几乎每次都被证明接近最优，远快于复杂方案。

马库斯（Mitch Marcus）

NLP 教父，宾夕法尼亚大学计算机系主任。本人发表论文不多，但门下弟子遍布各大顶级实验室：柯林斯（Collins）、布莱尔（Brill）、雅让斯基（Yarowsky）、拉纳帕提（Ratnaparkhi）。

最大贡献：花十几年建立 LDC 语料库（Penn TreeBank），成为全世界 NLP 学者共用的标准数据库。马库斯看到了统计方法必须依赖大规模标注数据，在其他人还没意识到时提前布局，为整个领域奠基。

另一远见：网络泡沫最热时，看到了生物信息学（bioinformatics）的重要性，提前在宾州大学设置专业并招聘教授，等泡沫破裂后其他大学转向时，优质教授已经抢先被招满。

柯林斯 vs. 布莱尔：繁与简的两极

柯林斯（Michael Collins） ：追求完美，将文法分析器做到极致，每个细节都研究透彻。博士论文被称为 NLP 领域的范文，论文像优秀的小说，把所有来龙去脉介绍得清清楚楚。

布莱尔（Eric Brill） ：追求简单，永远找"简单得不能再简单"的方法。基于变换规则的机器学习方法，在很多 NLP 任务中得到了几乎最好的结果，因为方法过于简单，容易被人追上超越，但他"当人们超过他时，他已经调转船头驶向别的方向了"。

密码学：数学的另一面

系列二十二（《暗算》章节）是全书最具人文色彩的一篇，从密码学史切入信息论的本质。

凯撒密码可用字母频率统计破译——密码学的核心挑战是让密文统计独立、均匀分布，使得敌人截获后信息量不增加。

香农信息论提供了理论基础：最好的密码使密文熵最大、统计独立。现代公开密钥体系（RSA）的数学原理极其简单：找两个大素数 P、Q，构造公钥 E 和私钥 D。要破解需要对大数 N=P×Q 做质因数分解，这是目前计算机无法高效完成的问题。

吴军指出：《暗算》里提到"冯·诺依曼是现代密码学的祖宗"是错误的，应该是香农。冯·诺依曼的贡献在于发明计算机和博弈论。

工程哲学总结

flowchart TD A[面临复杂问题] --> B{模型选择} B --> C[简单数学模型\nN-gram TF/IDF 最大熵] B --> D[复杂手工规则\n语法树专家系统] C --> E[数据驱动\n自动学习规律] D --> F[人工维护\n覆盖率有限] E --> G[规模化胜出] F --> H[边际收益递减] G --> I[数学之美]

吴军在书中反复强调的三个原则：

简单才是美 ：形式简单的模型，往往比复杂的模型更接近真理
数据比算法重要 ：有大量准确数据的简单模型，会胜过没有数据的复杂模型
不要打补丁 ：用小圆套大圆修正错误模型，不如寻找正确的新模型

这些原则在吴军后来的其他著作（见识）中以不同面目反复出现：不选择"伪工作"，不追求局部优化，不在错误框架内精雕细琢。

延伸阅读

本书涉及的数学工具：信息论（香农）、统计语言模型（贾里尼克）、隐含马尔可夫模型、TF/IDF（斯巴克-琼斯）、最大熵（GIS/IIS 算法）、奇异值分解（SVD）、贝叶斯网络、布隆过滤器、动态规划（维特比算法）。

同类延伸：奇点临近讨论了 AI 加速发展的长期预测；见识中吴军的人生观与本书的工程观一脉相承。

# 数学之美（吴军）