文章 - 悟理.中国

相对论前夜：牛顿和麦克斯韦的战争

狭义相对论相对论

为了给狭义相对论作铺垫，我专门写了三篇麦克斯韦方程组的文章，为了让中小学生能更好理解麦克斯韦方程组，我又补了一篇微积分，现在终于可以正式谈狭义相对论了。为什么讲狭义相对论要先讲电磁理论呢？爱因斯坦发表狭义相对论的论文叫《论动体的电动力学》，一般电动力学教材的...

继续阅读 »

为了给狭义相对论作铺垫，我专门写了三篇麦克斯韦方程组的文章，为了让中小学生能更好理解麦克斯韦方程组，我又补了一篇微积分，现在终于可以正式谈狭义相对论了。

为什么讲狭义相对论要先讲电磁理论呢？

爱因斯坦发表狭义相对论的论文叫《论动体的电动力学》，一般电动力学教材的最后一章也会讲狭义相对论。这一来一去，你就知道它们的关系不一般了。

那这跟牛顿又有什么关系呢？

牛顿建立了上知天文下知地理的力学体系，日月星辰、潮起潮落都遵循他的定律，这是第一次工业革命的基石；麦克斯韦方程组则包含了一切经典电磁学的东西，还发现了电磁波，这是第二次工业革命的基础。

牛顿和麦克斯韦的理论在各自领域都获得了巨大的成功，是经典物理学的两座丰碑。但是，如果你试图把它们融合在一起，用统一的目光看待它们，立马就会出现不可调和的矛盾。

为了解决这些矛盾，爱因斯坦进行了艰苦卓绝的探索，并最终创立了狭义相对论。

这种处境，很像现在的广义相对论和量子力学。

当我们使用广义相对论处理引力，处理恒星和宇宙的演化时非常好用（可以忽略量子效应），当我们使用量子力学处理电磁力、强力、弱力时也非常好用（引力太弱，可以忽略）。

但是，当我们碰到那些又重又小的东西，无法忽略引力和量子效应中的任何一个的时候（比如黑洞和宇宙初期的奇点），就必须结合广义相对论和量子力学，这一结合就出大问题了。

广义相对论和量子力学的不兼容是当今物理学一等一的大事，这种情况跟百年前牛顿力学与麦克斯韦电磁学的不兼容很相似。两种理论能够在各自领域工作良好，就证明它们至少包含了某种正确性，而一结合就出问题，说明我们还是忽略了某些关键的东西。

那么，牛顿力学和麦克斯韦电磁学之间的矛盾是什么？为什么它们无法兼容？有什么关键的东西被忽略了，爱因斯坦又是如何发现的？为什么是年轻的爱因斯坦先发现了这个，而那些大物理学家们却老是差那么一点？

类似的，广义相对论和量子力学之间的矛盾又是什么？它们之间被忽略的关键东西又是啥？爱因斯坦统一牛顿力学和麦克斯韦电磁学的工作对我们统一广义相对论和量子力学又有什么启发？

学习历史是为了更好地把握未来，科学也一样。在下面的文章里，我会把尽力历史说清楚，现在和未来的问题，就交给你来慢慢琢磨了~

好，下面进入正题。

01日心说的困境

为了让大家更清楚地了解牛顿和麦克斯韦这两位大神的战争，我们先把时间往前推两千年。没错，又来到了古希腊。

提到日心说，绝大部分人立马就会想到哥白尼，甚至直接把日心说和哥白尼画上等号。但是，如果你去翻翻历史，就会发现早在公元前3世纪，一个叫阿利斯塔克的人就提出了日心说，这比哥白尼早了足足一千八百年。

阿利斯塔克被称为古希腊第一个著名的天文学家，他用数学计算出太阳的半径比地球大很多（虽然不够精确）。所以，他认为是太阳在宇宙中心，地球围着太阳转，地球自转一圈为一天，地球围着太阳公转一圈为一年。

这是一个很强的论证，如果太阳真的比地球大很多，我们当然更倾向于认为是小地球围着大太阳转。此外，他还发明了一些方法去测量太阳、月亮和地球之间距离的比值。

虽然受限于条件，他当时没法测得很准，但是随着时间的推移，这些数据肯定是会越来越精确的，那得到的结果也应该越来越支持阿利斯塔克的日心说。

但是，后面的结果我们都知道了。400年后，古代欧洲最伟大的天文学家托勒密在构建他的天文体系时采用的是地心说，而不是日心说，为什么？

抛开教会支持地心说不谈，托勒密作为一位杰出的科学家，他为什么最终选择了地心说，而不是看起来很合理的日心说呢？

具体的原因有很多，但其中有一条影响非常大，绝对不容忽视，甚至可以说是击中了当时日心说死穴的原因：如果地球真的在高速转动，那为什么我们跳起来后会落回原地，而没有被甩出去？为什么天上的云不会被吹向一边？

这个问题放到现在当然很简单，一个初中生都可以自豪地甩出“惯性”送给你。但是在当时，或者说在伽利略以前，这都是巨大的科学难题。

当我们在说惯性的时候，我们其实已经默认了伽利略-牛顿的运动观，认为“力是改变物体运动的原因，而不是维持运动的原因”。

但伽利略之前的人并不知道这些，他们认为运动是需要力来维持的。你跳起来之后没有力了，但是依然能落回原地，那就只能说明地球是静止的。

于是，托勒密就理所当然地拒绝了日心说！

02相对性原理

解决这个问题的人是伽利略。

伽利略想，这里的核心问题就是要解释“为什么地球在动，但是我却感觉不到地球在动？”。这个问题并不难，地球太大了不好说，我们先来看看我们熟悉的船。

假设在一个平静的湖面上有一艘匀速直线行驶的大船。我把所有的窗户都关上，让乘客看不到外面的景象。那么，乘客能根据船舱里的情况分辨出这艘船是静止还是匀速直线运动的么？

答案是不能！

你可以在船舱里做各种实验：你可以跳起来，然后发现自己会落回原地；你去看鱼缸的鱼，发现鱼依然均匀地分布在鱼缸的各个部分，并不会挤向船尾的方向；你可以跟朋友正常地玩篮球，而不用担心篮球会往后窜。

总之，大家可以想象，你在这个匀速行驶（一定要是匀速，加速的话就能明显感觉到不一样了）的船舱里做的一切力学实验，都应该跟在静止的船舱里没有任何区别。

也就是说，我们根本无法通过力学实验区分这艘船是静止的还是匀速直线运动的，这就是伽利略的相对性原理。

相对性原理告诉我们，一个静止和匀速直线运动的参考系是完全等价的。我们无法通过力学实验区分二者，这也非常符合我们的生活经验。

飞机在天上平稳飞行的时候，你可以在飞机里看书、写作，就像在家里一样。如果不看窗外的景象，你也很难区分飞机是在飞行途中还是静止在机场。一座在匀速上升或者下降的电梯，你会感觉它跟没动一样，只有电梯在加速减速的时候，你会发现明显的不同。

其它例子我就不多举了，相信大家只要稍微想一想，就会明白相对性原理其实是非常自然的。

有了相对性原理，日心说的困境就迎刃而解了，为什么？

因为我完全可以认为地球就是这样一艘大船（大飞机），它非常均匀的运动。所以，你根本就不能通过“跳起来会落回原地”这个事实来证明地球是静止还是运动。静止的地球会有这样的结果，匀速运动的地球一样会有这样的结果。因此，就算我支持日心说，认为地球在高速转动，这个事实也不会跟日心说发生冲突了。

于是，攻击日心说最锋利的武器瞬间就变成了一堆废铁。有了伽利略的这波神助攻，哥白尼的日心说才没有在这里翻车。

03惯性系

好，现在我们知道了：静止和匀速直线运动的参考系等价的，或者说惯性系都是等价的。

什么是惯性系？

惯性系的定义是个比较麻烦的问题，有些书用“满足牛顿第一定律的参考系”来定义惯性系。也就是说，如果一个物体在不受外力（或者合外力为零）的情况下能保持静止或者匀速直线运动，那它所在的参考系就是惯性系。因此，牛顿第一定律又叫惯性定律。

但是，如果深究一下，你就会发现这里出现了循环定义，因为什么叫不受外力？你想来想去，最后只能用“在惯性系里保持静止或者匀速直线运动”来定义不受外力。

这样，你定义惯性系需要依赖不受外力这个概念，定义不受外力又要依赖惯性系，这就是典型的循环定义了，这在逻辑上是不允许的。

不过，虽然逻辑上有点问题，但日常使用起来还是很方便的。你把一个篮球放在地面上，这个篮球静止不动，所以地面系就可以看作一个惯性系；你把这个篮球放在一辆加速的汽车上，篮球会向车尾滚动，所以加速的汽车系不是惯性系。

关于惯性系的定义，这里就不做深入讨论了。如果大家感兴趣，后面我可以专门写文章讨论这个麻烦的问题。

在这里，我们只要知道地面系可以近似看作惯性系，而且，如果一个参考系相对某个惯性系做匀速直线运动（比如一辆匀速运动的火车），那么这个参考系也是惯性系就行了。

有了惯性系的概念，伽利略的相对性原理就可以简单的说成“力学实验对所有的惯性系都平权”，或者说“我们无法通过任何力学实验来区分两个惯性系”，就不用老是重复说静止和匀速直线运动了。

毕竟，你在地面上觉得地面静止，火车在匀速运动；你在火车上，又会觉得火车静止，地面上的东西在匀速运动。静止和运动是个相对的概念，它取决于你如何选择参考系。

所以，执着于区分静止和匀速直线运动是没啥意义的，我们只要把握住它们（地面系和火车系）都是惯性系，而力学实验无法区分惯性系就行了。

好，我们现在知道了相对性原理要求力学实验对所有的惯性系都平权，而力学实验是由对应的力学定律来描述的。那么，相对性原理会对这些力学定律做出什么样的要求呢？

想找到答案，我们需要对相对性原理做更深层次的剖析。

04从实验到定律

假设现在有地面系和火车系两个惯性系，火车相对地面作匀速直线运动。

当我们说力学实验无法区分地面系和火车系的时候，我们是在说：我在火车里抛球也好，跳远也好，做的各种力学实验跟在地面上的感觉都是一样的。

你在地面上能跳多远，在火车上就能跳多远；你在地面上从1米高的地方放一个小球，这个小球经过多长时间着地，在火车上小球也会经过同样的时间着地。

你觉得不管在地面还是火车，1米高的小球都会经过相同的时间落地，所以我无法通过这个区分地面系和火车系。但是，这个下落时间，我们是可以通过力学定律精确算出来的。

比如，我们使用牛顿力学（当然你也可以用其它的理论，比如广义相对论）的自由落体运动公式，很快就能算出这个下落时间大概是0.45秒。

也就是说，你在地面系使用牛顿运动定律计算小球下落，得到的时间是0.45秒；在火车系依然使用这个公式计算，得到的结果依然还是0.45秒。

正因为你在地面系和火车系计算的时间都一样（废话，一样的公式，一样的已知条件，结果不一样才见鬼了~），你才会无法区分这两个惯性系。

不过，不知道你意识到了没有，你在这个过程中使用了一个可能连你自己都没有意识到的假定。正是这个假定，保证了你在地面系和火车系的计算结果都一样，保证了你无法区分这两个惯性系，保证了相对性原理。

这个假定就是：你默认牛顿运动定律不管在地面系还是火车系都是长这样的，你用来计算小球下落的数学公式，不管在地面系还是火车系都一样。

正因为你在地面和火车使用的都是这个公式（H=gt²/2），所以算出来的时间才会一样。你想想，如果你在地面系用H=gt²/2去算，在火车系用H=gt²/3去算，那结果还能一样么？

我知道，肯定有些人觉得我这是废话。牛顿运动定律只此一家，别无分店，怎么可能一个公式在地面系长这样，在火车系长那样呢？

我们学习自由落体运动的时候，老师也只讲了这一个公式，不管地面系还是火车系，你用得用它，不用还得用它，因为你压根就没有别的选择。

对对对，你说的都对，所以我才说很多人平常都不会意识到这个事情。

但是，你不得不承认这个问题确实是存在的。而且，正因为牛顿运动定律在地面系和火车系的数学形式一样，你才无法区分地面系和火车系，才会符合相对性原理。更重要的是，这并不是一件多么理所当然的事。

你觉得物理定律的数学形式在不同的惯性系里就必须长一样么？不不不，你有严格地证明么？你只不过觉得应该是这样的，然后就默认这样用了，而牛顿力学刚好满足这个条件罢了。

我完全可以认为某些定律只能在某些特殊的惯性系里使用，在其它的惯性系里使用就是错误的。这样，在不同的惯性系里使用定律的数学形式就不一样了，那么你就能区分这两个惯性系了，这也就意味着相对性原理不再成立。

所以，物理定律的数学形式在不同惯性系里是否一样，要看它是否满足相对性原理。这绝不是理所当然，天生就成立的。

也就是说，从实验的角度来看，相对性原理要求力学实验对所有的惯性系平权。你不管在哪个惯性系里做力学实验，你的感觉应该都是一样的，这样才无法区分这两个惯性系，它们才平权。

从定律的角度来看，相对性原理要求力学定律在所有惯性系的数学形式都一样。因为只有定律的数学形式一样，它在不同惯性系计算的结果才一样，这样才能“欺骗”你的感觉，让你无法分辨出在哪个惯性系，这样惯性系才平权。

从实验到定律，这两种表述是等价的，都是相对性原理的体现。

那么，牛顿力学是否满足相对性原理呢？应该是满足的。不然你在火车、飞机上使用了这么久的牛顿运动定律怎么一直没有出错呢？那要如何证明？如何证明牛顿运动定律的数学形式在所有的惯性系里都一样？

以前我们可能不知道有这回事，拿着牛顿的定律在地面系、火车系、飞机系随便就用。现在知道了，那就肯定要找一找这么做的合法性依据在哪，不能再继续这样耍流氓下去了。

以牛顿第二定律F=ma为例，假设它在地面系是这样的，那我要怎么证明它在火车系还是这样的呢？

你会发现我们需要一个桥梁，一个沟通地面系和火车系的桥梁，一个能把牛顿第二定律从地面系变换到火车系的桥梁。看看我们把F=ma变换到火车系之后，它的数学形式到底还是不是这样。

那地面系和火车系之间有没有桥梁呢？当然有，因为它们本身就有关系。

火车在地面上以一定的速度匀速运动，同一个事件，地面系把它的信息记录了一份，火车系也把它的信息记录了一份，这两者肯定是有某种关系的。

我们要做的，就是把这种变换关系找出来，把这两个惯性系之间的关系找出来，然后再看看牛顿力学的定律在这种变换下的数学形式是否发生改变。

那么，这到底是什么样的一种变换呢？

05伽利略变换

牛顿力学非常符合常识，所以这种变换应该也是符合常识的，我们不妨先来猜一猜。

假设我们在地面系S建立一个坐标系（x,y,z,t），有一辆火车以速度v（沿x轴正方向）匀速运动，我们在火车系S’里也建一个坐标系（x’,y’,z’,t’）。为了简化问题，我们让这两个坐标系一开始是重合的。

对于任何发生的事件，地面系和火车系都会记录下事件发时空信息（x,y,z记录空间信息，t记录时间信息）。我们想要知道的就是：这两套坐标系记录的时空信息之间有什么关系？

先看时间。

假如火车上有一个小球开始下落，火车上的时钟记录的时间为八点，那地面上的时钟会觉得是几点呢？不要笑，我不是在逗你玩，我是在讨论一件很严肃的事情~

你可能会觉得这还需要讨论么？

火车上的时钟记录的时间是早上八点，地面的钟只要没坏，不考虑什么时区的问题，它当然也是早上八点。

不仅如此，所有的钟记录的时间应该都是一样的，这是生活常识。我们宣布奥运会什么时候举行，只需要对外公布一个时间。不会说北京时间什么时候，上海时间什么时候，更不会说高铁时间什么时候，因为我们默认大家都共用一个时间：同一个世界，同一个时间。

没错，这种认为是非常有道理的，也非常符合我们的常识。

我不会说你这种想法是对还是错，我只能说这代表了你对时空的一种看法，这是你的一种时空观。在这种时空观下，时间是绝对的，独一无二的，所有人都共用同一个时间。

也就是说，如果你认同这种绝对的时间观，那么火车系测量时间t’和地面系测量时间t就应该永远都是相等的，即t’=t。

到后面我们会发现，这个问题绝不是你想象的这么简单，它背后大有学问。越是符合常识，越是平凡的东西，想要发现它的不平凡就越不容易。

好，接下来看空间。

地面系和火车系的三个空间坐标x,y,z应该满足什么关系呢？因为火车只沿着x轴运动，所以，你在地面系和火车系测量的y和z的值应该也是一样的（即y’=y,z’=z），唯一不同的就是x了。

这个关系也不难，大家琢磨一下就能得到这个结果：x'=x-vt。

也就是说，如果地面系测量的横坐标是x，你用这个x减去vt（火车的速度v乘以时间t），就能得到火车系下测量的横坐标x’。

你可以自己比划一下，假如你在火车系的原点处放一个小球，那么这个小球在火车系的横坐标x’就永远等于0（x’=0）。火车的速度乘以时间vt刚好就是地面系测量的它的位移x，这代入（0=x-vt）进去刚刚好。

如果小球不在原点，不难验证它们的横坐标依然满足这个关系。于是，我们就找到了两个惯性系之间的坐标变换关系：

如果我在地面系S观测到一个事件的时空坐标为（x,y,z,t），通过上面的坐标变换公式就能求出它在速度为v的火车系S’上的坐标（x’,y’,z’,t’），这样我们就找到了联系两个惯性系之间的一座桥梁。

回想一下，这种变换之所以能成立，是因为我们假设时间是绝对的（t’=t，它在所有参考系里都是一样的），空间像一个坚固的大盒子，无法被压缩。在这种绝对的时空观下，我们推出了两个惯性系之间的坐标变换关系，这个变换就叫伽利略变换。

06牛顿力学与伽利略变换

而牛顿力学也是绝对的时空观，牛顿在《自然哲学的数学原理》的一开头就写到：绝对的、真实的、数学的时间，由其特性决定，自身均匀的流逝，与一切外在事物无关；绝对空间自身的特性与一切外在事物无关，处处均匀，永不移动。

既然牛顿力学是绝对的时空观，而我们从绝对时空观里又自然地推导出了伽利略变换。那么，不难想象，在牛顿力学里联系两个惯性系的坐标变换应该就是伽利略变换。

也就是说，如果牛顿力学满足相对性原理，那么牛顿力学的所有定律就应该在伽利略变换下保持数学形式不变。

如果一个定律在地面系是A=BC，这几个量经过伽利略变换后变成了火车系的A’、B’和C’，那么它们还应该满足A’=B’C’，这样才叫数学形式没变。

我们说牛顿力学的定律形式不变，并不是说它什么都不变。物理量A、B、C经过伽利略变换之后变成了A’、B’、C’，那肯定跟以前的量不一样了。但是，你一个量变了，大家协同着一起变，最后总的数学形式依然保持A’=B’C’这个样子，这才是牛顿力学的所有定律在伽利略变换下保持形式不变的真正意思。

因此，我们也可以说牛顿运动定律具有伽利略协变性，或者伽利略不变性（在伽利略变换下所有物理量都协同变换，但是总的形式保持不变），用协变性、不变性大家可能更容易理解一些。

这段逻辑大家一定要好好理清楚，只有把这段彻底搞清楚了，才算真正明白了相对性原理。

为了让大家更深刻地理解“牛顿运动定律具有伽利略不变性”，我们来看一个具体的例子，看看大名鼎鼎的牛顿第二定律（F=ma）是如何具有伽利略不变性的。

07牛顿第二定律

牛顿第二定律说一个物体受到的合外力F等于这个物体的质量m乘以加速度a（F=ma），那我们就来分别考察一下这三个量在地面系和火车系的情况。

先说质量m，质量是一个不变量。不变量就说它是不随参考系的变化而变化的，你在地面系测的值是多少，在火车系就还是多少。

这个比较容易理解，质量是物体的一个内在属性，它怎么可能随着参考系的变化而变化呢？比如你去查电子的质量，那就是一个具体的数字（9.10956×10^-31kg千克），白纸黑字地写在那里，是不会随参考系的变化而变化的。

在牛顿力学里，除了质量m，力F也是一个不变量。这就是说，对地面系和火车系来说有m’=m，F’=F，那问题的关键就是看加速度a’和a了。

地面系和火车系的加速度有什么关系呢？

我们可以这样看，加速度是单位时间内速度的变化，速度是单位时间内位移的变化，而火车系S’和地面系S的位移关系是伽利略变换直接给出的（x’=x-vt）。那么，我们把位移关系的两边同时除以两次单位时间，不就能得到加速度a’和a的关系了么（用微积分说就是对时间求两次导数）？

好，火车系的速度是u’=s‘/t’，地面系的速度是u=s/t，我们把x’=x-vt的两边都除以时间（因为伽利略变换里t=t’，所以两边可以分别除），然后对应的速度关系就简单了（因为火车只沿x轴方向的运动，所以x和位移s是相等的，写成s’=s-vt也没问题）：

推导很简单，得到的结果u’=u-v就是我们熟悉的速度合成法则，也就是说这两个惯性系测量的速度相差一个速度v，符合题意，没毛病。

好，有了速度关系u’=u-v，我们两边再同时除以一次单位时间，就能得到加速度a’和a的关系：

因为速度v是参考系的相对速度，是一个不随时间变化的常数，所以它在单位时间的变化量就是0，于是就对加速度就没有影响了。所以，我们就得到了a’=a，也就是说火车系的加速度a’等于地面系的加速度a。

这样，我们就发现地面系和火车系的力F、质量m和加速度a都是相等的（F’=F，m’=m， a’=a）。那么，如果牛顿第二定律在地面系长F=ma这样，经过伽利略变换之后的F’、m’、a’就依然可以满足F’=m’a’。

这就意味着牛顿第二定律的数学形式在伽利略变换前后保持不变，因此它具有伽利略不变性，证毕。

当然，不只是牛顿第二定律，牛顿力学的所有定律都具有伽利略不变性，你可以仿照我这个思路去验证一下。

08绝对时空观

好，到了这里，我帮大家把前面的思路理一下：伽利略为了给日心说做辩护，从生活经验和实验中提炼出来了相对性原理。

它告诉我们，无法通过力学实验区分静止和匀速直线运动的参考系，所有的惯性系都是平权的，没有谁更特殊。

力学实验由对应的力学定律（比如牛顿运动定律）来描述，如果一套理论满足相对性原理，那么它的数学形式就应该在所有的惯性系里保持一样。

为了验证一个定律在不同的惯性系的数学形式是否一样，我们就需要找到联系两个惯性系的桥梁，这就是坐标变换。而变换并不是天然存在的，不同惯性系下的物理量之间有什么关系，这严重依赖于你的时空观。

比如，你觉得所有惯性系测量的时间都是一样的吗？如果你回答是，那就说明你认为时间是绝对的，认为全世界的观察者都共用一个时钟。你觉得空间是像一个坚固的大房子，还是像一块可以被压缩拉伸的海绵？不同的回答就意味着对空间的不同理解。

不难想象，对时间和空间的不同理解，必然会导致不同的变换。

牛顿力学是绝对的时空观，它认为时间均匀流逝，与一切外在事物无关；空间处处均匀，永不移动。这种绝对时空观对应的变换就是伽利略变换，而牛顿力学的所有定律在伽利略变换下能够保持数学形式不变，所以牛顿力学满足相对性原理。

在绝对时空的大背景下，牛顿力学和伽利略变换配合得天衣无缝。它们能解释苹果下落，气球上升，能解释潮起潮落，也能解释日月星辰的轨道。力学取得了空前的成功，牛顿直接封神。

后来，人们把这种力学思想运用到热现象里去，把宏观的热现象还原成了微观分子间的相互作用，建立了热力学，一样获得了巨大的成功。

但是，当人们把研究对象转向电磁领域的时候，上帝的天平不再偏向牛顿和伽利略，电磁定律把他们组建的世界冲得七零八落。

大家都知道经典电磁领域的集大成者是麦克斯韦方程组，为了给这篇文章做准备，我前面专门写了三篇麦克斯韦方程组的入门文章（积分篇、微分篇和电磁波篇），这里就不再详述了。

电磁理论，或者说麦克斯韦方程组有什么问题呢？

09电磁理论的挑战

用一句话说就是：电磁定律不再满足伽利略变换，麦克斯韦方程组不具有伽利略不变性。

也就是说，麦克斯韦方程组长这样：

如果我们用伽利略变换把方程组的各个物理量都映射到另一个惯性系S’里，那么，在S’系下的新物理量将不再满足上面这种关系。

这跟牛顿第二定律完全不一样。上面我们已经验证了，我们把牛顿第二定律F=ma用伽利略变换从一个惯性系映射到另一个惯性系，新系下的F’、m’、a’依然能组成牛顿第二定律F’=m’a’，而麦克斯韦方程组办不到。

麦克斯韦方程组不具有伽利略不变性，这个事情既不需要实验验证，也不需要什么额外的假设。因为方程组就长这样，伽利略变换也是明确给出的，你判断麦克斯韦方程组是否具有伽利略不变性，这是一个纯粹的数学问题。你一通计算之后，它满足就满足，不满足就是不满足，没有讨价还价的余地。

所以，面对麦克斯韦方程组不具有伽利略不变性这个既定事实，我们要考虑的是：为什么会这样？

牛顿力学满足相对性原理，它用代表绝对时空观的伽利略变换与之适配。

现在麦克斯韦方程组跟伽利略变换不适配，那么就应该有两种可能：第一，麦克斯韦方程组根本就不满足相对性原理；第二，麦克斯韦方程组虽然满足相对性原理，但是与之适配的变换并不是伽利略变换。

那么到底是哪一种情况呢？我们来逐一分析下这两种可能性。

10第一种可能

如果是第一种，也就是认为麦克斯韦方程组不满足相对性原理，那是什么意思呢？

不满足相对性原理，就是说麦克斯韦方程组的数学形式并不是在所有的惯性系里都一样，它可能只在某个惯性系长这样，在其它的惯性系里就不是这样的了。假如麦克斯韦方程组在地面系是这样的，那么你可以在地面用它处理电磁现象，在火车系就不行了。

你可能觉得这太荒谬了，怎么可能我在火车上就不能使用麦克斯韦方程组了呢？难道火车上的电磁现象就不满足这些规律？如果法拉第在火车上做实验，会得出与实验室里完全不一样的电磁定律出来么？

荒谬归荒谬，但是如果你认为麦克斯韦方程组不满足相对性原理，结果就是这样。

当然，如果你认为麦克斯韦方程组在火车系不能用，那么我们也没有理由认为它在地面系就能用。因为地球只不过是宇宙里极其平常的一个星球，如果麦克斯韦方程组只在一个参考系中成立，那凭什么是地面系？太阳系可不可以？火星系可不可以？

所以，如果你非要认为麦克斯韦方程组不满足相对性原理，它只在一个参考系适用。那么，我们就只能选择一个在宇宙范围内看起来非常特殊的参考系，那这个参考系是什么呢？

很容易想到，如果我们秉持牛顿-伽利略的绝对时空观，把整个空间都看作一个坚固的大房子，那么这个房子本身所在的参考系毫无疑问就是那个最特殊的参考系。

另一方面，麦克斯韦方程组认为光是一种电磁波，传统的波动说认为只要是波那就一定有介质，没有介质波怎么传播呢？水波的介质就是水，声波的介质就是空气，没有水自然就没有水波，在真空里也听不到声音。

而光是一种电磁波，那么我们自然也需要一种能够传递电磁波的介质。

于是，我们会发现，要让假设成立，我们需要一个空间这个大房子本身所在的特殊参考系，这个参考系还要能够作为传播电磁波的介质。由于光可以在真空中传播，我们在宇宙的各个方向都能看到光，所以这种介质还应该遍布宇宙。

所以，大家就假设有一种铺满宇宙的东西，它既是那个最特殊的参考系，也是电磁波的介质，它的名字就叫以太。

大家可以发现，如果我们假设麦克斯韦方程组不满足相对性原理，那以太的出现几乎就是必然的，而且还跟我们熟悉的绝对时空观不冲突，多好！

这样处理的代价似乎是最小的，麦克斯韦本人接受的也是这样的观念。

也就是认为宇宙中充满了轻盈的以太，光通过以太传播，麦克斯韦方程组只能在以太系中成立，在其他参考系里不成立，所以它不满足伽利略变换也是说得过去的。

那么，为什么我们在地球上使用麦克斯韦方程组却没有出错呢？难道这么巧，地球所在的参考系刚好就是以太系？或者说，地球因为某种原因带着以太一起运动？不能够吧，这也太巧了，比你在1998年去杭州跟一个叫马云的人拜了把子的概率还小。

所以，物理学家们就只能拼了命的去寻找以太。如果地球真的“浸泡”在以太池里，那么地球自转的时候多多少少会产生一些“以太风”，只要实验设计得足够精巧，我们理论上是能找到它的。

然而，实验并没有找到任何以太风，事情就这样尴尬地僵住了。

11第二种可能

这样，第一种情况就分析完了，我们再来看看第二种情况。

也就是我们认为麦克斯韦方程组依然满足相对性原理，只不过，与之适配的变换并不是伽利略变换。

为什么我们要考虑第二种情况呢？是因为第一种情况会导致以太，但是大家死活都找不到以太，所以转向第二种么？

是，也不是！

大家找不到以太，当然会慢慢降低第一种可能性的威信，于是转而考虑第二种是可以理解的。但是，这个原因并没有那么重要，因为你找不到以太，大家还可以给你解释为什么你找不到以太（参见洛伦兹的操作，他用长度收缩来解释为什么我们观测不到以太风），不会轻易放弃，转而“投敌”的。

为什么要考虑第二种情况，因为第二种情况本身就很值得考虑。

相对性原理是个多么美妙的原理啊，伽利略当年就是凭着它给日心说翻盘的。牛顿力学的大获成功，就已经证明了相对性原理在力学领域是非常正确的，那凭什么到了电磁领域就不正确了呢？

在一个匀速直线运动的船舱里，我无法通过力学实验分辨出这艘船到底是静止还是匀速运动，难道通过电磁实验就能够区分了？

难道在匀速直线运动的船舱里，我们的电磁定律都不一样，那么我们使用的各种电气电子设备岂不是都要出问题了？如果我们的手机在运动的火车里不能用，你觉得这可能吗？

如果你坚持认为电磁定律不满足相对性原理，那么，上帝除了要制造一个特殊的以太参考系，还要让有的定律（力学定律）满足相对性原理，有的定律（电磁定律）不满足相对性原理，他不嫌麻烦么？他制造了这样一个又复杂又不美的体系，他妈妈知道么？

很多物理学家对物理定律的简单和美都有一种执着的追求，爱因斯坦、狄拉克、杨振宁都是这样，而相对性原理就是这样一条又简单又美的原理。

所以，不管是从美学考虑，还是从哲学考虑，让电磁定律放弃相对性原理都是让人很难接受的一件事。更何况，你根本没有任何实验证据，那就更可疑了。

近代物理学的发展，就是一部人类特权的消亡史。最开始你认为地球是宇宙中心，结果发现地球只不过是太阳系的一颗普通行星；你以为太阳是中心，结果发现银河系里有无数个太阳系；当你准备站银河系的时候，大量河外星系被发现了。当你准备退一万步，说起码这个宇宙是唯一的吧，结果很多理论都指向了各种版本的平行宇宙。

你以为你很特殊，结果物理学一次次告诉你：你一点也不特殊，上帝好像也没有倒腾什么特殊的东西。

既然这样，既然上帝这么公平公正，为什么我们要相信他预设了一个特殊的参考系呢？为什么他会对电磁定律开特殊的后门呢？相对性原理说大家都绝对公平，所有的惯性系都一样，这很符合近代物理的精神啊。

所以，我们也有充分的理由认为麦克斯韦方程组也是服从相对性原理的。

如果麦克斯韦方程组服从相对性原理，而它却不具有伽利略不变性，那我们就只能认为跟麦克斯韦方程组适配的变换并不是伽利略变换了，这又意味着什么呢？

12新的时空观

前面我也说了，伽利略变换是绝对时空观的体现，只要你假设大家都共用一个时间，认为空间就像坚固的大房子那样，那么惯性系之间的变换关系就是伽利略变换。

如果你认为麦克斯韦方程组不满足伽利略变换，那这就是在挑战绝对的时空观，这就是翻天的大事了。

所以，一般人根本就不敢往这方面想。虽然大家都认为相对性原理很美妙，觉得如果电磁理论也满足相对性原理，那当然是非常不错的事情。

但是，当他们继续往前走，发现这会跟绝对时空观发生冲突时，他们就立马起身告辞，表示下次一定支持相对性原理，然后就继续寻找以太去了。

为什么当相对性原理跟时空观发生冲突时，绝大部分人都立马抛弃了看起来很美的相对性原理，而选择坚守时空观呢？

这个其实也很容易理解。首先，很多人压根就没意识到有时空观这个问题。当他们发现如果让麦克斯韦方程组满足相对性原理，就会出现一些“荒谬”结论的时候，他们就觉得这是一条死路，这是方向错了，不予考虑。

然后，有极少数非常优秀的科学家会意识到这个问题。他们会隐隐约约地感觉到：“麦克斯韦方程组没问题，相对性原理也没问题，那是不是牛顿-伽利略的绝对时空观有什么问题？时间和空间是不是有可能并不是这样的？”

但是，光怀疑是不够的，你说绝对时空观可能不对，那么正确的时空观是什么？如何在全新的时空观里建立全新的物理学？摧毁旧世界是容易的，难的是如何建立新世界。

最后，只有一个年轻的科学家敢于完全抛弃绝对的时空观，并且在全新的时空观下建立了全新的物理学，彻底跟旧世界决裂。

因为他年轻，没有思想包袱，所以在旧世界里陷得不深，所以敢直接放弃旧的时空观。

因为从小就读康德、休谟、马赫、庞加莱等哲学大师的著作，所以不论是从哲学还是美学考虑，他都无比钟爱相对性原理。

因为他思考问题思考得很深，所以能找到让麦克斯韦方程组和相对性原理共存的办法。

因为他生活在钟表大国瑞士，供职于专利局，每天都要审查非常多跟时间钟表相关的专利，所以他对时间问题特别敏感，并最终从时间这里找到了关键的突破口。

这个人是谁，我相信你们都知道，他就是爱因斯坦。

只要把麦克斯韦方程组和相对性原理之间的冲突解决了，狭义相对论的诞生就是水到渠成的事了。

至于爱因斯坦是如何着手解决这个问题，他又是如何发现问题的关键，解开了别人眼里的死结从而创狭义相对论的，我下一篇文章再细说。

这里，我再带大家看一个具体的例子。看看如果坚持麦克斯韦方程组和相对性原理，到底会出现什么“大逆不道”的结论，以至于把那么多科学家都直接吓跑了。

13电磁波的疑难

在我的麦克斯韦方程组的第三篇文章《见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？》里，我带着大家一步步从麦克斯韦方程组推出了电磁波的波动方程，并给出了电磁波的速度公式：

因为μ0、ε0都是常数，代入进去我们就会发现电磁波的速度等于光速，从而发现“光是一种电磁波”。

对于能看到这里的朋友，我相信对这个结论已经不会奇怪了，那么真正奇怪的地方在哪里呢？

大家再去看看电磁波的推导过程，你会发现一件奇怪的事情：我是直接从麦克斯韦方程组出发，一顿数学操作之后得到的电磁波速度公式。整个过程我没有预设任何物理上的东西，没有预设任何参考系！

可能你还没有意识到这件事情的怪异之处，那我们再来回忆一下。初中刚学物理的时候，老师就一定跟你强调过：速度是相对的，你在说一个物体的速度的时候，一定要指定参考系，否则你说的速度就是没有意义的。

你坐在家里觉得自己没动，但是你相对太阳就在高速运动；你觉得地面的树没动，但是火车上的人就会觉得树在高速运动。这些很好理解，大家也很容易接受“凡谈论速度，必先指定参考系”。

但是，你在计算电磁波速度的时候，你指定参考系了么？你选定了哪个特定的参考系了么？

没有，都没有！

你做的事情就是拿起麦克斯韦方程组，一顿操作猛如虎，一通纯数学计算之后得到了那个电磁波的速度公式。

你在没有指定任何物理情景，没有指定任何参考系的情况下算出来了一个电磁波速度，那么这个速度算谁的？

地球系的？火车系的？太阳系的？显然都没有道理！

但是我们就是凭空算出一个速度c来了，虽然我不知道这是相对哪个参考系的，就像石头缝里凭空冒出一个孙猴子一样。

遇到这样棘手的问题，你会怎么考虑？

很显然，你没有任何理由认为这个速度是相对哪个具体参考系的，地球不行，火车不行，太阳也不行。

那么，要么你就认为存在一个特殊的参考系，比如我们在第一种可能里说的以太，认为这个速度是相对以太的。这其实就是认为麦克斯韦方程组不满足相对性原理。

要么，你就认为这个速度对所有的惯性系都成立，也就是认为电磁波在所有惯性系下的速度都是c。这其实就是认为麦克斯韦方程组满足相对性原理，认为它在所有的惯性系下都是正确的，这就是前面讨论的第二种可能。

从这里也可以看出，即便我们不从相对性原理本身考虑，麦克斯韦方程组推出的这个电磁波速度也逼着你不得不二选一。麦克斯韦方程组是否满足相对性原理，这是一个必须回答的问题。

此外，很多科普文章说，因为麦克斯韦方程组推出电磁波的速度（也就是光速）是一个常数，所以我们可以从麦克斯韦方程组推出狭义相对论的光速不变原理，这是不对的。

14光速不变原理

光速不变原理不是说光在真空中的速度是一个定值（我声波在空气中的速度还是一个定值呢），而是说你不管在哪个惯性系里测量真空中的光速，它都是一个定值。

它的重点是强调真空光速在所有的惯性系里都一样，也就是说真空光速对所有惯性系都平权。

大家能看到这里来，这句话已经听熟了吧？所有的惯性系都平权，这不就是相对性原理的核心思想么？

所以，你单从麦克斯韦方程组推出的电磁波速度，是无法推出光速不变原理的，因为这个速度根本就没有提及任何参考系。我完全可以说麦克斯韦方程组推出的光速只在以太系里成立，在其它系里不成立，这样你还能说光速不变么？

但是，如果你同时坚持麦克斯韦方程组和相对性原理，认为方程组在所有的惯性系里都成立。那么，你就可以在所有的惯性系里推出电磁波的速度，这样你就可以说真空光速在所有的惯性系里都是不变的，这才是光速不变原理。

也就是说，单独的麦克斯韦方程组推不出光速不变原理，但是麦克斯韦方程组+相对性原理就能推出光速不变原理。

所以，问题的核心还是你要不要坚持相对性原理。

而“真空光速在所有惯性系里都不变”这样一个结论对牛顿力学，对绝对时空观有多么“大逆不道”，大家应该能感觉到吧。

它直接颠覆了我们熟知的速度合成法则。我在地面观测火车上物体的运动速度，那肯定是要把火车的速度和物体的运动速度叠加起来考虑的，怎么可能我在火车上观察这个物体是这个速度，在地面上观察还是这个速度呢？

举个例子，在时速300km/h的高铁上，有一个列车员以5km/h的速度朝车头走去。火车上的人觉得列车员的速度的5km/h，地面上的人自然觉得列车员的速度是300+5=305km/h。

这时候如果有个人跳出来说，不对，我在地面看到这个列车员的速度跟在火车上看到的一样，都是5km/h，那估计大家要送你去精神病院了。

但是，当我们把这个列车员换成了一束光，结论就变成这样了。火车和地面的人竟然都觉得这束光的速度是c，你说这结果可怕不可怕？

而我们所做的，仅仅是假设麦克斯韦方程组满足相对性原理，然后光速就被吓得不敢变了！这种“大逆不道”的结论，牛顿和伽利略当然要不起，这基本上是要掀他们的桌子了。

所以，我们再来看看这个直击灵魂的问题：麦克斯韦方程组到底满不满足相对性原理？

15结语

至此，狭义相对论诞生前夜的各种素材，我都已经帮你准备好了。牛顿力学、麦克斯韦方程组、相对性原理、伽利略变换、绝对时空观之间的关系，我也基本上给你理清了。

有的朋友可能还会有点疑问：别的书籍文章在讲狭义相对论之前，都要大讲特讲迈克尔逊-莫雷实验，然后从这个实验出发讲光速不变，怎么你这里一句都没提？

你去翻一翻爱因斯坦的论文《论动体的电动力学》（后台回复“狭义相对论论文”），里面一样一句没提迈克尔逊-莫雷实验。

爱因斯坦是从电磁学出发建立的狭义相对论，因为他的叔叔是电气工程师，他们家又开了一个电气工厂，所以爱因斯坦从小就对电磁学非常感兴趣。

至于光速不变，我们上面已经分析了。只要坚持麦克斯韦方程组和相对性原理，光速不变就是一个自然而然的结论，并不是非要有实验才敢这样想。也就是说，有没有迈克尔逊-莫雷实验，爱因斯坦都能创立狭义相对论，我们不必过分夸大这个实验的作用。

所以，现在就是这样的局面，牌都在这里，你要怎么打？牛顿力学和麦克斯韦电磁学的核心冲突，牛顿和麦克斯韦这两尊大神之间的战争，你要怎么去化解？

我希望你能好好想一想，自己琢磨琢磨。谁都知道解决方案就是狭义相对论，但是只知道答案对你并没有太大的用处，我希望你自己能合乎逻辑地把正确答案推导出来。你也知道在试卷里只写一个答案但没有任何过程的后果吧？

这是科学史上难得一见场面，也是新手村的绝佳试炼基地。

以前的科学发展，大多是科学家在这个领域做了很多实验，总结了很多实验定律。最后再来个厉害人物对这些定律进行大综合，力学和电磁学的发展皆是如此。

但是，像狭义相对论这样，主要的发展动力来自两套在各自领域都工作良好，一结合就出矛盾的理论的情况是非常少见的。然而，我们现在又一次遇到了这种情况：广义相对论和量子力学在各自领域都工作良好，但是它们一结合就会出现无尽的灾难。

我们应该如何去协调广义相对论和量子力学呢？从这个角度来看，爱因斯坦成功协调牛顿力学和麦克斯韦电磁学的这次经验，是不是就更加显得弥足珍贵了呢？

我也很想知道，如果年轻的爱因斯坦在现在，他会如何看待广义相对论和量子力学之间的矛盾。科学家为了调和两者，提出的超弦理论、圈量子理论等有没有忽略什么关键性的东西？为什么引力没法量子化？我们对时空本性的认识，是不是又要发生一次大的变革？

这些问题有着无尽的吸引力，为了让我自己能尽早看到这些问题的答案，我现在竭尽全力给你们写科普。

所以，我不能只是简单地告诉你们答案，我得尽力把爱因斯坦的学习方式、思考方式、研究方式都写出来。让你们领会爱因斯坦的科学精神，然后让你们去思考这些大问题~

牛顿和麦克斯韦的战争就写到这里，至于爱因斯坦是如何化解这个矛盾的，我下一篇文章再细说。怕错过的，盯着我的公众号就行了。

当然，如果你能在这之前通过这篇文章的线索自己把问题解决了，自己独立地提出狭义相对论，那就再好不过了，那我简直要给你发一朵小红花。如果你有思路，但是在有的地方又卡壳了，可以来我的社群（后台回复“社群”）跟大家一起讨论，我相信这种方式对你的成长会大有裨益。

神探爱因斯坦，我们下篇文章见~

------------------------------------------

《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》

《最美的公式：你也能懂的麦克斯韦方程组（微分篇）》

《见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？》

《闵氏几何是什么？它是如何统一时空并极大简化狭义相对论的？》

《你也能懂的微积分》

收起阅读 »

见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？

电动力学狭义相对论麦克斯韦方程组

在前两篇文章里，长尾君给大家介绍了麦克斯韦方程组的积分和微分形式。大家也都知道麦克斯韦从这套方程组里推导出了电磁波，然后通过计算发现电磁波的速度正好等于光速。于是，麦克斯韦就预言“光是一种电磁波”，这个预言后来被赫兹证实。电磁波的发现让麦克斯韦和他的电磁理论走...

继续阅读 »

在前两篇文章里，长尾君给大家介绍了麦克斯韦方程组的积分和微分形式。大家也都知道麦克斯韦从这套方程组里推导出了电磁波，然后通过计算发现电磁波的速度正好等于光速。于是，麦克斯韦就预言“光是一种电磁波”，这个预言后来被赫兹证实。

电磁波的发现让麦克斯韦和他的电磁理论走上了神坛，也让人类社会进入了无线电时代。你现在可以随时给远方的朋友打电话，能用手机刷长尾科技的文章，都跟电磁波有着密切的关系。那么，麦克斯韦到底是怎么从麦克斯韦方程组推导出电磁波方程的呢？这篇文章我们就来一起见证这一奇迹的时刻。

01什么是波？

要理解电磁波，首先我们得了解什么是波？有些人可能觉得这个问题有点奇怪，什么是波这还用问么？我丢一块石头到水里，水面上就会形成一个水波；我抖动一根绳子，绳子上就会就会出现一个波动。生活中还有很多这种波动现象，我虽然读书少，但是什么是波还是知道的。

没错，水波、绳子上的波动这些都是波，我在这里抛出“什么是波？”这个问题并不是想来掰指头数一数哪些东西是波，哪些不是，而是想问：所有这些叫作波的东西有什么共同的特征？我们如何用一套统一的数学语言来描述波？

我们研究物理，就是从万千变化的自然界的各种现象里总结出某种一致性，然后用数学的语言定量、精确的描述这种一致的现象。现在我们发现了水波、绳子上的波等许多现象都有这样一种波动现象，那我们自然就要去寻找这种波动现象背后统一的数学规律，也就是寻找描述波动现象的方程，即波动方程。

为了寻找统一的波动方程，我们先来看看最简单的波：抖动一根绳子，绳子上就会出现一个波沿着绳子移动，以恒定的频率抖动就会出现连续不断的波。

为了更好地研究绳子上的波动，我们先建立一个坐标系，然后把注意力集中到其中的一个波上。于是，我们就看到一个波以一定的速度v向x轴的正方向（右边）移动，如下图：

那么，我们该如何去描述这种波动呢？

首先，我们知道一个波是在不停地移动的，上图只是波在某个时刻的样子，它下一个时刻就会往右边移动一点。移动了多少也很好计算：因为波速为v，所以Δt时间以后这个波就会往右移动v·Δt的距离。

另外，我不管这个时刻波是什么形状的曲线，反正我可以把它看成一系列的点（x,y）的集合，这样我们就可以用一个函数y=f(x)来描述它（函数就是一种对应（映射）关系，在函数y=f(x)里，每给定一个x，通过一定的操作f(x)就能得到一个y，这一对（x,y）就组成了坐标系里的一个点，把所有这种点连起来就得到了一条曲线）。

然后，y=f(x)只是描述某一个时刻的波的形状，如果我们想描述一个完整动态的波，就得把时间t考虑进来。也就是说我们的波形是随着时间变化的，即：我绳子上某个点的纵坐标y不仅跟横轴x有关，还跟时间t有关，这样的话我们就得用一个二元函数y=f(x,t)来描述一个波。

这一步很好理解，它无非告诉我们波是随时间（t）和空间（x）变化的。但是这样还不够，世界上到处都是随着时间、空间变化的东西，比如苹果下落、篮球在天上飞，它们跟波的本质区别又在哪呢？

02波的本质

仔细想一下我们就会发现：波在传播的时候，虽然不同时刻波所在的位置不一样，但是它们的形状始终是一样的。也就是说前一秒波是这个形状，一秒之后波虽然不在这个地方了，但是它依然是这个形状，这是一个很强的限制条件。有了这个限制条件，我们就能把波和其它在时间、空间中变化的东西区分开了。

我们这样考虑：既然用f(x,t)来描述波，那么波的初始形状（t=0时的形状）就可以表示为f(x,0)。经过了时间t之后，波速为v，那么这个波就向右边移动了vt的距离，也就是把初始形状f(x,0)往右移动了vt，那么这个结果可以这样表示：f(x-vt,0)。

为什么把一个函数的图像往右移动了一段vt，结果却是用函数的自变量x减去vt，而不是加上vt呢？这是一个中学数学问题，我这里稍微帮大家回顾一下：你们想，如果我把一个函数图像f(x)往右移动了3，那么我原来在1这个地方的值f(1)，现在就成了4这个地方的函数值。所以，如果你还想用f(x)这个函数，那肯定就得用4减去3（这样才能得到f(1)的值），而不是加3（4+3=7，f(7)在这里可没有什么意义）。

所以，如果我们用f(x,t)描述波，那么初始时刻（t=0）的波可以表示为f(x,0)。经过时间t之后的波的图像就等于初始时刻的图像往右移动了vt，也就是f(x-vt,0)。于是，我们就可以从数学上给出波运动的本质：

也就是说，只要有一个函数满足f(x,t)=f(x-vt,0)，满足任意时刻的形状都等于初始形状平移一段，那么它就表示一个波。水波、声波、绳子上的波、电磁波、引力波都是如此，这也很符合我们对波的直观理解。

这里我们是从纯数学的角度给出了波的一个描述，下面我们再从物理的角度来分析一下波的形成原因，看看能不能得到更多的信息。

03张力

一根绳子放在地上的时候是静止不动的，我们甩一下就会出现一个波动。我们想一想：这个波是怎么传到远方去的呢？我们的手只是拽着绳子的一端，并没有碰到绳子的中间，但是当这个波传到中间的时候绳子确实动了，绳子会动就表示有力作用在它身上（牛爵爷告诉我们的道理），那么这个力是哪里来的呢？

稍微分析一下我们就会发现：这个力只可能来自绳子相邻点之间的相互作用，每个点把自己隔壁的点“拉”一下，隔壁的点就动了（就跟我们列队报数的时候只通知你旁边的那个人一样）这种绳子内部之间的力叫张力。

张力的概念也很好理解，比如我们用力拉一根绳子，我明明对绳子施加了一个力，但是这根绳子为什么不会被拉长？跟我的手最近的那个点为什么不会被拉动？

答案自然是这个点附近的点给这个质点施加了一个相反的张力，这样这个点一边被我拉，另一边被它邻近的点拉，两个力的效果抵消了。但是力的作用又是相互的，附近的点给端点施加了一个张力，那么这个附近的点也会受到一个来自端点的拉力，然而这个附近的点也没动，所以它也必然会受到更里面点的张力。这个过程可以一直传播下去，最后的结果就是这根绳子所有的地方都会张力。

而且，我们还可以断定：如果绳子的质量忽略不计，绳子也没有打结没有被拉长，那么绳子内部的张力处处相等（只要有一个点两边的张力不等，那么这个点就应该被拉走了，绳子就会被拉变形），这是个很重要的结论。

通过上面的分析，我们知道了当一根理想绳子处于紧绷状态的时候，绳子内部存在处处相等的张力。当一根绳子静止在地面的时候，它处于松弛状态，没有张力，但是当一个波传到这里的时候，绳子会变成一个波的形状，这时候就存在张力了。正是这种张力让绳子上的点上下振动，所以，分析这种张力对绳子的影响就成了分析波动现象的关键。

04波的受力分析

那么，我们就从处于波动状态的绳子中选择很小的一段AB，我们来分析一下这个小段绳子在张力的作用下是如何运动的。放心，我们这里并不会涉及什么复杂的物理公式，我们所需要的公式就一个，大名鼎鼎的牛顿第二定律：F=ma。

牛顿第一定律告诉我们“一个物体在不受力或者受到的合外力为0的时候会保持静止或者匀速直线运动状态”，那么如果合外力不为0呢？牛顿第二定律就接着说了：如果合外力F不为零，那么物体就会有一个加速度a，它们之间的关系就由F=ma来定量描述（m是物体的质量）。也就是说，如果我们知道一个物体的质量m，只要你能分析出它受到的合外力F，那么我们就可以根据牛顿第二定律F=ma计算出它的加速度a，知道加速度就知道它接下来要怎么动了。

牛顿第二定律就这样把一个物体的受力情况（F）和运动情况（a）结合起来了，我们想知道一个物体是怎么动的，只要去去分析它受到了什么力就行了，所以它牛。

再来看我们的波，我们从处于波动状态的绳子里选取很小的一段AB，我们想知道AB是怎么运动的，就要分析它受到的合外力。因为不考虑绳子的质量，所以就不用考虑绳子的重力，那么，我们就只要分析绳子AB两端的张力T就行了。

如上图，绳子AB受到A点朝左下方的张力T和B点朝右上方的张力T，而且我们还知道这两个张力是相等的，所以才把它都记为T。但是，我们知道波动部分的绳子是弯曲的，那么这两个张力的方向是不一样的，这一点从图中可以非常明显的看出来。我们假设A点处张力的方向跟横轴夹角为θ，B点跟横轴的夹角就明显不一样了，我们记为θ+Δθ。

因为绳子上的点在波动时是上下运动，所以我们只考虑张力T在上下方向上的分量，水平方向上的就不考虑了。那么，我们把AB两点的张力T都分解一下，稍微用一点三角函数的知识我们就能发现：B点处向上的张力为T·sin（θ+Δθ），A点向下的张力为T·sinθ。那么，整个AB段在竖直方向上受到的合力就等于这两个力相减：F= T·sin（θ+Δθ）-T·sinθ。

好了，按照牛顿第二定律F=ma，我们需要知道物体的合外力F、质量m和加速度a，现在我们已经知道了合外力F，那么质量m和加速度a呢？

05波的质量分析

质量好说，我们假设绳子单位长度的质量为μ，那么长度为Δl的绳子的质量就是μ·Δl。

但是，因为我们取的是非常小的一段，我们假设A点的横坐标为x，B点的横坐标为x+Δx，也就是说绳子AB在横坐标的投影长度为Δx，那么，当我们取的绳长非常短，波动非常小的时候，我们就可以近似用Δx代替Δl，这样绳子的质量就可以表示为：μ·Δx（本来我在考虑这里要不要再解释一下微积分思想，但是一想，会看这篇电磁波篇的，必须是已经提前看了麦克斯韦方程组的积分篇和微分篇，而我在那两篇里已经介绍过这种思想了，那这里就不说了~）。

质量搞定了，剩下的就是加速度a了。你可能以为我已经得到了合外力（F= T·sin（θ+Δθ）-T·sinθ）和质量m（μ·Δx），那么剩下肯定就是用合外力F除以质量m得到加速度a（牛顿第二定律），不不不，这样就不好玩了。我们还可以从另一个角度来得到加速度a，然后把它们作为拼盘拼起来。从哪里得到加速度呢a？从描述波的函数f(x,t)里。

06波的加速度分析

不知道大家还记得我们在前面说的这个描述波的函数y=f(x,t)么？这个函数的值y表示的是在x这个地方，时间为t的时候这一点的纵坐标，也就是波的高度。我们现在要求的也就是AB上下波动时的加速度，那么，怎么从这个描述点位置的函数里求出加速度a呢？

这里我们再来理解一下加速度a，什么叫加速度？从名字就可以感觉到，这个量是用来衡量速度变化快慢的。加速度嘛，肯定是速度加得越快，加速度的值就越大。假如一辆车第1秒的速度是2m/s，第2秒的速度是4m/s，那么它的加速度就是用速度的差（4-2=2）除以时间差（2-1=1），结果就是2m/s²。

再来回想一下，我们是怎么求一辆车的速度的？我们是用距离的差来除以时间差的。比如一辆车第1秒钟距离起点20米，第2秒钟距离起点50米，那么它的速度就是用距离的差（50-20=30）除以时间差（2-1=1），结果就是30m/s。

不知道大家从这两个例子里发现了什么没有？我用距离的差除以时间差就得到了速度，我再用速度的差除以时间差就得到了加速度，这两个过程都是除以时间差。那么，如果我把这两个过程合到一块呢？那是不是就可以说：距离的差除以一次时间差，再除以一次时间差就可以得到加速度？

这样表述并不是很准确，但是可以很方便的让大家理解这个思想。如果把距离看作关于时间的函数，我们对这个函数求一次导数（就是上面的距离差除以时间差，只不过趋于无穷小）就得到了速度的函数，对速度的函数再求一次导数就得到了加速度的表示。所以，我们把一个关于距离（位置）的函数对时间求两次导数，就可以得到加速度的表达式。

波的函数f(x,t)不就是描述绳子上某一点在不同时间t的位置么？那我们对f(x,t)求两次关于时间的导数，自然就得到了这点的加速度a。因为函数f是关于x和t两个变量的函数，所以我们只能对时间的偏导∂f/ ∂t，再求一次偏导数就加个2上去。于是我们就可以这样表示这点的加速度a=∂²f/ ∂t²（关于偏导数的介绍，微分篇里有详细叙述，这里不再说明）。

这样，我们就把牛顿第二定律F=ma的三要素都凑齐了：F= T·sin（θ+Δθ）-T·sinθ，m=μ·Δx，a=∂²f/ ∂t²。把它们集合在一起就可以召唤神，阿不，就可以写出AB的运动方程了：

这个用牛顿第二定律写出来的波动方程，看起来怎么样？嗯，似乎有点丑，看起来也不太清晰，方程左边的东西看着太麻烦了，我们还需要对它进行一番改造。那怎么改造呢？我们可以先把sinθ给干掉。

07方程的改造

为了能够顺利地干掉sinθ，我们先来回顾一下基本的三角函数：

如上图，右边是一个直角三角形abc，那么角θ的正弦值sinθ等于对边c除以斜边a，正切值tanθ等于对边c除以邻边b。

当这个角度θ还很大的时候，a比b要明显长一些。但是，一旦角度θ非常非常小，可以想象，邻边b和斜边a就快要重合了。这时候我们是可以近似的认为a和b是相等的，也就是a≈b，于是就有c/b≈c/a，即tanθ≈sinθ。

也就是说，在角度θ很小的时候，我们可以用正切值tanθ代替正弦值sinθ。我们假设这根绳子的扰动非常小，形变非常小，那么θ和θ+Δθ就都非常小，那么它们的正弦值就都可以用正切值代替。于是，那个波动方程左边的sin(θ+Δθ)-sinθ就可以替换为：tan(θ+Δθ)-tanθ。

为什么我们要用正切值tanθ代替正弦值sinθ呢？因为正切值tanθ还可以代表一条直线的斜率，代表曲线在某一点的导数。想想正切值的表达式tanθ=c/b，如果建一个坐标系，那么这个c刚好就是直线在y轴的投影dy，b就是在x轴的投影dx，它们的比值刚好就是导数dy/dx，也就是说tanθ=dy/dx。

然而，因为波的函数f(x,t)是关于x和t的二元函数，所以我们只能求某一点的偏导数，那么正切值就等于它在这个点的偏导数：tanθ=∂f/ ∂x。那么，原来的波动方程就可以写成这样：

这里我稍微解释一下偏导数的符号，我们用∂f/ ∂x表示函数f(x,t)的偏导数，这是一个函数，x可以取各种各样的值。但是如果我加一个竖线|，然后在竖线的右下角标上x+Δx就表示我要求在x+Δx这个地方的导数。

再来看一下这个图，我们已经约定了A点的横坐标为x，对应的角度为θ；B点的横坐标是x+Δx，对应的角度为θ+Δθ。所以，我们可以用x+Δx和x这两处的偏导数值代替θ+Δθ和θ这两处的正切值tan（θ+Δθ）和tanθ，所以波动方程才可以写成上面那样：

接着，如果我们再对方程的两边同时除以Δx，那左边就变成了函数∂f/ ∂x在x+Δx和x这两处的值的差除以Δx，这其实就是∂f/ ∂x这个函数的导数表达式。也就是说，两边同时除以一个Δx之后，左边就变成了偏导数∂f/ ∂x对x再求一次导数，那就是f(x,t)对x求二阶偏导数了。

上面我们用我们已经用∂²f/ ∂t²来表示函数对t的二阶偏导数，那么这里自然就可以用∂²f/ ∂x²来表示函数对x的二阶偏导数。然后两边再同时除以T，得到方程就简洁多了：

把方程左边的tan(θ+Δθ)-tanθ变成了函数f(x,t)对空间x的二阶偏导数，这个过程非常的重要，大家可以好好体会一下这个过程。正切值tanθ就是一阶导数，然后两个正切值的差除以自变量的变化就又产生了一次导数，于是总共就有了两阶，所以我们才能得到上面那个简洁的式子。

08经典波动方程

再看看方程右边的μ/T，如果你仔细去算一下μ/T的单位，你会发现它刚好就是速度的平方的倒数，也就是说如果我们把一个量定义成T/μ的平方根，那么这个量的单位刚好就是速度的单位。可以想象，这个速度自然就是这个波的传播速度v：

这样定义速度v之后，我们最终的波动方程就可以亮相了：

这个方程就是我们最终要找的经典波动方程，为什么把它作做经典的波动方程呢？因为它没有考虑量子效应啊，在物理学里，经典就是非量子的同义词。如果我们要考虑量子效应，这个经典的波动方程就没用了，我们就必须转而使用量子的波动方程，那就是大名鼎鼎的薛定谔方程。

薛定谔就是从这个经典波动方程出发，结合德布罗意的物质波概念，硬猜出了薛定谔方程。这个方程让物理学家们从被海森堡的矩阵支配的恐惧中解脱了出来，重新回到了微分方程的美好世界。薛定谔方程虽然厉害，但是它并没有考虑狭义相对论效应，而高速运动（近光速）的粒子在微观世界是很常见的，我们也知道当物体接近光速的时候就必须考虑相对论效应，但是薛定谔方程并没有做到这一点。

最终让薛定谔方程相对论化是狄拉克，狄拉克把自己关在房间三个月，最终逼出了同样大名鼎鼎的狄拉克方程。狄拉克方程首次从理论上预言了反物质（正电子），虽然当时的科学家们认为狄拉克这是在胡闹，但是我国的物理学家赵忠尧先生却几乎在同时就首次在实验室里观测到了正负电子湮灭的情况。

另外，狄拉克的工作也推动了量子场论的诞生，打开了一扇让人无比神往的新世界大门。物理学家们沿着这条路驯服了电磁力、强力、弱力，建立起了粒子物理的标准模型，于是四海清平，天下大定，除了那该死的引力。这些精妙绝伦的故事我们后面再讲，如果把这些故事写成一本《量子英雄传》，嗯，一定不比金庸的武侠逊色~

好了，回归正题，看到这个经典波动方程到后面还能掀起那么大的浪来，是不是突然就对它肃然起敬了呢？我们这样一顿操作推导出了经典波动方程，有的朋友可能有点懵，没关系，我们再来捋一下。这个看着很复杂的，包含了二阶偏导数的方程其实就只是告诉我们：我们把这根绳子极小的一段看作一个质点，那么这个质点满足牛顿第二定律F=ma，仅此而已。

09复盘

我们整个推导过程不过就是去寻找F=ma中的这三个量。我们把绳子的张力在竖直方向做了分解，然后得到了它在竖直方向上的合力F（T·sin（θ+Δθ）-T·sinθ）；我们定义了单位长度的质量μ，然后就可以计算那小段绳子的质量m（μ·Δx）；我们通过对波的函数f(x,t)的分析，发现如果对这种表示距离（位移）的函数对时间求一次偏导数就得到了速度，再求一次偏导数就得到了加速度，于是我们就得到了这段绳子的加速度a（∂²f/ ∂t²）。然后我们就把这些量按照牛顿第二定律F=ma拼了起来。

在处理问题的过程中，我们做了很多近似：因为我们是取得很小的一段，那么我们就可以用Δx近似代替绳子的长度Δl；假设扰动很小，绳子偏离x轴很小，那么角度θ就很小，我们就近似用正切值tanθ代替正弦值sinθ。很多人乍一看，觉得这么严格的推导怎么能这么随意的近似呢？你这里近似那里近似，得到的最终结果还是准确的么？

要理解这个问题，就得正式去学习微积分了，我现在告诉你微积分的核心思想就是一种以直代曲的近似，你信么？微积分里就是用各种小段小段的直线去近似的代替曲线，但是得到的结果却是非常精确的。因为我们可以把这些线段取得非常非常的小，或者说是无穷小，那么这个误差也就慢慢变成无穷小了。所以我们在分析这根绳子的时候，也都强调了是取非常小的一段，给一个非常小的扰动，得到一个非常小的角度θ。

另外，tanθ就是一次导数，然后它们的差再除以一次Δx，就又出现了一次导数，所以方程的左边就出现了f(x,t)对位置x的两次偏导数。方程的右边就是函数f(x,t)对时间t求两次偏导数得到的加速度a（求一次导数得到速度，求两次就得到加速度）。

所以，虽然我们看到的是一个波动方程，其实它只是一个变装了的牛顿第二定律F=ma。理解这点，波动方程就没什么奇怪的了。我们再来仔细的审视一下这个方程：

这个波动方程的意义也很直观，它告诉我们f(x,t)这样一个随时间t和空间x变化的函数，如果这个二元函数对空间x求两次导数得到的∂²f/ ∂x²和对时间t求两次导数得到的∂²f/ ∂t²之间满足上面的那种关系，那么f(x,t)描述的就是一个波。

如果我们去解这个方程，我们得到的就是描述波的函数f(x,t)。而我们前面对波做数学分析的时候得到了这样一个结论：如果一个函数f(x,t)描述的波，那么就一定满足f(x,t)=f(x-vt,0)。所以，波动方程的解f(x,t)肯定也都满足前面这个关系，这一点感兴趣的朋友可以自己下去证明一下。

好了，经典的波动方程我们就先讲到这里。有了波动方程，你会发现我们通过几步简单的运算就能从麦克斯韦方程组中推导出电磁波的方程，然后还能确定电磁波的速度。

10真空中的麦克斯韦方程组

麦克斯韦方程组的微分形式是这样的：

这组方程的来龙去脉长尾科技在上一篇文章《最美的公式：你也能懂的麦克斯韦方程组（微分篇）》里已经做了详细的介绍，这里不再多说。这组方程里，E表示电场强度，B表示磁感应强度，ρ表示电荷密度，J表示电流密度，ε0和μ0分别表示真空中的介电常数和磁导率（都是常数），▽是矢量微分算子，▽·和▽×分别表示散度和旋度：

接下来我们的任务，就是看如何从这组方程里推出电磁波的方程。

首先，如果真的能形成波，那么这个波肯定就要往外传，在远离了电荷、电流（也就是没有电荷、电流）的地方它还能自己传播。所以，我们先让电荷密度ρ和电流密度J都等于0，当ρ=0，J=0时，我们得到的就是真空中的麦克斯韦方程组：

有些人觉得你怎么能让电荷密度ρ等于0呢？这样第一个方程就成了电场的散度▽·E=0，那不就等于说电场强度E等于0，没有电场了么？没有电场还怎么来的电磁波？

很多人初学者都会有这样一种误解：好像觉得电场的散度▽·E等于0了，那么就没有电场了。其实，电场的散度等于0，只是告诉你通过包含这一点的无穷小曲面的电通量为0，电通量为0不代表电场E为0啊，因为我可以进出这个曲面的电通量（电场线的数量）相等。这样有多少正的电通量（进去的电场线数量）就有多少负的电通量（出来的电场线数量），进出正负抵消了，所以总的电通量还是0。于是，这点的散度▽·E就可以为0，而电场强度E却不为0。

所以这个大家一定要区分清楚：电场E的散度为0不代表电场E为0，它只是要求电通量为0而已，磁场也一样。

这样我们再来审视一下真空中（ρ=0，J=0）的麦克斯韦方程组：方程1和2告诉我们真空中电场和磁场的散度为0，方程3和4告诉我们电场和磁场的旋度等于磁场和电场的变化率。前两个方程都是独立的描述电和磁，后两个方程则是电和磁之间的相互关系。我们隐隐约约也能感觉到：如果要推导出电磁波的方程，你肯定得把上面几个式子综合起来，因为波是要往外传的，而你上面单独的方程都只是描述某一点的旋度或者散度。

有一个很简单的把它们都综合在一起的方法：对方程3和方程4两边同时再取一次旋度。

方程3的左边是电场的旋度▽×E，对它再取一次旋度就变成了▽×（▽×E）；方程3的右边是磁场的变化率，对右边取一次旋度也可以得到磁场B的旋度▽×B，这样不就刚好跟方程4联系起来了么？对方程4两边取旋度看起来也一样，这看起来是个不错的兆头。

可能有些朋友会有一些疑问：你凭什么对方程3和4的两边取旋度，而不取散度呢？如果感兴趣你可以两边都取散度试试，你会发现电场E的旋度取散度▽·（▽×E）的结果恒等于0。

这一点你看方程3 的右边会更清楚，方程3的右边是磁场的变化率，你如果对方程左边取散度，那么右边也得取散度，而右边磁场的散度是恒为0的（▽·B=0就是方程2的内容）。这样就得不出什么有意义的结果，你算出0=0能得到什么呢？

所以，我们现在的问题变成了：如何求电场E的旋度的旋度（▽×（▽×E））？因为旋度毕竟和叉乘密切相关，所以我们还是先来看看叉乘的叉乘。

11叉乘的叉乘

在积分篇和微分篇里，我已经跟大家详细介绍了矢量的点乘和叉乘，而且我们还知道点乘的结果A·B是一个标量，而叉乘的结果A×B是一个矢量（方向可以用右手定则来判断，右手从A指向B，大拇指的方向就是A×B的方向）。

而点乘和叉乘都是矢量之间的运算，那么A·B的结果是一个标量，它就不能再和其它的矢量进行点乘或者叉乘了。但是，A×B的结果仍然是一个矢量啊，那么按照道理它还可以继续跟新的矢量进行点乘或者叉乘运算，这样我们的运算就可以有三个矢量参与，这种结果我们就称为三重积。

A·（B×C）的结果是一个标量，所以这叫标量三重积；A×（B×C）的结果还是一个矢量，它叫矢量三重积。

标量三重积A·（B×C）其实很简单，我在微分篇说过，两个矢量的叉乘的大小等于它们组成的平行四边形的面积，那么这个面积再和一个矢量点乘一把，你会发现这刚好就是三个矢量A、B、C组成的平行六面体的体积。

这个大家对着上面的图稍微一想就会明白。而且，既然是体积，那么你随意更换它们的顺序肯定都不会影响最终的结果。我们真正要重点考虑的，还是矢量三重积。

矢量三重积A×（B×C），跟我们上面说电场E旋度的旋度▽×（▽×E）形式相近，密切相关。它没有上面标量三重积那样简单直观的几何意义，我们好像只能从数学上去推导，这个推导过程，哎，我还是直接写结果吧：

A×（B×C）=B（A·C）-C（A·B）。

结果是这么个东西，是不是很难看？嗯，确实有点丑。不过记这个公式有个简单的口诀：远交近攻。什么叫远交近攻呢？当年秦相范雎，啊不，A×（B×C）里的A距离B近一些，距离C远一些，所以A要联合C（A·C前面的符合是正号）攻打B（A·B前面的符号是负号），这样这个公式就好记了，感兴趣的可以自己去完成推导的过程。

12旋度的旋度

有了矢量三重积的公式，我们就来依样画葫芦，来套一套电场E的旋度的旋度▽×（▽×E）。我们对比一下这两个式子A×（B×C）和▽×（▽×E），好像只要把A和B都换成▽，把C换成E就行了。那么，矢量三重积的公式（A×（B×C）=B（A·C）-C（A·B））就变成了：

▽×（▽×E）=▽（▽·E）-E（▽·▽）。

嗯，▽（▽·E）表示电场E的散度的梯度，散度▽·E的结果是一个标量，标量的梯度是有意义的，但是后面那个E（▽·▽）是什么鬼？两个▽算子挤在一起，中间还是一个点乘的符号，看起来好像是在求▽的散度（▽·），可是▽是一个算子，又不是一个矢量函数，你怎么求它的散度？而且两个▽前面有一个电场E，怎么E还跑到▽算子的前面去了？

我们再看一下矢量三重积的公式的后面一项C（A·B）。这个式子的意思是矢量A和B先进行点乘，点乘的结果A·B是一个标量，然后这个标量再跟矢量C相乘。很显然的，如果是一个标量和一个矢量相乘，那么这个标量放在矢量的前面后面都无所谓（3C=C3），也就是说C（A·B）=（A·B）C。

那么，同样的，E（▽·▽）就可以换成（▽·▽）E，而它还可以写成▽²E，这样就牵扯出了另一个大名鼎鼎的东西：拉普拉斯算子▽²。

13拉普拉斯算子▽²

拉普拉斯算子▽²在物理学界可谓大名鼎鼎，它看起来好像是哈密顿算子▽的平方，其实它的定义是梯度的散度。

我们假设空间上一点（x,y,z）的温度由T（x,y,z）来表示，那么这个温度函数T（x,y,z）就是一个标量函数，我们可以对它取梯度▽T，因为梯度是一个矢量（梯度有方向，指向变化最快的那个方向），所以我们可以再对它取散度▽·。

我们利用我们在微分篇学的▽算子的展开式和矢量坐标乘法的规则，我们就可以把温度函数T（x,y,z）的梯度的散度（也就是▽²T）表示出来：

再对比一下三维的▽算子：

所以，我们把上面的结果（梯度的散度）写成▽²也是非常容易理解的，它跟▽算子的差别也就是每项多了一个平方。于是，拉普拉斯算子▽²就自然可以写成这样：

从拉普拉斯算子▽²的定义我们可以看到，似乎它只能对作用于标量函数（因为你要先取梯度），但是我们把▽²稍微扩展一下，就能让它也作用于矢量函数V（x,y,z）。我们只要让矢量函数的每个分量分别去取▽²，就可以定义矢量函数的▽²：

定义了矢量函数的拉普拉斯算子，我们稍微注意一下下面的这个结论（课下自己去证明）：

然后再看看中间的那个东西，是不是有点眼熟？

我们在求电场旋度的旋度的时候，不就刚好出现了（▽·▽）E这个东西么？现在我们就可以理直气壮地把它替换成▽²E了，于是，电场旋度的旋度就可以写成这样：

▽×（▽×E）=▽（▽·E）-（▽·▽）E=▽（▽·E）-▽²E。

至此，我们利用矢量的三重积公式推电场E的旋度的旋度的过程就结束了，然后我们就得到了这个极其重要的结论：

它告诉我们：电场的旋度的旋度等于电场散度的梯度减去电场的拉普拉斯。有了它，电磁波的方程立马就可以推出来了。

14见证奇迹的时刻

我们再来看看真空中的麦克斯韦方程组：

它的第三个方程，也就是法拉第定律是这样表示的：

我们对这个公式两边都取旋度，左边就是上面的结论，右边无非就是对磁感应强度B取个旋度，即：

你看看这几项，再看看真空中的麦克斯韦方程组：方程1告诉我们▽·E=0，方程4告诉我们▽×B=μ0ε0（∂E/ ∂t），我们把这两项代入到上面的式子中去，那结果自然就变成了：

μ0、ε0都是常数，那右边自然就变成了对电场E求两次偏导。再把负号整理一下，最后的式子就是这样：

嗯，于是我们就神奇般的把磁感应强度B消掉了，让这个方程只包含电场E。我们再对比一下我们之前唠叨了那么多得出的经典波动方程：

我们在推导经典波动方程的时候只考虑了一维的情况，因为我们只考虑波沿着绳子这一个维度传播的情况，所以我们的结果里只有∂²f/ ∂x²这一项。如果我们考虑三维的情况，那么不难想象波动方程的左边应该写成三项，这三项刚好就是f的三维拉普拉斯：

所以我们的经典波动方程其实可以用拉普拉斯算子写成如下更普适的形式：

再看看我们刚刚从麦克斯韦方程组中得到的电场方程：

嗯，我们推出的电场的方程跟经典波动方程的形式是一模一样的，现在我们说电场E是一个波，你还有任何异议么？

我们把电场E变成了一个独立的方程，代价是这个方程变成了二阶（方程出现了平方项）的。对于磁场，一样的操作，我们对真空中麦克斯韦方程组的方程4（▽×B=μ0ε0（∂E/ ∂t））两边取旋度，再重复一次上面的过程，就会得到独立的磁感应强度B的方程：

这样，我们就发现E和B都满足波动方程，也就是说电场、磁场都以波动的形式在空间中传播，这自然就是电磁波了。

15电磁波的速度

对比一下电场和磁场的波动方程，你会发现它们是形式是一模一样的（就是把E和B互换了一下），这样，它们的波速也应该是一样的。对比一下经典波动方程的速度项，电磁波的速度v自然就是这样：

我们去查一下μ0、ε0的数值，μ0=4π×10^-7N/A²，ε0=8.854187818×10^ -12 (F/m)，代入进去算一算：

再查一下真空中的光速 c=299792458m/s。

前者是我们从麦克斯韦方程组算出来的电磁波的速度，后者是从实验里测出来的光速。有这样的数据做支撑，麦克斯韦当年才敢大胆的预测：光就是一种电磁波。

当然，“光是一种电磁波”在我们现在看来并不稀奇，但是你回顾一下历史：科学家们是在研究各种电现象的时候引入了真空介电常数ε0，在研究磁铁的时候引入了真空磁导率μ0，它们压根就跟光无关。麦克斯韦基于理论的美学和他惊人的数学才能，提出了位移电流假说（从推导里我们也可以看到：如果没有麦克斯韦加入的位移电流这一项，是不会有电磁波的），预言了电磁波，然后发现电磁波的速度只跟μ0、ε0相关，还刚好就等于人们测量的光速，这如何能不让人震惊？

麦克斯韦一直以为自己在研究电磁理论，但是当他的电磁大厦落成时，他却意外地发现光的问题也被顺手解决了，原来他一直在盖的是电磁光大厦。搞理论研究还可以买二送一，打折促销力度如此之大，惊不惊喜，意不意外？

总之，麦克斯韦相信自己的方程，相信光是一种电磁波，当赫兹最终在实验室里发现了电磁波，并证实它的速度确实等于光速之后，麦克斯韦和他的理论获得了无上的荣耀。爱因斯坦后来却因为不太相信自己的方程（认为宇宙不可能在膨胀）转而去修改了它，于是他就错失了预言宇宙膨胀的机会。当后来哈勃用望远镜观测到宇宙确实在膨胀时，爱因斯坦为此懊恼不已。

16结语

回顾一下电磁波的推导过程，我们就是在真空麦克斯韦方程组的方程3和方程4的两边取旋度，然后就很自然的得出了电磁波的方程，然后得到了电磁波的速度等于光速c。这里有一个很关键的问题：这个电磁波的速度是相对谁的？相对哪个参考系而言的？

在牛顿力学里，我们说一个物体的速度，肯定是相对某个参考系而言的。你说高铁的速度是300km/h，这是相对地面的，你相对太阳那速度就大了。这个道理在我们前面讨论的波那里也一样，我们说波的速度一般都是这个波相对于它所在介质的速度：比如绳子上的波通过绳子传播，这个速度就是相对于绳子而言的；水波是在波在水里传播，那么这个速度就是相对水而言的；声波是波在空气里传播（真空中听不到声音），声波的速度就自然是相对空气的速度。

那么，电磁波呢，从麦克斯韦方程组推导出的电磁波的速度是相对谁的？水？空气？显然都不是，因为电磁波并不需要水或者空气这种实体介质才能传播，它在真空中也能传播，不然你是怎么看到太阳光和宇宙深处的星光的？而且我们在推导电磁波的过程中也根本没有预设任何参考系。

于是当时的物理学家们就假设电磁波的介质是一种遍布空间的叫作“以太”的东西，于是大家开始去寻找以太，但是怎么找都找不到。另一方面，电磁波的发现极大地支持了麦克斯韦的电磁理论，但是它跟牛顿力学之间却存在着根本矛盾，这种情况像极了现在广义相对论和量子力学之间的矛盾。怎么办呢？

1879年，麦克斯韦去世，同年，爱因斯坦降生，这仿佛是两代伟人的一个交接仪式。麦克斯韦电磁理论与牛顿力学之间的矛盾，以及“以太”这个大坑都被年轻的爱因斯坦搞定了，爱因斯坦搞定它们的方法就是大名鼎鼎的狭义相对论。其实，当麦克斯韦把他的电磁理论提出来之后，狭义相对论的问世就几乎是必然的了，因为麦克斯韦的电磁理论其实就是狭义相对论框架下的理论，这也是它跟牛顿力学冲突的核心。所以，爱因斯坦才会把他狭义相对论的论文取名为《论动体的电动力学》。

麦克斯韦的电磁理论结束了一个时代，却又开启了一个新时代（相对论时代），它跟牛顿力学到底有什么矛盾？为什么非得狭义相对论才能解决这种矛盾？这些将是我后面要讨论的重点。我会尽力让大家看到科学的发展有它清晰的内在逻辑和原因，并不是谁拍拍脑袋就提出一个石破天惊的新理论出来的。

此外，电磁理论和牛顿力学的融合是人类解决两个非常成功却又直接冲突理论的一次非常宝贵的经验，这跟我们现在面临的问题（广义相对论和量子力学的冲突）非常类似。我希望能够通过这种叙述给喜欢科学的少年们一些启示，让他们以后面对广义相对论和量子力学冲突的时候，能够有一些灵感。

嗯，没错，我在期待未来的爱因斯坦~

《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》

《最美的公式：你也能懂的麦克斯韦方程组（微分篇）》

收起阅读 »

最美的公式：你也能懂的麦克斯韦方程组（微分篇）

电动力学狭义相对论麦克斯韦方程组

在上一篇文章《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》里，长尾科技带着大家从零开始一步一步认识了麦克斯韦方程组的积分形式，这篇文章我们就来看看它的微分形式。在积分篇里，我们一直在跟电场、磁场的通量打交道。我们任意画一个曲面，这个曲面可以是闭合的，也可以...

继续阅读 »

在上一篇文章《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》里，长尾科技带着大家从零开始一步一步认识了麦克斯韦方程组的积分形式，这篇文章我们就来看看它的微分形式。

在积分篇里，我们一直在跟电场、磁场的通量打交道。我们任意画一个曲面，这个曲面可以是闭合的，也可以不是，然后我们让电场线、磁感线穿过这些曲面，它们就两两结合形成了四个积分形式的方程组。从这里我们能感觉到：麦克斯韦方程组的积分形式是从宏观角度来描述问题，这些曲面都是宏观可见的东西。那么微分形式呢？微分形式似乎应该从微观角度去看问题，那么我们要怎样把曲面、通量这些宏观上的东西弄到微观里来呢？

一个很简单的想法就是：我让宏观上的东西缩小缩小，直到缩小成一个点，这样不就进入微观了么？积分形式的麦克斯韦方程组需要选定一个曲面，但是它并没有限定这个曲面的大小，我可以把这个曲面选得很大，也可以选得很小。当你把这个曲面选得很小很小的时候，麦克斯韦方程组的积分形式就自然变成了微分形式。所以，微分形式的基本思想还是很简单的，它真正麻烦的地方是在于如何寻找一种方便的计算方式，这些我后面会细说。

因为微分形式和积分形式的这种承接关系，我建议大家尽量先看看积分篇的内容。在积分篇里，我是从零开始讲电磁学，讲麦克斯韦方程组，所以阅读起来不会有什么门槛。但是到了微分篇，上篇文章已经详细说了一些东西（诸如电场、通量、环流等概念）这里就不会再细说了。长尾君不会从天而降地抛出一个东西，如果在这篇文章里遇到了什么难以理解的东西，可以看看是不是在积分篇里已经说过了~

好，下面进入正题。在积分篇里我跟大家讲过，麦克斯韦方程组总共有四个方程，分别描述了静电（高斯电场定律）、静磁（高斯磁场定律）、磁生电（法拉第定律）、电生磁（安培-麦克斯韦定律）。这四个方程各有积分和微分两种形式，积分形式我们上篇已经说过了，微分形式我们还是按照顺序，也从静电开始。

01微分形式的静电

在积分篇里，我们是这样描述静电的：我在空间里任意画一个闭合曲面，那么通过闭合曲面的电场线的数量（电通量）就跟这个曲面包含的电荷量成正比。用公式表述就是这样：

这就是积分形式的高斯电场定律：左边表示通过闭合曲面S的电通量（E是电场强度，我们把面积为S的闭合曲面分割成许多小块，每一个小块用da表示，那么通过每一个小块面积的电通量就可以写成E·da。套上一个积分符号就表示把所有小块的电通量累加起来，这样就得到了通过整个闭合曲面S的电通量），右边那个带了enc下标的Q就表示闭合曲面包含的电荷量，ε0是个常数。这些内容我在积分篇里都详细说过了，这里不再多言。

下面是重点：因为这个闭合曲面S是可以任何选取的，它可以大可以小，可以是球面也可以是各种乱七八糟的闭合曲面。那么我们就不妨来学习一下孙悟空，变小变小再变小，我让这个闭合曲面也一直缩小缩小，缩小到无穷小，那么这时候高斯电场定律会变成什么样呢？

这里会涉及一丢丢极限的概念，我们这样考虑：一个闭合曲面缩小到无穷小，其实就是它的表面积或者体积无限趋向于0。也就是说，我假设有一个球的体积为ΔV，然后让这个ΔV无限趋近于0，那这样就可以表示这个球缩小到无穷小了。用数学符号可以记成这样：

Lim就是英文单词极限（limit）的缩写，ΔV通过一个箭头指向0可以很形象的表示它无限趋近于0。有了这个极限的概念，我们就可以很自然的表示通过这个无穷小曲面的电通量了（直接在电通量的前面加个极限符号），这时候高斯电场定律就成了这样：

这样，我们就把高斯电场定律从宏观拉到了微观：方程的左边表示曲面缩小到无穷小时的电通量，方程的右边表示无穷小曲面包含的电荷量。但是，当曲面缩小到无穷小的时候，我们再使用电荷量Q就不合适了，所以我们改用电荷密度（符号为ρ）。电荷密度，从名字里我们就能猜出它表示的是单位体积内包含电荷量的大小，所以它的表达式应该是用电荷量除以体积，即：ρ=Q/V。

所以，如果我们把微观的高斯电场定律左右两边都同时除以体积ΔV，那么右边的电荷量Q除以体积Δ就变成了电荷密度ρ，左边我们也再除以一个ΔV，那么公式就变成了下面这样：

公式的右边除以一个体积ΔV，就成了电荷密度ρ除以真空介电常数ε0，那左边呢？左边原来是通过无穷小曲面的电通量，这玩意除以一个体积ΔV之后表示什么呢？这一长串的东西，我们给它取了个新名字：散度。

也就是说，电场E在一个点（被无穷小曲面围着的这个点）上的散度被定义为电场通过这个无穷小曲面的电通量除以体积。散度的英文单词是divergence，所以我们通常就用div(E)表示电场E的散度，即：

所以，高斯电场定律的微分形式就可以表示成这样：

它告诉我们：电场在某点的散度跟该点的电荷密度成正比。

然后呢？然后微分篇的第一个方程就这样说完了？这只不过把高斯电场定律积分形式的曲面缩小到了无穷小，然后两边同时除了一个体积，右边凑出了一个电荷密度，左边巴拉巴拉凑出一大堆东西你告诉我这个新东西叫散度就完事了？不带这么玩的！那这个散度到底有什么物理意义？我要如何去计算具体的散度（你用无穷小通量去定义散度倒是好定义，但是这样计算可就麻烦了）？还有，很多人多多少少知道一些麦克斯韦方程组的样子，虽然不是很懂，那个倒三角符号▽倒还是记得的，你这公式里为什么没有▽符号呢？

02初入江湖的▽

没错，我们用无穷小曲面的通量和体积的比值来定义散度，这样定义是为了突出它跟通量之间的联系，也方便大家从积分的思维自然的转化到微分的思维中来。但是，这种定义在具体计算的时候是没什么用的，我们不会通过去计算无穷小曲面的通量和体积的比值来计算一个点的散度，因为这样实在是太麻烦了。我们有种更简单的方式来计算电场在某个点的散度，而这种方法，就会使用到我们熟悉的倒三角▽符号。

在这种新的表示方法里，电场E的散度可以被写成这样：▽·E，所以我们就可以用这个东西替换掉方程左边div(E)，那么麦克斯韦方程组的第一个方程——描述静电的高斯电场定律的微分形式就可以写成这样：

这样写的话，是不是就感觉熟悉多了？也就是说，同样是为了表示散度，我们用▽·E代替了代替了原来无穷小曲面通量和体积比值那么一大串的东西。而且这样还非常好计算，使用这种新的方式，你只要给出一个电场，我分分钟就可以把电场的散度写出来。这种倒三角▽符号，绝对是符号简化史上的奇迹。

所以，我接下来的工作，或者说理解麦克斯韦方程组的微分形式的核心内容，就是要来告诉大家这个倒三角▽符号到底是什么意思，▽·（后面加了一个点）又是什么意思？为什么▽·E可以表示电场E的散度就？为什么▽·E跟我们前面散度的定义div（E）是等价的？也就是说：

为什么上面的式子是相等的，而且都可以用来表示电场E的散度？

这就是我在开篇说的：微分形式的基本思想还是很简单的，它真正麻烦的地方在于如何寻找一种方便计算的方式，这种方便的计算方式自然就是▽。那么我们接下来就先把电磁相关的物理内容搁置一旁，先一起来看一看这个传奇符号▽的前世今生，理解了它，你就理解了麦克斯韦方程组的微分形式的精髓。

03从导数说起

要理解▽，我们还是得先再来看一看这个衡量事物变化快慢的概念：导数。说“再”是因为我们在积分篇里已经讲过了：法拉第发现了电磁感应，发现变化的磁场能产生电场，而且磁场变化得越快，产生的电场越大。这里我们就需要这样一个量来描述磁场变化的快慢，只不过当时我们没有展开说。

我还是借用上篇身高的例子来看看我们是如何描述变化的快慢的。一个人在十二三岁的时候一年可以长10厘米，我们说他这时候长得快；到了十七八岁的时候可能一年就只能长1厘米，我们就说他长得慢。也就是说，我们衡量一个量（这里就是身高，假设身高用y表示）变化快慢的方法是：给定一个变化的时间dt（比如一年，或者更小），看看这个量的变化Δy是多少，如果这个量的变化很大我们就说它变化得很快，反之则变化得慢。

在这里，我稍微解释一下Δy和dy的区别：如下图所示，我们假设函数在x轴上有一个增量Δx，这个用Δx或者dx表示都一样，两者相等。但是，这个在x轴上的变化带来的y轴上的变化就不一样了：Δy表示的是y轴实际的变化量，是我用前后两个不同的x对应的y值直接相减得到的真实结果；而dy则不是，dy是我们在M点做了一条切线，然后我用这条直线来代替曲线，当x轴上变化了Δx的时候这条直线上对应y上的变化。

从这个图里我们可以看到：Δy的值是要比dy大一点点的，但是随着Δx或者dx的减小，它们的之间的差值会急速减小，比Δx减小的快得多，这个差值也是我们常说的高阶无穷小。Δy叫做函数从一点到另一点的增量，而dy则被叫做函数的微分，或者叫它的线性主部。“以直（dy）代曲(Δy)”是现代微积分的一个核心思想，从这个图里可见一斑。

在微积分刚创立的时候，莱布尼茨把dx看作一个接近0但又不等于0的无穷小量，这种“朴素”的思维很符合直觉，而且用这种思想来计算也没什么错，但是它的基础是非常不牢固的。正是这种幽灵般的无穷小量dx（时而可以看作是0，时而可以当除数约分）导致了第二次数学危机，数学家们经过一个多世纪的抢救才给微积分找到了一个坚实的地基：极限理论。

这段内容不是太理解没关系，只要知道我们可以用dy/dx表示函数在M点的导数（在这里就是切线的斜率），可以用它来表示图像在这里变化的快慢就行了。

再回到人的身高随年龄变化的这个例子里来。人在各个年龄t都会对应一个身高y，这每个（t,y）就对应了图上的一个点，把这些点全都连起来大致就能得到这样一个图：

在导数dy/dt大的地方，图形里的斜率很大，通俗的说就是曲线很陡峭；而导数很小的地方，对应的曲线就很平缓。

在这个例子里，身高y是随着年龄t变化而变化，也就是说给定任何一个t的值，都有一个y的值跟它对应，我们就可以说身高y是一个关于年龄t的函数（function），记做y=f(t)。这个f自然就是函数的英文单词function的缩写，函数就是这样一种对应（映射）关系。在这里，身高y的值只跟年龄t一个变量相关，我们就说这是一个一元函数。但是，如果我们的问题稍微复杂一些，我的某个量不止跟一个量有关，而是跟多个量有关呢？

04多个变量的偏导数

比如山的高度，一座山在不同点的高度是不一样的，而在地面上确定一个点的位置需要经度和纬度两个信息。或者，你可以自己在地面上建立一个坐标系，然后地面上每一个点都可以用（x,y）来表示。因为每一个位置（x,y）都对应了那个地方山的高度z，那么z就成了一个关于x和y的函数，记做z=f(x,y)。因为山的高度z需要两个变量x和y才能确定，所以我们说z=f(x,y)是一个二元函数。

再例如，我房间的每一个点都有一个温度，所以房间的温度T是一个关于房间内空间点的函数，而房间里每一个点的位置需要长宽高三个变量（x,y,z）才能确定。所以，我房间里的温度T是一个关于x,y,z的三元函数，记做T=f(x,y,z)。

我们再来回过头来看看导数，在一元函数y=f(t)里，我们用dy/dt来表示这个函数的导数，导数越大的地方曲线变化得越快。因为一元函数的图像是一条曲线，曲线上的一个点只有一个方向（要么往前，要么往后，反正都是沿着x轴方向），所以我们可以直接用dy/dt表示函数变化得有多快。但是，如果这个函数不是一元函数，而是二元、三元等多元函数呢？

比如山的高度z是关于位置x,y的二元函数z=f(x,y)，这时候地面上的每一个点（x,y）都对应一个值，它的函数图像就是一个曲面（如山的表面），而不再是一条曲线。而曲面上的每一个点有无数个方向（前后左右360°都可以），x和y只是这无数方向中的两个，那我们要如何把握这无数个方向上的高度变化快慢呢？

当然，我们不可能把这无数个方向都一一找出来，也没这个必要。一个平面上有无数个点，但是我只用x和y这两个方向组成的（x,y）就可以表示所有的点。同样的，虽然在函数曲面上的一点有无数个方向，不同方向函数变化的快慢都不一样的，但是我们只要把握了其中的两个，就能把握很多信息。

那么我们要如何表示函数z沿着x轴方向变化的快慢呢？直接用dz/dx么？好像不太对，因为我们的z是一个关于x和y的二元函数，它的变量有两个，你这样直接dz/dx合适么？合法么？但是，如果我在考虑x轴方向的时候，把y看作一个常数，也就是把y轴固定住，这样函数z就只跟x相关了，于是我们就把一个二元函数（曲面）变成了一个一元函数（曲线）。

如上图所示，当我们固定y=1的时候，这个曲面就被这个y=1的平面切成了两半，而平面与曲面相交的地方就出现了一条曲线。这条曲线其实就是当我固定y=1的时候，函数z的图像，只不过这时候z只跟x一个变量有关，所以它变成了一个一元函数。于是，我们就可以仿照一元函数的方法定义导数了，也就是说：我们在z=f(x,y)上无法直接定义导数，但是如果我们把y固定起来了，这时候二元函数的曲面就变成了一元函数的曲线，那么我们就在曲线上定义导数了。这种把y的值固定在某个地方，然后计算函数在x轴方向上的导数，叫作关于x的偏导数，记做∂z/∂x。同样，如果我们把x的值固定，计算函数在y轴方向上的导数，那自然就是关于y的偏导数，记做∂z/∂y。

05全微分

有了偏导数的概念，我们就有办法写出dz和dx、dy之间的关系了。在一元函数里，导数是dy、dt，我们自然就可以写出dy和dt之间的关系：

那么，到了二元函数z=f(x,y)的时候呢？我们想象有个人在山的一点要往另一点爬，我们让他先沿着x轴的方向爬（也就是固定住y的值），假设他沿x轴移动了dx。根据上面偏导数的定义，如果我们把y 的值固定了，那么他在x轴方向上的导数是可以用偏导数∂z/∂x来表示，那么在他沿着x轴移动的时候，他上升的高度就可以写成（∂z/∂x）·dx。同样，接下来他沿着y轴方向走的时候，他上升的高度就可以写成（∂z/∂y）·dy。我们把这两个部分上升的高度加起来，不就得到了最终爬山的高度变化dz的了么？也就是说：

这个公式我们可以把它做作全微分定理，它其实是对上面一元函数导数关系的一个自然推广。它告诉我们，虽然在曲面的一个点上有无数个方向，但是只要我们掌握了其中x和y两个方向上的偏导数，我们就能把握它的函数变化dz。还原到爬山的这个例子上来，这个公式是在告诉我们：如果我知道你沿着x轴和y轴分别走了多少，然后我知道你这座山在x轴和y轴方向的倾斜度（即偏导数）是多少，那我就知道你爬山的纯高度变化有多少（又是几近大废话~）。

我们费了这么多劲就为了推出这个公式，那么这个公式里肯定隐藏了什么重要的东西。不过，现在这种形式还不容易看清楚，我们还得稍微了解一点矢量分析的内容，把公式拆成矢量点乘的形式，那就明显了。

06再谈矢量点乘

关于矢量点乘的事情，我在积分篇的第六节就已经说过一次了，因为电场的通量Φ就是电场E和面积a的点乘：Φ=E·a。因为矢量是既有大小又有方向的量，而我们小时候学习的乘法它只管大小不管方向，所以两个矢量之间就得重新定义一套乘法规则，而最常见的就是点乘（符号为‘·’）。

两个矢量OA、OB的点乘被定义为：OA·OB=|OA||OB|Cosθ（矢量的表示原本是在它头顶上加一个箭头，但是这里不方便这样表示，那就用黑体表示了）。它表示一个矢量OA在另一个矢量OB上的投影OC（OC=|OA| Cosθ）和另一个矢量的大小的乘积，可见两个矢量点乘之后的结果是一个标量（只有大小没有方向）。

这些内容我在上一篇都已经说了，这篇文章我们再来看看矢量点乘的几个性质。

性质1：点乘满足交换律，也就是说OA·OB=OB·OA。这个很明显，因为根据定义，前者的结果是|OA||OB| Cosθ，后者的结果是|OB||OA| Cosθ，它们明显是相等的。

性质2：点乘满足分配律，也就是说OA·（OB+OC）=OA·OB+OA·OC。这个稍微复杂一点，我这里就不作证明了，当做习题留给大家~

性质3：如果两个矢量相互垂直，那么它们点乘的结果为0。这个也好理解，如果两个矢量垂直，那么一个矢量在另一个矢量上的投影不就是一个点了么？一个点的大小肯定就是0啊，0乘以任何数都是0。如果大家学习了三角函数，从Cos90°=0一样一眼看出来。

性质4：如果两个矢量方向一样，那么它们点乘的结果就是他们大小相乘。理解了性质3，理解4就非常容易了，从cos0°=1也能一眼便知。

此外要注意的是，点乘是不满足结合律的，也就是说没有（OA·OB）·OC=OA·（OB·OC），为什么？因为两个矢量点乘之后的结果是一个标量，你再让一个标量去点乘另一个矢量压根就没有意义，点乘是两个矢量之间的运算。

我们小学就开始学的加法、乘法满足交换律、结合律、分配律，而矢量的点乘除了不能用结合律以外，其它的都满足。我这样写是为了告诉大家：点乘虽然是一种新定义的运算，但是它和我们平常接触的加法、乘法还是很类似的，大家不用对这种陌生的运算产生未知的恐惧。

07坐标系下的点乘

一个矢量有大小又有方向，我们通常是用一个箭头来表示的，箭头的方向就代表了矢量的方向，而箭头的长短就代表了矢量的大小。如果我们这时候建立一个坐标系，把这个箭头的一端移动到坐标原点，那么箭头的另一端就会固定在坐标系的某个点上，这样的话，我们就可以用一个坐标点来表示一个矢量了。

如上图，A点的坐标是（4,3），那么这个矢量OA就可以记为（4,3）。然后，我们把矢量OA沿着x轴y轴做一个分解：

于是，我们的矢量OA就可以表示成：OA=OB+OC（矢量的加法就是把两个矢量首尾相连，所以OB+BA=OA，而BA=OC，所以有上面的结论）。这时候，如果我们在x轴上定义一个单位向量x（1,0），那么OB的长度是x长度的四倍，而他们的方向又一样，所以矢量OB=4x。同样，在y轴上定义一个单位向量y(0,1)，那么OC=3y。那么，我们的OA就可以重新写成：OA=OB+OC=4x+3y。

这样的话，我任意一个矢量（x1,y1）都可以写成x1x+y1y。于是我就成功的把那个括号给丢了，把坐标表示的矢量变成了我们熟悉的加法运算。这里我们要特别区分：x1,y1是坐标，是数，是标量，而黑体的x,y代表的是单位矢量。那么矢量的点乘就可以写成这样：（x1,y1）·（x2,y2）=（x1x+y1y）·（x2x+y2y）。因为点乘是满足分配律（见性质2）的，所以我们可以把上面的结果直接完全展开成：x1x2xx+x1y2xy+y1x2yx+y1y2yy。

然后下面是重点：因为矢量x和y是分别沿着x轴和y轴的，所以它们是相互垂直的，而根据性质3，两个矢量如果相互垂直，它们的点乘结果就是0。也就是说，xy=yx=0，那么我们展开式的中间两项x1y2xy+y1x2yx就直接等于0。而根据性质4，xx= yy =1（因为x和y都是长度为1的单位矢量，自己跟自己点乘方向肯定一样）。

于是，我们就可以发现两个矢量点乘之后的结果只剩下第一项和第四项的系数部分了，也就是说：（x1,y1）·（x2,y2）=（x1x+y1y）·（x2x+y2y）= x1x2 +y1y2。

08梯度的诞生

对于很多高中生来说，这只是一个熟悉得不能再熟悉的结论，但是我还是从头到尾给大家扎扎实实的推导了一遍。长尾科技不喜欢那种凭空突然冒出一个结论的感觉，所以我也希望读者看我的文章，每个结论得出来都是踏踏实实的，都是严密的逻辑推导出来的。这个式子有什么用呢？我们看看它的后面一半（带箭头的x，y表示矢量，对应上面公式里的黑体x,y）：

再对比一下我们上面推导出来的全微分定理：

这个全微分定理的右边跟矢量点乘的右边是不是很像？都是两个量相乘然后把结果加起来。如果我们把dx看作x2，dy看作y2，两个偏导数看作x1和y1，那么我们就可以按照这个点乘的公式把这个全微分定理拆成两个矢量点乘的样子，即dz可以写成这样：

于是，dz就被我们拆成了两个矢量点乘的样子，我们再来仔细看看这两个矢量：右边的这个矢量的两个分量分别是dx和dy，这分别是我沿着x轴和y轴分别移动无穷小的距离，它们相加的结果用dl来表示:

而左边呢，左边这个矢量的两个分量分别是函数z=f(x,y)对x和y的两个偏导数，这个我们也用一个新的符号来表示它：

绕了这么久，我们现在终于看到这个▽符号了，这个▽z的名字就叫：z的梯度。

把左右两边的矢量都单独拎出来之后，我们就可以把原来的式子写成更简单的样子：

这一段信息量有点大，对于没接触过矢量分析的人来说可能会稍有不适。我们前面绕那么大弯子讲全微分dz，讲矢量的点乘，都是为了引出这个式子，然后从中提炼出梯度▽z的概念。不是很理解的朋友可以好好再看一看上面的文章，再想一下，长尾君基本上是从零开始一步一步写到这里来的，只要耐心看肯定能看懂~

搞懂了这些事情的来龙去脉之后，我们就来重点看看我们引出来的▽z，也就是z的梯度。

09梯度的性质

这个梯度我们要怎么去看呢？首先▽z是一个矢量，是矢量就既有大小又有方向，我们先来看看梯度的方向。

上面我们已经得到了dz=▽z·dl，把dz表示成了两个矢量的点乘，那我们再根据矢量点乘的定义把它们展开，就可以写成这样：

这个dz则表示山的高度的一个微小变化，那么，沿着哪个方向走这个变化是最快的呢？也就是说我选择哪个方向会使得dz的变化最大？

Cosθ表示的是直角三角形里邻边和斜边的比值，而斜边总是比两个直角边大的，所以它的最大值只能取1（极限情况，θ=0°的时候），最小为0（θ=90°）。而根据上面的dz=|▽z||dl|cosθ，显然你要让dz取得最大值，就必须让cosθ取最大值1，也就是必须让▽z和dl这两个矢量的夹角θ=0°。

两个矢量的夹角等于0是什么意思？那就是这两个矢量的方向一样啊。也就是说：如果我们移动的方向（dl的方向）跟梯度▽z的方向一致的时候，dz的变化最大，我们高度变化最大。这就告诉我们：梯度▽z的方向就是高度变化最快的方向，就是山坡最陡的方向。

假设你站在一个山坡上四处遥望，那个最陡的地方就是梯度的方向，如果你去测量这个方向的斜率，那这就是梯度的大小。所以，梯度这个名字还是非常形象的。

10▽算子

我们再仔细看一下梯度▽z的表示:

这是一个矢量，但是它看起来好像是▽和一个标量z“相乘”，我们把这个z提到括号的外面来，这时候这个梯度▽z就可以写成这样：

所以，如果把▽单独拎出来，就得到了这样一个东西：

这个东西就值得我们玩味了，这是啥？▽z表示的是二元函数z=f(x,y)的梯度，也就是说我们先有一个函数z，然后我们把这个▽往函数z前面一放，我们就得到z的梯度。从函数z得到z的梯度的具体过程就是对这个函数z分别求x的偏导和y的偏导。

也就是说，单独的▽是这么个东西：我▽自己本身并不是什么具体的东西，我需要你给我一个函数，然后我对你这个函数进行一顿操作（求x和y的偏导），最后返回一个这个函数的梯度给你。这就像是有一个特定功能的模具：你给我一堆面粉，我一顿处理之后返回你一个饼。但是显然的，它并不是面粉，也不是饼，它单独的存在没有什么意义，它一定要跟面粉结合才能产生有具体意义的东西。

这种东西叫算子，▽就叫▽算子。基于▽算子的巨大影响力，它又有一大堆其他的名字：从它的具体功能上来看，它被称为矢量微分算子；因为它是哈密顿引入进来的，所以它又被称为哈密顿算子；从读音上来说，它又被称为nabla算子或者del算子。这些大家了解一下，知道其他人在谈论这个的时候都是在指▽算子就行了。

11梯度、散度和旋度

▽算子不是一个矢量，除非你把它作用在一个函数上，否则它没啥意义。但是，它在各个方面的表现确实又像一个矢量，只要你把▽算子的“作用”看成矢量的“相乘”。

一个矢量一般来说有3种“乘法”：

1、矢量A和一个标量a相乘：aA。比如我把一个矢量A大小变为原来的2倍，方向不变，那么这时候就可以写成2A。

2、矢量A和一个矢量B进行点乘：A·B。这个点乘我们上面介绍很多了，A·B=|A||B|Cosθ，这里就不说了。

3、矢量A和一个矢量B进行叉乘：A×B。这个叉乘跟点乘类似，也是我们单独针对矢量定义的另外一种乘法，|A×B|=|A||B|Sinθ。大家可以看到，这个叉乘跟点乘唯一的区别就是：点乘是两个矢量的大小乘以它们的余弦值Cosθ，叉乘是两个矢量的大小乘以它们的正弦值Sinθ（在直角三角形里，角的对边和斜边的比为正弦Sinθ，邻边和斜边的比值为余弦Cosθ）。

那么，同样的，我们的▽算子也有3种作用方式：

1、▽算子作用在一个标量函数z上：▽z。这个▽z我们上面说过了，它表示函数z的梯度，它表示这个函数z变化最快的方向。

2、▽算子跟一个矢量函数E点乘：▽·E。这就表示E的散度，我们开篇讲的高斯电场定律的左边就是电场E的散度，它就是表示成▽·E这样。

3、▽算子跟一个矢量函数E叉乘：▽×E。它叫E的旋度，这个我们后面会再详细说。

这样，我们就以一种很自然的方式引出了这三个非常重要的概念：梯度（▽z）、散度（▽·E）和旋度（▽×E）。大家可以看到，▽算子的这三种作用跟矢量的三种乘法是非常相似的，只不过▽是一个算子，它必须作用在一个函数上才行，所以我们把上面的标量和矢量换成了标量函数和矢量函数。

我们在描述山的高度的函数z=f(x,y)的时候，不同的点（x,y）对应不同的山的高度，而山的高度只有大小没有方向，所以这是个标量函数，我们可以求它的梯度▽z。但是，电场E既有大小又有方向，这是一个矢量，所以我们可以用一个矢量函数E=f(x,y)表示空间中不同点（x,y）的电场E的分布情况。那么对这种矢量函数，我们就不能去求它的梯度了，我们只能去求它的散度▽·E和旋度▽×E。

为了让大家对这些能够有更直观的概念，我们接下来就来仔细看看电场的散度▽·E。

12电场的散度

当我们把电场的散度写成▽·E这样的时候，我们会觉得：啊，好简洁！但是我们也知道▽算子的定义是这样的：

那么▽·E就应该写成这样：

而我们知道电场E其实是一个矢量函数（不同点对应的电场的情况），那我们还是可以把E分解成x,y两个分量的和，这两个分量后面跟一个x和y方向的单位向量就行了。那么，上面的式子就可以写成这样：

然后，因为矢量点乘是满足分配律的，所以我们可以把他们按照普通乘法一样展开成四项。而x和y是垂直的单位向量，所以x·y=y·x=0，x·x=y·y=1，然后我们最后剩下的就只有这两项了（这一块的推导逻辑跟“坐标系下的矢量点乘”那一节一样，觉得有点陌生的可以再返回去看看那一部分）：

这就是电场E的散度的最终表达式，它的意思很明显：我们求电场E的散度就是把矢量函数E分解成x和y方向上的两个函数，然后分别对它们求偏导，最后再把结果加起来就行了。

为了让大家对这个有个更直观的概念，我们来看两个小例子：

例1：求函数y=2x+1的导数。

这个函数的图像是一条直线（不信的可以自己去找一些x的值，代入进去算算y的值，然后把这些点画在图上），它的斜率是2，也就是说导数是2。也就是说，对于一次函数（最多只有x，没有x的平方、立方……），它的导数就是x前面的系数（2x前面的2），而后面的常数（1）对导数没有任何影响。

例2：求电场E=2x+yy的散度。

我们先来看看这个电场E，它在x方向上（2x）的系数是2，也就是说它的电场强度是不变的，一直都是2。但是，在y方向上（yy）的系数是y，也就是说当我沿着y轴越走越远的时候，这个系数y也会越来越多，这就表示y方向上的电场强度会越来越大。

所以E=2x+yy描述的是这样一个在x轴方向上不变，在y轴方向上不断变大的电场。要求这个电场的散度，根据上面的式子，我们得先求出电场的偏导数，那偏导数要怎么求呢？还记得我们是怎么得到偏导数这个概念的么？我们是固定y的值，也就是假设y的值不变，把y看作一个常数，这时候求得了对x的偏导数；同样，把x当做一个常数，求函数对y的偏导数。

那么，当我们求函数对x的偏导数∂E/∂x时，我们可以把y当作常数（就像例1中后面的1一样）。如果y是常数，x方向前面的系数又是2，也是常数，所以这整个就变成了一个常数（常数的导数为0），所以∂E/∂x=0。同样，当我们求y的偏导的时候，就把x都看成常数（导数为0），而y方向前面的系数为y（导数为1），所以∂E/∂y=0+1=1。

那么电场E的散度▽·E就可以表示成这两个偏导数的和：▽·E=∂E/∂x+∂E/∂y=0+1=1，也就是说，电场E的散度为1。

这虽然是一个非常简单的求电场散度的例子，但是却包含了我们求偏导，求散度的基本思想。通过这种方式，我们可以很轻松的就把电场E的散度▽·E求出来了。

补了这么多的数学和推导，我们现在有了一个定义良好，计算方便的散度▽·表达式了，但是，你还记得我们在开始讲到的散度的定义么？我们最开始是怎样引入散度的呢？

我们是从麦克斯韦方程组的积分形式引入散度的。高斯电场定律说通过一个闭合曲面的电通量跟这个闭合曲面包含的电荷量成正比，而且这个曲面可以是任意形状。然后我们为了从宏观进入微观，就让这个曲面不停地缩小缩小，当它缩小到无穷小，缩小到只包含了一个点的时候，这时候我们就说通过这个无穷小曲面的通量和体积的比就叫散度（用div表示）。

也就是说，我们最开始从无穷小曲面的通量定义来的散度和我们上面通过偏导数定义来的散度▽·指的是同一个东西。即：

13为何这两种散度是等价的？

很多人可能觉得难以理解，这两个东西的表达形式和来源都完全不一样，它们怎么会是同一个东西呢？但是它们确实是同一个东西，那我们为什么要弄两套东西出来呢？在最开始我也说了，通过无穷小曲面的通量定义的散度很容易理解，跟麦克斯韦方程组的积分形式的通量也有非常大的联系，但是这种定义不好计算（上面的例2，你用这种方式去求它的散度试试？），所以我们需要找一种能方便计算、实际可用的方式，这样才出现了▽·形式的散度。

至于为什么这两种形式是等价的，我给大家提供一个简单的思路。因为这毕竟是面向大众的科普性质的文章，具体的证明过程我就不细说了。真正感兴趣的朋友可以顺着这个思路去完成自己的证明，或者来我的社群（回复“社群”即可）里讨论。

证明思路：我们假设有一个边长分别为Δx、Δy、Δz的小长方体，空间中的电场为E(x,y,z)，然后假设在这个长方体的正中心有一个点（x,y,z）,那么这个电场通过这个长方体前面（沿着x轴正方向）的电场就可以表示为：Ex（x+Δx/2,y,z）。Ex表示电场在x方向上的分量（因为我们是考虑长方体上表面的通量，所以只用考虑电场的x分量），因为中心坐标为（x,y,z），那么沿着x轴移动到表面的坐标自然就是（x+Δx/2,y,z）。而这个面的面积为ΔyΔz，那么通过前面的电通量就可以写成：Ex（x+Δx/2,y,z）·ΔyΔz。

同样的，通过长方体后面（沿着x轴的负方向）的电通量，就可以写成Ex（x-Δx/2,y,z）·ΔyΔz。因为这两个面的方向是相反的（前面后面，一个沿着x轴正方向，一个沿着负方向），所以，这两个沿着x轴方向的面的电通量之和Φx就应该是两者相减：Φx=（Ex（x+Δx/2,y,z）·ΔyΔz- Ex（x-Δx/2,y,z）·ΔyΔz）。

如果我们两边都除以Δv（其中，Δv=ΔxΔyΔz），那么就得到：Φx/Δv=（Ex（x+Δx/2,y,z）- Ex（x-Δx/2,y,z））/Δx，然后你会发现等式的右边刚好就是偏导数的定义（标准的极限定义）。也就是说，电场通过沿着x轴的两个面（前后两面）的通量之和就等于电场的x分量对x的偏导数：Φx/Δv=∂Ex/∂x。

同样的，我们发现电场沿着y轴的两面（左右两面）和z轴的两面（上下两面）的电通量之和分别就等于电场的y分量和z分量对y和z的偏导：Φy/Δv=∂Ey/∂y，Φz/Δv=∂Ez/∂z。然后我们把这三个式子加起来，左边就是电场通过六个面的通量除以体积，也就是通过这个长方体的通量除以体积，右边就是我们▽·E的形式，这分别就是我们上面两种散度的表示方式，证明完成。

这个证明一时半会没看懂也没关系，感兴趣的可以后面慢慢去琢磨。我只是想通过这种方式让大家明白通过某一方向的两个面的通量跟这方向的偏导数之间是存在这种对应关系的，这样我们就容易接受无穷小曲面的通量和▽·这两种散度的定义方式了。

这两种散度的定义方式各有所长，比如我们在判断某一点的散度是否为零的时候，我用第一个定义，去看看包含这个点的无穷小曲面的通量是不是为零就行了。如果这一点有电荷，那么这个无穷小曲面的电通量肯定就不为零，它的散度也就不为零；如果这个无穷小曲面没有包含电荷，那这一点的散度一定为0，这就是高斯电场定律的微分方程想要告诉我们的东西。但是，如果你要计算这一点的散度是多少，那还是乖乖的拿起▽·去计算吧。

14散度的几何意义

此外，跟梯度一样，散度这个名字也是非常形象的。很多人会跟你说散度表示的是“散开的程度”，这种说法很容易让初学者误解或者迷惑，比如一个正电荷产生的产生的如下的电场线，它看起来是散开的，所以很多就会认为这里所有的点的散度都是不为零的，都是正的。

但是，根据我们上面分析，散度反映的是无穷小曲面的通量，这直接跟这一点是否有电荷对应。那么，这个图的中心有一个正电荷，那么这点的散度不为零没毛病，但是其他地方呢？其他地方看起来也是散开的，但是其他地方并没有电荷，没有电荷的话，其他点电场的散度就应该为0（因为这个地方无穷小曲面的通量有进有出，它们刚好抵消了），而不是你看起来的好像是散开的，所以为正。

也就是说，对于一个点电荷产生的电场，只有电荷所在的点的散度不为0，其他地方的散度都为0。我们不能根据一个电场看起来是散开的就觉得这里的散度都不为0，那么，这个散开到底要怎么理解呢？

你可以这么操作：你把电场线都想象成水流，然后拿一个非常轻的圆形橡皮筋放到这里，如果这个橡皮筋的面积变大，我们就说这个点的散度为正，反正为负。如果你把橡皮筋丢在电荷所在处，那么这点所有方向都往外流，那么橡皮筋肯定会被冲大（散度为正）；但是在其他地方，橡皮筋会被冲走，但是不会被冲大（散度为0），因为里外的冲力抵消了。这样的话，这种散开的模型跟我们无穷小曲面的通量模型就不再冲突了。

15方程一：高斯电场定律

说了这么多，又是证明不同散度形式（无穷小曲面的通量和▽·）的等价性，又是说明不同散度理解方式的同一性（无穷小曲面的通量和散开的程度），都是为了让大家从更多的维度全方位的理解散度的概念，尽量避开初学者学习散度会遇到的各种坑。理解了这个散度的概念之后，我们再来看麦克斯韦方程组的第一个方程——高斯电场定律的微分形式就非常容易理解了：

方程的左边▽·E表示电场在某一点的散度，方程右边表示电荷密度ρ和真空介电常数的比值。为什么右边要用电荷密度ρ而不是电荷量Q呢？因为散度是无穷小曲面的通量跟体积的比值，所以我们的电量也要除以体积，电量Q和体积V的比值就是电荷密度ρ。对比一下它的积分形式：

两边都除以一个体积V，然后曲面缩小到无穷小：左边的通量就变成了电场的散度▽·E，右边的电荷量Q就变成了电荷密度ρ，完美！

麦克斯韦方程组的积分形式和微分形式是一一对应的，理解这种对应的关键就是理解散度（和后面的旋度）这两种不同定义方式背后的一致性，它是沟通积分和微分形式的桥梁。理解了它们，我们就能在这两种形式的切换之间如鱼得水，我们就能一看到积分形式就能写出对应的微分形式，反之亦然。

16方程二：高斯磁场定律

理解了高斯电场定律的微分形式，那么高斯磁场定律的微分形式就能轻松写出来了。因为现在还没有找到磁单极子，磁感线都是闭合的曲线，所以闭合曲面的磁通量一定恒为0，这就是高斯磁场定律积分形式的思想：

那么，我们一样把这个曲面缩小到无穷小，通过这个无穷小曲面的磁通量就叫磁场的散度，那么方程的左边就变成了磁场的散度，而右边还是0。也就是说：磁场的散度处处为0。所以，麦克斯韦方程组的第二个方程——高斯磁场定律的微分形式就是：

17旋度

静电和静磁的微分形式我们已经说完了，那么接下来就是磁如何生电的法拉第定律了。关于法拉第是如何通过实验一步一步发现法拉第定律的内容，我在积分篇里已经详细说了，这里就不再多说。对法拉第定律的基本思想和积分形式的内容还不太熟悉的请先去看上一篇积分篇的内容。

法拉第定律是法拉第对电磁感应现象的一个总结，他发现只要一个曲面的磁通量（B·a）发生了改变，那么就会在曲面的边缘感生出一个旋涡状的电场E出来。这个旋涡状的感生电场我们是用电场的环流来描述的，也就是电场沿着曲面边界进行的线积分。

用具体的公式表示就是这样：

公式左边是电场E的环流，用来描述这个被感生出来的电场，而公式的右边是磁通量的变化率，用来表示磁通量变化的快慢。

这个法拉第定律是用积分形式写的，我们现在要得到它的微分形式，怎么办？那当然还是跟我们上面的操作一样：从积分到微分，我把它无限缩小就行了。那么，这里我们把这个非闭合曲面缩小缩小，一直缩小到无穷小，那么我们这里就出现了一个无穷小曲面的环流。

还记得我们怎么定义散度的么？散度就是通过无穷小闭合曲面的通量和闭合曲面体积的比值，而我们这里出现了一个无穷小非闭合曲面的环流，因为非闭合曲面就没有体积的说法，只有面积。那么，通过无穷小非闭合曲面的环流和曲面面积的比值，会不会也有是一个另外什么量的定义呢？

没错，这确实是一个全新的量，而且这个量我们在前面稍微提到了一点，它就是旋度。我们把▽算子跟矢量做类比的时候，说一个矢量有三种乘法：跟标量相乘、点乘和叉乘。那么同样的，▽算子也有三种作用：作用在标量函数上叫梯度（▽z）,以点乘的方式作用在矢量函数上被称为散度（▽·z），以叉乘的方式作用在矢量函数上被称为旋度（▽×z）。

也就是说，我们让▽算子以叉乘的方式作用在电场E上，我们就得到了电场E的旋度▽×E，而这个旋度的另一种定义就是我们上面说的无穷小非闭合曲面的环流和这个曲面的面积之比。因为旋度的英文单词是curl，所以我们用curl（E）表示电场的旋度。所以，我们就可以写下下面这样的式子：

跟散度的两种定义方式一样，我们这里的旋度也有▽×和无穷小曲面的环流两种表述方式。在散度那里，我给大家证明了那两种散度形式等价性，在旋度这里我就不再证明了，感兴趣的朋友可以按照类似的思路去尝试证明一下。

18矢量的叉乘

因为旋度是▽算子以叉乘×的方式作用在矢量场上，所以这里我们来简单的看一下叉乘。两个矢量A和B的点乘被定义为：A·B=|A||B|Cosθ，它们的叉乘则被定义为|A×B|=|A||B|Sinθ，其中θ为它们的夹角。单从这样看，它们之间的差别好像很小，只不过一个是乘以余弦Cosθ，另一个是乘以正弦Sinθ。

从它们的几何意义来说，点乘表示的是投影，因为|OA|Cosθ刚好就是OA在OB上的投影，也就是OC的长度。如下图：

那么叉乘呢？叉乘是|OA|Sinθ，这是AC的长度，那么|A×B|=|A||B|Sinθ=|AC||OB|，这是啥？这是面积啊，如果我以OA和OB为边长作一个平行四边形，那么AC就刚好是这个平行四边形的高，也就是说，矢量A和B的叉乘（|A×B|=|AC||OB|）就代表了平行四边形OADB的面积。

关于矢量的叉乘就说这么多，在前面讲矢量点乘的时候我还详细介绍了点乘的性质和坐标运算的方法，那是因为为了自然的引出▽算子，不得不讲那些。叉乘也有类似的性质和坐标运算的法则，这个在网上随便一搜或者找一本任意矢量分析的书都能找到。而且，你现在不会熟练的进行叉乘运算，并不会影响你对麦克斯韦方程组的微分形式的理解，这里了解一下它的定义和几何意义就行了。

19方程三：法拉第定律

好，知道了矢量的叉乘，知道了▽×E可以表示电场的旋度，而且知道旋度的定义是：无穷小非闭合曲面的环流和这个曲面的面积之比。那我们再来回过头看一看法拉第定律的积分形式：

公式的左边是电场的环流，右边是磁通量的变化率，它告诉我们变化的磁通量会在曲面边界感生出电场。我在积分篇里说过，磁通量（B·a）的变化可以有两种方式：磁场（B）的变化和通过曲面面积（S）的变化，我们上面这种方式是把这两种情况都算在内。但是，还有的学者认为只有磁场（B）的变化产生的电场才算法拉第定律，所以法拉第定律还有另外一个版本：

这个版本的把原来对整个磁通量（B·da）的求导变成了只对磁感应强度B的求偏导，这就把磁感线通过曲面面积变化的这种情况给过滤了。

在积分形式里有这样两种区别，但是在微分形式里就没有这种区分了。为什么？你想想我们是怎么从积分变到微分的？我们是让这个曲面不停的缩小缩小，一直缩小到无穷小，这个无穷小的曲面就只能包含一个没有大小的点了，你还让它的面积怎么变？所以我们的微分形式就只用考虑磁感应强度B的变化就行了（对应后面那个法拉第定律）。

我们现在假设把那个曲面缩小到无穷小，方程的左边除以一个面积ΔS，那就是电场的旋度▽×E的定义：

左边除了一个面积ΔS，那右边也得除以一个面积，右边本来是磁感应强度的变化率（∂B/∂t）和面积的乘积，现在除以一个面积，那么剩下的就是磁感应强度的变化率∂B/∂t了。那么，麦克斯韦方程组的第三个方程——法拉第定律的微分形式自然就是这样：

简洁吧？清爽吧？这样表示之后，法拉第定律的微分形式看起来就比积分形式舒服多了，而且它还只有这一种形式。直接从方程上来看，它告诉我们某一点电场的旋度等于磁感应强度的变化率。简单归简单，要理解这种公式，核心还是要理解左边，也就是电场的旋度▽×E。

20旋度的几何意义

我们知道旋度的定义是无穷小曲面的环流和面积的比值，但是它既然取了旋度这个名字，那么它跟旋转应该还是有点关系的。我们变化的磁场感生出来的电场也是一个旋涡状的电场。那么，是不是只要看起来像漩涡状的矢量场，它就一定有旋度呢？

这个问题我们在讨论散度的时候也遇到过，很多初学者认为只要看起来发散的东西就是有散度的，然后我们通过分析知道这是不对的。一个点电荷产生静电场，只要在电荷处散度不为零的，在其他地方，虽然看起来是散开的，其实它的散度是零。如果我们放一个非常轻的橡皮筋在上面，除了电荷所在处，其它地方这个橡皮筋是不会被撑开的（即便会被冲走），所以其他地方的散度都为零。

同样的，在旋度这里，一个变换的磁场会产生一个旋涡状的电场，在旋涡的中心，在磁场变化的这个中心点这里，它的旋度肯定是不为零的。但是，在其它地方呢？从公式上看，其它地方的旋度一定为零，为什么？因为其他地方并没有变化的磁场啊，所以按照法拉第定律的微分形式，没有变化的磁场的地方的电场的旋度肯定是0。

跟散度一样，我们不能仅凭一个感生电场是不是旋转状的来判断这点旋度是否为0，我们也需要借助一个小道具：小风车。我们把一个小风车放在某一点上，如果这个风车能转起来，就说明这点的旋度不为0。你只要把风车放在感生电场中心以外的地方，就会发现如果外层的电场线让小风车顺时针转，内层的电场线就会让小风车逆时针转，这两股力刚好抵消了。最终风车不会转，所以旋度为0。

如果大家能理解静电场除了中心点以外的地方散度处处为零，那么理解感生电场除了中心点以外的地方旋度处处为零就不是什么难事。在非中心点的地方，散度的流入流出两股力量抵消了，旋度顺时针逆时针的两股力量抵消了，为什么刚好他们能抵消呢？本质原因还是因为这两种电场都是随着距离的平方反比减弱。如果它们不遵守平方反比定律，那么你去计算里外的散度和旋度，它们就不再为零。

关于旋度的事情就先说这么多，大家如果理解了旋度，对比法拉第定律的积分方程，要理解它的微分方程是很容易的。我前面花了很大的篇幅给大家讲了矢量的点乘和散度，作为类比，理解矢量的叉乘和旋度也不是什么难事，它们确实太相似了。

21方程四：安培-麦克斯韦定律

讲完了磁生电的法拉第定律，我们麦克斯韦方程组就只剩最后一个电生磁的安培-麦克斯韦定律了。它描述的是电流和变化的电场如何产生旋涡状的感生磁场的，因为它电的来源有电流和变化的电场两项，所以它的形式也是最复杂的。方程的积分形式如下（具体过程见积分篇）：

左边的磁场的环流，右边是曲面包围的电流（带enc下标的I）和电场的变化率。它告诉我们，如果我们画一个曲面，通过这个曲面的电流和这个曲面里电通量的变化会在曲面的边界感生出一个旋涡状的磁场出来，这个旋涡状的磁场自然是用磁场的环流来描述。

可以想象，当我们用同样的方法把这个曲面缩小到无穷小的时候，如果我们在方程的左右两边都除以这个曲面的面积，那么方程的左边就成了磁场B的旋度▽×B，右边的两项除以一个面积会变成什么呢？

电通量的变化率除以面积之后就剩下电场的变化率∂E/∂t，这个跟法拉第定律的磁通量变化率除以面积类似。那么电流（带enc的I）那一项呢？电流I除以面积得到的东西是什么？这里我们定义了一个新的物理量：电流密度J。很显然，这个电流密度J就是电流除以电流通过的曲面的面积（注意不是体积）。相应的，电流密度的单位是A/m²（安培每平方米）而不是A/m³。

这样，麦克斯韦方程组的第四个方程——安培-麦克斯韦定律的微分形式就自然出来了：

虽然还是有点长，但是相比积分形式已经是相当良心了，它告诉我们某一点感生磁场的旋度▽×B等于电流密度J和电场变化率∂E/∂t两项的叠加。其实它跟积分形式讲的都是一回事，都是在说电流和变化的电场能够产生一个磁场，只不过积分形式是针对一个曲面，而微分形式只是针对一个点而已。

22麦克斯韦方程组

至此，麦克斯韦方程组的四个方程：描述静电的高斯电场定律、描述静磁的高斯磁场定律、描述磁生电的法拉第定律和描述电生磁的安培-麦克斯韦定律的微分形式就都说完了。把它们都写下来就是这样：

高斯电场定律说电场的散度跟这点的电荷密度成正比。

高斯磁场定律说磁场的散度处处为0。

法拉第定律说感生电场的旋度等于磁感应强度的变化率。

安培-麦克斯韦定律说感生磁场的旋度等于电流密度和电场强度变化率之和。

这里最引入注目的就是▽算子了，它以点乘和叉乘的方式组成的散度▽·和旋度▽×构成了麦克斯韦方程组微分形式的核心，这也是为什么我要花那么大篇幅从偏导数、矢量点乘一步步给大家引出▽算子的原因。也因为如此，微分篇的数学部分比积分篇要多得多得多，相对也要难以理解一些，所以大家要稍微有耐性一点。

从思想上来讲，微分形式和积分形式表达的思想是一样的，毕竟它们都是麦克斯韦方程组。它们的差别仅仅在于积分形式是从宏观的角度描述问题，我们面对的宏观上的曲面，所以要用通量和环流来描述电场、磁场；而微分形式是从微观的角度来描述问题，这时候曲面缩小都无穷小，我们面对的东西就变成了一个点，所以我们使用散度和旋度来描述电场、磁场。

这一点是特别要强调的：通量和环流是定义在曲面上的，而散度和旋度是定义在一个点上的。我们可以说通过通过一个曲面的通量或者沿曲面边界的环流，但是当我们在说散度和旋度的时候，我们都是在说一个点的散度和旋度。

理解了这些，你再回过头去看看麦克斯韦方程组的积分形式：

我们只不过把定义在曲面上的通量和环流缩小到了一个点，然后顺势在这个点上用利用通量和环流定义了散度和旋度。因为定义散度和旋度分别还除了一个体积和面积，所以我们积分方程的右边也都相应的除了一个体积和面积，然后就出现了电荷密度ρ（电荷Q除以体积V）和电流密度J（电流I除以面积S），电通量和磁通量那边除以一个体积和面积就剩下电场强度E和磁感应强度B的变化率，仅此而已。

如果我们从这种角度去看麦克斯韦方程组的积分形式和微分形式，你就会觉得非常的自然和谐。给出积分形式，你一想散度和旋度的定义，就可以立马写出对应的微分形式；给出微分形式，再想一想散度和旋度的定义，也能立刻写出对应的积分形式。当我想从宏观入手的时候，我看到了曲面上的通量和环流；当我想从微观入手的时候，我也能立马看到一个点上的散度和旋度。积分和微分形式在这里达成了一种和谐的统一。

23结语

到这里，麦克斯韦方程组的积分篇和微分篇就都说完了。长尾君在这两篇文章里先从零开始引出了通量，然后从通量的概念慢慢引出了麦克斯韦方程组的积分形式，再从积分形式用“把曲面压缩到无穷小”推出了对应的微分形式。整个过程我都极力做到“通俗但不失准确”，所有新概念的引出都会先做层层铺垫，绝不从天而降的抛出一个新东西。目的就是为了让多的人能够更好的了解麦克斯韦方程组，特别是让中学生也能看懂，能理解麦克斯韦方程组的美妙，同时也激发出他们对科学的好奇和热爱之心，打消他们对“高深”科学的畏惧之心：看，这么高大上的麦克斯韦方程组，年纪轻轻的我也能看懂，也能掌握~

此外，麦克斯韦方程组是真的很美，你掌握的物理知识越多，就会越觉得它美。我也更希望大家是因为它的美而喜欢这个方程组，而不仅仅是因为它的“重要性”。我们也都知道，麦克斯韦写出这套方程组以后，就从方程推导出了电磁波，当他把相关的参数代入进去算出电磁波的速度的时候，他惊呆了！他发现这个电磁波的速度跟人们实验测量的光速极为接近，于是他给出了一个大胆的预测：光就是一种电磁波。

可惜的是，英年早逝的麦克斯韦（48岁去世）并没能看到他的预言被证实，人类直到他去世9年后，也就是1888年才由赫兹首次证实了“光是一种电磁波”。那么，麦克斯韦是怎么从方程组导出电磁波的呢？既然我们已经学完了麦克斯韦方程组，想必大家也很知道如何从这套方程组推导出电磁波的方程，然后亲眼见证“电磁波的速度等于光速”这一奇迹时刻。这部分的内容，长尾科技下篇文章再说。

最后，这篇文章主要参考了《电动力学导论》（格里菲斯）和《麦克斯韦方程直观》（Daniel Fleisch），大家想对麦克斯韦方程组做进一步了解的可以看看这两本书，需要电子档的可以在后台回复“麦克斯韦方程组”。

最美的方程，愿你能懂她的美~

相关文章：《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》

收起阅读 »

最美的公式：你也能懂的麦克斯韦方程组（积分篇）

狭义相对论麦克斯韦方程组

2004年，英国的科学期刊《物理世界》举办了一个活动：让读者选出科学史上最伟大的公式。结果，麦克斯韦方程组力压质能方程、欧拉公式、牛顿第二定律、勾股定理、薛定谔方程等”方程界“的巨擘，高居榜首。麦克斯韦方程组以一种近乎完美的方式统一了电和磁，并预言光就是一种电...

继续阅读 »

2004年，英国的科学期刊《物理世界》举办了一个活动：让读者选出科学史上最伟大的公式。结果，麦克斯韦方程组力压质能方程、欧拉公式、牛顿第二定律、勾股定理、薛定谔方程等”方程界“的巨擘，高居榜首。

麦克斯韦方程组以一种近乎完美的方式统一了电和磁，并预言光就是一种电磁波，这是物理学家在统一之路上的巨大进步。很多人都知道麦克斯韦方程组，知道它极尽优美，并且描述了经典电磁学的一切。但是，真正能看懂这个方程组的人却不多，因为它不像质能方程、勾股定理这样简单直观，等式两边的含义一眼便知。毕竟，它是用积分和微分的形式写的，而大部分人要到大学才正式学习微积分。

不过大家也不用担心，麦克斯韦方程组虽然在形式上略微复杂，但是它的物理内涵确是非常简单的。而且，微积分也不是特别抽象的数学内容，大家只要跟着长尾科技的思路，看懂这个“最伟大“的方程也不会是什么难事~

01电磁统一之路

电和磁并没有什么明显的联系，科学家一开始也是独立研究电现象和磁现象的。这并不奇怪，谁能想到闪电和磁铁之间会有什么联系呢？

1820年，奥斯特在一次讲座上偶然发现通电的导线让旁边的小磁针偏转了一下，这个微小的现象并没有引起听众的注意，但是可把奥斯特给高兴坏了。他立马针对这个现象进行了三个月的穷追猛打，最后发现了电流的磁效应，也就是说电流也能像磁铁一样影响周围的小磁针。

消息一出，物理学家们集体炸锅，立马沿着这条路进行深入研究。怎么研究呢？奥斯特只是说电流周围会产生磁场，那么这个电流在空间中产生的磁场是怎么分布的呢？比方说一小段电流在空间某个地方产生的磁感应强度的多大呢？这种思路拓展很自然吧，定性的发现某个规律之后必然要试图定量地把它描述出来，这样我不仅知道它，还可以精确的计算它，才算完全了解。

三个月，在奥斯特正式发表他的发现仅仅三个月之后，毕奥和萨伐尔在大佬拉普拉斯的帮助下就找到了电流在空间中产生磁场大小的定量规律，这就是著名的毕奥-萨伐尔定律。也就是说，有了毕奥-萨伐尔定律，我们就可以算出任意电流在空间中产生磁场的大小，但是这种方法在实际使用的时候会比较繁琐。

又过了两个月之后，安培发现了一个更实用更简单的计算电流周围磁场的方式，这就是安培环路定理。顺便，安培还总结了一个很实用的规律来帮你判断电流产生磁场的方向，这就是安培定则（也就是高中学的右手螺旋定则）。

至此，电生磁这一路的问题“似乎”基本解决了，我们知道电流会产生磁场，而且能够用安培环路定理（或者更加原始的毕奥-萨伐尔定律）计算这个磁场的大小，用安培定则判断磁场的方向。那么，我们现在知道怎么单独描述电和磁，知道了电怎么生磁，秉着对称的思想，我怎么样都要去想：既然电能够生磁，那么磁能不能生电呢？

由于种种原因，奥斯特在1820年发现了电生磁，人类直到11年后的1831年，才由天才实验物理学家法拉第发现了磁生电的规律，也就是电磁感应定律。法拉第发现磁能生电的关键就是：他发现静止的磁并不能生电，一定要变化的磁才能生电。

发现电磁感应定律之后，我们知道了磁如何生电，有了安培环路定理，我们就知道电流如何产生磁场。咋一看，有关电磁的东西我们好像都有解决方案了。其实不然，我们知道安培环路定理是从奥斯特发现了电流周围会产生磁场这一路推出来的，所以它只能处理电流周围表示磁场的情况。

但是，如果没有电流呢？如果我压根就没有导线让你可以形成电流，如果仅仅是电场发生了变化，那么这样能不能产生磁场呢？大家不要觉得我胡搅蛮缠，你想想，根据电磁感应定律，变化的磁场是可以产生电场的。所以，我会反过来猜想变化的电场能否产生磁场并不奇怪。而这，正好是安培环路定理缺失的部分。

于是，麦克斯韦就对安培环路定理进行了扩充，把变化的电场也能产生磁场这一项也添加了进去，补齐了这最后一块短板。

到这里，电和磁的统一之路就走得差不多了，麦克斯韦方程组的基本形式也呼之欲出了。这里我先让大家考虑一下：我们都知道麦克斯韦方程组描述了经典电磁学的一切，而且它是由四个方程组成的。那么，如果让你选择四个方程来描述电磁里的一切，你大致会选择四个什么样的方程呢？

此处思考一分钟……

我不知道大家是怎么考虑的，反正我觉得下面这条思路是很自然的：如果要用四个方程描述电磁的一切，那么我就用第一个方程描述电，第二个方程描述磁，第三个方程描述磁如何生电，第四个方程描述电如何生成磁。嗯，好巧，麦克斯韦方程组就是这样的～

所以，我们学习麦克斯韦方程组，就是要看看它是如何用四个方程优雅自洽地描述电、磁、磁生电、电生磁这四种现象的。接下来我们就来一个个地看。

02库仑的发现

在奥斯特发现电流的磁效应之前，人类已经单独研究电研究了好长时间，人们发现电荷有正负两种，而且同性相斥，异性相吸。后来库伦发现了电荷之间相互作用的定量关系，它发现电荷之间的作用力跟距离的平方成反比的。也就是说，如果我把两个电荷之间的距离扩大为原来的两倍，这两个电荷之间的作用力就会减少为原来的四分之一，扩大为三倍就减少为九分之一。

这个跟引力的效果是一样的，引力也是距离扩大为原来的两倍，引力的大小减少为原来的四分之一。为什么大自然这么偏爱“平方反比”规律呢？因为我们生活在一个各向同性的三维空间里。

什么意思？我们可以想想：假设现在有一个点源开始向四面八方传播，因为它携带的能量是一定的，那么在任意时刻能量达到的地方就会形成一个球面。而球面的面积公式S=4πr²（r为半径），它是跟半径的平方r²成正比的，这也就是说：我们同一份能量在不同的时刻要均匀的分给4πr²个部分，那么每个点得到的能量就自然得跟4πr²成反比，这就是平方反比定律的更深层次的来源。

因此，如果我们生活在四维空间里，我们就会看到很多立方（三次方）反比的定律，而这也是科学家们寻找高维度的一个方法。许多理论（比如超弦理论）里都有预言高维度，科学家们就去很小的尺度里测量引力，如果引力在一个很小的尺度里不再遵循平方反比定律，那就很有可能是发现了额外的维度。

好了，从更深层次理解了静电力遵循平方反比定律后，要猜出静电力的公式就是很简单的事情了。因为很明显的，两个电荷之间的静电力肯定跟两者的电荷量有关，而且还是电荷越大静电力越大，加上距离平方反比规律，两个电荷之间的静电力大致就是下面这样的了：

这就是我们中学学的库伦定律：两个电荷之间的静电力跟两个电荷量的乘积成正比，跟它们距离的平方成反比，剩下的都是常数。q1、q2就是两个电荷的电荷量，ε0是真空的介电常数（先不管它是啥意思，知道是个跟电相关的常数就行了），我们熟悉的球面积公式S=4πr²赫然出现在分母里，这是三维空间平方反比规律的代表。

库伦定律是一个实验定律，也就说库伦做了很多实验发现两个电荷之间确实存在着一个这么大小的静电力，但是它并没有告诉你这个静电力是如何传递的。两个并没有接触的物体之间存在某种力，一个常见的想法就是这两个物体之间存在着某种我们看不见的东西在帮它们传递作用力，那么这种东西是什么呢？有人认为是以太，有人认为是某种弹性介质，但是法拉第说是力线，而且这种力线不是什么虚拟的辅助工具，而是客观的物理实在。它可以传递作用力，也可以具有能量。这些思想慢慢形成了我们现在熟知的场。

03电场的叠加

有了场，我们就可以更加细致的描述两个电荷之间的相互作用了。为什么两个电荷之间存在这样一个静电力呢？因为电荷会在周围的空间中产生一个电场，这个电场又会对处在其中的电荷产生一个力的作用。这个电场的强度越大，电荷受到的力就越大，正电荷受力的方向就是这点电场的方向。所以，电场具有大小和方向，这是一个矢量。

为了直观形象的描述电场，我们引入了电场线。电场线的密度刚好就代表了电场强度的大小，而某点电场线的切线方向就代表了该处电场的方向。一个正电荷就像太阳发光一样向四周发射电场线，负电荷就汇集电场线。

这些内容大家在中学的时候应该都学了，我就一笔带过，接下来我们考虑一个稍微复杂一点的问题：库伦定律告诉了我们两个点电荷之间静电力的大小，那么我们就可以根据这个求出一个点电荷周围的电场强度。然而，一个点电荷是最简单的情况，如果带电源再复杂一点呢？如果我有很多个电荷，或者说我直接就是一块形状不规则的带电体，这时候我们要怎么求它产生的电场呢？

一个很简单自然的想法就是：如果有很多个电荷，我就把每个电荷在这点产生的电场强度算出来，再把它们叠加起来就行了。如果这是一个连续的带电体（比如一根带电的线），那我们就再次举起牛顿爵爷留给我们的微积分大刀，哗啦啦地把这个带电体切成无数个无穷小的部分，这样每一个无穷小的部分就可以看做一个点电荷，然后把这无数个点电荷在那点产生的电场强度叠加起来（就是积分）就行了。

我们上面的思路其实就是秉着“万物皆可切成点，万物皆可积”的精神，强行让库伦定律和微积分联姻，“硬算”出任何带电体在任意位置的场强。这在原理上是行得通的，没问题，但是在具体操作上就很复杂了，有没有更简单优雅一点的办法呢？

有，不过这需要我们换个角度看问题。物理学研究物体运动变化的规律，但是物体时时刻刻都处在变化之中，你要怎么去寻找它的规律呢？这里就涉及到科学研究的一个重要思想：把握变化世界里那些不变的东西。

牛顿发现一切物体在运动中都有某种共同不变的东西，不管物体怎样运动，受到什么样的力，这个东西只由物体的密度和体积决定，于是牛顿从中提炼出了质量的概念（当然，现在质量是比密度体积更基本的概念）；科学家们发现物体在各种变化的过程中有某种守恒的东西，于是提炼出了能量的概念。那么，带电体在周围空间中产生电场的过程，能不能也提炼出某种不变的东西呢？

04通量的引入

我们先不管电，先来看看我们更熟悉的水。毕竟水流和电流有某种相似之处，

我在一个水龙头的出口处装一个喷头，让水龙头向周围的空间喷射水流（就像正电荷喷射电场线一样），然后我用一个完全透水（水能够自由的穿过塑料袋）的塑料袋把水龙头包起来。那么，从水龙头出来的所有的水都必须穿过这个塑料袋，然后才能去其他地方，穿过这个塑料袋的表面是所有水的必经之路。

这个看似平常的现象后面却隐藏了这样一个事实：无论塑料袋有多大，是什么形状，只要你是密封的。那么，从水龙头流出的水量就一定等于通过这个塑料袋表面的水量。

从这里，我们就抽象出来了一个非常重要的概念：通量。通量，顾名思义，就是通过一个曲面的某种流量，通过塑料袋表面的水的流量就叫塑料袋的水通量。这样上面的例子我们就可以说成水龙头的出水量等于塑料袋的水通量了。

好，水的事就先说到这里，我们再回过头来看看电。还是用上面的实验，现在我们把水龙头换成一个正电荷，我们还是用一个完全透电（对电没有任何阻力）的塑料袋套住一个正电荷，那会发生什么呢？水龙头的喷头散发的是水流，正电荷“散发”的是电场线；通过该塑料袋的水流量叫塑料袋的水通量，那么电场线通过塑料袋的数量自然就叫塑料袋的电通量。对于水通量，我们知道它等于水龙头的出水量，那么塑料袋的电通量等于什么呢？

我们知道，之所以会有电场线，是因为空间中存在电荷。而且，电荷的电量越大，它产生的电场强度就越大，电场线就越密，那么穿过塑料袋的电场线的数量就越多，对应的电通量就越大。所以，我们虽然无法确定这个电通量的具体形式，但是可以肯定它一定跟这个塑料袋包含的电荷量有关，而且是正相关。

这就是在告诉我们：通过一个闭合曲面的电通量跟曲面内包含电荷总量是成正比的，电荷量越大，通过这个任意闭合曲面的电通量就越大，反之亦然。这就是麦克斯韦方程组的第一个方程——高斯电场定律的核心思想。

把这个思想从电翻译到水上面去就是：通过一个闭合曲面的水量是这个曲面内包含水龙头水压的量度，水压越大，水龙头越多，通过这个闭合曲面的水量就越大。这几乎已经接近“废话”了~所以，大家面对那些高大上的公式方程的时候不要先自己吓自己，很多所谓非常高深的思想，你把它用人话翻译一下，就会发现它非常简单自然。

我们再来审视一下高斯电场定律的核心思想：通过一个闭合曲面的电通量跟曲面包含的电荷量成正比。那么，我们要怎么样把这个思想数学化呢？电荷的总量好说，就是把所有电荷的带电量加起来，那么通过一个闭合曲面的电通量要怎么表示呢？

05电场的通量

我们先从最简单的情况看起。

问题1：我们假设空间里有一个电场强度为E的匀强电场，然后有一个面积为a的木板跟这个电场方向垂直，那么，通过这个木板的电通量Φ要怎么表示呢？

我们想想，我们最开始是从水通过曲面的流量来引入通量的，到了电这里，我们用电场线通过一个曲面的数量表示电通量。而我们也知道，电场线的密度代表了电场强度的大小。所以，我们就能很明显的发现：电场强度越大，通过木板的电场线数量越多；木板的面积越大，通过木板的电场线数量越多。而电场线的数量越多，就意味着电通量越大。

因为电场强度E是一个矢量（有大小和方向），所以我们用E的绝对值|E|来表示E的大小，那么我们直接用电场强度的大小|E|和木板面积a的乘积来表示电通量的大小是非常合理的。也就是说，通过木板的电通量Φ=|E|×a。

木板和电场线方向相互垂直是最简单的情况，如果木板和电场的方向不垂直呢？

问题2：还是上面的木板和电场，如果木板跟电场的方向不是垂直的，它们之间有一个夹角θ，那这个电通量又要怎么求呢？

如上图，首先，我们能直观地感觉到：当木板不再和电场方向垂直的时候，这个木板被电场线穿过的有效面积减小了。原来长度为AB的面都能挡住电场线，现在，虽然还是那块木板，但是真正能够有效挡住电场线的变成了BC这个面。

然后，我们再来谈一谈曲面的方向，可能很多人都认为曲面的方向就是定义为AB的方向。其实不是的，我们是用一个垂直于这个平面的向量的方向表示这个平面的方向，这个向量就叫这个平面的法向量。如上图所示，我画了一个跟木板垂直的法向量n，那么这个法向量n和电场E的夹角才是木板这个平面和电场的夹角θ。

AB、BC和θ之间存在一个非常简单的三角关系：BC=AB×cosθ（因为夹角θ跟角ABC相等，cosθ表示直角三角形里邻边和斜边的比值）。而我们有知道垂直的时候通过木板的电通量Φ=|E|×|a|，那么，当它们之间有一个夹角θ的时候，通过木板的电通量自然就变成了：Φ=|E|×|a|×cosθ。

06矢量的点乘

到了这里，我们就必须稍微讲一点矢量和矢量的乘法了。

通俗地讲，标量是只有大小没有方向的量。比如说温度，房间某一点的温度就只有一个大小而已，并没有方向；再比如质量，我们只说一个物体的质量是多少千克，并不会说质量的方向是指向哪边。而矢量则是既有大小，又有方向的量。比如速度，我们说一辆汽车的速度不仅要说速度的大小，还要指明它的方向，它是向东还是向南；再比如说力，你去推桌子，这个推力不仅有大小（决定能不能推动桌子），还有方向（把桌子推向哪一边）。

标量因为只有大小没有方向，所以标量的乘法可以直接像代数的乘法一样，让它们的大小相乘就行了。但是，矢量因为既有大小又有方向，所以你两个矢量相乘就不仅要考虑它的大小，还要考虑它的方向。假如你有两个矢量，一个矢量的方向向北，另一个向东，那么它们相乘之后得到的结果还有没有方向呢？如果有，这个方向要怎么确定呢？

这就是说，我们从小学开始学习的那种代数乘法的概念，在矢量这里并不适用，我们需要重新定义一套矢量的乘法规则，比如我们最常用的点乘（符号为‘·’）。你两个标量相乘就是直接让两个标量的大小相乘，我现在矢量不仅有大小还有方向，那么这个方向怎么体现呢？简单，我不让你两个矢量的大小直接相乘，而是让一个矢量的投影和另一个矢量的大小相乘，这样就既体现了大小又体现了方向。

如上图，我们有两个矢量OA和OB（线段的长短代表矢量的大小，箭头的方向代表矢量的方向），我们过A点做AC垂直于OB（也就是OA往OB方向上投影），那么线段OC的长度就代表了矢量OA在OB方向上的投影。而根据三角函数的定义，一个角度θ的余弦cosθ被定义为邻边（OC）和斜边（OA）的比值，即cosθ=OC/|OA|（绝对值表示矢量的大小，|OA|表示矢量OA的大小）。所以矢量OA在OB方向上的投影OC可以表示为：OC=|OA|×cosθ。

既然两个矢量的点乘被定义为一个矢量的投影和和另一个矢量大小的乘积，现在我们已经得到了投影OC的表达式，那么矢量OA和OB的点乘就可以表示为：

OA·OB=OC×|OB|=|OA||OB|cosθ。

为什么我们上面明明还在讲电场通过一个平面的通量，接着却要从头开始讲了一堆矢量的点乘的东西呢？因为电场强度也是一个矢量，它有大小也有方向（电场线的密度代表大小，电场线的方向代表它的方向）；平面其实也是一个矢量，平面的大小不用说了，平面的方向是用垂直于这个平面的法向量来表示的。而且，我们再回顾一下当平面跟电场方向有一个夹角θ的时候，通过这个平面的电通量Φ=|E|×|a|×cosθ。这是不是跟上面两个矢量点乘右边的形式一模一样？

也就是说，如果我们从矢量的角度来看：电场E通过一个平面a的电通量Φ就可以表示为这两个矢量（电场和平面）的点乘，即Φ=E·a（因为根据点乘的定义有E·a=|E|×|a|×cosθ）。

这种表述既简洁又精确，你想想，如果你不使用矢量的表述，那么你在公式里就不可避免地会出现很多和夹角θ相关的地方。更关键的是，电场强度和平面本来就都是矢量，你使用矢量的运算天经地义，为什么要用标量来代替它们呢？

总之，我们知道一个电场通过一个平面的电通量可以简洁的表示为：Φ=E·a，这就够了。但是，高斯电场定律的核心思想是通过闭合曲面的电通量跟曲面包含的电荷量成正比，我们这里得到的只是一个电场通过一个平面的电通量，一个平面和一个闭合曲面还是有相当大的区别的。

07闭合曲面的电通量

知道怎么求一个平面的电通量，要怎么求一个曲面的电通量呢？

这里就要稍微涉及一丢丢微积分的思想了。我们都知道我们生活在地球的表面，而地球表面其实是一个球面，那么，为什么我们平常在路上行走时却感觉不到这种球面的弯曲呢？这个答案很简单，因为地球很大，当我们从月球上遥望地球的时候，我们能清晰地看到地球表面是一个弯曲的球面。但是，当我们把范围仅仅锁定在我们目光周围的时候，我们就感觉不到地球的这种弯曲，而是觉得我们行走在一个平面上。

地球的表面是一个曲面，但是当我们只关注地面非常小的一块空间的时候，我们却觉得这是一个平面。看到没有，一个曲面因为某种原因变成了一个平面，而我们现在的问题不就是已知一个平面的电通量，要求一个曲面的电通量么？那么地球表面的这个类比能不能给我们什么启发呢？

弯曲的地球表面在小范围内是平面，这其实是在启发我们：我们可以把一个曲面分割成许多块，只要我们分割得足够细，保证每一小块都足够小，那么我们是可以把这个小块近似当作平面来处理的。而且不难想象，我把这个曲面分割得越细，它的每一个小块就越接近平面，我们把这些小平面都加起来就会越接近这个曲面本身。

下面是重点：如果我们把这个曲面分割成无穷多份，这样每个小块的面积就都是无穷小，于是我们就可以认为这些小块加起来就等于这个曲面了。这就是微积分最朴素的思想。

如上图，我们把一个球面分割成了很多块，这样每一个小块就变成了一个长为dx，宽为dy的小方块，这个小方块的面积da=dx·dy。如果这个小块的电场强度为E，那么通过这个小块的电通量就是E·da。如果我们我们把这个球面分割成了无穷多份，那么把这无穷多个小块的电通量加起来，就能得到穿过这个曲面的总电通量。

这个思想总体来说还是很简单的，只是涉及到了微积分最朴素的一些思想。如果要我们具体去计算可能就会比较复杂，但是庆幸的是，我们不需要知道具体如何计算，我们只需要知道怎么表示这个思想就行了。一个小块da的电通量是E·da，那么我们就可以用下面的符号表示通过这个曲面S的总电通量：

这个拉长的大S符号就是积分符号，它就是我们上面说的微积分思想的代表。它的右下角那个S代表曲面S，也就是说我们这里是把这个曲面S切割成无穷小块，然后对每一块都求它的通量E·da，然后把通量累积起来。至于这个大S中间的那个圆圈就代表这是一个闭合曲面。

08方程一：高斯电场定律

总之，上面这个式子就代表了电场E通过闭合曲面S的总电通量，而我们前面说过高斯电场定律的核心思想就是：通过闭合曲面的电通量跟这个曲面包含的电荷量成正比。那么，这样我们就能非常轻松的理解麦克斯韦方程组的第一个方程——高斯电场定律了：

方程的左边，我们上面解释了这么多，这就是电场E通过闭合曲面S的电通量。方程右边带enc下标的Q表示闭合曲面内包含的电荷总量，ε0是个常数（真空介电常数），暂时不用管它。等号两边一边是闭合曲面的电通量，另一边是闭合曲面包含的电荷，我们这样就用数学公式完美地诠释了我们的思想。

麦克斯韦方程组总共有四个方程，分别描述了静电、静磁、磁生电、电生磁的过程。库伦定律从点电荷的角度描述静电，而高斯电场定律则从通量的角度来描述静电，为了描述任意闭合曲面的通量，我们不得不引入了微积分的思想。我们说电通量是电场线通过一个曲面的数量，而我们也知道磁场也有磁感线（由于历史原因无法使用磁场线这个名字），那么，我们是不是也可以类似建立磁通量的概念，然后在此基础上建立类似的高斯磁场定律呢？

09方程二：高斯磁场定律

磁通量的概念很好建立，我们可以完全模仿电通量的概念，将磁感线通过一个曲面的数量定义磁通量。因为磁场线的密度一样表征了磁感应强度（因为历史原因，我们这里无法使用磁场强度）的大小。所以不难理解，我们可以仿照电场把磁感应强度为B的磁场通过一个平面a的磁通量Φ表示为Φ=B·a。

同样，根据我们在上面电场里使用的微积分思想，类比通过闭合曲面电通量的作法，我们可以把通过一个闭合曲面S的磁通量表示为：

然后，我们可以类比高斯电场定律的思想“通过闭合曲面的电通量跟这个曲面包含的电荷量成正比”，建立一个高斯磁场定律，它是核心思想似乎就应该是：通过闭合曲面的磁通量跟这个曲面包含的“磁荷量”成正比。

然而这里会有个问题，我们知道自然界中有独立存在的正负电荷，电场线都是从正电荷出发，汇集与负电荷。但是自然界里并不存在（至少现在还没发现）独立的磁单极子，任何一个磁体都是南北两极共存。所以，磁感线跟电场线不一样，它不会存在一个单独的源头，也不会汇集到某个地方去，它只能是一条闭合的曲线。

上图是一个很常见的磁铁周围的磁感线，磁铁外部的磁感线从N极指向S极，在磁铁的内部又从S极指向N极，这样就形成一个完整的闭环。

如果磁感线都是一个闭环，没有独立存在的磁单极，那我们可以想一想：如果你在这个闭环里画一个闭合曲面，那么结果肯定就是有多少磁感线从曲面进去，就肯定有多少跟磁感线从曲面出来。因为如果有一根磁感线只进不出，那它就不可能是闭合的了，反之亦然。

如果一个闭合曲面有多少根磁感线进，就有多少根磁感线出，这意味着什么呢？这就意味着你进去的磁通量跟出来的磁通量相等，那么最后这个闭合曲面包含的总磁通量就恒为0了。这就是麦克斯韦方程组的第二个方程——高斯磁场定律的核心思想：闭合曲面包含的磁通量恒为0。

通过闭合曲面的磁通量（B·a是磁通量，套个曲面的积分符号就表示曲面的磁通量）我们上面已经说了，恒为0无非就是在等号的右边加个0，所以高斯磁场定律的数学表达式就是这样的：

对比一下高斯电场定律和高斯磁场定律，我们会发现他们不仅是名字想象，思想也几乎是一模一样的，只不过目前还没有发现磁荷、磁单极子，所以高斯磁场定律的右边就是一个0。我们再想一想：为什么这种高斯XX定律能够成立？为什么通过任意闭合曲面的某种通量会刚好是某种量的一个量度？

原因还在它们的“平方反比”上。因为电场强度和磁感应强度都是跟距离的平方成反比，而表面积是跟距离的平方正比，所以你前者减小多少，后者就增加多少。那么，如果有一个量的表示形式是前者和后者的乘积，那么它的总量就会保持不变。而通量刚好就是XX强度和表面积的乘积，所以电通量、磁通量就都会有这样的性质。

所以，再深思一下你就会发现：只要一种力的强度是跟距离平方成反比，那么它就可以有类似的高斯XX定律，比如引力，我们一样可以找到对应的高斯定律。数学王子高斯当年发现了高斯定理，我们把它应用在物理学的各个领域，就得到了各种高斯XX定律。麦克斯韦方程组总共就四个方程，就有两个高斯定律，可见其重要性。

静电和静磁方面的事情就先说这么多，还有疑问的请咨询高斯，毕竟这是人家独家冠名的产品。接下来我们来看看电和磁之间的交互，看看磁是如何生电，电是如何生磁的。说到磁如何生电，那就肯定得提到法拉第。奥斯特发现电流的磁效应之后，大家秉着对称性的精神，认为磁也一定能够生电，但是磁到底要怎样才能生电呢？不知道，这就得做实验研究了。

10电磁感应

既然是要做实验看磁如何生电，那首先肯定得有一个磁场。这个简单，找两块N极和S极相对的磁铁，这样它们之间就会有一个磁场。我再拿一根金属棒来，看看它有没有办法从磁场中弄出电来。因为金属棒是导电的，所以我把它用导线跟一个检测电流的仪器连起来，如果仪器检测到了电流，那就说明磁生电成功了。

法拉第做了很多这样的实验，他发现：你金属棒放在那里不动，是不会产生电流的（这是自然，否则你就是凭空产生了电，能量就不守恒了。你要这样能发电，那我买块磁铁回家，就永远不用再交电费了）。

然后，他发现金属棒在那里动的时候，有时候能产生电流，有时候不能产生，你要是顺着磁感线的方向运动（在上图就是左右运动）就没有电流，但是你要是做切割磁感线的运动（在上图就是上下运动）它就能产生电流。打个通俗的比喻：如果把磁感线想象成一根根面条，你只有把面条（磁感线）切断了才会产生电流。

再然后，他发现金属棒在磁场里不动虽然不会产生电流，但是如果这时候我改变一下磁场的强度，让磁场变强或者变弱一些，即便金属棒不动也会产生电流。

法拉第仔细总结了这些情况，他发现不管是金属棒运动切割磁感线产生电流，还是磁场强度变化产生电流，都可以用一个通用的方式来表达：只要闭合回路的磁通量发生了改变，就会产生电流。我们想想，磁通量是磁场强度B和面积a的乘积（B·a），我切割磁感线其实是相当于改变了磁感线通过回路的面积a，改变磁场强度就是改变了B。不管我是改变了a还是B，它们的乘积B·a（磁通量）肯定都是要改变的。

也就是说：只要通过曲面（我们可以把闭合回路当作一个曲面）的磁通量发生了改变，回路中就会产生电流，而且磁通量变化得越快，这个电流就越大。

到了这里，我们要表示通过一个曲面的磁通量应该已经轻车熟路了。磁通量是B·a，那么通过一个曲面S的磁通量给它套一个积分符号就行了。于是，通过曲面S磁通量可以写成下面这样：

细心的同学就会发现这个表达式跟我们高斯磁场定律里磁通量部分稍微有点不一样，高斯磁场定律里的积分符号（拉长的S）中间有一个圆圈，我们这里却没有。高斯磁场定律说“闭合曲面的磁通量恒为0”，那里的曲面是闭合曲面，所以有圆圈。而我们这里的曲面并不是闭合曲面（我们是把电路回路当成一个曲面，考虑通过这个回路的磁通量），也不能是闭合曲面。因为法拉第就是发现了“通过一个曲面的磁通量有变化就会产生电流”，如果这是闭合曲面，那根据高斯磁场定律它的磁通量恒为0，恒为0那就是没有变化，没变化按照法拉第的说法就没有电流，那还生什么电？

所以，我们要搞清楚，我们这里不再是讨论闭合曲面的磁通量，而是一个非闭合曲面的磁通量，这个磁通量发生了改变就会产生电流，而且变化得越快产生的电流就越大。上面的式子给出的只是通过一个曲面S的磁通量，但是我们看到了最终决定电流大小的并不是通过曲面的磁通量的大小，而是磁通量变化的快慢。那么这个变化的快慢我们要怎么表示呢？

我们先来看看我们是怎么衡量快慢的。比如身高，一个人在十二三岁的时候一年可以长10厘米，我们说他这时候长得快；到了十七八岁的时候可能一年就长1厘米，我们就说他长得慢。也就是说，我们衡量一个量（假设身高用y表示）变化快慢的方法是：给定一个变化的时间dt（比如一年，或者更小），看看这个量的变化dy是多少，如果这个量的变化很大我们就说它变化得很快，反之则变化得慢。

因此，我们可以用这个量的变化dy和给定的时间dt的比值dy/dt来衡量量这个量y变化的快慢。所以，我们现在要衡量磁通量变化的快慢，那就只需要把磁通量的表达式替换掉上面的y就行了，那么通过曲面S的磁通量变化的快慢就可以这样表示：

这样，我们就把磁生电这个过程中磁的这部分说完了，那么电呢？一个闭合回路（曲面）的磁通量有变化就会产生电，那这种电要怎么描述？

11电场的环流

可能有人觉得磁通量的变化不是在回路里产生了电流么，那么我直接用电流来描述这种电不就行了么？不行，我们的实验里之所以有电流，是因为我们用导线把金属棒连成了一个闭合回路，如果我们没有用导线去连金属棒呢？那肯定就没有电流了。

所以，电流并不是最本质的东西，那个最本质的东西是电场。一个曲面的磁通量发生了变化，它就会在这个曲面的边界感生出一个电场，然后这个电场会驱动导体中的自由电子定向移动，从而形成电流。因此，就算没有导线没有电流，这个电场依然存在。所以，我们要想办法描述的是这个被感生出来的电场。

首先，一个曲面的磁通量发生了改变，就会在在曲面的边界感应出一个电场，这个电场是环绕着磁感线的，就像是磁感线的腰部套了一个呼啦圈。而且，你这个磁通量是增大还是减小，决定了这个电场是顺时针环绕还是逆时针环绕，如下图：

如果我们从上往下看的话，这个成闭环的感生电场就是如下图所示：它在这个闭环每点的方向都不一样，这样就刚好可以沿着回路驱动带电粒子，好像是电场在推着带电粒子在这里环里流动一样。

这里，我们就要引入一个新的概念：电场环流，电场的环流就是电场沿着闭合路径的线积分。这里有两个关键词：闭合路径和线积分。闭合路径好说，你只有路径是闭合的，才是一个环嘛，感生电场也是一个环状的电场。

电场的线积分是什么意思呢？因为我们发现这个感生电场是一个环状电场，它在每一个点的方向都不一样。但是，我们依然可以发动微积分的思想：这个电场在大范围内（比如上面的整个圆环）方向是不一样的，但是，如果在圆环里取一个非常小的段dl，电场E就可以看做是一个恒定的了，这时候E·dl就是有意义的了。然后把这个环上所有部分的E·dl都累加起来，也就是沿着这个圆环逐段把E·dl累加起来，这就是对电场求线积分。而这个线积分就是电场环流，用符号表示就是这样：

积分符号下面的C表示这是针对曲线进行积分，不同于我们前面的面积分（下标为S），积分符号中间的那个圆圈就表示这个是闭合曲线（电场形成的圆环）。如果大家已经熟悉了前面曲面通量的概念，我想这里要理解电场在曲线上的积分（即电场环流）并不难。

这个电场环流有什么物理意义呢？它就是我们常说电动势，也就是电场对沿着这条路径移动的单位电荷所做的功。我这里并不想就这个问题再做深入的讨论，大家只要直观的感觉一下就行了。你想想这个电场沿着这个回路推动电荷做功（电场沿着回路推着电荷走，就像一个人拿着鞭子抽磨磨的驴），这就是电场环流要传递的概念。而用这个概念来描述变化的磁产生的电是更加合适的，它既包含了感生电场的大小信息，也包含了方向信息。

12方程三：法拉第定律

所以，麦克斯韦方程组的第三个方程——法拉第定律的最后表述就是这样的：曲面的磁通量变化率等于感生电场的环流。用公式表述就是这样：

方程右边的磁通量的变化率和和左边的感生电场环流我们上面都说了，还有一个需要说明的地方就是公式右边的这个负号。为什么磁通量的变化率前面会有个负号呢？

我们想想，法拉第定律说磁通量的变化会感生出一个电场出来，但是我们别忘了奥斯特的发现：电流是有磁效应的。也就是说，磁通量的变化会产生一个电场，这个电场它自己也会产生磁场，那么也就有磁通量。那么，你觉得这个感生电场产生的磁通量跟原来磁场的磁通量的变化会有什么关系？

假如原来的磁通量是增加的，那么这个增加的磁通量感生出来的电场产生的磁通量是跟原来方向相同还是相反？仔细想想你就会发现，答案必然是相反。如果原来的磁通量是增加的，你感生出来的电场产生的磁通量还跟它方向相同，这样不就让原来的磁通量增加得更快了么？增加得更快，按照这个逻辑就会感生出更强大的电场，产生更大的与原来方向相同的磁通量，然后又导致原来的磁通量增加得更快……

然后你会发现这个过程可以无限循环下去，永远没有尽头，这样慢慢感生出无限大的电场和磁通量，这肯定是不可能的。所以，为了维持一个系统的稳定，你原来的磁通量是增加的，我感生电场产生的磁通量就必然要让原来的磁通量减小，反之亦然。这就是楞次定律的内容，中学的时候老师会编一些口诀让你记住它的内容，但是我想让你知道这是一个稳定系统自然而然的要求。楞次定律背后还有一些更深层次的原因，这里我们暂时只需要知道这是法拉第定律那个负号的体现就行了。

到这里，我们就把麦克斯韦方程组的第三个方程——法拉第定律的内容讲完了，它刻画了变化的磁通量如何产生电场的过程。但是，我们上面也说了，我们这里的磁通量变化包含了两种情况：导体运动导致的磁通量变化和磁场变化导致的磁通量变化。这两种情况其实是不一样的，但是它们居然又可以用一个统一的公式来表达，这其实是非常不自然的，当时的人们也只是觉得这是一种巧合罢了，但是爱因斯坦却不认为这是一种巧合，而是大自然在向我们暗示什么，他最终从这里发现了狭义相对论，有兴趣的同学可以这里思考一下。

也因为这两种情况不一样，所以，法拉第定律还有另外一个版本：它把这两种情况做了一个区分，认为只有磁场变化导致的磁通量变化才是法拉第定律，前面导体运动导致的磁通量变化只是通量法则。所以我们有时候就会看到法拉第定律的另一个版本：

对比一下这两个法拉第定律，我们发现后面这个只是把那个变化率从原来的针对整个磁通量移到了只针对磁场强度B（因为B不是只跟时间t有关，还可以跟其它的量有关，所以我们这里必须使用对时间的偏导的符号∂B/∂t），也就是说它只考虑变化磁场导致的磁通量变化。这种形式跟我们后面要说的法拉第定律的微分形式对应得更好，这个后面大家会体会到。

磁生电的过程我们先讲这么多，最后我们来看看电生磁的情况。可能有些人会觉得我这个出场次序有点奇怪：明明是奥斯特先发现了电流的磁效应，大概十年后法拉第才发现了磁如何生电，为什么你却要先讲磁生电的法拉第定律，最后讲电生磁呢？

13安培环路定理

确实，是奥斯特首先爆炸性地发现了电流的磁效应，发现了原来电和磁之间并不是毫无关系的。

如上图，假设电流从下往上，那么它在周围就会产生这样一个环形的磁场。磁场的方向可以用所谓的右手定则直观的判断：手握着导线，拇指指向电流的方向，那么你右手四指弯曲的方向就是磁场B的方向。

然后毕奥、萨伐尔和安培等人立马着手定量的研究电流的磁效应，看看一定大小的电流在周围产生的磁场的大小是怎样的。于是，我们就有了描述电流磁效应的毕奥-萨伐尔定律和安培环路定理。其中，毕奥-萨伐尔定律就类似于库伦定律，安培环路定理就类似于高斯电场定律，因为在麦克斯韦方程组里，我们使用的是后一套语言，所以我们这里就只来看看安培环路定理：

安培环路定理的左边跟法拉第定律的左边很相似，这是很显然的。因为法拉第定律说磁通量的变化会在它周围产生一个旋转闭合的电场，而电流的磁效应也是在电流的周围产生一个旋转闭合的磁场。在上面我们已经说了我们是用电场环流（也就是电场在闭合路径的线积分）来描述这个旋转闭合的电场，那我们这里一样使用磁场环流（磁场在闭合路径的线积分）来描述这种旋转闭合的磁场。

安培环路定理的右边就比较简单了，μ0是个常数（真空磁导率），不用管它。I通常是用来表示电流的，enc这个右标我们在高斯电场定律那里已经说过了，它是包含的意思。所以，右边这个带enc的电流I就表示被包含在闭合路径里的总电流，哪个闭合路径呢？那自然就是你左边积分符号中间那个圈圈表示的闭合路径了。

也就是说，安培环路定理其实是在告诉我们：通电导线周围会产生旋转磁场，你可以在这个电流周围随便画一个圈，那么这个磁场的环流（沿着这个圈的线积分）就等于这个圈里包含的电流总量乘以真空磁导率。

那么，这样就完了么？静电、静磁分别由两个高斯定律描述，磁生电由法拉第定律描述，电生磁就由安培环路定理描述？

不对，我们看看安培环路定理，虽然它确实描述了电生磁，但是它这里的电仅仅是电流（定理右边只有电流一项）。难道一定要有电流才会产生磁？电磁感应被发现的原因就是看到奥斯特发现了电流的磁效应，发现电能生磁，所以人们秉着对称性的原则，觉得既然电能够生磁，那么磁也一定能够生电。那么，继续秉着这种对称性，既然法拉第定律说“变化的磁通量能够产生电”，那么，我们实在有理由怀疑：变化的电通量是不是也能产生磁呢？

14方程四：安培-麦克斯韦定律

那么，为什么描述电生磁的安培环路定理里却只有电流产生磁，而没有变化的电通量产生磁这一项呢？难道当时的科学家们没意识到这种对称性么？当然不是，当时的科学家们也想从实验里去找到电通量变化产生磁场的证据，但是他们并没有找到。没有找到依然意味着有两种可能：不存在或者目前的实验精度还发现不了它。

如果你是当时的科学家，面对这种情况你会作何选择？如果你因为实验没有发现它就认为它不存在，这样未免太过保守。但是，如果你仅仅因为电磁之间的这样一种对称性（而且还不是非常对称，因为大自然里到处充满了独立的电荷，却没有单独的磁单极子）就断定“电通量的变化也一定会产生磁”这样未免太过草率。这种时候就是真正考验一个科学家能力和水平的时候了。

麦克斯韦选择了后者，也就是说麦克斯韦认为“变化的电通量也能产生磁”，但是他并不是随意做了一个二选一的选择，而是在他的概念模型里发现必须加入这样一项。而且，只有加上了这样一项，修正之后的安培环路定理才能跟高斯电场定律、高斯磁场定律、法拉第定律融洽相处，否则他们之间会产生矛盾（这个矛盾我们在后面的微分篇里再说）。麦克斯韦原来的模型太过复杂，我这里就不说了，这里我用一个很简单的例子告诉大家为什么必须要加入“变化的电通量也能产生磁”这一项。

在安培环路定理里，我们可以随意选一个曲面，然后所有穿过这个曲面的电流会在这个曲面的边界上形成一个环绕磁场，问题的关键就在这个曲面的选取上。按理说，只要你的这个曲面边界是一样的，那么曲面的其他部分就随便你选，因为安培环路定理坐标的磁场环流只是沿着曲面的边界的线积分而已，所以它只跟曲面边界有关。下面这个例子就会告诉你即便曲面边界一样，使用安培环路定理还是会做出相互矛盾的结果。

上图是一个包含电容器的简单电路。电容器顾名思义就是装电的容器，它可以容纳一定量的电荷。一开始电容器是空的，当我们把开关闭合的时候，电荷在电池的驱动下开始移动，移动到了电容器这里就走不动了（此路不通），然后电荷们就聚集在电容器里。因为电容器可以容纳一定量的电荷，所以，当电容器还没有被占满的时候，电荷是可以在电路里移动的，电荷的移动就表现为电流。

所以，我们会发现当我们在给电容器充电的时候，电路上是有电流的，但是电容器之间却没有电流。所以，如果我们选择上图的曲面，那么明显是有电流穿过这个曲面，但是，如果我们选择下面这个曲面呢（此处图片来自《麦克斯韦方程直观》，需要的可以后台回复“麦克斯韦方程组”）？

这个曲面的边界跟上图一样，但是它的底却托得很长，盖住了半块电容器。这是什么意思呢？因为我们知道电容器在充电的时候，电容器里面是没有电流的，所以，当我们把曲面选择成下面这个样子的时候，根本就没有电流穿过这个曲面。

也就是说，如果我选上面的曲面，有电流穿过曲面，按照安培环路定理，它是肯定会产生一个环绕磁场的。但是，如果我选择下面的曲面，就没有电流通过这个曲面，按照安培环路定理就不会产生环绕磁场。而安培环路定理只限定曲面的边界，并不管你曲面的其它地方，于是我们就看到这两个相同边界的曲面会得到完全不同的结论，这就只能说明：安培环路定理错了，或者至少它并不完善。

我们再来想一想，电容器在充电的时候电路中是有电流的，所以它周围应该是会产生磁场的。但是，当我们选择下面那个大口袋形的曲面的时候，并没有电流穿过这个曲面。那么，到底这个磁场是怎么来的呢？

我们再来仔细分析一下电容器充电的过程：电池驱使着电荷不断地向电容器聚集，电容器中间虽然没有电流，但是它两边聚集的电荷却越来越多。电荷越来越多的话，在电容器两个夹板之间的电场强度是不是也会越来越大？电场强度越来越大的话，有没有嗅到什么熟悉的味道？

没错，电场强度越来越大，那么通过这个曲面的电通量也就越来越大。因此，我们可以看到虽然没有电流通过这个曲面，但是通过这个曲面的电通量却发生了改变。这样，我们就可以非常合理地把“变化的电通量”这一项也添加到产生磁场的原因里。因为这项工作是麦克斯韦完成的，所以添加了这一项之后的新公式就是麦克斯韦方程组的第四个方程——安培-麦克斯韦定律：

把它和安培环路定理对比一下，你就会发现它只是在在右边加了变化的电通量这一项，其它的都原封未动。E·a是电通量，套个面积分符号就表示通过曲面S的电通量，再加个d/dt就表示通过曲面S电通量变化的快慢。因为在讲法拉第定律的时候我们详细讲了通过曲面磁通量变化的快慢，这里只是把磁场换成了电场，其他都没变。

ε0是真空中的介电常数，把这个常数和电通量变化的快慢乘起来就会得到一个跟电流的单位相同的量，它就被称为位移电流，如下图：

所以，我们经常能够听到别人说麦克斯韦提出了位移电流假说。其实，它的核心就是添加了“变化的电通量也能产生磁场”这一项，因为当时并没有实验能证明这一点，所以只能暂时称之为假说。在安培环路定理里添加了这一项之后，新生的安培-麦克斯韦定律就能跟其他的几条定律和谐相处了。而麦克斯韦之所以能够从他的方程组里预言电磁波的存在，这最后添加这项“变化的电通量产生磁场”至关重要。

因为你想想，预言电磁波的关键就是“变化的电场产生磁场，变化的磁场产生电场”，这样变化的磁场和电场就能相互感生传向远方，从而形成电磁波。而变化的电场能产生磁场，这不就是麦克斯韦添加的这一项的核心内容么？电场变了，磁通量变了，于是就产生了磁场。至于麦克斯韦方程组如何推导出电磁波，我后面再专门写文章解释，这里知道电磁波的产生跟位移电流的假说密切相关就行了。

15麦克斯韦方程组

至此，麦克斯韦方程组的四个方程：描述静电的高斯电场定律、描述静磁的高斯磁场定律、描述磁生电的法拉第定律和描述电生磁的安培-麦克斯韦定律的积分形式就都说完了。把它们都写下来就是这样：

高斯电场定律说穿过闭合曲面的电通量正比于这个曲面包含的电荷量。

高斯磁场定律说穿过闭合曲面的磁通量恒等于0。

法拉第定律说穿过曲面的磁通量的变化率等于感生电场的环流。

安培-麦克斯韦定律说穿过曲面的电通量的变化率和曲面包含的电流等于感生磁场的环流。

我们看到，在这里从始至终都占据着核心地位的概念就是通量。

如果一个曲面是闭合的，那么通过它的通量就是曲面里面某种东西的量度。因为自然界存在独立的电荷，所以高斯电场定律的右边就是电荷量的大小，因为我们还没有发现磁单极子，所以高斯磁场定律右边就是0。

如果一个曲面不是闭合的，那么它就无法包住什么，就不能成为某种荷的量度。但是，一个曲面如果不是闭合的，它就有边界，于是我们就可以看到这个非闭合曲面的通量变化会在它的边界感生出某种旋涡状的场，这种场可以用环流来描述。因而，我们就看到了：如果这个非闭合曲面的磁通量改变了，就会在这个曲面的边界感生出电场，这就是法拉第定律；如果这个非闭合曲面的电通量改变了，就会在这个曲面的边界感生出磁场，这就是安培-麦克斯韦定律的内容。

所以，当我们用闭合曲面和非闭合曲面的通量把这四个方程串起来的时候，你会发现麦克斯韦方程组还是很有头绪的，并不是那么杂乱无章。闭上眼睛，想象空间中到处飞来飞去的电场线、磁场线，它们有的从一个闭合曲面里飞出来，有的穿过一个闭合曲面，有的穿过一个普通的曲面然后在曲面的边界又产生了新的电场线或者磁场线。它们就像漫天飞舞的音符，而麦克斯韦方程组就是它们的指挥官。

16结语

有很多朋友以为麦克斯韦方程组就是麦克斯韦写的一组方程，其实不然。如我们所见，麦克斯韦方程组虽然有四个方程，但是其中有三个半（高斯电场定律、高斯磁场定律、法拉第定律、安培环路定理）是在麦克斯韦之前就已经有了的，真正是麦克斯韦加进去的只有安培-麦克斯韦定律里”电通量的变化产磁场”那一项。知道了这些，有些人可能就会觉得麦克斯韦好像没那么伟大了。

其实不然，在麦克斯韦之前，电磁学领域已经有非常多的实验定律，但是这些定律哪些是根本，哪些是表象？如何从这一堆定律中选出最核心的几个，然后建立一个完善自洽的模型解释一切电磁学现象？这原本就是极为困难的事情。更不用说麦克斯韦在没有任何实验证据的情况下，凭借自己天才的数学能力和物理直觉直接修改了安培环路定理，修正了几个定律之间的矛盾，然后还从中发现了电磁波。所以，丝毫没有必要因为麦克斯韦没有发现方程组的全部方程而觉得他不够伟大。

最后，如题所示，我这篇文章讲的只是麦克斯韦方程组的积分篇，方程都是用积分是形式写的。因为积分篇主要是从通量，从宏观的角度来描述电磁学，所以相对比较容易理解。有积分篇那就意味着还有麦克斯韦方程组的微分篇，微分篇的内容我下一篇文章再讲。我这篇文章主要参考了《电动力学导论》（格里菲斯）和《麦克斯韦方程直观》（Daniel Fleisch），大家想对麦克斯韦方程组做进一步了解的可以看看这两本书，需要电子档的可以在后台回复“麦克斯韦方程组”。

最美的方程，愿你能懂她的美~

收起阅读 »

你也能懂的微积分

数学微积分

前面接连发了三篇麦克斯韦方程组的文章（积分篇、微分篇和电磁波篇），从理论上来说，讲麦克斯韦方程组不讲微积分是不行的，因为人家本来就是一组积分方程和一组微分方程。但是，为了让更多人，尤其是中学生也能理解这“最美的公式”，长尾君还是预设不懂微积分的人也能看懂文章，...

继续阅读 »

前面接连发了三篇麦克斯韦方程组的文章（积分篇、微分篇和电磁波篇），从理论上来说，讲麦克斯韦方程组不讲微积分是不行的，因为人家本来就是一组积分方程和一组微分方程。

但是，为了让更多人，尤其是中学生也能理解这“最美的公式”，长尾君还是预设不懂微积分的人也能看懂文章，于是在文章里也只是非常简单地提了一些必要的微积分。现在麦克斯韦方程组讲完了，我们再来好好聊一聊微积分。

微积分有多重要相信大家多多少少心里都有点数，搞数学的不会微积分就跟中学生不会“加减乘除”一样，基本上啥都干不了。牛顿是物理学界的封神人物，然而牛顿还凭借着微积分的发明，跟阿基米德、高斯并称为世界三大数学家，这是何等荣耀？这又从侧面反映出微积分是何等地位？

除了重要，很多人对微积分的另一个印象就是难。在许多人眼里，微积分就是高深数学的代名词，就是高智商的代名词，许多家长一听说谁家孩子初中就学了微积分，立马就感叹这是别人家的天才。其实不然，微积分并不难，它的基本思想甚至是非常简单的，不然也不会有那么多初中生学习微积分的事了。

所以，大家在看这篇文章的时候不要有什么心理负担，微积分并不是什么很难的东西，我们连高大上的麦克斯韦方程组都看过来了，还怕什么微积分对不对？只要跟着长尾科技的思路走，我相信一般的中学生都是可以非常顺畅地理解微积分的。

好，下面进入正题。

01从面积说起

我们从小学就学了各种求面积的公式，什么长方形、三角形、圆、梯形等等，然后“求阴影部分的面积”就成了小时候的一块心理阴影。

不知道大家当时有没有想过一个问题：好像我们每学一种新图形就有一个新的面积公式，可是，世界上有无数种图形啊，难道我要记无数种公式么？这太令人沮丧了！

更令人沮丧的是，还有很多图形根本就没有什么面积公式。比如我随手在纸上画一条曲线，这条曲线围成的面积你要用什么公式来算？但是，它确实围成了一块确定大小的区域啊，大小是确定的就应该能算出面积来，算不出来就是你的数学不行，对吧？于是，这个事就深深地刺痛了数学家们高傲的内心，然后就有很多人来琢磨这个事，比如阿基米德。

如何求一条曲线围成的面积？

面对这个问题，古今中外的数学家的想法都是类似的，那就是：用我们熟悉的图形（比如三角形、长方形等）去逼近曲线围成图形的面积。这就好比在铺地板砖的时候，我们会用尽可能多的瓷砖去填满地板，然后这些瓷砖的面积之和差不多就是地板的面积。

阿基米德首先考虑抛物线：如何求抛物线和一条直线围成的面积？抛物线，顾名思义，就是你往天上抛一块石头，这块石头在空中划过的轨迹。如下图的外层曲线：

这条抛物线和直线BC围成了一个弓形（形状像一把弓箭，涂了颜色的部分），这个弓形的面积要怎么求呢？阿基米德的想法是用无数个三角形去逼近这个弓形，就好像我们用很多三角形的瓷砖去铺满这块弓形的地板一样。

他先画了一个蓝色的大三角形ABC（这个三角形并不是随意画的，抛物线在A点处的切线必须跟BC平行。这里我们不细究，只要知道能够画出这样一个三角形就行）。当然，这个三角形ABC的面积肯定比弓形的面积小，小多少呢？显而易见，小了左右两边两个小弓形的面积。

如果我们能把这两个小弓形的面积求出来，加上三角形ABC就可以求出原来大弓形的面积了。但是，如何求这两个小弓形的面积呢？答案是：继续用三角形去逼近！

于是，阿基米德又使用同样的方法，在这两个小弓形里画了两个绿色的三角形。同样的，在这两个小弓形被两个绿色三角形填充之后，我们又多出了四个弓形，然后我们又用四个黄色的三角形去填充剩余的弓形……

很显然，这个过程可以无限重复下去。我们可以用1个蓝色，2个绿色的，4个黄色的，8个红色的等无穷多个三角形来逼近这个弓形。我们也能很直观地感觉到：我们使用的三角形越多，这些三角形的面积之和就越接近大弓形的面积。用三角形的面积之和来逼近这个弓形面积，这我没意见，但关键是你要怎样求这么多三角形（甚至是无穷多个三角形）的面积呢？

这就是阿基米德厉害的地方，他发现：每次新画的三角形的面积都是上一轮三角形面积的1/4。也就是说，2个绿色三角形的面积之和刚好是1个蓝色三角形面积的1/4；4个黄色的三角形的面积之和刚好是2个绿色三角形的1/4，那么就是1个蓝色三角形面积的1/16，也就是（1/4）²……

如果我们把所有三角形的面积都折算成第一个蓝色三角形ABC（用△ABC表示）的面积，那么大弓形的面积S就可以这样表示：

S=△ABC+（1/4）△ABC+（1/4）²△ABC +（1/4）³△ABC……

这东西放在今天就是一个简单的无穷级数求和问题，但阿基米德是古希腊人，那是秦始皇都还没统一中国的年代，什么高等数学更是不存在的，怎么办呢？

阿基米德计算了几项，直觉告诉他这个结果在不断地逼近（4/3）△ABC，也就是说你用的三角形越多，面积S就越接近（4/3）△ABC。于是阿基米德就猜测：如果我把无穷多个三角形的面积都加起来，这个结果应该刚好等于（4/3）△ABC。

当然，光猜测是不行的，数学需要的是严格的证明，然后阿基米德就给出了证明。他证明如果面积S大于（4/3）△ABC会出现矛盾，再证明如果它小于（4/3）△ABC也会出现矛盾，所以这个面积S就只能等于（4/3）△ABC，证毕。

就这样，阿基米德就严格地求出了抛物线和直线围成的弓形的面积等于△ABC的4/3，他使用的这种方法被称为“穷竭法”。

02一千年以后

时光荏苒，再见已经是一千八百年后的十七世纪了。

穷竭法可以精确地算出一些曲线围成的面积，但是它有个问题：穷竭法对于不同曲线围成的面积使用不同的图形去逼近。比如上面使用的是三角形，在其它地方就可能使用其它图形，不同图形证明技巧就会不一样，这样就比较麻烦。

到了十七世纪，大家就统一使用矩形（长方形）来做逼近：不管你是什么曲线围成的图形，我都用无数个矩形来逼近你，而且都沿着x轴来做切割。这样操作上就简单多了。

还是以抛物线为例，这次我们考虑最简单的抛物线y=x²，它的图像大概就是下面这样（每取一个x的值，y的值都是它的平方），我们来具体算一算这条抛物线在0到1之间与x轴围成的面积是多少。

我们用矩形来逼近原图形，容易想象，矩形的数量越多，这些矩形的面积之和就越接近曲线围成的面积。这个思路跟穷竭法类似，但是更容易理解。

我们假设0到1之间被平均分成了n份，那么每一份的宽度就是1/n。而矩形的高度就是函数的纵坐标的值，纵坐标可以通过y=x²很容易算出来。于是，我们就知道，第1个矩形的高度为（1/n）²，第2个为（2/n）²，第3个为（3/n）²……

有了宽和高，把它们乘起来就是矩形的面积。于是，所有矩形的面积之和S就可以写成这样：

这只是一段普通的化简，相信大家只要知道平方和公式是下面这样就秒懂了：

于是，我们就得到了n个矩形面积之和的表达式：

因为n是矩形的个数，n越大，矩形的数量就越多，那么这些矩形的面积之和就越接近曲线围成的面积。所以，如果n变成了无穷大，我们从“直觉”上认为，这些矩形的面积之和就应该等于抛物线围成的面积。

与此同时，如果n是无穷大，那么这个表达式的后两项1/2n和1/6n²从直觉上来看就应该无限趋近于0，或者说等于无穷小，似乎也可以扔掉了。

于是，当n趋向于无穷大的时候，面积S就只剩下第一项1/3。所以，我们就把抛物线y=x²与x轴在0到1之间围成的面积S算出来了，结果不多不少，就等于1/3。

看完这种计算方法，大家有什么想说的？觉得它更简单，更神奇了，或者其它什么的？大家注意一下我的措辞，在这一段里我用一些诸如“直觉上”、“应该”、“似乎”这种不是很精确的表述。在大家的印象里，数学应该最精确、最严密的一门学科啊，怎么能用这些模糊不清的词来形容呢？

03严密性和实用性

然而，这正是问题所在：不是我不想讲清楚，而是在这个时候根本就讲不清楚。别说我讲不清楚，牛顿和莱布尼茨也讲不清楚，这跟阿基米德用穷竭法求面积时的那种精确形成了鲜明的对比。

使用穷竭法求面积，比如为了得到4/3△ABC，阿基米德就去证明如果它大于4/3会出现矛盾，小于4/3也会出现矛盾，所以你就必须等于4/3。这是非常严密的，虽然操作上麻烦了点，但是逻辑上无懈可击。

但是到了17世纪，我们是怎么得到抛物线与x轴围成的面积等于1/3的呢？我们得到了n个矩形的面积公式：

然后，我们觉得当n越来越大的时候，后面两项1/2n和1/6n²的值会越来越小，当n变成无穷大的时候，后面两项应该就是无穷小。于是，我们就认为可以把它直接舍弃了，所以面积S就只剩下第一项1/3。

但问题是，无穷小是多小？从直觉上来看，不论n取多大，1/2n和1/6n²都应该是大于0的，我们可以直接把0舍掉，但是对于并不等于0的数我们能直接舍弃掉么？这样做的合法性依据在哪里？

相对于古希腊的穷竭法，17世纪这种“统一用矩形来逼近原图形”的想法简单了不少，但同时也失去了一些精确性。虽然它计算的结果是正确的，但是它的逻辑并不严密。逻辑不严密的话，你拿什么保证你今天这样用是正确的，明天我那样用它还是正确的？

想想数学为什么这么令人着迷，为什么《几何原本》至今都保持着无与伦比的魅力？不就是因为数学的血液里一直流淌着无可挑剔的逻辑严密性么？

古希腊人或许早就知道17世纪这种更简单的计算方法，但是因为方法不够严密，所以他们压根不屑于使用。他们宁可绕弯使用更麻烦，但是在逻辑上无懈可击的穷竭法，因为对他们而言：逻辑的严密性，远比计算结果的实用性重要。

在对严密性和实用性的取舍上，东西方走了截然不同的两条路：古代中国毫不犹豫地选择了实用性。他们需要数学帮助国家计算税收，计算桥梁房屋等建筑工程，计算商业活动里的各种经济问题。所以，代表中国古代数学的《九章算术》，里面全是教你怎么巧妙地计算这个计算那个。也因此，古代中国会有那么多能工巧匠，会有那么多设计精巧的建筑工程。

西方则截然相反，古希腊人坚定不移的选择了严密性。他们需要严密的逻辑帮他们认识世界的本原，认识世界是由什么组成的，为什么世界会是现在这个样子。所以，代表西方古代数学的《几何原本》就是教你怎么从5个显而易见的公理出发，通过严密的逻辑一步步推导出400多个多定理，即便这些定理并不显而易见。因此，西方能诞生现代科学。

失去简单性，数学会失去很多；失去严密性，数学将失去一切。至于如何让它变得严密，后面我们会细说。

04初见积分

我们从开篇到现在一直在讲面积，而微积分的名字里刚好又有一个“积”字，那么，这两个“积”字有没有什么联系呢？答案是肯定的。

我们可以把微积分拆成“微分”和“积分”两个词，积分这个词当初被造出来，就是用来表示“由无数个无穷小的面积组成的面积S”。

如上图所示，如果一条曲线y=f(x)和x轴在a和b之间围成的面积为S，那么，我们就可以这样表示这部分面积S：

在第2节的例子里，我们求的是抛物线y=x²与x轴在0到1之间围成的面积。那么，在这里f(x)=x²，a=0，b=1，而且最终我们知道这个结果等于1/3，把这些都代入进去我们就可以这样写：

也就是说，代表这块面积的积分值等于1/3。

为了加深一下大家对这个积分式子的理解，我们再回顾一下求抛物线围成面积的过程：我们用无数个矩形把0到1之间分成了无穷多份，然后把所有的矩形面积都加起来。因为矩形的面积就是底乘以高，而这个高刚好就是函数的纵坐标y。

所以，当我用无数个矩形来逼近原面积的时候，每个矩形的底自然就变成了无穷小，这个无穷小的底就是上面的dx。而x²表示的就是函数的纵坐标，就是矩形的高，底（dx）和高（x²）相乘不就是在求面积么？你再看看这个式子，跟前面求面积的过程是不是一样的？

不过，我还是要再强调一次，这里把dx当作一个无穷小的底，把积分当作是求面积，这些都是微积分创立初期的看法。这种看法非常符合我们的直觉，但是逻辑上是不严密的。这种无穷小量dx也招致了很多人（比如我们熟悉的贝克莱大主教）对微积分的攻击，并且引发了第二次数学危机，这场危机一直到19世纪柯西等人完成了微积分的严密化之后才彻底化解。随着微积分的涅槃重生，我们对这些基本概念的看法也会发生根本的改变。

关于求面积的事情到这里就讲完了，“用一些图形去无限逼近曲线图形”的想法很早就有了，穷竭法在古希腊就很成熟了，中国魏晋时期的数学家刘徽使用割圆术去逼近圆周率也是这种思想。到了17世纪初，这些思想并没有什么太大的改变，由于这些解法比较复杂，又很难扩展，所以大家的关注度并不高。

没办法，因为打死人们也不会想到：破解这种求曲线面积（求积分）的关键，竟然藏在一个看起来跟它毫无关联的东西身上，这个东西就是微积分名字里的另一半：微分。当牛顿和莱布尼茨意识到积分和微分之间的内在关系之后，数学就迎来了一次空前的大发展。

05直线和斜率

好，关于求面积（积分）的事情这里就先告一段落，接下来我们就来看看微积分里的另一半：微分。

微分学的基本概念是导数，关于导数，我在麦克斯韦方程组的积分篇里讲过一次，在微分篇里又讲过一次（在那里还讲了升级版的偏导数）。这里它是主角，我再讲一次。

我们爬山的时候，山越陡越难爬；骑车的时候，路面的坡度越大越难骑。一个面的坡度越大，倾斜得越厉害，我们就越难上去，那么，我们该如何衡量这个倾斜程度呢？

在平面里画条一条直线，我们可以直观地看出这条直线的倾斜程度，而且还不难发现：不管在直线的什么地方，它的倾斜程度都是一样的。

所以，我们就可以用一个量来描述这整条直线的倾斜程度，这个概念就被形象地命名为斜率。

那么，一条直线的斜率要怎么计算呢？这个想法也很直观：建一个坐标系，看看直线在x轴改变了Δx时候，它在y轴的改变量Δy是多少。如果Δx是固定的，那么显然Δy越大，这条直线就斜得越厉害，斜率也就越大。

这就跟我们判断跑步的速度是一样的道理：给定一个固定的时间，比如10秒（相当于固定的Δx），看看你能跑多远（相当于Δy），你跑得越远（Δy越大），我就认为你跑得就越快。当然也可以反过来，给定一个固定的距离，比如100米（相当于Δy），你跑的时间越短（Δx越小），我就认为你跑得越快。

把这两种情况综合一下，我们就能发现：固定时间（Δx）也好，固定距离（Δy）也好，最终起决定作用的是Δy和Δx的比值Δy/Δx。这个比值越大，你就跑得越快，对应的直线也就越陡。

所以，我们就可以在直线上随意找两个点，用它们纵坐标之差Δy和横坐标之差Δx的比值（Δy/Δx）来定义这条直线斜率。

学过三角函数的同学也会知道，这个斜率刚好就是这条直线和x轴夹角θ的正切值tanθ，即：tanθ=Δy/Δx。这就是说，直线和x轴的夹角θ越大，它的斜率就越大，就倾斜的越厉害，这跟经验都是一致的。

06曲线和切线

直线好说，关键是曲线怎么办？曲线跟直线不同，它完全可以在这里平缓一点，在那里陡峭一点，它在不同地方的倾斜程度是不一样的。所以，我们就不能说一条曲线的倾斜程度（“斜率”），而只能说曲线在某个具体点的倾斜程度。

于是，我们就需要引入一个新的概念：切线。

切线，直观地看，就是刚好在这点“碰到”曲线的直线。因为切线是直线，所以切线有斜率，于是我们就可以用切线的斜率代表曲线在这点的倾斜程度。

传统上我们可以这样定义切线：先随便画一个直线，让这条直线与曲线有两个交点，这样的直线叫割线（仿佛把曲线“割断”了，如下图蓝色的AB）。然后，我们让B点沿着曲线慢慢向A点靠近，直观上，等到B点和A点重合之后，割线AB就变成了曲线在A点的切线。

这样做很符合人们的直觉，但是它在逻辑上会有一点问题：当B点向A点移时，它是什么时候从割线变成切线的？

重合的时候么？如果B点和A点重合，那就最后只剩下一个点了，我们知道“两点确定一条直线”，一个点怎么能确定一条直线呢？但是，如果B点和A点不重合的话，那么这就仍然是一条割线而不是切线啊。

于是，这样就出现了一个“一看非常简单直观，但是怎么说都说不圆”的情况，似乎两个点不行，一个点也不行，怎么办？

解决这个问题有一个很朴素的思路：要确定这条切线，让A、B两点重合是不行的，但是让它们分得太开也不行。最好就是让这两点靠近靠近无限靠近，但是就是不让它们重合。没重合的话就依然是两个点，两个点可以确定一条直线；无限靠近的话又可以把它跟一般的割线区分开来，这样不就两全其美了么？

也就是说，A、B两点必须无限靠近但又不能重合，这样它们的距离就无限接近0但又不等于0。这是什么？这不就又是无穷小么？

我们前面求曲线围成的面积的时候，核心思想就是用无数个矩形去逼近原图形，这样每个矩形的底就变成了无穷小。在这里，我们又认为当A、B两点的距离变成无穷小的时候，割线AB就变成了过A点的切线，是不是有点巧？它们之间的共性，大家可以好好体会一下~

07初见微分

好，利用无穷小定义了一点上的切线，我们就可以理所当然地用过这点切线的斜率来表示曲线在这点的倾斜度了。

如何求直线的斜率我们上面已经说了，我把这张图再拉回来：

直线的斜率等于在直线上两点的纵坐标之差Δy和横坐标之差Δx的比值，即Δy/Δx。

而切线是当曲线上A、B两点相隔无穷小时确定的直线，那么切线的斜率依然可以写成Δy/Δx，只不过这时Δx和Δy都无限趋近于0。

莱布尼茨就给这两个趋近于0却又不等于0的Δx和Δy重新取了一个名字：dx和dy，并把它们称为“微分”。

也就是说，对莱布尼茨而言，dx这个微分就是当Δx趋向于0时的无穷小量，dy也一样。虽然dx和dy都是无穷小，但是它们的比值dy/dx确是一个有限的数（所以这时候你就不能把无穷小dx当成0了，否则还怎么当除数？），这就是该点切线的斜率，这样一切似乎就都解释得通了。

08导数

显然，我们在曲线的一点上定义了切线，那么在平滑曲线的其它点上也能定义切线。因为每条切线都有一个斜率，所以，曲线上的任何一点都有一个斜率值跟它对应。两个量之间存在一种对应关系，这是什么？这就是函数啊。

函数y=f(x)不就是告诉我们：给定一个x，就有一个y跟它对应么？现在我们是给定一个点（假设横坐标为x），就有一个斜率dy/dx跟它对应。显然，这也是个函数，这个函数就叫导函数，简称导数。

在中学的时候，我们通常在函数f(x)的右上角加上一撇表示这个函数的导数，那么现在这两种情况就都表示导数：

所以，导数f’(x)就可以表示横坐标为x的地方对应切线的斜率，它表示曲线在这一点上的倾斜程度。如果导数f’(x)的值比较大，曲线就比较陡，f’(x)比较小，曲线就比较平缓。于是，我们就可以用导数来描述曲线的倾斜程度了。

下面我们来看一个简单的例子，看看如何实际求一个函数的导数。

例1：求函数f(x)=x²的导数。

这还是我们前面说的抛物线，它的函数图像是这样的：

求函数的导数，就是求函数在每一点切线的斜率，而切线就是曲线上两个相距无穷小的点确定的直线。

那就好说了，我们假设曲线上有一个横坐标为x的点，那么，跟它距离无穷小的点的横坐标就是x+dx，由于这个点也在曲线f(x)=x²上，所以它的纵坐标就是(x+dx)²，即：

然后，我们用这两个点的纵坐标之差f(x+dx)-f(x)除以横坐标之差(x+dx)-x就能算出x点的切线斜率。因为这个x是任意取的，所以得到的结果就是任意点的切线斜率，那么这就是导数了：

到这一步都很简单，接下来就有问题了：这上面和下面的dx到底能不能约掉？

我们知道，除数是不能为0的，如果你想分子分母同时除以一个数，就必须保证这个数不是0。现在我们是想除以dx，这个dx就是我们前面定义的无穷小量，它无限接近于0却又不等于0。

所以，似乎我们姑且把它当作一个非零的量直接给约掉，那么导数上下同时除以dx就成了这样：

这个式子看起来简洁了一些，但是后面还是拖了一个小尾巴dx。

2x是一个有限的数，一个有限的数加上一个无穷小量，结果是多少？似乎还是应该等于这个具体的数。比如，100加上一个无穷小，结果应该还是100，因为如果等于100.00…0001那就不对了，无穷小肯定比你所有能给出的数还小啊，那么也肯定必须比0.00…001还小。

所以，我们似乎又有充足的理由把2x后面的这个dx也给去掉，就像丢掉一个等于0的数一样，这样最终的导数就可以简单地写成这样：

大家看这个导数，当x越来越大（x>0）的时候，f(x)’的值也是越来越大的。而导数是用来表示函数的倾斜程度的，也就是说，当x越来越大的时候，曲线就越来越陡，这跟图像完全一致。

所以，我们通过约掉一个（非零的）dx，再丢掉一个（等于零的）dx得到的导数f(x)’=2x竟然是正确的。

但是这逻辑上就很奇怪了：一个无限趋近于0的无穷小量dx到底是不是0？如果是0，那么为什么可以让分子分母同时除以它来约分；如果不是0，那又为什么可以把它随意舍弃？

总不能同时等于零又不等于零吧？你又不是薛定谔家的无穷小量。

数学不是变戏法，怎么能这么随意呢？于是，这个无穷小量就又招来了一堆批判。为什么说“又”呢？因为我在前面讲积分的时候就说了一次，在这里就体现得更明显了，眼见第二次数学危机大兵压境~

09导数的意义

好，我花了这么大篇幅从直线的斜率讲到了曲线的导数，这就已经进入微分学的核心领地了。为什么导数这么重要呢？

因为导数反映的是一个量变化快慢的程度，这其实就是一种广义的“速度”。速度这个概念在科学里有多重要就不用我说了吧，当我们说一辆车的速度很快的时候，我们其实就是在说这辆车的位移对时间的导数很大。

此外，有了导数，我们就能轻而易举地求一条曲线的极值（极大值或极小值），为什么？因为只要导数不为0，曲线在这里就是在上升（大于0）或者下降（小于0）的，只有导数等于0的地方，才有可能是一个极值点。

求极值可是非常重要的：军人希望他们发射的炮弹可以飞得尽可能地远；商人希望他们的利润可以尽可能地高；我们也希望去哪都能走最近的路……

导数的这些用处很多人也都知道，事实上，我上面说的所有内容，求曲线围成的面积也好，求曲线的导数也好，在牛顿和莱布尼茨之前大家就都已经知道了，但这些并不是最重要的。

牛顿和莱布尼茨之所以伟大，之所以大家把他们视为微积分的发明人，是因为他们在这些寻常事实背后发现了一个极不寻常的秘密：求面积和求导数，或者说积分和微分，这两个看似完全不搭边的东西，竟然是一对互逆的运算。

这里我就不重复说三遍了，暂停一分钟，大家好好思考一下这句话，看看自己听到这句极为重要的话时有何感想。

10互逆运算

积分和微分是一对互逆运算，这是微积分最核心的思想。把这个思想用数学语言描述出来就会得到一个定理，这个定理叫微积分基本定理。

这也是牛顿和莱布尼茨在微积分里最重要的发现，因此，微积分基本定理又叫牛顿-莱布尼茨公式。一个定理能够被称为XX基本定理，能够让这个领域的两个发明者直接冠名，这意味着什么，相信大家心里都有数。

那么，这句话到底是什么意思呢？说求面积（积分）和求导（微分）是一对互逆运算到底是在说什么？甚至，什么叫互逆运算？为什么发现“积分和微分是互逆的”这个事情这么重要？别急，且听长尾君慢慢道来。

什么是互逆运算？这里我们不去细扣它的定义，就直观地感受一下。从名字来看，互逆互逆，那应该就是有两种运算，一种能够把它变过去，另一种又可以把它变回来。

最常见的就是加法和减法：3+2=5，5-2=3。3加上2可以变成5，反过来，5减去2又可以变回3，所以加法和减法是一对互逆运算，这很好理解。

那么，当我们在说“求面积（积分）和求导（微分）是一对互逆运算”的时候，那就是说如果有一个东西，我们对它进行积分操作（求面积）可以得到一个新东西，如果我们对这个新东西再进行微分操作（求导）又能得到原来的那个东西，这样才算互逆。

下面我给大家举一个简单的例子，让大家直观地感受下为什么积分和微分是互逆的。

假如你从家去学校要走10分钟，我们把这10分钟平均分成10份，每份1分钟。那么，你在第1分钟里走的距离就是第1分钟的平均速度乘以时间间隔（也就是1分钟），第2分钟里走的距离就是第2分钟的平均速度乘以时间间隔（还是1分钟）。以此类推，我们分别把这10个1分钟里走的距离加起来，结果就是家到学校的总距离，这个好理解吧。

大家发现没有：这其实就是积分的过程。前面求曲线围成的面积的时候，我们就是把曲线围成部分的x轴平均分成很多矩形，然后把每个矩形的面积都加起来。这里求家到学校的总距离，一样是把家到学校的时间平均分成很多份，然后把每个小份的距离都加起来。

都是把一个大东西（家到学校的总距离，曲线围成的总面积）平均切成很多份，然后每一小份都用一个新的东西（每一分钟的距离，每一个矩形的面积）去近似，最后再把所有的小份东西加起来去逼近原来的大东西。

求面积的时候，矩形的数量越多，矩形的面积之和就越接近真实面积。同样的，我们把家到学校的10分钟分得越细（例子里只分了10份，我们可以分100份，1000份甚至更多），得到的总距离就越精确。

另外，我们把时间段分得越细，每个小时间段里的平均速度就越接近瞬时速度，如果无穷细分，那么无穷小时间段里的平均速度就可以认为就是瞬时速度了。

也就是说，如果知道整个过程中的瞬时速度（或者说是无穷小时间段内的速度），我们就能精确地求出无穷小时间段内的距离，然后把所有距离加起来得到精确的总距离，这就是积分。也就是说，通过积分过程，我们能从瞬时速度求出总距离。

另一方面，要证明微分（求导）是这个过程的逆运算，我们就得证明从总距离可以求出瞬时速度。也就是说，如果已知任意时刻你从家到学校的距离，你通过微分（求导）能把瞬时速度求出来。

这不是显而易见的事么？距离对时间求导，这就是速度啊，前面我们也说了“导数是一种广义的速度”。也就是说：距离除以时间，结果就是速度。你用平均距离除以平均时间得到平均速度，用瞬时距离（某一时刻的距离）除以瞬时时间（无穷小时间片段）自然就得到了瞬时速度。

这样不就完了么，通过积分，我们能从瞬时速度求出总距离来；通过微分，我们能从总距离求出瞬时速度，这就说明积分和微分是一对互逆运算。

我们也可以换个角度，从图像来更直观的看这点。

11v-t图像

中学学物理的时候，老师一定会画速度-时间（v-t）图像。v-t图像就是在一个坐标系里，用纵轴表示物体运动的速度v，横轴表示时间t，然后分析物体的运动情况。如下图：

然后老师就会告诉你：v-t图像里它们围成的面积s就是物体运动的位移的大小（位移是有方向的距离，是一个矢量）。

你们想啊，这个坐标里横轴是时间t，纵轴是速度v，你要算它们的面积，那肯定是要用乘法的。物体做匀速运动的轨迹就是一条平行于t轴的直线，速度v1乘以时间t0刚好就是它们围成的矩形的面积s，而速度乘以时间的物理意义就是它的位移。所以，面积代表位移，刚刚好。

当物体不是匀速运动（轨迹是曲线）的时候，我就可以把时间切割成很多小段，在每一小段里把它们近似当作匀速运动，这样每一个小段的面积就代表每一个小段里的位移。

然后我把所有小段的面积加起来，得到的总面积不就可以代表总位移了么？所以，曲线围成的面积s一样代表位移。

大家想想，处理曲线的时候，我们把时间切成很多块，用每一个小块的面积（位移）之和去逼近总面积（位移），这不就是积分的思想么？反过来，如果你把这个黄色的面积S，把这个整体的位移看作一个随时间t变化的函数，对它求导自然就能得到速度t。

也就是说，我们对速度v做一次积分能得到位移s；反过来，对位移s求一次导数（微分）就能得到速度v。这样它们的互逆关系就非常清楚了：

这部分逻辑并不难理解，大家只要好好琢磨一下，就会发现“积分和微分是互逆运算”这个事情是非常自然的。它在日常生活中到处都有体现，只不过我们平常没有太注意，而牛顿和莱布尼茨注意到了。

12原函数

知道了“积分和微分是互逆运算”能给我们带来什么呢？答案是：多一种选择。因为既然积分和微分是互逆运算，那么有些操作如果积分不擅长，我就可以把它丢给微分。

什么意思？还是以最开始求曲线围成的面积为例。我们是这样求抛物线y=x²与x轴在0到1之间围成面积的：如果用n个矩形去逼近，每个矩形的底就是1/n，n个矩形的面积之和就是这样：

当n趋向于无穷大的时候，后面两项就等于无穷小，然后结果就只剩下第一项1/3。

用这种方法，面对不同的曲线就得有不同的求和公式，最后还得保证相关项可以变成无穷小丢掉。所以，这种方法的复杂度和局限性都非常大，无法推广。

但是，在伟大的牛顿和莱布尼茨发现了“积分和微分是互逆运算”之后，这一切就改变了。因为我们有另一种选择：积分之路如果不好走，我们可以走微分啊。

怎么走呢？前面讲微分的时候，我们计算过f(x)=x²的导数，最终的结果是这样的：

那么反过来，如果我知道有一个函数是f(x)=2x，难道我就猜不出究竟是哪个函数求导之后变成了f(x)=2x么？当然可以啊，我们完全可以根据f(x)=2x反推出原来的函数是f(x)=x²+c。

为什么这里多了一个常数c？因为常数求导的结果都是0，所以就多了这样一个尾巴。

也就是说，f(x)=x²，f(x)=x²+1，f(x)=x²+3等函数的导数都是f(x)=2x，只凭f(x)=2x我们无法确定最开始函数具体是什么样子。但是，我们可以确定它一定就是x²加上一个常数c。于是，我们就把求导之前原来的函数f(x)=x²+c称为的f(x)=2x的原函数。

好，下面是关键：积分是函数围成面积的过程，速度v通过积分就得到了位移s，在v-t图像里速度v围成的面积就是位移s；微分是求导的过程，对位移s求一次导数就能够得到速度v。

有了原函数以后，我们也可以根据速度v把（求导之后等于速度v的）位移s给求出来，这时候位移s就是速度v的原函数（无非就是再加一个常数c）。而原函数表示的位移s就是速度v围成的面积，于是，原函数就有了求面积（积分）的效果。

也就是说，s求导一次就变成了v，那么v反向求导一次就可以得到s，这时候s是v的原函数。另一方面，因为s求导一次能变成了v，那么v积分一次也能变成了s（互逆运算）。于是，v通过求原函数和积分都能得到s，所以原函数s其实就有了积分（曲线v围成面积）的效果。

再简单地说，因为积分和微分是一对互逆运算，所以你反向微分（求原函数）的话，自然就“负负得正”，得到和积分一样的效果了。

所以，现在求曲线f(x)=x²和x轴在0到1区间里围成面积这个原本属于积分的事情，现在就可以通过反向微分（求原函数）来实现。

这是一次非常华丽的转变，马上你就会看到这种新方法会把问题简化到什么程度，而且，正是这种力量让数学发生了根本性的改变。

13微积分基本定理

好，既然要用反向微分的方法求面积，那我们就去找f(x)=x²的原函数，看看到底是哪个函数求导之后变成了f(x)=x²。我们用F(x)来表示这个原函数，那么F(x)就是它（C为常数）：

大家不放心可以自己去验算一下，看看这个F(x)求导之后的结果是不是f(x)=x²。

因为求导是一个非常重要、基础的东西，所以求一些常见函数的导数和原函数都被一劳永逸的制成了表格，大家需要的时候直接去查，记住几个常用的就行。不过，在学习的初期，大家还是要亲自去算一些求导的例子。

有了f(x)=x²的原函数F(x)以后，怎么去求f(x)和x轴在0到1区间里围成的面积呢？前面已经分析了，原函数具有积分的效果，而积分就是曲线围成的面积，所以原函数也可以表示曲线围成的面积（为了方便理解，这里我们先不考虑常数c的影响，反正函数相减的时候常数c会抵消掉）。

因此，我们要求f(x)与x轴在0到1区间内围成的面积，直接用这个代表面积的原函数F(x)在1处的值F(1)减去在0处的值F(0)就完了：

对，你没看错，这样就完了。

F(1)-F(0)就是曲线在0到1之间围成的面积，我们这样得到的结果是1/3，跟我们原来用矩形逼近计算的结果一模一样，惊不惊喜，意不意外？但是它明显比原来的方法简单太多太多太多了，简单到一个中学生都能轻而易举地算出来，这才是微积分的真正力量。

有了这样的铺垫，微积分基本定理（牛顿-莱布尼茨公式）就非常容易理解了：如果函数f(x)在区间a到b之间连续（简单理解就是曲线没有断），并且存在原函数F(x)，那么就有：

这是式子的左边就是函数f(x)与x轴在a到b区间内围成的面积，这点我们在讲积分的时候讲过了：

式子的右边就是原函数在b点和a点的差。意义也很明确：函数反向求导得到的原函数F(x)本来就表示面积，那么F(b)-F(a)自然就是这两点之间的面积之差。于是公式左右两边就都表示面积，完美！

这就是微积分的基本定理，这就是微积分的核心思想。

相信大家一路看到这里，要理解这个已经不是什么难事了。所谓牛顿和莱布尼茨发明的微积分，本质上就是他们看到了“积分和微分是一对互逆运算”，于是我就可以使用“反向微分（求原函数）”的方法来处理积分的问题。

积分的逆运算不是微分么？那么我把微分再逆一次，于是就“负负得正”，又变成积分了。而“对函数求导，求原函数”比用原始定义，用无穷多个矩形去逼近曲线面积的方法要简单得多得多，并且这种方法还具有一般性。

因此，积分和微分原本是两门独立的学问，现在被牛顿和莱布尼茨统一成了微积分，这种1+1会产生远大于2的力量。于是，接下来的数学和科学都出现了空前的发展。

14数学的力量

微积分的发明使我们求曲线围成面积的难度出现了断崖式的下降。那么，在这个过程中到底发生了什么？为什么数学可以如此有效地简化我们的问题？是我们的问题本来就很简单，以前把它想复杂了，还是我们真的把问题的复杂度降低了？

还记得小学遇到的“鸡兔同笼”问题么？鸡和兔被关在一个笼子里，从上面数，一共有35个头，从下面数，一共有94只脚，请问笼子里分别有多少只鸡和兔？

有很多“聪明”的老师会教你一些非常“有用”的解题技巧，比如，因为鸡有一个头两只脚，兔子有一个头四只脚，而现在总共有35个头，那么你把这个35乘以2，得到的70就是所有的鸡的脚加上一半的兔子的脚（因为兔子有4只脚，而你只乘以2，所以每只兔子你还有2只脚没有算）。

然后，我用总脚数94减去这个70，得到的24就是剩下的一半兔子脚，再用24除以2（一只兔子4只脚，一半就是2只）就得到了兔子的数量12。因为一共有35个头，那么用35-12=23就是鸡的数量。

当然，鸡兔同笼问题还有很多其它的特殊解法，长尾君这里就不再列举了。这些解法算出来的结果有问题吗？当然没问题，但是这些解法简单么？好么？

不好！为什么？因为局限性太大了。我今天放鸡和兔你可以这样算，那明天我要是放点其它的动物这方法是不是就不管用了？如果下次不是数头和脚，而是去数翅膀和脚，这方法还行么？

这就跟阿基米德用穷竭法算曲线围成的面积一样，面对每一种不同曲线围成的面积，我求面积的方法都不一样。我的每一种解法都严重依赖曲线的具体特性，所以这种方法的局限性就非常大，带来的意义也非常有限。

而微积分之所以伟大，就是因为它从这些看起来不一样的问题里抽象出来了一个共同的本质，然后所有的问题都可以套用这套程序，这样大家才能放心的以它为跳板往前冲。

后来我们学习了方程，接着就发现以前让我们头痛不已的“鸡兔同笼”问题突然就变得非常简单了。不仅解决这个具体问题简单，而且随便你怎么变化，加入其它的动物也好，数上翅膀也好，都可以用一样的程序闭着眼睛把题目做出来。为什么会这样？

没有方程的时候，我们得具体问题具体分析，然后根据它的题干去做各种逆向分析。

逆向思考，这本来就是很反人类的思维方式。我们很容易从一系列原因出发得到某种结果，但是给你某种结果让你去倒着分析原因就是很困难的事情了（这不才有了侦探这个职业么）。

比如，如果我们现在知道了有23只鸡，12只兔子，然后让你去计算有多少头和脚，这是正向思维，很容易。但是，如果告诉你有多少头和脚，让你去反着思考有多少鸡和兔子，这就是逆向思维了，很麻烦。

方程告诉我们：为什么放着自己熟悉的正向思维不用，而跑去用麻烦的逆向思维呢？你说，我这不是不知道有多少只鸡和兔子，这不得已才用逆向思维么？方程告诉你，你不知道有多少只鸡和兔子无所谓，你可以先用一个未知的量代替它，先用正向思维把方程列出来再说。

比如，我假设有x只鸡，y只兔子，那么，一共就有x+y个头，2x+4y只腿。而题目告诉我们有35个头，94只脚，所以我们就可以得到：

我们毫不费力的就把这两个方程列出来了，于是这个题目基本上就做完了。因为剩下的事情就是把x和y从方程里解出来，而解方程是一件高度程序化的事情，什么样的方程怎么去求解，都有固定的方法。

从小学时代的“聪明技巧”到傻瓜式地列方程、解方程，这是数学上一个非常典型的进步，大家可以仔细想想：这个过程中到底发生了什么？方程到底是如何简化问题的？这跟微积分的发明有何异曲同工之妙？

其实，我们开始思考鸡兔同笼的那些“聪明的技巧”，那些逆向思维时的思路，都被打包塞到解方程的步骤里去了。

什么意思？比如，你要解上面这个方程：

老师可能会教你一些固定的方法。

第一步，把方程1两边都乘以2，得到2x+2y=70（这不就是跟我们上面的方法一样，把所有鸡兔的头都乘以2么）。

第二步，再用方程2减去方程1，这样就把x消去了，得到了2y=24（我们上面也是这么说的，脚的数量减去2倍头的数量就等于兔子剩下的脚的一半），然后就把兔子的数量y=12求出来了。

第三步，把兔子的数量，也就是y的值12代入到方程1，求出x的值，得到了鸡的数量23。

大家发现没有：你以前思考这个问题时最复杂的那些步骤，现在完全被机械化地打包到解方程的过程中去了。你以前觉得那些只有你才能想得到的巧妙解题技巧，只不过是最简单的解方程的方法，所以你就觉得这个问题现在变得非常简单了。

这就是数学！

数学不断地从不同领域抽象出一些相同的本质，然后尽可能地把抽象出来的东西一般化，程序化，这样我们就能越来越方便地掌握各种高级数学武器。

因此，数学越发展越抽象，越看重这种能够一般化、程序化的解决某种问题的方法。所以，方程的思想是革命性的，微积分也一样。

微积分也是使用了一种通用的方法来处理各种曲线围成的面积，稍加变化我们就能同样求出曲线的长度，或者曲面包含的体积。微积分之所以能够简化求面积的逻辑，是因为微积分把这块逻辑都打包到求原函数里去了，而后者是一个可以程序化、一般化的操作。

所以，我们学习数学的时候，也要更多地注意这些数学是从哪些不同的地方抽象出了哪些相同的本质，如何一般化地解决这类问题上。这是数学的“大道”，我们不用过于在意那些小技巧，没必要耗时间去琢磨“鸡兔同笼”问题的108种解法，以至于拣了芝麻丢了西瓜~

这一段似乎有点偏离主题，但是我觉得很重要。把这些理清楚了，对大家如何定位数学，如何理解、学习数学都会有很大的帮助。否则，如果我们从小学到高中学了十几年的数学，却不知道数学是什么，那不是很悲催么？而且，这一段对于我们理解微积分的意义也会很有帮助。

15进击的微积分

好，现在微积分创立了，微积分的基本定理也被正式地提出来了，接下来应该再做什么呢？你该不会以为文章到这里就要结束了吧？不不不，还远远没有。

诚然，微积分基本定理的发现是这场革命里最核心的东西，相当于革命的指导思想。既然已经有了指导思想，那接下来要做的事情自然就是扩大战果，把这么优秀的思想扩散到各个领域里去啊。怎么扩呢？

首先，微积分基本定理的核心思想就是用求原函数的方式来解决求面积的问题，所以求一个函数的原函数就成了问题的核心。那么，我们自然就要研究各种常见函数的求导和求原函数的方法。

这些弄清楚之后，我们接下来就要问：由一些常见函数组成的复合函数，比如两个函数相加减、相乘除、相嵌套复合等时候要怎么求原函数？怎么求积分？再扩展一下，现在知道了如何求面积，那要怎样求体积，求曲线的长度呢？

这部分内容是我们最擅长的，也是我们考试的重点。它的核心就是熟悉各种前人总结下来的微积分技巧，多练习，熟能生巧，没什么捷径。但是，也要特别警惕把对微积分的学习完全变成了对这种技巧的训练，这样数学就真的变成了算术了。

此外，我强烈建议有抱负的同学不要急着打开微积分的课本直接去翻看这些问题的答案。我在前面已经把微积分的思想说了，大家完全可以看看自己能不能独立把这些问题推出来，实在没辙了再去翻课本，也就是孔子说的“不愤不启，不悱不发”。

像牛顿和莱布尼茨那样洞察“积分和微分是互逆运算”，然后提出微积分基本定理，这是一流科学家的素养。一流科学家提出这种重大创新之后，你能跟着把后面很自然的东西做完善，这是二流科学家的基本素养。大家在学习数学的时候要有意识地培养自己的这种能力~

然后，我们就可以把微积分的技术扩展到各种其它的领域了。比如，有了微积分，我就可以研究弯曲的东西，曲线、曲面什么的都可以研究。这就等于说是在用微积分来研究几何，这就是微分几何。后面我讲广义相对论的时候，这玩意就必不可少了。

有了微积分，我们发现很多物理定律都可以写成微分方程的形式，有多个变量的时候就是偏微分方程。我上三篇文章讲的麦克斯韦方程组、波动方程，后面要讲的广义相对论的场方程，都是这样。

有了微积分，我们就可以计算各种不同曲线的长度。那么，如何确定在特定条件下最短的那条曲线呢？这里就发展出了变分法，变分法配合最小作用量原理，在物理学的发展里起到了极为关键的作用。

所以，微积分在接下来的两个世纪里基本上就这样疯狂的扩张着。科学（尤其是物理学）的发展需要微积分，微积分也需要从科学里寻汲取营养，它们就这样相互促进、相互成长、相亲相爱。

16被忽略的无穷小

但是，似乎大家都忘了一个问题：此时微积分的基础并不牢固，莱布尼茨把dx视为一个无穷小量，但是无穷小量还是怎么说都说不圆。

一个接近于0又不等于0的无穷小量到底是个什么玩意？为什么你有时候可以把它当除数约掉（认为它不为0），有时候又随意把它舍弃（认为它等于0）？看数学史的时候也会觉得奇怪，像欧拉、拉格朗日、拉普拉斯、伯努利兄弟这些顶级数学家，居然都对这些问题视而不见。更让人奇怪的是，他们使用这种逻辑不严密的微积分居然没有出什么差错，只能说大佬们的直觉确实逆天。

因此，微积分最后的问题就是：如何使微积分严密化？如何把微积分建立在一个坚实的基础之上？

之所以把dx看成一个无限趋近于0却又不等于0的无穷小量，主要是因为这样做很直观。我们用很多矩形去逼近曲线围成的面积，矩形数量越多，每个矩形的宽度就越小。当矩形的数量变成“无穷多个”的时候，每个矩形的宽度就“理所当然”地变成了无穷小。这么看，无穷小量确实很直观，但是这里有什么问题呢？

当我说矩形的数量是一百个、一千个的时候，我是可以把它们都数出来的，我也可以把它们的面积之和都算出来。但是，当你说矩形的数量是无穷多个的时候，无穷多个是多少个？你能数出来么？你真的可以把无穷多个矩形的面积一一算出来，然后把它们加起来么？

有人可能觉得我在胡搅蛮缠。无穷嘛，那肯定是无法具体数出来、测出来的，也不可能真的把无穷多个矩形的面积一个个算出来再求和。但是我知道是那么个意思，是那么回事就行了。我测不出来，但是我能想出来，难道还不让我想了么？

对，还真就不让想了！

大家可能都知道，科学和哲学以前是一家的。因为纯粹的思辨在哲学里非常常见，所以以前的“科学”里就到处夹杂着这种“可以想但是无法测量的东西”，这就极大的限制了科学的发展。因为一个东西如果无法测量你就无法用实验去验证它，无法验证你就不知道它是对是错，你不知道对错那就只能以权威说了算。你没有证据还敢说权威不对，那就很麻烦了，所以亚里士多德的学说可以统治欧洲近两千年。

现代科学从哲学里分离了出来，一个标志性的操作就是：科学家们开始关注那些能够用实验测量到的量，对那些用实验无法测量的东西避而不谈。

伽利略是公认的“现代科学之父”，他的核心观点有两条：第一，用数学定量地描述科学；第二，用实验验证科学。所以，如果你谈的是现代科学，那你就不能乱想了。

如果你还想用一些无法测量的概念来构建你的“科学体系”，那么你的方法论就是非科学的，你构建的也只是玄学而非科学，这是很多民科非常容易犯的错误。庞加莱甚至直接说：“凡是不能测量的东西，都不能算是自然科学。”

这种思想在科学昌盛的19世纪已经很普遍了，诞生于这个时期的实证主义也指出：人类不可能也不必要去认识事物的“本质”，科学是对经验的描写。他们甚至提出口号要“取消形而上学”。

17柯西来了

总之，一切的一切就是不让你在科学里再谈那些无法测量，无法验证的概念，科学要基于实证。

那么，只能想却无法数，无法“观测”的无穷小量是不是这样的一个概念呢？虽然它很直观，但是你回顾科学的历史，反直觉的重大科学进步难道还少么？历史一次次地告诫我们：直觉不可靠，我们能依靠的只有严密的逻辑和确凿的实验。

在这样的大环境下，我们迎来了一位重要人物：柯西。

柯西深刻地认识到：只要涉及数学概念，任何关于连续运动的一些先验的直观观念，都是可以避免，甚至是必须避免的。科学放弃了形而上学方面的努力，采用“可观测”概念之后就迎来了大发展，那数学为什么不也这样呢？

无穷小量是一个无限趋近于0但是又不能等于0的概念，也就是说它有一个极限位置0，你可以想多接近就多接近，但就是无法到达。

我们知道实数跟数轴上的点是一一对应的。当我们说一个量在无限趋近于0的时候，很多人脑海里浮现的画面就是一个点在数轴上不停地移动，从一个点移动到下一个点，一直靠近0这个点。

但是这个图景是不对的，为什么？因为实数是稠密的。稠密就是说任意两个点（实数）之间永远都有无数个点（实数）（你自己想想是不是，1和2之间有多少个数？）。你以为它能从A点移动到邻近的下一个B点么？对不起，这个它真做不到！

A点和B点之间永远有无数个点，也就是说A点根本就没有所谓的“下一个点”。你认为我一定要走完了A点到B点之间所有的点才能到达B点，那就不可避免地会陷入到芝诺悖论里去。因为你压根就不可能走完任何两个点之间的所有点（因为是无穷多个），所以，如果按照这种逻辑，你就根本“走不动”，所以芝诺的飞矢就飞不动了。

因此，面对这种连续的概念的时候，我们就不应该使用这种“动态的”定义。你想通过“让一个点在数轴上动态地运动来定义极限”是行不通的，这就是莱布尼茨的无穷小量栽跟头的真正原因。

数学家们经过一百多年的探索、失败和总结，最后终于意识到了这点，这些思想在柯西这里完全成熟。于是，柯西完全放弃了那种动态的定义方式，转而采取了一种完全静态，完全可以描述测量的方式重新定义了极限，进而为微积分奠定了扎实的基础。

这里我把柯西对极限的新定义原封不动的贴出来：当一个变量相继的值无限地趋近某个固定值的时候，如果它同这个固定值之间的差可以随意地小，那么这个固定值就被称为它的极限。

有人看了这个定义之后就在犯嘀咕：这跟莱布尼茨说的不是一样的么？你还不是在用“无限趋近”啊，“随意的小”啊这种跟“无穷小”差不多的概念来定义极限么？你说以前的定义是动态的，柯西给整成了静态的，可是我看来看去，柯西这个定义好像也在动啊。什么无限趋近，随意的小，不是在动么？

有这些疑问是正常的，毕竟是让数学家们卡了一百多年的问题，不可能那么太“显而易见”。

我们再仔细看看柯西的定义，它跟以前的差别到底在哪？你看啊，柯西虽然也有用“无限趋近”，但是他只是用这个来描述这个现象，并不是用它来做判决的。他的核心判决是后面一句：如果它同这个固定值之间的差可以随意的小，那么它就是极限。

可以随意的小和你主动去无限逼近是完全不一样的。可以随意小的意思是：你让我多小我就可以多小。你让我小于0.1，我就能小于0.1；你让我小于0.01，我就能小于0.01；你让我小于0.00…001，我就可以小于0.00…001。只要你能说出一个确定的值，不管你说的值有多小，我都可以让它跟这个固定值的差比你更小。柯西说如果这样的话，那么这个固定值就是它的极限。

大家发现没有，柯西学聪明，学鸡贼了，他把这个判断过程给颠倒了过来。以前是你要证明自己的极限是0，你就不停地变小，不停地朝0这个地方跑过去。但是，你和0之间永远隔着无数个点，所以你永远也跑不完，你也就不知道你要跑到什么时候去，这样就晕了。

现在我学聪明了，这个难以界定的东西，这个烫手的山芋我不管了，我丢给你，我让你先说。只要你说出一个数，你要我变得多小我就变得多小。你如果想让我变成无穷小，那你就得先把无穷小是多少给我说出来，你说不出来的话那就不能怪我了。

完美甩锅！这就是柯西的核心思想。

柯西就通过这种方式把那些不可测的概念挡在了数学之外，因为你能具体说出来的数，那肯定就都是“可观测”的啊。大家再看看这个定义，再想想之前莱布尼茨的想法，是不是这么回事？

于是，柯西就这样完美的甩开了那个招人烦的无穷小量。在柯西这里，无穷小量不过就是一个简单的极限为0的量而已，一个“只要你可以说出一个数，我肯定就可以让我和0之间的差比你给的数更小”的量。这样我们就能把它说得清清楚楚，它也不再有任何神秘了。

18魏尔斯特拉斯和ε-δ极限

然后，魏尔斯特拉斯用完全数学的语言改进了柯西的这段纯文字的定义，得到了最终的，也是我们现在教材里使用的ε-δ极限定义。

根据柯西的思想，魏尔斯特拉斯说：你要判断某个函数f(x)在某个地方a的极限是不是某个值L，关键就要看如果我任意说一个数ε（比如0.00…001或者任意其它的，注意是任意取，这里用ε代替），你能不能找到一个x的取值范围（用δ来衡量），让这个范围里的函数值f(x)与那个值L之间的差（用套个绝对值的|f(x)-L|表示）小于ε。如果你总能找到这样的δ，那我就说函数f(x)在a点的极限为L。

用精练的数学语言表述上面的话就是：当且仅当对于任意的ε，存在一个δ>0，使得只要0<|x-a|<δ，就有|f(x)-L|<ε，那么我们就说f(x)在a点的极限为L。记做：

定义里的Lim就是极限的英文单词Limit的缩写，这个箭头x->a也非常形象地表达了极限这个概念。

这个定义就真正做到了完全“静态”，不再有任何运动的痕迹（连柯西说的“无限趋近”、“随意的小”都没有了），也不再有任何说不清的地方。从定义你也能清楚地看出来：它根本不关心你是如何逼近L的，飞过去、跳过去、爬过去的它都不管，只要最后的差比ε小就行，我就承认你是我的极限。

用一位伟人的名言翻译一下就是：不管黑猫白猫，能比ε还小的就是我的极限好猫。

这里要特别注意的是ε是任意的，任意就是说随便ε取什么你都要找到对应的δ，你不能说有10个ε满足条件就说这是极限。

看个例子，我们考虑最简单的f(x)=1/x。当x的取值（x＞0）越来越大的时候，这个函数的值就会越来越小：

f(1)=1，

f(10)=0.1，

f(100)=0.01，

f(1000)=0.001，

……

看得出来，当x的取值越来越大的时候，f(x)的值会越来越趋近于0。所以，函数f(x)在无穷远处的极限值应该是0，也就是说：

这个结论是很明显的，接下来我们就来看看如何用ε-δ定义来说这个事。

按照定义，我们要取一个任意小的ε，假设这里我们取ε=0.1，那么我们就要去找一个δ，看能不能找到一个范围让|f(x)-0|<0.1，显然只需要x>10就行了；取ε=0.01，就只需要x>100就行了；任意给一个ε，我们显然都能找到一个数，当x大于这个数的时候满足|f(x)-0|<ε，这样就OK了。

于是，我们就构建了一个逻辑严密，不再有任何“说不清”概念的极限理论。有了这个坚实的地基，我们就可以放心地在上面盖房子了。那个漂泊了一百多年，那个被幽灵般的无穷小量缠绕了一百多年的微积分，即将迎来新生。

19积分的重建

先看积分，我们之前认为曲线围成的面积是无数个宽度为无穷小量的矩形面积之和，于是我们在这里就被无穷小量缠上了。有了ε-δ极限之后，我们就可以刷新一下我们对积分的认知了：从现在起，我们把曲线围成的面积看成是一个极限，而不再是无数个无穷小量的矩形面积之和。

什么意思？假设我们用1个矩形逼近曲线围成的面积的时候，我把这一个矩形的面积记做S1，用两个矩形逼近的面积之和记做S2，同样的，我们记下S3，S4，S5……

一般情况，如果我们用n个矩形去逼近这个面积，这n个矩形的面积之和就记做Sn。如果这个Sn的极限存在，也就是说，随便你说出一个数字ε，我都能找到一个n的范围，让Sn和A之间的差|Sn-A|小于你给定的这个数字ε。那么，A就是这个Sn的极限。

于是，我们就说：曲线围成的面积就是这个极限A，它是n个矩形面积之和这个序列Sn的极限。

所以，我们就把这个极限过程表示的面积A定义为函数f(x)从a到b上的积分：

这样，我们的积分就成了一个由ε-δ语言精确定义的极限。这里没有那个等于0又不等于0的无穷小量，一切都清清楚楚、明明白白，没有含糊的地方，这就是第二次数学危机的终极解决之道。

这样处理虽然不再那么直观，但是它非常精确和严密，这是符合数学的精神的。直观虽然能帮助我们更好的感受数学，但是如果失去了严密性，数学将什么都不是。

20导数的重建

积分解决了，微分这边也是一样。有了ε-δ定义之后，我们就再不能把导数看成是两个无穷小量的比值（dy/dx），而是：把导数也看成一个极限，对，还是极限。

这个理解起来相对容易，函数在某一点的导数就是这点切线的斜率。我们前面也说了，切线就是当割线的两点不停地靠近，当它们的距离变成无穷小时决定的直线。

很显然，这个定义是依赖无穷小量的，我们现在要用ε-δ定义的极限来代替这个无穷小量。所以，切线就应该被理解为割线的极限，那么切线的斜率（也就是这点的导数）自然就是割线斜率的极限，所以导数f(x)’也自然而然地成了一个极限。

由于割线的斜率就是用这两点的纵坐标之差f(x+Δx)-f(x)除以这两点的横坐标之差（x+Δx-x=Δx），而导数f(x)’是割线斜率的极限。那么，我们在割线斜率的前面加一个极限符号就可以表示导数f(x)’了：

这才是导数的真正定义，它是一个极限，而不再是两个无穷小量dy与dx的商dy/dx。也就是说，按照极限的ε-δ定义，这个导数f(x)’的真正含义是：你任意给一个ε，我都能让割线的斜率与这个值的差比你给的ε更小。

我反复强调ε-δ定义的含义，就是希望大家能真的从这种角度去理解极限，思考极限，逐渐放弃那种“无限动态趋近某个点”的图景。思维一旦形成定势，想再改过来是非常困难的，所以我们得经常给自己“洗脑”，直到把新理论的核心思想洗到自己的潜意识里去，这样才算真正掌握了它。

我以前讲相对论的时候，很多人在讲相对论时能切换到相对论思维，但是平常一不留神就又跌回到牛顿的思维里去了。然后就闹出了一堆悖论、佯谬和各种奇奇怪怪的东西，这里也一样。

21微分的重建

莱布尼茨当年认为导数是两个无穷小量dy和dx的商，所以他用dy/dx来表示导数。虽然现在导数不再是这个意思，但是莱布尼茨当年精心发明的这一套符号确实是非常好用，于是我们就继续沿用了下来。

也就是说，我们今天仍然用dy/dx表示导数，但是大家一定要注意，dy/dx在现代语境里是一个极限，不再是两个无穷小量的商。

如果不熟悉微积分的历史，就很容易对这些符号产生各种误解，这也是很多科普文、教科书在讲微积分时的一大难点。因为思想是新的，符号却是老的，确实很容易让人犯糊涂。

于是，在莱布尼茨那里，他是先定义了代表无穷小量的微分dx和dy，然后再用微分的商定义了导数dy/dx，所以那时候导数也叫微商。

但是现在剧情完全反转了：我们现在是先用ε-δ定义了极限，然后从极限定义导数dy/dx。这里压根没有微分什么事，只不过由于历史原因我们依然把导数写成dy/dx这个样子。

那么，dx和dy这两个之前被当作无穷小量的微分的东西，现在还有意义么？

答案是有意义！

这个dx和dy还是有意义的，当然，有意义也肯定不可能再是以前无穷小量的意思了。那么，在ε-δ极限这种全新的语境下，dx和dy在新时代的意义又是什么呢？请看下图：

蓝色切线的斜率表示在P点的导数，如果我们继续用dy/dx表示导数的话，那么从图里就可以清楚的看到：dx表示在x轴的变化量，dy就刚好表示蓝色的切线在y轴的变化量。

也就是说，当自变量变化了Δx的时候，Δy表示实际的曲线的变化量，而微分dy则表示这条切线上的变化量，这就是新的语境下函数微分dy的含义。而自变量的微分dx，大家可以看到，就跟x轴的变化量Δx是一回事。

由于切线是一条直线，而直线的斜率是一定的。所以，如果我们假设这条切线的斜率为A，那么dy和Δx之间就存在这样一种线性关系：dy=A·Δx。

这些结论都可以很容易从图中看出来，但是，一个函数在某一点是否有微分是有条件的。我们这里是一条很“光滑”的曲线，所以在P点有微分dy，也就是说它在P点是可微的。但是，如果函数在P点是一个折点，一个尖尖的拐点呢？那就不行了。因为有拐点的话，你在这里根本就作不出切线来了，那还谈什么Δy和dy？

关于函数在一点是否可微是一个比较复杂（相对科普的复杂~）的问题，判断曲线（一元函数）和曲面（二元函数）的可微性条件也不太一样。直观地看，如果它们看起来是“光滑”的，那基本上就是可微的。

微分的严格定义是这样的：对于Δy是否存在着一个关于Δx为线性的无穷小A·Δx（A为常数），使它与Δy的差是较Δx更高阶的无穷小。也就是说，下面这个式子是否成立：

o(Δx)就表示Δx的高阶无穷小，从字面上理解，高阶无穷小就是比无穷小还无穷小。当Δx慢慢趋向于0的时候，o(Δx)能够比Δx以更快的速度趋向于0。比如当Δx减小为原来的1/10的时候，o(Δx)就减小到了原来的1/100，1/1000甚至更多。

如果这个式子成立，我们就说函数y=f(x)在这点是可微的，dy=A·Δx就是函数的微分。因为这是一个线性函数，所以我们说微分dy是Δy的线性主部。

这部分的内容好像确实有点乏味，莱布尼茨时代的微分dy就是一个接近0又不等于0的无穷小量，理解起来非常直观。但是，我们经过ε-δ的极限重新定义的函数的微分dy竟然变成了一个线性主部。这很不直观，定义也挺拗口的，但是这样的微积分才是现代的微积分，才是基础牢固、逻辑严密的微积分。

为了让大家对这个不怎么直观的微分概念也能有一个比较直观的概念，我们再来看一个非常简单的例子。

我们都知道半径为r的圆的面积公式是S=πr²。如果我们让半径增加Δr，那么新的圆的面积就应该写成π（r+Δr）²，那么，增加的面积ΔS就应该等于两个圆的面积之差：

大家看到没有，这个式子就跟我们上面的Δy=A·Δx+o(Δx)是一模一样的。只不过我们把x和y换成了r和S，A在这里就是2πr，这里的π（Δr）²是关于Δr的平方项，这不就是所谓的高阶（平方是2阶，Δr是1阶，2比1更高阶）无穷小o(Δx)么？

所以，它的微分ds就是2πr·Δr这一项：

它的几何意义也很清楚：这就是一个长为2πr（这刚好是圆的周长），宽为Δr的矩形的面积，好像是把这个圆“拉直”了所得的矩形的面积。

好了，微分的事情就说到这里，剩下的大家可以自己慢慢去体会。毕竟这是一篇关于微积分的科普文，再写太多就成教材了。

22收官的勒贝格

关于微积分的重建，我们已经看到了如何在ε-δ定义的新极限下重新定义了积分和微分，也看到了在这种新的定义下，积分和微分的概念跟以前有什么不同。沿着这条路，我们还能非常严格的证明微积分基本定理，也能很好地处理连续性、可微性、可导性、可积性等问题。虽然在具体的计算方式上跟以前的差别不大，但是微积分的这个逻辑基础已经跟以前发生了翻天覆地的变化，这个差别大家要仔细体会。

在魏尔斯特拉斯给出极限的ε-δ定义之后，微积分的逻辑问题基本上解决了，但还有一些其它的问题。比如，有了微积分，数学家们当然就希望尽可能多的函数是可以求出积分的，但是你像来砸场子的狄利克雷函数（x为有理数的时候值为1，x为无理数的时候值为0）就没法这样求积分。

不信你想想，一个在有理数为1，无理数为0的函数你要怎么去切块？它在任何一个地方都是不连续的，你甚至连它的图像都画不出来，怎么用矩形去逼近？所以，这里就有一个棘手的问题：一个函数到底要满足什么条件才是可以求积分的呢？

这个问题一直拖到20世纪初才由大神勒贝格解决。勒贝格把我们常见的长度、面积概念做了一个扩展，得到了更一般的测度的概念。然后，他基于这种测度定义了适用范围更广的勒贝格积分，于是，原来无法求积分的狄利克雷函数在勒贝格积分下就可以求积分了。然后，勒贝格基于测度的理论也给出了一个函数是否可积的判断条件，完美收官！

于是，我们这段跨越两千多年，从阿基米德到勒贝格的微积分之旅就要告一段落了。

23结语

古希腊人和古代中国人都知道用已知的多边形去逼近复杂曲线图形，阿基米德用穷竭法算出了一些简单曲线围成的面积，刘微用正多边形去逼近圆，也就是用割圆术去计算圆周率。

牛顿和莱布尼茨发现了“微分和积分是一对互逆运算”这个惊天大秘密，正式宣告了微积分的诞生。

柯西和魏尔斯特拉斯用ε-δ语言重新定义了极限，把风雨飘摇中的微积分重新建立在坚实的极限理论基础之上，彻底解决了幽灵般的无穷小量的问题，解决了第二次数学危机，也在数学领域解决了芝诺悖论。

勒贝格基于集合论，对积分理论进行了一次革命，建立了定义范围更广的勒贝格积分，并且进一步把这场革命推进到了实分析。

我的文章虽然以勒贝格结尾，但这丝毫不代表微积分在勒贝格这里就走向了完结，即便这时候已经是20世纪初了。

20世纪60年代初，有一个叫鲁滨逊的德国人重新捡起了莱布尼茨的无穷小量。他把实数扩展到非实数，直接把无穷大和无穷小变成了非实数域里的一个元素。所以他的理论可以直接处理无穷小量，这是第一个严格的无穷小理论。

我们知道，幽灵般的无穷小量在微积分建立初期掀起了腥风血雨，后来经过柯西和魏尔斯特拉斯的拼命抢救，才终于在坚实的ε-δ极限理论之上重建了微积分。柯西和魏尔斯特拉斯的这一套让微积分严密化的方法被称为标准分析。

而鲁滨逊认为，无穷小量虽然不严谨，但是大家基于无穷小量做的微积分计算却也都是正确的，这至少表明无穷小量里应该也包含着某种正确性。ε-δ极限是一种绕弯解决无穷小量不严谨的方法，但是这种方法并不是唯一的。鲁滨逊选择直接面对无穷小量，直接建立了另一种让微积分严密化的方法。因此，与柯西和魏尔斯特拉斯的标准分析相对，鲁滨逊的这种方法被称为非标准分析。

提出了不完备定理的数学大神哥德尔就对非标准分析推崇备至，他认为非标准分析将会是未来的数学分析。他说：“在未来的世纪中，将要思量数学史中的一件大事，就是为什么在发明微积分300年后，第一个严格的无限小理论才发展起来。”

我们现在就处在哥德尔说的未来的世纪中，各位看官对这个问题有没有什么看法呢？如果我的这篇文章能够让大家对微积分，对数学感兴趣，进而开始自己独立的思考这些问题，那就善莫大焉了~

此外，我希望长尾科技的这篇文章也能多多少少改变一下大家对数学的看法：数学不等于计算，数学也不等于应用，绝妙而深刻的数学思想（比如发现微分和积分是互逆过程）和严密的逻辑（如使用ε-δ定义极限）反而是更重要的。而且，数学的壮观之美也往往需要站在后面两个角度上才能体会到，我很难相信有人会觉得重复的做计算是很有趣的，这也是很多人不喜欢数学的原因。

但是，我绝对相信那些真正认识了数学的人，他们是发自内心的觉得数学美丽动人。

并不是那些数学大神们很奇怪，而是他们确实看到了常人没能看到的绝美风景。

收起阅读 »

什么是高中物理？

中学物理高中物理

很多同学初中时很喜欢物理，觉得物理很简单也很有意思。但一到高中就感觉跟不上了，感觉跟自己以前认识的物理不是一个东西，不再那么直观，也不再那么简单有趣。于是，在一些可以自由选择高考科目的地方，大量考生纷纷放弃物理，“弃考物理”曾一度成为热门话题而引发全国关注。但...

继续阅读 »

很多同学初中时很喜欢物理，觉得物理很简单也很有意思。但一到高中就感觉跟不上了，感觉跟自己以前认识的物理不是一个东西，不再那么直观，也不再那么简单有趣。

于是，在一些可以自由选择高考科目的地方，大量考生纷纷放弃物理，“弃考物理”曾一度成为热门话题而引发全国关注。

但是，物理学作为自然科学的基础学科，研究大至宇宙，小至基本粒子等一切物质最基本的运动形式和规律。要铸大国重器，少了物理怎么行？要是都不学物理，那不用三体人，自己就把自己的科技树锁死了。

于是，许多地方改变了高考策略，改为理科生必选物理。

这种改变在长尾君看来无可厚非，理科生要是不学物理，那还叫啥子理科生？但是，追根溯源，我们还是得问：为什么很多原本喜欢物理的人，一到高中就不喜欢物理了？仿佛一到高中，物理就变得又难又无趣，跟初中物理不是一个物种似的。

其实，物理一直都是很美并且很有趣的。

但是，高中物理和初中物理的确有点不一样。如果不能及时认识到这点，还一直用初中物理的思维学习高中物理，那肯定会各种不适应，觉得物理又难又无趣，那就不好玩了。

在这篇文章里，长尾君就来跟大家好好聊一聊，一起看看高中物理跟初中物理到底有什么区别？看看如何理清高中物理框架，如何建立清晰的物理图像。

如果你初中刚毕业，希望你能迅速调整自己的思维；如果已经高二高三，希望这个对你重新理解物理，对你复习备考有帮助；如果还是初中生、小学生，打个预防针也不错~

01从定性到定量

高中物理和初中物理有一个非常大的不同：很多物理问题在初中只要你做定性的分析，到了高中就要你做定量的计算。

从定性分析到定量计算是一步非常大的跨越。

在初中，我们只需要定性地分析那些热学、光学、力学、电磁学的现象。

分析水为什么会变成冰和水蒸气？为什么会听到回声？为什么苹果往下落，水往低处流？为什么磁铁会同性相斥、异性相吸？为什么筷子在水里会折断？

这种定性分析跟日常生活联系得非常紧密。我们每学一点物理知识，就仿佛揭开了大自然某处的面纱，好奇心和求知欲在这个过程中得到了极大的满足。

这种初见物理的朦胧美，一如初见的恋人。人生若只如初见，那谁都可以跟物理谈恋爱。

恋爱期间我们可以靠对电、磁、力、热、光等领域的新鲜感来维持关系；婚后就要靠对柴米油盐酱醋茶、房贷、车贷精打细算来维系生活。

于是，进入高中，我们就要对力学、电磁学等领域进行精确的定量计算。

初中我们只要知道为什么苹果会往下落；高中就要能算出苹果1秒钟下落了多高，2秒后的速度是多少。

初中我们只要知道电荷同性相斥，异性相吸；高中我们就要知道两个电荷相距1米，它们的吸引力和排斥力到底有多大。

初中我们只要知道电荷在电场中会加速运动；高中我们就要算出电荷的运动的具体轨迹。

这样，大家明白从初中物理到高中物理到底发生什么了么？

是的，从恋人变成了夫妻。话题从以前的梦想环游世界，变成了计算下个月的房贷、车贷有多少，计算年终奖发多少可以去欧洲旅游。

现在你知道为什么很多人初中喜欢物理，到了高中就突然不喜欢物理了吧？没错，跟很多人想一直谈恋爱不想结婚一个道理~

但是，物理学是研究一切物质的运动形式和规律的学科，我们当然不能只满足于对物理现象做一些定性分析。

我们从自然界总结出了各种物理定律，再利用这些定律去改造自然。这可是一丁点差错都不能有的，必须进行精确的定量计算。

那么，做定量计算就不简单也不美了么？

如果我们可以算出每个物体的运动情况，对宇宙中所有物体的运动规律都了如指掌。这种开了上帝视角，这种宇宙万物尽在我心中的感觉，绝不是那种初见的朦胧感能比的。

如果你把物理图像都看清楚了，把物理框架建起来了，你会发现高中物理的定量计算其实一点也不难（我以前在小号写过一篇《如何引导初中生做定量的物理计算？|长尾谈话录》，感兴趣的可以先看看）。

好，接下来，我们就回到物理学的起点，再重新认识一次物理。

02为什么会运动？

宇宙万物都在运动和变化之中，物理学就是要研究它们的运动变化规律，研究它们为什么会运动，怎样运动？

我们能看见物体，是因为光子跑到眼睛里来了；我们能听见声音，是因为声波通过空气传入了耳朵；我们能接听电话，是因为有电磁波在给我们传递信息；至于苹果熟了会下落，推下椅子，椅子就会动就更不用说了。

如果没有运动，世界将是一片死寂，那也没物理学啥事了。

既然运动是如此的普遍和显然，那物体为什么会运动呢？

咋一看，这个问题好像很好笑，但仔细一想，你会发现它远没有想象的那么简单和理所当然。

为什么苹果往下落，热气球却往天上飞？我推一下椅子，椅子就往前走，一松手椅子就停了，难道有外力物体才会动？一个铁球比一根羽毛落得更快，是因为铁球更重一些么？

这些问题是如此的平常，但回答起来却异常的困难。古希腊时期很多自然哲学家都思考过这些问题，但答案都不太令人满意。

比如你想，我推椅子，椅子就动了。这个好理解，通过接触传递力也很容易接受。

但是，苹果下落时，并没有东西跟它接触啊，为什么它还会运动呢？热气球上升时，也没有东西跟它接触，为什么它也跟着运动？

而且，为什么苹果往下运动，热气球却往上运动呢？难道说重物都往下落，轻物都往天上飞？

这里，肯定有些同学想说：苹果下落是因为受到了向下的引力，热气球上浮是因为受到了向上的浮力。

很多家长在回答孩子的问题时，也喜欢直接这样甩答案。这答案虽然没错，但它过于从天而降。孩子们通过这种答案只能获得一个零碎的知识点，无法了解背后的知识体系，也无法体会科学是如何建立起来的。

古希腊人对自然界进行了细致地分析和深入的哲学思考，最后形成了一套自洽的自然哲学体系。

在这个过程中，出力最多、处于核心地位的是亚里士多德，我们姑且把这一整套看待世界的观点称为亚里士多德世界观。

这套观点认为，地球是宇宙的中心，日月星辰都围着地球转。

地球上的物质由水、火、土、气四种基本元素组成。土元素天然会向宇宙中心运动（所以石头会掉下来），水元素也天然向宇宙中心运动，但这一趋势比土元素弱（所以水也会往下运动，但在土的上面），气元素天然向水和土以上运动（所以水里的气泡会往上面冒），火元素有一种天然远离宇宙中心的趋势（所以火在空气中向上燃烧）。

一个物体如果趋于静止，要么是组成这个物体的元素已经达到了它在宇宙中的自然位置（比如水和土到了地球中心），要么是被其他东西（如地球表面）挡住了。

一个静止的物体会一直保持静止，除非它有其它的运动来源（要么是自己趋于宇宙自然位置的运动，要么是外界给了力，比如我推桌子）。

其它观点我就不一一列举了，大家看了之后有什么感想？

你有没有感觉，虽然这些观点在今天看起来很“幼稚”，但它却是一套自洽的体系。它能把自己的话圆回来，不会自相矛盾；它也能解释为什么物体会运动，能比较好的解释古人看到的各种现象。

甚至，对小孩子来说，这一套更符合“常识”，更容易被理解和接受。

但是，这并不是科学，而是自然哲学，真正的科学此时还没有诞生。亚里士多德世界观还要统治欧洲近两千年，一直到伽利略的出现。

03伽利略的发现

伽利略认为，我们不能只对运动做定性的分析，还要做定量的计算。

我们应该用数学定量地描述物体的运动，再用实验去验证，而不再讨论诸如物体的目的、本性这种形而上，无法量化的东西。

这就意味着，伽利略放弃了古希腊以来的自然哲学传统，正式创立了以数学和实验为根基，以“描述自然现象”为任务，而不是尝试去“解释自然现象本质”的现代科学。

重物会下落，那我就看看它是怎么下落的，第1秒下落了多高，第2秒下落了多高，找找规律。

你说物体越重下落得越快，那我就来做实验，看看一个重铁球和一个轻铁球是不是如此。

你说所有的物体达到它的自然位置之后就会趋于静止，那我就来做实验看看到底是不是这么回事。

做了一堆实验之后，伽利略大惊失色，他发现事情根本不是原来想的那样。感觉靠不住，我们得用实验说话。

首先，伽利略从一系列斜坡实验中发现：一个物体是否运动，跟它有没有受力没有直接关系，运动不需要外力来维持。

他设计了一个光滑的斜坡，发现不管我从左边多高的地方放下小球，小球基本上都能回到右边相同高度的地方。

进一步，我们减小右边的坡度，让右边越来越平。那么，为了回到同样的高度，小球就得运动更远的距离。

最后，我把右边的斜坡完全放平，那右边就变成了一个平面，高度永远不变了。这样，无论小球运动多久，运动多远，都不可能再回到左边的高度。

永远回不到左边高度的意思是：小球会一直匀速直线运动下去（假设地面绝对光滑）。

这就像在溜冰场，地面越光滑，你就能一次性滑得越远。如果地面绝对光滑，你就会永远停不下来，直到碰到其它障碍物。

通过这个实验，伽利略发现运动本身并不需要力来维持，物体不受任何外力作用时也能保持匀速直线运动的状态。

那么，力的作用到底是什么呢？我用力推椅子，椅子的状态确实改变了，也确实好像是我用的力气越大，椅子的速度就越大。

伽利略针对这些问题做了进一步研究，最后发现：力不是维持物体运动的原因，而是改变物体运动状态的原因。

也就是说，维持物体的运动不需要力，但改变物体的运动就需要力了，力还是非常有用的。

小钢球在绝对光滑的地面上能一直匀速直线运动，速度的大小和方向都不变。但如果我用力推小球，小球的速度就会改变。

伽利略的工作非常重要，他不仅开创了现代意义上的科学，指明了科学研究的基本方法。也身体力行，发现了大量物体运动的基本规律，给后人指明了方向。

04牛顿力学

接下来，牛顿就在这些工作的基础上，建立了一整套描述物体运动的理论。这就是大名鼎鼎的牛顿力学，也是高中物理的核心。

牛顿力学有三大运动定律，理解了伽利略的发现，你就会觉得这些定律非常自然。然后你会发现：通过这些定律，我们竟然真的可以描述物体的各种运动。

所谓定律，就是科学家通过做各种实验，从实验现象里总结出来的规律，它的正确性由实验保证。定律是无法通过数学公式“推导”或者“证明”出来的，那些证明出来的叫定理。

数学家会预设一些最基本的公理（比如欧式几何的5条几何公理），然后从这些公理出发，通过逻辑演绎证明各种定理，构建起一座座坚固的数学大厦。

因为数学并不用对现实世界负责，所以公理的选择具有很大的任意性。你可以选这几条作为公理，推出一套数学体系；也可以选那几条作为公理，推出另一套数学体系。

只要体系内部不自相矛盾，两者都可以。就像欧式几何和非欧几何虽然在第五公设针锋相对，但它们却可以和谐共存。

但是，物理学是要对现实世界负责的，所以根基不能随便选。它一定要符合实验，符合从自然界观测的结果。

而定律就是从各种实验现象里总结出来的规律。因此，有些物理学家就以定律为根基，建立了一套理论体系，比如牛顿力学。

还有一些物理学家以原理为根基建立了理论体系，比如爱因斯坦的相对论。甚至，整个物理学都可以从最小作用量原理导出来。

原理并不是从某个具体实验总结出来的具体定律，而是大家从大量物理规律中总结出来的一些普遍成立的东西。这些原理对物理定律的形式有非常严格的限制，成了“管定律的定律”。

这样说，大家就明白牛顿的三大运动定律是什么地位了吧？它们是牛顿力学的根基，决定了牛顿力学的基本骨架。

下面，我们就来看看这三大定律到底都说了什么。

05牛顿第一定律

牛顿第一定律：物体在不受力，或者受到的合外力为0时，它将保持静止或者匀速直线运动（即速度的大小和方向都不变）。

牛顿第一定律也叫惯性定律，它告诉我们“运动并不需要力来维持”。如果物体受到的合外力为0，那它之前是什么速度，后面就依然是什么速度。

为什么它还有一个名字“惯性定律”呢？惯性在英文里跟惰性是同义词，就是懒的意思。

所以，惯性定律就是说所有的物体都很“懒”，像懒猪一样，都不愿意主动改变自己的运动状态。

如果我现在没动，那就打死不动，除非你用力推我；如果我现在有一个速度，那就一直以这个速度无脑前进，除非有力拦着我。

喜欢科幻电影的朋友肯定对这个画面不陌生：一个宇航员不小心弄断了连接飞船的绳子，然后大家就只能眼睁睁地看着这个宇航员以这个速度飘向太空深处。

因为太空中没有其它外力拦住他，所以他就只能遵守惯性定律“懒”下去，一直以这个速度飘走（虽然他是如此的不愿意）。

这也说明，没有力，宇航员照样可以运动，力的确不是维持物体运动的原因。

那么，力的作用到底是什么呢？伽利略在后半句里说了：力是改变物体运动状态的原因。

也就是说，虽然运动本身不需要力来维持，但是，如果你想改变运动状态，比如宇航员不想飘向太空深处，想回到飞船，这就需要一个外力来拉一把。

好，知道力可以改变物体的运动状态之后，我给你一定的力，你的速度能改变多少呢？

想要把这个账定量地算清楚，我们就需要牛顿第二定律。

06牛顿第二定律

怎么算呢？

首先，既然力可以改变物体的速度，那我们首先就得找一个物理量来描述物体速度的变化。比如，汽车现在的速度是2m/s，1秒后变成了4m/s，那它的速度就在1秒钟之内变化了4-2=2m/s。

为什么汽车的速度会变化呢？

当然是发动机的牵引力让汽车的速度发生了改变，换成马车就是马的拉力让车的速度改变了。既然速度发生了改变，那肯定就有什么力作用在它身上。

那么，力的大小跟速度的变化有什么关系呢？是力越大，速度的变化就越大么？

咋一看好像没问题。我用两匹马拉车，1秒内可以让马车加速2m/s；如果有四匹马，或许1秒内就能让马车加速4m/s。

但是，就算我只有一匹马，如果时间给够，比如60秒，那马车完全有可能增加更多的速度。

所以，光比速度的变化量是不公平的，我们还要限定时间：在一定的时间内（比如1秒钟）让物体的速度变化越大（也就是速度变化得越快），才能说明受到的力越大。

因此，我们有理由相信：合外力越大，物体的速度变化得越快。而单位时间内物体速度的变化量，正是加速度的定义。

也就是说，我们用加速度这个物理量来描述物体速度变化快慢的程度。

如果物体的速度不变，那它的加速度等于0；如果物体的速度在1秒内从2m/s增加到了4m/s，那它的加速度就是2m/s²；如果物体的速度在2秒内从1m/s增加到了7m/s，那么它的加速度就应该是（7-1）/2=3m/s²。

好，现在我们知道了：物体受到的合外力越大，它的速度变化得越快，加速度越大。

那么，还有其它影响加速度的因素么？同样是一匹马，一个拉自行车，一个拉大卡车，你觉得它们的加速度会一样么？

很显然，物体的加速度不仅跟合外力有关，还跟质量有关：质量越大，同等拉力下获得的加速度越小，反之越大。

有这样的铺垫，牛顿第二定律就呼之欲出了。

牛顿第二定律：物体的加速度a跟物体受到的合外力F成正比，跟物体的质量m成反比，写成公式就是F=ma。

于是，我们就引出了牛顿力学里最重要的一个公式，整个高中物理都可以说是在学习F=ma在各种情况下的应用。

牛顿第二定律也让我们有了一个全新的视角来审视“质量”这个概念。

惯性定律不是说“万物都很懒”么？没有外力推，一个个都打死不改变自己的运动状态。

但是，虽然大家都很“懒”，但是“懒”也分三六九等。有的物体是轻微的懒，轻轻一推就改变了运动状态；有的是极品的懒，用八抬大轿都抬不动。

那么，如何判断一个物体是一丢丢懒，还是非常懒呢？答：根据质量。

因为牛顿第二定律告诉我们，一个物体的质量越大，同等外力下产生的加速度就越小，即运动状态变化得越慢，这不就是更懒的意思么？

所以，质量就成了一个衡量物体运动状态改变难易程度的物理量。质量越大，越胖，越不想动，想想好像真的好有道理。

从这个角度，大家再来感受一下牛顿第二定律F=ma：外力（F）想改变物体的运动状态（a），但质量（m）越大，物体越懒，越坚持自我，越难被外力（F）所改变。

所以，内心越强大，越难被外界的诱惑所改变；质量越巨大，越难被外力的压迫所改变~

最后，再顺带看一下牛顿第三定律。

牛顿第三定律：相互作用的两个物体作用力和反作用力大小相等，方向相反（牛顿的原话是“每一个作用都有一个相等的反作用”，并没有提到“力”。但因为我们在讨论牛顿力学，所以教材里就直接用作用力和反作用力来表述，方便理解）。

这很好理解，比如我用力推一下墙，就会感觉墙也用力推了一下我，这两个力大小相等，方向相反。

好，理解了牛顿的三大运动定律，就理解了牛顿力学的根基，然后就可以分析万物的运动情况了。

07物体如何运动？

宇宙万物到底是如何运动的？隐藏在运动背后的规律又是什么？之前有很多人回答过这些问题，但答案都不太令人满意。

现在，牛顿同学递交了他的答卷，一份令人非常满意的答卷。

答卷的主体就是牛顿三大运动定律，它的核心思想是：如果物体不受外力（或者合外力为0），它将一直保持原来的速度。如果合外力不为0，它的速度就会改变，即具有一定的加速度。想知道加速度到底是多少，就用牛顿第二定律F=ma去计算。

例如，为什么茶杯在桌子上静止不动？因为茶杯受到了一个向下的重力，和一个来自桌面的向上的支持力，这两个力大小相等方向相反。

因此，茶杯受到的合外力为0，所以茶杯就静止不动。

为什么我推一下椅子，椅子就动了呢？

因为我推椅子时，椅子在水平方向上受到了一个推力，合外力不为0。根据牛顿第二定律F=ma，这个合外力会让椅子产生一个加速度，于是椅子就动起来了。

为什么松手之后，椅子会慢慢停下来呢？

因为松手之后，推力没有了，椅子在水平方向上受到的合外力就只有来自地面的摩擦力（摩擦力一直都在，但之前比推力小）。摩擦力与椅子运动的方向相反，因此会产生一个让椅子减速的加速度，于是椅子就慢慢停了下来。

为什么苹果熟了会往下落呢？因为苹果没熟时，苹果受到了一个向下的重力和一个树枝向上的拉力，这两个力大小相等方向相反。所以，苹果受到的合外力为0，于是保持静止。

苹果熟了以后，树枝承受不了苹果的重量，就跟苹果分离了。于是，苹果受到的合外力就只有向下的重力。根据F=ma，苹果会有一个向下的加速度，因此苹果会加速往地面掉落。

为什么月亮会围着地球转呢？因为地球和月亮之间有一个万有引力，月亮受到的合外力就是这个引力。根据F=ma，月亮会有一个加速度，这个加速度不断改变速度的方向，让月亮围着地球转。

为什么电荷在电场中会运动呢？因为电荷在电场中会受到一个电场力，此时电荷受到的合外力就是这个电场力。根据F=ma，电荷会有一个加速度，于是电荷开始加速运动。

为什么会潮起潮落？因为月亮对海水有一个吸引力，这个吸引力会给海水提供一个加速度。当地球转动时，这个加速度也会跟着变化，于是……

这些例子我可以给你无限列举下去，但是你发现没有，我用来解释物体为何这样运动的“套路”都是一样的：都是先看物体受到了什么力，把合外力F找出来，再利用F=ma求出物体的加速度a，最后根据加速度分析物体的运动情况。

来来去去就这三板斧，一套组合拳包打天下，这就是牛顿力学。

08从运动到受力

所以，大家现在明白为什么牛顿第二定律F=ma这么重要了么？

因为这个公式的左边代表了物体的受力情况（合外力F），右边代表了物体的运动情况（加速度a），F=ma则把物体的受力情况和运动情况紧密地联系在了一起。

物理学要研究万事万物的运动情况，牛顿第二定律F=ma告诉你：小伙子，想知道物体是怎么运动的吗？那就去看看它受到了什么力吧。我传你一套祖传秘籍F=ma，只要你告诉我它受到了什么力，我就能告诉你它将如何运动。

有了牛顿第二定律的神助攻，我们研究万事万物如何运动的宏伟目标，就变成了研究万事万物都受到了什么力。

那么，世界上都有些什么力呢？面对各种各样的力，我们又要如何研究呢？

答案是：先分类，再各个击破。

我们先对所有的力逐一盘问：你导致物体的运动状态发生了这样的改变，你是什么力？

就像提着一袋垃圾走向分类垃圾桶时，经常也会收到的问候一样：你是什么垃圾？

然后，我们就坐在力的分类桶前面开始审查：你让苹果加速下落，是引力，去1号桶；你让月亮围着地球转，还是引力，也去1号桶；你让杯子无法穿透桌面掉下去，是支持力，本质上是电磁力，去2号桶；你让原子核里的质子、中子没有因为电磁斥力散架，是强力，去3号桶……

科学家就这样对各种运动现象逐一考察，找出它们背后的力，然后对这些力进行分类。

最后你猜结果怎么着？

最后，大家惊奇地发现：只要4个桶，不用成百上千，也不要十个八个，只要4个桶就能把人类迄今为止发现的所有力都装进去。

什么意思？意思就是我们对各种力进行分类，发现力的数量虽然多，但种类却很少，只有区区4种（不过科学家还是觉得多，他们巴不得只有1种才好），这4种力分别是：引力、电磁力、强力、弱力。

这就非常有意思了。

你看啊，牛顿第二定律告诉我们：如果你想研究物体的运动情况，就去分析它的受力情况。知道了受力情况，就能通过F=ma求出它的加速度，进而知道它的运动情况。

一开始看到这段话，很多人可能觉得这是在转移矛盾，觉得这无非就是把锅从运动情况甩到受力情况这边来了，并没有实质性地解决问题。

但是，我现在告诉你：虽然物体的运动情况很复杂，但决定物体运动的力，却只有屈指可数的4种。

这样，问题的性质就从根本上发生了变化：如果总共只有4种力，那我完全可以把它们一个个弄清楚啊，毕竟4个又不多。

深入研究4种力，回报是掌握一切物体的运动情况，这买卖，太值了！

当然，你可能会疑惑：真的只要4种力就能搞定一切？有那么便宜？我读书少，你不要骗我。

科普人不打诳语，不仅如此，我还有一个更好的消息：虽然我们说有4种力，即引力、电磁力、强力、弱力。但是，强力和弱力只在原子核级别才有显著作用，日常生活中一般感觉不到它们的存在，高中物理也不会讲。

于是，你在高中会碰到的所有力，就只有引力和电磁力两种。怎么样？4种变2种，有没有双十一五折大甩卖的感觉？

接下来，我们就来仔细看看这两种力，看看为什么说日常生活中只能感觉到引力和电磁力。

09什么是引力？

引力，又叫万有引力。

万有的意思很明显，就是说这种力是普遍存在的，任何两个有质量的物体之间都有这样一种力，谁也跑不掉（在牛顿力学里先这样理解，以后学了广义相对论，你会对引力有更加深刻的认识）。

这个意思很直白，就是说万物之间都会相互吸引。

你可能会疑惑：不会吧，万物之间都有吸引力？我和同学、课桌、教室之间也有？为什么从来没感觉到？

引力的确是万有的，别说跟你同学，就是跟看长尾公众号的手机，跟绣花针之间都引力。只不过这些力都太小，察觉不到。

为什么引力小呢？当然是因为质量小。你的体重在引力眼里不值一提，想感受引力，就得选个质量大的。

比如，你可以选择教学楼，你和一栋楼之间的引力就比两个人之间的大多了（想想教学楼的质量是你同学的多少倍）。不过，这个引力还是太小，依然感觉不到。

那再大一点，选择喜马拉雅山。很可惜，还是太小。

你可能要发飙了，我和这么大一座山之间的引力还小？你怕不是来忽悠我的吧。还嫌质量小，那我把整个地球选给你好不好？

好，那我就不客气地签收了！这次你选对了。

引力虽然是万有的，但是它非常微弱，我们需要地球这个级别的物体才能直观感受到它的存在。

地球和我们之间的引力深深影响着每个人的生活，它给了我们安全感，也给了我们恐惧。它让地球不会分崩离析，也俘获了月亮的心……

你可以想一想，为什么你每次跳起来之后都会落回地面？

你可能觉得这理所当然，或者从来就没想过，似乎“每个物体都会往下落”是天经地义的事情（就像亚里士多德说的“XX天然有向地球中心运动的趋势”一样）。

但是，你想想惯性定律，万物都是“懒”的，人也一样。

如果没有外力影响，物体会一直保持原来的运动状态。原来是静止的，后面就一直静止；原来有一个速度，后面就一直以这个速度匀速直线运动。

我们跳起来时，速度是指向天上的，跳起来后慢慢减速，到了最高点速度为0，然后开始反向加速下落。

整个过程中，速度的大小和方向都发生了明显的变化，这就表明跳跃时肯定受到了其它外力的影响，这个力让我们的速度发生了改变。

但是，我们跳起来后明明没有跟任何东西接触，那这能是什么力呢？答案是引力，是我们和地球之间的万有引力。

任何两个物体之间都有引力，地球和地面物体之间当然也是。你可以把地球想象成一个巨大的吸铁石，它对地面上的任何东西都有强大的吸引力，所以高处的物体总会往低处走。

于是，你跳起来，又被吸回来；苹果会被吸到地面，高处的水被吸到低处；你提着一袋东西觉得重，那是因为地球想把这袋东西吸过去，但你“死死拽着”不放，你在跟地球拔河；月亮一直围着地球转，也是因为被地球吸住了，想跑跑不掉……

这些，都是地球引力干的，它吸引着一切，感知极强。

因为我们生活在地球，从小就感受着来自地球的引力，所以早已见怪不怪。

但是，如果哪天你到了月球，因为月球的引力比地球小很多，你可能轻松一跳就是两层楼高；如果在外太空，可能轻轻一跳，就永远下不来了。

长尾君当年学习引力时，还解开了一个困惑我多年的谜题，内心倍感舒畅，这里也分享一下。

从小我就知道人类生活在地球表面，那问题就来了：我住在地球“上面”，头朝上，那住在地球另一面的人岂不是脚朝上？为什么他们没有掉下去？

直到学了万有引力，我才恍然大悟：原来大家都是被地球吸住的！

根本就没有什么绝对的上下，也不是上面的东西天生就要往下落，而是大家都被地球吸得往地心方向跑而已。

好，到这里，相信大家对引力就有一个概念了。

但这还远远不够，虽然我知道苹果下落、月亮围着地球转都是引力造成的，那引力具体是怎么影响它们的呢？

这个地球引力到底会使苹果以多大的加速度下落？1秒后苹果的速度是多大，2秒后会下落几米？它会使月亮以多大的周期围着地球转？

如果不把这些细节搞清楚，我们也不好意思说弄懂了它们的运动情况。

说白了，我们必须能定量算出两个物体间引力的大小，然后才能用牛顿第二定律F=ma算出具体的加速度，进而分析物体的运动细节。

10万有引力定律

引力的规律要如何找呢？

前面说了，引力非常微弱，地面物体之间的引力非常小。想通过观测它们来总结引力的规律，怕是行不通。

所以，我们把目光转向了天上。月亮围着地球转，地球和其它行星围着太阳转，一些大的行星（比如木星和土星）还有一堆卫星围着它们转，这些肉眼可见的天文现象可都是引力主导的啊。

于是我们夜观星象，把星体的运动轨迹都记录下来（一个叫第谷的人做得极好）。然后分析它们的运动轨迹，从中找出一些星体的运动规律（第谷的学生开普勒发现了行星运动的三大定律）。最后根据这些定律，利用数学和物理知识反推出让星体这样运动的力应该具有什么样的性质。

这一步，很多科学家都在走，但牛顿凭借他逆天的数学和物理才华（唯一一个同时稳居数学、物理Top3的人），第一个走出了迷宫，给出了描述引力的精确定律，并用它成功解释了当时一切跟引力相关的运动现象。

这一仗，牛顿大获成功，这个能精确描述引力的定律，被称为万有引力定律。

牛顿是如何得到这个定律的，这里不细说。我们先来直观地感受一下，来猜一猜这个定律应该长什么样。毕竟它号称能精确描述万有引力，我们看看它的描述跟我们的直观感受是否冲突。

大家知道，任何两个物体之间都有引力，而且质量越大，引力越大。

那么，引力就只跟质量有关么？太阳的质量比地球大得多，为什么我们没有被太阳吸走？答案当然是：因为地球距离我们更近。

所谓强龙压不过地头蛇，我的地盘我做主，任何势力都有他的范围，引力亦然。所以，除了质量，引力还应该跟距离有关。

而且，容易想象，引力跟质量、距离的关系，一定是质量越大，引力越大；距离越大，引力越小。

这不是什么问题，真正的问题是：它们之间定量的关系到底是怎样的？我把质量增大到原来的2倍，引力会增大多少？把距离扩大为原来的2倍，引力又会减小多少？

只有把这个关系搞清楚了，才能精确地计算引力，才算搞定了引力。

先来看引力和质量的关系。

假设有两个1kg的铁球，它们之间有一定的引力。那么，如果其中一个铁球的质量从1kg增加为2kg，你觉得引力会变成多少？是原来的2倍（1×2），3倍（1+2），还是其它什么的？

理论上来说，应该是2倍，也就是说质量之间应该是乘法关系。

因为我可以把2kg的铁球看成两个1kg的铁球，那每个1kg铁球的引力就和原来的一样，新的引力自然就是原来的2倍。

所以，两个物体之间的引力F应该和这两个物体的质量m1、m2的乘积成正比。其中任何一个物体的质量增加为原来的多少倍，它们之间的引力就增加为原来的多少倍。

引力和质量的关系好说，真正困难的是和距离的关系。

假设两个小球相距1米，现在它们之间的距离扩大为2米。那么，它们之间的引力会减小为原来的多少呢？是原来的1/2，1/4，还是1/8什么的？

有人说你可以去做实验啊，看看把两个小球之间的距离增加一倍以后，它们之间的引力会缩小为原来的几分之一。

但是，引力的实验不好做啊。

因为引力非常微弱，地面上两个物体之间的引力很难测量。而且，引力是万有的，我们很难屏蔽其它物体对实验的影响。

引力有显著作用的地方，还是在天上。开普勒就是从星体运动的轨道数据里发现了行星运动三大定律，牛顿从这里打开了思路，最终发现（其实胡克、哈雷等人也发现了）引力跟距离的平方成反比。

也就是说，如果两个物体之间的距离变为原来的2倍，它们之间的引力就减小为原来的1/4；距离变为3倍，引力就减小为原来的1/9。

其实，平方反比定律在自然界非常常见。

大家想想圆的周长公式C=2πr，周长跟半径（即半径的1次方）成正比。圆的面积公式S=πr²，球体的表面积公式S=4πr²，面积跟半径的平方（2次方）成正比。圆球的体积公式V=4πr³/3，体积跟半径的立方（3次方）成正比。

发现没有，1维的周长跟半径的1次方成正比，2维的面积跟半径的2次方成正比，3维的体积跟半径的3次方成正比。

而我们现实世界是3维的。这就意味着，如果有个东西爆炸了，它释放出来的能量波就会以球面的形式向外扩展。

比如，某个爆炸产生的冲击波1秒钟传播1千米，那么，2秒后这个冲击波就会向空间各方向传播2千米，组成一个半径为2千米的2维球面。

球的表面积公式是S=4πr²，于是，我们可以粗略的认为：爆炸源的能量每时每刻都被平均分给了4πr²个部分，它跟半径r的平方有关。

这就是各种平方反比定律更深层次的来源。

同样，如果我们的空间是4维的，你就会看到各种立方（3次方）反比定律，这也是科学家们检验是否存在高维空间的一种办法。

好，理解了这些，引力跟距离的平方成反比就非常正常了。

于是，我们就知道了：两个物体之间的引力F跟两个物体的质量m1、m2成正比，跟它们之间距离r的平方成反比。

写成公式就是：

这就是大名鼎鼎的万有引力定律，是牛顿力学里描述引力的东西。

图中F表示引力，因为引力是相互的，你吸引我，我也吸引你。而且这种吸引大小相等、方向相反，图里就用F1、F2分别表示。

因为质量越大，引力越大，所以分子就是两个物体质量m1和m2的乘积。因为空间是3维的，所以引力的大小跟距离的平方成反比，于是分母是r²。最外面的G是万有引力常数，数值大概是6.67×10^-11N·m²/kg²。

有了这个公式，理论上，只要我们知道两个物体的质量和它们之间的距离，就能算出引力。知道了引力F，根据牛顿第二定律F=ma就能求出物体的加速度a，进而知道物体的运动情况。

于是，一个完美的引力闭环就形成了。

我们终于可以同时掌握上游的引力计算，中游的引力转加速度以及下游的加速度分析运动了。

既然任督二脉已经打通，内循环也转了起来，要不，我们用牛刀杀一只鸡试试？

11下落的苹果

很多人在听万有引力故事时，都会听到牛顿被苹果砸到的事。这里我们不讨论故事的真伪，就单纯地分析一下苹果下落这个过程。

苹果为什么会下落？当然是因为受到了地球的引力，它是被地球“吸”向地心的。到了这里，相信大家对这个已经没啥异议了。

跟以前不同的是，我们现在已经知道了万有引力定律。

我们不仅知道苹果下落是由地球引力造成的，还能把这个引力的大小算出来。求出引力后，秉着“力是改变物体运动状（速度）”的想法，用牛顿第二定律F=ma把苹果下落的加速度a算出来，再根据加速度分析苹果的下落情况。

简单来说就是三步走：第一，找到让苹果下落的力（这里就是地球和苹果之间的引力，用万有引力定律来求）；第二，找到合外力后，用牛顿第二定律F=ma求苹果的加速度a；第三，利用加速度分析苹果下落的运动情况。

整个思路是如此的简单而清晰，我们一步步走。

第一步，找到苹果和地球之间的引力，这当然要求助于刚刚发现的万有引力定律：

从定律的形式来看，想知道苹果和地球之间的引力，就必须知道苹果的质量、地球的质量以及苹果与地球之间的距离r（G是个常数，不用管它），我们分别来看一看。

苹果的质量好说，你的苹果是半斤还是六两，称一称就知道了。不过，我们这里并不限定苹果的质量，大小随你挑，因为你很快就会发现苹果的下落情况跟苹果的质量压根没有关系。

这是一个让人非常吃惊的“巧合”，爱因斯坦就从这里撕开了通向广义相对论的一个口子。

小时候我们学过一篇《两个铁球同时着地》，说的也是这个事。同时放下一轻一重两个铁球，大家原以为重铁球会先着地，轻铁球后着地，结果发现它们居然是同时着地的。

所以，苹果的质量，我们先记作m就好了。

地球的质量也是一个固定的数值，可以去查。因为地球的质量比较大，我们暂且记为大写的M。

那么，剩下的就只有苹果和地球之间的距离r了。

这个距离要怎么算呢？假设一个苹果从3米高的树上掉落，那苹果和地球的距离是多少呢？是3米，还是地球的半径加上3米？

如果两个物体都很小（相对它们的距离很小，可以当作质点），那它们的距离就是这两点连线的长度，这个好理解。

但是，如果物体很大，大到不能当作一个质点呢？

比如地球，地球上每一块土壤对苹果都有吸引力，地球作为一个整体对苹果的吸引力应该是地球上所有物质对苹果吸引力的总和。

当然，你可以把地球切成无数小块块，利用万有引力定律算出每一小块与苹果之间的引力，再把所有的引力加起来。

但是，这玩意明摆着要用微积分啊，而当时并没有微积分。

于是，牛顿说你们等我一下，然后跑回去吭哧吭哧地发明了微积分，再回来把问题解决了，一旁的胡克只能干瞪眼（想了解微积分的中学生可以看我这篇《你也能懂的微积分》）。

这样，你就知道一个数学厉害的物理学家有多可怕了吧？

牛顿拿起微积分一通计算，发现地球上所有物体对苹果引力的和，等价于把地球的质量全部集中在地心对苹果的引力。

也就是说，我们可以直接把苹果到地心的距离当做苹果和地球之间的距离r。

地球的半径R大概是6371千米，苹果树高3米，这个树高在地球半径面前当然可以忽略。也就是说，苹果到地球的距离，实际上就等于地球的半径R。

于是，苹果的质量m，地球的质量M，苹果和地球之间的距离（地球的半径R）就都知道了，代入万有引力定律就能算出苹果和地球之间的引力：

到这里，三步走的第一步，也就是算出让苹果下落的地球引力的大小，就正式完成了。

算出了合外力F的大小，接下来就进入第二步，也就是利用牛顿第二定律F=ma计算苹果下落的加速度a。

这一步太简单了，把质量m移到左边，直接让合外力F除以质量m就能得到苹果的加速度a。而这个合外力F就是上面的引力，代入化简一下就有：

得到的加速度a很有意思。你会发现牛顿第二定律F=ma里苹果的质量m，刚好跟万有引力定律里苹果的质量m约去了。

于是，苹果下落的加速度a，最后就只跟地球的质量M，地球的半径R，以及万有引力常数G有关，反而跟苹果自己的质量m无关。

这是什么意思？

意思就是说，苹果下落时，不管苹果的质量是多少，它下落的加速度都一样，因为这个加速度只跟地球的质量和半径有关。

加速度一样，如果苹果的初始状态也一样（比如都是静止的，初速度为0），那苹果在下落过程中每一分每一秒增加的速度都会一样，导致的结果就是两个苹果的运动状态完全一样。

这下子，你知道为什么两个不同质量的苹果（铁球）会同时着地了吧？

由于苹果下落的加速度a只跟地球质量M、地球半径R以及万有引力常数G有关，而它们都是确定值。我们把数据代进去，最后发现苹果下落的加速度大致等于9.8m/s²。

也就是说，苹果下落时，它的速度会每秒增加9.8m/s。

如果苹果一开始是静止的，1秒后它的速度将增加到9.8m/s，2秒后达到9.8×2=19.6m/s，以此类推……

而且，可以想象，这个规律不仅对苹果适用，对铁球，对石头，对羽毛，对地面附近任何只受到引力下落的物体都是适用的，因为这个9.8m/s²只跟地球的半径和质量有关。

为什么要一直强调地面附近呢？

因为只有在地面附近，我们才能忽略物体到地面的高度，认为物体到地心的距离等于地球半径。如果物体飞得太高，到地心的距离不能再用地球半径（还得加上物体距地面的高度）表示，那加速度就自然不再是9.8m/s²。

另外，因为地面有空气，任何物体下落时都会受到空气阻力的影响。所以，如果物体的重力比空气阻力大很多，比如铁球、苹果，那我们就可以忽略空气阻力，认为下落的加速度还是9.8m/s²。

但是，对于羽毛这种非常轻的物体，重力很小，空气阻力无法忽略。所以，我们放下羽毛时，就会觉得羽毛没有苹果落得快，并不会一秒后加速到9.8m/s。

如果在没有空气阻力的地方同时放下羽毛和苹果，你就会发现它们的下落速度是完全一样的，如下图：

这个9.8m/s²是所有物体在地球表面，由于地球引力带来的加速度，我们称之为重力加速度，用专门的符号g来表示（以区别于一般的加速度a）。

当然，地球并不是一个绝对球体，它本身也在缓慢自转。因此，地球表面不同地方（比如赤道和南极）的重力加速度也存在微小差异。不过，一般情况下我们并不用考虑它们，甚至，为了计算方便，题目中一般取重力加速度g为10m/s²。

于是，我们就知道了苹果在地面大约以10m/s²的加速度下落，然后我们就知道了苹果下落的一切运动信息。

比如，如果苹果从静止开始下落，1秒后它的速度是10m/s，下落高度是5米（想想为什么）；2秒后速度是20m/s，下落高度为20米……

我们可以知道苹果在任意时刻的速度和下落高度，这才叫掌握了苹果的一切运动情况。

怎么样？有了万有引力定律，我们果然可以从物体的受力情况出发，算出它的加速度，再精确分析它的运动情况。

你告诉我物体如何受力，我果然能告诉你物体如何运动，牛顿诚不我欺也！

12从苹果到高中物理

到这里，我们就完成了一个最典型运动过程的分析：一个物体在某种力（重力或者其它力）的作用下开始改变运动状态，这个改变就体现在它具有一定的加速度a上。而加速度a可以通过牛顿第二定律F=ma得到，然后我们就可以通过加速度分析物体的运动情况了。

基本上，这就是高中物理要学的一切，是高中物理的主干，也是整个牛顿力学的主干。

好，如果牛顿力学的核心就是这么点东西，但你要出题，你要给千万考生出题。而且，出的题一不能超纲（比如不准用微积分），二还得有区分度，怎么办？

你看啊，牛顿力学的核心框架就是通过分析物体的受力来分析物体的运动。于是，牛顿第二定律F=ma就把所有问题都切割成了两部分：受力部分和运动部分。

那我们出题也就有了一个基本的思路：我可以已知物体的受力情况，让你求物体的运动情况；或者反过来，已知物体的运动情况，让你求物体的受力情况。

前面我们分析了苹果在引力作用下的运动情况，我也可以把这个过程颠倒过来：告诉你苹果是怎么运动的，让你求苹果的受力情况。

然后，引力的问题基本上就完了。

那么，如果我还想把问题弄复杂一点，怎么办？能怎么办，引力玩完了，那就再换一种力呗。

一开始我就跟大家说了，我们目前已知的所有力，归结起来就是引力、电磁力、强力和弱力。但是，强力和弱力在日常生活中一般感觉不到，高中也不学，先不管。

那么，引力之外，就只有电磁力了。

13电磁力

一看到电磁力这个名字，很多人就觉得这是不是只有在电线、磁铁出现的地方才存在的力？

但是，按照上面的说法，似乎日常生活中除了引力，其它现象都应该是电磁力主导的。

受引力影响的现象还是很好判断的，大抵就是被地球吸引着往下落的现象。但是，日常生活中明显还有很多不是引力主导的现象，比如推桌子，拉物体，桌面拖住茶杯，压缩弹簧，摩擦地面等等。

在日常生活中，这些力都有一些比较形象的名字：推力、拉力、支持力、弹力、摩擦力。

它们肯定不是引力，按照上面的说法，不是引力似乎就应该是电磁力了。但是，这些现象里没有电线和磁铁，好像又不是电磁力。

那么，它们到底是不是电磁力呢？元芳，你怎么看？

元芳：“大人，按照文章的推理，应该是电磁力；按照我们直觉，似乎不是电磁力。此文乃长尾君所写的科普文，科学应该重推理，轻直觉。因此，属下断定，它们必然都是电磁力！”

随后，长尾君给元芳点了个赞。

什么原因呢？你看啊，不管是推力、拉力、支持力、弹力还是摩擦力，它们都是“接触力”，都是两个物体非常靠近之后产生的一种力。

但是，你想过没有，为什么两个物体一靠近，一接触就会产生一种力呢？为什么我去推桌子，桌子就会受到一种力而运动？

你可能觉得这个问题很蠢。我去推桌子，桌子当然会受到一个力啊，天经地义，这还用问为什么？你是不是读书读傻了？

其实，这个问题并没有那么显而易见。你再想一下，人在推桌子时，到底发生了什么？

我们知道，人和桌子都由无数分子组成，宏观上我的手通过“接触”桌子推动了桌子，微观上则是组成手的分子不断靠近组成桌子的分子。

而分子是由原子组成的，原子是由带正电的原子核和带负电的电子组成。这样，当这些分子、原子相互靠近时，它们之间就会产生一种电磁力，这就是分子间作用力，也叫范德华力。

大量分子间的范德华力，就形成了我们宏观上感觉到的推力、拉力、支持力、弹力、摩擦力……

分子间作用力有引力也有斥力，这个细节现在先不管。我们看看图，大致知道它是怎么变化的就行了：

上图纵轴表示分子间作用力，横轴表示分子间的距离。

紫色曲线表示斥力随距离的变化图，黄线表示引力随距离的变化图，红线是引力与斥力的合力，也就是综合的分子间作用力的变化图。

可以看到，不管是引力还是斥力，都是距离越远越小，越近越大。但是，由于两者变化趋势不同，最后总的分子间作用力就是红线这样的变化规律。

大体上，当两个分子间距离很远时，分子间以引力为主；当距离小到一定程度时，斥力极具增大，成为主导。

所以，为什么你能推动桌子？

因为当你的手接近桌子时，手分子和桌子分子间的距离在急剧减小，它们之间斥力就急剧增大。于是，桌子就在这个斥力的作用下开始加速运动。

而这个斥力，也就是宏观上说的推力，就是分子间作用力，是一种电磁力。

其他的拉力、支持力、弹力、摩擦力也是类似的，这样你就能明白为什么我们说日常生活中除了引力就是电磁力了吧？你要是不放心，可以再想想生活中的其它现象，看看有没有引力和电磁力都无法解释的。

手和桌子之间的推力是大量分子间电磁相互作用的结果，因为分子数量巨大，所以这个过程非常复杂。

我们研究问题当然都从最简单的入手，简单问题搞清楚了，再去处理复杂问题。一堆分子间的电磁力太过复杂，我们就先来看看最简单的情况：两个电荷之间的电磁力。

14库仑定律

任何两个有质量的物体之间都有引力，这个引力由万有引力定律描述。

类似的，任何两个有电荷（带有正电或者负电的粒子）之间都有一种电力，这种力叫库仑力（一个叫库伦的人先发现的），它由库仑定律描述。

比如，假设两个电子的电荷量分别为q1、q2，它们之间的距离为r。那么，这两个电子之间就存在一个互相排斥（同性相斥，异性相吸）的库仑力F。

有了前面猜万有引力定律的经验，库仑定律就很容易猜了。

类似的，很显然应该是电荷量越大，库仑力越大，所以库仑力的大小应该和电荷量的乘积成正比。

因为处在三维空间，所以库仑力跟万有引力类似，也跟电荷之间距离的平方成反比。

这样我们轻轻松松就能把描述两个电荷之间库仑力的公式，也就是库仑定律写出来了：

大家看看这个式子，是不是跟万有引力定律极其相似呢？

不过就是把万有引力定律里两个物体的质量m1、m2换成了电荷量q1、q2，万有引力常数G变成了这里的库伦常数k。

但是，库仑定律跟万有引力定律有一个非常大的差别：所有物体的万有引力都是相互吸引的，没有第二种方向；电荷之间的库仑力却有方向，同性相斥，异性相吸。

也就是说，如果两个电荷都带负电（比如两个电子），那它们就互相排斥；如果一个带正电一个带负电（比如一个质子一个电子），那它们就互相吸引。

很多中学生在学习万有引力定律和库仑定律时，惊讶于它们之间的高度相似，就想着能不能把它们统一起来。但是，就是这个符号的差别，让它们的统一工作难如登天，爱因斯坦后半辈子都在琢磨这个事，直到去世都拿它没办法。

引力的这种无符号性（只有吸引）极其特殊，它仿佛在暗示我们：在引力眼里，众生平等。引力似乎是一个背景，一个舞台，它对台上所有的演员都一样，不偏不倚。这种思想后来启发爱因斯坦创立了广义相对论。

于是，我们就知道了引力之外的另一种力：库仑力，它当然也是电磁力。

我们可以用库仑定律描述两个电荷之间库仑力的大小，但是，高中很少会让你直接用库仑定律做计算，因为这个公式比较麻烦，不好出题。

你看啊，库仑力是跟距离的平方成反比的。因此，如果某个电荷在库仑力作用下开始运动，一动距离就要变了吧？距离一变，这个库仑力会按照距离的平方跟着变，那就意味着电荷的受力情况也变了。

受力变了距离又要变，距离变了受力再变，如此循环下去。这显然超出了中学物理能够处理的范围。

你可能觉得奇怪，万有引力定律跟库仑定律一样，也是平方反比。那为什么中学可以出引力的题目，出苹果下落的题目，却不能出这种库仑力的题目呢？

对啊，为什么呢？要不，给你一分钟时间考虑一下~

因为，我们在地面处理引力问题时，基本上只考虑物体和地球之间的引力。

在地面，物体的运动距离（比如苹果树的3米）相对地球半径而言太小了，所以我们完全可以忽略物体和地球之间的距离变化，认为距离r是不变的。

如果距离r不变，那物体和地球之间的引力就是一个恒力。这样产生的加速度也恒定，物体就会做最简单的匀加速运动，这是中学可以处理的。

因为引力很弱，只有大到地球这个尺度才会产生显著的引力效应，所以我们才能忽略地面物体的运动距离，认为地球引力是一个恒力。而电磁力是非常强的，你完全无法忽略这个距离r的变化，也就没法把库仑力也当作一个恒力。

电磁力比引力强多少呢？如下图，随便一个吸铁石就能把一堆硬币吸起来：

这意味着什么呢？

这些硬币能够被吸上去，就意味着：这么一个小小的磁铁与硬币之间电磁力，竟然比整个地球与硬币之间的引力还要大。

一个磁铁施加的电磁力，就能打败整个地球施加的引力，你说电磁力比引力强多少？这样你就能明白为什么中学物理无法处理库仑力作用下的电荷运动了吧？

运动会导致库仑力发生改变，这样电荷的加速度也会随之改变，这是非常复杂的变加速运动，没有微积分根本处理不了（对微积分感兴趣的中学生可以看看我写的《你也能懂的微积分》），高中物理能勉强处理加速度不变的匀加速运动。

于是乎，虽然我们知道了库仑定律，知道了如何计算两个电荷之间的库仑力。但很可惜，库仑力作用下的电荷运动过于复杂，没有微积分我们根本处理不了，怎么办？

电磁力这么重要，我们当然不能丢下它不管。库仑力作用下的电荷运动因为受力过于复杂而无法处理，那我就把受力情况搞简单一点，也给你一个大小恒定的电磁力，行不行？

行啊！如果电磁力成了恒力，那电荷的加速度就不变了。这样，问题就也变成简单的匀加速运动，与苹果下落别无二致，so easy!

那么，怎样把电磁力简化为恒定大小的力呢？

这就需要引入一个全新的概念：场。

15场的引入

场是个非常非常重要的概念，库仑发现库仑定律时（1785年）还没有场，它是法拉第（1791年～1867年）最先提出来的。

麦克斯韦后来用精准的数学语言描述了法拉第的思想，得到了能够描述一切经典电磁现象的麦克斯韦方程组（对麦克斯韦方程组感兴趣的中学生可以看看我公众号的三篇文章：《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》）。

为什么需要场呢？我们先来看看没有场的时候，大家是怎么描述力的传递过程的，以万有引力定律（或者类似的库仑定律）为例：

这个定律我们已经很熟悉了，它告诉我们两个物体之间的引力跟它们的质量成正比，跟距离的平方成反比。我们只要知道两个物体的质量m1、m2以及它们之间的距离r，代入公式，立马就能求出它们之间的引力（库仑力也一样）。

问题就出在这个不起眼的“立马”上。

你想，根据公式，是不是只要两个物体的质量和距离一确定，它们之间的引力立马就确定了（质量距离一确定，引力立马就能算出来）？如果两个物体的质量发生了一丁点改变，它们之间的引力也会立马发生改变，中间不需要任何时间，整个过程是瞬间完成的。

也就是说，根据万有引力定律，引力的变化是超距的，无论多远都能瞬时完成。

举个例子，假设我们根据万有引力定律算出了地球和太阳之间的引力，因为有这么一个吸引力，地球才会围着太阳转。那么，如果太阳的质量突然发生了改变（或者极端点，太阳突然消失了），那根据万有引力定律，太阳的质量突然改变了，太阳和地球之间的引力也会突然改变。

然而，我们都知道一个事实：光从太阳发射到地球大概需要8分钟。也就是说，我们现在看到的太阳光其实是8分钟以前的太阳发出的。

那么，如果太阳的质量突然发生了改变，你觉得地球是立马就感觉到引力发生了变化，还是也要等一段时间（比如8分钟）之后才能感受到引力的变化？

这其实就是在问：引力到底是不是瞬时超距的？它能否超越空间，瞬间从一处传到另一处？

直观来看，我们当然难以接受一个力的传播不需要时间，难以接受一个力瞬间就能从非常遥远的地方传过来。你想想，如果银河系外某个生物打了一个响指，瞬间就能影响地球人的生活，那得有多可怕？

不光我们难以接受力的超距传播，牛顿一样难以接受，虽然他写下的万有引力定律是超距的。

那怎么办？从信念上来看，牛顿不相信力能够超距传播，但是超距的万有引力定律工作得非常好，能够精准描述当时已知的一切引力现象。

于是，牛顿不怀好意的写到：我把这个问题留给读者。

当然，牛顿的信念是对的，引力的确不能超距传播，而是跟光一样，也以光速传播。最终解决这个问题的是他的忠实读者爱因斯坦，但解决这个问题的起点，确是法拉第和他提出的场。

提到法拉第，大家立马就会想到电和磁。那么，为什么是法拉第最先想到了场，想到了一种限制超距传播的办法？明明牛顿自己就意识到了超距的引力是不对的，为什么牛顿同时代的科学家没有想去找场这样一种解决方案呢？

原因是速度。

牛顿时代，对电和磁的研究还没有开始，大家研究的都是一些低速（相对光速）现象。不管是地球围着太阳转，还是苹果下落，这个速度相对光速（30万km/s）都是极小的，可以忽略不计。

但是，法拉第-麦克斯韦时代研究的电磁现象，就是高速现象了（你按下开关，灯立马就亮了）。

力的确不会超距传播，但牛顿研究的都是低速现象，所以这个“误差”极小，于是超距下的万有引力定律依然具有极高的精度。

但到了电磁世界，这个“误差”，不，这已经不叫误差了，这就是错误。

因此，一个正确的电磁理论，必须要求你能抛弃力的超距传播图景，这才逼出了法拉第的场和麦克斯韦的方程组。

相信大家多多少少也听过，牛顿力学只在低速宏观时适用，一旦进入高速世界，我们就得使用精度更高的相对论力学。而法拉第-麦克斯韦的电磁理论本来就是高速理论，所以它可以不做任何修改就直接被相对论接纳。

有了场的概念，力的传播图景就发生了重大变化：力的作用不再是瞬时的，而是借助场这个“中介”以一定速度完成的。

还是以两个电荷之间的库仑力为例，库仑定律和万有引力定律那么相像，一开始人们当然觉得两个电荷之间的库仑力也是超距的。认为一个电荷的电荷量发生了改变，另一个电荷受到的库仑力立马就会改变。

有了场以后，两个电荷相互作用的图景就变成了这样：一个电荷在空间中建立了电场，另一个电荷因为处在这个电场里，于是就会受到了一个电场力（代替原来的库仑力）的作用。

如果电荷移动了，或者电荷量发生了改变，那它在空间中建立的电场也会发生改变，但这个改变是以光速进行的。于是，当改变的电场以光速传到另一个电荷那里时，它受到的电场力才会改变。

看到没有，现在两个电荷之间的力并不会随着一个电荷的改变而立马发生改变。电荷只能改变它产生的电场，电场的变化以光速向四周传播，它什么时候传到另一个电荷那里，电荷受到的电场力才会改变。

这就好比你在水边击起了一个水波，这个水波不会立马影响我，它需要等这个水波传到我这里时才会影响我，电场亦然。

于是，有了场，超距的电磁力就消失了。

明白了引入场的意义，我们再来感受一下场。对场最直观的认识，莫过于“磁铁周围撒铁屑”的实验：

在磁铁周围撒一点小铁屑，小铁屑的形状就非常完美地展现了磁铁周围的磁场分布，因为磁场会对身处其中的小磁针有一个力的作用。

电场也一样，带电物体会在周围的空间里产生一个个电场，而电场又会对身处其中的电荷产生一个力的作用。

这样，我再考虑一个电荷受到了什么力，就只要考虑电荷这里的电场和磁场就行了，不用再管远处的其它电荷。

这不仅解决了力的超距传播难题，也让我们终于可以在中学物理框架内处理电磁力问题。

为什么呢？前面说了，库仑力的大小是随距离变化的，这就导致了库仑力作用下的电荷运动会变成非常复杂的变加速运动，中学物理没法处理。

现在有了场，一个电荷就只对它周围的电场负责，而不用再管什么库仑力。

那么，我只要保证电场是均匀的，就能保证电荷受的力是恒定的，这样电荷的运动就能变成简单的匀加速运动。

出题人掩面而泣，终于可以把电磁力也塞进来了~

16简单的力

于是，我们终于可以把电磁力的题目出得让中学生也可以做了：我直接给你一个匀强电场（电场强度处处相等），这电场怎么来的我不管。

假设这个电场的强度为E，那电荷q在这个电场里受到的电场力F就是电荷量和电场强度的乘积，即F=qE。

如果电荷的质量为m，那根据牛顿第二定律F=ma，电荷的加速度a=F/m=qE/m，是个定值，完美。

所以，这就是一个简单的匀加速问题，跟苹果下落别无二致。只不过，苹果下落的加速度是重力加速度g，电荷在匀强电场中的加速度为qE/m，其它都一样。

于是，在引力之后，我们又出现了另一个非常常见的力：电场力。

此外，运动电荷在磁场中会受到一个大小恒定的洛伦兹力。假设电荷的带电量为q，速度为v，磁场的磁感应强度（由于历史原因无法叫磁场强度）为B。那么，它受到的洛伦兹力F可以表示为：F=qvB。

除了电场力、洛伦兹力，还有两个力也经常碰到：摩擦力和弹力。

虽然它们的本质都是电磁力，都是大量分子间作用力的宏观结果。但分子数量太大，虽然我们知道两个电荷之间的电磁规律，但如果你想把所有分子间作用力都搞清楚，算出它们的总和（也就是宏观的摩擦力和弹力）是不现实的。

退一万步说，就算你本事巨大，能够把每个分子间的电磁作用力都搞清楚（反正现在的科学家搞不定），可以想象，如此复杂的东西，绝不是中学那点三脚猫技巧能处理的。

简单说吧，如果力的大小不是恒定的，中学物理基本上就很难定量处理。

既然摩擦力能成为中学物理的另一种常见力，那就意味着它必须是一种简单的恒力。

从宏观理解摩擦力是很容易的，摩擦摩擦，无非就是两种物体间的一种相互作用力。一个木块在桌面上运动，它跟桌面之间就有一个摩擦阻力，在地板上运动也有一个摩擦阻力。

很显然，物体表面越粗糙，摩擦力越大；物体表面越光滑，摩擦力越小。

我们可以用一个摩擦系数μ来度量两个物体之间摩擦力的强弱。而且很巧，这个摩擦系数只跟物体的材质有关，跟物体的运动速度无关，这样摩擦力就正式晋升为一种恒力。

举例，假设质量为m（重力就是mg）的物体在摩擦系数为μ的材料上水平滑动，那摩擦力f就可以表示为摩擦系数和重力的乘积，即：f=umg。

很明显，μ、m、g都不会随着物体的运动状态而改变，所以这个摩擦力的大小是确定的。

跟摩擦力类似的还有一个空气阻力，但中学物理基本不谈它。因为它跟速度的平方成正比，这就复杂了，不忽略不行。

最后一个高中题目里常见的力就是弹力。弹力，顾名思义，是压缩或者拉伸弹簧时受到的力，它由胡克定律描述。如果弹簧的弹性系数为k，弹簧被压缩或拉伸了x的长度，那它受到的弹力F可以表示为：F=-kx。

这个负号表示弹力方向与弹簧位移方向相反，你向右拉弹簧，弹力当然向左。

好，这一口气下来，我给大家介绍了万有引力、库仑力、电场力、洛伦兹力、摩擦力、弹力，基本上高中的常见力就这么些了。

17如何出题？

把这些力亮出来干嘛呢？当然是分析在这些力的作用下物体是如何运动的。

前面分析了苹果在引力作用下的运动情况，为了让问题复杂点，我们引入了其它力。

一个苹果在重力（用万有引力定律计算）作用下获得了一个加速度（用牛顿第二定律F=ma计算），然后根据加速度分析苹果的运动情况，这是一个完美的闭环。

我们把重力换成上面的各种恒力，整个分析流程不会有任何变化。

牛顿第二定律F=ma一刀下去，把世界劈成了受力部分(用合外力F表示）和运动部分（加速度a表示）。

于是，我们的出题思路就简单了：已知物体的受力情况，比如告诉你物体受到了重力、摩擦力、电场力啥的，让你把物体的合外力倒腾出来，利用F=ma算出物体的加速度a。再根据加速度分析物体的运动情况，比如它是速度是多少？运动了多远？

或者反过来，告诉你物体怎么动的，让你从物体的运动情况求出加速度a，再利用牛顿第二定律F=ma算出物体受到的合外力，分析物体的受力情况。

在这个闭环里，只要能给出描述这个力的公式，其它步骤一模一样。牛顿第二定律F=ma只管物体受到的合外力是什么，至于这个力是重力提供的，还是电场力、摩擦力、弹力提供的，它不在乎。

所以，这种单纯增加力的种类的做法，似乎有点“换汤不换药”，也没有增加多少复杂度。

那么，如何把题目搞得再复杂一点呢？

既然牛顿第二定律F=ma把问题分成了受力和运动两部分，中学物理又由于处理能力有限，无法引入太复杂的力（比如空气阻力），那就只能把受力部分和运动部分本身搞得再复杂一点。

18受力部分复杂化

只有一个重力很简单，那我再给你加一堆的其它力。

比如我让地面不光滑，那就得考虑摩擦力；我加个电场，那还得考虑电场力；加个磁场，那还得考虑洛伦兹力。

我还可以给你加个斜面，让木块从一个倾斜角θ的地方滑下来，就跟滑滑梯一样。

这样的话，物体虽然还是被重力吸着往下滑。但是，因为重力的方向是竖直向下的，木块却沿着斜面滑动，两者的方向并不一样。

由于力是一个矢量，我们可以把它按照平行四边形法则分解。

比如，我们让两艘船分别向西、向南拉一艘货轮，这两个力却会让货轮往西南方向前进，仿佛西南方向有一个力在拉货轮似的。

那么，西南方向这个力就是原来两个力的合力，它也可以分解为原来正西、正南方向上的两个分力。

同样，重力是竖直向下的，我可以把它沿着斜面和垂直斜面进行分解。这样，让物体沿着斜面加速运动的仅仅是沿着斜面方向的分力。

我们把这个分力算出来，套入F=ma，就能求出沿着斜面方向上物体的加速度了。这里会涉及一些简单的三角计算，也是很简单的事。

总之，我们会用各种方式把这个物体的受力情况搞复杂，让你去分析这个物体的合力（或者某一方向的合力），再利用牛顿第二定律F=ma求出加速度（或某一方向的加速度），再分析运动情况。

把受力情况搞复杂的方法，可以是添加各种其它形式的力，也可以是添加类似斜面这样的东西让它复杂化。但是，只要我们知道各种力的描述公式，知道力如何进行合成分解，这些都是很简单事情。

知道了出题人会如何把受力情况搞复杂以后，我们再来看另一半：如何把运动情况搞复杂？

19运动部分复杂化

因为不让用微积分，无法处理复杂的变加速问题，我们就来分析一个最一般的匀加速运动。一般的意思就是：把它搞定了，其它所有情况就都搞定了。

一个典型的匀加速运动涉及5个物理量：初速度V0、末速度Vt、加速度a、运动时间t、运动距离S。

比如，一个苹果从树上静止下落，1秒后下落了5米，速度变成了10m/s。那么，这个过程中，初速度V0=0，末速度Vt=10m/s，运动时间t=1s，加速度a=g=10m/s²，运动距离S=5m。

我们关心的运动相关的物理量，就全部都在这里了。

接下来是重点：这5个运动相关的物理量，任意已知3个，我们都能求出另外的2个。因为我们有2个显而易见的恒等式，5-3=2。

第一个等式就是加速度的定义。你想想，加速度是什么？

加速度就是物体在单位时间（1秒钟）内速度的变化量。如果物体的初速度是1m/s，2秒后变成了5m/s，那它的加速度就是（5-1）/2=2m/s²，意味着它在1秒内速度会增加2m/s。

同样，如果物体的初速度是V0，经过时间t后速度变成了Vt，那物体的加速度a就可以表示为：a=(Vt-V0)/t。

整理一下，把t乘到左边，V0移过去。那初速度V0、末速度Vt、加速度a、时间t之间就有这样一个关系：Vt=V0+at（关系1）。

直观地看，加速度a是物体在单位时间内增加的速度，时间t后物体的速度就增加了at。那么，我用初速度V0加上增加的速度at，自然就得到了末速度Vt。

这本质上还是加速度的定义。

再看距离S，我们是如何求物体的运动距离的呢？

因为是匀加速运动，我们可以用初速度V0和末速度Vt的平均值（V0+Vt)/2当作整个运动过程的平均速度。

比如，物体一开始速度为0，1秒后速度变成了10m/s，那它这段时间的平均速度就是（0+10）/2=5m/s。当然，这只在匀加速时成立，如果是变加速就不能这么干了（为什么不能你可以想一想）。

好，知道了平均速度和时间，距离S就可以表示为它们的乘积，即：S=（V0+Vt)×t/2（关系2）。

这样，我们就有了两个固定的关系式：一个是加速度的定义，另一个是利用平均速度求距离：

这两个式子的物理意义都很明确，容易理解。

有了这两个式子的神助攻，接下来，任意已知3个物理量，我们都可以求出剩下的物理量。

在学习物理时，为了加快解题速度，许多老师会让你背一堆公式。比如，已知V0、a、t，怎么求S啊，已知V0、Vt、a，怎么求S之类的。

但是我不建议你们这么做。

在学习物理时，我不建议你们在没有理解它的物理意义，没搞清楚它背后的物理图像之前死记硬背任何公式。

你想想，别说是上面两个物理意义很明确的式子，在给你讲万有引力定律时，我都没跟你说万有引力定律就长这样，你把它记下来就行了，要考。

我费了很大的篇幅告诉你为什么万有引力定律的分子会是两个物体质量的乘积，为什么引力会跟距离的平方成反比。

只有这样，你们才会觉得这些公式很自然，它们的物理图像很清晰。物理学原本就是描述自然界各种现象的，物理公式自己会说话。

好，我们现在知道跟物体运动相关的物理量就那么5个，有了那2个等式以后，其它关系式都可以从这里推出来。

比如，已知物体的初速度V0、加速度a、时间t，如何求运动的距离S？这个场景非常常见，“苹果下落1秒后落了多远？”就是这种问题（V0=0，a=g=9.8，t=1)。

那要怎么做呢？

很简单，要求距离S就得利用关系2（S=（V0+Vt)×t/2），这里V0和t都有了，就差一个Vt，而Vt可以根据关系1（Vt=V0+at）得到。

所以，最终的结果就是把关系1的Vt代入关系2，这样我们就能得到了一个不含Vt的关于S的表达式。

你亲自去推一下，就会得到这样一个结果：S=V0t+at²/2。

这个式子非常常用，但是我非常不建议你直接把这个公式死记下来，然后用它去套各种题目。

因为这个式子的物理意义不是很明显，你可以把这个式子记下来，但很难看清它背后的物理图像。

如果你把过多的精力放在记忆这种物理意义不明显的公式上，虽然短时间内能够提高解题速度。但长此以往，会逐渐丧失对物理图景的把握，会觉得物理越来越无聊，就是一堆公式游戏，那就完蛋了。

物理学是描述自然的，自然就在我们眼前，我们能看到，能感觉到。所以我们用来描述自然界的物理语言，也应该是能看到，能感觉到的。

我们学习物理，要尽力看清公式背后的物理图像，如果你觉得这些公式很简单，那物理就会非常简单。

因此，我整篇文章都在告诉你高中物理的框架是什么，如何看清它的物理图像。我想告诉你，物理学的每一种想法，每一个公式的来源都是有理有据有节操，合情合理又合法的。

关于物体的运动部分，我们只要知道描述物体运动的5个物理量之间有2个意义非常明确的关系式，其它公式都能从这里推出来就完了。

5个物理量，2个方程，你想推导不包含哪个物理量的方程，用消元法把它消掉就行了，不用死记它们。我们需要记住的是牛顿力学处理问题的一般方法，以及这背后的物理图像。

再回到上面的式子，不包含Vt的公式是这样的：S=V0t+at²/2。你需要这个公式时，临时推一遍就完了，耽误不了你多少时间。推导次数多了，很快就自然记住了。

你因为推导次数过多自然记住的，比死记下来的效果强太多了：第一，你永远不用担心会忘记公式；第二，作为出发点的那两个关系式的物理意义足够明显，所以你会觉得推导结论的物理意义也足够明显；第三，这个过程会锻炼你的逻辑推理能力，喜欢推公式的人，数学、物理都不会差。

这是一条通往学神的道路。

如果没有理清物理框架，没有看清公式背后的物理图像，只是死死地记住了一堆结论，记住了一堆特定问题的特殊解法，那物理会学得非常痛苦。

好，再来试一个，如果把时间t消掉，初速度V0、末速度Vt、加速度a、距离S之间就会有这样一个关系式：Vt²-V0²=2aS。同样，别去死记它，别把非常有意思的物理搞成了无聊的字母游戏。

本着这种精神，你会发现出题人在物体运动状态这一边能动的手脚也非常有限，无非就是在这几个量之间变来变去。

20场景复杂化

再回到核心的牛顿第二定律F=ma上来。

在这篇文章里，我坚持在牛顿第二定律后面加上了F=ma，如果你能看到这里来，看了这么多遍F=ma，应该形成条件反射了吧？

牛顿第二定律F=ma是整个牛顿力学的核心，它把物体的受力情况和运动情况联系在了一起，并且告诉我们物体受力之后要怎样运动。

围绕它出题，也只能一方面把物体的受力情况复杂化（添加各种各样的力，复杂化受力分析），一方面把物体的运动情况复杂化（V0、Vt、a、t、S五个量颠来倒去的变）。

如果还不够复杂，那就增加场景的数量。

比如，我让小球从光滑斜面上滚下来，这很简单。那好，我再增加一个场景：小球滚下来之后再经过一个摩擦力无法忽略的地板，在摩擦力的作用下慢慢减速。

还不够复杂？那我再增加一个磁场（电场），让小球滚进磁场（电场）里运动；加一个弹簧，让小球被反弹运动；加一个传送带……

于是，许多小场景就拼成了一个大场景，问题也就更加复杂了。这就像《猫和老鼠》里经常出现的一个机关触发另一个机关的场景，不停的运动。

架势看起来很吓人，但只要把每一个过程都分析清楚了，串起来的总过程也不会很难。

好，到这里，关于牛顿第二定律F=ma，关于力如何让物体运动的分析，就先告一段落。

从这种观点看世界，力处在最核心的地位。理论上来说，只要我们知道物体此刻的状态，知道它受到的力，我们就能根据F=ma算出物体后面任意时刻的状态（速度、位移都不在话下）。

牛顿也是根据这个，将上帝逐出了太阳系。决定物体如何运动的，将不再是上帝的意志，而是它受到的力。

因此，这种以“力”为核心观念的理论被称为牛顿力学也是非常贴切的。

接下来，我们换一种眼光看世界。

21另一种角度

从牛顿力学的观点来看，只要我们知道了物体的初始状态和受力情况，就知道了物体的一切。但是，理想很丰满，现实却很骨感，很多问题理论上可以计算，实际操作起来却复杂无比。

你想啊，牛顿力学的核心思想是物体下一刻的状态由上一刻的状态以及受力情况决定。这样，我们分析下一个状态，就要依赖上一个状态，而上一个状态又依赖于上上一个状态。

这就像多米诺骨牌，我们必须对物体运动过程中的每个状态都了如指掌才能给出最终的答案。

但是，很多时候我们并不关心物体运动的中间过程是什么样，我们只关心最后的结果。

又或者，我们根本没有能力（受限于观测水平、计算能力等）把中间过程完全搞清楚，但我们很希望知道最后的结果是啥样的。

比如，你经营一家超市时，很可能不是很关心每个月都有谁买了什么具体的东西。但是，你肯定关心这个月总共卖了多少钱，进货花了多少钱，房租人力成本又花了多少钱。

因为你知道，对于你来说：钱既不会凭空产生，也不会凭空消失（你没有能力印钱，也不会发疯去撕钱），它只会从一个地方流入到另一个地方（从买家手里流入你的手里，从你的手里流入上游供货商手里），但是总量保持不变。

好，现在我们发现了一条关于金钱流通的定律，我们姑且称之为“金钱守恒定律”。

有了金钱守恒定律，我们就不用知道每天每笔账的具体细节，只要知道了总收入和总支出，就能知道这个月赚了多少钱。

同理，大自然在不停地变化，物理世界也在不停地运动。那么，在这种运动和变化之中，有没有什么东西就像钱一样，也是变来变去但总量不变的呢？

比如，一个运动小球撞击一个静止的小球，撞击前只有一个小球在运动，撞击后两个小球都在运动，但是原来小球的速度却变慢了。

想想这个过程，似乎是原来的小球拥有一部分“运动”，撞击之后它把一部分的“运动”分给了另一个小球，然后自己拥有的“运动”就变少了。再多撞几次，它的“运动”就越来越少，于是它就慢慢减速，直到最后停了下来。

发现没有，小球失去“运动”的过程，跟我们失去金钱的过程非常类似。

我手上有一笔钱，给这个分一点那个分一点，然后我的钱就越来越少，最后没钱了。小球有一笔“运动”，它给这个分一点，那个分一点，最后“运动”分完了它就不动了。

金钱和“运动”如此类似，既然有“金钱守恒定律”，那会不会也有什么跟运动相关的守恒定律呢？

提到守恒就要比大小，几个量加起来等于另外几个量才叫守恒。

那问题的关键就是：金钱我知道如何衡量它的大小（直接用人民币的面额就行），那运动我用什么去衡量它的大小呢？

22运动的能力

一个小球以一定的速度运动，那它具有的“运动的能力”是多大呢？分给另外的小球之后，它们拿走了多少，我自己又还剩下多少？很显然，这些账必须算清楚，否则没法玩。

也就是说，我们现在需要找到一个量来描述小球运动能力的大小。这个量应该长什么样，我们不妨先来猜一猜。

很显然，最容易想到的就是速度。一个小球的速度越大，运动得越快，它显然就应该具有更多“运动的能力”。

但问题是，这种运动的能力跟小球的速度到底是什么关系？如果小球的速度变成了原来的2倍，那它“运动的能力”到底是变成了原来的2倍，还是4倍、8倍或者其它数字？

这种问题光靠脑袋是想不出来的，物理学是基于实验的科学，我们可以通过实验来寻找这种关系。

比如，我们可以让小球以一定的速度撞击其它的小球，再把小球的速度提高到原来的2倍、3倍，让它再去撞击同样的小球，看看它“运动的能力”到底提高了多少倍。

最后，实验结果告诉我们：物体具有的“运动的能力”，跟它的速度的平方成正比。

也就是说，如果速度变成了2倍，它具有的”运动的能力“就变成了原来的4倍；速度变成了3倍，后者就变成原来的9倍。

除了速度，物体具有的“运动的能力”显然还跟质量有关。同样的速度，一辆大卡车显然比一辆自行车具有更多“运动的能力”，前者明显能撞飞更多的东西。

同样的问题：它跟质量是什么关系？一个物体的质量变成了原来的2倍，它具有的“运动的能力”会变成原来的几倍呢？

同样的回答：去做实验，实验结果说什么，我们就听什么。最后，实验说物体具有的”运动的能力“跟质量成正比。

也就是说，质量变成2倍，”运动的能力“也变成2倍。

这也是很好理解的。因为质量变成了2倍，我就可以把它分成两个质量相等的小物体，这样每个小物体具有的“运动的能力”就应该和原来的一样，所以必然是2倍。

其它的因素好像暂时就无关紧要了。

这样，我们基本上就找出了物体“运动的能力”的定量关系式：它跟物体的质量成正比，跟物体的速度的平方成正比。最后，考虑到单位和数值，我们再加了一个1/2作为系数。

于是，这个定量描述物体具有”运动的能力“的物理量，就有了一个新名字：动能。

这个能，是能量（Energy）的意思，所以用字母E表示，动能就表示因为物体运动而具有的能量。

动能的大小就等于物体的质量m乘以速度的平方v²，再除以2，即：E=mv²/2。

有了动能的具体表达式，我们就可以对物体具有的”运动的能力“进行定量计算，算清楚后就可以和钱一样进行交易、分配了。

23能量守恒定律

动能，是物体因为运动而具有的能量，是能量的一种。

我们可以把这个能量分一点给其他的物体，中间环节我不管。你可以跟A物体关系好就给它多分一点，跟B物体关系不咋地就给它少分一点，但是能量的总和是一定的，能量的总量是守恒的。

这样，仿照“金钱守恒定律”，我们就有一条能量守恒定律：能量既不会凭空产生，也不会凭空消失，它只会从一种形式转化为另一种形式，或者从一个物体转移到其它物体，而能量的总量保持不变。

能量守恒定律是一条非常伟大的定律，它让我们有了另一种视角来看待物理世界，而且还很容易理解。

之前我们用牛顿第二定律F=ma分析物体运动，它的核心概念是“力”。物体的运动状态之所以会改变，是因为有力作用在它身上。我们对物体进行受力分析找出合外力，然后根据F=ma求出物体的加速度，从而算出物体下一刻的运动状态。

比如，一个运动的小球去撞击静止的小球，为什么静止的小球会动呢？

从力的观点来看，是因为运动小球跟它接触时，给它施加了一个力的作用。这个力让静止小球有了一个加速度，从而改变了它的运动状态。

你想算出静止小球后面怎么运动，就要算出它受力的大小。但是，这明显不太好算（就撞一下，我哪知道它到底有多大力啊，测也不好测）。

现在，我们有了能量的观点，就能从能量转化的角度来看这个过程。

为什么静止的小球会动起来呢？因为运动的小球把一部分动能给它了，于是静止小球就具有了一部分动能，就动了。

那么，静止小球获得了多少动能呢？答：原来运动的小球损失了多少动能，静止的小球就获得了多少动能，因为动能的总量是守恒的（这里假设都是刚性小球，碰撞过程没有能量损失）。

这样，我们就不用再关注碰撞过程中到底发生了什么，也不用去计算碰撞过程中每个时刻的受力大小，直接根据前后能量守恒就行了，这太棒了。

有了能量守恒这样一种新思路，科学家们高兴坏了。

这样，很多中间过程很复杂，但我们并不关心中间过程，只关心结果的问题就很好解决了。比如刚刚说的碰撞问题，用牛顿第二定律F=ma实在不好弄，但是用能量守恒就轻轻松松。

守恒律是物理学里非常重要的东西，为什么有些东西（比如能量）是守恒的呢？背后更深层的原因就是对称性。

比如，为什么能量守恒？因为我们的世界具有时间平移不变性。

简单的说就是今天有效的物理定律，明天也有效。把物理定律在时间上从今天平移到明天，它不发生改变（F=ma今天是这样，明天还是这样），这就是时间平移不变性。

你可能觉得这是废话，如果一条物理定律今天长这样，明天长那样，那我还要定律有何用？确实如此，如果物理定律天天变，那物理学也没啥意义了。

但是，正是因为有时间平移不变性，我们才有能量守恒。这个世界最难理解的事情，就是这个世界居然是可以理解的。这里就不多说了，感兴趣的可以看看我的这篇：《深度：宇称不守恒到底说了啥？杨振宁和李政道的发现究竟有多大意义？》。

好，发现了能量守恒这么好的东西，物理学家当然立马就被圈粉了，于是能量守恒就成了“物理正确”。

24能量的扩张

前面说了，刚性小球在碰撞时动能是守恒的，大家撞来撞去，动能就在它们之间不断流动。

但是，你观察苹果下落的过程：一个苹果一开始是静止的，这时动能为0。但是，它下落时速度在不断增加，所以动能也会不停地增大。

也就是说，苹果一开始动能为0，后来慢慢增大了。

不是说动能守恒的么？这里没看到其它物体动能减小，那苹果增加的动能是从哪里来的？为什么刚性小球碰撞时动能守恒，苹果下落时动能好像就不守恒了？问题出在哪？

我们想想，苹果之所以会加速下落，是因为地球对苹果有一个吸引力。这个引力让苹果加速，获得了动能。除了引力，还因为苹果距离地面有一定的高度，具有往下落的能力，所以才会加速下落，动能增加。

所以，面对苹果下落，动能不守恒这个问题，物理学家想到的办法是：苹果因为距离地面很高，而且受到重力，因此具有往下落的能力。这也是一种能量，我们把它定义为重力势能。

苹果在树上具有一定的重力势能，下落过程中，它的重力势能不断减小，动能不断地增加。虽然苹果的动能不守恒，但是动能和重力势能的总能量依然保持守恒。

这样，物理学家们深爱的能量守恒定律就依然成立。

同理，我们继续观察：一个木块在粗糙的地面上滑动，最后慢慢停了下来。那么，这个过程中木块的动能去哪了呢？好像也没有转化成重力势能或者其它物体的动能啊。

木块在粗糙地面上滑动时，受到摩擦力的阻碍而减速，这个过程加热了地面（摩擦生热）。

从微观来看，温度升高了，其实就是分子的运动程度变剧烈了，是分子的平均动能增加了。于是，我们又新定义了一种能量：内能。

因此，木块在滑动时，动能转化成了内能（或者说大量分子的动能），总能量保持不变，能量守恒定律依然成立。

同样，一个带电小球在电场中会被加速，动能增加。那这个动能从哪里来的呢？好，于是电场就理所当然地具有了能量，小球和电场的总能量守恒，能量守恒定律依然成立。

从某种意义上来说，能量守恒定律似乎永远不会错。因为你只要发现某个过程中能量不守恒，我就可以定义一种新品种的能量（就像重力势能、内能、电场能），从而让能量守恒继续成立。

25力与能量

力和能量是我们看待物理世界的两个不同视角。

面对同一个物理现象，你既可以对它受力分析，通过牛顿第二定律F=ma来求解；也可以找到系统的能量转换关系，利用能量守恒来求解。

那么，力和能量是怎么关联起来的呢？

看一个简单的例子：我用一个恒力F（大小和方向都不变）去推一个质量为m的静止物体，然后物体均匀地加速到速度v。

从力的角度看，物体受到的合外力就是F，它在这个力的作用下产生了一个加速度a，然后物体以这个加速度从静止加速到速度v。

不知道大家还记不记得前面关于运动部分的分析。5个运动相关的物理量V0、Vt、a、t、S，我们只要知道3个，就能求出另外2个，因为有两个恒等式：

在这个例子里，我们已经知道了3个物理量：初速度V0为0，末速度Vt为v，加速度为a。

利用上面两个关系式消去时间t，我们就能得到其它四个量的关系：Vt²-V0²=2aS。在这个例子里，V0=0，Vt=v，代入进去就是v²=2aS，于是距离S就可以写成：S=v²/2a。

把距离S求出来干嘛呢？我们不妨来算一算力F和距离S的乘积F·S，也就是算一算力F在空间上的累积。

为什么要算这个量呢？待会儿你就知道了。

因为S=v²/2a，力F可以根据牛顿第二定律F=ma来算，那么力F和距离S的乘积F·S可以表示为：

看到没有，这两个量相乘，刚好把加速度a约去了，剩下的结果竟然就是mv²/2。

有没有很眼熟？这不就是刚刚说的物体的动能么？

也就是说，我们用力F乘以这个力作用的距离S，得到的结果竟然跟物体后来的动能一模一样。

这是一种巧合，还是有什么更深层的含意？

好，上面我们从“力”的角度分析了这个过程，下面再从“能量”角度来看看。

从能量角度来说，物体一开始是静止的，动能为0，后来具有速度v，动能为mv²/2。

也就是说，物体凭空多出了mv²/2的动能。那么，这个能量是从哪里来的呢？

从直觉来看，物体会动，是因为有一个力F在推它。那么，这个力又是从哪里来的呢？

如果是一个人在推物体，那么，为了使出这个力，这个人肯定需要消耗一定的能量。其中一部分能量就给了物体，成了它的动能。

如果是地球在吸引物体，那这个F就是重力，结果就成了重力势能转化成了物体的动能。

如果是一个电场在推物体，这个力F就是电场力，这个过程就是电场能转化成了物体的动能。

当然，题目并没有说这个力F是从哪里来的，我们也就无法知道到底是什么能量转化成了物体的动能。

但是没关系，不管这个力是什么力，也不管这个能量到底是从哪转化来的，我们只要知道用这个力F乘以距离S就能等效地算出这个动能的大小就完了。

力作用在一个物体上，并且使物体在力的方向上移动了一段距离，这个过程在物理上叫做功。它是能量从一种形式转化为另一种形式的过程，正如上面人的能量、重力势能、电场能转化成物体动能那样。

虽然这个概念很重要，但是我现在并不想过多地讲这个。你脑袋里只要有清晰的能量守恒、能量流动、能量转化的图景就完了。

有了“力乘以距离就能等效地算出这个动能的大小”的概念后，你会发现很多能量的公式根本不用记，自然而然就能写出来。没错，我一直在教你“自然而然的物理”，教你如何不去死背物理公式~

26不用死记的能量

比如，一个质量为m的苹果，在高度为h的树上，它具有的重力势能是多少？

苹果从树上静止下落，从能量角度来看，就是苹果具有的重力势能转化成了它的动能。而我刚刚说了，力F乘以距离S就能等效地算出这个动能的大小，那自然也就算出了重力势能的大小。

在地面附近，苹果的重力为mg，它从苹果树下落到地面要走的距离为h。那么，用重力乘以距离得到的mgh，自然就是苹果具有的重力势能。

同样，在一个匀强电场E里，电荷q受到的电场力为qE。那么，在高度为d的地方具有的电场能就应该是qEd。不过，出题人一般会告诉你电势差U=Ed，这样电场能就可以直接写成qU。

弹性势能稍微麻烦一点，因为弹簧被压缩时，弹力的大小F是一直在改变的F=-kx（k为弹性系数，x为压缩距离），并不像重力mg、电场力qE那样一直是恒定的。

因此，我们就不能直接用一个固定大小的力乘以距离来表示弹性势能。而应该把弹簧分成很多片，在每一小片里近似认为弹力不变，求出这一小段的弹性势能，再把所有的加起来。

这又是微积分的思想，你看看我这篇《你也能懂的微积分》，就知道怎样利用弹力公式F=-kx来计算弹性势能的大小了（提示，最终弹性势能的表达式为kx²/2）。

知道怎么表示重力势能以后，我们再来看看苹果下落这件事。

假设苹果的质量为m，苹果树的高度为h。在树上，苹果的动能为0，重力势能为mgh；苹果落地时，重力势能为0（因为高度h=0)，动能达到最大的mv²/2。

因为能量是守恒的，所以在树上的总能量（0+mgh）就应该等于落地时的总能量（mv²/2+0），即：

把质量约掉，g又是一个常数，这个式子就变成了高度h和落地速度v的一个关系式。很显然，已知其中一个，立马就能算出另外一个。

当然，如果知道了树的高度h，就等于知道了运动距离S，加速度又是已知的g，初速度等于0。所以，我们就已经知道3个运动相关的量了，从运动学关系出发，一样可以算出下落时间t和落地速度v。

这是两种不同的视角，两种方法也都不难。

27能量视角的优势

再看一个有区分度的：

一个物体从一个弯曲的光滑斜面往下滑，注意斜面不是平的。因为弯曲，所以物体在不同时刻沿着斜面方向的分力是不一样的，因此物体的加速度也在不停地改变。

就像我们滑滑梯时，都是一开始坡度大一些，加速度大一些，后面平缓一些，加速度小一些。

这样你再想从力的角度对它进行运动学分析就困难了吧？因为物体的加速度一直在变，这是一个变加速运动。

更麻烦的是，题目压根就没告诉我这个曲面是怎么弯曲的，这样就求不出中间时刻的加速度，那速度自然也没法求了。

但是，从能量角度来看，这个问题跟苹果下落的问题没有任何区别：都是静止物体从某一高度下落，重力势能完全转化为动能的过程。

所以，从能量守恒的角度，我根本就不需要知道这个斜面是怎么弯曲的，不需要知道中间过程都是啥样。

我只要知道，最后到达地面时，它全部的重力势能mgh都转化成了动能mv²/2就完了：

你看，整个方程都跟苹果下落一模一样，非常简单。

这样，大家对能量视角有什么新体会么？

28物理学的图像

说了这么多，我都在说些啥呢？仔细想一想，似乎这篇文章从头到尾都在教你不要死记物理公式，不要硬背物理定律，要看清物理学的图像。

物理学是一门研究物质基本运动和规律的学问，牛顿力学又是极其成熟的一套体系。既然非常成熟，那它自然就有一套非常完善地处理各种问题的一般方法。因为自成体系，所以它也有着清晰的框架结构和逻辑基础。

我写这篇文章，就是希望能帮你把这套体系理清楚，让你知道牛顿力学眼里是如何看待这个世界的，它处理物理问题的通用框架又是怎样的。

我不希望学生们一到高中就迷失在各种物理技巧和细节的海洋里，然后直到高中毕业，脑袋里都没有一块完整的物理学拼图。

牛顿力学和原来物理学的一个最大区别就是：牛顿力学认为力不是维持物体运动的原因，而是改变物体运动速度的原因。这种思想在牛顿第二定律F=ma这里得到了完美的体现，所以牛顿第二定律这么重要。

F=ma不就是在告诉我们力F是如何改变物体的运动速度（加速度a）的么？然后，你是什么力（引力、摩擦力、弹力、电场力），找到描述这种力的公式就完了；它要怎么运动，无非就是V0、Vt、a、t、S这五个运动物理量之间的字母游戏。

能量和能量守恒则提供了另一种看待问题的视角。

这里不需要力，我们只要抓住各种能量之间是如何转化的，就像抓住经济活动中金钱是如何流动的一样。只要把逻辑理清楚了，许多能量的表达式都是非常自然的。

“力”这个概念在高中随处可见，但基本上也就局限在牛顿力学里了，它是牛顿力学这个特定背景下的产物。当你以后学习近代物理时，你会发现力的概念越来越少，现代物理里甚至通篇没有“力”这个东西。

但是，能量的概念在牛顿力学、相对论、量子力学、量子场论里一直都有，它是超越牛顿力学，在所有物理学里都非常重要的存在。

好，回到牛顿力学，我们再来聊最后一个话题。

29从牛顿第三定律出发

牛顿力学有三大运动定律，它们是这个体系里最基本的东西。第一定律（惯性定律）和第二定律（F=ma）我们已经很熟悉了，牛顿第三定律的存在感没有那么强，可能是因为它太“显而易见”了吧。

但是，从它“推导”出来的一个东西却非常有意思，我们一起来看看。

牛顿第三定律简单的说就是：相互作用的两个物体作用力和反作用力大小相等，方向相反（牛顿的原话是“每一个作用都有一个相等的反作用”，并没有提到力。但因为我们学的是牛顿力学，所以教材里都直接用作用力和反作用力来表述）。

举个例子，你用力推墙，就会感觉墙也在以同样大小的力推你。好吧，这个好像确实太理所当然、显而易见了，活该存在感不强。

但是我们仔细想想，牛顿第三定律其实是在告诉我们：两个物体相互作用（比如碰撞）时，如果我把它们看作一个整体，那它们之间的作用力就成了内部作用力（以后简称内力），内力大小相等，方向相反。

不知道你看到这种大小相等、方向相反的东西有什么反应，会不会有一种想把它们加起来的冲动？

比如，-5和5一点都不好看，但把它们加起来就刚好等于0，消去了，感觉很棒。

代数化简时，看到一堆乱七八糟的东西刚好可以正负抵消，立马心情愉悦。

从经典的俄罗斯方块到现在很火的各类“消消乐”游戏，也都是抓住了人们喜欢看到复杂东西被消去，复杂问题简单化的心理。

那么，既然牛顿第三定律告诉我们相互作用的两个物体间的内力大小相等、方向相反，那我们要不要也来试试，看看能不能玩出一点俄罗斯方块的感觉来？

比如，两个小球在光滑水平面上碰撞时（光滑的意思就是不考虑摩擦力），水平方向上没有其它的外力，主导整个碰撞过程的就是两个小球之间的内力。

根据牛顿第三定律，球A对球B的力，和球B对球A的力大小相等，方向相反。

那么，对待这样两个大小相等、方向相反的内力，我们能做点啥呢？直接把这两个内力加起来，让它们的和等于0？

这样做好像没啥意思，直接加起来，得到它们的合力等于0又能说明什么呢？难道用牛顿第二定律F=ma，根据合力去算它们的合加速度？这是两个小球，算一个合加速度，没意义啊。

但是，我们可以把思维拓宽一点，再来观察一下小球的碰撞过程：碰撞的时候，这两个内力大小相等、方向相反，没错。但是，还有一个很隐蔽东西也是相等的，那就是作用的时间t。

两个小球碰撞时间t虽然极短，但它们绝对是相同的。你推了我一秒钟，我当然也反推了你一秒钟，正所谓一个巴掌拍不响。

好，既然两个小球的内力F和F'大小相等、方向相反（即F+F'=0，力是矢量，正负号代表方向），它们的作用时间Δt又相等。那我把内力和时间乘起来，得到的结果是不是还应该大小相等，方向相反？即：FΔt+F'Δt=0。

假设两个小球的质量分别为m、m'，碰撞过程中加速度分别是a、a'，那根据牛顿第二定律F=ma就可以把F、F'写成：F=ma，F'=m'a'。

把F和F'用ma代入上面的式子后，式子就变长了一点：maΔt+m'a'Δt=0。

这个结果很有意思，在maΔt里，原本ma是一组的。但是我们现在棒打鸳鸯，强行把ma拆散，让a和Δt组成新的cp，看看能擦出什么火花。

a乘以Δt是什么呢？a是加速度，Δt是碰撞的时间，加速度a乘以时间Δt，这不就是碰撞过程中物体速度的变化量Δv么（加速度a表示单位时间内速度变换了多少，乘以Δt自然就表示Δt时间内速度变化了多少，即：Δv=aΔt）？

这样，我们用牛顿第二定律把F拆成了ma，再把a和后面的Δt组在一起凑成了Δv。那么，原来的式子自然就变成了：mΔv+m'Δv'=0。

这个式子就值得玩味了，本来是根据牛顿第三定律，两个内力F和F'大小相等、方向相反：F+F'=0。现在却得到了质量m和速度变化量Δv的乘积mΔv大小相等、方向相反的关系式：mΔv+m'Δv'=0。

我们用一个新的物理量p表示质量m和速度v的乘积，即p=mv。再给这个p取一个名字，叫动量。

那么，mΔv自然就表示小球碰撞前后动量的变化量Δp。于是，原来的mΔv+m'Δv'=0就可以写成Δp+Δp'=0。

这就意味着，碰撞前后，小球A的动量增加了多少，小球B的动量就要减少多少，这样它们动量的变化量加起来才等于0。

两个物体发生碰撞，碰撞前后，一个物体的动量增加了多少，另一个物体的动量就减少了多少，这说明了什么呢？

这自然说明：碰撞过程中，两个小球的总动量守恒。

30动量守恒定律

碰撞前我们总共有10份动量，碰撞后你的动量增加了2份（+2），我的刚好减少了2份（-2），那总动量还是10份，跟碰撞前一样（2-2=0）。

这就是跟能量守恒定律齐名，另一个大名鼎鼎的守恒律：动量守恒定律。

能量守恒定律更深层的原因是时间平移不变性，就是说昨天的物理定律跟今天的一样；动量守恒定律更深层的原因则是空间平移不变性，就是说北京的物理定律跟武汉的物理定律一样。

守恒律跟对称性之间有非常密切的关系，这里我不细说，你们有个概念就行。

再回顾一下推导过程，想想我们是如何得到动量守恒定律的？

我们假设两个小球碰撞时没有摩擦力，也没有其它外力（或者合外力为0），所以它们的内力大小相等、方向相反，再加上作用时间相同，这才得到了动量守恒定律。

也就是说，动量守恒是有条件的，如果我们想让一个系统（比如两个小球）满足动量守恒，那这个系统就必须没有外力（或者合外力为0）作用。

知道了动量守恒，我们再单独看看动量（p=mv）这个概念。

如果我用力F推一个质量为m的小球，让小球从静止加速到速度v，那它的动量就增加了mv。

而速度v和加速度a之间有这样一个简单的关系：v=at。我们在两边同时乘以质量m，左边就凑出了动量的样子：mv=mat。右边一眼就看到了ma这个老朋友，立马根据牛顿第二定律F=ma，用力F替换掉。

于是，式子就变成了：mv=Ft。

这个式子告诉我们，我用力F去推一个小球，推了t秒，那么小球的动量（mv）就增加了Ft，动量成了力在时间上的一个累积（还记得力在空间上的累积F·S是什么么？）。

所以，苹果下落时，重力mg就会在时间上不停累积，这就让苹果本身的动量增加了。因为重力对苹果来说是外力，所以苹果自己的动量是不守恒的。

但是，如果我们考虑苹果和地球组成的系统呢？

苹果之所以会下落，是因为地球对苹果有一个引力。这种情况下，让苹果下落的重力就不再是苹果和地球组成系统的外力了，而是系统的内力。

所以，苹果和地球组成的系统，动量就又守恒了。

好，把思路再拓宽一下，你会发现有很多只有内力“窝里横”的场景，这种时候动量守恒定律就会变得非常有用。

牛顿第三定律只涉及到作用力和反作用力，孤零零的两个力发挥余地有限。但是，动量的定义是质量乘以速度，速度可是非常基础的物理量啊。

31碰撞

再回到经典的碰撞问题上来，如果一个质量为m1的小球以速度v1正面撞击一个质量为m2的静止小球，碰撞之后这两个小球的速度能求出来么？

这是一个非常实在又实用的问题。首先，我们可以想一下：只有这几个条件，能不能求出结果来？

你想啊，一个质量为m1的小球静止在那里，状态是固定的。另一个质量为m2的小球以确定的速度去撞它，这个状态也是确定的。那么，这样撞击之后状态是不是确定的呢？如果把这个过程重复100遍，会得到一样的结果么？

直观的想，结果应该是一样的。如果不一样，就意味着每次用同样的力道去击球，球的速度居然不一样，那台球还怎么玩？

从力的角度考虑，小球以一定的速度去撞击另一个小球，那碰撞产生的力也应该是一样的，于是加速度也一样，所以它的运动状态也应该是一样的。

因此，碰撞后两个小球的速度应该是确定的。既然确定，你就应该能把它们算出来，算不出来就是没本事。

那回到问题，对于碰撞过程，碰撞前小球的速度都知道，小球的质量也都知道，唯二不知道的就是两个小球碰撞后的速度。

有两个物理量不知道，我们想求出这两个物理量，就需要找到两个方程（一个方程就是一种限制条件，两个方程才能确定两个未知量，因为两条直线确定一个交点）。

第一个限制条件好说，两个小球发生碰撞（没有外力，不考虑摩擦力），这两个小球组成的系统肯定动量守恒。

假设碰撞后小球的速度分别为v1'和v2'，根据动量守恒（碰撞前的总动量等于碰撞后的总动量）就能写出第一个方程：m1×v1+m2×0=m1×v1'+m2×v2'。

于是，我们从动量守恒的角度给出了第一个限制方程。

但是，这个问题有两个未知量v1'、v2'，因而需要两个限制方程才能求解，那去哪找第二个方程呢？

很多人立马会想到跟动量守恒齐名的能量守恒，没错，动量和能量确实是看待问题的两个绝佳角度。而且它们都不涉及具体的力，不用分析中间过程，只关注开始状态和最终状态。

因此，我们有理由相信，让动量守恒和能量守恒双剑合璧，应该就能解决问题了。

那么，现在的问题就变成了：小球碰撞过程中能量到底守恒不守恒？不，能量肯定是守恒的，它无非就是从一处跑到了另一处。

由于小球都在地面，它们的能量都以动能（mv²/2）的形式存在。所以，我们更精确的问题应该是：碰撞过程中小球的动能是否守恒？

如果动能也守恒的话，我们立马就可以再列一个方程出来，那两个方程两个未知量，问题就解决了。

由于地面光滑，没有摩擦力，动能没法通过内能损失掉。而碰撞过程中水平方向只有内力在起作用，那这个内力会不会造成小球的动能泄露呢？

32动能是否泄露？

回想一下，一个力要如何做才能改变物体动能呢？只要力作用在物体上，物体的动能就会变么？

当然不是！

地面上放着一个大箱子，它的动能为0（因为速度为0）。我用力去推它，结果没有推动，那箱子的动能就还是0，这就说明这个推力没能改变物体的动能。

如果我推动了箱子，让箱子在推力方向上移动了一段距离，那箱子就动了起来，动能就增加了。

所以，光有力并不能保证改变物体的动能，我们还需要物体在这个力F的方向上移动了一段距离S，确保F·S≠0之后，才会改变动能。

前面也说了，一个力F作用在物体上，并且使物体在力的方向上移动了一段距离S，物理上就说这个力F对物体做了功。做功是能量由一种形式转化为另一种形式的过程。

这样我们就明白了：要判断小球在碰撞过程中动能是否守恒，关键就要看碰撞时内力到底有没有让小球沿着内力方向移动了一段距离。

简单来说，就是看这个小球有没有被压扁。

因为压扁就是一种形变，碰撞的内力把足球压扁了，就意味着这个内力让足球的一部分在内力的方向上前进了一段距离，所以内力对足球做了功，总动能不再守恒。

33动能守恒的碰撞

当然，我们知道世界上并没有绝对坚固的物体，任何物体都是由一大堆分子、原子组成的。两个物体碰撞时，这些分子、原子肯定会动。

但是，考虑到实验的精度，也为了研究的方便，我们还是会考虑这种绝对坚固的刚体。刚体在碰撞时不发生任何形变，内力无法改变它们的动能。

于是，整个碰撞过程就变成了一个小球的动能转移到了另一个小球身上，它们总动能守恒。

所以，如果两个小球是绝对刚体（是不是绝对刚体题目都会告诉你），它们碰撞时没有任何形变，不会被压变形。这种情况下，它们的碰撞过程就不仅满足动量守恒，还满足动能守恒。

于是，我们就可以列出两个方程（动量守恒方程和动能守恒方程），需要求的未知量也只有两个（两个小球碰撞后的速度）。这样，两个方程，两个未知量，直接就能求解了。

另外，我希望大家能够清晰地意识到：到这里，我们这个物理题目就已经做完了。我们根据物理知识分析物理图像，列出了物理方程后，物理工作就做完了，剩下的解方程只是纯数学问题，步骤也是非常程序化的。

大家在学习物理时，对什么是数学问题，什么是物理问题要有清晰的概念。如果你对物理学的框架很熟悉，脑袋中的物理图像也很清晰，那这个界限是很明显的。

如果你觉得物理跟数学游戏一样，那就说明还没有建立一个清晰的物理图像，这是很可怕的。

至于为什么有两个未知量，我们就需要列两个方程，这是一个非常基础的数学问题。

你想想，如果我们建了一个二维坐标系，两个量（x,y)就组成了坐标系里的一个点。

如果没有任何方程约束它们，那x和y可以取任何值，这个点（x,y）就可以出现在平面的任何一个地方，它们当然是不确定的。

如果有一个方程呢？那意味着x和y就不能随意取值了，它们的取值必须满足这个方程才行。这样，点（x,y）就只能出现在一些特定的地方，它们就组成了一条直线或者曲线y=f(x)，也就是函数的图像。

如果有两个方程限制，那（x,y）就必须同时出现在这两条直线（曲线）上，它可以活动的范围就更窄了。如果这两条直线有唯一的交点，这个交点（x,y）就是它唯一可以去的地方，于是x和y就都唯一确定了。

x和y确定了，就意味着未知量都求出来了，那题目也做完了。

这个道理，不清楚的可以自己再琢磨一下。反正，对于物理问题，基本上你有几个未知的物理量，就得列出几个独立的方程来。

所以，你再回头看看小球m1、m2的碰撞过程，它总共有6个物理量：两个小球的质量m1和m2，两个小球碰撞前后各自的速度v1、v2、v1'、v2'。

未知量有6个，但我们拥有的限制方程只有动能守恒和动能守恒2个，6-2=4。

所以，命题老师不管怎么出题，都必须告诉我4个物理量，我才能求出另外2个。如果你只告诉我3个，那对不起，这题解不出来，你另请高明。

为什么只已知3个就一定解不出来呢？还是以碰撞为例，我先告诉你两个小球的质量分别为m1、m2，这已知2个了。再加一个，比如我再告诉你m1碰撞前的速度v1等于0，这就3个了，你能根据这些求出其它物理量么？

这题显然无解啊，两个小球摆在这里，已知一个是静止的，然后你问我它们碰撞之后各自的速度是多少？你确定没有在逗我？

关于物理图像和数学方程之间的事，这里就不多说了。大家可以自己多琢磨琢磨，力求把物理图像搞清楚，然后把一个题目的物理部分和数学部分分清楚，这会大有裨益。

好，两个方程两个未知量，动能守恒的碰撞问题就结束了。

那接下来的问题自然就是：如果不是绝对坚固的小球，如果碰撞时一个小球会被压变形呢？

34动能不守恒的碰撞

首先，如果碰撞时小球被压扁了，那碰撞过程中动量还守恒么？答案是动量依然守恒。

因为我们推出动量守恒，只用到了作用力和反作用力大小相等、方向相反，并且作用时间相同。所以，只要没有外力参与，我不管你有没有被压扁（压扁也是内力），总动量都守恒。

但是，如果碰撞时一个小球被压扁了，内力做了功（在力的方向上移动了一段距离），那么碰撞过程中总动能肯定就不再守恒，有一部分动能被内力泄露了出去（比如，挤压小球，小球变热了，动能就转化成了内能）。

如果我们还想从能量守恒的角度也给出一个限制方程，那就必须知道这个内力到底带走了多少能量。也就是必须要能算出这个内力F移动了多少距离S，把F·S算出来，否则，没戏。

所以，出题人就不会让你去计算两个皮球撞扁了的情况。因为，把皮球压扁的力F不好算，到底压扁了多大的距离S也不好算（一个球的一半被压扁了，你说这距离要怎么算？）。

于是，你就没法计算内力到底做了多少功，没法知道这个过程中到底损失了多少动能。这样，能量守恒的方程列不出来，就没法算了。

什么，没法算？

那怎么行！出题人有出题人的追求，出题人有出题人的崇高理想。我们怎么能够因为碰撞时损失的动能无法计算就放弃呢？放心，我们一定会想办法让同学们能算出来，而且用中学数学就能算出来。

碰撞问题涉及两个（甚至更多的）物体，比一个物体的问题更复杂。

它可以承载动量守恒、能量守恒这两个极为重要的东西，很全面。而且，如果不是绝对刚体之间的碰撞，动能就还有损失，就更加复杂了，是拉开优等生和特等生好办法，是让高考题具有区分度的绝佳武器。

这么好的机会，错过这个村就没这个店了。出题人不死心，他们在思考：要如何设计，如何简化，才能让这个碰撞问题在高中也能求解呢？

他们想，两个皮球的碰撞问题之所以无法求解，根源就在于碰撞过程损失的动能无法计算，这样能量守恒的方程就列不出来。

皮球碰撞时接触面太大，这样碰撞时就有太多接触点，于是就会有非常多大小不一的力F；接触面积太大，也会让求内力移动的距离S变得遥不可及。

如果想让这个损失的动能F·S可以计算，最好内力F是单一的，而且是可算的。这个碰撞的接触点也不能太多，最好就是一个点。如果碰撞时另一个小球可以变得很小很小，小到跟子弹那样可以近似看成一个点，那子弹打入的深度（即距离S）就好算了，力也相对好求。

咦，那我为什么不干脆就用子弹来出题呢？

于是，出题人就想到利用子弹代替其中的一个小球。至于另一个小球嘛，用子弹打钢球，打不动；用子弹打皮球，会打爆不好控制。于是，出题人想到了一个绝佳的替换物：木块。

子弹打在木块上，木块不会飞，也不会毫发无伤。子弹刚好可以打进木块一定的深度（那这个距离S就搞定了），子弹在木块里受到的力，你说巧不巧，还真有可能是恒力F。

于是，这么一改，力F和距离S就都变得可以计算了，子弹和木块“碰撞”时损失的动能也可以算了（就是子弹打进木块时，子弹和木块的内力和打进深度的乘积）。

那么，左手动量守恒方程，右手能量守恒方程（碰撞前的动能=碰撞后的动能+损失的部分F·S），两个方程两个未知量（碰撞后的速度），剩下就是解方程，纯数学问题了。

于是，大名鼎鼎的“子弹打木块”模型就出来了。

你们看，为了能让你们用高中知识解一道题，出题人也是煞费苦心啊~

35出题与刷题

为什么我要在这里给你们剖析出题人的心路历程呢？

如果你能明白为什么“小球碰撞”模型不够用，出题人被迫拉出“子弹打木块”模型来救场，你肯定就能非常明白动量守恒、能量守恒在碰撞过程中的作用。理解了这些，你是不是甚至有点想自己出点题试试了呢？

如果你能理解这些，甚至想自己出出题试试，那基本上就可以告别题海了。

刷题的目的是什么？就是让你通过反复的练习，领悟它们背后的这种关系。如果你已经居高临下地理清了它们之间的逻辑关系，那就只要稍微做点题熟悉一下就完了。

题目是做不完的，题目的变化也是无穷无尽的。但是，所有题目背后的物理规律都是一样的，牛顿力学看待世界的眼光，处理物体运动的方法都是一样的。

我们学习物理，学习牛顿力学，就是要学习它们看待世界，处理运动问题的方法，而不是要陷入无穷无尽的题海中去。

我花如此大精力写这篇文章，当然不是就为了教你几种题目的具体解法（这种书市面上一大堆）。

我是希望能帮你把整个高中物理的内容都串起来，让你在脑海中形成一个清晰、完整的物理图像；让你知道你在分析每一道题，列每一个公式时，知道自己在干什么；让你知道高中物理虽然有定量的计算，但它的整体思想依然是非常简单的。

而且，我也相信你一旦把这体系理清楚了，把这些物理图像都想清楚了，再看到具体题目时，都会有一种“一览众山小”的感觉，觉得题目变来变去也跳不出你的手掌心。

不信的话，我就当你没接触过高中物理，你顺着这篇文章把思路仔细理一理。下一篇文章我就可以带你去看一看、想一想、做一做物理高考题~

好，关于动量的事情就讲到这里。

只要大家能从原理上搞清楚动量是怎么回事，知道动量守恒需要什么条件，知道我们这些过程都是如何推导过来的，脑海里有清晰的物理图像就行了。

当然，虽然我们这里好像是从牛顿第三定律出发“推出”了动量守恒，但这并不是说动量守恒定律就是牛顿第三定律的一个推论。

我这个给你“推导”一下，主要是想让你从力的角度对动量守恒有个清晰的图像。

其实，动量、能量远比力用得更广泛，它们在所有物理学里都是非常核心而基础的概念。而力的概念，在牛顿力学之外基本上就没怎么使用了。

动量守恒和能量守恒也是在所有物理学里都存在的，决定这些守恒律更深层的原因是时空的对称性（能量守恒对应时间平移不变性，动量守恒对应空间平移不变性）。

如果把动量和能量都搞清楚了，把动量守恒和能量守恒的条件和过程也都弄清楚了，那你就掌握了另一种看待物理世界的方法，一种不同于从力的角度看问题的方法。

放心，高中物理不会再有第三种视角了~

36两种视角

那么，在分析具体的问题时，我们是从能量-动量的角度分析，还是从力的角度去分析呢？

一开始的时候，我建议大家两种都试试，正所谓“小孩子才做选择，大人我全都要”。

比如，还是那个自由下落的苹果。

从力的角度看，是苹果受到的合外力为重力。在重力的作用下，苹果按照牛顿第二定律F=ma产生了一个重力加速度（大小约为9.8m/s²），然后苹果以这个加速度运动。至于运动的具体细节，不过就是那5个运动物理量（V0、Vt、a、t、S）之间的数学关系。

从能量的角度看，就是苹果的重力势能转化成了动能。因为总能量是守恒的，所以，重力势能减少了多少，相应动能就会增加多少。

从动量的角度看，苹果下落时受到了一个外力（重力），所以苹果的动量是增加的。

但是，如果你把苹果和地球看作一个整体，那重力就成了苹果和地球之间的内力，那么苹果-地球组成的系统就动量守恒了。但这好像也没啥用，地球对苹果来说太大了，我们也没有无聊到想去计算一个苹果下落对地球运动造成的影响（起码等苹果有月亮那么大再说）。

同样，一个小球从光滑斜面上滚下来，你可以对它进行受力分析，利用F=ma计算它的加速度，分析它的运动情况，也可以看成是它的重力势能转化成了动能。

如果斜面不光滑，有摩擦力，那你在计算合力时就要把摩擦力考虑进去，考虑能量转化的时候也要把摩擦力做的功考虑进去。

不管这个力怎么变，从重力变成一个推力、摩擦力、电场力、弹力等等都好，上面这个思路并不会变。从力的角度来看，无非就是变换了一个力的品种，从能量的角度来看，不过就对应增加了一种能量，它们之间是一一对应的。

如果两种思路都玩熟了，你自然就知道在什么样的情况下选择什么样的思路会更简单，而不用一开始就牢记某种所谓的“简便”方法。

这种不明白大局的“简便”，往往是最复杂的。就像一个武林高手可以谈“无招胜有招”，你在新手村谈“无招胜有招”就是找死。

37物理与数学

此外，我们在分析物理过程时，要尝试把问题的物理部分和数学部分区分开。

说简单一点就是，当我从物理角度，从力或者能量-动量的角度考虑问题时，我把方程列出来就算完了，剩下解方程只是数学问题。

不过，我们心里要明确：一个方程其实就是一种限制。

一个苹果在没有任何限制的时候，它可以随便动。但是，因为它下落时要满足能量守恒，这个能量守恒就是一种限制。因为这种限制，苹果就只能那样下落。

如果我们要求的未知量只有一个，那只需要一个方程就能把未知量求出来（比如求苹果下落的末速度，能量守恒一个方程即可）；如果我们要求的未知量有两个，那就需要两个方程才能把未知量都求出来（比如小球碰撞时，求两个小球的末速度，就需要从能量、动量的角度各找一个方程）。

把方程找齐了，这个物理题目就算做完了，因为解方程不属于物理过程，它有非常固定的数学解法。

所以，我希望大家在学习高中物理时，能先把整个框架，整个脉络理清楚，把物理过程的图像都看清楚。在这个基础之上，我们再去追求所谓的简便方法，各种技巧，这也是我写这篇文章的原因。

很多人一到高中就钻进各种各样的技巧和简便方法里去了，他记住了各种物理模型，知道碰到这种题应该怎么做，碰到那种题应该怎么做。但是，他无法通过这些题目建立起一个完整的力学图景来，无法让他的知识点变成知识体系。

这样，题目一变，题型一变，他就会感觉很吃力。然而，无论出题老师怎么变，在高中玩力学，都逃不出牛顿的手掌心。

这个道理，希望大家能早点明白。

38结语

长尾君本来是在写相对论的，上一篇文章还是《相对论诞生：爱因斯坦是如何创立狭义相对论的？| 主线》。按照原先的计划，我是打算等相对论-量子力学-量子场论之类的写完了再来写中学物理的。

但是，社群里有些家长的孩子已经高中了，有些快要念高中了。他们很希望我能尽快写点中学物理的东西，从更高的维度把高中物理串起来（就像之前的主线文章那样）。

还有些家长，虽然孩子还在念小学，但从小的科普书、科普视频没少看，能够定性的从大爆炸、黑洞、引力讲到电子、中子星、夸克。他们从小对科学非常感兴趣，家长也很高兴。

但是，当孩子们好像什么都能定性地说一点时，家长们反倒不知道接下来应该怎么办了。

因为很多东西定性了解起来容易，但是如果想继续深入了解，就得知道如何做定量计算。这本来是从初中物理到高中物理的转变，但由于现在获取信息变容易了，很多小学生也面临这种问题。

这也很容易让有些小学生形成一种错觉：让他们觉得物理好像也不过如此，觉得自己好像已经天上地上什么都知道了，然后开始自大……

我一直把中小学生的科学教育看得非常重要，之前的微积分、麦克斯韦方程组、相对论系列文章，我都执意把它们写得极为通俗（以至于让有些读者觉得太啰嗦），目的就是尽量让更多人，包括中小学生也能看懂。

即便中小学生看起来太费劲，或者没有机会看公众号的文章，家长们看懂之后按照这个思路也能很容易给孩子讲明白。

科学教育要从孩子抓起，只有小孩子真正理解科学，热爱科学，我们才能诞生真正的科学大师，这个道理大家都懂。

所以，我还是决定先暂停相对论的科普工作，转而写一篇帮大家理清高中物理框架，建立物理图像的文章。虽然这种文章的B格没有相对论、量子力学那么高，但是，我想应该会有更多中小学生从中受益吧。

社群里有位大佬回忆他的初中物理老师时，有句话让我印象非常深刻，他的老师说：“我先教你们什么是真正的物理，再用半年教你们如何应付考试。”

帅呆了有木有？这也是我想通过这篇文章传递给你们的一个信息。

我知道很多人进入高中以后，会开始觉得物理很枯燥、很难，觉得它既不酷又不美。

但这不是物理的错，而是你看待物理的角度错了。

我们欣赏一处风景，看一部电影，都有一个正确的打开方式。你躲在一个山洞里，当然无法欣赏“登高壮观天地间，大江茫茫去不还”的壮丽；你在电影院第一排的最角落，当然也很难很好地欣赏一部电影了。

你想想，牛顿、爱因斯坦、狄拉克这些人为什么会被物理学迷得死去活来？再想想，你学的物理跟他们学的物理并没有什么不一样啊？

所以，物理学本身是非常美的，需要改变的并不是物理本身，而是我们看待物理的眼光。

我也学过高中物理，所以很清楚许多人到了高中是如何把物理看歪了的，希望这篇文章能多多少少帮大家把角度扶正一点。

最后，高中物理并不是对初中物理和科普物理的“背叛”，而是一种深化，物理学的内核始终是一致的。能够进行定量计算的物理，就像老酒一样，越品越醇，越品越香。

希望高中的你，依然热爱物理~

《你也能懂的微积分》

《相对论诞生：爱因斯坦是如何创立狭义相对论的？| 主线》

《如何引导初中生做定量的物理计算？|长尾谈话录》

收起阅读 »

不确定性原理到底在说什么？

量子力学

提到量子力学，不确定性原理就是一个绕不开的话题。不确定性原理非常直观地体现了量子力学和经典力学之间的差异，而且表述还非常简单。它既不像薛定谔方程那样需要微积分和分析力学的基础，也不像算符、矩阵那样需要线性代数的基础，基本上谁都能谈几句。但是，要想真正理解不确定...

继续阅读 »

提到量子力学，不确定性原理就是一个绕不开的话题。

不确定性原理非常直观地体现了量子力学和经典力学之间的差异，而且表述还非常简单。它既不像薛定谔方程那样需要微积分和分析力学的基础，也不像算符、矩阵那样需要线性代数的基础，基本上谁都能谈几句。但是，要想真正理解不确定性原理，就远没有看上去的那么简单了。

这种情况跟狭义相对论里的质能方程E=mc²很像，质能方程也是咋一看非常简单，似乎谁都能谈几句。但是，如果想真正理解质能方程，就必须深入狭义相对论语境，如果只是站在牛顿力学的角度，直接从字面意思来理解质能方程，那不可避免地就会带来各种误解（这些我在《你也能懂的质能方程E=mc²》里已经详细说了）。

不确定性原理是量子力学的产物，我们也只有深入量子语境才能真正理解它，如果只是从牛顿力学的视角，单从字面意思去理解它，一样会产生各种稀奇古怪的误解。

01常见的误解

不确定性原理的一个常见表述是“我们无法同时确定粒子的位置和动量”，有的地方还喜欢把“确定”替换为“测准”，说“我们无法同时测准粒子的位置和动量，你把粒子的位置测得越准，它的动量就越不准确，反之亦然”。

这就很容易让人这样理解不确定性原理：为什么我们无法同时测准位置和动量呢？因为如果这里有一个电子，你想测量它的位置就得用光子或者其它粒子去撞击它。你想把电子的位置测得越准就得使用波长越短的光（波长太长就直接绕过去了），而光的波长越短能量就越高，你用越高能量的光子去撞击电子，就会把电子撞飞得越快，这样电子的动量就更加不确定了。

于是，你觉得越想测准电子的位置，就会对它的动量产生越大的干扰，进而让它的动量更加不确定，反之也一样。许多人认为这就是无法同时确定电子的位置和动量的原因，并认为这就是不确定性原理想说的。

这种说法很流行，很多科普文都这样介绍不确定性原理，他们告诉你：正是因为你用光子测量电子位置的操作干扰了电子的动量，所以无法同时确定电子的位置和动量。

为什么这种说法会很流行呢？

第一，它看起来好像也没啥问题，而且通俗易懂，中学生都能理解；第二，不确定性原理的发现者——海森堡一开始也是这么理解的。也就是说，海森堡在一开始也认为是测量过程中不可避免的干扰导致了我们无法同时确定粒子的位置和动量。

我在《什么是量子力学？》里也讲过，许多量子力学的科普文其实都是在讲量子力学前25年的历史，既然是讲历史，那到了不确定性原理这里，自然就要讲一讲海森堡那些通俗易懂的思想实验。但是，如果你顺着历史再往后走几步，就会发现玻尔很快就批评了海森堡的这种思想，而海森堡自己也接受了。

也就是说，海森堡也只是在一开始是这样想的，他也只是在刚发现不确定性原理的时候觉得电子动量的不确定性是由于“测量电子位置带来的干扰”导致的，玻尔的批评很快就让他意识到这么想是不对的。

时至今日，随便翻开一本量子力学教材，里面大概率都会清清楚楚地告诉你：不确定性原理并不是由于测量导致的，它是粒子的固有性质，并不依赖于任何测量。

其实，测量是仪器和被测物体之间的一种相互作用，仪器在测量过程中肯定会对被测物体产生一定干扰，这在任何情况下都存在，并非量子力学特有的。这种仪器对被测物体的影响，在物理学上有另一个名字，叫观察者效应（Observer effect），它跟不确定性原理（Uncertainty principle）有本质的区别。

在经典力学里，物体的位置和动量在理论上是确定的，但测量过程多多少少会对被测物体产生一定影响，所以实际的测量总会存在一定误差。

但量子力学却是在理论上就认为物体在一般情况下不存在确定的位置和动量，而且无论处于什么状态（本征态也好，叠加态也好），你都没法同时确定物体的位置和动量。这跟测量的精度或者测量过程产生的扰动都无关，而这，才是不确定性原理想告诉我们的。

也就是说，对不确定性原理那种广为流传的解释其实是错的。他们把不确定性原理当成了观察者效应，认为是测量过程中的扰动造成了我们无法同时测准粒子的位置和动量，而没有意识到这种不确定性是理论上的，是粒子的固有性质，跟你测不测量无关。

那么，这种理论上的不确定性是怎么来的呢？

02力学量的平均值

在《什么是量子力学？》里我们就讲过，经典力学里的力学量在任何时候都有确定值，一个物体在任何时候都有确定的位置和速度，跟你测不测量，如何测量都无关。

但到了量子力学，力学量是否有确定取值却跟系统状态有关：如果系统处于本征态，那测量这个力学量时就有确定值；如果系统处于叠加态，那测量这个力学量时就没有确定值。因此，如果你里想讨论力学量的取值，就得先确定系统的状态，看看它是本征态还是叠加态。

以位置为例，如果电子处于位置本征态，那测量位置时就有确定值（该本征态对应的本征值）；如果电子处于位置叠加态，那测量位置时就没有确定值，而是有一定概率处于各个位置本征态对应的本征值。

然后，有一点我们要特别注意：当系统状态确定以后，虽然电子的位置在一般情况下不确定，但它的平均值却是确定的。

比如，电子处于某个位置叠加态，测量时有70%的概率处于x=1处，有30%的概率处于x=2处，虽然我们不知道测量结果到底会是x=1还是x=2，但我们知道电子的位置平均值一定是x=1×0.7+2×0.3=1.3。

这就是说，只要系统状态确定了（不管是本征态还是叠加态），虽然力学量的具体取值一般不确定，但它的概率分布却确定了（详见《什么是量子力学？》里的玻恩规则部分），任意力学量的平均值也就随之确定了。平均值是个非常重要的概念，从这里我们也能看到量子力学的统计性质。

提到平均值，大家都非常熟悉。学校举行考试时，如果想对比两个班级的成绩，我们最常见的做法就是计算两个班级的平均分。计算方法也很简单，把一个班里所有人的成绩都加起来，再除以总人数就得到了这个班级的平均分。如果一班的平均分比二班高，那我们大体上就认为一班比二班考得好。

当然，平均分很有用，但它的局限性也很大。特别是，当一个样本的数据波动过大时，平均值往往就很难反映真实情况了。就像大家经常调侃的，如果把我的收入跟马云、马化腾平均一下，那大家也都是身价百亿的人了，这样的平均显然没什么意义。

同理，如果二班的平均分要低一些，但我们仔细一看，却发现二班有大量同学考了95分以上，但因为某些原因也有些人只考了几分，甚至0分，这少数超低分就把班级的平均分拉了下来。而一班绝大多数人都考了70多分，既没有考得很高的，也没有考得特别低的。这样一算平均分，一班确实比二班高了一点，但你觉得这种情况下还仅凭平均分来判断两个班的成绩，还合适么？

为什么平均分在这种情况下好像并不好用了呢？原因很简单，因为二班的成绩波动太大了，接近满分和接近0分的人都有很多，而平均分会把这些波动给抹掉。因此，如果我们想更好地描述二班的情况，那就得想办法描述这种波动，如何描述呢？

这时候，我们就要引入两个新的量：方差和标准差。

03方差和标准差

方差是怎样体现班级的成绩波动的呢？

思路也很简单，一班的分数大多在70到80分之间，假设它们的平均分是75分吧。当我们说一班的成绩波动很小时，我们其实是在说一班的大部分成绩都在75这个平均分附近，它们相对平均分的波动很小。当我们说二班的成绩波动很大时，也是在说二班的大部分成绩距离它们的平均分（假设是74分）比较远，大家相对平均分的波动很大。

所以，如果想计算一个班级的整体波动，那你就先把这个班级的平均分算出来，再把每个人相对平均分的波动算出来，最后把所有波动加起来再除以总人数，这样得到的结果就能大致反映一个班级的整体波动了，这也是计算方差的大致思想。

比如，一班的平均分是75分，有个同学考了70分，跟平均分差5分；有个同学考了80分，跟平均分也差了5分。我们把所有人跟75这个平均分的差值都算出来，把它们加起来再除以总人数，得到的结果就能大致反映一班成绩的波动情况了。

但大家很快就会注意到：直接用每个人的分数减去平均分的差来度量这个波动是不行的。因为考了80分的同学减去平均分75等于5，考了70分的同学减去平均分75等于-5，你把它们直接加起来，那总的波动就是5+（-5）=0了，这肯定不对。

要解决这个问题，很多人的第一反应是给它套个绝对值。没错，套了绝对值以后，负数就变成了正数（|5|+|-5|=5+5=10），这样就不会再出现“正负相消”的情况了。这样处理在理论上没啥问题，但绝对值在具体计算时会比较麻烦，为了方便计算，我们采用了另一种方式：给它套个平方。

大家知道，负数的平方也是正数，这样它也能达到绝对值的效果，但计算起来会更方便。

比如，对于考了70分的同学，我们用70减去平均分75，再套个平方（70-75）²=25来表示这个波动；对于考了80分的同学，我们就用（80-75）²=25来表示这个波动，其他人以此类推。把所有人相对平均分的差的平方都加起来，再除以总人数就得到了衡量班级整体波动水平的方差。

有了方差，我们就能看清各个班级的波动情况了，也能清楚地看到二班的成绩波动确实比一班大。

一班的平均分是75分，大量考了70分的同学产生的波动只有（70-75）²=25；假设二班的平均分是74分，那考了100分的同学立马就会产生（100-74）²=676的波动，考了0分的同学更是以一己之力就能贡献（0-74）²=5476的波动值。闭着眼睛都知道，二班的方差肯定会远远大于一班，这也反映了二班成绩的波动远远大于一班。

所以，通过方差，我们确实能够判断样本的波动情况。不过，从上面的例子大家也能看到，方差虽然好用，但它的数值还是有点偏大（考了0分的同学对应的值竟然高达5476，这让我们很难直观地作判断）。为了方便判断，我们对方差再开个根号（方差是9，标准差就为3），这样就得到了标准差（一般用σ来表示），后面我们使用的也都是标准差σ。

平均值、方差和标准差都是概率统计里最基础的东西，大家在中学数学里也学过了，这里我就不再细说了。在这里，我们只要知道方差和标准差可以衡量一个样本的波动情况，方差、标准差大，就说明它们偏离平均水平越厉害就行了。

04不确定性原理

好，再回到主题。我们刚刚不是在讲不确定性原理的么，为什么这里突然讲起了方差和标准差？

那是因为，大家经常看到的不确定性原理的表达式ΔxΔp≥ℏ/2（ℏ=h/2π），这里的Δx和Δp指的就是标准差，而不是大家先入为主地以为的测量误差。

什么意思？

意思就是，你经常看到的不确定性原理ΔxΔp≥ℏ/2，它说的是位置x和动量p的标准差的乘积最小只能为ℏ/2，它说的是统计意义上的标准差的乘积不能无限小，而不是说测量时的干扰误差。

很多人一看到Δx，潜意识里就会认为这是一个微小的位置变化。到了不确定性原理ΔxΔp≥ℏ/2这里，就很容易把Δx当成测量位置时由于干扰带来的误差，这样就很容易陷入一开始说的那种对不确定性原理的错误理解中去，让我们误以为粒子的不确定性是由测量的扰动引起的。

如果这里不是用的Δx和Δp，而是σx和σp，那不确定性原理是不是就没那么容易引起误解了呢？

在很多教材里，位置-动量不确定关系确实写作σxσp≥ℏ/2 (ℏ=h/2π)，这里的σx、σp并不是测量位置、动量时的干扰误差，而是从统计意义上来说的位置和动量的标准差。

那问题就来了：一个粒子的位置和动量，怎么会有统计意义上的标准差呢？

在经典力学里，这个概念当然是毫无意义的。经典力学的粒子在任何时候都有确定的位置和动量，它们没有任何波动，谈论单个粒子的位置和动量在统计意义上的平均值和标准差也显得相当搞笑。

但到了量子力学，情况就完全不一样了。在量子力学里，只有当系统处于位置本征态时，粒子的位置才是确定的；当系统处于位置叠加态时，粒子的位置就是不确定的。测量时有一定的概率处于这个位置，有一定的概率处于那个位置，我们还能算出具体的概率值。

当粒子有一定概率在这，也有一定概率在那时，我们不就可以计算粒子的位置平均值了么（假设有许多跟它一模一样的粒子，我们一个个去测量，再统计它们的平均值）？有了平均值，每个可能的位置相对平均值的波动也能算出来，于是，我们就能计算出粒子的位置标准差σx，动量标准差σp也一样。

这样一来，我们就能从统计意义上谈单个粒子的各种力学量的平均值、方差和标准差了，因为粒子的力学量在一般状态下并没有确定值。

再回到前面的例子，我们假设电子处于某个位置叠加态，测量时有70%的概率处于x=1处，有30%的概率处于x=2处。虽然我们不知道测量时电子到底会在x=1还是x=2处，但我们还知道它的平均值一定是x=1×0.7+2×0.3=1.3。

而且，我们知道这个平均值跟你测不测量无关，只要系统状态确定了，概率分布确定了（70%的概率x=1，30%的概率x=2），我们就能在测量之前把平均值x=1.3算出来。算出了位置平均值，我们一样可以仿照班级考试的例子，算出电子在这个状态下位置的标准差σx，并用它来衡量电子位置的波动情况。

因为这个σx也是在测量之前算出来的，所以我们不需要等测量结束，也不需要知道测量过程中到底有多大扰动就能算出电子的位置标准差σx，它跟你测不测量完全无关。

假如粒子处在状态一的时候，它有50%的概率处于x=4.9处，有50%的概率处于x=5.1处，此时的平均值为x=5；粒子处于状态二的时候，它有50%的概率处于x=1处，有50%的概率处于x=9处，此时的平均值还是x=5。这两个状态下粒子的位置平均值都一样，但我们闭着眼睛都知道状态二的波动更大，所以它的位置标准差σx也更大。类似的，我们也能算出粒子在各个状态下的动量标准差σp。

也就是说，只要系统状态确定了，不管你有没有测量，我们都能算出粒子的位置和动量的标准差σx、σp。那么，这个σx和σp有没有什么关系呢？

经过一番数学推导，我们发现粒子在不同状态下虽然会有不同的位置标准差σx和动量标准差σp，但不论系统状态如何变化，也不论σx和σp跟着如何变化，它们的乘积σxσp都不可能小于ℏ/2。这就是大家最为熟知的位置和动量的不确定关系σxσp≥ℏ/2。

这个推导过程我们后面再说，在这里，我们起码能清晰地看到：粒子的位置平均值是在测量之前就能算出来的，位置和动量的标准差σx、σp也是在测量之前就能算出来的，所以，经过数学推导得到的位置-动量不确定关系σxσp≥ℏ/2也是在测量之前就能得到的。

如果我们在测量之前就能得到这个关系式σxσp≥ℏ/2，那你还能说不确定性原理是由于测量的扰动引起的么？你都还没有开始测量，那还谈什么测量带来的干扰误差？

这样的话，大家能理解为什么我们之前一直说“不确定性原理并不是由于测量造成的，它是粒子的固有性质，跟你测不测量无关”了么？

05一般的不确定关系

大的基调定下来之后，我们再来看看具体的推导过程。

在这里，我们先不盯着位置和动量，而是先考虑更一般的情况。假设有两个任意的力学量A和B，系统状态确定以后，概率分布就确定了，我们就能算出力学量A、B的平均值，进而算出这两个力学量的标准差σA和σB。

那么，不同力学量的标准差之间又有什么关系呢？

利用施瓦茨不等式，经过一番纯数学推导，我们就得到了这样一个关系式：

具体的推导过程比较无趣，我这里就不写了，感兴趣的可以自己去翻一翻量子力学教材。但大家要清楚，我们这里没有引入任何额外的假设，我们只是用了标准差的基本定义，然后利用施瓦茨不等式就得到了上面的不等式。所以，这是一个普适的关系式，是最一般的不确定关系。

它告诉我们：任意两个力学量的标准差的乘积σAσB必须大于等于这两个力学量的对易式[A,B]的平均值（<>代表求平均值）的绝对值的一半。

说起来有点拗口，但平均值和绝对值大家都很熟悉，这里真正起决定作用的是A、B的对易式[A,B]，只要对易式确定了，这个不等式就确定了。而算符A、B的对易式是这样定义的：[A,B]=AB-BA，也就是把两个算符的作用顺序交换一下，再相减。

很多人看到这个对易式之后心里就在犯嘀咕：AB-BA不应该恒等于0么？就像3×5-5×3=0一样，任何两个数交换相乘的顺序，得到的乘积应该都一样，它们相减之后的结果肯定就是0啊。

如果[A,B]恒等于0，那你定义这个又有什么意义？

没错，我们从小就学了乘法的交换律：如果A、B都是数，两个数交换顺序，最后的乘积肯定不变。所以AB一定等于BA，[A,B]=AB-BA就一定恒等于0。

但是，我们这里的A、B并不是数啊，它们是描述力学量的算符。我们确实从小就学了数的乘法交换律，但你有学过算符的乘法交换律么？

没有吧！也不可能学过，因为算符之间压根就没有普适的乘法交换律。有的算符之间可以交换乘法顺序，有的则不能，这跟数的情况完全不一样。

那么，算符的乘法是什么意思呢？两个算符之间可以交换乘法顺序又是什么意思？

06对易式

在《什么是量子力学？》里我们讲过了，量子力学里用矢量描述系统状态，用算符描述力学量。算符可以作用在一个矢量上，把一个矢量变成另一个矢量。比如，我们对一个矢量进行平移、旋转、投影操作，就会对应有平移算符、旋转算符、投影算符。我们把平移算符作用在一个矢量上，就会把一个矢量平移到另一个地方，其它算符也类似。

在A、B的对易式[A,B]=AB-BA里，A、B都是算符，而系统状态ψ是矢量，所以我们就可以把算符B作用在态矢量ψ上，这样就得到了新的矢量Bψ。而Bψ也是一个矢量，那我们又可以把算符A作用在矢量Bψ上，这样得到的新矢量就是ABψ。

也就是说，算符是从右往左依次作用在矢量上的，ABψ就代表态矢量ψ先被算符B作用了一次，然后又被算符A作用了一次。如果A代表平移算符，B代表旋转算符，那ABψ就代表先把态矢量ψ旋转（B）了一下，再把这个矢量平移（A）了一下；而BAψ就代表先把态矢量ψ平移（Ａ）了一下，再把这个矢量旋转（Ｂ）了一下。

这样一来，算符Ａ、B的对易式[A,B]=AB-BA就很好理解了：因为A、B都是算符，AB和BA表示两个算符的连续作用，那就还是一个算符，所以它们相减的结果AB-BA仍然是一个算符。

既然是算符，那我们自然就可以把算符[A,B]作用在矢量ψ上，这就相当于一方面先用算符B后用算符A作用在矢量ψ上（得到了ABψ），另一方面先用算符A后用算符B作用在矢量ψ上（得到了BAψ），最后再把这两种方式得到的矢量相减ABψ-BAψ。

如果先A后B作用在矢量ψ上，与先B后A作用在矢量ψ得到的结果是完全一样的，也就是说[A,B]ψ=ABψ-BAψ=0，那就说明算符A、B之间的乘法是可以交换顺序的，这时候我们说算符A和算符B是对易的。比如，同一平面内两个旋转算符就是对易的，你想想，把一个矢量先旋转一定角度α，再旋转一定的角度β，跟你先把矢量旋转一定的角度β，再旋转一定角度α得到的结果是不是一样的？

当然，并不是所有的ABψ-BAψ都等于0。当[A,B]≠0的时候，那就说明算符A、B之间的乘法顺序不可交换，我们就说算符A和算符B不对易。比如，平移算符和空间反射算符就不对易，你想想，把一个矢量先向右平移一段，再以原点为中心翻转一下，跟你先把矢量翻转一下，再向右平移的结果一样么？

再比如，同样一本书，你先围绕x轴旋转，再围绕y轴旋转，得到的结果跟你先围绕y轴旋转，再围绕x轴旋转的结果还一样么？

这些例子都非常简单，大家仔细琢磨一下，就会发现两个算符之间对易或者不对易都是有可能的。

07对易的力学量

理解了算符乘法和数乘之间的不一样之后，我们再回头看看那个最一般的不确定关系：

如果力学量A和力学量B对应的算符是对易的，也就是说[A,B]=0，那不等式的右边就变成了0。于是，这个不等式就变成了“力学量A和B的标准差的乘积σAσB≥0”。

有人说这不是废话么？标准差σ肯定是大于等于0的啊！我们在求方差的时候就是先套了个平方，确保所有的数都非负，标准差不过是对方差再开个根号，那结果肯定还是非负啊。所以，当力学量A、B对应的算符对易时，这个式子相当于在说“它们标准差的乘积大于等于0”，这是一句废话。

话不能这么说，当力学量A、B对易，也就是[A,B]=0的时候，最一般的不确定关系给出的限制是σAσB≥0。虽然标准差确实都大于等于0，但如果不确定关系给出的限制是σ≥0，这起码说明σ可以取0。因为如果限制是σ≥3，那σ就不能取0、1、2了。

所以，如果力学量A、B对易，最一般的不确定关系给出了限制σAσB≥0，这起码说明：它允许力学量A、B的标准差同时为0，也就是允许σA=σB=0。

那么，允许力学量A、B 的标准差同时为0，这又意味着什么呢？

前面我们讲过了，标准差是反映样本的波动情况的。在量子力学里，如果系统状态ψ确定了，概率分布也就随之确定了，我们就可以算出这个状态下任意力学量的平均值，进而求出它们的标准差σ。我们还知道标准差是非负的，这就意味着力学量可以取的值只要有一个不等于平均值，它就会让力学量的标准差σ＞0。

比如，还是假设粒子有70%的概率位于x=1处，有30%的概率位于x=2处，在这个状态里，粒子的位置平均值x=1×0.7+2×0.3=1.3。又因为粒子可以取的两个值x=1和x=2都不等于平均值1.3，那它们在计算方差时肯定会产生大于零的（1-1.3）²=0.09和（2-1.3）²=0.49，最终的方差和标准差都大于0。

如果你想让这个粒子的位置标准差σx=0，那就必须让粒子所有可能取的位置都等于它的平均值。因为只有这样，每个位置减去平均值的结果才是0，一堆0加起来还是0，于是标准差才能为0。

那么，“粒子所有可以取的位置都等于平均值”又意味着什么呢？我们知道，系统状态确定后，平均值就是一个定值。你想让粒子所有可以取的值都等于这个平均值这个定值，那就只能让粒子的位置只能这取一个值，并且就等于它的平均值。

那么，粒子的位置在什么情况下只能取一个值呢？这个答案我们就非常熟悉了：当粒子处于位置本征态的时候！

绕了一圈，我们发现如果想让粒子的位置标准差σx=0，那就必须让粒子处于位置本征态，这样我们就在标准差和系统状态之间搭起了一座桥梁。

其实，只要稍微想一下，你就会觉得这是非常自然的事情：当电子处于位置本征态时，它的位置就只能取这一个值，那自然就没有波动，标准差σx也为0；当电子处于位置叠加态时，它的位置可以取多个值，那平均值自然就不可能再跟所有的值一样，这样就有了波动，标准差σx也不再为0。

总而言之，我们发现如果两个力学量A、B对易，那最一般的不对易关系就变成了σAσB≥0，它允许A、B的标准差同时为0。而标准差为0就意味着系统必须处于该力学量的本征态，如果σA=σB=0，那就意味着粒子必须处于力学量A的本征态，同时也必须处于力学量B的本征态。

换句话说，如果力学量A、B对易，那它们就可以拥有共同的本征态。当系统处于它们的共同本征态时，力学量A、B的标准差σA和σB同时等于0，而这个结果并不违反σAσB≥0。

08不对易力学量

如果力学量A、B不对易，那情况就完全不一样了。

相信大家也知道，位置和动量就是一对不对易的力学量。为什么位置和动量不对易呢？我们可以来算一下。

在《什么是量子力学？》里我们就讲过，动量算符p在位置表象下可以写成-iℏ∂/∂x，位置在它本身的表象里自然就是x。我们想看看它们对不对易，那把它们代入对易关系[x,p]=xp-px算一算就行了。

如果[x,p]=0，那就说明位置和动量对易；如果[x,p]≠0，那就说明位置和动量不对易。

算符可以作用在矢量和函数上，把它变成另一个矢量和函数。既然位置算符x和动量算符p都是算符，它们的对易关系[x,p]=xp-px也是算符，那我们就让[x,p]作用在函数f(x)上：

计算过程都非常简单，因为[x,p]是作用在一元函数f(x)身上，因此动量算符里的偏导数∂/∂x就可以直接改成d/dx，我们在分子分母上同时乘以一个虚数单位i，就成了上面的样子。

计算的第一步就是把[x,p]f(x)展开为xpf(x)-pxf(x)，再把动量算符代入进去。xpf(x)表示我们先用动量算符p作用在函数f(x)上，再用位置算符x去作用；pxf(x)只是调换了下顺序，表示先用位置算符x作用在函数f(x)上，再用动量算符p去作用。

第二步就是套了一个乘积的求导公式，然后发现前两项可以消去，最后就得到了结果iℏf(x)。

从这个结果我们可以看到：[x,p]f(x)并不等于0，而是等于iℏf(x)。我们把f(x)都去掉，就得到了位置算符x和动量算符p的对易关系：

因为[x,p]≠0，所以位置和动量不对易。这个式子非常重要，它被称为正则对易关系。

在经典力学里，任何力学量都可以写成位置x和动量p的函数，所以，量子力学里任何有经典对应的力学量之间的对易关系，都可以从位置-动量这个最基本的正则对易关系里导出来。

从更深的意义上来说，量子力学里各种神奇的特性最终都可以追溯到这个最基本的对易关系上来。因此，有的教材是把正则对易关系[x,p]=iℏ当作基本假设提出来的。

大家再看看下这个对易式[x,p]=xp-px=iℏ，它告诉我们：对于同一个函数f(x)，先用动量算符p作用再用位置算符x作用的结果xpf(x)，跟先用位置算符x作用再用动量算符p作用的结果pxf(x)竟然不一样，它们的差并不等于0，而是等于iℏf(x)。

09位置-动量不确定关系

有了位置算符x和动量算符p之间的对易关系[x,p]=iℏ，我们把它代入最一般的不确定关系：

立马就能得到位置算符x和动量算符p的不确定关系（ℏ=h/2π）：

这就是位置和动量之间的不确定性关系，也是大家最常见的不确定性原理。

只不过，大家平常看到的大多是用ΔxΔp来表述的，我们这里用了更加不容易引起误解的标准差σxσp，这样大家一看就知道我们这是从统计意义上来说不确定性原理了。

位置-动量不确定关系告诉我们：位置算符x和动量算符p的标准差的乘积σxσp有一个最小值ℏ/2，它不能无限小，更不能等于0。因此，σx和σp不能同时为0。

而我们又知道，只有当系统处于力学量的本征态时，对应力学量的标准差σ才为0。你现在说σx和σp不能同时为0，那就意味着系统不能同时处于位置和动量的本征态。否则，位置的标准差σx=0，动量的标准差σp=0，这就违背了它们之间的不确定关系σxσp≥ℏ/2。

因此，当我们测量一个粒子的位置时，系统会从原来的状态变成某个位置本征态。当系统处于位置本征态时，粒子的位置就只可能取一个值，位置的标准差σx=0，此时动量的标准差σp就变成了无穷大（这里0和无穷大相乘并不等于0，这里不细谈）。看上去就是位置和动量之间会相互影响，这样它们的标准差σx、σp才不会同时为0。

这样的话，两个力学量是否对易，就决定了它们的标准差能否同时为0，进而决定了它们能否拥有共同的本征态，决定了它们是否独立。大家要好好理一理这一串逻辑链条，它对理解量子力学是很有帮助的。

明白了这些，再想想一开始的问题，你还会觉得位置和动量的这种不确定关系是由于测量时的扰动造成的么？我们没有测量时，系统状态随着薛定谔方程演化，位置和动量的标准差σx、σp也会随之变化，但不论σx和σp怎么变，它们之间都遵守σxσp≥ℏ/2。

所以，即便你没有测量，位置和动量的不确定关系σxσp≥ℏ/2一样存在。造成这种现象的根源，是位置算符和动量算符之间的不对易[x,p]=iℏ，而不是你测量时有没有扰动。

10傅里叶变换

为了让大家更好地理解这种不对易关系，我们再来看一个更加形象的例子。

假如这里有一头大象，从前面看，你能非常清楚地看到大象的眼睛，但却看不清楚大象的身体；从侧面看，你能非常清楚地看到大象墙壁般的身体，但大象的眼睛我们又看不清楚了。当然，你还可以更换角度，从不同角度看，大象的眼睛和身体的清晰度会不一样，但你找不到一个角度让你既能看清楚大象的眼睛，又能看清楚大象的身体。

这跟位置和动量的不确定关系就有点像了：我们可以找到一个角度“看清”粒子的位置，让测量时粒子的位置有确定值，这时候位置的标准差σx最小（位置本征态）；也可以找一个角度“看清”粒子的动量，让测量时粒子的动量有确定值，这时候动量的标准差σp最小（动量本征态）。但是，你找不到一个角度能同时“看清”粒子的位置和动量，让位置的标准差σx和动量的标准差σp同时达到最小值（无法同时处于位置和动量的本征态），它们之间有σxσp≥ℏ/2这样一个绕不过去的门槛。

这样一来，我们更能清晰地看到：我们之所以无法同时看清楚大象的眼睛和身体，并不是因为测量仪器不够精确，也不是因为测量时有什么扰动。而是因为大象的眼睛和身体一个在正面，一个在侧面，大象的身体结构决定了我们无法同时看清楚这两者，这是大象的“固有性质”，跟你测不测量无关。

同理，我们无法同时确定粒子的位置和动量，也不是因为测量仪器不够准确，不是因为测量时有什么扰动。而是因为粒子的位置和动量是不对易的，是位置和动量的这种关系[x,p]=iℏ决定了我们无法同时确定这两者，这也是粒子的固有性质，跟你测不测量无关。

学过《信号与系统》的朋友肯定一眼就能看出来，我们处理信号既可以从时域看，也可以从频域看，不同角度看到的样子并不一样，它们之间就差了一个傅里叶变换。

在量子力学里，同一个波函数从位置表象切换到动量表象，它们之间也是差了一个傅里叶变换。也就是说，对于同一个波函数，在位置表象里长这样，你想看看它在动量表象里长啥样，进行一个傅里叶变换就行了。

如上图所示，同样两个正弦波，当我们从正面看的时候，它是一些波叠在一起的；当你从侧面看时，它就变成了两个尖尖，只在两个地方有取值。你从正面看到的是波，从侧面看到的是点，但你无法找到一个角度让你既看到波又看到点，波和点之间就差了一个傅里叶变换。

粒子的位置和动量之间的不确定性也是这么回事。当粒子处于位置本征态时，你能完全确定粒子的位置，粒子在位置上只能取一个值，在图像上就是只在一个点上有取值。这时候，我们通过傅里叶变换切换到动量视角，就会发现对应的图像是一个平面波，它说明粒子取任何动量值的概率都一样，这样动量就完全不确定了。

于是，粒子的位置完全确定了，动量就完全不确定了，这是傅里叶变换的自然结果。因此，当我们从不同角度审视同一个东西时，会出现那种不确定关系其实是非常自然的一件事。

另外，虽然我们没法同时看清楚一头大象的眼睛和身体，但如果这里有两头大象，你想同时看清楚一头大象的眼睛和另一头大象的身体，那就轻而易举了。所以，不同粒子间的所有力学量都是对易的，你想同时确定一个粒子的位置和另一个粒子的动量显然是没有任何问题的。

这样一来，大家对粒子的位置和动量之间的不确定关系有一个比较直观的认识了么？你还会觉得不确定性原理由于测量的扰动导致的么？

11能量-时间不确定关系

除了位置和动量，常见的不确定关系还有另一组，那就是能量E和时间t的不确定关系：

从形式上来看，它跟位置和动量的不确定关系式σxσp≥ℏ/2几乎一模一样。

回想一下位置-动量不确定关系的推导过程，我们先是得到了最一般的不确定关系：

然后把位置和动量的对易关系[x,p]=iℏ代入上式，就得到了位置和动量的不确定关系σxσp≥ℏ/2。

于是，有些人就会想：能量和时间的不确定关系是不是也是这样，也是把能量和时间的对易关系（如果有的话）代入之后就能得到？

细心的朋友可能注意到了，在前面讲位置-动量的不确定关系时，为了让大家意识到我们谈论的是位置和动量的标准差σ，而不是测量时的扰动，我特地用σx和σp替换了更常见的Δx和Δp。但到了这里，我并没有使用σt和σE，而是直接使用Δt和ΔE来表示能量和时间的不确定关系，为什么？

难道到了这里，我就不再怕大家把Δt、ΔE理解为测量时间和能量时的扰动了么？怕，当然怕，特别是能量的标准差ΔE。

我们确实可以像谈论位置、动量的标准差σ那样谈论能量的标准差，我们这里的ΔE，也确确实实指的是能量的标准差σE。但是，这个式子里还有一个非常特殊的量——时间Δt，它指的是时间的标准差σt么？慢着，你先告诉我：时间的标准差是什么鬼？

位置、动量、能量等力学量的标准差好理解，系统状态确定以后，概率分布也随之确定了，我们就可以求出各个力学量的平均值，进而求出它们相对平均值波动的标准差。但是，时间的平均值是什么鬼？你又要如何计算相对“时间平均值”波动的方差和标准差？

相信大家已经看到问题的关键了：在量子力学里，时间并不是一个力学量，而只是一个参数，它跟位置、动量、能量这些力学量有本质的区别。

你可以在任何时刻测量粒子的位置、动量、能量这些力学量，但是，你能测量粒子的“时间”么？当你说粒子的“时间”时，你是不是自己都觉得有点搞笑？哪里有什么粒子的“时间”，时间在量子力学里是一个参数，各个力学量都是时间的函数，它们随时间变化，粒子并没有一个叫“时间”的力学量在随着时间变化。

所以，当系统状态确定后，我们可以计算位置的平均值，可以计算动量、能量的平均值，但你没法从统计意义上计算时间的平均值，于是也没有什么时间的标准差。所以，我们写一个σt出来是没有意义的。

当然，在狭义相对论里，时间和空间获得了平等的地位，你确实可以平等的处理时间t和空间x。但我们现在讨论的是非相对论性量子力学，薛定谔方程也是非相对论性的，所以，我们不能像位置-动量不确定关系那样理解能量-时间的不确定关系。

那么，我们要如何考虑ΔtΔE≥ℏ/2呢？特别是，我们要如何看待这里的Δt？

12时间的意义

在《什么是量子力学？》里我们讲过一个结论：定态就是系统的能量本征态。

从表面上看，能量本征态只是系统具有确定能量的状态，似乎并没有不随时间变化的意思，那为什么还要说它“定”呢？那是因为，虽然此时的波函数依然跟时间有关，但概率分布却不随时间变化，于是，任何力学量的平均值也不随时间变化。这是概率分布和力学量平均值都不随时间变化的状态，所以我们称之为“定态”。

当系统处于能量本征态的时候，能量的取值是确定的，因此能量的标准差ΔE=0。根据能量-时间的不确定关系ΔtΔE≥ℏ/2，当ΔE=0的时候，Δt必然就要变成无穷大，这跟位置-动量的不确定关系是一样的。这就暗示我们：当系统处于能量本征态时，由于ΔE=0，所以某个跟时间相关的Δt会变成无穷大。那么，这时候有什么跟时间相关的量会变成无穷大呢？

我们已经知道能量本征态是定态，是力学量的平均值不随时间变化的状态，位置、动量这些力学量的平均值这一刻是这样，下一刻还是这样，永远都不会变化。换句话说，此时各个力学量的平均值的变化周期T变成了无穷大。

大家想想是不是这么一回事？一个东西不动了，我们也可以说是它的变化周期变成了无穷大。摆钟每秒摆动一次，它的摆动周期是一秒；如果它十秒摆动一次，那周期就变成了十秒，我们就会觉得这个钟摆变慢了许多；如果摆动一次需要无穷大的时间，那它的摆动周期就会变成无穷大，我们就会觉得这个摆钟不动了，也就是说它不再随时间变化。

所以，当系统处于能量本征态时，它的标准差ΔE=0。与此同时，各个力学量的平均值也不随时间变化（定态），我们也可以说力学量平均值的变化周期T变成了无穷大，而这个跟时间相关的变化周期T，正是ΔtΔE≥ℏ/2里的Δt。

也就是说，能量-时间不确定关系里的Δt不是什么时间的标准差，也不是测量时间的扰动，而是各个力学量的平均值的变化周期T。

于是，当位置、动量这些力学量的平均值变化很快时（Δt很小），能量的不确定度就越大，标准差ΔE就越大；当任意力学量的平均值变化很慢时（Δt很大），能量的不确定度就越小，标准差ΔE就越小；当任意力学量的平均值不变时（Δt无穷大），能量的不确定度ΔE就等于0，也就是说能量完全确定了，那这就是能量本征态（定态）。

如果这样还不好理解，那我们再换个角度。你想想，如果系统不是处于能量本征态，而是处于两个能量本征态的叠加态，那系统的能量就不是确定值了，测量时就会有一定概率处于这个能量的本征值，有一定概率处于那个能量的本征值，能量的标准差ΔE也不再为0。

又因为系统处于两个能量本征态的叠加态，这不是定态，所以各个力学量的平均值也不会是定值，而会随着时间t变化，那力学量平均值的变化周期T（Δt）自然也不再是无穷大。

所以，当系统不是能量本征态（定态）的时候，能量的标准差ΔE>0（变大了），力学量平均值的变化周期Δt就不再是无穷大（变小了），此消彼长，它们的乘积仍然满足ΔtΔE≥ℏ/2。

能量-时间的不确定关系比动量-位置不确定关系要难理解一些，因为时间在量子力学里只是一个参数，跟位置、动量、能量这些力学量有本质的区别。它的推导过程也更加复杂，需要大家有一定分析力学的基础，我这里就不细讲了，以后有机会再说（怕错过的盯着我的公众号长尾科技就行）。

在这里，大家只要知道ΔtΔE≥ℏ/2里的Δt不是时间的标准差，而是力学量平均值的变化周期T就行了。

13结语

再回过头看看，不确定性原理的表述和公式看起来都很简单，似乎谁都能看懂。但是，想要真正理解这些内容，还是得先建立量子力学的基本框架，学会从量子视角看问题，否则就会造成各种误解。

这种误解在量子力学里非常普遍：很多人一听到量子力学里说能量不连续，立马就觉得能量在任何情况下都是不连续的，并且脑补时间、空间也都是不连续的；一听到不确定性原理说无法同时测准位置和动量，就以为这是测量带来的干扰；看到量子力学都是在描述微观粒子，就觉得量子力学只在微观世界有效；一听到量子力学里谈概率，就觉得在量子力学里任何事情都是概率性的……

只要你还没有建立量子力学的基本框架，只要你还是从经典力学的视角看待量子世界的各种现象，这样的误解几乎是不可避免的。

你想想这篇文章，看看为了把一个看似简单明了的不确定性原理说清楚，我们依赖了多少《什么是量子力学？》里的内容？

如果我们不知道量子力学的基本框架，不知道叠加态、本征态以及统计诠释，我们很难想象不确定性原理里的Δx、Δp竟然指的是统计意义上的标准差σx、σp，那各种误解就在所难免了。正因为我们知道Δx、Δp指的是标准差，我们才能清楚的看到：测量之前的位置和动量一样有标准差σx、σp，一样满足σxσp≥ℏ/2，它的根源是位置和动量之间的不对易[x,p]=iℏ，而不是测量带来的扰动。

至于能量-时间不确定关系，这里不仅需要我们理解能量本征态和定态，还要理解时间t在量子力学里不是力学量，而只是一个参数。所以我们不能把ΔtΔE≥ℏ/2里的Δt理解为时间的标准差，而只能理解为力学量平均值的变化周期，这对量子力学的基础要求就更高了。

因此，我要先花大力气写《什么是量子力学？》，先帮大家把量子力学的基本框架搭起来，让大家养成从量子视角看问题的习惯，然后才能谈后面的。虽然搭框架的过程比较枯燥，不能一上来就讨论那些精彩的量子话题，但只有这样，我们才能打牢基础，才能在以后真正有机会深入讨论那些精彩的话题。否则，就只能在量子力学的世界里收获无穷无尽的“误解”。

关于不确定性原理，就先讲这么多吧~

必读前置文章：《什么是量子力学？》（这篇文章假定大家已经看过量子力学的这篇主线，许多结论都是直接用的）

更多主线（后台回复“主线”可获取全部主线文章）：

《你也能懂的微积分》

《什么是高中物理？》

《相对论诞生：爱因斯坦是如何创立狭义相对论的？ | 主线》

《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》

《深度：杨-米尔斯理论说了啥？为什么说这是杨振宁超越他诺奖的贡献？》

收起阅读 »

什么是量子力学？

量子力学

提到量子力学，很多人的第一反应是微观、不连续、不确定，然后就是玄乎、奇怪、诡异，乃至恐怖。有这样的想法并不奇怪，毕竟，它跟经典物理的确不太一样，大家也乐于相信玻尔说的：“如果谁不为量子力学感到困惑，他就还没理解它。”许多文章、视频也喜欢把量子力学往这个方向上引...

继续阅读 »

提到量子力学，很多人的第一反应是微观、不连续、不确定，然后就是玄乎、奇怪、诡异，乃至恐怖。

有这样的想法并不奇怪，毕竟，它跟经典物理的确不太一样，大家也乐于相信玻尔说的：“如果谁不为量子力学感到困惑，他就还没理解它。”

许多文章、视频也喜欢把量子力学往这个方向上引，大肆宣扬“看一眼”决定猫的生死，告诉你双缝实验有多“恐怖”，把意识和量子力学扯在一起等等。于是，量子力学在大众眼里就越来越玄乎，越来越诡异，越来越恐怖了。

其实，量子力学并不奇怪，你觉得它奇怪，主要是因为你老是从经典力学的视角看量子力学，就像古人眼里闪电也很奇怪一样。

我们从小就浸泡在经典世界里，很多经典观念已经成了潜意识的一部分，你这样去看量子世界，自然会觉得它很奇怪。但是，如果你转换一下视角，尝试从量子的视角去看量子世界，就会发现一切都很自然。

那么，如何从量子视角看待量子世界呢？

想了解量子力学看待世界的方式，我们就得先搞清楚经典力学看待世界的方式。只有清楚经典力学是如何看待世界的，我们才能知道哪些观念是经典力学特有的，哪些观念进入量子力学之后需要修改，才能知道如何建立全新的量子世界观。

那么，经典力学的世界又是什么样的呢？

01经典的世界

大家在中学都学过牛顿力学，我在《什么是高中物理？》里也介绍过。

在牛顿力学里，想知道一个物体会如何运动，就要看它受到了什么力F，然后利用牛顿第二定律F=ma计算它的加速度a。算出了加速度，我们就能知道物体的运动状态会如何变化，就能根据物体此刻的状态（比如物体在哪，速度是多少）算出它下一刻的状态。

也就是说，在牛顿力学里，只要我们掌握了物体的受力情况，就能根据物体的初始状态知道它任意时刻的状态。比如，我们知道苹果下落是因为受到了地球的引力，知道引力就能知道苹果下落的加速度，然后知道苹果在任意时刻的速度和位置。

这是一个非常典型的例子，大家也习惯于这样去处理物体的运动。但是，在这种非常自然的处理方式里，却暗含了一个极为重要的假设：我们知道苹果在某个时刻肯定在空间中的某个地方，也肯定有一个确定的速度，不管我们有没有去测量。

什么意思？

你去测量苹果的位置和速度，肯定会得到一个数值。而且，你知道无论谁去测，测量多少次都不会改变这个结果。不可能说张三测量苹果在树上，李四去测，苹果就跑到了地上，顶多就是测量仪器会带来一点误差。

也就是说，经典力学认为：苹果的力学量在任何时刻都有确定的取值，它的位置和速度都是确定的，跟你测不测量，如何测量没有关系。不管谁去测，也不管怎么测，测多少次，测量结果在误差范围内应该都一样。因为，我们都确信苹果肯定有一个确定的位置和速度，测量只不过是想知道这个确定的值是多少而已，这是我们常识中的常识。

如果有个人跑来跟你说：不对，苹果没有确定的位置和速度，想知道苹果在哪就得去测量，测量结果是哪就在哪。而且，不同人测量的结果完全可以不一样，张三测得苹果在树上，李四可以测得苹果在地面，你肯定认为这个人疯了。

是的，任何力学量在任何时刻都有确定的取值，而且跟测量无关，这是经典力学刻在我们灵魂深处的信念。

但是，这种信念真的绝对可靠么？有没有可能它并没有想象中的那么天经地义？

带着这样的疑问，我们来看一看大名鼎鼎的斯特恩-盖拉赫实验。

02斯特恩-盖拉赫实验

既然你觉得力学量在任何时刻都有确定取值，而且跟测量无关。那我们就来做个实验测一下，测什么呢？测量银原子的自旋。

我们先甭管自旋是什么，只要知道这是粒子的一个固有属性，像质量和电荷一样就行了。

然后，大家要知道银原子的自旋在任意方向上都只能取两个值，我们记为向上和向下。也就是说，你在任何方向测量银原子的自旋，结果都只可能是两个：要么向上，要么向下，没有其它值了。

知道了自旋以及它的取值，我们就可以开始测量了，用什么测呢？用磁场，准确的说是不均匀磁场。

我们让银原子通过不均匀磁场，银原子就会发生偏转，不同自旋会有不同的偏转方向。我们约定，如果银原子向上偏转，就说它自旋向上；如果银原子向下偏转，就说它自旋向下。当然，这个对应关系并不重要，我们只要知道不同的自旋会有不同的偏转就行了。

之所以选择自旋，并不是因为自旋有多特殊，而是因为它足够简单，把自旋换成位置、动量也是一样的。

然后，我们就可以开始实验了。

首先，我们在z方向加一个磁场（以后没有特别声明，文中的磁场均指不均匀磁场），然后让一束银原子通过这个磁场。

由于银原子有很多，有的自旋向上，有的自旋向下，不同自旋的银原子在磁场中的受力不一样，所以偏转方向也不一样。于是，这束银原子在z方向上就分裂成了两束，这没什么好说的（实验图片来自庄鹏飞老师的《现代量子力学》）。

接下来，就是精彩的级联斯特恩-盖拉赫实验了。

03级联斯特恩-盖拉赫实验

所谓级联斯特恩-盖拉赫实验，顾名思义，就是在原实验的后面再加上磁场，继续做实验。而后面加的磁场，可能与原磁场方向相同，也可能不同。

这些级联斯特恩-盖拉赫实验一共有三组，我们来分别看一下。

第一组实验：我们先让银原子通过z方向磁场，银原子分裂成了两束（原实验）。然后，我们把下面那束银原子挡住，让上面那束再次通过z方向磁场（如图一）。

大家猜结果会怎样？

这个结果很好猜，因为银原子通过了一次z方向磁场，并分裂成了两束。那么，上面那束银原子在z方向的自旋就应该都一样（都自旋向上），你让它们再次通过z方向磁场，它们应该都向上偏转，因而不会分裂。

没错，实验结果也的确是这样：让z方向分裂的银原子的其中一束再次通过z方向的磁场后，它们没有再次分裂。

接下来，我们再看第二组实验。

第二组实验：还是让银原子先通过z方向磁场，分裂成两束后，继续让上面那束银原子再次通过一个磁场。不同的是，这次通过的不是z方向磁场，而是x方向磁场。

结果，我们看到银原子又分裂成了两束（如图二）。

也就是说，被z方向磁场“筛选”过一次的银原子，虽然在z方向的自旋一样，但在x方向的自旋好像并不一样。

这个结果虽然有点意外，但多多少少也可以接受。因为，你可能会认为所有的银原子在z方向和x方向上都有一定的取值。第一个磁场把所有z方向自旋向上的银原子筛选了出来，第二个磁场则把所有x方向自旋向上的银原子筛选了出来。

这就好比选秀节目，每次从不同的维度筛选一批人。第一轮只有品行好的能通过，第二轮只有学习好的能通过，那么，通过两轮筛选的就都是品学兼优的精英了。

同理，你现在可能会认为：通过了z方向和x方向两轮筛选的银原子，肯定都是在z方向自旋向上，在x方向也自旋向上的银原子。这些银原子都是历经两轮筛选的精英，它们都很纯了，以后不管是经过z方向磁场还是x方向磁场，它们都自旋向上，肯定不会再分裂了。

带着这样的想法，我们进入了第三组实验。

第三组实验就是在第二组实验的后面再加了一个z方向磁场。也就是说，银原子经过z方向磁场后分裂成了两束，我们让其中一束经过x方向磁场（第二组实验）。再次分裂后，我们又让其中的一束银原子再次经过z方向磁场。

原本，我们以为银原子经过两轮筛选之后，在z方向和x方向上都自旋向上，再次通过z方向磁场时肯定不会再分裂。

但是，实验结果却让所有人震惊了：它-居-然-再-次-分-裂-了（如图三）！

这是一次让人震惊的分裂，这是一次让人百思不得其解的分裂，这是一次彻底与经典力学划清界限的分裂，这是宣告量子力学来临的分裂。

你尽可以去思考它再次分裂的原因，但是，只要你还在用经典力学的思维思考问题，你是找不到出路的。或者说，只要你能意识到这个分裂的核心原因，你就已经站在了量子力学的大门口。

为什么？

04实验初分析

你仔细想想第三组实验，还是用选秀节目做类比。我们第一轮挑选出了品行好的（z方向自旋向上），第二轮挑选出了学习好的（x方向自旋向上），那么，通过两轮筛选的就应该都是品学兼优的人。

这时候，你再对这群品学兼优的人进行测试，按理说，不管是测品行（z方向）还是测学习（x方向），他们都应该是优秀（自旋向上）。但测试结果却显示：当我们对这群品学兼优的人再次测品行（z方向）时，他们竟然又分成了品行优秀和品行卑劣的两拨人（在z方向上分裂成两束），这如何不让人震惊？

但震惊归震惊，实验的的确确发生了，不管你愿不愿意相信，现实就摆在眼前。

那么，问题到底出在哪？到底是哪一个环节出了问题？一群已经通过两轮测试而品学兼优的人，再次测品行时，为什么又会分成品行优秀和品行卑劣的两拨人？

有人说，是不是第一轮测试和第二轮测试的标准不一样？比如，第一轮测试品行时标准低一些，第二轮测试品行时标准高一些，于是，那些通过了第一轮测试的人的确有可能无法通过第二轮测试，进而导致第二轮测试时再次发生分裂（z方向上的再次分裂）。

听起来很有道理，但在实验里是不可能的。原因很简单，我们在实验里是用磁场测量银原子的自旋，而磁场都是一样的。你可以怀疑选秀节目的裁判不公正，但你总不能说磁场不公正吧？

所以，如果你打算在测试环节找问题，那对不起，此路不通！测试环节没问题，那就只能在被测人身上找原因了。

如果两轮测试环境完全一样，而一个人在第一轮测试时品行优秀，在第二轮测试时却品行卑劣，那就只能说明：这个人在第一轮测试时确实品行优秀，但到第二轮测试时就变成品行卑劣的了。测试标准没有变，那变的就只可能是这个人了，是他自己从品行优秀变成了品行卑劣的人。

我知道很多人难以接受这样的结论，同样的人，只不过先后经历了两轮测试，怎么就变了呢？当然，我们可以说人心隔肚皮，他在两轮测试中的确变了也未可知。但是，人心可以变，银原子的自旋状态是由物理定律支配的，它怎么能说变就变呢？

同样是测量银原子在z方向的自旋，第一次测量时还是自旋向上，为什么第二次测量时就自旋向下了？

如果我们把自旋换成位置，那这个事情就变成了：第一次测量银原子的位置时，它在北京；第二次测量银原子的位置时，它变成了武汉，这太荒谬了！

在我们的潜意识里，一个物体在哪就在哪，它的位置是确定的，无论谁去测量，测量几次的结果应该都一样。在误差范围内，不可能一个人测得它在A位置，另一个人却测得它在B位置。

但是，喜欢看侦探小说的朋友肯定听过福尔摩斯的一句话：当你排除了一切不可能的情况，剩下的，不管多难以置信，那都是事实！

因为外部测试环境一模一样，z方向的磁场也一模一样，所以，造成前后两次测量结果不一样的原因，就不可能是来自外部环境，而必须是来自内部。必须认为是被测人的状态发生了改变（从品行优秀变成了品行卑劣），必须认为是银原子的状态发生了改变（从z方向自旋向上变成了自旋向下），我们才能解释上面的实验现象。

也就是说，不管你愿不愿意相信，你都必须接受“银原子在z方向上的自旋状态确实发生了改变”这一事实，这样两次测量结果才会不一样。而这，是经典力学打死也不相信的，所以，经典力学无法解释斯特恩-盖拉赫实验。

05新的力学

那么，银原子在z方向的自旋状态为什么会改变呢？状态改变了，当然是受到了其它因素的影响，受什么影响呢？

我们再看看第一组级联斯特恩-盖拉赫实验：如果银原子通过z方向磁场后发生了分裂，我们让其中一束再次通过z方向磁场，它是不会分裂的。

但是，到了第三组实验，我们只不过在第一组实验的两个z方向磁场之间再加了一个x方向磁场，然后，第二次通过z方向磁场的银原子就分裂了。第一组没分裂，中间加了一个x方向磁场（第三组）以后就分裂了，这样一对比就会发现：能够影响银原子z方向自旋状态的，就只可能是中间测量银原子在x方向自旋这个操作了。

也就是说，测量银原子在x方向的自旋竟然影响了银原子在z方向的自旋状态。测量会影响系统状态，这可新鲜了。

在经典力学里，系统状态一旦确定，所有力学量的取值就都确定了，测量只不过是把这些值读取出来，并不会影响它们。一个苹果在那里，它的位置和动量都是确定的，不论谁去测量，测量几次，都不会改变苹果的位置和动量。你去测量苹果的位置，当然也不会影响苹果的动量。

但是，第三组级联斯特恩-盖拉赫实验却告诉我们：通过第一个z方向磁场后，上面那束银原子都自旋向上。通过第二个z方向磁场后，原来自旋向上的银原子竟然有一部分变成自旋向下（所以才会分裂）。中间测量x方向自旋的操作的的确确改变了银原子在z方向上的自旋状态，这在经典力学里是不敢想象的。

到了这里，相信大家也看出来了：如果我们想描述斯特恩-盖拉赫实验，就必须发展一套全新的力学体系，因为这个实验展现出来的特性已经跟经典力学的根本观念发生了冲突。在这种全新的力学体系里，“测量”将具有完全不同于它在经典力学里的含义，它不再是简简单单地把某个确定的值读出来，而是会改变系统的状态，会参与到系统的演化中去。

这种全新的力学，自然就是大名鼎鼎的量子力学。

06测量与状态

意识到“测量会改变系统状态”是一个关键点，但仅仅知道这些还不够。你知道测量可以改变系统状态，那测量是如何改变系统状态的呢？系统原来处于这个状态，测量之后又会变成什么状态呢？你得把这些都搞清楚了才行。

怎么搞清楚呢？当然还是回到斯特恩-盖拉赫实验。

我们再走一遍第三组实验。一开始，银原子杂乱无序，什么状态都有，它们经过第一个z方向磁场后分裂成了两束。这时候，我们可以保守地下一个结论：向上偏转的那束银原子都自旋向上，向下偏转的那束都自旋向下。

这个结论看起来很有道理，但对不对呢？我们刚刚踏进量子力学大门，下任何结论都要万分谨慎，因为以前的直觉到现在还不一定有效。我们想判断向上偏转的银原子是否都自旋向上，不能凭感觉，得去测量。

怎么测量呢？你想知道银原子在z方向的自旋状态，让它通过z方向的磁场就好了。如果向上偏转的那束银原子在z方向的确都自旋向上，那它们再次通过z方向磁场时就不会分裂。

这个实验其实我们已经做过了，它就是第一组级联斯特恩-盖拉赫实验（让通过z方向磁场的银原子再次通过z方向磁场）。实验结果也很清楚：它的确没有分裂！

这样，我们才能下结论：在第三组实验里，银原子通过第一个z方向磁场之后，向上偏转的那一束的确都自旋向上。

但是，这束银原子通过x方向磁场后，再次通过z方向磁场时，竟然又分裂了（最后那个惊天大分裂）。也就是说，经过第一个z方向磁场后，银原子们都自旋向上。但是，在经过第二个z方向磁场前，它们又变成了自旋向上和自旋向下都有的状态，为什么会这样？

很明显，夹在这两个z方向磁场之间的只有一个x方向磁场，那这种变化就只可能是这个x方向磁场导致的。

所以，第三组级联斯特恩-盖拉赫实验逼得我们不得不承认这样一个事实：银原子通过x方向的磁场后，它们就从z方向自旋向上的状态，变成了z方向自旋向上和自旋向下都有的状态。

07死结

这个结论虽然有点奇怪，但接受起来似乎也没那么困难。因为我们已经接受了“测量会改变系统状态”，那么，测量x方向自旋会稍微影响一部分银原子在z方向的自旋状态也不足为怪。

但是，事情有这么简单么？我们继续往下挖。

你觉得测量x方向的自旋会影响一部分银原子在z方向的自旋，让原来都是自旋向上的银原子变成一部分自旋向上，一部分自旋向下，然后就有了后面的分裂。但问题是：它会让哪一部分银原子的状态发生变化呢？

大家都是平等的银原子，现在有人说你们挑一部分出来变成自旋向下，那我挑哪一部分？你挑哪一部分大家都会不服气，凭什么？大家都一样，凭什么选中它而不是我？

为了把这个矛盾更加尖锐地暴露出来，我们再做一个假设：假设通过x方向磁场的银原子不是一束，而是一个，你猜结果会怎么样？通过x方向的磁场后，它在z方向的自旋会是向上还是向下？

你敢肯定一定是自旋向上么？不，你不敢！

因为我是随机取的一个银原子，如果你敢肯定这个银原子在通过x方向磁场后在z方向的自旋一定是向上，那其它银原子是不是也都可以同理可得？如果所有的银原子通过x方向磁场后，在z方向的自旋都变成了向上，那第二次通过z方向磁场后就不会有那个惊天大分裂了。

同理，你也不敢肯定这个银原子在通过x方向磁场后，它在z方向的自旋一定向下。

但是，这束银原子在通过x方向磁场后，的的确确变成了在z方向自旋向上和自旋向下都有的状态，否则，它们第二次通过z方向磁场时就不会再分裂。

也就是说，面对完全相同的一束银原子，通过同样的磁场之后，你既不能肯定某个银原子一定自旋向上，也不能肯定它一定自旋向下。但是，这束银原子又必须包含了自旋向上和自旋向下两种状态，这样才会有后面的分裂。

这看上去是一个死结，是一个无解的题目。因为这些银原子的状态都一样，但是，对其中的每一个银原子来说，它既不能是自旋向上，也不能是自旋向下。而实验结果又要求这束银原子里必须包含了自旋向上和自旋向下两种状态，否则，第二次通过z方向磁场后就不会有那个惊天大分裂，这怎么看都自相矛盾！

怎么办？

看起来确实是身处绝境，但绝缝中还有一丝可能性，虽然这种可能性看起来太过石破天惊，太过不可能，但除此之外似乎也别无他法。这种可能性就是：我们只能假设每个银原子本身就具有自旋向上和自旋向下的状态，它本身就处在自旋向上和自旋向下的叠加态。

什么意思？

08叠加态

意思就是，我们不能再非黑即白地看待银原子的自旋。你不能认为一个银原子要么自旋向上，要么自旋向下，它也可以同时具备这两种状态，处于它们的叠加态。你去测量银原子的自旋，结果就既可能自旋向上，也可能自旋向下，一人分饰二角。

只有这样，我们才能既满足“所有银原子的状态都一样”（都是自旋向上和自旋向下的叠加态），又满足“包含自旋向上和自旋向下两种状态”，从而解开上面的死结。

以前，你以为一个人要么是步兵，要么是炮兵。现在，你发现他还可以是特种兵，可以既是步兵又是炮兵。一群完全一样的特种兵，一样可以根据战场需求立马“分裂”成步兵队和炮兵队，就像银原子第二次通过z方向磁场后分裂一样。

如果银原子既可以处于自旋向上的状态，也可以处于自旋向下的状态，还可以处于自旋向上和自旋向下的叠加态，那我们就可以认为通过x方向磁场后的每个银原子都是处于z方向自旋向上和自旋向下的叠加态。于是，第二次通过z方向磁场时，每个银原子都既可能向上偏转，也可能向下偏转，这样就分裂成了两束。

这里的核心要点是：第二次通过z方向磁场前，并不是说有一半的银原子自旋向上，一半的银原子自旋向下，通过磁场后自旋向上的那一半向上偏，自旋向下的那一半向下偏。而是，每一个银原子都处于自旋向上和自旋向下的叠加态（状态都一样），每一个银原子在通过z方向磁场前都不知道自己将会向上偏还是向下偏，只有通过磁场以后才知道。

虽然这两种情况都会让银原子分裂成两束，但本质却完全不同：前者并非每个银原子的状态都一样，而且每个银原子的自旋都是确定的，这在经典力学里也能出现；后者是每个银原子的状态都一样，都处于叠加态，是量子力学才有的情况。

这样，我们就通过引入叠加态解开了那个死结，用一种比较合理的方式解释了第三组级联斯特恩-盖拉赫实验。

跟叠加态相对，我们把银原子处于确定的自旋向上或自旋向下的状态称为本征态。也就是说，现在的银原子可以处于自旋向上本征态、自旋向下本征态以及自旋向上和自旋向下的叠加态。

09重走实验

引入了叠加态和本征态，我们再来走一遍第三组级联斯特恩-盖拉赫实验。

银原子第一次经过z方向磁场后分裂成了两束，上面那束银原子自旋向上（因为第一组实验告诉我们，这束银原子再次通过z方向磁场后不会分裂），也就是都处于z方向自旋向上的本征态。

我一再强调，“测量”在量子力学里具有完全不同于它在经典力学里的意义，它不再是一个单纯的显示器，而是要参与到系统演化中来。

我们让银原子通过z方向磁场，这就是一次测量，测量什么呢？测量银原子在z方向的自旋。通过第一个z方向磁场前，银原子处于什么状态我们不知道，但经过磁场的测量后，向上偏转的那束银原子就处于z方向自旋向上的本征态，向下偏转的那束银原子处于z方向自旋向下的本征态。

于是，我们发现：测量银原子z方向的自旋，会让银原子从原来的状态变成z方向的自旋本征态，测量会这样改变系统的状态。

通过了第一个z方向磁场，上面那束银原子接下来要通过x方向磁场。同样，我们有理由相信，让银原子通过x方向磁场也会让它从原来的状态变成x方向的自旋本征态。

通过x方向磁场后，银原子又分裂成了两束，很显然，向上偏转的处于x方向自旋向上本征态，向下偏转的处于x方向自旋向下本征态。而这束银原子能分裂，就说明它们在通过x方向磁场前必然是处于x方向自旋向上和向下的叠加态。

于是，我们就把银原子通过x方向磁场前后的状态都搞清楚了：通过x方向磁场前，银原子处于x方向的自旋叠加态，同时还处于z方向自旋向上的本征态（因为刚通过第一个z方向磁场）；通过x方向磁场后，银原子处于x方向自旋本征态。

也就是说，通过x方向的磁场后，银原子在x方向的自旋确实从叠加态变成了本征态，那z方向的自旋呢？通过x方向磁场前，银原子在z方向处于自旋本征态，那么，通过x方向磁场后，它在z方向的自旋会不会发生改变呢？

10不对易

咋一看，这个问题有些奇怪：我们让银原子通过x方向磁场，测量的是银原子在x方向的自旋，影响x方向的自旋就罢了，你z方向上的自旋来凑什么热闹？z方向的自旋还是哪凉快哪呆着去，你通过x方向磁场前在z方向是自旋本征态，那通过后就继续保持本征态好了，别瞎凑热闹。

但是，仔细一想我们就发现不对劲了：在第三组实验里，通过x方向磁场的银原子接下来会第二次通过z方向磁场，并且发生分裂（就是最后的那个惊天大分裂）。银原子通过第二个z方向磁场后分裂了，就说明银原子在通过第二个z方向磁场前必然是处于z方向的自旋叠加态。

而通过第二个z方向磁场前跟通过x方向磁场后是同一时刻，于是，在通过x方向磁场前后，银原子在z方向的自旋状态也都清楚了：通过x方向磁场前，银原子处于z方向自旋向上本征态；通过x方向磁场后（第二个z方向磁场前），银原子处于z方向的自旋叠加态。

也就是说，测量银原子x方向的自旋（通过x方向磁场），不仅让银原子在x方向上从叠加态变成了本征态，也让银原子在z方向上从自旋向上本征态变成了叠加态。

这是一个在经典力学看起来完全不可理喻的结论，你测量银原子x方向上的自旋，影响x方向的自旋就罢了，为什么还要影响z方向的自旋呢？这不是狗拿耗子多管闲事么？

而且，如果测量x方向的自旋会影响z方向的自旋，那它还会影响其它力学量么？y方向的自旋会不会被影响？动量、位置、能量会不会被影响？如果测量一个力学量，所有的力学量都要被影响，那岂不天下大乱了？

还好，事情并没有乱到如此不可收拾的地步，测量x方向的自旋虽然会影响z方向的自旋，但它并不是谁都招惹，它只招惹跟它不对易的力学量。

如果两个力学量是对易的，它们就互相独立，先测量谁后测量谁不影响结果，它们可以有共同的本征态，可以同时测准；如果两个力学量不对易，它们就不独立，一般来说先测量谁后测量谁结果就不一样，它们没有共同的本征态，无法同时测准。

很显然，x方向自旋和z方向自旋就不对易，所以测量x方向自旋会影响z方向自旋。测量x方向自旋后，银原子就处于x方向自旋本征态，同时也处于z方向的自旋叠加态。这时候，测量x方向自旋有确定值，测量z方向自旋就没有确定值了。

因此，如果两个力学量不对易（比如x方向和z方向自旋，位置和动量），它们就没法同时处于本征态。系统处于一个力学量的本征态，测量这个力学量时能测准，另一个力学量就会因为处于叠加态而测不准。于是，你就没法同时测准它们，这就是所谓的不确定性原理。

当然，关于不确定性原理，这里只顺便提一嘴。现在我们只要知道测量x方向的自旋不仅会让银原子处于x方向本征态，也会影响z方向自旋，让银原子在z方向上从自旋向上本征态变成叠加态就行了。

这样，第三组斯特恩-盖拉赫实验就可以完全走通了：银原子通过第一个z方向磁场后变成了z方向自旋本征态，向上偏转的银原子通过x方向磁场后变成了x方向自旋本征态。与此同时，由于z方向和x方向的自旋不对易，它们无法同时处于本征态。所以，当银原子处于x方向自旋本征态的同时，在z方向就会从自旋向上本征态变成叠加态。

于是，处于z方向自旋叠加态的银原子通过第二个z方向磁场后自然就分裂了，这就是最后的那个惊天大分裂，就是那个让经典力学百思不得其解的分裂。

至此，斯特恩-盖拉赫实验就全部走通了。

11量子力学

可以看到，为了解释斯特恩-盖拉赫实验，我们引入了许多全新的假设。我们假设银原子可以处于自旋向上和自旋向下的叠加态，假设测量会影响系统的状态，假设如果两个力学量不对易，测量一个力学量会影响另一个的情况……

这些假设已经完全超出了经典力学的范畴，但顺着斯特恩-盖拉赫实验，你又会发现非如此不可。物理学家其实是很保守的，但凡经典物理修修补补还能用，大家也不至于掀桌子，量子力学是被逼出来的。

有了这些全新的假设，我们就能定性地分析斯特恩-盖拉赫实验了。但是，光有定性的分析还不够，我们还要用数学语言定量地描述它们。

比如，你说银原子可以处于自旋向上和自旋向下的叠加态，那如何描述这种状态？系统处于叠加态还是本征态，测量自旋的结果会完全不同，那自旋这种力学量要如何描述？系统状态发生了变化，又要如何描述？等等。

我们知道，系统处于不同的状态，测量力学量会有不同的结果：处于本征态，测量结果是确定的；处于叠加态，测量结果不确定。如果系统状态发生了变化，各个力学量的测量结果也会随之发生变化。

在这样的语境下，系统状态就处在了一个非常核心的位置。所以，我们要先描述系统状态，那么，如何描述系统的状态呢？老办法，想知道量子力学里的情况，我们就先去经典力学看看。在经典力学里，我们是如何描述系统状态的呢？

假设有两个苹果，一个在北京，一个在武汉，我们会觉得它们的状态不一样，因为位置不同。当然，就算它们的位置一样，但如果一个静止，另一个却在运动，我们还是会觉得它们的状态不一样，除非它们的位置和速度都相同。

也就是说，在经典力学里，我们可以用物体的位置和速度（或动量）这样的力学量来描述系统的状态。

如果两个质点的位置和动量（速度）都一样，它们在时空中的状态就被唯一确定了。在和牛顿力学等价的哈密顿力学里，我们会以位置和动量为横、纵轴构建一个叫相空间的东西，相空间里的一个点（有个确定的位置和动量）就代表了一个运动状态。

与此同时，由于位置和动量都可以直接观测，我们又用这些可观测量来描述系统状态，那系统状态和可观测量之间就没啥区别了。另外，在经典力学里，无论系统处于什么状态，测量结果都是确定的，所以，测量结果和可观测量之间也没啥区别了。

于是，在经典力学里，系统状态、可观测量和观测结果就都没啥区别了，都可以用位置和动量来描述。你想确定一个粒子的状态，确定它的位置和动量就好了；粒子的可观测量也是位置、动量；最后的观测结果，无非就是把位置和动量的值读出来。

但是，量子力学里的观测结果却是跟系统状态有关的，系统处于本征态还是叠加态，观测结果会很不一样。自旋、位置这样的可观测量跟系统状态也不是一回事。这样的话，你再想用位置和动量打发它们三个就不可能了。

那么，到了量子力学，我们要如何描述系统的状态呢？

12系统状态

能否还像经典力学那样，直接用可观测量来描述系统状态？比如，银原子的自旋可以取向上和向下，那我们就用S=0表示自旋向上的状态，用S=1表示自旋向下的状态，用这样的变量S来描述系统状态行不行？

不行！

如果银原子只处于本征态，我们确实可以用S=0描述自旋向上本征态，用S=1描述自旋向下本征态。但是，如果银原子处于叠加态呢？

有人说，那我用S=0.5描述银原子处于自旋向上和向下的叠加态，用S=0.7表示测量时有更大概率自旋向下，用S=0.3表示有更大概率自旋向上，行不行呢？

在这个特例里是可行的，但它无法推广。我们这里是碰巧自旋只能取S=0、S=1这样的分立值，如果现在讨论的不是自旋，而是位置呢？银原子的位置x本身就可以连续取值，x=0.3也只能表示某个位置本征态，那你要如何表示位置的叠加态？

所以，想用一个变量S描述银原子的自旋状态是不行的，变量不够用。不够用怎么办？简单，一个不够用那就再加一个呗，反正又不费电。

比如，我们可以用S0表示自旋向上本征态，用S1表示自旋向下本征态，如果银原子处于叠加态，我们就把它们加起来，用S=S0+S1描述叠加态不就行了么？

如果想改变叠加的权重，调节S0、S1前面的系数就行了。比如，我们可以用S=0.6S0+0.8S1表示测量时有（0.6）²=0.36的概率自旋向上，有（0.8）²=0.64的概率自旋向下（为什么是平方大家后面会明白）。

这样，不管力学量是取分立值（自旋）还是连续值（位置），我们都能描述叠加态了。你取几个值，我就弄几个变量，你处于什么样的叠加态，我就相应调节变量前的系数，再把它们加起来就完了。

而且，当你把银原子的叠加态写成S=S0+S1这样时，如果S0前面的系数为0，那就是S=0×S0+S1=S1，这不就是自旋向下的本征态么？同理，让S1的系数为0也可以表示自旋向上的本征态。这样，叠加态和本征态就都可以用S=S0+S1的形式来描述，调节S0、S1的系数就可以表示不同权重的叠加态，本征态就可以看成一种特殊的（除它以外系数都为0）叠加态。

所以，用S=S0+S1描述银原子的自旋状态是一个不错的选择。

那么，当我们把系统状态写成S=S0+S1的时候，我们这是整了一个啥玩意出来了呢？有没有觉得有点眼熟？如果不够眼熟，那我把S0换成x，把S1换成y，这样S就可以写成S=x+y，这样总眼熟了吧？

没错，这就是一个矢量啊！

你看，如果我们把S0和S1看成横坐标和纵坐标，那它们就构成了一个平面，S=S0+S1就代表这个二维平面里的一个矢量。因为S0、S1的系数都是1，所以S=S0+S1就代表了从坐标原点(0,0)到(1,1)的一个矢量，记作S=(1,1)。

也就是说，如果我们想在量子力学里描述系统的状态，用一个数是不行的，得用一个矢量。这个用来描述系统状态的矢量，就被称为态矢量。

态矢量确定了，每个基矢的系数（坐标）就确定了，我们就能知道银原子是处于本征态还是叠加态，知道测量时有多大概率自旋向上，多大概率自旋向下。虽然不知道结果到底是自旋向上还是向下，但概率知道了，我们还能算出它的平均值。

也就是说，态矢量确定了，虽然自旋的具体取值不确定，但它的平均值却是确定的。我们正是在这个意义上说态矢量完全描述了系统的状态，这跟经典力学完全不一样。

但大家也清楚，自旋是粒子的内禀性质，就像质量、电荷一样，跟粒子在时空中的位置、速度无关。所以，当我们只考虑自旋时，粒子的自旋态空间其实是一种内部空间。如果我们不考虑自旋，而是考虑粒子在外部时空中的运动情况，那就要看它的位置和动量了。

银原子的自旋可以取两个值，我们用S=S0+S1表示它的状态，这是一个二维的态矢量，对应的自旋态空间是一个二维空间。而位置可以取无穷多个值，我们就要用S=S0+S1+S2+……表示它的状态，这是一个无穷维的态矢量，对应的态空间一个无穷维空间。

如果你既想描述粒子的自旋，又想描述它在外部时空的情况，那就得把这两个态空间“加”起来，在数学上就是对它们做一个张量积。

由此可见，大家常见的矢量都在二维、三维欧式空间里，而态矢量却可以在无穷维空间。另外，量子力学里的态矢量不再局限于实数，而把范围扩大到了复数。这部分数学内容我不打算多讲，大家只要知道态矢量所在的空间并不是欧式空间，而是一个范围更大的空间就行了。这个空间，我们称之为希尔伯特空间，态矢量是希尔伯特空间中的矢量。

也就是说，在量子力学里，我们用希尔伯特空间中的矢量描述系统状态，这是我们第一个非常重要的结论。

13力学量

知道如何描述系统状是一个巨大的进步，但这里有个问题：描述系统状态的是希尔伯特空间中的矢量，而它是无法直接观测的。你想想，态矢量是二维、三维、N维，甚至无穷维空间中的一个矢量，你能直接观测么？

不能！

在经典力学里，我们用位置和动量描述系统的状态，而位置和动量本身就可以直接观测。到了量子力学，描述系统状态的是希尔伯特空间中的态矢量，而它无法直接观测，可以直接观测的是自旋、位置、动量这些力学量。

所以，如果你的理论不想跟实际脱节，那就得想办法描述这些力学量。我们用态矢量描述系统状态，那自旋、位置、动量这些力学量要如何描述呢？

我们知道，测量自旋的结果跟系统状态有关：银原子处于本征态，测量结果是对应的本征值；银原子处于叠加态，测量结果就有可能是自旋向上，也有可能自旋向下。如果态矢量确定了，每个基矢前面的系数（坐标）就确定了。系数确定了，测量时是各个结果的概率也就确定了。

如果概率分布确定了，力学量的平均值也就确定了。而平均值，是可以直接观测的，这一点很重要。

也就是说，虽然态矢量无法直接观测，力学量在一般情况下也没有确定值。但是，如果态矢量确定了，力学量的平均值就确定了。态矢量无法直接观测，但力学量的平均值可以直接观测啊，我们可以从这里入手。

由于自旋没有经典对应，不方便理解，我们来看看大家更熟悉的位置。

假设电子只能处于x=1和x=2两个位置，跟自旋类似，如果电子处于位置叠加态，测量位置时就有一定概率发现电子处于x=1处，有一定概率发现电子处于x=2处。如果两种概率都是50%，那位置的平均值就是x=1×0.5+2×0.5=1.5；如果处于x=1的概率是70%，处于x=2的概率是30%，那位置的平均值就是x=1×0.7+2×0.3=1.3。

可见，态矢量确定后，概率分布也就确定了，虽然每个电子的位置依然不确定（可能在x=1，也可能在x=2），但位置的平均值却确定了（两个态矢量分别对应x=1.5和x=1.3）。

这里要说明一下，经典力学里测量平均值的方法，通常是测一次记下一个数，再测一次，再记下一个数，最后求平均。但在量子力学里却不能这么干，因为量子力学里的测量会改变系统的状态。

电子处于某个叠加态，你测一下位置，它就会变成某个位置本征态，你再去测量这个处于位置本征态的电子，测量结果就会一直是这个本征值，这显然就不对了。

所以，如果你想测量处于叠加态电子的位置平均值，就得提前准备许多和它状态完全相同的电子，然后分别测量每一个电子的位置。测量一个就记一个位置（注意，每个电子只测一次），然后测下一个电子，最后对所有的位置求平均，这样才能测出这个状态下的位置平均值。

于是，我们就清楚了：如果系统状态确定了，虽然力学量不一定有确定值，但力学量的平均值却一定是确定的。而平均值又可以直接观测，这样，我们就在系统状态和可观测量之间架起了一座桥梁。

在量子力学里，系统状态是用希尔伯特空间中的矢量来描述的。现在我们想求这个状态下的力学量平均值，就必然要对这个矢量进行一些操作，让它产生一个实数（平均值）。那么，能对矢量进行操作、变换的东西是什么呢？

是算符！

算符可以作用在一个矢量上，把它变成另一个矢量。比如，我们把一个矢量平移到另一个地方，完成这个操作的就叫平移算符；把一个矢量旋转一下变成另一个矢量，就叫旋转算符；把一个矢量投影到某个坐标轴，就叫投影算符。

也就是说，如果我们测出了电子在某个状态的位置平均值，现在你要用算符对描述这个状态的态矢量进行一番操作，让态矢量“吐”一个实数出来（当然，算符直接作用在矢量上只能得到另一个矢量，想得到一个数还得借助它的对偶矢量，这里我们不细说），并且让这个实数就等于我们测量得到的位置平均值。

这样的话，看起来就是有一个算符作用在态矢量上，经过一番操作后得到了位置的平均值。在这个意义上，我们说这个算符描述了位置这个力学量，叫它一声位置算符不为过吧？

在数学上，算符可以用矩阵来表示，一个矢量跟一个矩阵相乘，其结果还可以是一个矢量，这就相当于对矢量进行了一个变换。在各种变换里，有一种变换很特殊：它对某个矢量进行变换的结果，就好像是把原矢量拉长或缩短了一定倍数。

当然，矩阵的这种变换只对一些特殊的矢量成立，我们把这些特殊矢量叫做这个矩阵的本征矢量（特征矢量），这个拉长或缩短的倍数就叫本征值（特征值）。

名字都取成这样了，相信大家不难看出它跟量子力学的关系。在量子力学里，我们用矢量描述系统状态，用算符描述力学量。而算符又可以用矩阵来描述，于是，对算符A来说，也可以出现当它作用在某个态矢量|Ψ>上时，就好像把这个态矢量|Ψ>拉长了a倍。

写成方程就是：A|Ψ>=a|Ψ>，这就叫算符A的本征方程，|Ψ>是本征态，a就是对应的本征值。

需要注意的是，这个方程左边的A是一个算符，用矩阵来描述，右边的a是一个数。所以，你可千万别把方程左右两边的|Ψ>给约去了，然后得到A=a（很多初学者容易闹这样的笑话）。

于是，数学和物理就对上了：我们用矢量描述系统状态，用算符描述力学量。算符可以写成矩阵的形式，而矩阵有对应的本征矢量和本征值，它们就对应了本征态以及测量力学量时可能出现的结果。

这样的话，你想知道力学量可以取哪些值，解对应算符A的本征方程A|Ψ>=a|Ψ>就行了。你想知道力学量在某个状态下的平均值是多少，用算符A作用在对应的态矢量上，经过一些操作也能算出来。

而且，不同算符之间一般不能交换次序，也就是我们前面说的不对易，这是量子力学非常重要的一个特点。

这样，只要知道了算符的情况，就能知道对应力学量的情况。于是，我们就得到了第二个极为重要的结论：在量子力学里，我们用算符描述力学量，而且不同算符之间一般不能交换次序。

由于力学量和测量密切相关，因此，第三个极为重要的结论是关于测量的：我们测量一个力学量，测量结果只可能是对应力学量算符的本征值之一。

这个结论几乎不用作过多说明，因为我们一直就是这么干的。我们早就知道测量银原子的自旋会让系统从叠加态变成某个本征态，测量结果就是对应的本征值。现在，我们只不过是知道了，原来这些本征态和本征值是跟一个算符对应起来的。

在斯特恩-盖拉赫实验里，自旋对应的算符是泡利矩阵，解泡利矩阵的本征方程就能得到两个本征矢量和两个本征值，分别对应自旋向上和自旋向下。去测量银原子的自旋，结果也只能是泡利矩阵的两个本征值之一。

当然，由于测量结果必须是实数，这对算符会有一定的要求（必须是厄米算符），具体概率也都可以算，这些就不细说了。

这样，力学量问题就圆满解决了。

14静态的图像

此时，如果这里有个电子，我们就能知道如何描述电子的状态，知道如何描述它的力学量，也知道力学量可以取哪些值，对应的概率是多少，平均值又是多少，我们知道了电子此刻的一切。

如果你是一位画师，你可以把电子此刻的物理图像画下来，但是，也仅仅是画下此刻的一帧图像。因为你并不知道电子在下一刻的状态，于是就不知道下一刻的概率分布，不知道下一刻的力学量平均值，也就没法画出下一刻的物理图像。

所以，我们现在描绘的是一幅静态的量子图像，它不能动。如果我们想让静态的量子图像动起来，想描绘运动变化的量子世界，就得知道系统下一刻会处于什么状态。

也就是说，我们必须知道系统状态是如何随时间变化的，知道如何根据系统此刻的状态求出它下一刻的状态，这就是量子动力学的问题。

那么，如何找出系统状态随时间的变化规律呢？能从上面的结论推出来么？不能，因为我们现在只知道要用矢量描述系统状态，并不知道它如何随时间变化。

还是老规矩，想知道量子力学里的情况，我们先去经典力学里看看。

在牛顿力学里，知道了物体的位置和速度，就知道了物体的状态。如果你还想知道物体下一刻的状态，也就是想知道物体下一刻的位置和速度，要怎么做呢？

很简单，学过中学物理的朋友都清楚（不清楚的可以先看看《什么是高中物理？》）：想知道物体在下一刻的位置和速度，就得先找到物体受到的合外力F，然后利用牛顿第二定律F=ma算出物体的加速度a。有了加速度，我们就能根据物体此刻的速度算出它下一刻的速度，进而求出下一刻的位置。于是，我们就知道了物体在下一刻的状态。

也就是说，我们之所以能求出物体下一刻的状态，关键就在于牛顿第二定律F=ma。正是因为有了F=ma，我们才能根据物体此刻的位置和速度求出它下一刻的位置和速度，才能知道系统的状态会如何随时间变化，才能描绘出物体的运动图像。

同理，如果我们想让量子图像也动起来，想知道量子力学里的系统状态如何随时间变化，我们也要找一个类似牛顿第二定律F=ma这样的方程。

那牛顿第二定律是怎么来的？它是从牛顿力学的其它结论推出来的么？

当然不是！每个理论都有一些最基本的假设，它们是这个体系里最底层的东西，是推不出来的（当然，如果以后发现了更深刻的理论，有了更基本的假设，能从那里把这些假设推出来，那就是另外一回事了），它们的正确性只能由实验来保证。很显然，牛顿第二定律F=ma就是牛顿力学的一个基本假设。

同样的，量子力学里描述系统状态随时间变化的方程也应该是一个基本假设，它也没法从量子力学的其它结论里推出来，它的正确性也只能由实验来保证。

1925年，在白雪皑皑的阿尔卑斯山，在各种新思想的刺激下，在一位神秘女子的陪伴下，有个人得到了这个描述系统状态随时间变化的方程，得到了这个相当于牛顿力学里F=ma的方程，这就是大名鼎鼎的薛定谔方程。写出这个方程的大佬，自然就是薛定谔。

15薛定谔的工作

相信大家都听过薛定谔方程，各种科普书也会提到它。但是，大部分人都只知道薛定谔方程很重要，却不知道它为什么重要，也不知道它到底在讲什么。

现在大家心里有数了：薛定谔方程是描述系统状态随时间变化的，它能让静态的量子图像动起来，就像牛顿力学里的F=ma一样，重要性不言而喻。

那么，薛定谔方程是如何描述系统状态随时间的变化的呢？

我们知道系统状态用态矢量来描述的（第一个结论），我们采用狄拉克的记号，把态矢量记作|Ψ>。这样，你想知道系统状态如何随时间变化，就是想知道态矢量|Ψ>在不同时间t会取什么样的值，这就是一个关于时间t的函数，我们记作|Ψ(t)>。

t取不同的时间，|Ψ(t)>就会有不同的取值，这不就是态矢量|Ψ>随时间变化的规律么？所以，薛定谔方程想描述系统状态随时间的变化，就是要说明|Ψ(t)>应该遵守什么样的规律。那么，它会遵守什么样的规律呢？

由于薛定谔方程是量子力学的基本假设，无法从其它结论里推出来，那就只能靠“猜”了。当然，这不是乱猜，而是要基于事实分析，利用缜密的逻辑和合理的想象提出一些假设，然后用实验来验证。

薛定谔当年主要是看到了“光学和力学之间的相似性”，进而把光学的一些结论推广到了力学，最终得到了薛定谔方程。

他是怎么做的呢？

首先，薛定谔注意到几何光学是波动光学的短波长极限。这个好理解，当光的波长越来越短时，光波看起来就越来越像光线，波动光学自然就慢慢趋近于几何光学。

然后，薛定谔注意到，作为几何光学基本方程的程函方程跟分析力学里的哈密顿-雅克比方程非常相似。于是，薛定谔就想：如果几何光学是波动光学的短波长极限，那么，跟几何光学相似的分析力学会不会也是某种波动力学的极限？

也就是说，有没有可能说我们现在的力学只是“几何力学”，它只是某种波动力学的极限（就像几何光学只是波动光学的极限那样）？并且，这种波动力学里某个方程的短波长极限，刚好就是“几何力学”里的哈密顿-雅克比方程？

答案我们都知道，这种波动力学就是量子力学，薛定谔方程的短波长极限就是哈密顿-雅克比方程。

当然，这不是什么巧合，并不是说薛定谔无意中发现了一个方程，然后这个方程的极限刚好就是哈密顿-雅克比方程。而是反过来：薛定谔就是要找一个极限是哈密顿-雅克比方程的东西，然后才找到了薛定谔方程，而这种波动的力学就是量子力学。

按理说，这种想法是非常自然的。物理学家只要注意到了程函方程与哈密顿-雅克比方程的相似性，知道几何光学和波动光学的关系，考虑是否存在一种波动力学就是很自然的一件事。那么，为什么直到薛定谔才开始认真考虑这个事呢？

其实，哈密顿本人就注意到了光学和力学之间的这种相似性，因此也有人说哈密顿距离发现薛定谔方程只差临门一脚。

但是吧，物理毕竟不是数学，它是要对现实负责的，并不是说逻辑上成立东西现实中就一定存在。在当时，光的波动性已经取得了广泛的共识，但谁会认为力学，认为石头、苹果也具有波动性？而且，当时经典力学也运行得非常好，人们对它信心十足，谁会跑去倒腾什么波动的力学？

然而，到了薛定谔这会儿，情况就完全不一样了。经典力学已经受到了严重的挑战，量子革命正在如火如荼的进行着，德布罗意也提出了革命性的物质波思想。这时候，考虑一般物体的波动性，考虑是否存在一种波动力学，使得现有的力学只是波动力学的极限就有了非常现实的基础。

于是，薛定谔就开始思考，如果现在的力学只是某种波动力学的极限，那现在的哈密顿-雅克比方程会是哪个波动方程的极限呢？

答案大家都知道，它就是大名鼎鼎的薛定谔方程。也就是说，如果我们让薛定谔方程取短波长极限，也就是让普朗克常数h趋近于0，它就会回到分析力学里的哈密顿-雅克比方程。

所以，如果你想了解薛定谔方程，最好先了解一下分析力学。

16薛定谔方程

当然，这篇文章是科普量子力学的，这里也只能非常简单地讲一点分析力学，让大家知道为什么薛定谔方程会写成这样就行了。至于分析力学的具体内容，以后再说，怕错过的盯着我的公众号就行。

简单来说，分析力学是一套跟牛顿力学完全等价的力学体系，它并没有什么新东西，只是描述方式跟牛顿力学不太一样。

牛顿力学的核心是力，我们分析物体的运动时要先受力分析，然后利用牛顿第二定律F=ma计算物体的运动情况；分析力学的核心是能量，我们不需要对物体进行复杂的受力分析，只要选择合适的广义坐标，找到系统的拉格朗日量L或哈密顿量H（这俩知道一个就能求出另一个），代入拉格朗日方程或哈密顿方程就能求出物体的运动情况。

因为力是矢量，分析时要考虑大小和方向，而能量是标量，只考虑大小就行了。所以，在环境比较复杂，约束条件比较多的时候，从能量入手的分析力学往往会简单很多。

当然，如果分析力学仅仅是一个更好用的牛顿力学，一个处理复杂问题更加简单的牛顿力学，我们似乎也没必要花很大精力去研究它。分析力学最大的优点，是它处理问题的这套方法可以很方便地推广到经典力学以外，不管是电磁场还是量子力学都可以这么处理，而牛顿力学却不行。这是拉格朗日、哈密顿等分析力学创始人们始料未及的。

也就是说，牛顿力学处理问题的那一套方法没法直接搬到量子力学，我们在量子力学里也不会对物体进行受力分析，而是要用分析力学的那一套。在分析力学里，只要知道了系统的哈密顿量H，把它代入哈密顿方程就能求出系统的运动情况，量子力学也是这样。

也就是说，在量子力学里，如果我们知道了系统的哈密顿量，把它代入一个方程，就能知道系统的状态会如何变化。

在一般情况下，系统的哈密顿量H在数值上等于动能加势能，也就是系统的总能量。因为能量也是一个力学量，量子力学用算符描述力学量，所以，哈密顿量H进入量子力学之后也要入乡随俗地变成哈密顿算符H。

而我们又知道，在量子力学里描述系统状态随时间变化|Ψ(t)>的正是薛定谔方程。因此，如果把哈密顿算符H代入某个方程就能知道系统状态随时间的变化情况，那这个方程自然就是薛定谔方程。

所以，薛定谔方程就是这么一个东西：你给出系统的哈密顿算符H(t)，把它代入薛定谔方程，求解方程就能得到系统状态随时间的变化|Ψ(t)>。

具体形式如下：

可以看到，薛定谔方程的主体就是哈密顿算符H(t)和系统状态随时间变化|Ψ(t)>的一个关系，i是虚数单位，ℏ是约化普朗克常数（ℏ=h/2π），读作h bar。这是一个微分方程，因为它不仅包含了|Ψ(t)>，还包含了|Ψ(t)>对时间t的求导（d/dt）。

知道了系统的哈密顿算符H(t)，我们就能通过求解薛定谔方程把描述系统状态随时间变化的|Ψ(t)>求出来。知道了系统的状态，就知道了概率分布，知道了各种力学量的平均值，也知道了测量时会发生的情况，然后啥都知道了，这是分析许多量子力学问题的一个大致思路。

于是，我们就有了第四个极为重要的结论：系统状态随时间的变化|Ψ(t)>遵守薛定谔方程。有了它，静态的量子图像就能动起来了。

17基本框架

至此，我们前前后后总结了四条非常重要的结论：

第一，用态矢量描述系统状态；

第二，用算符描述力学量，而且不同算符之间一般不能交换次序；

第三，测量一个力学量，其结果是该力学量算符的本征值之一；

第四，系统状态随时间的变化遵守薛定谔方程。

有了这些结论，量子力学的大致框架就搭建起来了。

我们知道如何描述系统状态，也知道系统状态如何随时间变化，就等于知道了系统在任意时刻的状态。于是，我们就能知道系统在任意时刻的概率分布、力学量平均值以及测量结果，也就知道了系统的一切。

很显然，这四个结论并不是我随便乱找的，它们是量子力学五大基本假设中的前四个，其重要性不言而喻。最后一个基本假设是所谓的全同性原理，这里先不管，以后涉及多粒子时再说。

这样，我们就从斯特恩-盖拉赫实验出发，一步步把量子力学的基本框架搭起来了。

看到这里，估计很多人心里在犯嘀咕：这怎么好像跟我预想中的量子力学不太一样？在我的印象里，量子力学不应该是谈不连续、不确定，谈黑体辐射、双缝实验、薛定谔的猫的么？你一直在这里谈系统状态，谈态矢量和算符，这还是我印象中的量子力学么？

当然是！

量子力学就是量子力学，我不可能编个其它东西来骗你。我们现在做的，就是把量子力学的基本框架搭了起来，至于你熟悉的那些东西，都能从这里推出来。学习量子力学不能只图看个热闹，我们不仅要知道这些现象是怎么回事，还要知道它们是怎么来的。

接下来，我们就来看看它们是怎么从量子力学的基本框架里冒出来的。

18一个电子

先来看个最简单的例子：一个电子。

在经典力学里，一个电子就像一个小球，你可以说它在哪，速度是多少，它在任何时候都有确定的位置和动量。你它一下，它的运动状态就会改变，如何变的，接下来的位置和速度是多少都能计算出来。如果让一堆电子通过双缝，经典力学会觉得这就像是一堆子弹射过双缝，是断然不会出现干涉条纹的。

到了量子力学，情况就不一样了。你不能再说这个电子在哪，因为，当你说“电子在哪”的时候，就暗含了此时的电子具有确定的位置。毕竟，只有位置是确定的，你才能说它在哪嘛。

而我们又知道，电子是否有确定的位置取决于它的状态：处于位置本征态时，电子的位置是确定的，测量时有确定值，你可以说电子在哪；处于位置叠加态时，电子的位置不确定，测量时有一定概率处于各个位置的本征值，这时候你说“电子在哪”就没什么意义了。

所以，我们不能把一些观念想当然地搬进量子力学，有些观念在经典力学里没问题，但到量子力学就不对了。我们要慢慢养成从量子框架思考问题的习惯，建立系统的量子观念，逐步形成量子力学的思维方式。

在量子力学的基本假设里，我们用态矢量描述系统状态，用算符描述力学量。电子的位置是否确定取决于它的状态，那怎么看它的状态呢？

在斯特恩-盖拉赫实验里，银原子的自旋可以取两个值，对应的状态就有自旋向上本征态、自旋向下本征态以及它们的叠加态。而电子的位置可以取无穷多个值，那对应就有无穷多个位置本征态以及它们的叠加态，我们就要用无穷维空间中的态矢量来描述它。

态矢量确定了，电子处于位置本征态还是位置叠加态就确定了，测量位置时有没有确定值也就知道了。我们只能这样谈论电子的位置，而不能像经典力学那样直接说电子在哪。

位置谈完了，如果你还关心动量，想知道电子的动量有没有确定值，怎么办？一样的，想知道动量是否有确定值，我们就看系统是处于动量本征态还是动量叠加态，还是看态矢量。

但这样就有了一个问题：我们想看电子的位置是否确定，需要看态矢量是不是位置本征态；想看电子的动量是否确定，要看态矢量是不是动量本征态。这里出现了两个态矢量，它们是什么关系？是同一个态矢量，还是两个不同的态矢量？

稍微想一下就知道：它们必须是同一个！

态矢量是描述系统状态的，如果系统已经处于某个状态了，态矢量就应该确定了。这时候，分析位置还是动量是你的自由，并没有影响系统，那描述系统状态的态矢量自然就不会改变。

而且你看，薛定谔方程里用|Ψ(t)>描述系统状态，时间t确定了，|Ψ(t)>就确定了。也就是说，态矢量只跟时间t有关，跟你分析位置还是动量无关。

再说了，电子的力学量可不止动量和位置，难道多一个力学量就要多一个态矢量出来？没这道理。

因此，它们必须是同一个态矢量！也就是说，你想看电子的位置是否确定，要看这个态矢量是否处于位置本征态；你想看电子的动量是否确定，还是要看这同一个态矢量是否处于动量本征态。

那问题就来了：如果它们是同一个态矢量，那分析位置和动量时的这种差别又是怎么来的呢？

19表象

如果电子处于某个状态，位置说态矢量处于本征态，测量位置时有确定值；动量说不对，态矢量明明处于叠加态，测量动量时没有确定值。位置说态矢量处于本征态，动量说态矢量处于叠加态，它们谁也不服谁，都认为自己是对的，对方是错的。

这让我想起了盲人摸象的故事：一群盲人在摸一头大象，有人摸到了大象的身体，说大象像一堵墙；有人摸到了大象的鼻子，说大象像一条蟒蛇；有人摸到了大象的尾巴，说大象像一根绳子。盲人们争吵了起来，谁也不服谁，都觉得自己是对的，其他人是错的。

类似的，这里只有一个态矢量，从位置角度看，态矢量处于位置本征态；从动量角度看，态矢量处于动量叠加态。他们都对，只是看待态矢量的角度不同罢了。

什么意思？

提到矢量，很多人的第一反应是一个箭头，这是一个很抽象的形象。

如果想把这个抽象的矢量具体化，想用一组具体的数字描述它，就得先做一件事：建立一个坐标系。

坐标系建好了，比如建了一个笛卡尔坐标系，我们就可以把抽象的矢量投影到坐标系，投影到各个坐标轴的系数就是对应的坐标。然后，我们就可以用诸如(1,2)这样的具体数字表示原来的矢量，抽象的矢量就被具体化了。

当然，你可以建立笛卡尔坐标系，自然也可以建立球坐标系或其它坐标系。坐标系不同，同一个矢量在坐标轴的投影就不同，对应的坐标也就不一样。

态矢量也是矢量，它当然也可以被分解到不同的坐标系里。

在斯特恩-盖拉赫实验里，我们用S0表示自旋向上本征态，用S1表示自旋向下本征态，然后用S=S0+S1表示它们的叠加态，调节S0和S1的系数就代表不同权重的叠加态。然后，我们发现如果把S0当作横坐标，把S1当纵坐标，银原子的状态就可以用二维空间中的一个态矢量来表示。

同理，如果不考虑自旋，而是考虑粒子在时空中的位置，我们一样可以用一个态矢量来描述它的状态。

跟自旋不同，粒子的位置一般可以取无穷多个值，这样它就有无穷多个位置本征态，我们就要用无穷多个本征矢量|a1>，|a2>，… ，|an>，…来描述（本征态也是一种状态，自然也要用矢量来描述）。

在自旋那里，我们用代表自旋本征态的S0、S1为坐标轴构建了一个二维坐标系；到了位置这，我们就要用代表位置本征态的无穷多个本征矢量|a1>，|a2>，… ，|an>，…构建一个无穷维坐标系，粒子的状态就用这无穷维空间中的态矢量来描述。

也就是说，虽然粒子只在三维空间中运动，但描述粒子状态的态矢量却不在三维空间，而是在无穷维空间，这是很多初学者容易混淆的。

那么，我们如何才能得到位置的本征矢量呢？

前面讲过了，在量子力学里，我们用算符描述力学量（假设二），所以要用位置算符描述位置。知道了位置算符A，求解它的本征方程A|Ψ>=a|Ψ>就能得到描述位置本征态的本征矢量|Ψ>。我们再以这些本征矢量为基矢，就能构建一个位置相关的坐标系。

把态矢量分解到这个坐标系里，如果态矢量跟坐标轴重合，也就是跟位置的某个本征矢量重合，那就代表了位置本征态；如果态矢量不跟坐标轴重合，那就代表了位置叠加态，相信这个不难理解。

同理，我们也可以以动量算符的本征矢量为基矢构建一个坐标系，然后把态矢量分解到这个动量相关的坐标系里。如果态矢量跟坐标轴重合，也就是跟某个动量的本征矢量重合，那就代表了动量本征态；如果态矢量跟坐标轴不重合，那就代表了动量叠加态。

很显然，我们用位置算符和动量算符构建的是两个不同的坐标系。当态矢量在一个坐标系里跟某个坐标轴重合时，它在另一个坐标系里完全可以跟坐标轴不重合。这样，一个态矢量就完全可以在位置那里是本征态，在动量这里是叠加态，并不矛盾。

当然，这里还有个小问题：在N维空间里，一个力学量算符的本征矢量能否组成基矢，从而构建一个坐标系？

一组矢量在Ｎ维空间里能否构成基矢，关键就要看它们是否有Ｎ个独立的矢量。比如，在三维空间里，我们就要看是否存在三个独立的矢量，直观地看就是这三个矢量是否共面。如果共面，那不在这个面上的矢量就没法由它们表示出来，它们就不能被称为基矢了。

对于这个问题，虽然数学上有点麻烦，但结果却很简单：那些有不同本征值的本征矢量都是相互正交的，就算有多个本征矢量对应了同一个本征值（简并），我们也总能找到一组基矢。总之一句话：力学量算符对应的本征矢量总能构成空间中的一组基矢，你可以放心地用它们去构建坐标系。

在量子力学里，选取这样一组基矢就叫选取了一个表象。因为我们选取的基矢是位置算符的本征矢量，建立起来的表象就叫位置表象，或者叫坐标表象。如果选取的基矢是动量算符的本征矢量，那建立起来的就是动量表象。

这样的话，之前的问题变成了：面对同一个态矢量，我们既可以在位置表象里分解，从位置角度看，系统处于位置本征态；也可以在动量表象里分解，从动量角度看，系统处于动量叠加态，两者并不矛盾。

20玻恩规则

表象选好了，我们就可以把抽象的态矢量投影到具体坐标系里了，然后用具体的坐标来表示态矢量。而我们又知道，态矢量是描述系统状态的（假设一），那进入具体表象后，态矢量的各个坐标又有什么物理意义呢？

在斯特恩-盖拉赫实验里，为了描述银原子的叠加态，我们用S0表示自旋向上本征态，用S1表示自旋向下本征态，然后用S=S0+S1表示叠加态。如果把S0看成横轴，把S1看成纵轴，那矢量S的坐标就是（1,1）。这时候，如果我们去测量银原子的自旋，就会有50%的概率自旋向上，50%的概率自旋向下，概率一样大。

如果我们修改一下系数，把叠加态写成S=0.6S0+0.8S1，对应的坐标就变成了（0.6,0.8）。这时候，测量得到自旋向上的概率是（0.6）²=0.36，得到自旋向下的概率是（0.8）²=0.64，两个概率就不一样了。

也就是说，当我们以一个力学量算符的本征矢量为基矢构建了一个坐标系时，每个坐标轴就对应了一个本征态，态矢量投影到各个坐标轴的系数（坐标）的平方就代表了测量结果是这个本征态对应本征值的概率。

说起来有点绕，其实想想也很简单。我们的坐标系就是以力学量的本征矢量为基矢构建的，态矢量在某个坐标轴的投影越长（坐标越大），自然就代表了它“含有”这个本征态的比例越高，测量结果是这个本征态对应本征值的概率自然就越大。如果态矢量全都投影在某个坐标轴上，在其它坐标轴的投影为0，那测量结果是这个本征态对应本征值的概率自然就是100%。

态矢量的这种概率性解释是玻恩最先提出来的，因而也叫玻恩规则，玻恩也因此获得了1954年的诺贝尔奖。

通过玻恩规则，我们就把态矢量的坐标跟测量时得到对应本征值的概率联系起来了。

21波函数

有了这些认识，我们就能在具体表象下讨论问题了。

还是那个电子，当我们在位置表象下考虑问题时，我们其实是以电子的位置算符的本征矢量为基矢构建了一个坐标系，再把描述电子状态的态矢量投影到这个坐标系里了。

现在只考虑一维情况，也就是假设电子只在x方向运动。如果电子处于x=1的位置本征态，测量时就会在x=1这个位置发现它。因为这是一个本征态，我们要用一个本征矢量来描述它，而本征矢量又是坐标系的基矢，会对应一根坐标轴。所以，x=1这个位置本征态就会对应坐标系里的一根坐标轴。

当然，除了x=1，电子的位置还可以在x=2，x=2.5等无穷多个地方，同样，每个位置本征态都会对应坐标系里的一根坐标轴。这样一来，这个坐标系里就会有无穷多个坐标轴。

现在，我们把态矢量投影到这个拥有无穷多个坐标轴的坐标系里去，它在每一个坐标轴上就会有一个投影系数，也就是态矢量在这个坐标轴上的坐标。

比如，x=1是一根坐标轴，代表了x=1的位置本征态。态矢量在这个坐标轴上有一个投影系数，也就是它在这个轴上的坐标，我们记作Ψ(1)。同理，态矢量在x=2、x=2.5上也会有一个投影系数（坐标），我们分别记作Ψ(2)、Ψ(2.5)，以此类推。

而玻恩规则又告诉我们：态矢量在x=1这个坐标轴上的投影系数的模的平方|Ψ(1)|²，就代表了测量时在x=1处发现电子的概率。同理，|Ψ(2)|²就代表了测量时在x=2处发现电子的概率。电子的位置x还可以取3、3.5、4.1等无穷多个地方，每个地方都有一个对应的投影系数Ψ(x)，它的模的平方|Ψ(x)|²就代表了在这里发现电子的概率。

也就是说，给定一个电子可以取的位置x，我们都能找到一个与之对应的投影系数Ψ(x)，使得|Ψ(x)|²就代表了在x处发现电子的概率。

给定一个位置x，就有一个数Ψ(x)与之对应，这种从数到数的映射是什么？

是函数啊！是我们初中就学了的函数。

所以，进入位置表象以后，态矢量在各个坐标轴的投影系数（坐标）就是一个关于位置x的函数，我们把它记作Ψ(x)。而这个函数的名字，就是大名鼎鼎的波函数。

很多朋友对态矢量和波函数感到很迷糊，因为有的地方说“用态矢量描述系统状态”，有的地方又说“用波函数描述系统状态”，这样他就晕了。明明一个是矢量，一个是函数，看起来八竿子打不着，为什么系统状态好像既可以用态矢量来描述，又可以用波函数来描述呢？

原因就在这了，因为波函数是跟具体表象绑定在一起的。我们只有选定了具体的表象，建立了具体的坐标系，把态矢量投影到具体坐标系的系数才是波函数。

所以，我们说“用态矢量描述系统状态”没错，说“用波函数描述系统状态”也没错。就好像我们既可以说矢量a，也可以把它分解到一个坐标系，说这是矢量（1,2）一样。

建立了位置表象，态矢量在这个具体坐标系里的投影系数就是波函数Ψ(x)，波函数的模的平方|Ψ(x)|²就代表了在位置x发现这个电子的概率。比如，Ψ(1)=0.1就代表在x=1这个地方发现电子的概率是0.1²=0.01，Ψ(2)=0.2就代表在x=2这个地方发现电子的概率是0.2²=0.04等等，这样问题就具体化了。

当然，你能建立位置表象，自然也能建立动量表象。我们一样可以以动量算符的本征矢量为基矢构建一个坐标系，然后把态矢量分解到这个坐标系里。这样，态矢量的投影系数就是动量表象下的波函数，它的模的平方就代表了测量时发现电子具有这个动量的概率。

很显然，不同表象之间是等价的。你既可以在位置表象下讨论问题，也可以在动量表象下讨论问题，就像你既可以选择笛卡尔坐标系，也可以选择球坐标系一样。同一个态矢量，它既可以对应位置表象下的波函数，也可以对应动量表象下的波函数，它们就差了一个傅里叶变换。

因为大家平常对位置表象接触得比较多，所以有些人就误以为量子力学就是位置表象下的量子力学。他不太清楚位置表象和动量表象的关系，也不太清楚波函数和态矢量的区别，这样就始终云里雾里的。

好，现在我们进入位置表象。

22位置表象

进入位置表象以后，我们就可以用波函数代替原来的态矢量了。而我们又知道，系统状态随时间的变化是遵守薛定谔方程的（假设四），而原来的薛定谔方程是用态矢量|Ψ(t)>来描述系统状态的：

所以，现在我们可以用波函数代替原方程里的态矢量。

因为薛定谔方程描述的是系统状态随时间的变化，我们用波函数Ψ(x)描述系统状态，那波函数随时间t的变化自然就是Ψ(x,t)。因此，在位置表象下，我们就可以用波函数Ψ(x,t)代替原来的态矢量|Ψ(t)>。

但这样还不够，为了让薛定谔方程更加具体，我们把哈密顿算符H(t)也一并展开。

关于哈密顿算符，我们前面讲过一点。在这里，大家只要知道：一般情况下，如果我们知道了系统的哈密顿算符，就知道了系统本身的情况（比如粒子的数量、质量以及它们之间的相互作用）以及系统所处的外部情况（比如粒子所在的外部电磁场）。基本上，知道了系统的哈密顿算符，我们就知道了系统的一切。

在经典力学里，如果系统与外界不存在能量交换，系统的哈密顿量H一般可以写成动能（P²/2m）加上势能V，在数值上就等于系统的总能量：

到了量子力学，力学量要用算符来描述。那么，跟能量紧密相连的哈密顿量自然也要算符化，算符化的结果就是薛定谔方程里的哈密顿算符H。

很显然，如果系统的哈密顿量H可以写成动能（P²/2m）加势能V，我们想把它算符化，就要把里面的力学量，也就是动量P算符化。在位置表象下，动量P算符化的结果是-iℏ∂/∂x。为什么长这样我们先不管，但大家要记住，这只是动量算符在位置表象下的形式，它在其它表象下就不长这样了。

于是，我们就集齐了在位置表象下写出薛定谔方程的全部条件：用波函数Ψ(x,t)代替态矢量|Ψ(t)>，把哈密顿算符H展开成最常见的一种形式（P²/2m+V），并找到了位置表象下的动量算符（-iℏ∂/∂x）。

然后，我们就可以在位置表象下重新写出薛定谔方程了（只考虑一维情况）：

这个方程比原来的长一些，看起来也复杂了一些。但是，它只是用Ψ(x,t)代替了|Ψ(t)>，并把哈密顿算符H(t)展开了而已。它们的核心区别是：原来的方程是一般的薛定谔方程，没有指定表象，现在这个是位置表象下的薛定谔方程。

大家看看这个方程，i、ℏ是常数，m是质量，如果势能函数（一般简称为势函数）V(x,t)确定了，那未知量不就只剩下波函数Ψ(x,t)了么？一个方程一个未知量，求解方程就能得到波函数Ψ(x,t)了。

也就是说，对位置表象下的薛定谔方程来说，只要给定了势函数V(x,t)，我们就能解出一个与之对应的波函数Ψ(x,t)（能否求出精确解就是另外一回事了）。

知道了粒子的波函数Ψ(x,t)，我们就能知道在任何时间t，任何位置x发现粒子的概率|Ψ(x,t)|²（玻恩规则）。概率分布确定了，力学量平均值也就确定了，我们正是在这个意义上说波函数完全描述了系统状态。

在牛顿力学里，给物体一个外力，物体就会有一个加速度，它的状态也会随之变化。到了量子力学，我们不再用“力”来描述外界的影响，而用势（能）函数。比如，牛顿力学谈重力，我们这里就谈重力势能；牛顿力学谈弹力，我们就谈弹性势能。

分析力学是一套以能量为核心的体系，它跟以力为核心的牛顿力学不一样。量子力学沿用了分析力学的逻辑，所以，在薛定谔方程里出现的是势（能）函数，而不再是力。

因此，只要我们确定了势函数，就能通过求解薛定谔方程得到描述粒子状态的波函数，进而知道粒子的各种情况。事实上，大家一开始学习量子力学时，很大一部分工作就是求解各种势函数下的薛定谔方程。

比如，对于自由落体的粒子，它的势能就是重力势能-mgx，所以势函数V(x,t)就是-mgx（不含时间t）。我们把-mgx代入薛定谔方程，求解方程就能得到描述粒子状态的波函数Ψ(x,t)。然后，我们就能知道1秒、2秒、n秒在某个地方发现这个粒子的概率以及各种力学量的平均值。

类似的，对于一个简谐振子，它的势函数是V(x)=mω²x²/2(也不含时间t)。我们把它代入薛定谔方程，解出波函数Ψ(x,t)以后，一样可以得到它的各种信息。

也就是说，如果我们想了解一个量子系统，通常要先做两件事情：第一，找出系统的势函数V(x,t)；第二，把势函数代入薛定谔方程，解方程求出描述系统状态的波函数Ψ(x,t)。

一般来说，找势函数是比较容易的，但是，薛定谔方程是一个偏微分方程，求解起来就没那么容易了。事实上，我们只在极少数情况下能精确求解薛定谔方程，在更多时候，我们只能采取一些近似方法。

这样，相信大家对量子力学的基本框架，以及量子力学处理问题的一般方法就有了个大致了解。然后，我们就可以这样去分析具体问题了，得到的结论是什么样就是什么样，大家平常熟悉的那些反常识、不可思议的量子力学特性都是这么来的。不信的话，我们来看一看。

23不连续的问题

首先，我们来看一个大家都喜闻乐见的话题：不连续性。

很多量子力学科普都是从黑体辐射开始的，并告诉你正是普朗克创造性地把能量的传播看成一份一份，而不是连续的，这才解决了黑体辐射难题，从而开创了量子力学。

当然，普朗克当时只是把这当作一个数学技巧，并不真的认为能量的传播就是不连续的，后面到了爱因斯坦才把这当作物理现实。再往后，玻尔通过假设电子的轨道是分立的，无法连续吸收、释放能量，初步解决了氢原子问题。

总之，如果单独看量子力学的初期发展史，会让很多人会误以为量子力学就是让一切都分立化，让一切都不连续。似乎只要我们让一些东西离散化，那些经典力学无法解释的问题就会迎刃而解，似乎不连续性就是量子力学的核心。

有的同学还会觉得，想要建立量子力学，是不是只要让经典力学的东西都离散化，让经典力学全都变成不连续的就行了？

但是，你看看我们这里讲的量子力学，通篇都在讲什么用矢量描述系统状态，用算符描述力学量，用薛定谔方程描述态矢量随时间的变化等等，压根都没提什么连续不连续。

有的同学走得更远，他觉得量子力学里到处都是不连续，那么，量子力学里的时间和空间肯定也是不连续的。刚好，他又知道普朗克时间和普朗克长度的概念，于是，他就在脑海里把时间和空间切成了一块一块，并认为这就是量子力学，然后说自己轻而易举地解决了芝诺悖论。

不得不说，如果只是看了一点量子力学科普书，然后基于它们做了一些自以为合理的延伸，再加上点脑洞，得出这样的结论是非常正常的。但是，如果稍微系统地学了一点量子力学知识，就会知道这样的推论是错得离谱的。

最简单的证据，你看看薛定谔方程，里面出现的是对时间t和空间x的求偏导∂/∂t、∂/∂x。求导意味着什么？求导意味着一定连续啊，相信大家多多少少还记得“可导一定连续，连续不一定可导”。

薛定谔方程里有对时间和空间的求偏导操作，这明摆着就是在告诉我们：在量子力学里，我们假设时间和空间是连续的，否则，薛定谔方程就没有意义了。

确实，在有些量子引力理论，比如圈量子引力里就认为时间和空间是不连续的，但这并不是我们常说的量子力学。它属于量子引力的前沿探索领域，理论本身都还存在许多问题，也还没得到人们的共识。

而大家常说的量子力学，它在理论上是非常成熟了的，也经历了无数实验的考验，它假定时间和空间是连续的。

也就是说，虽然量子力学里可以有不连续的东西（比如能量），但时间、空间这个背景舞台却依然是连续的。而且，我们说能量可以不连续，而不是一定不连续，它在有的情况下依然可以连续。所以，像“量子力学里一切都是不连续的”这种简单粗暴的念头，趁早打消了吧~

那么，既然量子力学里的时间和空间都是连续的，而能量却可以不连续，那这种不连续是怎么产生的呢？

24直觉和反直觉

到了这里，我要跟大家强调一件非常重要的事：学习量子力学时，我们要以量子的眼光看待世界，而不是以经典的眼光看世界。我们不要老觉得量子世界很奇怪，于是非要用自己更加熟悉的经典图像去类比。量子力学是更加底层的东西，需要被解释的不是量子力学，而是经典力学。

我们真正应该问的，不是量子力学为什么奇怪，而是经典力学的种种现象是如何从量子力学涌现出来的？我们真正该奇怪的，不是量子世界为什么是这样，而是经典世界为什么可以这样？

量子力学已经诞生百年了，面对这个极其成功并且已经深刻改变了我们的思想和生活的理论，按理说，我们应该觉得它已经很自然了。但事实却与此截然相反：很多人一提到量子力学，第一反应依然是反直觉、反常识，觉得这个理论稀奇古怪，难以琢磨，不可理喻！

但是，你想过没有，当你在说量子力学反直觉的时候，你到底在说什么？你能够反直觉，说明你之前已经有了一个直觉。你有了一套看待世界的直觉以后，又发现了某些不符合这些直觉的现象，然后才会反直觉。

对大部分人来说，这个直觉就是中学阶段学习牛顿力学所形成的直觉。

所以，当他们试图把量子世界的种种现象纳入原先的版图，试图用牛顿力学的思维和习惯理解量子现象时，发现理解不了，于是就觉得反直觉了。

这种事说来也正常，如果一个人已经积累了很多经验，在遇到新事物以后，他自然会希望原来的经验还能派上用场。所以，在量子力学初期，那些物理大师一样希望能在经典框架内解决问题，他们有意无意地保留了许多经典物理的思维和概念，经历了大约四分之一个世纪艰苦卓绝的探索后，才形成了比较系统的量子力学。

大概是量子力学前25年的历史太过精彩，各种人物轮番登场，各种思想对经典物理发起了一轮又一轮的冲击。量子力学内部又有矩阵力学和波动力学两股力量，后面还有玻尔和爱因斯坦的论战，拿来说书再合适不过了。

这就引发了一个比较严重的问题：现在市面上关于量子力学的科普书，绝大部分都是在讲量子力学这前25年的历史。

他们从普朗克与黑体辐射开始，讲爱因斯坦和光电效应，讲玻尔和氢原子，讲海森堡和神秘的矩阵，讲德布罗意和物质波，讲薛定谔的神秘女郎和薛定谔方程，再配合矩阵力学和波动力学的小论战，以及玻尔和爱因斯坦的大论战，一本精彩纷呈的量子力学科普书就完成了。

这样写的书，当成量子力学史来看是不错的。但是，如果你把它当成量子力学科普书，希望从这里学习量子力学的思维，了解量子力学的基本框架和处理问题的一般方法，那就非常容易出问题了。

原因也说了，量子力学前25年的历史本身就充斥着各种混乱，那些大师们在思考问题时也掺杂了各种经典的东西。从经典视角看待量子力学，自然会各种反直觉，奇怪，乃至诡异。如果你想学习量子力学，没有学到如何从量子视角看待世界，反而学来了一堆反直觉和诡异，这可不是什么好事。

比如这里的不连续性，很多人看完量子力学前25年的历史后，对这个不连续性的印象极其深刻。于是，他很容易认为量子力学就是在说一切都不连续，时间不连续，空间也不连续，认为把经典力学全部离散化之后就能得到量子力学，然后开始各种胡思乱想。

25波粒二象性

类似的还有波粒二象性，这也是一个很典型的试图用经典思维来解释量子现象的东西。我们在经典力学里谈到波，就会想到类似水波这样的东西；谈到粒子，就会想到类似豌豆那样的东西。

但是，在量子力学里，如果你还说粒子性，那也只是说它具有一定的质量、电荷这种属性，一个电子的行为一点也不像一粒豌豆，它根本没有确定的轨道；你在量子力学里说波动性，那也只是说它具有相干叠加性，并不是说空间中真的有一个类似水波这样的东西。

这样导致的结果就是，你看啊，我们先是千方百计地让读者接受任何粒子都具有波粒二象性：一个电子既是波又是粒子，它有时候像波，有时候像粒子。当我们用波动的方式去测量时，它表现得像波；当我们用粒子的方式去测量时，它表现得像粒子。

等大家被这个搅得一团乱，却只记住了“电子既是波又是粒子”之后，你又跑来告诉读者：不好意思，我们量子力学里说的这个波啊，它不是经典的波；量子力学里说的粒子，它也不是经典的粒子。

读者：……

你完全可以想象，经过这样一轮科普之后，读者能不迷糊么？他能不觉得量子力学玄之又玄，既反直觉又诡异么？如果脑洞再大一点，借着波粒二象性继续发挥一下：电子既是波也是粒子，既有阴也有阳，阴阳五行相生相克……这就很容易形成拳打薛定谔，脚踩海森堡，一记左勾拳撂倒玻尔和爱因斯坦的局面。

归根结底，波粒二象性是在量子力学发展初期，在那个混沌阶段，人们试图用尽量多经典概念描述量子力学的产物。在量子力学还没建立起来之前，人们的确需要这样一根拐杖，但是，在量子力学已经建立起来的一百多年后，我们还有必要拄着一百年前的拐杖一步一拐吗？

我们在文章里讲用态矢量描述系统状态，用算符描述力学量，用薛定谔方程描述系统状态随时间的变化，通篇都没提什么波粒二象性，也没必要。

在经典力学里，波和粒子是两种不能并存的实体，区分它们是很自然的。但到了量子力学，我们只要从量子力学的基本框架出发，就会发现粒子具有确定的质量、电荷，描述粒子状态的波函数具有相干叠加性都是非常自然的事情，没有必要刻意提让人容易混淆的波粒二象性。以后学了量子场论，大家会觉得这更加自然。

当然，如果你执意要用波粒二象性，也不是不可以。但是，你一定要清楚当你在说波粒二象性时，你到底在说什么，你要清楚量子力学里的波动性、粒子性跟经典力学里的有什么区别。

我们都知道量子力学是比经典力学更加深刻的理论，经典力学能描述的东西量子力学能描述，经典力学不能描述的东西量子力学也能描述。既然这样，为什么我们学习量子力学的时候还要管经典力学怎么看？为什么我们还要做着“从经典力学的视角去理解量子力学”这种既荒诞又无用还容易制造各种混乱的事情呢？

我们就不能堂堂正正地学习量子力学，用量子的方式思考量子问题么？我们要做的不是“如何从经典视角理解量子力学”，而是应该反过来：如果我们更加底层的世界是量子的，那经典世界的种种现象是如何涌现出来的？

如果量子力学的基本假设里没有不连续性，那我们常说的能量不连续是怎么冒出来的？如果不用波粒二象性这种半经典半量子的东西，我们要如何解释单电子双缝干涉实验？量子世界充满了各种概率和不确定性，为什么宏观世界好像没有？如何从量子力学出发，给物理世界一个完整而又自洽的描述？等等。

这是一系列非常宏大的话题，我们留到后面慢慢谈。在这篇文章里，我们就先把量子力学的基本框架搭起来，学习量子力学处理问题的一般方法，把这些都搞清楚了，我们的头脑就完成了一次从经典到量子的格式化。然后，你就会觉得量子力学很自然，而不再反什么直觉，因为现在的量子力学才是你的直觉。

所以，我们要逐步尝试用量子的方式思考量子力学问题。我们不是已经找到了量子力学的基本假设么？从这里出发就好了。

那么，我们就从这里出发，看看能量为什么可以是不连续的？再次提醒，这里说的是“可以”，而不是“一定”。

26能量是否连续？

假设这里有个粒子，我们想看它的能量是否连续。首先，我们要意识到：当我们在说这句话的时候，我们到底在说什么？

在经典力学里，一个粒子的动能跟它的速度有关，而粒子的速度可以连续取值，它可以是1，可以是1.6，也可以是其它任何一个实数，于是，粒子的动能也可以连续取值。同样的，粒子的势能也可以连续取值，因为势能依赖位置，而位置可以连续取值。

所以，在经典力学里，粒子的动能和势能都可以连续取值，那粒子的总能量当然可以连续取值，这没什么好说的。

到了量子力学，如果你还想通过粒子的速度去寻找动能，就会发现此路不通。原因也很简单，经典力学的速度是指单位时间内的位移变化量。粒子此刻在A点，一秒后到了B点，我们用AB两点间的距离除以时间，就能得到速度的大小，进而得到动能。

但是，我们在量子力学里还能说粒子此刻在A点么？

不能啊！只有当粒子处于位置A的本征态时，我们才能说粒子一定在A点。如果粒子处于位置叠加态，那测量时就有一定的概率在A点，有一定的概率在B点、C点等等。因此，粒子在一般情况下并没有确定的位置，那你就不能说它此刻在A点。同理，你也没理由说它下一秒就一定在B点。

位置都不确定，那如何确定粒子的速度呢？

所以，我们不能像经典力学那样谈论粒子的动能，也没法像经典力学那样谈论能量的连续性。我们必须丢掉经典力学的经验，直接从量子力学的框架出发考虑问题。

我们知道，量子力学里是用算符描述力学量的（假设二）。能量也是力学量，那自然也要用算符来描述，用什么算符呢？前面说了，用哈密顿算符。在经典力学里，粒子的能量一般就等于哈密顿量，我们把它算符化以后，就得到了薛定谔方程里的哈密顿算符Ｈ。而我们又知道，测量一个力学量的结果是对应算符的本征值之一（假设三）。

因此，如果我们想判断粒子的能量是否连续，就不是像经典力学那样看它的速度是否连续，而是要看哈密顿算符的本征值是否连续。

前面讲过了，经典力学里的哈密顿量H一般写成动能（P²/2m）加势能V：

在位置表象下，动量P对应的算符长这样-iℏ∂/∂x（为啥长这样先不管了），把它代进去，就得到了位置表象下的哈密顿算符H：

也就是说，想看能量是否连续，我们就要看这个哈密顿算符H的本征值是否连续。

想看一个算符的本征值是否连续，前面也讲过了，解这个算符的本征方程（A|Ψ>=a|Ψ>，这里的a就是算符A的本征值，|Ψ>是对应的本征态）就行了。

所以，我们现在的问题变成了：上哪找哈密顿算符H的本征方程？

27定态薛定谔方程

想找哈密顿算符的本征方程，你得先找一个含有哈密顿算符的方程吧？大家看看位置表象下的薛定谔方程：

哈密顿算符Ｈ跟薛定谔方程的右边是不是有点像（废话，没进入表象的薛定谔方程的右边就是哈密顿算符，能不像么~）？

如果我们可以像代数乘法那样把Ψ提出来，那这个方程的右边是不是就只剩下哈密顿算符Ｈ了？也就是说，如果可以把Ψ提出来，那位置表象的薛定谔方程的右边就可以写成HΨ，我们就能看到哈密顿算符H了。

但是很可惜，这个方程的右边并不是代数乘法，位置表象下的波函数Ψ(x,t)和势函数V(x,t)也都是既跟时间t有关，又跟空间x有关的多元函数，不是随随便便就能提出来的。

因此，如果想把Ψ提出来，你就得先想办法把波函数Ψ(x,t)和势函数V(x,t)的时间和空间部分分开，怎么做呢？

先看势函数，现在的势函数V(x,t)是既跟时间t有关，也跟空间x有关，那怎么才能把它们分开呢？简单，我们就直接假设势函数不依赖时间t好了。也就是说，我们就只考虑不依赖时间t，只考虑跟空间x有关的势函数V(x)。

大家想想我们平常遇到的情况：一个物体的重力势能只跟高度有关（跟时间无关），一个弹簧的弹性势能只跟位置有关（跟时间无关），我们做电磁学题目，一般也是先给定一个电磁场（不随时间变化）。可见，不依赖时间t的势函数V(x)是非常常见的，我们先考虑这种简单情况，以后再考虑更加复杂的也不迟。

势函数解决了，那波函数呢？

为了把波函数的时间和空间部分也分开，我们把波函数Ψ(x,t)写成只包含位置的ψ(x)和只包含时间的φ(t)的乘积：

当然，你可能会说凭什么把波函数写成这种形式？的确，可以写成这种形式的波函数只是很少的一部分。但后面大家会看到，更一般的解都可以通过这少部分的解构造出来。所以，我们先寻找这一小部分解集还是非常有意义的。

于是，我们就通过假定势函数V不依赖时间，并把波函数Ψ(x,t)写成ψ(x)φ(t)这样的形式，把薛定谔方程的时间和空间部分分开了。

然后，我们就把波函数的新形式ψ(x)φ(t)代入位置表象下的薛定谔方程，经过一个简单地懂的都懂，不懂也没关系的求导、替换工作，原来的薛定谔方程就变成了这样：

为了方便区分，我们把既包含时间，又包含空间的波函数用大写的Ψ(x,t)表示，把只包含空间的部分用小写的ψ(x)表示，把只包含时间的部分用φ(t)表示。

可以看到，由于Ψ(x,t)被拆成了ψ(x)和φ(t)相乘的形式，原来方程里的求偏导∂/∂x，∂/∂t都变成了普通的求导d/dx，d/dt，这样形式就简单了。这么一来，方程的左边就真的只跟时间t有关，方程的右边就只跟空间x有关了（因为右边的势函数V不依赖时间，ψ(x)也不含时间）。

一个跟时间相关的东西（方程左边）等于一个跟空间相关的东西（方程右边），看起来好像不太可能，两个互不相关的函数怎么会相等呢？

但是，它们还是有相等的可能性的，那就是：它们都恒等于一个常数！

你想啊，左边的东西是随时间变化的，可能8点一个值，9点一个值；右边的东西是随位置变化的，可能北京一个值，武汉一个值。左右两边没有任何关系，你现在让它们强行相等，那它们就只能都等于一个常数了，我们姑且把这个常数记为E。

于是，上面的方程就可以拆成这样两个：

第一个方程非常简单，求解也很容易，这里先不管，我们重点看第二个方程。如果把方程二的左右两边都乘以ψ，它就可以写成这样：

这个方程有个很响亮的名字，叫定态薛定谔方程。

为什么叫定态呢？从表面上来看，“定”应该是不动，不随时间变化的意思。但是，我们这里只是假设势函数V不依赖时间，波函数Ψ(x,t)虽然写成了ψ(x)φ(t)的形式，但依然是跟时间φ(t)相关的，似乎谈不上“定”。

但是，我们想一下玻恩规则：|Ψ(x,t)|²表示在时间t，在位置x发现粒子的概率。也就是说，虽然波函数Ψ(x,t)跟时间t相关，但波函数本身却不对应什么物理现实，真正有物理意义的是波函数的模的平方|Ψ(x,t)|²，它代表我们在某时某地发现粒子的概率。

但是，当我们计算|Ψ(x,t)|²的时候，却发现时间因子在计算过程中竟然相互抵消了，最后的结果反而跟时间无关。更具体的说，|Ψ(x,t)|²就等于|ψ(x)|²，它只跟空间部分有关。

于是，当势函数V不依赖时间时，虽然波函数Ψ(x,t)本身跟时间相关，但概率分布|Ψ(x,t)|²=|ψ(x)|²却跟时间无关。这样，任何力学量的平均值就也跟时间无关，所以我们才说这是“定态”，是概率分布和力学量平均值都不随时间变化的状态。

28能量本征态

明白了定态的意义，我们再来追问那个常数E的意义，那个让时间和空间部分相等的常数E是什么？

大家都知道，在物理学里，我们一般用E表示表示能量（Energy），那这个常数E跟能量有没有什么关系呢？

有关系！这个E，正是系统的能量。

为什么？我们再来看看定态薛定谔方程：

这里的ψ只跟空间x有关，是个一元函数ψ(x)。这样的话，我们就可以把方程左边的ψ提出来，那剩下的部分就是哈密顿算符H了。

于是，我们就可以把定态薛定谔方程写成Hψ=Eψ这种非常精简的形式了。温馨提示，这里的H是哈密顿算符，是一个算符，而E是一个数。大家可不要大笔一挥把ψ约掉了，闹出一个H=E的笑话来~

很多人应该还记得，我们在讲“用算符描述力学量（假设二）”时讲过算符的本征方程：如果力学量用算符A描述，那当系统处于力学量的本征态ψ时，力学量的取值就是确定的。无论你测量多少次，测量结果都会是本征值a，对应的本征方程就是Aψ=aψ。

我们再看看定态薛定谔方程Hψ=Eψ，跟算符的本征方程（Aψ=aψ）是不是很像？一般情况下，能量对应的算符就是哈密顿算符H，如果ψ又是能量本征态，那Hψ=Eψ不就是能量的本征方程了么？

但问题是：这个ψ是能量的本征态么？

如果ψ不是能量本征态，那定态薛定谔方程Hψ=Eψ就不能看作能量本征方程。因此，如何判断这个ψ是不是能量本征态呢？

首先，我们回想一下这个ψ是怎么来的：我们假设势函数V不依赖时间，然后把波函数Ψ(x,t)拆成了时间和空间部分的乘积ψ(x)φ(t)，而这个ψ就是空间部分。

咋一看，这个ψ似乎跟能量本征态没啥关系，但光看不行，我们还得计算。

如果ψ真的是能量本征态，那E就是对应的能量本征值。这时候，你去测量系统的能量，测量结果就一定是本征值E，平均值也一定是E。

因此，如果你想证明ψ是能量本征态，就得先证明哈密顿算符Ｈ在状态ψ的平均值等于Ｅ。如果平均值都不等于Ｅ，那这肯定就不是本征态了。通过计算，我们发现哈密顿算符H在状态ψ的平均值确实等于E。

当然，光平均值等于E还不够，因为能量本征态的意思是：无论你测量多少次，结果都是E。现在你只说哈密顿算符H在状态ψ的平均值是E，万一这个E是由0.5E和1.5E平均出来的呢？也就是说，如果我们测量粒子的能量，它有50%的概率是0.5E，有50%的概率是1.5E，这样平均值依然是E。但是很显然，这并不是能量的本征态。

所以，除了平均值等于E，我们还要保证它没有弥散，没有波动，用统计语言说就是方差和标准差都必须为0。通过计算，哈密顿算符H在状态ψ的标准差也确实为0（计算过程都略了，我这只讲思路，大家最好自己去算一算）。

平均值等于E，标准差为0，这样我们才能保证每次测量的结果都是Ｅ，才能确定ψ是本征态。于是，我们才能光明正大的说：当势函数V不依赖时间时，定态薛定谔方程Hψ=Eψ描述的状态，正是能量的本征态，定态薛定谔方程就是能量的本征方程。而这个常数E，不是别的，它正是本征态ψ下系统的能量，大功告成！

也就是说，如果势函数V不依赖时间，系统就处于定态，也就是能量本征态。在这种状态下，测量系统的总能量，总会得到确定值E。

为什么势函数不依赖时间，总能量就是确定的呢？我举个简单的例子大家就明白了。

一个苹果往下落，苹果下落时重力势能转化成了动能。但大家都知道，这个过程中苹果的总能量（动能+重力势能）并没有改变，它是守恒的，有一个确定值E。为什么苹果下落时能量守恒呢？因为苹果的重力势能mgh不依赖时间，它只跟苹果的高度h有关。也就是说，让苹果的势能函数mgh不依赖时间，结果就导致了能量守恒，导致了苹果的总能量一直是定值E。

如果苹果的势函数V依赖时间，那它的动能和势能之和就不再是一个定值（最简单的，苹果静止不动时，动能不变，但势能随时间变化，所以总能量必然也随时间变化，就不再守恒），总能量也就不再是定值E了。

这里的言外之意是：苹果这个系统还跟外界系统存在能量交换。比如，我们拿根绳子上下拉苹果，那苹果的动能和重力势能的和就肯定不是定值。因为我们的手会对苹果做功，苹果跟我们之间存在能量交换。

这样，大家明白定态薛定谔方程Hψ=Eψ的意义了吧？

29势函数

我们前面不是在讲能量的连续性么，为什么这里要花这么大篇幅讲定态薛定谔方程呢？

因为能量也是力学量，而力学量要用算符来描述，力学量的取值就是算符对应的本征值之一。所以，你想知道能量可以取哪些值，就得知道对应的哈密顿算符有哪些本征值；想知道哈密顿算符有哪些本征值，就得知道它的本征方程是什么。

现在，我们找到了哈密顿算符H的本征方程，发现它竟然就是定态薛定谔方程Hψ=Eψ。于是，我们才能继续讨论能量的连续性问题。

大家再来看看定态薛定谔方程，也就是能量本征方程：

从方程上看，系统的一个状态ψ（能量本征态）就对应了一个能量E（能量本征值）。你想知道能量E的情况，就得先知道系统状态ψ的情况。

那么，如何知道描述系统状态的波函数ψ呢？

这个前面讲过了：解薛定谔方程就行了！顺便提一句，虽然一开始说的波函数是指跟时间t相关的Ψ(x,t)，但习惯上，我们把定态薛定谔方程里这个只跟空间x相关的ψ(x)也称为波函数，大家知道就行。

也就是说，如果我们想知道粒子的能量是如何取值的，是连续的还是离散的，就得知道描述粒子状态的波函数ψ可以如何取值。想知道波函数ψ如何取值，就得解定态薛定谔方程。

在定态薛定谔方程里，除了能量E和波函数ψ，还有一个未定的势函数V。也就是说，不同的势函数（比如不同的电磁场）会有不同的解，进而得到不同的波函数ψ，以及不同的能量取值。

所以，我们不能笼统地说量子力学里的能量是连续的还是离散的，而是要根据不同的势函数区别对待。

30自由粒子

一如既往，我们还是由易入难，从最简单的入手。那什么样的势函数最简单呢？当然是势函数V=0，也就是没有任何外界约束的时候。

在牛顿力学里，如果合外力为0，粒子就会做最简单的静止或者匀速直线运动。到了量子力学，如果势函数为0，粒子会如何运动呢？

很显然，当势函数V恒等于0时，它依然是不依赖时间的。那么，我们就可以继续使用定态薛定谔方程来处理问题。

在定态薛定谔方程里，如果V=0，方程就变成了这样：

这是个非常简单的微分方程，我们可以轻而易举地写出它的一般解，此时的波函数ψ长这样（不会解的自己去翻书，我就不在这里科普如何解微分方程了~）：

这个解是什么意思呢？大家中学都学过三角函数，像Asinkx这样的是一个正弦波。A越大，正弦波震荡得越高，波峰跟波谷的距离越大；k越大，正弦波就越密，两个波峰之间的距离就越小。

很显然，如果A和k不受任何限制，可以随意取值的话，那这个正弦波的图像就也可以随意变化。它可以随意的高，也可以随意的密，余弦波Bcoskx类似。

因此，我们解势函数V=0的定态薛定谔方程，得到的波函数ψ(x)是一个正弦波Asinkx和余弦波Bcoskx的叠加，即ψ(x)=Asinkx+Bcoskx。由于势函数V处处为0，对粒子没有其它约束，所以，我们就没有其它条件来约束A、B、k的取值。换句话说，A、B、k可以随意取值。

A、B我们可以先不管，但这个k是跟能量E紧密相连的：

k越大，波越密，对应的能量E就越大。

现在，我们说这个k可以随意取值，那这个E自然也可以随意取值。也就是说，当势函数V=0时，这个自由粒子的能量E可以取任意的正实数，它显然是连续的。

于是，我们就得到了第一个结论：自由粒子（势函数V=0）的能量取值是连续的，它可以取任何正的能量值。

是不是有点吃惊？可能在你的印象里，量子力学里的能量肯定都是不连续的。却没想到我们的第一个结论，最简单的自由粒子的能量竟然就是连续的。

大家要记住，“能量是否连续”并不是量子力学的基本假设，基本假设就是前面说的态矢量、算符、测量、薛定谔方程那些。我们从这些假设出发，算出能量是连续的就是连续的，算出能量是离散的就是离散的，仅此而已。

那问题来了，大家熟悉的那种不连续的能量，那种一份一份的能量是怎么来的呢？

31一维无限深方势阱

你想想，自由粒子的能量E之所以连续，是因为它对波函数ψ(x)=Asinkx+Bcoskx没有任何约束，于是Ａ、B、k可以随意取值。如果我们再加上一些限制条件呢？如果我不让k随意取值，那对应的能量E是不是也就不能随意取值了？它是否会因此变成不连续的呢？

空想是没有用的，我们还得用计算来说话。我们给自由粒子加上一个非常简单的限制：把粒子关在一个“地牢”里，不让它出去。

什么意思？自由粒子不是任何地方的势函数都为0，在任何地方都没人管么？现在我在左右两边加两块铜墙铁壁，把它关起来。

如上图，在0到a这个范围内，势函数V依然等于0，粒子在这个范围内依然是自由的。但是，在这个范围以外，也就是小于0以及大于a的地方，势函数V都是无限大，粒子别想过去。

这个东西很像一个陷阱，因为是一维的，又是方形的，而陷阱外的势函数又是无限大，所以就叫它一维无限深方势阱。

那么，这样一个势阱会对波函数做出什么样的限制呢？在势阱内，也就是0到a的范围内，势函数还是0，跟自由粒子的情况没啥区别。但是，到了势阱外，势函数就是无限大，粒子无法“出去”，这就不一样了。

在经典力学里，我们说一个粒子无法出去，是说它的位置坐标不可能离开那个范围。但到了量子力学，粒子在一般情况下压根就没有确定位置，只有在某个位置发现粒子的概率|ψ(x)|²。现在势阱外的势函数无限大，我们说粒子无法出去，意思是在势阱外发现粒子的概率为0，也就是|ψ(x)|²=0，即ψ(x)=0。

由于x=0和x=a是势阱的左右边界，所以这两个地方的波函数也必须为0：ψ(0)=0，ψ(a)=0。于是，我们就得到了两个约束条件。

那么，这两个约束条件会给系统带来什么变化呢？它又会使粒子的能量E发生什么变化呢？我们来一个个的看。

先看第一个ψ(0)=0，因为ψ(x)=Asinkx+Bcoskx，所以ψ(0)=Asin0+Bcos0=B（因为sin0=0，cos0=1）。如果ψ(0)=0，那我们就得到了B=0。这样，波函数ψ(x)就只剩下了第一项ψ(x)=Asinkx。

如果波函数ψ(x)=Asinkx，而第二个条件又告诉我们ψ(a)=0，代进去就得到了Asinka=0，这又是什么意思呢？

前面讲过了，正弦波sinx的图像是这样的：

所以，Asinka=0就有两种可能：A=0或者sinka=0。

A=0是一种非常无趣的情况，因为B已经等于0了，如果你再A=0，那就直接是整个波函数ψ(x)=0了。翻译一下就是：在任何地方发现粒子的概率都为0，这就是说没有粒子嘛。所以，这是一个平庸的解，也不符合现在的情况。

真正有意思的是后面那个解，也就是sinka=0的情况。我们看一下正弦函数sinx的图像，它的取值是可以为0的，你看它跟x轴不是有很多交点么？这些交点就是sinka等于0的地方。

也就是说，如果我们想让sinka=0，我们只需让ka取正弦函数跟x轴相交的那些地方就行了。学过中学三角函数的朋友都知道，正弦函数跟x轴相交的地方，只考虑正半轴，正好就是π，2π，3π，…

这么一来，ka就不能随意取值了，而是只能取π，2π，3π等等，写成更加紧凑的形式就是：

而我们又知道，这个k是跟粒子的能量E直接相关的。解势函数V=0的定态薛定谔方程时，为了让形式更加简单，我们给能量E做了一个简单的替换：

现在k的取值知道了，能量E的取值简单替换一下就行了：

于是，这个能量E就真的是离散的了，因为这里的n只能取1、2、3等自然数。现在，大家看明白这个离散的能量是怎么来了的么？

32不连续性

自由粒子时，势函数V处处为0，它对波函数ψ(x)没有任何限制，所以k能随意取值，对应的能量E也能连续取值。但是，当粒子不再自由，而是被束缚在一个有限宽的势阱时，它就不能乱跑了，k也不能随意取值了。于是，对应的能量E也不能随意取值了，也就是不连续了。

在一维无限深方势阱里，我们要求波函数ψ在势阱两边的取值都为0，即ψ(0)=ψ(a)=0，这相当于固定住了一根绳子的两端。于是，在0到a之间，这根绳子可以弯成一个波形，也可以弯成两个波形、三个波形，就像下图这样：

因为ψ(x)代表了系统状态（能量本征态），所以，这每一种可能的波形，就代表了系统可能的一种状态，对应了一个确定的能量E。

在经典力学里，我们用一个粒子的位置和动量描述它的状态。就算我们把粒子关在一个牢房里，限制它的活动范围，它在牢房里的位置和动量依然可以连续变化，能量也可以连续变化，它在牢房里依然可以连续走动，没人管它。

但到了量子力学，这个牢房不仅限制了它的活动范围，还限制了它的状态，限制了它的能量，让它不能再随意取值。

在一维无限深方势阱里，求解定态薛定谔方程得到的波函数是一个正弦波。作为一个波，它有自己的傲气和傲骨，即便身陷囹圄，活动范围受到了限制，它还是要保持波的样子。所以，粒子的状态和能量就出现了离散化。

这样，大家对量子力学里的不连续性是否有了更深刻的认识？

33氢原子

在量子力学的基本假设里，我们没有对能量是否连续做出任何假设，我们只说用态矢量描述系统状态，用薛定谔方程描述系统状态随时间的变化。

当势函数V不依赖时间时，系统就处于定态（能量本征态），这时候测量能量就有确定值。能量有确定值，我们才能谈论能量的取值是连续的还是离散的。如果系统处于能量叠加态，都没有确定的能量值，那这问题就没啥意义了。

势函数确定后，我们求解定态薛定谔方程就能得到描述系统状态的波函数，进而得到能量的情况，然后就知道了能量的取值是连续的还是离散的。

当势函数V=0时，粒子完全自由，它的能量是连续的；当势函数不为0，而是一维无限深方势阱时，粒子的能量就变成离散的了。如果我们再换一种环境，再换一个势函数，这个操作流程还是一样的，都是把对应的势函数代入薛定谔方程求解，再根据波函数分析能量的取值情况。

比如，我们知道氢原子是由一个质子和一个核外电子组成。那么，这个电子的能量可以取哪些值呢？是连续的还是离散的？

同样的，要分析电子的行为，我们就要知道它的势函数。而我们很清楚，电子和质子会互相吸引，根据库仑定律，这个势函数V可以写成：

然后，我们把这个势函数代入定态薛定谔方程，经过一系列我们觉得非常复杂，但在量子力学里还算简单的计算，就能得到氢原子里电子可以取的能量：

这就是著名的玻尔公式，玻尔从他的模型里得到了这个公式，进而名扬天下。现在，我们可以从薛定谔方程里把它非常自然地推出来。

这个求解过程我就不说了，任何一本量子力学教材都会写。但结果很明显，跟一维无限深方势阱一样，库伦势下的电子可以取的能量值一样是离散的，它只能取一些特定的值。n=1是能量的最低状态，也叫基态，其它情况被称为激发态。

34原子模型

在量子力学历史上，氢原子问题一直都很重要。现在我们知道了量子力学里处理氢原子的方式，那不妨再回过头，看看经典力学是如何处理氢原子的，看看它遇到了什么困难，这对我们深入理解量子力学也很有好处。

在量子革命前夜，困扰经典力学的有四大难题：包括大家很熟悉的黑体辐射和光电效应，以及大家不太熟悉的原子光谱和原子稳定性问题。后两个问题都跟原子模型有关，而氢原子又是最简单的原子，所以它非常重要。

说到原子模型，首先出场的是汤姆生。他认为原子是个球体，带正电的物质均匀分布在球内，带负电的电子一颗一颗镶嵌在球内，这个模型被称为“枣糕模型”。

但是很快，汤姆生的模型就被他的学生卢瑟福打脸了。卢瑟福用α粒子轰击金箔时，发现绝大部分α粒子都会通过金箔，但有极少数α粒子竟然会反弹回来。

这是什么意思呢？如果原子里带正电的物质都均匀分布，那用α粒子轰击原子，就会像用子弹轰击蛋糕一样，是绝不可能被反弹回来的。现在有极少量α粒子被反弹回来了，那就说明原子内部有极少量非常坚硬的东西。

卢瑟福经过反复的实验和思考，认为带正电的物质只能集中在一个非常小的范围内，原子的质量也主要集中在这里，这就是我们说的原子核。这样，带正电的原子核就像太阳，带负电的电子就像围绕太阳转的行星，卢瑟福的原子模型就被称为“行星模型”。

行星模型虽然跟实验符合得很好，但却存在一个巨大的理论问题：如果电子真的在绕核转动，那根据经典电磁理论，电子转动时就会不断释放能量。这样的话，当电子的能量消耗殆尽以后，它就应该坠入原子核，原子也就随之毁灭了。

但我们都知道，世界很稳定，原子并没有毁灭，电子也没有坠入原子核。那问题就来了：原子为什么能保持稳定？电子为什么没有因为不断释放能量而坠入原子核？

这就是原子的稳定性问题，它是经典物理无法回答的。

卢瑟福无法解决这个问题，就把它丢给他的学生玻尔。玻尔捣鼓了一段时间，在充分吸收了普朗克、爱因斯坦的量子化思想后，提出了一套全新的原子模型。

玻尔认为，电子的轨道并不能随意选，它只能处在一些特定的轨道上。当电子处在这些特定轨道上时，电子并不发射、吸收能量（所以不会坠毁），只有当电子从一个轨道跃迁到另一个轨道时，才会发射和吸收能量。

玻尔的模型是一个经典和量子的混合体，里面既有量子化轨道这样的概念，也有电子绕核转动这种经典模型。从理论上来说，这样一个“缝合怪”必然槽点满满（当时也确实没人相信它），这个模型也确实无法解释更复杂的原子。

但是，相比理论，物理学家更看中你的模型能否解释实验现象。当越来越多的实验站在玻尔这边时，大家就慢慢接受了玻尔模型的主要思想，承认这里面确实有部分正确的东西。同时，大家也在期待一个更完美的理论，希望能从那里导出玻尔模型，并解释玻尔模型无法解释的东西。

大概十年后，随着量子力学的全面建立，一切都清晰了。那么，现在的量子力学是如何看待玻尔模型的呢？

首先，我们要明确：在量子力学里，电子是没有轨道概念的。什么是轨道？电子这一秒在这，下一秒在那，它每个时刻的位置都能精准算出来，这是轨道。但是，量子力学里电子在一般状态下并没有确定的位置，我们只能计算在各个地方发现电子的概率，所以根本谈不上轨道。

但我们也知道，玻尔模型是符合实验的，它肯定也包含了一些正确的东西。那么，如果量子力学里并没有确定的轨道，那玻尔说的轨道又是什么？

在前面，我们已经解了库伦势下的薛定谔方程，并得到了玻尔公式：

这里每一个可能的E，都代表了电子可能的一种状态。没错，这其实就是玻尔说的“轨道”。

每一个“轨道”，其实就是一种定态，是一种能量本征态。因为库伦势下电子可以取的状态和能量都是离散的，所以玻尔才会觉得电子只能待在一些特定而离散“轨道”上。

为什么电子没有坠入原子核呢？因为在这些允许的能量E里，有一个最小值，即n=1时的基态能量（这里能量取负值，负号代表电子受到了原子核的束缚，E1=-13.6eV，E2=-3.4eV…），电子的能量无法比它再小，所以无法坠入原子核。

这样，大家对原子问题有更深刻的认识了么？

35双缝实验

我写这篇文章，主要是想帮大家把量子力学的基本框架搭起来，让大家知道如何从量子力学的视角看问题。

很多人觉得量子力学奇怪、诡异，甚至恐怖，根本原因就是：他们并不是从量子的角度看待量子问题的。他们有意无意地保留了许多经典的概念和思维，用半经典半量子的眼光看待量子世界，这样不觉得奇怪才怪了。

在量子革命初期，在量子大厦还没建起来之前，那些大师们用更加熟悉的经典思维思考问题无可厚非。他们四处碰壁，经过各种艰苦卓绝的探索才建立起了成熟的量子力学框架。一百多年后的今天，难道我们还要用半经典半量子的视角看问题，还要在量子初期的那些泥潭里一直摸爬打滚么？

很多人觉得量子力学很奇怪，觉得没人能懂量子力学，并引以为傲地说许多物理大师也是这么说的。但请相信我，绝大部分人觉得量子力学奇怪，仅仅是因为他们对量子力学的基本概念、基本框架缺乏最基本的认识，他们陷在半经典半量子的泥潭里出不来，跟物理大师眼中的奇怪根本不是一回事。

就像同样是数学，有人说解一元二次方程太难了，有人说黎曼猜想太难了，都说数学难，但这能是一码事么？如果大家把量子力学的框架搭起来了，学会了从量子视角看问题，那原先很多看起来非常反直觉，非常不可思议的东西都会变得非常自然。

比如，被无数科普文扣上恐怖、细思恐极、颠覆三观帽子的单电子双缝干涉实验，如果从量子力学的角度看，它就是一个平平无奇的实验。

为什么那么多人觉得双缝实验恐怖呢？因为他们是从经典视角看这个实验的。

从经典视角看，单电子双缝干涉实验比较“诡异”的地方有两个：第一，大家熟悉的干涉实验都是有大量粒子参与的，不同粒子之间产生干涉容易理解。但是，现在我们每次只发射一个电子，时间一长，屏幕上居然还能出现干涉图案，这就难以理解了。

每次只发射一个电子，你跟谁干涉？没有干涉对象怎么会有干涉图案呢？这就好像每个电子都有意识，知道自己前后的电子要往哪走似的，这种氛围再配上点恐怖音乐，就显得很诡异了。

更加“诡异”的是第二个：我们一个个放出电子时，屏幕上会慢慢出现干涉图案。但是，一旦我们在缝隙后加了一个探测器，想看看电子到底通过了哪条缝隙，干涉条纹就消失了。

从经典视角来看，这里原本有个干涉图案，我“看”一眼电子要从哪经过，干涉图案就消失了。仿佛意识可以影响实验，或者电子能读懂我的心灵似的，这里再渲染一下气氛，那就不是诡异，而是恐怖了。

我去网上搜了一下“双缝实验”，大家看看这些热搜词：

都是些什么恐怖、骗局、真相，更夸张的连“双缝实验看见鬼”都冒出来了。一个科学实验搜出一堆这样的东西，也是没谁了。

当然，从经典视角看，双缝实验的确非常诡异，非常恐怖。但是，从量子视角看，你会发现这是一个非常自然的实验，它所体现的，无非就是量子力学最基本的一些特性。

首先，为什么每次发射一个电子也会出现干涉图案呢？

在量子力学里，我们用波函数（态矢量）描述电子的状态，而这个状态是可以叠加的。也就是说，如果ψ1是电子的一个可能状态，ψ2也是电子的一个可能状态，那么，它们的线性叠加ψ=ψ1+ψ2就也是电子的一个可能状态（ψ1、ψ2前面可以有不同的系数），这叫态叠加原理。

这个大家应该觉得很自然。在斯特恩-盖拉赫实验里，银原子可以处于自旋向上的本征态ψ1，也可以处于自旋向下的本征态ψ2，那么，它就也可以处于自旋向上和自旋向下的叠加态ψ=ψ1+ψ2，这再正常不过了。

而且，我们还知道测量力学量的概率是跟波函数的模的平方|ψ|²挂钩的。

然后，我们就会发现：叠加态对应的概率|ψ|²=|ψ1+ψ2|²并不等于原来各个状态的概率之和|ψ1|²+|ψ2|²，它们之间还差了一个交叉项，小学数学老师也会经常强调“和的平方不等于平方的和”。而这个交叉项，就是干涉出现的原因。

其实，经典力学里波的干涉也是因为交叉项。因为波的强度也是平方相关的，所以，两个光波叠加的强度就不等于每个光波的强度之和（强度跟平方相关，会多出交叉项），而我们看到的明暗程度又跟光的强度有关，于是就出现了干涉条纹。

在量子力学里，两个波函数叠加的概率并不等于每个波函数的概率之和（|ψ1+ψ2|²≠|ψ1|²+|ψ2|²），所以叠加态的概率分布图像就不是原来两个概率图像的简单叠加，这样就出现了一种概率上的干涉。时间一长，概率大的地方就会积聚更多的粒子，于是，概率上的干涉图像就变成了真正的干涉图像。

也就是说，量子力学里的单电子双缝干涉跟经典干涉没啥区别，都是因为叠加性。经典力学里两个波可以叠加，量子力学里描述系统状态的两个波函数（态矢量）也可以叠加，而它们的可观测量（强度和概率）又都是平方相关的，所以叠加后就会多出一个交叉项，然后就出现了干涉图案。

至于“看一眼干涉图案就消失了”那就更简单了。不管你用什么看，人眼、仪器或者一只狗，只要我们知道了电子是从哪个缝隙通过的，本质上就是通过跟系统的相互作用完成了一次测量。而量子力学里的测量是会改变系统状态的，它会让系统从原来的状态变成被测力学量的某个本征态，这我们太熟悉了。

所以，当你测量电子会通过哪个缝隙时，这个操作就改变了电子的状态，让电子从原来的状态变成了某个本征态。状态变了，概率分布也就变了，于是干涉图案自然就消失了。有的书上说单电子的双缝干涉是电子自己跟自己干涉，其实是说这是电子的两个状态（通过缝隙1的状态和通过缝隙2的状态）之间的干涉。而测量过程会改变电子的状态，于是就破坏了干涉图案。

可见，如果我们建立起了量子力学框架，从量子视角看，双缝实验就是非常简单而且自然的。它无非就是在说“系统状态可以叠加，测量会改变系统状态”，这些基本结论有什么好奇怪的？又哪里有半分恐怖？你非要用经典视角看问题，然后自己吓自己，说哎呀妈呀好恐怖，三观震裂，那我还能说什么呢？

当然，这里只是对双缝实验做了一个非常简单的介绍（后面再单独写文章详细谈），目的就是让大家知道：如果我们学会了从量子视角看问题，很多你之前觉得奇怪、诡异、恐怖的问题都会变得非常自然。你觉得双缝实验恐怖，跟古人觉得闪电恐怖没啥区别，一旦掌握了看待这些问题的正确视角，它们都是非常自然的现象。

36不确定性原理

此外，很多人觉得不确定性原理也很神秘，其实它也很自然。大家看一张格里菲斯的《量子力学概论》里的插图很快就明白了：

上面那个图，你很难说这个波在哪，但却很容易说两个波峰之间距离（也就是波长）是多少；下面那个图，你很容易说这个波在哪，却说不出它的波长是多少。

也就是说，如果波长越精确（上图），波的位置就越不精确；如果波的位置越精确，波长就越不精确（下图）。

在量子力学里，我们用波函数描述系统的状态，而波长λ跟动量p之间有一个简单的关系：p=h/λ。用动量代替上图的波长，于是就有：动量越精确，位置就越不精确；位置越精确，动量就越不精确。

此外，我们也能看到，一个波的位置越确定，它的波长就越不确定，这是系统的内在属性，跟你测量不测量无关。海森堡一开始以为是测量干扰了其它物理量，进而导致测不准，后来才知道并不是这样。

关于不确定性原理，这里就先简单地聊这些，因为这篇文章让我意外地发现：原来公众号的文章最多只能写5万字，再多就发不了了！我这已经是在极限边缘疯狂试探了，更详细的以后再聊吧~

37量子力学诠释

量子世界还有许多激动人心的话题，比如薛定谔的猫、玻尔和爱因斯坦的论战、贝尔不等式、多世界理论、狄拉克方程、量子场论、量子纠缠、量子通信和量子计算等等，这里就先不说了。但大家要清楚，我们能愉快讨论这些话题的前提，是你已经掌握了量子力学的基本框架，知道如何从量子视角思考问题，否则就只是看个热闹。

例如，很多人都知道玻尔和爱因斯坦的论战，但很少有人知道他们到底在争什么。有些人只是给爱因斯坦贴了一个“反量子力学”的标签，认为爱因斯坦先是参与了量子力学的建立，成为权威后变保守了，又开始反对量子力学，那也太肤浅了。

为了搞清楚玻尔和爱因斯坦到底在争什么，我们要先搞清楚一件事，一件很重要，但又很容易被忽略的事：量子力学的形式理论（或者说对量子力学的数学描述，也叫裸量子力学）和对量子力学的诠释是不一样的，我们一定要区分两者。

什么意思？我们观察自然界的各种现象，发现物理规律，然后用数学语言描述它。一开始，我们只要理论能给出正确的预言，计算结果能跟实验符合就行了，并不追问这些数学语言背后代表了什么样的物理现实。

比如，德布罗意提出了物质波假说以后，薛定谔就找到了对应的波动方程，也就是大名鼎鼎的薛定谔方程。通过薛定谔方程，我们能很好描述各种量子现象。但是，对于薛定谔方程的解，也就是波函数到底是什么？大家却莫衷一是。

也就是说，虽然我们用波函数描述系统的状态，而且这样工作得非常好。但是，这个波函数到底是个什么东西？它是描述了粒子的真实状态（实在的），还是说只是我们认识粒子的工具，描述的仅仅是我们对粒子的认识状态（非实在的）？这其实是一个哲学上的本体论问题，我在文章里对此类问题只字未提。

我在这里介绍的量子力学框架，实际上只是一套量子力学的数学描述，我们可以说它是量子力学的形式理论或裸量子力学。如果我们想追问这套数学语言背后的物理图像，就涉及量子力学诠释了。

所谓诠释，就是对一套数学语言背后的物理图像进行解读。我们用态矢量描述系统状态，用算符描述力学量，用薛定谔方程描述系统状态随时间的变化，这些都是对量子现象的数学描述，是量子力学的形式理论。对于这些，是所有人都承认的，不管爱因斯坦还是玻尔。

但是，如果我们想知道这套数学语言的背后对应了一个什么样的物理世界，想知道波函数到底是什么，诠释就出现了。面对同样一套形式理论，诠释可以是多种多样的，于是，玻尔和爱因斯坦的分歧就出现了。

以玻尔为首的哥本哈根诠释认为：波函数并不描述粒子的真实状态，它只是我们认识量子世界的工具，波函数只有认识论上的意义。当我们测量时，波函数会瞬间坍缩。而且，虽然系统状态的演化遵守薛定谔方程，但测量导致波函数坍缩的过程却不遵守薛定谔方程……

哥本哈根诠释还有很多观点，这里就不一一列举了。玻尔他们通过这样一种诠释，构建了一幅相对完整的量子图像。这样，大家在处理量子力学问题时脑袋里就会有一个具体的画面。

当然，虽然哥本哈根的量子图像跟实验对得上，但它理论上的问题也很多：波函数在测量过程中瞬间坍缩，而且这个过程不满足薛定谔方程，那坍缩过程是如何发生的？测量在这里如此重要，那什么样的行为可以算是测量？为什么会有两类演化过程，一类遵守薛定谔方程，另一类不遵守？量子世界和经典世界如此不一样，你给它们划了一条界线，那这条界线到底在哪？

更加重要的是，哥本哈根诠释说波函数并不描述电子的真实状态，它只是一个认识工具。他们认为根本就不存在什么真实的电子状态，只有当我们测量时发现了电子，才能说电子存在。因此，站在哥本哈根的角度，是我们的测量过程创造了电子，你不测量时电子就不存在。

这种说法彻底激怒了爱因斯坦，他说：“难道我们不看月亮时，月亮就不存在了么？”。大家更熟悉爱因斯坦的另一句“上帝不投骰子”，但其实，相比投不投骰子，爱因斯坦更在意月亮存不存在。大家经常在科普书里看到玻尔和爱因斯坦的论战，爱因斯坦反对的不是量子力学（没人反对量子力学的形式理论），他反对的是量子力学的哥本哈根诠释。

爱因斯坦非常讨厌哥本哈根诠释（薛定谔、德布罗意也是），于是，他就一边挑哥本哈根诠释的漏洞，一边找一些新诠释。但是，虽然哥本哈根诠释的问题很多，但它跟实验也都对得上，而它的竞争对手们当时又太弱，爱因斯坦的超一流挑刺功力也在不断帮哥本哈根诠释打补丁。再加上玻尔、海森堡、玻恩这帮人在量子领域的权威，爱因斯坦到死也只能一边看它不爽，一边拿它也没什么好办法。

爱因斯坦去世两年后，一个叫埃弗雷特的人提出了一种了全新的量子力学诠释：多世界诠释。

这是一个在理论上极其简洁，但在推论上似乎极其“荒诞”的诠释。多世界甚至可以说是不要诠释的诠释，因为它的基本假设就两条：第一，系统状态由态矢量描述；第二，态矢量随时间的演化遵守薛定谔方程（可见，它跟我们这里讲的形式理论并不太一样，所以，多世界也不只是一个诠释，它还是一个独立的理论）。

哥本哈根诠释的那些额外假设（测量导致的坍缩，量子和经典的边界问题等等）它通通不要，玻恩规则也不要，这些东西在多世界这里不是假设，而是结论。它一样能跟所有实验符合，也不存在什么“不看月亮，月亮就不存在”的问题。

在多世界诠释（理论）里，波函数描述的是粒子的真实状态（实在的），测量只不过是仪器跟系统的相互作用，测量过程也遵守薛定谔方程，并没有什么波函数坍缩。它还有很多其它观点，这些观点一起也构成了一幅完整的量子力学图像，但是很明显，这是一幅完全不同于哥本哈根诠释的图像。

细节这里先不讲，以后再说。不过，从这里我们起码能看到：哥本哈根诠释里有波函数坍缩，多世界诠释里没有波函数坍缩；哥本哈根诠释里波函数不描述粒子的真实状态，多世界诠释里波函数描述粒子的真实状态；哥本哈根诠释里有量子-经典边界问题，多世界诠释里没有……

这两个诠释有很多不一样的地方，但它们都跟实验符合，你说我听谁的？

哥本哈根诠释有时也被称为正统诠释，很多教材也都是以哥本哈根形式写的。时至今日，多世界诠释也有了非常多的支持者。然而，不管是哥本哈根、多世界，还是其它什么诠释，支持者的比例都很低，更多物理学家的选择是：不要诠释！不要诠释！不要诠释！

他们就拿量子力学的形式理论来做计算，能算、有用就行！至于它背后的物理图像，去你的玻尔和爱因斯坦，我谁都不信，他们是闭嘴计算派。当然，闭嘴计算并不代表他们不关心诠释，没有哪个物理学家会真的不关心量子理论背后的图像。只不过，现有诠释的说服力实在都不太够，没有哪个诠释能让人特别信服，所以他们就干脆不管了。

因此，很多量子力学教材也会有意识地避免诠释问题，它们就只介绍量子力学的形式理论，只介绍我们是如何运用数学语言描述量子现象的，只介绍这套所有人都承认的东西。

形式理论压根就不谈波函数有没有坍缩，它只说测量结果是对应算符的本征值之一。至于测量过程中到底发生了什么，是波函数坍缩了，还是世界分裂了，它不管。

有些朋友可能会感到很困惑：我学物理这么久了，为什么好像只在量子力学这里有诠释问题，学习其他理论时好像压根就没这事？比如，我们学习牛顿力学时，哪有什么诠释啊。

牛顿力学当然也有诠释，只不过，我们在牛顿力学里是采用三维空间中的实数和函数来描述质点和场的，这种描述具有很直接的空间意义。所以，大家对牛顿力学里什么概念代表什么物理意义，都能取得广泛的共识。一个石头往下落，描述这个过程的数学公式是这样的，大家脑中的物理图像也都是这样的，没人有异议。

但是，在量子力学里，我们是用希尔伯特空间中的矢量和算符来描述系统状态和力学量的，这是很抽象的数学结构。希尔伯特空间并不是我们日常接触的三维空间，这样一来，如何把数学概念和物理现实对应起来就比较麻烦了。于是，有人认为波函数描述了现实，有人认为并没有；有人认为测量时波函数坍缩了，有人认为没有坍缩等等。

不存在共识，也说明我们对量子世界的认识还不够深刻。随着理论和实验的进步，我们以后或许能区分不同的诠释，能搞清楚许多现在还不懂的事情，形成一幅所有人都同意的量子力学图像。到那时，自然就没人再提什么量子力学诠释了。

量子力学诠释是一个非常宏大而且深刻的话题，它不仅跟物理学有关，也跟哲学有关，可以说爱因斯坦的后半辈子一直都在思考它。

在这篇文章里，我们只要知道有量子力学诠释这么回事，知道形式理论和诠释的关系，知道我们这里介绍的只是量子力学的形式理论就行了。关于量子力学的诠释更多问题，我们以后再慢慢聊。

这样，文章就接近尾声了。

38结语

在经典力学里，系统状态、可观测量和观测结果都是一样的，我们没必要刻意区分它们。到了量子力学，为了描述斯特恩-盖拉赫实验以及其它量子现象，我们必须区分三者。

我们用态矢量描述系统状态，用算符描述力学量，测量结果是对应算符的本征值之一，系统状态随时间的变化遵守薛定谔方程。

为了把抽象的态矢量具体化，我们要建立坐标系。然后，我们发现以力学量算符的本征矢量为基矢建立的坐标系是极好的，选取这样一组基矢就叫选取了一个表象。以位置算符的本征矢量为基矢建立的就叫位置表象，以动量算符的本征矢量为基矢建立的就叫动量表象，它们之间可以通过傅里叶变换相互转换。

选定了表象，我们就可以把态矢量投影到具体的坐标系里了，投影系数（坐标）就是波函数。于是，除了态矢量，波函数也可以用来描述系统的状态。

然后，我们也写出了位置表象下的薛定谔方程，求解方程就能得到波函数。要解薛定谔方程，就得先确定势函数。

如果势函数不依赖时间，概率分布就不随时间变化，力学量的平均值也就不随时间变化，这样的状态我们称之为定态。因为定态下的能量具有确定值，所以定态也就是能量本征态。能量有确定值，求解定态薛定谔方程就能得到系统可以取的能量，这样能量是连续的还是离散的一看便知。

于是，我们就知道了量子力学里能量不连续的原因，也知道了量子力学处理问题的一般方法。掌握了量子力学的思考方式，你会发现很多大家熟悉的量子力学性质（比如能量可以不连续）都能推出来，很多大家觉得奇怪、诡异，甚至恐怖的问题（比如双缝干涉实验）都会变得非常自然。

建立了量子力学的基本框架以及处理量子力学问题的一般方法，这篇文章的目的就达到了。限于篇幅，很多大家非常感兴趣的话题这里只能一笔带过，我们以后再讲，怕错过的盯着我的公众号“长尾科技”就行。

最后，我们还区分了量子力学的形式理论和诠释，这些东西后面会引申出非常多超级精彩的话题。但是，理解它们的前提，是已经把量子力学的形式理论搞清楚了。

量子大戏已经开幕，各位看官坐稳了~

相关文章：

《什么是高中物理？》

《你也能懂的微积分》

《相对论前夜：牛顿和麦克斯韦的战争》

《相对论诞生：爱因斯坦是如何创立狭义相对论的？| 主线》

《深度：杨-米尔斯理论说了啥？为什么说这是杨振宁超越他诺奖的贡献？》

收起阅读 »

悟理wuphys新增中文域名“悟理.中国”

公告站务

悟理wuphys新增中文域名“悟理.中国”后续各位朋友可以用悟理.中国或 http://www.悟理.中国访问。网址会301转向到 http://www.wuphys.com

悟理wuphys新增中文域名“悟理.中国”

后续各位朋友可以用悟理.中国或 http://www.悟理.中国访问。

网址会301转向到 http://www.wuphys.com

2022年5月11日，悟理公测

公告站务

各位朋友们，经过紧张的技术准备工作和小范围内测，悟理知识平台定于2022年5月11日，以邀请制注册的方式开始公测。公测期间，各位朋友可以通过公众号“悟理wuphys”，以及网站 http://www.wuphys.com 、悟理.中国来访问。各位老朋友，可以...

继续阅读 »

各位朋友们，经过紧张的技术准备工作和小范围内测，悟理知识平台定于2022年5月11日，以邀请制注册的方式开始公测。

公测期间，各位朋友可以通过公众号“悟理wuphys”，以及网站 http://www.wuphys.com 、悟理.中国来访问。

各位老朋友，可以通过长尾科技社群，或在公众号中给客服留言获取邀请码，完成注册。

悟理知识平台，发源于2022年2月23日晚，公众号“长尾科技”的作者长尾君，在讨论中起的一个头，导引我走上了一条征程，一条创造以科学为大主题、基于费曼学习法的知识平台的征程。

之后2天，在社群内，大伙对知识平台的可行性、命名做了大量充满建设性的讨论，也让我逐渐意识到了这条征程的困难性。

接下来的2022年3月，我们从多角度多方面，在法务、税务、财务、人力、业务五个方面，充分研究论证了“可行性”。

4月中旬，在若干位伙伴的支持下，我们依法成立了运营悟理知识平台的实体公司。

接下来，正如文章开头说的，我们搞定了各种审批、技术和业务工作，网站、公众号先后上线。

5月7日，小范围内测开启，调优了大量差错。在此，我要特别感谢参与内测的所有人。

最后，就是今天，2022年5月11日，距离2月23日，经过了77个自然日；依靠各位朋友们的支持，悟理知识平台仅用77天就完成了从动念到有光。但建立体系化知识平台的征程，并没有结束；公测，是新的起点。

没有人从开始就立于知识顶端，

无论是你、我、还是大佬。

但是，这难以攀爬的科学之树的桎梏将要结束了。

从今以后，

由我们栽下森林之根。

收起阅读 »

热门文章

热门话题