相对论 - 悟理.中国

四维形式的狭义相对论及其动力学

狭义相对论相对论

作者|yubr编辑|Trader Joe's在前一章《闵氏空间和洛伦兹变换》中我们已经介绍了闵氏几何和四维语言，在本章中我们将使用前一章介绍的四维语言来描述狭义相对论及其动力学。固有时（proper time）假设给定两个事件，我们知道这两个事件发生的时间间隔...

继续阅读 »

作者|yubr
编辑|Trader Joe's

在前一章《闵氏空间和洛伦兹变换》中我们已经介绍了闵氏几何和四维语言，在本章中我们将使用前一章介绍的四维语言来描述狭义相对论及其动力学。

固有时（proper time）

假设给定两个事件，我们知道这两个事件发生的时间间隔在不同的参考系中看是不一样的，它们之间通过洛伦兹变换来联系。

我们选取一个特殊的参考系，使得在这个参考系中看，这两个事件是发生在同一空间点的，我们把在这个参考系中测到的两个事件的事件间隔称为这两个事件的固有时，记作，这也就是静止于该参考系的钟所测到的时间间隔。

需要注意的是，虽然我们是利用了一个特殊的参考系来定义固有时，但是固有时本身的值和参考系无关，也就是说，所有的观者测量到的两个事件的固有时是相同的。

根据固有时的定义和四维时空间隔的不变性，我们有

另一方面

从而我们得到了固有时和坐标时之间的关系

因为所以。

这告诉我们，对于确定的两个事件，在那个两个事件空间坐标相同的参考系去测到的时间间隔是最短的，换句话说，固有时最短。

四维坐标，四维速度，四维加速度

在前一章《闵氏空间和洛伦兹变换》中，我们已经证明了把时间和三维空间矢量放在一个可以构成一个4-矢量：

称为四维坐标矢量。

我们把四维坐标矢量对固有时的导数定义为四维速度矢量：

其中是三维速度。利用定义容易证明，四维速度的内积是一个不变量：

我们把四维速度矢量对固有时的导数定义为四维加速度矢量：

其中是三维加速度。利用四维速度的内积是个常数，我们可以证明四维速度和四维加速度是正交的：

显然，根据定义，四维速度和四维加速度都是4-矢量，它们在洛伦兹变换下的行为和四维坐标矢量完全一样：

现在我们知道引入这些四维矢量的好处了：

根据在洛伦兹变换下的变换规则，我们固然可以导出三维速度和三维加速度在洛伦兹变化下的变换规则。

但是这样做表达式会异常繁琐，因为这些三维量都不是洛伦兹协变的，而上面定义的四维速度和四维加速度在洛伦兹变换下的行为相当简单，它们都是洛伦兹协变的。

四维动量，质能方程

接下来我们转入动力学的研究。仿照三维动量的定义，我们把一个质量为 的粒子的四维动量定义为其质量和其四维速度的乘积，同时，我们把四维动量的第一个分量称为能量（除以光速），后面三个分量称为三维动量：

于是我们得到能量和三维动量的表达式：

四维动量的内积也是一个不变量：

从而有

上式就是最一般形式的质能方程。

对于质量为零的粒子（比如光子），我们有；

对于静止的粒子，我们有。

不变量和守恒量

接下来我们来辨析两个非常重要的概念：不变量和守恒量。

不变量指的是在洛伦兹变换下不变的量，意思是在一个惯性参考系中测到的值和另一个惯性参考系中测到的值是一样的，不变量的值不依赖于参考系。

任意两个4-矢量的内积就是不变量，例如：四维时空间隔（四维坐标的内积），光速（四维速度的内积），质量（四维动量的内积），等等。

守恒量指的是在一个反应过程前后不发生改变的量，连续的对称性对应守恒量，例如能量（对应时间平移不变），动量（对应空间平移不变），角动量（对应空间转动不变），等等。

不变量和守恒量并没有必然的联系，不变量不一定守恒，守恒量不一定不变。

让我们来举一个高中物理中就熟悉的例子：一个质子和一个中子结合成一个原子核。我们知道在这个过程中结合后原子核的质量是小于结合前质子的质量加上中子的质量的，这称为质量亏损，表明在这个过程前后系统的质量并不守恒，所以质量不是守恒量。

但是我们还知道在这个过程中系统还会放出能量，前面亏损掉的质量利用上面的质能方程折算成能量后正好等于放出的能量，所以这个过程前后能量是守恒的。

另一方面，能量显然不是不变量，这从能量的表达式就可以看出来：在一个相对粒子静止的参考系（）和在一个相对粒子运动的参考系（），所测量到的粒子的能量显然是不同的，所以能量不是不变量。

概括一下，质量是不变量却不是守恒量，能量是守恒量却不是不变量。

四维力，四维牛顿定律

我们把四维力定义为四维动量对固有时的导数：

其中是三维力。上式第二个等号实际上也就是四维形式的牛顿运动定律。我们来看看这个方程的4个分量分别代表什么含义。

0-分量：代表了能量守恒定律
i-分量(i=1,2,3)：代表了牛顿第二定律

所以，四维形式的牛顿运动定律同时包含了能量守恒定律和牛顿第二定律。

预告：在下一章中，我们将用四维语言重写麦克斯韦方程组和整个电磁学，为此我们需要引入四维势，四维流，场强张量等洛伦兹协变的物理量，同时我们还将介绍著名的A-B效应。

收起阅读 »

闵氏空间和洛伦兹变换

洛伦兹变换闵氏空间

作者：yubr编辑：Trader Joe's四维闵可夫斯基时空我们在本科阶段接触的经典力学和经典电动力学里的物理规律，都是以三维矢量方程的形式描述的。无论是牛顿运动定律，还是麦克斯韦方程组，其基本的物理对象都是三维欧式空间的矢量（例如：位置矢量，电...

继续阅读 »

作者：yubr

编辑：Trader Joe's

四维闵可夫斯基时空

我们在本科阶段接触的经典力学和经典电动力学里的物理规律，都是以三维矢量方程的形式描述的。

无论是牛顿运动定律，还是麦克斯韦方程组，其基本的物理对象都是三维欧式空间的矢量（例如：位置矢量，电场，磁场等等）。

我们通过求解动力学方程，来研究它们随着时间坐标的演化和随着空间坐标的分布。

这种描述貌似没有什么问题，既然如此，我们为什么还要引入四维时空呢？

爱因斯坦在1905年建立的狭义相对论最深远的意义，就在于揭示了时间和空间的内在联系：时间和空间并不像牛顿力学所宣称的那样是独立的、正交的、没有联系的；而是紧密相关的、可以互相转化的。

牛顿力学描述的时空对象是三维欧氏空间和一维时间的直和，它们之间通过所谓的伽利略变换（伽利略变换是三维欧氏群 E3 群的群元，包含了三维平移，三维转动，三维反射等保持三维空间距离不变的变换）来联系，伽利略变换中，时间和空间是独立变化的。

而狭义相对论所描述的时空是 3+1 维的闵氏时空，它们之间通过洛伦兹变换（洛伦兹变换是洛伦兹群的群元，包含了保持四维闵氏时空距离不变的变换: 三维转动，三维反射和boost变换）来联系，洛伦兹变换中，时间和空间是相互耦合的。

无数的高能物理实验告诉我们，我们的时空确实是通过洛伦兹变换而不是通过伽利略变换来联系的，这意味着时间和空间是互相关联而非互相独立的——牛顿错了，爱因斯坦对了。

下面我们先介绍洛伦兹变换。

洛伦兹变换

为了简单起见，我们只介绍最简单的洛伦兹boost变换。

假设有两个坐标系和

S':(t',x',y',z')

，其中系相对系沿着轴以速度运动，并且在运动过程中始终保持轴与轴平行，轴与轴平行，轴与轴重合。

我们把初始条件设为时两个系的原点重合。现在我们要问的是：对于同一个事件， 和 的定量关系是什么？

我们知道任何理论都有基本的假设。牛顿力学的时空背景是三维欧氏空间，在这个空间中，一切的坐标变换必须满足三维空间距离不变：

从这个基本假设出发，我们可以导出伽利略变换，也就是牛顿力学中，联系和的定量关系：

同理，狭义相对论的时空背景是四维闵氏时空，在这个时空中，一切坐标变换必须满足 四维时空距离不变：

其中

c

为光速。从这个基本假设出发，我们就可以导出洛伦兹变换（推导留作练习）：

为了简化记号，我们定义，，上述洛伦兹变换可以写为

或者用矩阵的语言，可以写为

我们将矩阵

称为沿

x

轴boost的洛伦兹变换矩阵，记作。

标量，矢量和张量

从上面的洛伦兹变换的表达式可以看到，这四个数在洛伦兹变换下并不是孤立的，而是一个整体，它们一起按照矩阵进行变换，所以我们把它们放到一起组成一个矢量（这称为4-矢量）：

其中约定

x^0=ct，x^1=x，x^2=y，x^3=z

则上述洛伦兹变换可以记为

（注意这里我们采用了爱因斯坦求和约定：重复指标求和，写完整就是）

其中和都可以取0，1，2，3。

上式可以用来定义所有的4-矢量：

任意四个数 的集合，如果在洛伦兹变换 下它们满足

则称这四个数组成了一个4-矢量。我们把指标在上面的矢量称为逆变矢量。

我们可以通过度规来将矢量的指标进行升降。闵氏时空的度规
逆度规

如果为逆变矢量，则我们称为协变矢量，例如，坐标矢量，则

利用协变矢量和逆变矢量的内积，我们可以把四维时空间隔写为

因为我们知道四维时空间隔必须是洛伦兹变换下的不变量，所以必须在洛伦兹变换下是不变的，也就是必须满足

但是是逆变矢量，它在洛伦兹变换下的行为我们已经知道，将这个代入上式，我们就得到了洛伦兹变换矩阵必须满足的关系式

上式也是洛伦兹变换最一般最严格的数学定义式

利用上式容易证明，任何一个逆变矢量和协变矢量相乘得到的结果都是洛伦兹变换下的不变量，即，这种逆变矢量和协变矢量的相乘称为缩并。

我们把这种在洛伦兹变换下不变的量称为标量，它是逆变矢量和协变矢量的缩并。

上述关于标量和矢量的定义很容易推广到任意阶张量。我们看到标量没有指标，它有个分量，它可以视为零阶张量，在洛伦兹变换下不变；矢量有一个指标，它有个分量，它可以视为一阶张量，它在洛伦兹变换下乘上一个洛伦兹变换矩阵；类似的，我们可以定义 n 阶逆变张量：

n 阶逆变张量是这样 个数的集合，这 个数在洛伦兹变换下满足

为了不那么抽象，我们举一个具体的例子：二阶逆变张量 ( )就是这样 16 个数的集合（，共 16 个分量），这 16 个数在洛伦兹变换下满足

上面这个式子一共包含了16个等式，我们取其中一个加以说明。设这个二阶张量的00分量在一个参考系中的值为，在另一个参考系中的值为，那么新参考系中的00分量的值由旧坐标系中的各个分量按照这样的线性组合构成：

T^{\prime 00}=\sum_{\rho=0}^3\sum_{\sigma=0}^3\Lambda^0_{\rho}\Lambda^0_{\sigma}T^{\rho \sigma}

其中是联系两个参考系的洛伦兹变换矩阵

利用度规升降，我们可以从任意阶的逆变张量（指标都在上面的）出发定义任意阶的协变张量（指标都在下面的）和混合张量（指标有上有下的）。

例如，二阶协变张量定义为

(1,1) 阶混合张量定义为

以上我们介绍了四维闵氏时空中的洛伦兹变换和标量，矢量，张量的定义，这些都是四维语言的基础。

一个关于闵氏时空的更加友好通俗的介绍可以参看闵氏几何是什么？它是如何统一时空并极大简化狭义相对论的？

用四维语言描述的物理量和物理定律，相比我们熟悉的三维形式，要简洁优美得多，并且用四维语言我们一眼就能看出物理量的变换性质和体系的对称性

用术语来说：四维形式是“协变的”，三维形式是“非协变的”。

这一点其实很好理解，因为实验已经证明了我们所处的世界是 3+1 维的时空，时间维度和空间维度是耦合在一起的而非割裂的，那么我们用把时空一并处理的四维语言来描写世界当然要比用人为地把时间割裂出去的三维语言自然得多。

预告：

在下一章中，我们将用上面介绍的四维语言描写狭义相对论的动力学——我们将把熟悉的三维力学中的那些物理量（如：位置矢量，速度，加速度，动量，力，等等）和物理定律（比如牛顿第二定律）全部推广到四维形式。

收起阅读 »

如何理解麦克斯韦方程中的不对称性

物理麦克斯韦方程组

本文旨在说明如何理解麦克斯韦方程组中的不对称性。为了不破坏能量守恒，麦克斯韦方程组中电场和磁场关于时间的偏导数不能同正或同负，而只能一正一负。经过尝试我们发现，即使调换它们的相对负号，我们仍可以得到一个自洽的麦克斯韦方程组。

强迫症犯了

众所周知，麦克斯韦方程组统一了电和磁，并且充满了对称的美感。但是，如果仔细观察麦克斯韦方程组的形式，还是可以找到一些不对称的瑕疵的。首先我们写出（无介质时候的）麦克斯韦方程组^[1]，

你是否想过，号称最美公式的麦克斯韦方程组，右边居然至少有三处让人不舒服的地方^[2]

关于方程(1)和(2)：磁场的散度为 0 而电场的散度不为零，即磁场永远为无源场而电场可以是有源的；（多出一个 ）
关于方程(3)和(4)：磁场的旋度既可以通过变化的电场产生，又可以通过电流产生，而电场的旋度只能通过变化的磁场产生，即不存在所谓 “磁流”；（多出一个 ）
关于方程(3)和(4)：方程(3)的右边是负号，而方程(4)的右边是正号。

有办法对称吗？

关于第一点和第二点的解释，其实很简单，因为实验没有发现磁单极子，不存在所谓的 “磁荷”。因此这是麦克斯韦方程内秉的不对称性。如果实验找到了单独存在的磁荷，那么前两点的不对称性就完全不存在了。

当然原则上你可以定义所谓的 “等效磁荷”^[3]，使得麦克斯韦方程形式上更加对称。

但是必须要记住的是，你引入的只是等效的磁荷，而不是物理上真实存在的。你只是通过一些数学上的花哨技巧和物理概念的重新定义使得方程变得更加对称了，但是这种内秉不对称性（即实验上只存在电荷但是不存在磁荷）依然是存在的。关于磁单极子的内容，是一个非常艰深的大坑，可以和拓扑以及规范场论联系起来，所以这里不展开。

正负“不相容”

下面我们主要关注第三点，即正负号的不对称性。

如果你和我一样，是一个重度的对称性嗜好者，那么你会认为方程(3)右边取负号而方程(4)右边取正号是一件很难忍受的事，因为你至少可以提出三种替换法则：

都取正号；
都取负号；
(3)正(4)负；

下面我们就来尝试一下，如果作了上述替换，分别会发生什么惊天动地的事情，以至于我们必须接受这种不对称美。

图片来源于网络

首先，第一种和第二种替换本质上是一样，都会带来物理上灾难性的后果：破坏能量守恒定律。

我们以都取正号为例。考虑真空中无源（即）的情况。如果把方程(3)和(4)右边都改成正号

回忆一下从真空麦克斯韦方程推导电磁波方程的过程，我们立刻就能发现问题。我们不妨以电场为例，

所以电场的 “波动方程” 为

其 “平面波” 解^[4]

或者

其中

A

为任意常数。

这下问题大了

因为上述解描述的是振幅随空间（方程(11)）或者时间（方程(12)）指数衰减（指数上取负号的时候）或指数爆炸（指数上取正号的时候）的交变电场，无论哪一种都违反能量守恒^[5]。容易验证对磁场也是如此。

另一方面，如果采用第二种替换，即把方程(3)和(4)右边都改成负号，那么经过和上面完全一样的推导，同样可以得到违反能量守恒的交变电磁场的解。

所以我们得到结论：

无论是把方程(3)和(4)右边都改成正号还是都改成负号，都会破坏能量守恒定律，都是物理上不允许的。唯有一正一负才能保证能量守恒。

既然一正一负能保证能量守恒，那为什么就不能是(3)正(4)负呢？

正负调换之殇

那我们就看看(3)正(4)负会发生什么可怕的事情。

前方高能

倘若(3)正(4)负，

这确实不违反能量守恒，确实可以得到简谐振荡的交变电磁波。

但是这样就行了么？事情没那么简单。

我们知道除了用电场强度和磁感应强度，我们还可以等效地用标量势和矢量势来描述一个体系，

这两式显然和新的麦克斯韦方程是矛盾的（好吧也没那么显然）。对方程(17)两边同时取旋度，并且利用一个梯度场的旋度为零，我们得到

于是我们成功变回了负号，这和方程(15)矛盾！

慢着！！！

你不服气了，方程(17)和(18)完全是人为定义的标势和矢势，既然已经对麦克斯韦方程改写了，那么理应对标势和矢势也要重新定义。然后经过仔细观察，你发现只要把定义改为

那就和新的麦克斯韦方程协调了。

别忙，很快又有新的不幸的事情发生了。注意到

所以有

我们知道用标势和矢势描述体系时候会有冗余的自由度，这种自由度会带来规范对称性，允许我们对

\phi

和

A

做某个变换而不改变物理（也就是

E

和

B

)。

为了消除这种冗余的自由度，我们可以对

\phi

和

A

施加某种限制，这被称为规范固定。一种最常用的规范被称为 Lorenz 规范^[6]：

如果用四维语言表示，引入四导数和四矢势，那么 Lorenz 规范可以更加紧凑地写为。这种形式下 Lorenz 规范具有明显的 Lorentz 不变性，这也是 Lorenz 规范最大的优点。

在 Lorenz 规范下，方程(22)简化为

这也是标势

\phi

满足的无源情况下的达朗贝尔方程。从物理上讲，施加了规范固定后，标势和矢势满足的达朗贝尔方程与电场和磁场满足的波动方程是等价的。

仔细观察方程(24)，我们发现其形式和之前得到的 “病态” 的电场的波动方程(10)是完全一样的，所以由方程(24)求解出的标势也是一个振幅会随时空坐标指数衰减或者指数爆炸的形式，这也是物理上不允许的。

所以，方程(19)和(20)对标势和矢势的重新定义仍然会带来矛盾。

绝杀

但是你最后还想再挣扎一下，你发现对标势和矢势还有一种新的定义方式

这种定义方式，既和新的麦克斯韦方程(13)-(16)相容，又能使得

\phi

和

A

的达朗贝尔方程形式成为正确的波动方程的形式，从而其解为简谐波（请验证这一点！），看起来似乎没什么毛病了。

这在真空中无源的情形下确实没毛病，但如果把

\rho

和

J

考虑进来会怎么样呢？如果我们仿照含源的初始形式的麦克斯韦方程(1)-(4)，直接 naive 地把新的麦克斯韦方程(13)-(16)推广到有源情形，就得到

但是可以证明这样会和电流的连续性方程相矛盾^[7]，具体地说，对方程(30)两边取散度，并且利用一个矢量场旋度的散度等于，我们有

这显然和电流的连续性方程矛盾。但是，聪明的你很快就发现，其实就差一个相对负号。如果我们把方程(27)中的

\rho

前面加上一个负号，或者把方程(30)中的

J

前面加上一个负号，那么就可以得到电流的连续性方程了。

这两种替换其实是等价的^[8]，因为电流的初始定义就是正电荷运动的方向，我们把电流反向，等价于把正负电荷颠倒。为明确起见，我们下面采用在

J

前面加上负号的约定。

非常好，到目前为止，我们终于可以写下完全自洽的另一种形式的麦克斯韦方程组了，

并且标势和矢势必须定义为

仔细比较以上六个方程，和初始版本的麦克斯韦方程(1)-(4)以及标势矢势的初始定义(17)-(18)，虽然它们的正负号分布很不同，但却是等价的^[9]。

最后我们再来从实验的角度考察一下。初始版本的方程(3)来源于法拉第的电磁感应定律。

实验事实告诉我们，感生电动势的大小等于磁通量的负的增长率，这和方程(3)是一致的。

我们现在把方程(3)的右边变为正，同时把电流进行了反向，这并不违反实验。因为把电流反向的同时，相当于把感生电动势的正负号也反向了。初始版本的方程(4)来源于安培环路定理，实验事实告诉我们，环绕电流的磁场的回路积分等于穿过这个回路的电流的大小，这当然和方程(4)是一致的。

我们现在把方程(4)的右边变为负，这仍然不违反实验，因为我们现在对电流方向的定义也和之前正好颠倒了。至于位移电流这一项，本来就没有实验上直接的可观测对应，只是当年麦克斯韦为了满足电流的连续性方程而加进去的。

而上面已经论证过，在新形式的麦克斯韦方程下，仍然自洽地满足电流的连续性方程，所以位移电流这一项前面多出的负号不影响物理实质。

总结

总结一下，对于开篇列出的麦克斯韦方程组中的三点不对称性，前两点来源于实验上没有找到独立存在的磁单极子，这是麦克斯韦方程内秉的不对称性。

对于第三点正负号的不对称性，上面尝试了三种替换，即全都改成正号，全都改成负号，和把正负号颠倒。最后我们发现，全都改成正号或负号的操作是不允许的，这会破坏能量守恒定律。

而把正负号颠倒的操作是允许的，我们可以得到等效船新版本（方程(32)-(35)），同时标势和矢势的定义必须改为对应的新形式（方程(36)-(37)）。

所以：

两个量绝对的正负号是没有意义的，物理上有意义的是两个量之间的相对正负。物理上只禁止了麦克斯韦方程中磁场旋度和电场旋度的右边同正同负的情景，而至于究竟谁正谁负，在物理上是等价的。

最后补充一点

从对称性的角度来看，支配电磁规律的是规范理论，而可以证明规范理论在宇称变换下是不变的，因此电磁规律天生就具有宇称变换下的对称性。

如果你足够敏锐就可以发现，上面这两种版本的麦克斯韦方程组，区别只在于对叉乘的方向做了相反的定义，从而使

E

和

B

的地位发生了颠倒（真空中）。或者等价的说，两种版本的麦克斯韦方程组，其手征性的定义正好相反，在原版本中的左旋（右旋）到了新版本中成了右旋（左旋），改变手征性的变换就是宇称变换。因为电磁规律在宇称变换下是不变的，所以两种版本的麦克斯韦方程组理应在物理上是等价的。

附录

1. 为了简化记号，以及最大程度的突出对称和不对称，这里采用Heaviside-Lorentz单位制，这个单位制下，真空介电常数和真空磁导率都不出现，并且高斯单位制中的

4\pi

也不再出现。同时采用自然单位制，即取真空光速

c=1

。关于麦克斯韦方程组的介绍，可以参考两篇很棒的科普文：最美的公式：你也能懂的麦克斯韦方程组（微分篇）和最美的公式：你也能懂的麦克斯韦方程组（积分篇）。

2. 如果你发现了第四处不对称的地方，欢迎戳我，我会怀着最诚挚的热情和你讨论。

3. 事实上，如果你学习过电磁学，就会知道在碰到磁介质问题时，经常采用等效磁荷的方法，这种方法不仅更具有对称的美感，而且在处理一些特定问题时会方便很多。

4. 简单起见，以一维为例，足以说明问题。

5. 因为按照能量守恒，在真空中传播的电磁场的振幅应该始终保持不变，其解应该为

Ae^{\pm i k}(x\pm t)

的简谐波的形式。

6. 注意，Lorenz和我们熟悉的提出Lorentz变换的Lorentz是两个人！

7. 电流的连续性方程可以表示为，其物理含义是流出一个闭合曲面的净电流等于曲面内部电荷量减少的速率。如果用四维语言，定义四维流密度，则连续性方程可以写为明显Lorentz不变的形式，。而连续性方程来源于电荷守恒，而电荷守恒是电磁理论具有

U(1)

规范对称性的必然结果，所以无论何时都不能破坏电流的连续性方程。

8. 唯一细微的差别在于使用四维语言描述麦克斯韦方程组时。如果定义电磁场张量

F_{\mu \nu} \equiv \partial _\mu A_\nu - \partial _\nu A_\mu

，则含源的初始形式的麦克斯韦方程(1) - (4)可以等价为

\partial^\mu F_{\mu \nu} = J_{\nu}

。而对于新形式的麦克斯韦方程(27) - (30)，如果我们在

J

前面加一个负号，那么(27) - (30)仍然等价为

\partial^\mu F_{\mu \nu} = J_{\nu}

；而如果我们在

\rho

前面加一个负号，那么(27) - (30)等价为

\partial^\mu F_{\mu \nu} = -J_{\nu}

，相当于四维流密度前面差了一个负号。这一点是可以理解的，因为改变

\rho

的正负号相当于改变了电荷的正负号，而在QED中，电磁流的表达式为

J_\mu = e \bar{\psi} \gamma_\mu \psi

，是正比于电子电量

的，改变了

\rho

的正负号就改变了

的正负号，所以四维流矢量前面会多一个负号。

9. 也许我没有考虑完全，如果你发现新版本的麦克斯韦方程中有任何不自洽的地方，欢迎戳我，我将怀着最诚挚的热情和你讨论。

作者｜

yubr

编辑｜

TraderJoe's

The End

闵氏几何是什么？它是如何统一时空并极大简化狭义相对论的？

闵氏几何狭义相对论

1905年，爱因斯坦正式提出了狭义相对论；1908年，闵可夫斯基给出了狭义相对论的几何表述，也就是我们这里说的闵氏几何。爱因斯坦一开始对这套几何语言很反感，认为这些纯数学上的“花架子”没什么用，还增加了相对论的复杂度。但是，他很快就发现闵氏几何非常重要，发现这...

继续阅读 »

1905年，爱因斯坦正式提出了狭义相对论；1908年，闵可夫斯基给出了狭义相对论的几何表述，也就是我们这里说的闵氏几何。爱因斯坦一开始对这套几何语言很反感，认为这些纯数学上的“花架子”没什么用，还增加了相对论的复杂度。但是，他很快就发现闵氏几何非常重要，发现这绝不是什么纯数学技巧，而是有着深刻物理内涵的洞见。而且，如果要建立广义相对论，少了它根本不行。

几何语言清晰直观，在处理许多问题时有很大的优势，这在双生子佯谬里体现得非常明显：使用代数语言，使用洛伦兹变换去处理双生子佯谬，其中难度之大思维之绕，绝对是对智商极大的考验；而使用几何语言，这个问题就简单得不像是个问题。然而，目前绝大部分介绍相对论的书籍文章还是使用的代数语言，所以你还是能经常看到许多人在一些非常简单的问题上纠缠不清，争论不休。

梁灿彬老师说他上世纪80年代从“言必称几何”的芝加哥大学回来以后，就一直在国内大力推广相对论的几何语言，但是不明白为啥过了三十多年大众对它还是很排斥。长尾科技就在这篇文章里跟大家好好聊一聊，希望能够解开大家跟闵氏几何之间的心结。

因为这是从零开始的一篇文章，所以我暂时就只谈相对论里最简单的几何语言，也就是狭义相对论里的闵氏几何。至于广义相对论里涉及的黎曼几何，我们后面再说。

01为什么很多人觉得几何语言难？

了解相对论的人大多知道一点闵氏几何，知道我们可以通过画时空图的方式来解决一些很复杂的问题，但是他会觉得闵氏几何很难：把时空图画出来很难，画出来之后去解释时空图更难。当看到别人对着时空图“轻而易举”地把问题解决了，他心里没底。他无法理解为什么你说时空图里的这个代表了相对论的里的那个，为什么你对时空图里的一些点、线、面做这样的处理就对应着相对论里的那个问题。所以，他觉得你在时空图里做的那些几何操作非常“虚”，他不理解这些几何背后的实质，自然会觉得很难。

然而，这不该是几何该给我们留下的印象啊。我们平常接触的几何，一个点、一条线、一个正方形、一个圆，这些都是我们日常生活里一些形状的完美投射，它们非常的实在，一点都不虚。很多在代数上不好理解的东西，我们把它画到几何图形上一下子就理解了。几何原本就应该比代数更加简单直观，但是为什么到了相对论这里，大家反而觉得几何语言更加难以接受了呢？原因就是狭义相对论里使用的几何并不是我们熟知的欧式几何，而是一种全新的闵氏几何，当我们把欧式几何里的一些习惯和常识代入进来的时候，自然会引起各种水土不服。

所以，这里我们先不谈闵氏几何和欧式几何的具体区别，我们先来看看狭义相对论是怎么和闵氏几何对上眼了的。为什么狭义相对论不用欧式几何来描述，而非得使用一个我们不熟悉的闵氏几何呢？这个问题不清楚，讲再多闵氏几何的性质也是白搭。

02两个基本假设

为什么狭义相对论要使用我们不熟悉的闵氏几何，原因当然还是得从自身来找。大家都知道狭义相对论有两条基本假设：相对性原理和光速不变。从这两个假设出发我们可以很自然的推导出狭义相对论里各种奇奇怪怪的结论，这里我们先来审查一下这两个假设。

相对性原理说物理定律在所有的惯性参考系里都是平等的，不存在一个特殊的惯性系。这一点很自然，伽利略很早就发现这点了，他意识到一个人在一个匀速移动（惯性系）的密闭船舱里根本无法区分这艘船到底是静止的还是以某个速度匀速运动。无法区分的意思就是这两个参考系（静止和匀速运动）是平等平权的，否则，你就应该有办法把它们区分开。

不同的是：伽利略只敢给力学定律打包票，他只敢说我们无法用力学实验区分两个惯性系，其他定律（比如电磁学实验）能不能区分惯性系他就不敢说了。爱因斯坦说你不敢打包票我来，我打赌所有的物理定律（力学的也好，电磁学或者其他的也好）都无法区分惯性系，你在船舱里做什么实验都也无法区分这艘船是静止的还是匀速运动的。

从这里我们可以感觉到，相对性原理好像并没有那么反常识，它只是把伽利略的那套相对性原理的适用范围给扩大了。那么，狭义相对论里那么多结论的“诡异”似乎就应该来自另外一个假设，也就是光速不变。

光速不变说真空中的光速在所有的惯性系里都是一样的。不论你在哪个惯性系（注意一定要是惯性系，非惯性系里光速就没人管它了）里测量光速，在静止的地面也好，飞速的火车飞船里测也好，测得的光速都是一个定值c。

这就太反常识了，怎么能够在不同的参考系里测量同一个物体的速度都相同呢？比如，在一辆速度为300km/h的高铁上，有一个人以5km/h的速度朝车头走去。那么，高铁上的人会觉得他的速度是5km/h，而地面的人会觉得他的速度是300+5=305km/h，这两个速度肯定是不一样的。但是，如果我把这个人换成一束光，让这束光射向车头，光速不变就是说不管你是在高铁上测量，还是在地面上测量，这束光的速度都是c。你以为在地面上测量的光速应该是c+300km/h么？对不起，并不是这样。

你觉得这个事诡异么？诡异！为什么会这样呢？不知道，光速不变是狭义相对论的一个基本假设，这个类似数学里的公理，我们只能假设它是对的，但是却无法证明它是对的，它的可靠性由实验保证。其实，这个事情很多人还是知道的，但是，大多数人并不知道如果我们再深挖一下光速不变原理的秘密，我们就能找到一条通向闵氏几何的隐秘通道。

03光速不变的秘密

光速不变说你在任何惯性系中测量光速，得到的结果都是c，我们来定量的分析一下这个原理。

假设我们在K系里测量一束光，假设这束光在Δt的时间内走了Δl的距离，那么显然就有Δl=Δt×c。如果我们把这束光在x，y，z三个坐标轴方向移动距离的分量记为Δx，Δy，Δz，那么根据勾股定理就有：Δl²=Δx²+Δy²+Δz²，再把这两个式子合起来就能得到：Δx²+Δy²+Δz²-（Δt×c）²=0。如果这时候我们用一个新的量Δs²表示左边的东西，那么就有Δs²=Δx²+Δy²+Δz²-（Δt×c）²=0。

好，事情发展到这里，一切都非常容易理解，上面的事情倒腾来倒腾去就是一束光在空间里走了一段距离，然后套用了小学生都知道的距离等于速度乘以时间而已。而且，大家也会发现这个事跟光速不变也没有什么关系，你就是把上面的光换成一颗子弹，把光速c换成子弹的速度，那么上面的一切推理都还是那样的。没错，因为光速不变说的是光速在不同的惯性系里都一样，那么我们还得再考察一个惯性系。

还是上面那束光，我们这次在另一个参考系K’里对它进行测量。假设我们测量的结果是它在Δt’的时间内走了Δl’，我们同样对这个距离做一个分解，假设它在x，y，z三个坐标轴方向移动距离的分量记为Δx’，Δy’，Δz’。根据光速不变原理，光在这个参考系里的速度还是c，那么，按照上面的逻辑，我们依然可以得到Δs’²=Δx’²+Δy’²+Δz’²-（Δt’×c）²=0。

当我们把K和K’这两个参考系了的结果拿来对比的时候，光速不变原理带来的反常效应就出现了：大家有没有发现Δs和Δs’的表达式的形式完全一致，而且值还相等（都等于0）？

我们只是把K系里测量的时间和距离全都换成了K’系里测量的时间和距离，其它的东西我们一概没动。而在牛顿力学里，Δs和Δs’的表达式形式是不一样的，因为牛顿力学里另一个惯性系的测量速度会加上两个参考系之间的相对速度。也就是说在牛顿体系里，在K’系里测量的光速应该是c加上两个参考系的相对速度，这样Δs’的形式就Δs跟不完全一样了，而相对论是用光速不变强制保证了它们的形式一致。

这一点大家好好想一想，它并不难理解，但是却是后面的关键。我们现在等于说是定义了一个Δs，对于光来说，这个Δs的值在不同的参考系里是相等的，刚好都是0。

那么，重点来了：如果我把这个Δs从光推广到所有物体，我仍然从两个不同的惯性系K和K’去测量这个物体在空间上运动的距离Δx、Δy、Δz和时间上经过的间隔Δt，然后一样把它们组合成Δs和Δs’。那么，这个物体的Δs和Δs’之间有没有什么关系呢？它们是不是还跟光的Δs和Δs’一样相等并且都等于0呢？

是否等于0很好回答，一看就知道肯定不等于0。假设博尔特1秒钟跑10米，那么Δt=1、Δx=10，不考虑另外两个维度（Δy=Δz=0），看看Δs²的表达式：Δs²=Δx²+Δy²+Δz²-（Δt×c）²=100+0+0-（1×3×10^8）²，这显然是个非常大的负数。那么问题的关键就落在在惯性系K和K’里测量的这两个值Δs和Δs’是否相等，也就是说，如果博尔特在跑步，我们从地面和火车上测量得到的 Δs和Δs’是否相等？

这个答案我直接告诉大家：一样！

这个证明过程其实也非常简单，这不就是同一个事件看它在不同的惯性系里是否满足某个式子么？同一个事件在不同惯性系下变换关系，在相对论里这不就是洛伦兹变换的内容么？所以，你直接用洛伦兹变换去套一下Δs和Δs’，你很简单就能发现它们是相等的，这里我就不做具体计算了，当作课后习题。

所以，我们通过分析就得到了这样一个结论：在相对论里，不同惯性系里测量一个物体的位移、时间等信息可能不一样，但是它们组合起来的Δs²=Δx²+Δy²+Δz²-（Δt×c）²确是相等的，而这个值对光来说还刚好就是0。

注意了，这个结论极其重要，正是它决定了为什么我们要使用闵氏几何来描述狭义相对论，甚至，从某种角度来说，它几乎包含了闵氏几何里的全部奥秘。为了让大家更好地了解这个结论背后的意义，我们先去看一看欧式几何里的类似情况。

04欧式几何不变量

在欧式几何里也有一些量是不随坐标系的变化而变化的，比如最简单的线段的长度。

在二维的欧式几何里，我们假设在一个直角坐标系里有两点A（x1，y1）、B（x2，y2），令Δx=x2-x1，Δy=y2-y1，那么，利用勾股定理就能非常容易的算出AB之间的距离Δl²=Δx²+Δy²。这时候我们如果在建一个新的直角坐标系，在这个新的坐标系里原来A、B两点的坐标变成了A（x1’，y1’）、B（x2’，y2’），同样令Δx’=x2’-x1’，Δy’=y2’-y1’，AB之间新的距离Δl’²=Δx’²+Δy’²。这时候我们可以很轻松的验证Δl=Δl’，也就是说Δx²+Δy²=Δx’²+Δy’²。

这个结论一点都不奇怪，我们都可以很直观的感觉到，为什么呢？因为欧式几何就是我们日常熟悉的空间啊，我们现在就假设有一跟2米长的尺子AB，我在一个直角坐标系里计算它的长度的平方Δl²=Δx²+Δy²=2²=4，难不成我在另一个坐标系里算得它的长度的平方Δl’²=Δx’²+Δy’²还能不等于4么？我这把尺子的长度是一定的，如果我在不同坐标系下得到尺子的长度却不一样了，那还了得，那这几何就有问题了。

因此，在欧式几何里，Δl²=Δx²+Δy²也是一个坐标系不变量，这个值不随你取坐标系的变化而变化。很显然的，如果把欧式空间从二维推广到三维，那么这个不变量自然就可以写成Δl²=Δx²+Δy²+Δz²；推广到四维，我们用t表示第四个维度，那么Δl²=Δx²+Δy²+Δz²+Δt²，再往上推广几维，我就加几个分量就行了。

大家肯定注意到了：在欧式几何里，不随坐标系变化的是Δl²=Δx²+Δy²+Δz²+Δt²，而我们上面在讲狭义相对论的时候，不随惯性系变化的量Δs²=Δx²+Δy²+Δz²-（Δt×c）²。这两者非常的相似，这个光速c是个常数，可以不用考虑，为了方便计算我们甚至可以直接约定c=1，这样的话Δl²和Δs²的差别就仅仅只差一个Δt前面的负号而已。

那么，这种形式上的相似和那个负号的差别到底意味着什么呢？毕竟它们一个代表的是不随惯性系的变化而变化的量（Δs²），一个代表的是欧式几何里不随坐标系的变化而变化的量（Δl²），一个是物理量，一个是几何量，好像并没有直接的关系。但是，我们这样想想：如果我想用一种几何来描述狭义相对论里Δs²=Δx²+Δy²+Δz²-（Δt×c）²不随惯性系的变化而变化的这种性质，我们肯定就不能选欧式几何了（因为欧式几何里不随坐标系变化的量是Δl²=Δx²+Δy²+Δz²+Δt²）。所以我们需要一种新的几何，在这种新几何里，不随坐标系变换而变化的量是类似Δs²这样带有一个负号的量，这种全新的几何自然就是闵氏几何。

你这时候心里可能有点疑惑：我们真的可以只凭借不随参考系变化的量是Δs²和Δl²，就断定这是两种不同的几何么？Δs²和Δl²这些东西到底意味着什么？或者说，到底是什么决定了一种几何？

05线元决定几何

我们从小就在学习欧式几何，我们学习直线、三角形、圆等很多几何图形，我们关心它们的各种性质，比如两点的距离、曲线的长度、两条线的夹角、一个图形的面积。但是，大家有没有想过：在欧式几何的各种各样的性质里，有没有哪个是最基本的？也就是说，我们能不能只定义这个最基本的量，其他的各种量都可以从这个量里衍生出来？这样的话，我们就只需要抓住这一个最基本量的性质，就可以抓住这种几何的性质了。

答案是：有，这个最基本的量就是弧长，准确地说是组成任意曲线、弧线的基本元段长。

要把这个说清楚，我们这里得稍微引入一丢丢微积分的思想，别慌，这个很容易理解的~在欧式几何里，我们很容易求一根线段的长度（直角坐标系里利用勾股定理就行了），但是，如果要你求一条任意曲线的长度呢？

比如上图的曲线AB，这是随手画的很一般的一条曲线，不是什么特殊的圆弧，你要怎么求它的长度呢？数学家们是这么考虑的：我在曲线AB之间取一些点，比如P1、P2、P3，然后这三个点就把这段圆弧的分成了四个部分。我们用线段把这几个点连起来，这样我们就得到了一条折线，这时候我们就用折线的长度（也就是这四条线段的和AP1+P1P2+P2P3+P3B）来近似代替曲线AB的长度。当然，你肯定会说，曲线的长度明显比这四条线段加起来更长啊，你怎么能用折线的长度来代替曲线呢？

是的，如果你只在AB之间取三个点，那么曲线AB的长度肯定要比折线的长度多很多，这样近似的误差很大。但是，如果我再多取一些点呢？我在AB之间取十个、一百个甚至一千一万个点，那么，这成千上万条线段组成的折线的总长度跟曲线AB比呢？当然，还是会短一些，但是，你可以想象，这时候这些折线已经跟曲线AB非常接近了。如果一根1米长的曲线被你分成了1万条线段，这时候你用肉眼根本分辨不出来这是原来的曲线还是折线。但是你内心还是知道折线要短一些，那么接下来就是重点了：如果我在曲线AB之间放无穷多个点呢？

无穷是一个很迷人，同时也很迷惑人的词汇。从上面的分析我们知道：当我们在曲线AB里放越多的点，这些小线段连起来的折线就越接近曲线AB本身。那么，当我们放了无穷多个点的时候，这无穷多个线段组成的折线是不是就应该等于曲线AB的长度了？答案是肯定的，而这，就是微积分最朴素也是最核心的思想。

在这种思想的指导下，我们要求任意曲线的距离，最终还是要求小线段的距离，因为无穷多个小线段累加起来的长度就是曲线的长度。因此，我们只要知道如何求无穷小的线段的长度，我们就能用微积分的思想求出任意曲线的长度，我们把这个最基本小线段称为曲线的一个元段长，记做dl。

在欧式几何里，我们把基本元段dl在坐标系里分解一下，用dx和dy表示dl在x轴和y轴上的分量，那么根据勾股定理就有dl²=dx²+dy²，我们就把dl²称之为线元。

提炼出了线元这个概念以后，我们就可以开始反推了。在任何一种几何里，如果我们确定了线元，就等于知道了元段dl的长度，然后就可以利用上面微积分的思想求任意一段曲线的长度。那么，接下来，我们会发现几何里的其他性质都可以按照这些定义。比如，我们就可以把两点之间的距离定义为这两点之间所有可能的曲线里最短的一条，把两条直线的夹角定义为弧长和半径的比值（想象在一个圆里，半径固定，弧长越大角度越大），其他什么面积、体积之类的几何性质就都可以根据这些基本性质来定义。

最后，你会发现只要给定了一个线元，我们就能把它所有的几何性质都确定下来，也就是说：线元决定几何。

那么，什么是欧式几何呢？欧式几何就是由欧式线元（dl²=dx²+dy²）决定的几何。非欧几何呢？只要你的线元不是欧式线元，那么这个线元决定的几何就是非欧几何。用这种新线元，我们一样可以定义出在这种新几何里的曲线长度、两点的距离、线的夹角等等几何性质。

那么，闵氏几何是什么？闵氏几何的线元又是什么呢？

答：很显然，闵氏几何就是由闵氏线元决定的几何。闵氏线元是这样的ds²=-dt²+dx²+dy²+dz²，如果只考虑二维闵氏几何的话，那么ds²=-dt²+dx²。

闵氏线元（ds²=-dt²+dx²）跟欧式线元（dl²=dx²+dy²）十分相像，它们之间唯一的差别就在于闵氏线元的第一个分量dt²的前面是负号，而欧式线元全部都是正号。也因为如此，闵氏几何跟欧式几何也非常像，所以闵氏几何还有一个称呼，叫伪欧几何。但是，我们也要特别注意这个负号，正是这个负号，决定了闵氏几何和我们熟悉的欧式几何里所有不一样的地方，而这些不一样，恰恰是我们通过闵氏几何来理解狭义相对论的关键。

06闵氏几何与狭义相对论

我们现在知道了，所谓的闵氏几何，不过是由闵氏线元ds²=-dt²+dx²+dy²+dz²决定的几何。在这种几何里面，曲线的长度、两点的距离、线的夹角等一切性质都有这个第一项带了一个负号的闵氏线元决定。

看看这个闵氏线元ds²=-dt²+dx²+dy²+dz²，再看看我们最开始提到的那个在狭义相对论里不随惯性系的变化而变化的量Δs²=Δx²+Δy²+Δz²-（Δt×c）²，是不是非常像？在相对论里有两种单位制：国际单位制和几何单位制。国际单位制就是我们平常熟悉的那一套单位制，几何单位制就是选择光速c=1，这样可以大大简化在用几何处理相对论问题的难度。采用几何单位制的话，不随惯性系变化的Δs²=Δx²+Δy²+Δz²-Δt²，这就真的跟闵氏线元ds²=-dt²+dx²+dy²+dz²一模一样了。

这就是为什么我们要用闵氏几何，而不是欧式几何来描述狭义相对论的根本原因。

在牛顿的世界里，时间是绝对的，三维的空间也是绝对的，一根木棒在三维空间里随便怎么变换，随便怎么变换参考系，它在三维空间里的长度是一定的，这个是跟三维的欧式线元对应的（因为三维的欧式线元dt²+dx²+dy²也不随坐标系的变化而变化）。

但是，在狭义相对论里，空间不再是绝对的，不再是一成不变的，我们熟悉的尺缩效应不就是说从不同的惯性系里观测同一把尺子，这个尺子的长度是不一样的么？这就是说空间上的“长度”在狭义相对论的不同惯性系里不再是不变量。但是，我们发现如果把时间也考虑进来，把三维空间和一维时间一起组合成四维时空，那么这个四维时空里的间隔Δs²=Δx²+Δy²+Δz²-Δt²就是不随惯性系的变化而变化的量（这个在前面说过，用洛伦兹变换可以非常方便的证明）。

所以，在牛顿的世界里，三维空间是绝对的，他必须保证同一把尺子在不同的三维空间的坐标系里长度是一样的，也就是说在度量三维空间里长度的方式（这个有个更专业的概念叫度规，这里我们知道就行）必须跟坐标系无关，而欧式几何正好有这样的特性，所以牛顿力学的背景是欧式几何。

而在狭义相对论里，三维空间并不是绝对的，三维空间里一把尺子的长度在不同惯性系里是不一样的。但是，三维空间和一维时间组成的四维时空是绝对的。四维时空里如果也有这样一把“尺子”，那么这把“尺子”无论从哪个惯性系来看，它的四维“长度”都是一样的。而狭义相对论的这种四维“长度”，或者说我们在四维时空里度量长度的方式，它跟闵氏线元表达式的形式是一样的。也就是说只有在闵氏几何里，狭义相对论的时空间隔才对应于他们几何里的“长度”的概念，所以我们要使用闵氏几何来描述狭义相对论。

理解这一段非常的重要，因为只有理解了这个，你才能从根本上把闵氏几何和狭义相对论对应起来。有很多闵氏几何的科普文章里上来就是直接给你画时空图，然后告诉你闵氏几何里的这种图形这个几何性质对应着狭义相对论里的这种概念，这样很多人就感觉难以接受，然后对几何语言产生抵触的心理。

好，既然我们打算用闵氏几何来描述狭义相对论，那么肯定就要把狭义相对论里的物理语言翻译成闵氏几何里的几何语言。几何肯定是离不开画图的，在欧式几何里我们经常会画出一个几何图形在空间上的样子，这是空间图。而狭义相对论把时间和空间看作一个整体，它要求我们以同等的地位来看待时间和空间，所以我们需要画出一个事件同时在时间和空间里的样子，这种图就叫时空图。

07时空图

在时空图里，你能非常自然地感觉到时间和空间被统一起来了，因为时空图里的时间轴和空间轴有着完全的平等的地位。

在时空图里，一个粒子现在在哪，你找到它的空间坐标（x，y，z），记下现在的时间t，那么你就得到了它的时空信息（x，y，z，t），那这个时空信息就对应时空图里的一个点，这就叫时空点。

同样的，你再记下它下一个时刻t1的位置（x1，y1，z1），那么它又对应了坐标系的另一个点（x1，y1，z1，t1）。所以，一个粒子在任一时刻的时间、空间信息就都对应了时空图里的一个点。那么，如果考察这个粒子的全部历史，你就可以得到一系列的这种时空点，这些点在时空图里就会形成一条线，这条能代表粒子全部历史的线就叫粒子的世界线。

现实生活里一个粒子有四个维度（三维空间+一维时间），那么对应的坐标轴应该也是四维的，但是我们在二维平面里勉强可以画出三维图形，对四维图形实在无能为力。为了方便起见，我们假设粒子只沿x轴方向运动，这样我们就可以不考虑y轴和z轴的情况，从而把四维的问题简化为二维，然后我们就可以很愉快的在一张二维的纸上画这二维时空图了。

我们先建立一个坐标系，横轴x代表粒子的空间信息，纵轴t代表粒子的时间信息。为了再次简化问题，我们采用几何单位制，也就是取光速c=1，然后我们再来看一些具体问题。

问题1：一个静止不动的粒子在时空图里是什么样的？或者说它的世界线是什么样的？

这个答案很容易想到，一个粒子静止不动，就是在空间上没动，那么它的x坐标一直为零，但是时间依然在流逝，也就是粒子的时间坐标在一直变大。所以，静止不动的粒子是世界线是一条跟t轴重合，垂直于x轴的直线。

问题2：一个匀速向右运动的粒子的世界线是什么样的？

这个也不难想象，一个匀速向右运动的粒子，它在时间轴不停往上走的同时，空间轴上也在不停地往右走，那么这个粒子的世界线应该是一条斜直线。问题是，斜多少？是所有的坐标空间它都可以斜，还是有什么限制？这个问题我们先放着，先看看第三个问题。

问题3：一条朝右上方45°的斜直线（如下图的L1）代表了什么粒子的世界线？

我们先来算一算这个粒子的速度：我们在粒子的世界线L1上取两个点，也就是假设粒子在t1时刻在位置x1，在t2时刻在位置x2。因为这条直线是45°的，所以很显然x2-x1=t2-t1，.那么粒子的速度v=(x2-x1)/(t2-t1)=1。

速度等于1是什么意思？我们在画图的时候采用的是几何单位制，也就是取光速c=1(如果我们不采用几何单位制，那么竖轴的单位就不是t，而是ct，本质并没有什么不同)。现在这个粒子的速度等于1，其实就是代表这个粒子的速度是光速，速度是光速那自然就是光子了，那么这条45°斜直线就代表了光子的世界线。

从这里我们可以看到，在时空图里，光子的世界线是45°的斜直线。我们也知道在相对论里任何有质量粒子的速度都是小于光速的，那么一个有质量的粒子做匀速直线运动的世界线该是一条什么样的斜直线呢？是在区域1还是区域2？

我们可以这样想一下：如果粒子的速度比光速小，那么假设粒子在t1时刻在x1处，那么到了t2时刻它肯定到不了x2地方，那么这两点的连线肯定就在L1的上方，也就是区域1。其实我们也可以想一个极端的粒子，假设这个粒子在原点不动，那么粒子的世界线就是跟t轴重合，粒子速度到达光速就是45°的那条直线，那么速度在静止和光速之间的粒子世界线自然就是在区域1的斜直线了。

现在我们知道了这样一个结论：在时空图里，45°的斜直线代表了光子的世界线（如L1），比光子世界线更陡，更加靠近t轴的斜直线（如L2）是有质量粒子匀速直线运动，或者说惯性运动（速度小于光速）的世界线。

有了这样的基本认识，我们来用几何语言分析一下狭义相对论里入门教材里必定会碰到的问题：火车闪光问题。这个问题之所以重要，是因为它揭示了同时的相对性，也就是说在一个惯性系看来是同时发生的事件，在另一个参考系里不一定是同时发生的。爱因斯坦敏锐地发现了这点，然后借此从看似牢不可破的牛顿力学里撕开了一道口子。

08同时的相对性

在牛顿力学里，时间是绝对的，所以同时必然也是一个绝对的词汇。在一个参考系看来是同时发生的事件，不管谁来看都绝对是同时发生的，这也是一个非常符合常识的论述。

但是，爱因斯坦用一个简单的火车实验就让人们的这个信念坍塌了，这个实验是这样的：假设地面上有一辆匀速运动的火车，在某一个时刻，地面上的观察者发现这个火车的车头和车尾同时被闪电击中。也就是说，对于地面参考系而言，闪电击中车头和车尾这两个事件是同时发生的。但是，爱因斯坦认为在火车参考系里，这两个事件就不是同时发生的。

原因也很简单，我们假设在闪电击中火车头尾的时候，在地面这两点的中点有一个观察者。因为两个事件在地面系看起来是同时发生的，所以，站在地面中间的那个观察者肯定会同时看到车头和车尾发过来的闪光，所以这两个事件是同时的。

但是，站在火车中间的观察者就不是这样了，因为车头车尾的闪光在向中间传播的时候，火车本身也在前进，所以火车中间的人就会先看到车头发过来的闪光，后看到车尾发过来的闪光。所以，火车上的观察者就会觉得这闪电击中车头和车尾这两个事件不是同时发生的，而是击中车头的先，击中车尾的后。

爱因斯坦从这个火车闪光实验出发，发现了同时的相对性，进而打开了狭义相对论的大门。这个实验比较简单，整个逻辑过程也不复杂，但是这样讲不够直观，不够具有普遍性。因为很多人会把这个实验当做一个特例来处理，也就是只有当他们意识到要讲同时的相对性的时候才会想起这个实验，平常就会把这个实验带来的同时的相对性给忘了，然后带来一系列的“相对论诡异疑难”。下面我们从几何语言来看看这个问题，看看如何让这个重要问题更直观，更具有普遍性。

我们假设闪电同时击中车头车尾（从地面系观测）的时候，火车的车尾M’、车头N’刚好经过地面的M和N点，P点为地面MN的中点，P’为火车上的中点，我们来看看怎么在时空图上描述这个闪电击中火车的问题。

我们先来看看地面上M和N点的世界线，因为M、N在地面上没有动，所以M和N点的世界线都是一条沿着时间轴t竖直向上的直线（空间位置没动，只有时间t在动）。同样的，在MN中间的P点也没动，它的世界线也是一条竖直向上的直线。这三条线好画，那么在火车上的M’、N’和P’，它们都在做匀速直线运动，那它们的世界线是什么样的呢？这个我们上一节刚好说了，做匀速运动的粒子的世界线是一条比45°线更陡的斜直线。那我们把这六个点的世界线都画出来，不难理解应该就是下面这样（横轴为空间x，纵轴为时间t，这里省略了）。

下面是关键的了，怎么画车头、车尾的闪光向中点传播的过程？我们知道，闪电击中车头车尾之后，这个事件就会向四面八方发射光信号（所以四面八方的人都能看到火车被闪电击中了），但是，其他的信号我们都不关心，我们只关心被地面中点P和火车中点P’所接收到的那一束光信号。那么，这个光信号要怎么画呢？它们的出发点肯定在m和n，那接下来呢？这次我们再次想起了上一节中提到的：光子的世界线是45°的斜直线。那么我们就加上这两条45°的世界线，最后的图就是下面这样的。

这两根世界线跟两个中点P、P’的世界线产生了三个交点A、B、C，这是三个很有意思的点，我们来分析一下它们的物理含义。

首先是A点，A点是闪光世界线跟地面中点P点的世界线交点，它们相交了是什么意思？纵轴代表时间，横轴代表空间，相交了就代表这两个粒子此时时间和空间信息都一样，都一样那就是相遇了啊，具体到我们这个问题就是闪光传播到了地面上的中点。因为地面没有动，M和N点到P点的距离又是一样的，那么车头车尾的闪光肯定同时到达地面中点，所以它们都相交于A点是正确的。

再来看B点和C点。B点是车尾的闪光的世界线和火车里面的中点P’世界线的交点，那B点代表的意思自然就是火车中间的观察者观察到车尾的闪光这个事件。同理，C点是车头闪光世界线跟P’世界线的交点，那C点就是火车中间的观察者观察到车头闪光的这个事件。这样看就非常明显了，纵坐标是时间轴，那么B事件明显就是在C事件之后发生的啊。

这正是同时的相对性的表现：对于地面系，它们都交于A点，所以是同时的；对于火车系，它们分别交于B点C点，所以是不同时的，这在时空图里极为直观。

这里有一个事要强调一下：我们在这个火车闪光问题里虽然涉及到了地面系和火车系，但是我们是一直在地面系来分析问题的。我们画的时空图，不管是地面上的点还是火车上的点，我们都是在地面系画，因为毕竟一张图只有一个坐标系嘛。那么，我们能不能在一张图里同时把地面系和火车系两个惯性系都画上呢？

答案当然是可以的。

09两个坐标系

我们来具体看看这个问题：假设我们现在已经画了一个地面系的直角坐标系x-t，那么我们要如何把火车系的坐标系x’-t’画出来？

第一次遇到这个问题的同学可能有点懵，不着急我们一步步来，我们先看看火车系的纵轴t’要怎么画。要画火车系的纵轴，我们先想想一个坐标系的纵轴的是什么意思？我们知道如果我们让一个点的横坐标为零，那么这个点的轨迹就是跟纵轴重合的。还记得我们上面说的静止粒子的世界线么？静止粒子的空间坐标x为0，所以它的世界线就是垂直于x轴，与t轴重合的一条直线。那么，火车系的t’轴自然也是在火车系里静止在原点处粒子的世界线。

这一点很重要，大家好好理解一下，也就是说我们只要把火车系处于原点处粒子的世界线画出来，我们就能得到火车系的t’轴。那么，一个在火车系静止的点，在地面系看来它是在做匀速直线运动，而匀速直线运动的点的世界线，我们上面也说了，就是一条比45°更陡的斜直线。所以，火车系的t’轴就是这样一条更陡的斜直线，如下图所示：

火车系的t’轴画好了，那火车系的x’轴呢？大家可以看到我在图上用虚线画了一根与t’垂直的轴，并且特意标明了“错误的x’轴”。为什么要这样标呢？因为这是相对论初学者极容易犯的错误。我们已经习惯了欧式几何，欧式几何里直角坐标系都是相互垂直的，所以到了这里很多人看到我们已经画出了t’轴，就立马条件反射地画一根和t’轴垂直的当做x’轴，但是这是错误的，为什么呢？

这里我们第一次感受到了闵氏几何的异样。我在最开始花了那么大的篇幅告诉大家为什么狭义相对论要使用闵氏几何，我们也知道了闵氏几何的线元跟欧式几何不一样（时间项前面多了一个负号），所以，我们在画时空图处理狭义相对论问题的时候，一定要意识到自己虽然是在欧式平面里画图，但是我们画的是闵氏几何里的图形。

有人可能会有点疑问，我们前面不是已经用时空图解决了同时的相对性问题么？我们不是已经把爱因斯坦火车闪光问题用时空图画出来了么，我没感觉啥异样啊？那只是因为那个问题比较简单：它只有一个坐标系，而且也不涉及到线长相关的问题，所以我即便在一个欧式直角坐标系里把它画出来了，它也暂时没什么冲突。如果我们生活在一个闵氏空间里，那么我们画出的闵氏直角坐标系肯定都是相互垂直的，但是我们生活在欧式空间里，我已经用一个欧式空间里的直角坐标系画了一个闵氏坐标系，那么另一个就肯定不可能再是垂直的了。

这里的逻辑有点绕，大家可以细细品味，搞得不是很懂也不要紧，我接下来会把另一个坐标系画出来，大家能看懂再回去看上面的一段话就明白了。

好，回到正题，我们再来看看火车系正确的x’轴该怎么画。我们再来整体回顾一下这个事情：我们现在是已经画好了地面系x-t，要画火车系x’-t’，火车系和地面系它有没有什么关系呢？有啊，洛伦兹变换说的不就是地面系和火车系的关系么？什么是洛伦兹变换？比如我在地面系观测到了一个粒子的位置和速度，现在我想知道它在火车系里是什么情况，我并不需要重新再到火车系里测量一遍这个粒子的位置和速度，我只需要根据洛伦兹变换就可以直接得到火车系里那个粒子的运动情况。所以，洛伦兹变换就是两个惯性系之间的联系，我只要知道了一个惯性系里粒子的运动情况，立马我就可以知道其他惯性系里粒子运动的情况。

所以，我们可以根据洛伦兹变换来找到两个惯性系之间的联系。我现在不是根据地面系的坐标轴来找火车系的坐标轴么？我们对着洛伦兹变换改就是了。洛伦兹变换是下面这样的：

其中，x，y，z，t代表地面系里观测到的，x’，y’，z’，t’是火车系里观测到的。v是火车系相对地面系的速度，火车的速度一旦给定了，这个v就是一个定值，c是光速，所以右边的γ都是一个常数。如果我们再根据几何单位制来，取c=1，那么洛伦兹变换就可以简化成下面的样子：

因为我们只考虑火车系相对地面系在x轴方向上的运动，所以在y和z方向上还跟原来一样，我们可以不考虑。我们现在画图也是来画x-t图，所以我们重点关注这两个式子：

这是什么呢？这不就是火车系了的x’和t’么？我现在要画的就是x’的坐标轴，也就是火车系的空间坐标轴，那怎么找到这个坐标轴呢？这个我们前面也提过：纵坐标的那条线就是横坐标为0的所有点的集合，反过来也是，横坐标就是纵坐标为0的点的集合。所以，我们令火车系的时间等于0，也就是纵坐标t’=0就能找到横坐标x’轴了。

那我们令t’=γ（t-vx）=0，因为γ是一个不为零的常数，所以就只有t-vx=0了，也就是t=vx。

这在x-t坐标系里就是一条过原点的直线，斜率为火车的速度v（斜率就是这条直线的倾斜程度，你可以理解为一个坡越陡斜率越大。当直线与横轴重合的时候，斜率为0；当直线跟横轴成45°的时候，斜率为1；当直线跟纵轴重合的时候，斜率为无穷大）。因为我们这里是几何单位制，光速为1，在狭义相对论里任何有质量的物体它的运动速度都是小于光速的，所以火车的速度v肯定是小于1的，也就是说这条直线的斜率比45°的直线（刚好是光的世界线）小。

再者，我们可以用同样的方法令x’=γ(x-vt)=0，就能得到火车系的纵轴是这样一条直线：t=x/v。它的斜率是1/v，因为v小于1，所以1/v是个大于1的数，所以这条斜直线的斜率比45°要大（我们前面画的也正是这样）。这里我给一个初中数学的结论：斜率互为倒数（比如v和1/v）的两条直线它们是关于y=x，也就是45°的直线对称的。所以，我们的x’轴是跟t’轴关于45°的直线对称的。这样我们就能精确地把它画出来了，如下图：

第一次看到这样一个坐标系的同学可能会感觉非常别扭，为什么火车系x’-t’的坐标系不是正交的，不是一个直角呢？我们得这样看：它们是正交的，只不过它们是在闵氏几何里正交，我们现在强行把它画在欧式几何里，那么肯定就看起来不正交了。

还有同学也会有疑惑，你不是说狭义相对论里惯性系都是平权的么？那么为什么这里把地面系画成直角的，而把火车系画成了一个小于直角的坐标系？我要是人就在火车里，我非要把火车系画成直角的，不行么？行，当然行。你可以按照上面的思路把火车系画成直角的基准系，再反推过去画地面系，最终的两个图虽然形状不一样，但是实质上还是等价的。

理解这个双坐标系非常关键，它第一次向我们展示了闵氏几何不一样的地方。有了它，我们就可以很方便的处理不同惯性系里的一些事情，比如，我们喜闻乐见的尺缩效应。

10尺缩效应

尺缩效应是狭义相对论里比较有趣的一个效应，它简单说来就是一句话：运动的物体长度会收缩，也就是动尺收缩。但是这样描述会让许多初学者心生疑惑，你动尺收缩是真的收缩了还是只是看起来收缩了？这是一种观测效应还是一种由于光速有限造成的传播误差？你相对尺子没动，觉得尺子没缩，我觉得缩了，那么它到底缩了没有（这是个很常见的错误的问题）？

其实，用非几何语言初学相对论的人不可避免地会遇到很多类似这样的问题。因为大家在牛顿的那一套环境里浸润久了，想一下子把思维切换过来很麻烦。而且学相对论的人最容易载到“相对”两个字里来，该相对的东西不相对，不该相对的东西又跑去相对，最后把自己绕进去了。但是用几何语言却没有这样的烦恼，因为有很多物理量在3维的时候是相对的，在4维里就都是绝对的了。而且，几何图形清晰直白，会大大降低这类问题的难度和迷惑性。

好，现在我们来看看怎么用几何语言处理尺缩效应。

一个粒子的世界线是一条线，而一把尺子是由许多粒子组成的，所以一把尺子在时空图里留下的轨迹就应该是一个面，我们称之为尺子的世界面。我们还是以地面系为基准系，假设尺子相对地面系静止，那么尺子每个粒子的世界线都是一条平行于t轴的线，合起来它的世界面应该是一个有一定宽度的面。上一节我们已经学会了如何把运动的惯性系也画出来，我们再把相对尺子运动的参考系x’-t’（假设为火车系）画出来，总的时空图就是这样：

如上图所示，阴影部分就是在地面系静止的尺子的世界面，它跟x轴的交点为a，跟x’轴的交点为b。那么我们很容易就能知道oa就是尺子在静止地面系的长度，ob就是尺子在运动的火车系x’-t’的长度。

为什么呢？你想想oa代表什么意思？oa就是当地面系的时间为零的时候尺子在空间x轴的投影，那这显然就是尺子的长度了。那么，同样的道理，因为运动的火车系的坐标是x’-t’，ob也是当t’都为0的时候尺子在x’轴的投影，所以ob就是运动的火车系测得的尺子长度。

所以，尺缩效应就变成了比较oa和ob的长度。很显然，oa和ob的长度肯定不一样，那么到底是oa长还是ob长呢？

没错，你的眼睛没有看错，我就是在问到底是oa长还是ob长？可能这个时候你的脑袋是懵的，明明oab组成了一个直角三角形，ob是斜边，斜边肯定比直角边更长啊，这是初中生都知道的，ob比oa长难道还有什么疑问么？

没错，搁在欧式几何里，斜边大于直角边这绝对毫无疑问。但是，我们始终要记住我们处理狭义相对论问题用的是闵氏几何（否则也不会出现x’-t’这样看起来不正交的坐标系），那闵氏几何里要怎么样比较两条线段的长短呢？

这个时候你可能意识到了：我们在闵氏几何里连怎么定义线段的长度都不知道，更别提比较两条线段的长短了。那么，闵氏几何里一条线段的长度是怎么定义，怎么计算的呢？

11闵氏几何的线长

在讨论怎么定义，计算闵氏几何一条线段的线长之前，许多人可能对为什么这个问题会是一个问题都心存疑惑：线段的长度不就是用尺子去量一下线段么，为什么还需要什么定义？即便我不用尺子去量，一条线段我在直角坐标系里把它投影到x和y轴，假设它在x轴和y轴的投影长度分别是Δx和Δy，那么我就可以利用勾股定理很简单的算出这条线段的长度L²=Δx²+Δy²。

但是，我还是得再强调一次：你能这样做，是因为你已经假设了你是在欧式几何里。只有在欧式几何里，一条线段的长度才可以这样用勾股定理去计算，但是狭义相对论的几何背景是闵氏几何。为了让大家能更直观的了解，我们先不谈闵氏几何，我们就来看看球面几何。

球面几何顾名思义就是在在一个球面上的几何。你可以想象在一个篮球的表面，或者地球的表面上有两个点，那么，这两个点之间的距离应该是一段圆弧长，而不再是欧式几何里的直线。你想想，在这种情况下，你还能用勾股定理去计算这两点之间的距离么？你要硬用勾股定理去计算，那么算出来的是这两点之间的直线距离，并非在球面上的圆弧长，这显然是不对的。就好比你在地球表面计算北京到深圳的距离，你用勾股定理算出来的距离是在北京地底下打一个直线隧道通到深圳的距离，这显然不是你在地球表面从北京直线开车去深圳的距离。

从这里我们能直观地感觉到：在不同的几何里，长度的计算方式是不一样，每一种几何都有自己度量长度的规则（这就是度规），一旦这种规则确定了，这种几何也就确定了。其实，这一点我在「线元决定几何」这一节里已经说得非常明确了，不光是线长，所有的几何性质都是由线元决定的，不同的几何拥有不同的线元，自然就拥有不同的计算线长的方式。

二维欧式几何的线元是dl²=dx²+dy²，二维闵氏几何的线元是ds²=-dt²+dx²。二维欧式几何里线段长度的计算公式是这样的：

那么，二维闵氏几何里线段长度的计算公式自然就是这样的：

因为闵氏几何的线元的时间项前面有个负号，所以，为了避免根号里面的值出现负数从而让式子无意义，我们套了一个绝对值（它保证所有值都是非负的，比如-5的绝对值为5，记做|-5|=5）的符号。

也就是说，我们在闵氏几何里是根据这个式子来计算一条线段的长度的，Δt和Δx分别代表这条线在t轴和x轴的投影。这个式子跟欧式几何的距离计算公式很类似，唯一的不同还是时间项前面的那个负号。也正因为这个负号，闵氏几何里的线长问题才会变得更我们平常想的不一样。为了让大家熟悉一下这种新的线长计算方式，我先来举个简单的例子。

问题4：大家还记得光子的世界线是一条45°的斜直线把，我们现在随便在光子的世界线里取A、B两点，那么线段OA、OB的长度分别是多少呢？如下图所示：

我们先来看看OA的长度，因为这条直线是45°，所以A点在x轴和t轴上投影得到的距离就是一样长的，也就是Δt和Δx的大小是一样的。但是，闵氏几何里线段长度的计算公式是它们两个相减再开根号，现在这两个值是相等的，那么相减的结果不就是0了么？再开根号结果自然还是0。

也就是说，OA在闵氏几何里的长度为0。

你没有看错，它的长度就是0。OA你看着有这么长的一段，但是它在闵氏几何里的长度却是0，这就是那个负号带来的效果。同样的，你可以接着去算OB的长度，或者直接算AB的长度，你会发现它的长度一样全部都是0。

所以，我们有这样的结论：光子的世界线长度恒为0。这很反直觉吧？我们再来看个例子。

问题5：还是上面的图，我过B点做一条垂直于t轴的线，然后随便在BC之间取一条点D。那么OC就是静止不动的粒子的世界线，OD就是一条匀速直线运动的粒子的世界线，OB是光子的世界线，那么它们三个的长短怎么比呢？

乍一看，好像的OB>OD>OC。但是我们刚刚算过了光子世界线OB的长度为0；OC是静止不动的粒子的世界线，那么它在空间上的位移Δx就为0，那么OC的长度就是粒子在时间轴里走的长度；OD在时间轴上的投影跟OC一样，但是它的Δx不等于0，那么它们相减（-Δt²+Δx²）之后的数值肯定就变小了，那么OD是小于OC的。于是，我们得到的结论确实跟之前的感觉截然相反的，三者的长度是OC>OD>OB=0。

所以，当我们在说时空图了某一条曲线的长度的时候，我们都要意识到我们是用闵氏几何那把尺子（时间项前面有负号）来度量曲线的长度，这跟我们平常生活里感受的（欧式几何度量长度）是不一样的。一开始大家会觉得这种方式非常不习惯，但是一旦习惯了就会觉得这个非常自然。

好了，这里我们介绍了闵氏几何里线长的定义和计算方法，理论上我们就可以计算任意一条线段的长度了，也能比较两条线谁长谁短了。我们上一节不就是最后把尺缩效应归结比较两条线段oa和ob的线长么？那现在可以直接比了啊。

我们看到ob在x轴的投影跟oa是一样长的，但是oa在t轴的投影为0，ob在t轴的投影却大于零。但是，根据闵氏几何的线长公式，线长是这个线段在时间轴t和空间轴x投影长度平方相减再开根号。既然两条线段oa和ob在空间轴x上的投影都一样，那么在时间轴t上投影长度越大的，相减之后得到的值就越小，那么最后的线长就越小。

所以，我们能直接就这样感觉到，在闵氏几何下，ob是比oa更短的。而ob代表的是运动参考系下尺子的长度，oa是静止参考系下尺子的长度，既然ob比oa更短，那么就是说在运动参考系里尺子的长度更短，这就是我们常说的尺缩效应。

这里我们是直接用线长的计算公式算出oa和ob的长度然后再来做比较，虽然算出来了，但是可能不是很直观。在许多教材和文章里都会提到另外一种看起来更直观的比较方式，那就是使用校准曲线，很多人也经常看到这个但是不是很明白，我这里就一起再讲一下。

12校准曲线

校准曲线其实是回答了这样一个问题：闵氏几何里，到原点距离相等的点组成的轨迹是什么？

老规矩，我们先看看欧式几何的情况。在欧式几何里，到原点距离相等（比如说都等于2）的点组成的轨迹是什么呢？这个我们都知道，这就是一个圆，到定点的距离等于定长的点的集合就是圆，这个点就是圆心，这个定长就是半径。

在欧式几何里，如果一个点（x，y）到原点的距离为2，那么，根据勾股定理我们就可以很容易写出下面的关系：x²+y²=4。而学过一点解析几何的人就都知道，这就是圆的坐标方程。

那么，再回到闵氏几何，在闵氏几何里到原点的距离为2的点组成的轨迹是什么呢？其实也简单，我们不是已经有闵氏几何的距离公式了么？代入进去就行了，因为是求到原点的距离，所以Δx和Δt就分别是点的坐标x和t，如下图：

我们把两边平方展开就得到了：

大家对比一下，这个x²-t²=4跟我们在欧式几何里圆的方程只有一个符号的差别（因为坐标轴不同，作为纵轴t和y是完全等价的）。这个式子，学过高中数学的同学一眼就能看出来这是一条双曲线，没学过或者忘了的可以自己去找一些具体的点描上去（自己找一些x的值，然后去算t的值，最后把（x，t）组成的点画到坐标系上去，看看轨迹是什么）。我这里用GeoGebra（这是一个免费的在线数学绘图工具，你输入函数或者方程，它就会自动把对应的图像画出来，有兴趣大家自己也可以去画一画）给大家画了一个图，大家可以看看，双曲线大致就是这么一个形状：

我们先甭管双曲线在欧式几何里的各种几何意义，我们是怎么得到这个图的？我们是在闵氏几何里找距离原点距离相等（这里等于2）的点的集合，也就是说，你别看这个曲线是弯弯曲曲的，但是在闵氏几何里，这个曲线里所有的点到原点的距离都是相等的，都等于2。

因为这种曲线上所有点到原点的距离都相等（闵氏几何下），所以我们就可以用这种曲线当作一个标准来校准，这就是把它叫校准曲线的原因。还是那个尺缩效应的图，这次我们用校准曲线来看一下。

大家看到，我加了一条过a点的校准曲线，我们假设它跟x’轴交于c点。这样就非常清楚了，什么是校准曲线？校准曲线就是闵氏几何里到原点的距离都相等的点，因为a和c都在曲线上，所以，在闵氏几何里oa和oc的长度是相等的，也就是oa=oc。而b、c两点都在x’轴上，很显然的ob<oc，合起来就是ob<oc=oa，那我们就很自然地得到了ob的长度比oa更短的结论。

而oa就是在静止的地面系观测得尺子的长度，ob是在相对尺子运动的火车系上观测到尺子的长度。我们得到的结论是ob<oa，这不就是说在运动的参考系里观测到的尺子的长度更短么？完美符合尺缩效应的结论。

在狭义相对论里经常跟尺缩效应一起出现的还有一个钟慢效应，它说相对钟运动的参考系观测钟会觉得它走地更慢一些，也就是动钟变慢（这个不同于广义相对论里引力钟慢效应说的引力越大，时间越慢）。但是钟慢效应和尺缩效应在时空图的处理上是类似的，所以我这里就不说了，大家可以自己去画一下，想知道答案的可以参考梁灿彬老师《从零学相对论》的4.2节（没有资料的可以在公众号后台回复“梁灿彬”或“梁老师”，获取《从零学相对论》+《微分几何入门与广义相对论》以及梁老师配套的的教学视频）。

接下来，我们来看一个狭义相对论里让无数新人头痛不已，也让无数科普者无比心烦的一个问题。这个问题用几何语言处理极为简单，但是读者不认，他们不太了解闵氏几何，更无法理解几何图形里代表的物理实质，你凭什么用这个这个就代表了那个那个？但是，这个问题如果用传统的代数语言讲就极为复杂，而且逻辑非常绕，一不小心就在各种相对里面把自己都绕进去了，分析它简直是对智商极大的挑战。没错，这就是大名鼎鼎的“双生子佯谬”问题。

13双生子佯谬

双生子佯谬的描述倒是非常简单：假设地球上有一对双胞胎，有一天哥哥驾着宇宙飞船去太空里里飞了一大圈再返回地球。那么按照狭义相对论，我们就会发现哥哥再次回到地球的时候他会比弟弟更年轻。比如说，哥哥从地球出发的时候，这对双胞胎都是20岁，现在哥哥在太空飞了一圈再回来之后，有可能弟弟已经30岁了，哥哥才25岁。当然，这个具体的数字依赖于特定的飞行情况，但是哥哥肯定会比弟弟年轻这是一定的。

这个问题的争议点在哪呢？它争议就争议在：狭义相对论里有钟慢效应，也就是说运动的物体他的时间会变慢。那么似乎可以说哥哥离开地球在太空里运动了一圈，所以哥哥是运动的，那么哥哥的时间会变慢，回到地球更年轻好像说得通。但是，运动不是相对的么？你站在地球上觉得是哥哥在动，那么我站在飞船的角度来看，我也可以觉得是弟弟（包括整个地球）在远离我然后靠近我，那么运动的那个人就是弟弟，因此弟弟的时间更慢，兄弟见面的时候应该弟弟更年轻。这样不就前后矛盾了么？

双生子问题是一个佯谬，佯谬就是说它看起来是错的，是矛盾的，其实是正确的。也就是说，如果我们真的有这样一对双胞胎，哥哥去外面浪了一圈再回到地球，他是真的会更年轻。但是，这样的话，我们要如何解释后面那种矛盾的说法呢？也就是，站在飞船上哥哥的角度看来，运动的是弟弟和地球，为什么不可以认为弟弟和地球才是那个时间变慢的呢？

有人意识到是加速减速这个过程在作怪，但是加速减速他一样可以说，我在飞船上看，地球也是加速离我远去，再加速再回来。然后甚至有人说这里有加速度，就应该把广义相对论搬进来解释，在这条邪路上走地更远的甚至说：哥哥不是加速运动么？等效原理说加速度等效于引力，所以哥哥在加速的过程产生了引力，而广义相对论又说引力是时空弯曲，那么哥哥加速使得时空弯曲了。

其实，双生子佯谬不仅是让许多初学者疑惑，在相对论的几何语言普及之前，许多物理学家对它也是头疼不已。他们到了20世纪50年代还在吵这个，物理学家们吵就不是像我们这样在群里或者论坛里发表一下意见看法，他们是发文章到《自然》、《科学》这样的顶级学术杂志里吵，所以你可以想象一下那时的情况。但是，当几何语言普及之后，物理学界几乎就没人再因为这个争论了，因为在几何语言下，这个问题简直简单得不像话，它就跟2+2=4一样清晰简单，那还有什么好吵的。

为什么几何语言可以如此大幅度的降低双生子佯谬的难度呢？这里就涉及到了学习相对论里最重要的一个事：学习相对论最重要的就是要分清楚相对论里哪些东西是相对的，哪些是绝对的。你要是看这个理论的名字叫相对论，就认为什么都是相对的，那就完了。其实相反，狭义相对论的两个根基“光速不变”和“相对性原理”都是绝对的：前者说光速是绝对的，后者说物理定律的形式是绝对的，这其实是一个不折不扣的“绝对论”。

我们再回过来想一想，双生子佯谬到底为什么这么麻烦？不就是因为滥用相对，认为什么都可以相对，所以站在哥哥的立场和弟弟的立场应该都一样从而导致了佯谬么？那为什么我们用几何语言可以轻松把这个问题理清楚呢？因为我们在使用几何语言的时候，我们是把时3维空间和1维时间看做一个整体的4维时空。用3维眼光看世界，3维空间和时间都是相对的，但是4维时空确是绝对的。当我们站在更高的维度（4维时空）里看问题的时候，那些因为相对产生的各种问题就自然消失了。所以，使用几何语言思考相对论，是站在更高的维度上看问题，这是一种思维方式上的降维打击。看过刘慈欣《三体》的同学，想必都对降维打击产生的效果印象深刻，学习相对论，我们也要尽快提高自己的维度~

如果想体会一下3维语言处理双生子问题的复杂度，可以看看我之前写过的一篇《双生子佯谬过程全分析》，其处理问题之麻烦，逻辑之烧脑简直灭绝人性。虽然我已经尽量清晰通俗的语言来说这个问题了，但是读者的问题还是跟雪花一样飞过来。最开始我还比耐心的一个个在群里解释，后来就实在受不了了。要跟人把这个问题彻底解释清楚，少则一两个小时，多则一下午，太费时费精力了。而且，后面要理解许多人的问题都非常困难，因为要提出一个正确的相对论的问题也需要一定基础，有些同学相对论的基础知识不牢，提的问题都是问题，那还怎么去理解双生子佯谬呢？

这就像是游戏里刚出来就要去打终极BOSS，下场自然可想而知，这也是我为什么现在就这么着急的来讲几何语言的一个原因：我实在不想再回答3维语言的双生子问题了。而且，把自己局限在这几个效应佯谬里，也不是什么好事，因为讲相对论的人虽然经常讲这个几个东西，但是这些东西绝非相对论的精髓，大家早点从这些框框里跳出去，去感受一下相对论里更精妙的东西才是好事。

14双生子佯谬的几何解释

好，我们下面来看看从几何语言是如何降维解决双生子佯谬的问题的。我们先假设地球做惯性运动（忽略地球自转和引力场什么的），以地面系为基准系，我们在时空图里画一画哥哥和弟弟的世界线。

弟弟的世界线简单，因为他一直待在地球没动，所以他在空间坐标里没动，流逝的只有时间。那么，弟弟的世界线就是一条跟t轴平行的直线。

哥哥的世界线稍微复杂一点，但是也很容易。哥哥从地球出发，去太空浪了一圈再返回地球，这其中的过程无非是先加速远离地球（加速之后有没有匀速我们都不管了），太空里飞了一段时间要掉头返回地球，那么其中必定先减速，再反向加速驶向地球，最后还要减速降落在地球上。因为匀速运动的世界线是一条斜直线，那么加速运动的世界线就是曲线了，这曲线大致就是下面这个样子。

我们用a表示哥哥离开地球这个事件，b表示哥哥返回地球跟弟弟见面这个事件，那么这个时空图就大致是下面这样的：

问题来了，时空图在这里，哥哥弟弟的世界线也都画出来了，那么如何从图中判断哥哥弟弟谁更年轻呢？时空图里纵轴是时间轴，单从时间轴来看，哥哥和弟弟的世界线在时间轴的投影刚好是一样长的，那么是不是这样就代表哥哥弟弟经历的时间是一样长的呢？如果他们经历的时间一样，那么重逢时哥哥弟弟的年龄就应该一样大啊，那怎么还会有双生子佯谬呢？这显然跟事实不符。

那么这个时间到底要怎么看呢？我们先来想一想，我们要判断地球重逢时谁更年轻，其实就是判断在事件a和事件b之间哥哥弟弟谁自己经历的时间更长，我这里特别强调是自己经历的时间，为什么要这样强调？在牛顿力学里，时间是绝对的，全世界的人都共用一个时间，因此这么说是多余的。但是在相对论里时间是相对的，不同参考系对时间的测量也是不一样的（正因如此洛伦兹变换里两个系的时间t和t’是不相等的），那么在哪个参考系测量的时间可以表征一个人的真实年龄变化呢？或者换句话说，哪个时钟可以表征一个人年龄的真实变化呢？

答案显而易见：只有一直跟自己处于同一个参考系的时钟测量的时间才是自己年龄变化的真实时间。也就是说，只有我口袋里那块表的走时才是真正跟我的年龄增长对应的，我们把这个自己随身携带的时钟测量的时间称为固有时。相对论里时间是相对的，伦敦的那口大笨钟跟我不在一个参考系，凭什么说它的走时测量的是我的时间？

想通了这点，上面的事情就好理解了：我们把哥哥和弟弟的世界线都投影到时间轴，这其实得到的是地面系的时钟测量哥哥弟弟经历的时间，这钟相等没有任何意义。我们得用地面系的时钟测量弟弟的时间，再用飞船系的时钟（也就是哥哥随身带的时钟）测量哥哥经历的时间，也就是哥哥的固有时，这样对比才行。

那么问题来了：根据时空图和世界线，我们要如何得到哥哥的固有时呢？

15世界线和固有时

在这里，我先给出这个极为重要的结论：世界线的线长等于固有时。

这句话很短，意思却很明确，他就是告诉我们时空图里那个粒子的世界线的线长就表征了粒子的固有时，也就是跟粒子一直保持相对静止的时钟测量的时间。在上面的双生子佯谬的时空图里，哥哥和弟弟的世界线都画出来了，那么我们可以求出他们的线长。现在你说世界线线长等于固有时，那我们要比较哥哥弟弟的固有时，直接比较他们的世界线线长就完了。

所以，如果我们知道上述结论，那么双生子佯谬这个问题就简化为比较哥哥和弟弟世界线的线长，谁的长一些谁经历的时间就多一些，那谁就更老，那问题就相当简单了。因此，现在问题的关键就是如何理解上面的结论：为什么在闵氏时空里世界线的线长会等于固有时呢？

这个事情我们可以这样理解：固有时是什么？固有时就是自己随身带的时钟测量的时间，说得再准确一点，那就是跟自己一直处在同一个参考系里的时钟测量的时间。因此，如果一个时钟始终跟你处在同一个参考系里，它自然觉得你一直是静止不动的。比如，在飞船里的哥哥虽然要经历加速减速运动，还可能在宇宙里各种浪，但是在飞船里的人和时钟看来，哥哥一直坐在那里没动。

那么，重点来了：时钟觉得你不动，其实是觉得你在空间里没动，也就是说觉得你在空间上的位移为零。那么，你在时空（时间+空间）里移动的间隔就将全部由你在时间上的间隔贡献（因为空间没动，间隔为0）。

什么意思？我们再来理一下时空间隔这个概念：狭义相对论统一了时间和空间，用时空图上的一个点表示发生在某个时间某个空间上的一个事件，那么两个事件肯定就表示为时空图上的两个点，那么这两个点之间的距离（闵氏距离）就是这两个事件的时空间隔。而且，我们还反复强调了，闵氏几何里的时空间隔，就跟欧式几何里的空间间隔一样，它是不会随着参考系的变化而变化的。也就是说，只要发生了两个事件，那么不管我是在地面系看，还是在飞船系看，这两个事件信息虽然不一样，但是它们的时空间隔一定是一样的。

在欧式几何里，欧式线元是dl²=dx²+dy²，所有在x轴上相隔dx，y轴上相隔dy的两个点的空间间隔，或者说空间距离也就是dl²=dx²+dy²。同样的道理，在闵氏几何里，闵氏线元是ds²=-dt²+dx²，所以，在时间上和空间上分别相差dt、dx的两个事件，它们之间的时空间隔也就是 ds²=-dt²+dx²。

我们现在想知道固有时，也就是想知道跟自己处在同一个参考系里的时钟的走时。上面我们已经分析了，在自己所处的参考系里，肯定觉得自己是静止的，也就是空间间隔dx=0。因为时空间隔是ds²=-dt²+dx²，把dx=0代入进去我们就能得到ds²=-dt²。这就是在上面说的，自己参考系里的时空间隔全部由时间间隔贡献的意思。

有了ds²=-dt²，事情就明朗了：dt就是在自己所在参考系里的时间流逝，而ds是时空间隔，也就是时空图上两点的距离。这个微分符号d就是在告诉我们这是两个间隔无穷小的事件，如果我们把许多无穷小的这种事件累积起来（也就是对ds²=-dt²做积分运算），那么dt累积起来就是时钟流逝的时间，也就是固有时；而把ds累积起来，也就是把所有相邻时空点之间的距离累积起来，那得到的就是时空图里这条世界线的长度。

这就无可辩驳的向我们证明了：世界线的长度等于固有时。

其实，只要我们理解自己相对于自己所在的参考系肯定在空间上是静止的，所以时空间隔全部由时间间隔贡献。而时空间隔就是时空图里两点的距离，这个距离累积起来就是世界线的长度，而时间间隔累积起来自然就是这个参考系里流逝的时间就行了。上面做的各种简单的计算，无非就是从数学上更加严格地证明了这一点而已。

想通了这点就会觉得其实“世界线长等于固有时”是很正常的事情，在一些相对论的教材里，他们甚至直接拿这个来定义标准钟的。也就是说，他们在教材不会向你解释为什么“世界线长等于固有时”，而是直接告诉你“只有世界线的线长等于固有时的钟才是标准钟”，才是准确的钟，否则你的钟是有问题的。可见，在大家眼里，这个结论实在是非常自然的。

16双生子佯谬之完结篇

好了，如果我们能够理解“世界线的线长等于固有时”，那么困扰大家多年的双生子佯谬就瞬间变成了一个极其简单的问题。我们再来看看双生子佯谬的时空图：

比较哥哥弟弟重逢时谁的年龄更大，就是比较他们两个的固有时，就是比较哥哥和弟弟世界线的线长。那么，他们两个的世界线谁的更长一些呢？

其实这根本都不用定量的去计算，一眼就能看出弟弟的世界线更长，因为闵氏几何里线段长度是时间和空间项的平方相减之后再开方得到的。这个求线段距离的公式我们前面也说了，其实就是闵氏线元稍微处理一下，如下图：

所以，如果两条线在时间轴上长度一样（比如哥哥和弟弟的时间都是从a到b），那么在空间上走的越多的它的总线长就越短。弟弟静止没动，他的世界线是完全平行于t轴的，在x轴上都没有任何分量，也就是Δx=0，所以他的世界线肯定是最长的。哥哥因为去太空飞了一圈，所以空间上的分量Δx>0，那最终得到的S的值肯定就比弟弟更小了。

我们可以想象一个最极端的情况，我们假设哥哥以光速运动，那么它在空间上走的距离就最大。而我们知道光子的世界线长度为0，所以这时候哥哥的世界线长度就是最小值0了，0肯定比弟弟的世界线长度更小吧。

如果大家对这种粗略的讨论不放心，我们可以换种更精确的方式讨论。如下图，我们把弟弟和哥哥的世界线用很多平行于x轴的虚线分隔开，如果我们的分割线足够多，那么在每一个小段里哥哥的世界线就可以近似看做一条斜直线，而它的线长是显然比弟弟世界线里的那一小段短的（这我们在上面已经给过结论了）。由于每一小段里哥哥的世界线都更短，那么累加起来的总世界线肯定还是更短了。

总之，大家如果理解闵氏时空的线长计算公式，我相信理解哥哥的世界线更短是非常容易的，而世界线更短就意味着自己经历的时间（固有时）更短，那么重逢时哥哥就更年轻。这样，双生子佯谬就是很明显的事情了。

于是乎，我们发现让我们头疼不已的双生子佯谬就这样被解决了。在几何语言里，复杂的双生子问题被简化到仅仅比较一下哥哥弟弟两条世界线的线长就行了，而只要我们理解在闵氏几何里计算线长要用闵氏几何的方式（ds²=-dt²+dx²）去度量就没什么问题了。其实，你也不用觉得奇怪，把代数问题几何化之后带来问题难度的大幅度降低并不是什么奇怪的事情，我们在初中高中的数学里，不也经常借助画图去理解函数、方程的性质么？

这样处理问题简单是简单了，但是细心的人还是会有疑虑，他觉得：虽然你在这个以地面为基准系的时空图里确实严格地证明了哥哥的世界线更短，所以回来的时候更年轻。但是我如果不以地面系为基准系呢？我在其他的参考系里来看，来画时空图，比如我要是站在哥哥飞船的视角来画时空图，那结果会不会又不一样呢？因为说到底，大家觉得双生子佯谬难以理解，就是因为你可以站在弟弟的角度，也可以站在哥哥的角度，这样一相对就没完没了了。

这在以前的思维里确实是大问题，但是，在几何语言里这确不是问题。为什么呢？因为线长是一个几何量，这种几何量是不会随着坐标系的变化而变化的（因为它们是根据线元定义的，而线元在不同的坐标系里都是一样的），也就是跟坐标系的选择无关。这一点我们在二维欧式几何里也可以非常清楚地感觉到：你在二维欧式平面里有一条线段，那么这条线段的长度就是固定的。不管你是上下左右的移动这个直角坐标系，还是顺时针逆时针旋转这个直角坐标系，线段的长度始终都是一样的，这一点相信大家不难理解。

那么，同样的，在闵氏几何里，不论你选择哪个惯性系作为基准系，一条世界线的线长都是一样的。也就是说只要哥哥的世界线在一个参考系里比弟弟的世界线短，那么再所有的惯性参考系里都比弟弟的世界线短。这就跟在欧式几何里一根木棒只要在一个直角坐标系里比另一根木棒长，它在所有的直角坐标系里都比那根木棒长一样的道理。

其实，我们再仔细想一下，当初我们为什么选择闵氏几何来描述狭义相对论？不就是因为我们发现了在洛伦兹变换下，也就是在惯性参考系之间不论怎么相互转换，ds²=-dt²+dx²作为一个整体它的值是不变的么？然后我们以ds²=-dt²+dx²为线元建立了闵氏几何，而在闵氏几何里曲线的长度就是根据这个线元来定义的。所以，世界线的长度在闵氏几何不同的参考系里肯定就是一样的，我们也压根没必要舍近求远，去选择更复杂的参考系给自己找不痛快。

这样，我们就能消除那个疑惑，放心大胆的说哥哥的世界线更短了。于是，用闵氏几何讨论双生子佯谬的问题就全部结束了。其实，只要把几个关键的弯转过来，你就会发现双生子佯谬其实是非常简单的一个问题，它完全不值得我们花费那么多的时间精力在这里绕来绕去（这个问题跟薛定谔的猫在社群里并称两大月经问题），但是不使用几何语言，这好像也是没办法的事，太复杂了。相对论还有非常多精彩的东西等着我们去探索发现，在双生子这棵小树上把自己吊死了岂不可惜？闵氏几何虽然看上去有点怪异，但是当我们顺着思路慢慢看的时候，就会发现它其实也没那么奇怪，它不过就是在欧式线元的前面加了一个负号而已，其他的逻辑跟欧式几何都几乎是一模一样的。

17结语

文章到这就先告一段落，能够坚持看到这里的那妥妥的都是真爱了。我写这篇文章主要是想让更多人了解闵氏几何，了解闵氏几何是如何处理狭义相对论里的问题的，最好是让读者能开始习惯用几何语言讨论相对论问题。

所以我不能直接给你下定义，然后告诉你如何用闵氏几何处理这个那个问题，因为这样很多人会不服气，凭什么相对论的问题可以转化成这样的几何问题？为什么闵氏几何里的这个就对应了相对论里的那个问题？因为闵氏几何并没有那么直观，你把狭义相对论翻译到闵氏几何并不像我们把一个图形画到黑板上那么显而易见，所以我必须先把自己的知识清空，从头从零一点点的开始讲，让大家自然的切换到闵氏几何中来。于是，文章就不可避免的长了起来。

另一方面，我这只是科普性质的文章，重点是想让大家了解闵氏几何处理狭义相对论问题的核心思想，因此，我不会像教科书一样把各个概念和术语都写出来。相反，为了降低大家理解的难度，能不用术语的地方我尽量不用术语，能不写公式的地方尽量不写公式，我这真的只是一个闵氏几何的入门篇。大家如果想更全面深入的了解相关内容，可以去找专业的闵氏几何和相对论的教材，这里我还是推荐北京师范大学梁灿彬老师的《从零学相对论》（入门篇）和《微分几何入门与广义相对论》（高级篇），需要这两本书的电子版和配套教学视频的，可以在后台回复“梁灿彬”或者“梁老师”。把我这篇文章看懂了，再去看《从零学相对论》应该会很容易，更深入的问题我们后面再说。

最后，长尾君希望大家能和闵氏几何搞好关系，毕竟后面还有更多更精彩的话题都指着它呢~

相关文章：双生子佯谬的分析全过程

收起阅读 »

相对论前夜：牛顿和麦克斯韦的战争

狭义相对论相对论

为了给狭义相对论作铺垫，我专门写了三篇麦克斯韦方程组的文章，为了让中小学生能更好理解麦克斯韦方程组，我又补了一篇微积分，现在终于可以正式谈狭义相对论了。为什么讲狭义相对论要先讲电磁理论呢？爱因斯坦发表狭义相对论的论文叫《论动体的电动力学》，一般电动力学教材的...

继续阅读 »

为了给狭义相对论作铺垫，我专门写了三篇麦克斯韦方程组的文章，为了让中小学生能更好理解麦克斯韦方程组，我又补了一篇微积分，现在终于可以正式谈狭义相对论了。

为什么讲狭义相对论要先讲电磁理论呢？

爱因斯坦发表狭义相对论的论文叫《论动体的电动力学》，一般电动力学教材的最后一章也会讲狭义相对论。这一来一去，你就知道它们的关系不一般了。

那这跟牛顿又有什么关系呢？

牛顿建立了上知天文下知地理的力学体系，日月星辰、潮起潮落都遵循他的定律，这是第一次工业革命的基石；麦克斯韦方程组则包含了一切经典电磁学的东西，还发现了电磁波，这是第二次工业革命的基础。

牛顿和麦克斯韦的理论在各自领域都获得了巨大的成功，是经典物理学的两座丰碑。但是，如果你试图把它们融合在一起，用统一的目光看待它们，立马就会出现不可调和的矛盾。

为了解决这些矛盾，爱因斯坦进行了艰苦卓绝的探索，并最终创立了狭义相对论。

这种处境，很像现在的广义相对论和量子力学。

当我们使用广义相对论处理引力，处理恒星和宇宙的演化时非常好用（可以忽略量子效应），当我们使用量子力学处理电磁力、强力、弱力时也非常好用（引力太弱，可以忽略）。

但是，当我们碰到那些又重又小的东西，无法忽略引力和量子效应中的任何一个的时候（比如黑洞和宇宙初期的奇点），就必须结合广义相对论和量子力学，这一结合就出大问题了。

广义相对论和量子力学的不兼容是当今物理学一等一的大事，这种情况跟百年前牛顿力学与麦克斯韦电磁学的不兼容很相似。两种理论能够在各自领域工作良好，就证明它们至少包含了某种正确性，而一结合就出问题，说明我们还是忽略了某些关键的东西。

那么，牛顿力学和麦克斯韦电磁学之间的矛盾是什么？为什么它们无法兼容？有什么关键的东西被忽略了，爱因斯坦又是如何发现的？为什么是年轻的爱因斯坦先发现了这个，而那些大物理学家们却老是差那么一点？

类似的，广义相对论和量子力学之间的矛盾又是什么？它们之间被忽略的关键东西又是啥？爱因斯坦统一牛顿力学和麦克斯韦电磁学的工作对我们统一广义相对论和量子力学又有什么启发？

学习历史是为了更好地把握未来，科学也一样。在下面的文章里，我会把尽力历史说清楚，现在和未来的问题，就交给你来慢慢琢磨了~

好，下面进入正题。

01日心说的困境

为了让大家更清楚地了解牛顿和麦克斯韦这两位大神的战争，我们先把时间往前推两千年。没错，又来到了古希腊。

提到日心说，绝大部分人立马就会想到哥白尼，甚至直接把日心说和哥白尼画上等号。但是，如果你去翻翻历史，就会发现早在公元前3世纪，一个叫阿利斯塔克的人就提出了日心说，这比哥白尼早了足足一千八百年。

阿利斯塔克被称为古希腊第一个著名的天文学家，他用数学计算出太阳的半径比地球大很多（虽然不够精确）。所以，他认为是太阳在宇宙中心，地球围着太阳转，地球自转一圈为一天，地球围着太阳公转一圈为一年。

这是一个很强的论证，如果太阳真的比地球大很多，我们当然更倾向于认为是小地球围着大太阳转。此外，他还发明了一些方法去测量太阳、月亮和地球之间距离的比值。

虽然受限于条件，他当时没法测得很准，但是随着时间的推移，这些数据肯定是会越来越精确的，那得到的结果也应该越来越支持阿利斯塔克的日心说。

但是，后面的结果我们都知道了。400年后，古代欧洲最伟大的天文学家托勒密在构建他的天文体系时采用的是地心说，而不是日心说，为什么？

抛开教会支持地心说不谈，托勒密作为一位杰出的科学家，他为什么最终选择了地心说，而不是看起来很合理的日心说呢？

具体的原因有很多，但其中有一条影响非常大，绝对不容忽视，甚至可以说是击中了当时日心说死穴的原因：如果地球真的在高速转动，那为什么我们跳起来后会落回原地，而没有被甩出去？为什么天上的云不会被吹向一边？

这个问题放到现在当然很简单，一个初中生都可以自豪地甩出“惯性”送给你。但是在当时，或者说在伽利略以前，这都是巨大的科学难题。

当我们在说惯性的时候，我们其实已经默认了伽利略-牛顿的运动观，认为“力是改变物体运动的原因，而不是维持运动的原因”。

但伽利略之前的人并不知道这些，他们认为运动是需要力来维持的。你跳起来之后没有力了，但是依然能落回原地，那就只能说明地球是静止的。

于是，托勒密就理所当然地拒绝了日心说！

02相对性原理

解决这个问题的人是伽利略。

伽利略想，这里的核心问题就是要解释“为什么地球在动，但是我却感觉不到地球在动？”。这个问题并不难，地球太大了不好说，我们先来看看我们熟悉的船。

假设在一个平静的湖面上有一艘匀速直线行驶的大船。我把所有的窗户都关上，让乘客看不到外面的景象。那么，乘客能根据船舱里的情况分辨出这艘船是静止还是匀速直线运动的么？

答案是不能！

你可以在船舱里做各种实验：你可以跳起来，然后发现自己会落回原地；你去看鱼缸的鱼，发现鱼依然均匀地分布在鱼缸的各个部分，并不会挤向船尾的方向；你可以跟朋友正常地玩篮球，而不用担心篮球会往后窜。

总之，大家可以想象，你在这个匀速行驶（一定要是匀速，加速的话就能明显感觉到不一样了）的船舱里做的一切力学实验，都应该跟在静止的船舱里没有任何区别。

也就是说，我们根本无法通过力学实验区分这艘船是静止的还是匀速直线运动的，这就是伽利略的相对性原理。

相对性原理告诉我们，一个静止和匀速直线运动的参考系是完全等价的。我们无法通过力学实验区分二者，这也非常符合我们的生活经验。

飞机在天上平稳飞行的时候，你可以在飞机里看书、写作，就像在家里一样。如果不看窗外的景象，你也很难区分飞机是在飞行途中还是静止在机场。一座在匀速上升或者下降的电梯，你会感觉它跟没动一样，只有电梯在加速减速的时候，你会发现明显的不同。

其它例子我就不多举了，相信大家只要稍微想一想，就会明白相对性原理其实是非常自然的。

有了相对性原理，日心说的困境就迎刃而解了，为什么？

因为我完全可以认为地球就是这样一艘大船（大飞机），它非常均匀的运动。所以，你根本就不能通过“跳起来会落回原地”这个事实来证明地球是静止还是运动。静止的地球会有这样的结果，匀速运动的地球一样会有这样的结果。因此，就算我支持日心说，认为地球在高速转动，这个事实也不会跟日心说发生冲突了。

于是，攻击日心说最锋利的武器瞬间就变成了一堆废铁。有了伽利略的这波神助攻，哥白尼的日心说才没有在这里翻车。

03惯性系

好，现在我们知道了：静止和匀速直线运动的参考系等价的，或者说惯性系都是等价的。

什么是惯性系？

惯性系的定义是个比较麻烦的问题，有些书用“满足牛顿第一定律的参考系”来定义惯性系。也就是说，如果一个物体在不受外力（或者合外力为零）的情况下能保持静止或者匀速直线运动，那它所在的参考系就是惯性系。因此，牛顿第一定律又叫惯性定律。

但是，如果深究一下，你就会发现这里出现了循环定义，因为什么叫不受外力？你想来想去，最后只能用“在惯性系里保持静止或者匀速直线运动”来定义不受外力。

这样，你定义惯性系需要依赖不受外力这个概念，定义不受外力又要依赖惯性系，这就是典型的循环定义了，这在逻辑上是不允许的。

不过，虽然逻辑上有点问题，但日常使用起来还是很方便的。你把一个篮球放在地面上，这个篮球静止不动，所以地面系就可以看作一个惯性系；你把这个篮球放在一辆加速的汽车上，篮球会向车尾滚动，所以加速的汽车系不是惯性系。

关于惯性系的定义，这里就不做深入讨论了。如果大家感兴趣，后面我可以专门写文章讨论这个麻烦的问题。

在这里，我们只要知道地面系可以近似看作惯性系，而且，如果一个参考系相对某个惯性系做匀速直线运动（比如一辆匀速运动的火车），那么这个参考系也是惯性系就行了。

有了惯性系的概念，伽利略的相对性原理就可以简单的说成“力学实验对所有的惯性系都平权”，或者说“我们无法通过任何力学实验来区分两个惯性系”，就不用老是重复说静止和匀速直线运动了。

毕竟，你在地面上觉得地面静止，火车在匀速运动；你在火车上，又会觉得火车静止，地面上的东西在匀速运动。静止和运动是个相对的概念，它取决于你如何选择参考系。

所以，执着于区分静止和匀速直线运动是没啥意义的，我们只要把握住它们（地面系和火车系）都是惯性系，而力学实验无法区分惯性系就行了。

好，我们现在知道了相对性原理要求力学实验对所有的惯性系都平权，而力学实验是由对应的力学定律来描述的。那么，相对性原理会对这些力学定律做出什么样的要求呢？

想找到答案，我们需要对相对性原理做更深层次的剖析。

04从实验到定律

假设现在有地面系和火车系两个惯性系，火车相对地面作匀速直线运动。

当我们说力学实验无法区分地面系和火车系的时候，我们是在说：我在火车里抛球也好，跳远也好，做的各种力学实验跟在地面上的感觉都是一样的。

你在地面上能跳多远，在火车上就能跳多远；你在地面上从1米高的地方放一个小球，这个小球经过多长时间着地，在火车上小球也会经过同样的时间着地。

你觉得不管在地面还是火车，1米高的小球都会经过相同的时间落地，所以我无法通过这个区分地面系和火车系。但是，这个下落时间，我们是可以通过力学定律精确算出来的。

比如，我们使用牛顿力学（当然你也可以用其它的理论，比如广义相对论）的自由落体运动公式，很快就能算出这个下落时间大概是0.45秒。

也就是说，你在地面系使用牛顿运动定律计算小球下落，得到的时间是0.45秒；在火车系依然使用这个公式计算，得到的结果依然还是0.45秒。

正因为你在地面系和火车系计算的时间都一样（废话，一样的公式，一样的已知条件，结果不一样才见鬼了~），你才会无法区分这两个惯性系。

不过，不知道你意识到了没有，你在这个过程中使用了一个可能连你自己都没有意识到的假定。正是这个假定，保证了你在地面系和火车系的计算结果都一样，保证了你无法区分这两个惯性系，保证了相对性原理。

这个假定就是：你默认牛顿运动定律不管在地面系还是火车系都是长这样的，你用来计算小球下落的数学公式，不管在地面系还是火车系都一样。

正因为你在地面和火车使用的都是这个公式（H=gt²/2），所以算出来的时间才会一样。你想想，如果你在地面系用H=gt²/2去算，在火车系用H=gt²/3去算，那结果还能一样么？

我知道，肯定有些人觉得我这是废话。牛顿运动定律只此一家，别无分店，怎么可能一个公式在地面系长这样，在火车系长那样呢？

我们学习自由落体运动的时候，老师也只讲了这一个公式，不管地面系还是火车系，你用得用它，不用还得用它，因为你压根就没有别的选择。

对对对，你说的都对，所以我才说很多人平常都不会意识到这个事情。

但是，你不得不承认这个问题确实是存在的。而且，正因为牛顿运动定律在地面系和火车系的数学形式一样，你才无法区分地面系和火车系，才会符合相对性原理。更重要的是，这并不是一件多么理所当然的事。

你觉得物理定律的数学形式在不同的惯性系里就必须长一样么？不不不，你有严格地证明么？你只不过觉得应该是这样的，然后就默认这样用了，而牛顿力学刚好满足这个条件罢了。

我完全可以认为某些定律只能在某些特殊的惯性系里使用，在其它的惯性系里使用就是错误的。这样，在不同的惯性系里使用定律的数学形式就不一样了，那么你就能区分这两个惯性系了，这也就意味着相对性原理不再成立。

所以，物理定律的数学形式在不同惯性系里是否一样，要看它是否满足相对性原理。这绝不是理所当然，天生就成立的。

也就是说，从实验的角度来看，相对性原理要求力学实验对所有的惯性系平权。你不管在哪个惯性系里做力学实验，你的感觉应该都是一样的，这样才无法区分这两个惯性系，它们才平权。

从定律的角度来看，相对性原理要求力学定律在所有惯性系的数学形式都一样。因为只有定律的数学形式一样，它在不同惯性系计算的结果才一样，这样才能“欺骗”你的感觉，让你无法分辨出在哪个惯性系，这样惯性系才平权。

从实验到定律，这两种表述是等价的，都是相对性原理的体现。

那么，牛顿力学是否满足相对性原理呢？应该是满足的。不然你在火车、飞机上使用了这么久的牛顿运动定律怎么一直没有出错呢？那要如何证明？如何证明牛顿运动定律的数学形式在所有的惯性系里都一样？

以前我们可能不知道有这回事，拿着牛顿的定律在地面系、火车系、飞机系随便就用。现在知道了，那就肯定要找一找这么做的合法性依据在哪，不能再继续这样耍流氓下去了。

以牛顿第二定律F=ma为例，假设它在地面系是这样的，那我要怎么证明它在火车系还是这样的呢？

你会发现我们需要一个桥梁，一个沟通地面系和火车系的桥梁，一个能把牛顿第二定律从地面系变换到火车系的桥梁。看看我们把F=ma变换到火车系之后，它的数学形式到底还是不是这样。

那地面系和火车系之间有没有桥梁呢？当然有，因为它们本身就有关系。

火车在地面上以一定的速度匀速运动，同一个事件，地面系把它的信息记录了一份，火车系也把它的信息记录了一份，这两者肯定是有某种关系的。

我们要做的，就是把这种变换关系找出来，把这两个惯性系之间的关系找出来，然后再看看牛顿力学的定律在这种变换下的数学形式是否发生改变。

那么，这到底是什么样的一种变换呢？

05伽利略变换

牛顿力学非常符合常识，所以这种变换应该也是符合常识的，我们不妨先来猜一猜。

假设我们在地面系S建立一个坐标系（x,y,z,t），有一辆火车以速度v（沿x轴正方向）匀速运动，我们在火车系S’里也建一个坐标系（x’,y’,z’,t’）。为了简化问题，我们让这两个坐标系一开始是重合的。

对于任何发生的事件，地面系和火车系都会记录下事件发时空信息（x,y,z记录空间信息，t记录时间信息）。我们想要知道的就是：这两套坐标系记录的时空信息之间有什么关系？

先看时间。

假如火车上有一个小球开始下落，火车上的时钟记录的时间为八点，那地面上的时钟会觉得是几点呢？不要笑，我不是在逗你玩，我是在讨论一件很严肃的事情~

你可能会觉得这还需要讨论么？

火车上的时钟记录的时间是早上八点，地面的钟只要没坏，不考虑什么时区的问题，它当然也是早上八点。

不仅如此，所有的钟记录的时间应该都是一样的，这是生活常识。我们宣布奥运会什么时候举行，只需要对外公布一个时间。不会说北京时间什么时候，上海时间什么时候，更不会说高铁时间什么时候，因为我们默认大家都共用一个时间：同一个世界，同一个时间。

没错，这种认为是非常有道理的，也非常符合我们的常识。

我不会说你这种想法是对还是错，我只能说这代表了你对时空的一种看法，这是你的一种时空观。在这种时空观下，时间是绝对的，独一无二的，所有人都共用同一个时间。

也就是说，如果你认同这种绝对的时间观，那么火车系测量时间t’和地面系测量时间t就应该永远都是相等的，即t’=t。

到后面我们会发现，这个问题绝不是你想象的这么简单，它背后大有学问。越是符合常识，越是平凡的东西，想要发现它的不平凡就越不容易。

好，接下来看空间。

地面系和火车系的三个空间坐标x,y,z应该满足什么关系呢？因为火车只沿着x轴运动，所以，你在地面系和火车系测量的y和z的值应该也是一样的（即y’=y,z’=z），唯一不同的就是x了。

这个关系也不难，大家琢磨一下就能得到这个结果：x'=x-vt。

也就是说，如果地面系测量的横坐标是x，你用这个x减去vt（火车的速度v乘以时间t），就能得到火车系下测量的横坐标x’。

你可以自己比划一下，假如你在火车系的原点处放一个小球，那么这个小球在火车系的横坐标x’就永远等于0（x’=0）。火车的速度乘以时间vt刚好就是地面系测量的它的位移x，这代入（0=x-vt）进去刚刚好。

如果小球不在原点，不难验证它们的横坐标依然满足这个关系。于是，我们就找到了两个惯性系之间的坐标变换关系：

如果我在地面系S观测到一个事件的时空坐标为（x,y,z,t），通过上面的坐标变换公式就能求出它在速度为v的火车系S’上的坐标（x’,y’,z’,t’），这样我们就找到了联系两个惯性系之间的一座桥梁。

回想一下，这种变换之所以能成立，是因为我们假设时间是绝对的（t’=t，它在所有参考系里都是一样的），空间像一个坚固的大盒子，无法被压缩。在这种绝对的时空观下，我们推出了两个惯性系之间的坐标变换关系，这个变换就叫伽利略变换。

06牛顿力学与伽利略变换

而牛顿力学也是绝对的时空观，牛顿在《自然哲学的数学原理》的一开头就写到：绝对的、真实的、数学的时间，由其特性决定，自身均匀的流逝，与一切外在事物无关；绝对空间自身的特性与一切外在事物无关，处处均匀，永不移动。

既然牛顿力学是绝对的时空观，而我们从绝对时空观里又自然地推导出了伽利略变换。那么，不难想象，在牛顿力学里联系两个惯性系的坐标变换应该就是伽利略变换。

也就是说，如果牛顿力学满足相对性原理，那么牛顿力学的所有定律就应该在伽利略变换下保持数学形式不变。

如果一个定律在地面系是A=BC，这几个量经过伽利略变换后变成了火车系的A’、B’和C’，那么它们还应该满足A’=B’C’，这样才叫数学形式没变。

我们说牛顿力学的定律形式不变，并不是说它什么都不变。物理量A、B、C经过伽利略变换之后变成了A’、B’、C’，那肯定跟以前的量不一样了。但是，你一个量变了，大家协同着一起变，最后总的数学形式依然保持A’=B’C’这个样子，这才是牛顿力学的所有定律在伽利略变换下保持形式不变的真正意思。

因此，我们也可以说牛顿运动定律具有伽利略协变性，或者伽利略不变性（在伽利略变换下所有物理量都协同变换，但是总的形式保持不变），用协变性、不变性大家可能更容易理解一些。

这段逻辑大家一定要好好理清楚，只有把这段彻底搞清楚了，才算真正明白了相对性原理。

为了让大家更深刻地理解“牛顿运动定律具有伽利略不变性”，我们来看一个具体的例子，看看大名鼎鼎的牛顿第二定律（F=ma）是如何具有伽利略不变性的。

07牛顿第二定律

牛顿第二定律说一个物体受到的合外力F等于这个物体的质量m乘以加速度a（F=ma），那我们就来分别考察一下这三个量在地面系和火车系的情况。

先说质量m，质量是一个不变量。不变量就说它是不随参考系的变化而变化的，你在地面系测的值是多少，在火车系就还是多少。

这个比较容易理解，质量是物体的一个内在属性，它怎么可能随着参考系的变化而变化呢？比如你去查电子的质量，那就是一个具体的数字（9.10956×10^-31kg千克），白纸黑字地写在那里，是不会随参考系的变化而变化的。

在牛顿力学里，除了质量m，力F也是一个不变量。这就是说，对地面系和火车系来说有m’=m，F’=F，那问题的关键就是看加速度a’和a了。

地面系和火车系的加速度有什么关系呢？

我们可以这样看，加速度是单位时间内速度的变化，速度是单位时间内位移的变化，而火车系S’和地面系S的位移关系是伽利略变换直接给出的（x’=x-vt）。那么，我们把位移关系的两边同时除以两次单位时间，不就能得到加速度a’和a的关系了么（用微积分说就是对时间求两次导数）？

好，火车系的速度是u’=s‘/t’，地面系的速度是u=s/t，我们把x’=x-vt的两边都除以时间（因为伽利略变换里t=t’，所以两边可以分别除），然后对应的速度关系就简单了（因为火车只沿x轴方向的运动，所以x和位移s是相等的，写成s’=s-vt也没问题）：

推导很简单，得到的结果u’=u-v就是我们熟悉的速度合成法则，也就是说这两个惯性系测量的速度相差一个速度v，符合题意，没毛病。

好，有了速度关系u’=u-v，我们两边再同时除以一次单位时间，就能得到加速度a’和a的关系：

因为速度v是参考系的相对速度，是一个不随时间变化的常数，所以它在单位时间的变化量就是0，于是就对加速度就没有影响了。所以，我们就得到了a’=a，也就是说火车系的加速度a’等于地面系的加速度a。

这样，我们就发现地面系和火车系的力F、质量m和加速度a都是相等的（F’=F，m’=m， a’=a）。那么，如果牛顿第二定律在地面系长F=ma这样，经过伽利略变换之后的F’、m’、a’就依然可以满足F’=m’a’。

这就意味着牛顿第二定律的数学形式在伽利略变换前后保持不变，因此它具有伽利略不变性，证毕。

当然，不只是牛顿第二定律，牛顿力学的所有定律都具有伽利略不变性，你可以仿照我这个思路去验证一下。

08绝对时空观

好，到了这里，我帮大家把前面的思路理一下：伽利略为了给日心说做辩护，从生活经验和实验中提炼出来了相对性原理。

它告诉我们，无法通过力学实验区分静止和匀速直线运动的参考系，所有的惯性系都是平权的，没有谁更特殊。

力学实验由对应的力学定律（比如牛顿运动定律）来描述，如果一套理论满足相对性原理，那么它的数学形式就应该在所有的惯性系里保持一样。

为了验证一个定律在不同的惯性系的数学形式是否一样，我们就需要找到联系两个惯性系的桥梁，这就是坐标变换。而变换并不是天然存在的，不同惯性系下的物理量之间有什么关系，这严重依赖于你的时空观。

比如，你觉得所有惯性系测量的时间都是一样的吗？如果你回答是，那就说明你认为时间是绝对的，认为全世界的观察者都共用一个时钟。你觉得空间是像一个坚固的大房子，还是像一块可以被压缩拉伸的海绵？不同的回答就意味着对空间的不同理解。

不难想象，对时间和空间的不同理解，必然会导致不同的变换。

牛顿力学是绝对的时空观，它认为时间均匀流逝，与一切外在事物无关；空间处处均匀，永不移动。这种绝对时空观对应的变换就是伽利略变换，而牛顿力学的所有定律在伽利略变换下能够保持数学形式不变，所以牛顿力学满足相对性原理。

在绝对时空的大背景下，牛顿力学和伽利略变换配合得天衣无缝。它们能解释苹果下落，气球上升，能解释潮起潮落，也能解释日月星辰的轨道。力学取得了空前的成功，牛顿直接封神。

后来，人们把这种力学思想运用到热现象里去，把宏观的热现象还原成了微观分子间的相互作用，建立了热力学，一样获得了巨大的成功。

但是，当人们把研究对象转向电磁领域的时候，上帝的天平不再偏向牛顿和伽利略，电磁定律把他们组建的世界冲得七零八落。

大家都知道经典电磁领域的集大成者是麦克斯韦方程组，为了给这篇文章做准备，我前面专门写了三篇麦克斯韦方程组的入门文章（积分篇、微分篇和电磁波篇），这里就不再详述了。

电磁理论，或者说麦克斯韦方程组有什么问题呢？

09电磁理论的挑战

用一句话说就是：电磁定律不再满足伽利略变换，麦克斯韦方程组不具有伽利略不变性。

也就是说，麦克斯韦方程组长这样：

如果我们用伽利略变换把方程组的各个物理量都映射到另一个惯性系S’里，那么，在S’系下的新物理量将不再满足上面这种关系。

这跟牛顿第二定律完全不一样。上面我们已经验证了，我们把牛顿第二定律F=ma用伽利略变换从一个惯性系映射到另一个惯性系，新系下的F’、m’、a’依然能组成牛顿第二定律F’=m’a’，而麦克斯韦方程组办不到。

麦克斯韦方程组不具有伽利略不变性，这个事情既不需要实验验证，也不需要什么额外的假设。因为方程组就长这样，伽利略变换也是明确给出的，你判断麦克斯韦方程组是否具有伽利略不变性，这是一个纯粹的数学问题。你一通计算之后，它满足就满足，不满足就是不满足，没有讨价还价的余地。

所以，面对麦克斯韦方程组不具有伽利略不变性这个既定事实，我们要考虑的是：为什么会这样？

牛顿力学满足相对性原理，它用代表绝对时空观的伽利略变换与之适配。

现在麦克斯韦方程组跟伽利略变换不适配，那么就应该有两种可能：第一，麦克斯韦方程组根本就不满足相对性原理；第二，麦克斯韦方程组虽然满足相对性原理，但是与之适配的变换并不是伽利略变换。

那么到底是哪一种情况呢？我们来逐一分析下这两种可能性。

10第一种可能

如果是第一种，也就是认为麦克斯韦方程组不满足相对性原理，那是什么意思呢？

不满足相对性原理，就是说麦克斯韦方程组的数学形式并不是在所有的惯性系里都一样，它可能只在某个惯性系长这样，在其它的惯性系里就不是这样的了。假如麦克斯韦方程组在地面系是这样的，那么你可以在地面用它处理电磁现象，在火车系就不行了。

你可能觉得这太荒谬了，怎么可能我在火车上就不能使用麦克斯韦方程组了呢？难道火车上的电磁现象就不满足这些规律？如果法拉第在火车上做实验，会得出与实验室里完全不一样的电磁定律出来么？

荒谬归荒谬，但是如果你认为麦克斯韦方程组不满足相对性原理，结果就是这样。

当然，如果你认为麦克斯韦方程组在火车系不能用，那么我们也没有理由认为它在地面系就能用。因为地球只不过是宇宙里极其平常的一个星球，如果麦克斯韦方程组只在一个参考系中成立，那凭什么是地面系？太阳系可不可以？火星系可不可以？

所以，如果你非要认为麦克斯韦方程组不满足相对性原理，它只在一个参考系适用。那么，我们就只能选择一个在宇宙范围内看起来非常特殊的参考系，那这个参考系是什么呢？

很容易想到，如果我们秉持牛顿-伽利略的绝对时空观，把整个空间都看作一个坚固的大房子，那么这个房子本身所在的参考系毫无疑问就是那个最特殊的参考系。

另一方面，麦克斯韦方程组认为光是一种电磁波，传统的波动说认为只要是波那就一定有介质，没有介质波怎么传播呢？水波的介质就是水，声波的介质就是空气，没有水自然就没有水波，在真空里也听不到声音。

而光是一种电磁波，那么我们自然也需要一种能够传递电磁波的介质。

于是，我们会发现，要让假设成立，我们需要一个空间这个大房子本身所在的特殊参考系，这个参考系还要能够作为传播电磁波的介质。由于光可以在真空中传播，我们在宇宙的各个方向都能看到光，所以这种介质还应该遍布宇宙。

所以，大家就假设有一种铺满宇宙的东西，它既是那个最特殊的参考系，也是电磁波的介质，它的名字就叫以太。

大家可以发现，如果我们假设麦克斯韦方程组不满足相对性原理，那以太的出现几乎就是必然的，而且还跟我们熟悉的绝对时空观不冲突，多好！

这样处理的代价似乎是最小的，麦克斯韦本人接受的也是这样的观念。

也就是认为宇宙中充满了轻盈的以太，光通过以太传播，麦克斯韦方程组只能在以太系中成立，在其他参考系里不成立，所以它不满足伽利略变换也是说得过去的。

那么，为什么我们在地球上使用麦克斯韦方程组却没有出错呢？难道这么巧，地球所在的参考系刚好就是以太系？或者说，地球因为某种原因带着以太一起运动？不能够吧，这也太巧了，比你在1998年去杭州跟一个叫马云的人拜了把子的概率还小。

所以，物理学家们就只能拼了命的去寻找以太。如果地球真的“浸泡”在以太池里，那么地球自转的时候多多少少会产生一些“以太风”，只要实验设计得足够精巧，我们理论上是能找到它的。

然而，实验并没有找到任何以太风，事情就这样尴尬地僵住了。

11第二种可能

这样，第一种情况就分析完了，我们再来看看第二种情况。

也就是我们认为麦克斯韦方程组依然满足相对性原理，只不过，与之适配的变换并不是伽利略变换。

为什么我们要考虑第二种情况呢？是因为第一种情况会导致以太，但是大家死活都找不到以太，所以转向第二种么？

是，也不是！

大家找不到以太，当然会慢慢降低第一种可能性的威信，于是转而考虑第二种是可以理解的。但是，这个原因并没有那么重要，因为你找不到以太，大家还可以给你解释为什么你找不到以太（参见洛伦兹的操作，他用长度收缩来解释为什么我们观测不到以太风），不会轻易放弃，转而“投敌”的。

为什么要考虑第二种情况，因为第二种情况本身就很值得考虑。

相对性原理是个多么美妙的原理啊，伽利略当年就是凭着它给日心说翻盘的。牛顿力学的大获成功，就已经证明了相对性原理在力学领域是非常正确的，那凭什么到了电磁领域就不正确了呢？

在一个匀速直线运动的船舱里，我无法通过力学实验分辨出这艘船到底是静止还是匀速运动，难道通过电磁实验就能够区分了？

难道在匀速直线运动的船舱里，我们的电磁定律都不一样，那么我们使用的各种电气电子设备岂不是都要出问题了？如果我们的手机在运动的火车里不能用，你觉得这可能吗？

如果你坚持认为电磁定律不满足相对性原理，那么，上帝除了要制造一个特殊的以太参考系，还要让有的定律（力学定律）满足相对性原理，有的定律（电磁定律）不满足相对性原理，他不嫌麻烦么？他制造了这样一个又复杂又不美的体系，他妈妈知道么？

很多物理学家对物理定律的简单和美都有一种执着的追求，爱因斯坦、狄拉克、杨振宁都是这样，而相对性原理就是这样一条又简单又美的原理。

所以，不管是从美学考虑，还是从哲学考虑，让电磁定律放弃相对性原理都是让人很难接受的一件事。更何况，你根本没有任何实验证据，那就更可疑了。

近代物理学的发展，就是一部人类特权的消亡史。最开始你认为地球是宇宙中心，结果发现地球只不过是太阳系的一颗普通行星；你以为太阳是中心，结果发现银河系里有无数个太阳系；当你准备站银河系的时候，大量河外星系被发现了。当你准备退一万步，说起码这个宇宙是唯一的吧，结果很多理论都指向了各种版本的平行宇宙。

你以为你很特殊，结果物理学一次次告诉你：你一点也不特殊，上帝好像也没有倒腾什么特殊的东西。

既然这样，既然上帝这么公平公正，为什么我们要相信他预设了一个特殊的参考系呢？为什么他会对电磁定律开特殊的后门呢？相对性原理说大家都绝对公平，所有的惯性系都一样，这很符合近代物理的精神啊。

所以，我们也有充分的理由认为麦克斯韦方程组也是服从相对性原理的。

如果麦克斯韦方程组服从相对性原理，而它却不具有伽利略不变性，那我们就只能认为跟麦克斯韦方程组适配的变换并不是伽利略变换了，这又意味着什么呢？

12新的时空观

前面我也说了，伽利略变换是绝对时空观的体现，只要你假设大家都共用一个时间，认为空间就像坚固的大房子那样，那么惯性系之间的变换关系就是伽利略变换。

如果你认为麦克斯韦方程组不满足伽利略变换，那这就是在挑战绝对的时空观，这就是翻天的大事了。

所以，一般人根本就不敢往这方面想。虽然大家都认为相对性原理很美妙，觉得如果电磁理论也满足相对性原理，那当然是非常不错的事情。

但是，当他们继续往前走，发现这会跟绝对时空观发生冲突时，他们就立马起身告辞，表示下次一定支持相对性原理，然后就继续寻找以太去了。

为什么当相对性原理跟时空观发生冲突时，绝大部分人都立马抛弃了看起来很美的相对性原理，而选择坚守时空观呢？

这个其实也很容易理解。首先，很多人压根就没意识到有时空观这个问题。当他们发现如果让麦克斯韦方程组满足相对性原理，就会出现一些“荒谬”结论的时候，他们就觉得这是一条死路，这是方向错了，不予考虑。

然后，有极少数非常优秀的科学家会意识到这个问题。他们会隐隐约约地感觉到：“麦克斯韦方程组没问题，相对性原理也没问题，那是不是牛顿-伽利略的绝对时空观有什么问题？时间和空间是不是有可能并不是这样的？”

但是，光怀疑是不够的，你说绝对时空观可能不对，那么正确的时空观是什么？如何在全新的时空观里建立全新的物理学？摧毁旧世界是容易的，难的是如何建立新世界。

最后，只有一个年轻的科学家敢于完全抛弃绝对的时空观，并且在全新的时空观下建立了全新的物理学，彻底跟旧世界决裂。

因为他年轻，没有思想包袱，所以在旧世界里陷得不深，所以敢直接放弃旧的时空观。

因为从小就读康德、休谟、马赫、庞加莱等哲学大师的著作，所以不论是从哲学还是美学考虑，他都无比钟爱相对性原理。

因为他思考问题思考得很深，所以能找到让麦克斯韦方程组和相对性原理共存的办法。

因为他生活在钟表大国瑞士，供职于专利局，每天都要审查非常多跟时间钟表相关的专利，所以他对时间问题特别敏感，并最终从时间这里找到了关键的突破口。

这个人是谁，我相信你们都知道，他就是爱因斯坦。

只要把麦克斯韦方程组和相对性原理之间的冲突解决了，狭义相对论的诞生就是水到渠成的事了。

至于爱因斯坦是如何着手解决这个问题，他又是如何发现问题的关键，解开了别人眼里的死结从而创狭义相对论的，我下一篇文章再细说。

这里，我再带大家看一个具体的例子。看看如果坚持麦克斯韦方程组和相对性原理，到底会出现什么“大逆不道”的结论，以至于把那么多科学家都直接吓跑了。

13电磁波的疑难

在我的麦克斯韦方程组的第三篇文章《见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？》里，我带着大家一步步从麦克斯韦方程组推出了电磁波的波动方程，并给出了电磁波的速度公式：

因为μ0、ε0都是常数，代入进去我们就会发现电磁波的速度等于光速，从而发现“光是一种电磁波”。

对于能看到这里的朋友，我相信对这个结论已经不会奇怪了，那么真正奇怪的地方在哪里呢？

大家再去看看电磁波的推导过程，你会发现一件奇怪的事情：我是直接从麦克斯韦方程组出发，一顿数学操作之后得到的电磁波速度公式。整个过程我没有预设任何物理上的东西，没有预设任何参考系！

可能你还没有意识到这件事情的怪异之处，那我们再来回忆一下。初中刚学物理的时候，老师就一定跟你强调过：速度是相对的，你在说一个物体的速度的时候，一定要指定参考系，否则你说的速度就是没有意义的。

你坐在家里觉得自己没动，但是你相对太阳就在高速运动；你觉得地面的树没动，但是火车上的人就会觉得树在高速运动。这些很好理解，大家也很容易接受“凡谈论速度，必先指定参考系”。

但是，你在计算电磁波速度的时候，你指定参考系了么？你选定了哪个特定的参考系了么？

没有，都没有！

你做的事情就是拿起麦克斯韦方程组，一顿操作猛如虎，一通纯数学计算之后得到了那个电磁波的速度公式。

你在没有指定任何物理情景，没有指定任何参考系的情况下算出来了一个电磁波速度，那么这个速度算谁的？

地球系的？火车系的？太阳系的？显然都没有道理！

但是我们就是凭空算出一个速度c来了，虽然我不知道这是相对哪个参考系的，就像石头缝里凭空冒出一个孙猴子一样。

遇到这样棘手的问题，你会怎么考虑？

很显然，你没有任何理由认为这个速度是相对哪个具体参考系的，地球不行，火车不行，太阳也不行。

那么，要么你就认为存在一个特殊的参考系，比如我们在第一种可能里说的以太，认为这个速度是相对以太的。这其实就是认为麦克斯韦方程组不满足相对性原理。

要么，你就认为这个速度对所有的惯性系都成立，也就是认为电磁波在所有惯性系下的速度都是c。这其实就是认为麦克斯韦方程组满足相对性原理，认为它在所有的惯性系下都是正确的，这就是前面讨论的第二种可能。

从这里也可以看出，即便我们不从相对性原理本身考虑，麦克斯韦方程组推出的这个电磁波速度也逼着你不得不二选一。麦克斯韦方程组是否满足相对性原理，这是一个必须回答的问题。

此外，很多科普文章说，因为麦克斯韦方程组推出电磁波的速度（也就是光速）是一个常数，所以我们可以从麦克斯韦方程组推出狭义相对论的光速不变原理，这是不对的。

14光速不变原理

光速不变原理不是说光在真空中的速度是一个定值（我声波在空气中的速度还是一个定值呢），而是说你不管在哪个惯性系里测量真空中的光速，它都是一个定值。

它的重点是强调真空光速在所有的惯性系里都一样，也就是说真空光速对所有惯性系都平权。

大家能看到这里来，这句话已经听熟了吧？所有的惯性系都平权，这不就是相对性原理的核心思想么？

所以，你单从麦克斯韦方程组推出的电磁波速度，是无法推出光速不变原理的，因为这个速度根本就没有提及任何参考系。我完全可以说麦克斯韦方程组推出的光速只在以太系里成立，在其它系里不成立，这样你还能说光速不变么？

但是，如果你同时坚持麦克斯韦方程组和相对性原理，认为方程组在所有的惯性系里都成立。那么，你就可以在所有的惯性系里推出电磁波的速度，这样你就可以说真空光速在所有的惯性系里都是不变的，这才是光速不变原理。

也就是说，单独的麦克斯韦方程组推不出光速不变原理，但是麦克斯韦方程组+相对性原理就能推出光速不变原理。

所以，问题的核心还是你要不要坚持相对性原理。

而“真空光速在所有惯性系里都不变”这样一个结论对牛顿力学，对绝对时空观有多么“大逆不道”，大家应该能感觉到吧。

它直接颠覆了我们熟知的速度合成法则。我在地面观测火车上物体的运动速度，那肯定是要把火车的速度和物体的运动速度叠加起来考虑的，怎么可能我在火车上观察这个物体是这个速度，在地面上观察还是这个速度呢？

举个例子，在时速300km/h的高铁上，有一个列车员以5km/h的速度朝车头走去。火车上的人觉得列车员的速度的5km/h，地面上的人自然觉得列车员的速度是300+5=305km/h。

这时候如果有个人跳出来说，不对，我在地面看到这个列车员的速度跟在火车上看到的一样，都是5km/h，那估计大家要送你去精神病院了。

但是，当我们把这个列车员换成了一束光，结论就变成这样了。火车和地面的人竟然都觉得这束光的速度是c，你说这结果可怕不可怕？

而我们所做的，仅仅是假设麦克斯韦方程组满足相对性原理，然后光速就被吓得不敢变了！这种“大逆不道”的结论，牛顿和伽利略当然要不起，这基本上是要掀他们的桌子了。

所以，我们再来看看这个直击灵魂的问题：麦克斯韦方程组到底满不满足相对性原理？

15结语

至此，狭义相对论诞生前夜的各种素材，我都已经帮你准备好了。牛顿力学、麦克斯韦方程组、相对性原理、伽利略变换、绝对时空观之间的关系，我也基本上给你理清了。

有的朋友可能还会有点疑问：别的书籍文章在讲狭义相对论之前，都要大讲特讲迈克尔逊-莫雷实验，然后从这个实验出发讲光速不变，怎么你这里一句都没提？

你去翻一翻爱因斯坦的论文《论动体的电动力学》（后台回复“狭义相对论论文”），里面一样一句没提迈克尔逊-莫雷实验。

爱因斯坦是从电磁学出发建立的狭义相对论，因为他的叔叔是电气工程师，他们家又开了一个电气工厂，所以爱因斯坦从小就对电磁学非常感兴趣。

至于光速不变，我们上面已经分析了。只要坚持麦克斯韦方程组和相对性原理，光速不变就是一个自然而然的结论，并不是非要有实验才敢这样想。也就是说，有没有迈克尔逊-莫雷实验，爱因斯坦都能创立狭义相对论，我们不必过分夸大这个实验的作用。

所以，现在就是这样的局面，牌都在这里，你要怎么打？牛顿力学和麦克斯韦电磁学的核心冲突，牛顿和麦克斯韦这两尊大神之间的战争，你要怎么去化解？

我希望你能好好想一想，自己琢磨琢磨。谁都知道解决方案就是狭义相对论，但是只知道答案对你并没有太大的用处，我希望你自己能合乎逻辑地把正确答案推导出来。你也知道在试卷里只写一个答案但没有任何过程的后果吧？

这是科学史上难得一见场面，也是新手村的绝佳试炼基地。

以前的科学发展，大多是科学家在这个领域做了很多实验，总结了很多实验定律。最后再来个厉害人物对这些定律进行大综合，力学和电磁学的发展皆是如此。

但是，像狭义相对论这样，主要的发展动力来自两套在各自领域都工作良好，一结合就出矛盾的理论的情况是非常少见的。然而，我们现在又一次遇到了这种情况：广义相对论和量子力学在各自领域都工作良好，但是它们一结合就会出现无尽的灾难。

我们应该如何去协调广义相对论和量子力学呢？从这个角度来看，爱因斯坦成功协调牛顿力学和麦克斯韦电磁学的这次经验，是不是就更加显得弥足珍贵了呢？

我也很想知道，如果年轻的爱因斯坦在现在，他会如何看待广义相对论和量子力学之间的矛盾。科学家为了调和两者，提出的超弦理论、圈量子理论等有没有忽略什么关键性的东西？为什么引力没法量子化？我们对时空本性的认识，是不是又要发生一次大的变革？

这些问题有着无尽的吸引力，为了让我自己能尽早看到这些问题的答案，我现在竭尽全力给你们写科普。

所以，我不能只是简单地告诉你们答案，我得尽力把爱因斯坦的学习方式、思考方式、研究方式都写出来。让你们领会爱因斯坦的科学精神，然后让你们去思考这些大问题~

牛顿和麦克斯韦的战争就写到这里，至于爱因斯坦是如何化解这个矛盾的，我下一篇文章再细说。怕错过的，盯着我的公众号就行了。

当然，如果你能在这之前通过这篇文章的线索自己把问题解决了，自己独立地提出狭义相对论，那就再好不过了，那我简直要给你发一朵小红花。如果你有思路，但是在有的地方又卡壳了，可以来我的社群（后台回复“社群”）跟大家一起讨论，我相信这种方式对你的成长会大有裨益。

神探爱因斯坦，我们下篇文章见~

------------------------------------------

《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》

《最美的公式：你也能懂的麦克斯韦方程组（微分篇）》

《见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？》

《闵氏几何是什么？它是如何统一时空并极大简化狭义相对论的？》

《你也能懂的微积分》

收起阅读 »

相对论诞生：爱因斯坦是如何创立狭义相对论的？ | 主线

狭义相对论相对论

在上一篇文章《相对论前夜：牛顿和麦克斯韦的战争》里，我给大家描绘了相对论诞生前夜的物理图景：伽利略携相对性原理横空出世，跟牛顿力学配合得天衣无缝。伽利略变换代表了绝对时空观，牛顿力学的所有定律又可以在伽利略变换下保持数学形式不变，也就是具有伽利略协变性。那是一...

继续阅读 »

在上一篇文章《相对论前夜：牛顿和麦克斯韦的战争》里，我给大家描绘了相对论诞生前夜的物理图景：伽利略携相对性原理横空出世，跟牛顿力学配合得天衣无缝。

伽利略变换代表了绝对时空观，牛顿力学的所有定律又可以在伽利略变换下保持数学形式不变，也就是具有伽利略协变性。那是一个礼尚往来，没有战争的美好年代。

然而，麦克斯韦方程组的出现打破了这种平静。因为它不具有伽利略协变性，跟伽利略-牛顿组建的世界玩不到一起去。

那么，麦克斯韦方程组是否满足相对性原理呢？

面对这个灵魂拷问，我们回答是也不是，不是也不是，这可把物理学家们急坏了。

这些内容我在上一篇文章里都从零做了非常详细的说明，请大家在阅读本文之前务必确保自己先看了公众号的上一篇。否则，由此引发的诸多不适，长尾君概不负责~

接下来就是大家熟悉的套路了：世界一片混乱，一位携主角光环的少年横空出世，挽狂澜于既倒，扶大厦之将倾。最后世界又重归于和平，全剧终。

这里要出场的主人公，就是家喻户晓，如雷贯耳的爱因斯坦。他给出的解决方案，就是大名鼎鼎的狭义相对论。

那么，爱因斯坦究竟是如何平定牛顿和麦克斯韦的战争的？他又是如何回答“麦克斯韦方程组是否满足相对性原理？”这个灵魂拷问的呢？

先不急着要答案，我们先来看看这个问题到底难在哪。

01电磁疑难

麦克斯韦提出麦克斯韦方程组以后，就预言光是一种电磁波，并算出了电磁波的速度。

然后，奇怪的事情就发生了：麦克斯韦在没有选定任何参考系的情况下，就直接从方程组推出了电磁波的速度等于光速c（具体细节可以参考之前的文章《见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？》）。

如果你是第一次听这句话，你可能并不了解事情到底怪在哪，那我再解释一下。

大家都知道，我们在谈论速度时，一定要先指明参考系。我坐在高铁上没动，那是以火车为参考系；如果以地面为参考系，那我就是以300km/h的速度在飞驰。

所以，单独谈论我的速度是没有任何意义的。你一定要先指明参考系，是在地面还是火车上看，然后才能谈论我的速度。

同理，我们在谈论光的速度时，一样也要先指明参考系。

那么，从麦克斯韦方程组推出的电磁波速度到底是哪个参考系下的速度呢？

因为电磁波的速度是直接从麦克斯韦方程组推出来的，所以，只要麦克斯韦方程组在某个参考系里成立，我们就可以说电磁波在这个参考系里的速度是光速c。

于是，上面的问题就有了一个等价的提法：麦克斯韦方程组到底在哪个参考系下成立？

如果麦克斯韦方程组在所有的惯性系下都成立（即满足相对性原理），那我们就可以说电磁波在所有的惯性系下的速度都是光速c。

如果麦克斯韦方程组只在某些特殊的参考系下成立（即不满足相对性原理），那么我们就只能说电磁波只在这些特殊的参考系下的速度是光速c。

于是，我们又进一步把“麦克斯韦方程组到底在哪个参考系下成立？”变成了“麦克斯韦方程组是否满足相对性原理？”。

这个逻辑大家一定要理清楚，不然下面就没法继续了。

不过，认为麦克斯韦方程组满足相对性原理，也就是认为“电磁波在所有惯性系下的速度都是光速c”太过离经叛道，也完全违反我们的直觉。

你想想，在所有参考系里速度都一样是个什么概念？

假设有位列车员在300km/h的高铁上以5km/h速度朝车头走去，火车上的人会觉得他的速度是5km/h，地面上的人会觉得是300+5=305km/h。

他们当然会觉得觉得列车员的速度不一样，而且就差了火车速度的300km/h。如果你非要说一样，那估计有人要建议你去看眼科了。

同样的，如果把列车员换成一束光，我们可能也会觉得火车上和地面上观察到的光速不一样，并且认为它们之间就差了一个300km/h。

也就是说，从常识来看，我们并不认为电磁波在所有惯性系里都是光速c。这等于是在说：我们并不认为麦克斯韦方程组在所有的惯性系下都成立，即麦克斯韦方程组不满足相对性原理。

这样的话，电磁波，或者说光就应该只在一个参考系里的速度是c，在其它参考系里的速度就是c加上它们的相对速度。

那么，光在哪个参考系里的速度是c呢？火车系？地球系？太阳系？都没道理！

答案我们也知道：以太系。

也就是说，我们认为光只有在以太系的速度才是c。只有在以太系里才可以用麦克斯韦方程组推出电磁波的速度等于光速c，在其它参考系里麦克斯韦方程组是不成立的。

那么，以太是什么？为什么我们要选择以太系呢？

02以太

时间先回到200年前。

19世纪初，在托马斯·杨和菲涅尔等人的努力下，光的波动说逐渐被人们接受。随之而来的一个问题就是：既然光是一种波，那光的介质是什么？

水波是一种波，它的介质是水；声波也是一种波，它在空气中传播时，介质就是空气。这些波之所以能传到远处，就是因为相邻介质点之间有力的作用，大家一个“推”一个，把波传了出去。

既然光也是一种波，我们自然会觉得光波也应该和水波、声波一样，是依靠相邻介质点的相互作用传播到远处的。

那么，光的介质是什么呢？光可以穿过遥远的星空来到地球，那么这种介质也应该遍布宇宙。我们给它取个名字，就叫以太。

以太似乎看不见摸不着，就像空气一样。但是，大家都知道，如果我们相对空气运动，就能感觉到风。同理，如果我们相对以太运动，按理说也能感受到“以太风”，这就是很多实验寻找以太的思路。

如果光的介质是遍布宇宙的以太，我们自然就会觉得光的速度是相对以太而言的，就像水波的速度是相对水面那样。

这样导致的直接后果就是：我们必须假定麦克斯韦方程组只有在以太系中才成立。

因为只有这样，我们才能只在以太系里推出光的速度是c，才能说光的速度是相对以太而言的，才不跟上面矛盾。

从这里大家也能感觉到：当我们在谈论光和以太的时候，我们其实是把牛顿力学的那一套搬了过来。我们希望用以太的力学性质来解释光波，就像我们用空气和水的振动来解释声波和水波那样。

牛顿力学大获成功以后，不仅牛顿被封了神，力学也同样获得了至高无上的地位。

于是，科学家们开始形成了这样的一种观念：力学是成功的，完美的，至高无上的，其他领域的东西只有最终在力学这里得到了解释，才能算是科学。我们要利用力学的世界观和方法论去解决其他领域的各种东西。

这种观念，我们称之为力学的自然观，或者机械的自然观（在英文里，力学的和机械的是同义词，都是mechanical）。

在力学自然观的大背景下，大家试图用以太这种力学模型来解释光，解释电磁波就是非常自然，而且非常合理的一件事了。

只是大家后来发现这样做有许多困难，才开始逐渐放弃用力学去解释电磁学，转而认为电磁理论也是跟力学一样基本的东西。

也有走得更极端的，他们试图反过来用电磁理论去解释力学，也就是把电磁理论看成更基本的东西。这种观念叫电磁自然观，此乃后话。

总之，相信大家了解了这些以后，就不会对以太的出现感到突兀了，甚至会觉得非常自然。因为无论是从波动说，还是从力学自然观的角度，认为光的传播需要一种介质都是理所当然的事情。而以太，只不过是它的名字而已。

有了“光是借助以太这种介质来传播”的观念以后，我们就可以根据光的传播情况来反推以太的一些性质。

比如，光能从遥远的星系穿过太空来到地球，那太空中就应该充满了以太；光在以太中衰减很少，天体可以毫无阻力地穿过它，那以太就应该非常稀薄；因为光是横波，那这肯定又对以太有某种限制……

当然，只有这些肯定是不够的，于是人们就设计了各种以太相关的实验（绝非只有迈克尔逊-莫雷实验一个），以求进一步了解以太。爱因斯坦在大学期间也设计了相关实验，不过因为没有得到学校的支持而作罢。

这篇文章的主题是狭义相对论的诞生，我不可能把所有的以太实验都列出来，那够写一本书了。这里只介绍几个跟爱因斯坦创立狭义相对论关系比较大的实验。

03光行差

第一个重要的实验叫光行差。

光行差的原理很简单，大家在下雨的时候都有这样的经验：如果我站在雨地里不动，就会感觉雨滴是从头顶正上方落下来的（无风条件）；如果往前跑，就会感觉雨滴是从前方倾斜地落到身上的，这其实就是一种“雨行差”。

而且，不难想象，跑得越快，就会觉得雨滴倾斜得越厉害。雨速一定时，我奔跑的速度和雨滴的倾斜角之间，肯定有某种关系。

类似的，遥远的星光（可近似看作平行光）到达地球时，如果地球不动，我只要把望远镜对着星星的方向就能看到这颗星星了。

但是，如果地球在运动（以大约30km/s的速度围着太阳公转），跟雨中奔跑时觉得雨滴倾斜了类似，我们也会觉得恒星发出的光线也倾斜了一定角度，这就是光行差。

为了寻找光行差，英国天文学家布拉德雷从1725年到1726年进行了持续的观测，发现地球的公转会产生大约20.5角秒（1度=60角分=3600角秒）的倾斜角。然后，通过简单的三角计算，布拉德雷就得出光速大约是30万km/s，这是早期比较准确的光速值了。

具体的实验和计算细节我这里就不说了，但是下面三个事情，大家一定要清楚：

第一，根据波动说，光在以太中传播。我们能观测到光行差，就说明地球和以太之间一定有相对运动。

为什么呢？你想啊，正是因为地球和以太之间存在相对运动，你才能感受到来自前方的以太风。

布拉德雷之所以能观测到光行差的倾斜角，就是这种以太风把光线“吹弯了”。如果地球和以太相对静止，没有以太风，那头顶正上方的光线就会像无风时的雨滴一样垂直下落，这样肯定就看不到光行差了。

第二，不难想象（通过简单的三角关系），光行差的这个倾斜角是跟地球速度v和光速c的比值v/c直接相关的。也就是说，这个实验只能精确到v/c一阶量级（只出现v和c的一次方），并没有出现v²/c²二阶量或者更高次项。

第三，因为光行差实验只能精确到v/c一阶，所以，我们虽然能猜测地球和以太之间有相对运动，但并不能精确地测出这个速度到底是多少。具体原因我们后面会谈。

好，知道光行差要求地球和以太之间有相对运动，并且它只精确到v/c一阶，无法测出这个相对运动的具体速度，第一个实验就可以翻篇了。

04阿拉果的实验

光行差是个纯粹的天文观测，它只涉及以太在真空（空气）中的情况，信息量有限。法国天文学家阿拉果加了一块玻璃，希望利用光在不同介质中的折射来获取更多的信息。

阿拉果这个实验的原理有点绕，大家要仔细理一理（理不清关系也不大，知道最后的结论就行了）。

你想啊，如果地面上有一块玻璃，那以太自然也会从玻璃中流过。那么，如果有一束光从空气射入玻璃，你觉得会发生什么？

光在以太中运动，以太在玻璃中流动，那么，光在玻璃中的速度就应该是这两个速度的叠加。而速度又是一个矢量，不仅有大小，还有方向，所以光在玻璃中的速度就还跟这两个速度的夹角有关。

这就好比往河里仍一个皮球，如果顺着河水仍，皮球的速度是最大的；垂直河水仍，皮球的速度会稍微小一点；逆着河水仍，皮球的速度就是最小的。

很明显，即便我仍皮球的速度大小一样，但只要方向不同，最终皮球的速度还是会不一样。同理，光从不同方向射入流着以太的玻璃，最后的速度也应该不一样。

于是，阿拉果就转动望远镜，让光线从不同角度进入玻璃。试图通过改变光在玻璃中的速度，进而改变光在玻璃中的折射率，然后通过折射定律观察到这种变化。

考虑到有些中小学生还不知道折射率和折射定律，我这里非常简单的说一下。

光从一种介质进入另一种介质时会发生折射。如下图，小鱼身上的光线其实是走折线进入我们的眼睛的，你顺着视线的方向是抓不到鱼的，这就是一个典型的折射现象。水杯中的筷子好像折断了，也是因为光从水进入空气时发生了折射。

折射的程度跟这两种介质的折射率有关，而介质的折射率，就是光在真空中的速度与介质中速度的比值。

比如，水的折射率是1.33，就是说光在真空中的速度是水中速度的1.33倍。一般我们认为光在空气中的速度就等于真空光速，也就是近似认为空气的折射率等于1。

光线发生折射时，它的入射角α1和折射角α2的正弦值与这两种介质的折射率n1、n2之间有一个简单的比例关系，这就是大名鼎鼎的折射定律：n1sinθ1=n2sinθ2。

于是，当光线从不同方向射入玻璃时，光在玻璃中的速度和折射率都会发生变化，入射角和折射角之间的关系也会发生改变，而这是可以直接观察到的。

但实验结果却让阿拉果大为迷惑，因为他发现无论光从哪个方向进来，他都观察不到玻璃的折射率有任何变化。

也就是说，我们改变入射光的方向时，光在玻璃中的速度好像并没有改变，这跟说好的不一样啊！

为什么？阿拉果百思不得其解，于是，他选择求助场外观众。他于1818年给波动说大佬菲涅尔打了个电话，不，是写了封信。

05部分曳引假说

大佬就是大佬，菲涅尔收到阿拉果的来信之后，很快就想到了一个解决办法。

菲涅尔想，不同方向的光线进入玻璃后的速度应该是不一样的，既然我们现在观测不到这种不一样，那就肯定是还有某种机制把它抵消了。

于是，菲涅尔就提出了一种假说，他说为什么我们观测不到这种不一样呢？

是因为玻璃在以太中运动的时候，它无法做到“以太丛中过，片叶不沾身”。它要拖着部分以太跟它一起运动，然后被拖曳的这部分以太刚好就跟上面那个效应抵消了，于是我们就观测不到任何不一样了。

那么，玻璃能拖动多少以太呢？

菲涅尔说这个比例跟介质的折射率有关。你的折射率越大，拖曳的以太就越多，折射率越小，拖曳的以太就越少，具体的曳引系数是1-1/n²（n是介质的折射率）。

这就是菲涅尔的部分曳引假说，似乎很有道理的样子。

利用部分曳引假说，菲涅尔很好地解释了阿拉果的实验。

因为地面的空气并不会拖曳以太（折射率约为1，曳引系数等于0），地球本身又是极为多孔的物质，以太可以畅通无阻地流过。所以，地球和以太之间还是有相对运动，这跟光行差也不矛盾，完美！

不过，菲涅尔的部分曳引假说一开始并未受到人们的重视。

1851年，斐索做了一个著名的流水实验，实验结果跟部分曳引假说的预言极为接近。于是，人们对菲涅尔的假说信心大增。

06斐索流水实验

流水实验的原理非常简单，菲涅尔不是说透明介质会部分拖曳以太么？那么，我让一束光顺着水流的方向走，另一束光逆着水流的方向走，它们走完水管的时间就应该不一样。

当然，光速这么快，想直接测量顺水和逆水的时间差是不可能的，斐索就巧妙地利用了光的干涉。

因为光是一种波，把两束一样的光叠加在一起，那肯定是波峰与波峰叠加，波谷与波谷叠加。现在它们经过水管的时间不一样，再次相遇时波峰和波谷肯定就对不上了，这样它们的干涉图案就会发生变化。

具体细节我就不说了，大家只要知道实验结果跟菲涅尔理论计算的结果极为接近就行了。如果大家感兴趣，我后面可以在公众号里单独写文章谈谈这个实验。

总之，斐索流水实验在很高的精度内证明了部分曳引假说的有效性。后来，霍克又用更严密的实验做了进一步验证。一时间，菲涅尔的理论风头无二。

07一阶光学实验

此外，菲涅尔还从部分曳引假说证明了一个更强的结论：像光行差和阿拉果这种只精确到v/c一阶的实验，无论你怎么做，光学现象都不会受到地球相对以太运动的影响。

什么意思？

我们知道，菲涅尔提出部分曳引假说，就是为了解释阿拉果的实验。阿拉果认为如果地球相对以太有运动，我们就可以通过改变入射光的方向改变光在玻璃中的速度，进而改变玻璃的折射率。

但是我们没有发现折射率有任何变化，这就意味着这个实验没能观测到地球相对以太的运动。

为什么观测不到？有两种解释：第一，它们之间真的没有相对运动；第二，它们之间有相对运动，但是因为某种原因我们观测不到。

菲涅尔选的是第二种。

在部分曳引假说里，以太是静止的，地球相对以太肯定有运动，这样才能解释光行差。

在阿拉果的实验里，因为以太被玻璃部分拖曳，这个效果刚好和地球相对以太运动的效应抵消，所以我们就观测不到折射率的变化了。

这就好比在跑步机上跑步，你觉得自己在往前跑，但别人觉得你没动。你向前奔跑的速度刚好和跑步机拖曳的速度抵消了，所以别人就观测不到这种相对运动带来的变化了。

然后，菲涅尔进一步说，不仅阿拉果的实验观测不到地球相对以太的运动，任何v/c一阶实验（实验结果只跟地球速度v与光速c的比值v/c相关）都观测不到地球相对以太的运动，这是部分曳引假说的一个必然结果。

那么，菲涅尔的预言到底对不对呢？随着时间的推移，大家对这个事情的关注度也越来越高。

1873年，巴黎科学院举办了一场名为“光源和观察者的运动对光的传播方式和性质所产生的变化”的大奖赛，最后马斯卡特赢得了大奖。

马斯卡特做了各种各样的一阶光学实验（比如光的反射、折射、衍射等），也重做了一些之前的实验。结果是，他没有观察到地球相对以太的运动给这些实验带来了任何影响。

总之，最起码到了19世纪70年代，人们已经达成了一项共识：精确到v/c一阶的光学实验不会受到地球相对以太运动的影响。

爱因斯坦在狭义相对论论文的第二段也专门提到了这个事，大家一定要注意一阶这个定语。

08一阶相对性原理

好，到这里，光行差、阿拉果、斐索流水三个跟以太相关的一阶实验就讲完了。为什么要挑这三个实验呢？

因为爱因斯坦在1950年与香克兰教授谈话时，说对他影响最大的实验就是光行差和斐索流水实验，并且强调“它们已经足够了”。

我这里加一个阿拉果的实验，主要就是为了自然地引出菲涅尔的部分曳引假说。

那么，从这几个早期的以太实验里我们能知道些什么呢？爱因斯坦又知道了什么，为什么他说这些就够了？

从上面的分析，以及我的多次强调，相信大家已经知道这几个实验都是一阶光学实验，并且菲涅尔的理论能很好地解释它们了。

然后，不管是从部分曳引假说还是从实验出发，精确到v/c一阶的光学实验不会受到地球相对以太运动的影响，知道这些就够了。

大家再来想一想，“一阶光学实验不会受到地球相对以太运动的影响”是什么意思？这句话你再多看几遍，你品，你细品。

不会受到地球相对以太运动的影响，就是说地球相对以太静止也好，运动也罢，我们的一阶光学实验该咋做还咋做。不论你处在与以太相对静止的参考系，还是处在相对以太匀速运动的参考系，一阶光学实验完全感知不到，无法区分。

这就是说，我们无法通过一阶光学实验区分一个参考系是相对以太静止，还是相对以太做匀速直线运动。换成了这种句式，相信起码看了上一篇文章的人立马就能明白是什么意思了。

对，它意味着：一阶光学实验满足相对性原理！

绕了一大圈，我们终于又绕回到问题的核心，也就是电磁现象是否满足相对性原理来了。而这些实验则明明确确地告诉爱因斯坦：最起码在v/c一阶精度下，电磁现象是满足相对性原理的，这个我们可以打包票。至于在v²/c²二阶甚至更高阶的精度下，电磁现象是否还满足相对性原理，这个现在不敢说。

而爱因斯坦说光行差和斐索流水就够了，意思是你们这些以太实验能给到一阶精度的支持就足够了，就已经圆满完成了本次任务。我还有另外三路大军，原本也没怎么指望你们这一路。

上一篇文章已经讲了，爱因斯坦主要是从协调牛顿力学和麦克斯韦电磁理论的角度来创立狭义相对论的。而它们的核心矛盾就出在相对性原理上：牛顿力学配合伽利略变换，非常完美地满足了相对性原理；麦克斯韦电磁理论不具有伽利略协变性，那它还满足相对性原理么？

大家要记住这才是我们的核心问题，我这两篇文章的所有内容都是围着它转的。所以，我们从以太实验又绕回到了相对性原理这里，这是非常自然而且必须的。

09迈克尔逊-莫雷实验

好，爱因斯坦还有其它三路大军，他觉得以太实验能给到一阶精度的支持就足够了。但其他物理学家没这么壕啊，很多人别说另外三路，另外一路都没有，就指着以太实验吃饭呢。

所以，对他们来说，一阶精度上的支持是远远不够的。那怎么办呢？一阶精度不够，那就去做二阶精度的实验呗，反正闲着也是闲着，催一催实验物理学家也不碍事。

但是二阶实验难做啊！你想想为什么大家做了这么多一阶光学实验，却没有人去做二阶光学实验？你以为是实验物理学家没收到催更么？

主要还是太难了，为什么难我给你分析一下。

要精确到v²/c²二阶，地球公转速度v（30km/s）大约是光速c（30万km/s）的万分之一，再平方一下，v²/c²就是亿分之一。也就是说，如果你想做一个精确到v²/c二阶的光学实验，你的实验精度得高达亿分之一才行。

这在当时非常困难的。麦克斯韦在1879年3月19日（此时爱因斯坦已出生5天）给美国航海历书局的托德写信时都还认为这个精度的效应在地面上是无法被探测到的。

然而，天才实验物理学家迈克尔逊认为麦克斯韦低估了地面实验所能达到的精度。于是，他在1881年做了一次实验，在1887年又跟莫雷做了一次说服力更强的实验，这就是大名鼎鼎的迈克尔逊-莫雷实验。

然后，迈克尔逊就捧走了1907年的诺贝尔物理学奖，这也是美国人第一次获得诺贝尔物理学奖。

有些人可能有疑问：你不是说爱因斯坦有光行差和斐索流水实验就够了么，那为什么还要讲迈克尔逊-莫雷实验？

这个原因嘛，虽说爱因斯坦有那些一阶光学实验就够了，迈克尔逊-莫雷实验对他创立狭义相对论并没有什么直接的影响。

但是，这个实验对其他物理学家影响非常大啊，比如洛伦兹。

洛伦兹为了给迈克尔逊-莫雷实验一个合理的解释，苦思冥想，埋头苦干，最终在1895年（注意这个时间）发表了一篇名为《关于动体电现象和光现象的理论研究》，长达137页的专题论文。他在这篇论文里引入了长度收缩假设、地方时的概念，证明了对应态定理，从而解释了迈克尔逊-莫雷实验。

而洛伦兹对电动力学的研究，特别是1895年的这篇论文，对爱因斯坦创立狭义相对论有很大的影响。

所以说，迈克尔逊-莫雷实验虽然对爱因斯坦没有什么直接的影响，但却有这种间接的影响。

所以，我们想要搞明白洛伦兹是如何影响爱因斯坦的，就得先搞清楚迈克尔逊-莫雷实验是怎么回事。而且，许多人对这个实验，对它与狭义相对论的关系都存在非常大的误解，这里澄清一下也好。

另外，我前面说了那么多一阶光学实验，难道你们就不想看看二阶光学实验是什么样的？迈克尔逊-莫雷实验就是一个设计得极为漂亮的二阶光学实验。

10为什么是二阶？

这里我稍微解释下为什么迈克尔逊-莫雷实验是二阶的。

部分曳引假说认为以太可以被透明介质部分拖曳，在真空这种没有介质的地方就应该是静止的。那么，地球在静止以太中穿梭，我们要如何测量这个速度呢？

想法很简单：如果地球在以太中穿梭，我们就应该能感觉到以太风。我往有风的地方发射一束光，没风的方向发射一束光，对比一下就能知道风速了，也就是地球相对以太的运动速度。

假设以太相对地球以速度v向右运动，我向右发射一束光，光速就是c+v；反射回来向左运动时，速度就变成了c-v。

与此同时，如果在没有以太风的地方发射一束光，它的速度就一直都是c。

整个过程就像在河里做往返划船比赛：一组先顺流而下，再逆流而上，另一组在平静的河面上往返，看哪一组更快。这里河水就像是以太，在水面运动的船就好比在以太中运动的光。

我们假设单程距离为l，那么光顺着以太运动的时间为l/c+v，逆着以太运动的时间为l/c-v，总时间t=(l/c+v)+ (l/c-v)。

在没有以太风的地方，光往返的速度都是c，总距离为2l，所以总时间t’=2l/c。

这两种情况的时间差我们记为Δt=t-t’，它占整个传播时间的比值就可以这样算：

可以看到，当地球的公转速度v远小于光速c时，这个比值就近似等于v²/c²。所以，这是一个不折不扣的v²/c²二阶光学实验。

这个思路非常简单，它难就难在如何探测这么微小的差别，迈克尔逊厉害就厉害在发明了一种精度如此之高的干涉仪。

迈克尔逊-莫雷实验的原理跟它基本相同，唯一的区别就是我们找不到没有以太风的地方。

所以，迈克尔逊和莫雷让一束光与以太风平行，另一束跟它垂直，垂直的这束光要考虑与以太风速度的叠加。

他们这样做了一次，把仪器旋转90度之后又做了一次。按理来说，旋转之后平行和垂直互换，光线运动的时间也会改变，这样产生的干涉条纹肯定也跟原来的不一样。

但实验结果又让人大跌眼镜：旋转90度以后，干涉条纹没有发生任何变化。就像压根就没有以太风，平行和垂直没有任何区别似的。

也就是说，我们认为光在平行和垂直以太风方向上的运动时间应该不一样，而且还算出了这个时间差大约占总时间的亿分之一。但是，迈克尔逊-莫雷实验告诉你：没有的事，不管光朝哪个方向跑，它们的传播时间好像都一样。根本就没有什么以太风，顺风、逆风、垂直风都是没边的事！

科学家们一下子就懵了。

11实验的结论

在这里，我希望大家忘掉一切关于迈克尔逊-莫雷实验和以太的先入为主的观念，忘掉你在书里、文章里或在其它任何渠道看到的结论。我们就站在这个历史节点，面对这样一个实验结果，你觉得我们可以作出哪些合理的判断？

首先，我们能从这个实验结果得出“以太不存在”这么大的一个结论么？

不能！因为完全没道理啊。

你想，我们现在是在验证部分曳引假说在真空中的情况。菲涅尔认为以太在真空中是静止的，所以，我们在静止以太中穿梭时会感觉到以太风，然后才有顺以太、逆以太、静止以太在运动时间上的不同。

然后，迈克尔逊-莫雷实验告诉我们这两个时间是一样的，我们可以据此说以太风不存在。但是，以太风不存在和以太不存在这绝对绝对是两码事啊！

我们都知道风就是空气的流动。那么，你会根据一个地方没有风就说这里的空气不存在么？

自己都觉得很荒谬是不是？高铁在铁轨上飞奔，但车厢里并没有风，我们能因此就说高铁里没有空气么？同理，为什么我们要根据迈克尔逊-莫雷实验的零结果就判断以太不存在呢？

我们做任何判断都要合乎逻辑，我们不能因为后来狭义相对论不需要以太，你就直接偷懒说迈克尔逊-莫雷实验“证明了”以太不存在。否则，科学的严谨和严密何以立足？

那么，根据迈克尔逊-莫雷实验的零结果，我们最容易、最自然想到的结论是什么呢？

我不知道你是怎么想的，反正我觉得就像高铁里感觉不到风一样。我们在地面观测不到以太风，最合理的猜测就是地球会拖着附近的以太跟着它一起运动，就像粘性流体那样。

这样，地球和地面附近的以太就会保持相对静止，所以就观测不到以太风了。这就是流体力学大佬斯托克斯的完全曳引假说。

以太在当时的感知是极强的，认为光的传播需要一种介质的想法合情合理，各种实验也能用基于以太的部分曳引假说得到很好的解释。

在这种环境下，你觉得物理学家们会因为观测不到以太风就直接把以太这个根基给丢了么？那也太暴躁了吧！

爱因斯坦确实抛弃了以太，但绝不是因为这个实验。

迈克尔逊和莫雷做了这个实验以后，也只是转向了斯托克斯的完全曳引假说。也就是说，他们也认为没观测到以太风，是因为地球完全拖曳了以太，导致它们相对静止，而不是说以太不存在。

当然，完全曳引假说后来又被其它实验否决了，那是后话，我们这里不细谈。

迈克尔逊-莫雷实验让物理学家们大为震惊。本来，菲涅尔的部分曳引假说跟许多一阶实验都符合得非常好，人们也慢慢倾向于认为以太在透明介质中会被部分拖曳，在真空中应该是完全静止的，这样地球跟以太之间就应该有相对运动。

现在迈克尔逊-莫雷实验跑过来说没有相对运动，地球和附近的以太应该是相对静止的，这就直接跟部分曳引假说发生了冲突。

完全曳引假说虽然能解释这个实验，但跟其它实验又发生了冲突，你让我们怎么办？

当然，在物理学里，危机就是转机。物理学家们从来不惧怕问题，相反，如果所有的问题都被解决了，那他们就要失业了。

针对迈克尔逊-莫雷实验这个匪夷所思的结果，物理学家们进行了大量的思考，做的最好的是洛伦兹。

12洛伦兹和电子论

提到洛伦兹，很多人的第一反应就是高中学的洛伦兹力，也就是运动电荷在磁场中受到的力。这是一个非常基本的概念，所以，可以猜测洛伦兹在电动力学里应该非常重要，虽然这很容易被忽视。

提到经典电动力学，很多人的脑袋里只有麦克斯韦。但是你想啊，麦克斯韦方程组使用的都是诸如电通量、磁通量、散度、旋度这样的概念，而我们高中学习电磁学用的都是电子移动产生电流，电子在电场中受到电场力，运动电子在磁场中受到洛伦兹力等这样的概念。

那么，用电子这种微观粒子来解释电磁现象是谁最先提出来的呢？当然，话都说到这里来了，你们十有八九会猜是洛伦兹干的。

没错，就是他干的。

也就是说，洛伦兹对麦克斯韦的电磁理论做了一种微观上的解释。

他认为电是由微小粒子组成的，电磁世界的各种现象现象都跟这种微小粒子的运动有关。这种微小粒子就是我们后来说的电子，洛伦兹的这套理论就叫电子论。

电子论是电动力学的一次重大进步，洛伦兹也因此获得了第二届（1902年）诺贝尔物理学奖，虽然大家都只记得伦琴因为x射线获得了第一届。

1953年，爱因斯坦在洛伦兹的百年诞辰上这样说道：我们这个时代的物理学家，多半没有充分了解到洛伦兹在理论物理基本概念的发展中起到的决定性作用。造成这种怪事的原因，是洛伦兹的基本观念已经深深地变成了他们自己的观念，以至于他们简直无法体会到这些观念是多么大胆，以及它们使物理学的基础简化到什么程度。

既然洛伦兹如此钟爱电子论，那他自然也希望能从电子论的角度给这些以太实验一个合理的解释，而他确实也做到了。

他从电磁理论导出了菲涅尔的部分曳引系数（这就意味着可以解释那些一阶光学实验），经过长时间的思考，他又想出了一个可以解释迈克尔逊-莫雷实验的办法。这些内容最终汇集在1895年这篇名为《关于动体电现象和光现象的理论研究》，长达137页的专题论文上，而爱因斯坦对这篇论文非常熟悉。

更加重要的是：洛伦兹的这套理论不仅在以太系中成立，在相对以太做匀速直线运动的参考系中也成立，虽然只是针对v/c一阶情况。

当然，在洛伦兹眼里，他只是用了一些数学技巧把运动参考系的现象转化到绝对静止的以太参考系里来处理。但爱因斯坦眼里，这妥妥的就是电磁理论在v/c一阶情况下满足相对性原理的绝佳证明啊。

洛伦兹原本计划按照菲涅尔的思路来，假定以太会以菲涅尔曳引系数被物体拖动。但后来他发现没这个必要，利用极化，在静止以太下就可以解释观测到的现象。

而且，洛伦兹还把以太和有质量的物质做了严格的区分，并拒绝对以太的力学性质再做任何假设。

这就有意思了，你们看看集万千宠爱于一身的以太，到洛伦兹这里变成啥了：它是完全静止的，没有任何力学性质，还跟其它有质量物质不一样，以太在这里完完全全变成了一个啥也不干的纯背景墙。

爱因斯坦后来诙谐地说：“洛伦兹留给以太的唯一力学性质就是不动性。狭义相对论带给以太概念的全部变革，就是取消了以太最后的这个力学性质，即不动性。”

大家可以看到，以前人们认为以太之于光波，大致就类似水之于水波，空气之于声波，都认为是相邻介质点之间的力学作用形成了波。

但是，洛伦兹从电子论出发，把以太的力学性质都给剥夺了，让以太变成了一个纯背景墙，这变化是非常大的。

13长度收缩假说

那么，洛伦兹又是如何利用这套理论解释迈克尔逊-莫雷实验的呢？

洛伦兹的思路跟菲涅尔类似，也是一种补偿法。如何补偿？

按理说，光先顺着以太风再逆着以太风运动，比来回都没有以太风要稍微慢一点。既然慢了一点，那我们就应该能把这个时间测出来，但是迈克尔逊-莫雷实验说根本测不出这个时间，怎么回事？

那洛伦兹就说，在沿着以太风的方向上，光的总速度变小了，时间没变，那就只能是运动的总距离减小了，这样才能对上号嘛。

就像两个人赛跑，一个跑得快一个跑得慢，但他们却同时到达了终点。这就说明他们跑的距离不一样，速度快的多跑了一点，速度慢的少跑了一点，如此才能同到达。

现在这两束光也是，它们运动的时间一样，但是沿着以太风方向的光的速度要慢一些，那就只能认为这个方向上的光运动的距离要小一些。

具体到迈克尔逊-莫雷实验，就是沿着以太风方向的干涉仪的长度会变短，这就是洛伦兹的长度收缩假说。

洛伦兹认为这并非不可能，只要我们认为仪器分子间的作用力也会受以太影响，那么以太运动时，分子间的距离是有可能减少的。利用长度收缩假说，洛伦兹解释了迈克尔逊-莫雷实验。

同时，我们也要清楚：洛伦兹认为长度收缩是一种动力学性质，他认为物体分子间的距离是真真实实地发生了收缩；而狭义相对论里的尺缩效应则是一种纯粹的运动学效应，并没有什么力把物体压缩了。

此外，洛伦兹还引入了一个叫地方时（local time）的概念，证明了对应态定理（后面再细说），从而让他的理论在v/c一阶下是满足相对性原理的。

虽然他自己从未提过相对性原理，只是把这些当作一种数学技巧。也不认为地方时在物理上有任何意义，但这对爱因斯坦的启发是非常大的。

最起码，光行差、斐索流水等只是从实验上让人觉得电磁现象在v/c一阶上是应该满足相对性原理的，而洛伦兹在1895年的论文则让你直接看到了一个在v/c一阶满足相对性原理的电磁理论，这给人的感觉和信心是完全不一样的。

我之所以反复强调1895年这个时间点，是因为这是爱因斯坦在发表狭义相对论论文（1905年）之前所知道的洛伦兹的最新工作，洛伦兹在1895年之后的工作爱因斯坦通通不知道，包括1904年大名鼎鼎的洛伦兹变换。

当时并没有互联网，信息传递不发达，爱因斯坦又是一个远离学术中心的瑞士专利局小职员。而洛伦兹又在荷兰，所以这些都是很正常的。

但是，爱因斯坦毕竟是爱因斯坦，最然洛伦兹的理论对他启发很大，但他也只是批判性的接受。比如他就非常反对洛伦兹理论里的以太，即便以太在这里只是一个可怜兮兮的纯背景墙，爱因斯坦还是毫不犹豫地把背景连墙都给扔了。

在这里，我们看到了洛伦兹和爱因斯坦的核心分歧：洛伦兹的内心深处是需要这样一个绝对的以太的，只有以太系的时间才是真正的绝对时间，这样整个框架就还是牛顿式的。而洛伦兹也看到了在牛顿力学框架内解决这些问题的希望。

所以，爱因斯坦提出了狭义相对论之后，洛伦兹一方面对爱因斯坦的工作大加赞赏，另一方面却依然坚持自己的以太，这是很多人难以理解的。

在狭义相对论之前坚持以太就算了，怎么狭义相对论都出来了，你还坚持以太？

在洛伦兹看来，像爱因斯坦那样抛弃以太，或者像自己这样坚持几乎已经没有任何力学性质的以太，通过一些数学手段把其它参考系的问题转化到以太系来处理，只是个人喜好问题。

因为从来就没有人规定描述一种物理现象只能有一种理论，我们可以从不同的角度得到不同的理论。至于如何从中选择，除了一些公认的标准外，个人的喜好确实也是一种重要的因素。

洛伦兹放不下牛顿的绝对时空观，爱因斯坦则坚信不存在绝对空间和绝对运动。这让两人采用了完全不同的研究纲领，因而得到了不同的理论。

“不存在绝对运动”是一种根植于爱因斯坦灵魂深处的信念，所以他拒绝接受洛伦兹这种绝对静止的以太。这是爱因斯坦和其他物理学家最大的不同，也是理解爱因斯坦创立狭义相对论的关键。

那么，我们不禁要问：为什么爱因斯坦会如此坚信“不存在绝对运动”呢？如果这个事情这么重要，为什么其他物理学家不这样想呢？

14牛顿与水桶实验

要理解这个事，我们需要先理解为什么之前大家基本上都认为存在绝对运动？这个问题倒是很好回答：因为祖师爷牛顿就是这么想的。

牛顿是什么段位什么影响，不用我多说。他在出版了《自然哲学的数学原理》之后，基本上就是物理学家心中的神了。既然是神，那么自然就是神说什么，大家就跟什么，而牛顿认为存在绝对空间、绝对运动。

牛顿在《原理》中写道：绝对空间，其自身特性与一切外在事物无关，处处均匀，永不移动。物体从绝对空间的一处移动到另一处，就是所谓的绝对运动。

我坐在家里没动，那是相对地面没动，由于地球要围着太阳公转，所以我相对太阳是运动的。同样，即便我相对太阳静止，我相对银河系仍然是运动的。

这个逻辑似乎可以无限重复下去，我们似乎永远没有办法说自己是绝对静止的。但牛顿说有办法：你只要相对绝对空间静止，你就是绝对的静止；相对绝对空间存在运动，就是绝对的运动。

绝对空间和绝对运动（类似的还有绝对时间）在牛顿的力学体系里非常重要。缺少它们，很多东西就无法自洽，牛顿就无法自圆其说。

因为非常重要，所以牛顿还精心设计了一个实验来“证明”绝对空间和绝对运动的存在，这就是大名鼎鼎的牛顿水桶实验。

实验步骤非常简单：在一个桶里装点水，然后旋转水桶，就完了。

再来看看实验现象：水一开始是静止的，在旋转木桶的带动下慢慢旋转。最后，水跟桶会保持相同的旋转速度，水面也会凹下去一点点。

那么，牛顿想通过这个实验说明什么呢？一个如此稀松平常的现象，怎么就能证明绝对空间的存在呢？

牛顿说，你看啊，一开始水和桶都是静止的，它们之间没有相对运动，此时水面是平的（状态一）。到最后，水和桶都在运动，但是它们之间还是没有相对运动（水和桶的转速一样），但是水面却是凹的（状态二）。

为什么一个水面是平的，另一个却是凹的呢？

有人说这简单，状态一里水和桶没有转动，所以水面是平的；状态二里水和桶有转动，所以水面是凹的。

但问题是，在状态二里，水和桶之间明明也是相对静止的（以相同的速度旋转），并没有相对转动啊。

这时有人会说，我是说状态二里的水本身在转，并不是说它相对水桶在转。正是这种真正的转动让水面凹下去了，而状态一里水和桶并没有真正的转动，因此水面是平的。

听起来好像很有道理，那问题又来了：你要如何判断水是否在做真正的转动呢？当水相对什么转动时才是真正的转动？或者换个角度，你觉得一开始的水没有真正的转动，那么，真的有东西是处在绝对的无转动状态么？

水井里的水是真正的无转动么？显然不是，因为地球在自转，会带着水井里的水一起转动。同理，太阳、银河系等都不可能是真正的无转动。

所以牛顿认为，我们必须假设一种自身特性与一切外在事物无关，处处均匀，永不移动也永不转动的东西存在，这就是他在《自然哲学的数学原理》里定义的绝对空间。

只有相对绝对空间无转动，才是真正的无转动，这时候水面才是平的；如果你相对绝对空间有转动，即便你们之间没有相对转动，水面也会是凹的。

牛顿就这样给了水桶实验一个自洽的说明，也顺带“证明”了绝对空间的存在。

然后，既然存在绝对空间，那绝对运动就是理所当然的事情了。有了绝对空间，配上伽利略变换，牛顿力学的所有定律就可以在惯性系里具有相同的数学形式，也就是满足相对性原理，完美！

通过水桶实验，牛顿试图向大家证明：绝对空间是存在的，相对绝对空间的运动（绝对运动）也是可以被实验证明的。

15马赫与水桶实验

然而，在很久很久以前，就有人持有一种与之截然相反的观点。

比如亚里士多德就认为：不存在绝对空间，空间只不过是物体的空间秩序。如果没有物体以及物体间的相互关系，空间就根本不存在，一个“空无一物”的绝对空间是没有任何意义的。

话虽然很拗口，但是想表达的意思却很简单。比如我问你国家图书馆在哪？你说在动物园的西面。我问你在哪，你说在公司。

当我们在回答“某个物体在哪里？”的时候，我们其实是在指明这个物体的周围有什么东西。

如果你处在空无一物的虚空里，问你在哪就没有任何意义了，空间也就失去了意义，这是一种相对主义的空间观。但牛顿肯定会反对，他会说即便在空无一物的虚空里，绝对空间依然是存在的。

这是两种完全针锋相对的观点。

在牛顿以及牛顿之后的两百多年里，因为牛顿力学的巨大成功，绝对空间的观点占据着压倒性的优势。

虽然在牛顿同时代就有人（比如莱布尼茨和贝克莱）批评绝对空间，但他们都只能从纯哲学的角度进行批判，无法触及绝对空间背后的大靠山——牛顿力学。因此，他们的批判显得没有多少份量，也没能引起物理学家的关注。

在牛顿力学统治世界200多年后，第一位重量级对手登场了，他的名字叫恩斯特·马赫。

马赫对牛顿力学和绝对时空观进行了深刻而又系统的批判，这些内容都写进了他的名著《力学及其发展的批判历史概论》（又名《力学史评》）里。

马赫是第二代实证主义大佬，实证主义这个词我在其它文章里也多次提到。

他们主张一切科学知识必须建立在观察和实验的基础之上，认为经验是知识的唯一来源和基础。他们旗帜鲜明的反对形而上学，认为科学是对经验的描写，我们不必也不应该去追问科学背后的“本质”，并且应该把那些无法观测的概念从科学里清除出去。

马赫和当时的实证主义虽然有些过分夸大经验的作用（这些后来也被爱因斯坦批评），但他们在当时的积极作用是非常明显的，影响了一大批相对论和量子力学初创期的物理学家。

实证主义哲学原本就是从现代自然科学的思想中发展起来的。哲学家们把它系统化之后，又反过来影响了一大批科学家，这是科学和哲学相互促进的一个典范。

因为有系统的哲学理论做后盾，马赫对牛顿力学进行深入而又系统的批判，这里最出名的就是马赫对绝对时空观的批判。为什么马赫要批判牛顿的绝对时间和绝对空间呢？

大家只要看一下绝对空间的定义，再想一下实证主义高举的大旗，就会明白这俩不打起来才怪。

为什么？实证主义主张科学知识必须建立在观察和实验的基础上，要把那些无法观测的概念从科学里清除掉。

而绝对空间是什么？能看到么，能摸到么，能被观测到么？都不能！

一个物理概念无法被任何实验观测到，那么它就只有形而上学上的意义，而不具备科学上的意义。所以，按照实证主义的原则，这种概念就应该被剔除掉。

当然，牛顿肯定会跑出来申辩，说我已经用水桶实验证明了绝对空间和绝对运动的存在，你怎么能说它们无法被观测呢？你怎么能凭空污蔑人的清白？

马赫嘿嘿一笑，心想牛顿终于祭出了他手里的王牌，看我怎么压死他的牌。

然后马赫就提出了一种全新的观点来解释水桶实验，并且试图向大家证明：解释水桶实验根本不需要什么绝对空间，这个实验也无法成为绝对空间的证明。

牛顿对水桶实验的解释是：如果水相对绝对空间没有转动，水面是平的；如果水相对绝对空间有转动，水面是凹的。

而马赫的实证主义背景不允许他使用绝对空间这种无法观测的概念。于是，他提出了一种水桶实验的新解释：如果水相对整个宇宙背景无转动，水面是平的；如果水相对整个宇宙背景有转动，水面是凹的。

咋一看有点懵，有人会说，马赫这不就是把绝对空间换成了整个宇宙背景吗，就改了一个名词而已，其它啥也没变啊。

是，确实就是只改了一个名词，但这个名词一改，整个意义就完全不一样了，为啥？

因为绝对空间是一个无法观测的概念，而整个宇宙背景却是我们实实在在可以观测到的东西，这就是根本区别。

当马赫把水相对整个宇宙背景是否转动作为判断标准时，他其实是在认为：宇宙中所有物质与水的相互作用，决定了水面是否会凹下去。而其它物质与水的相互作用，则完完全全属于可观测的物理学内容。

就这样，马赫基于实证主义的思想，利用全宇宙所有物质对水的相互作用代替了绝对空间，否定了牛顿的绝对时空观。然后也得到了一个自洽的水桶实验的解释，这些思想后来被爱因斯坦总结为马赫原理。

当然，口说无凭，马赫也想发展一套动力学理论来解释马赫原理，但是并不成功。

爱因斯坦创立广义相对论之后，觉得自己创建了一套符合马赫原理的理论。然后就像完成了老师夙愿的学生一样，兴高采烈地拿着广义相对论给马赫看，以求表扬，结果却被马赫一顿批评。

不过，随着研究的深入，大家发现广义相对论确实与马赫原理并不一致，这是后话。

16不存在绝对运动

马赫对爱因斯坦创立狭义相对论的影响是非常巨大的。

爱因斯坦在学生时代就读过马赫的《力学史评》，奥林匹亚科学院（大学刚毕业的爱因斯坦和几位朋友创建的一个以科学和哲学的交界问题为主题的学习小组。他们经常一起共同研读一本书，这也是我创建长尾社群的初衷和奋斗目标~）期间又跟朋友们仔细研读了这本书。

在仔细研究了马赫的思想之后，爱因斯坦的态度基本上就变成了：马赫说得对，牛顿的绝对时空观不可取。没有绝对空间和绝对运动，我们能观测到的都是相对空间和相对运动。

这是爱因斯坦跟其他老一辈物理学家们最大的区别。

因为爱因斯坦很年轻，牛顿力学的那套框架对他束缚不深。在他对新事物、新思想接受最容易的年纪，马赫对牛顿力学进行了深入而又系统地批判，对休谟《人性论》的研读又大大增加了他怀疑一切的勇气。

所以，在其他物理学家还在试图通过对牛顿力学这套框架的修修补补来解释各种新实验的时候，爱因斯坦早已坚信“不存在绝对运动”了。

于是，他的问题就变成了如何协调牛顿力学和麦克斯韦电磁理论，而不是试图用牛顿力学去解释一切。

看懂了这点，我们才能明白爱因斯坦的那些神来之笔，那些似乎是从天而降的天才想法是怎么来的。才能明白为什么爱因斯坦跟其他物理学家的思路不一样，为什么他会捷足先登创立狭义相对论。

理解了爱因斯坦坚信不存在绝对运动，就很容易理解对于洛伦兹1895年的那篇论文，为什么爱因斯坦一方面对洛伦兹在那些“技术上”的处理非常满意，另一方面又对洛伦兹的静止以太假设非常排斥了。

不存在绝对运动，也就是说只有两个物体之间的相对运动才是实在的。那么，两个做匀速直线运动的物体就不存在谁更特殊的问题，它们应该都是等价的，这也是相对性原理的体现。

但是，在洛伦兹的静止以太假说里，以太系始终是那个最为特殊的参考系，它与其它参考系并不等价。

虽然洛伦兹从来没有说他的静止以太就是牛顿的绝对空间，但从它的性质来看，一个没有任何力学性质的纯背景墙式的静止以太，跟绝对空间也没什么大的区别了。

所以，爱因斯坦断然无法接受。

牛顿认为存在绝对空间，通过伽利略变换，可以让牛顿力学的定律在那些相对绝对空间匀速直线运动的参考系里也能保持数学形式不变。

洛伦兹认为存在静止的以太，通过引入地方时和对应态定理，可以让电磁定律在那些相对以太匀速直线运动的参考系里保持数学形式不变。

牛顿和洛伦兹处理问题的内核是一致的。

马赫认为不存在绝对空间，那么所有相互做匀速直线运动的惯性系就应该是真正完全等价的，并没有哪一个更加特殊。而物理定律对所有惯性系平权，并不存在一个更加优越的参考系，这正是狭义相对论里相对性原理的精髓。

也因为如此，一些被洛伦兹认为只是纯数学技巧，只是为了通过这种变换方便在以太系处理问题的手段，在爱因斯坦的眼里就有了物理意义。因为对爱因斯坦来说，每一个惯性系都是同等真实的，一切能观测到的效应，都应该是相对运动造成的。

从哲学的角度来看，如果爱因斯坦接受了马赫的批判，就应该认为不存在绝对运动不仅对力学有效，对电磁理论也应该是有效的。所以，电磁理论满足相对性原理就应该是理所当然的事情。

当然，如果只是从哲学上的思辨，就认为电磁理论也应该满足相对性原理，似乎显得说服力不够。在这种环境下，爱因斯坦深入思考了一个非常有名的实验，这个思考让他彻底坚信电磁理论必须满足相对性原理，也让他发现了电和磁在新理论里应该具有的地位。

这应该也是爱因斯坦创立狭义相对论过程中最重要的一个实验，其地位远远超过光行差、斐索流水、迈克尔逊-莫雷之类的实验。

爱因斯坦在《论动体的电动力学》的开篇就用了整整一段话来描述这个实验，而对其他人都很重视的以太漂移实验一笔带过。这就是大家都非常熟悉的法拉第电磁感应实验。

17电磁感应之思

为了让大家对此有更加细致的了解，我把狭义相对论论文的开头部分直接摘抄过来：大家知道，麦克斯韦电动力学——像现在通常为人们所理解的那样——应用到运动的物体上时，就要引起一些不对称，而这种不对称似乎不是现象所固有的。

比如设想一个磁体同一个导体之间的电动力的相互作用。在这里，可观察到的现象只同导体和磁体的相对运动有关，可是按照通常的看法，这两个物体之中，究竟是这个在运动，还是那个在运动，却是截然不同的两回事（摘自《论动体的电动力学》第一段）。

1831年，法拉第报告了电磁感应现象，他发现一根导体在磁铁周围做切割磁感线运动时，回路里会产生电流，也就是磁能够生电。

当然，法拉第还做了各种实验，总结了磁能生电的各种情况，这里我就不细说了。

爱因斯坦关注的重点是：法拉第发现只要导体跟磁铁之间有相对运动就能产生电流，而不管你是导体不动磁铁动，还是磁铁不动导体动。

但是，当时的理论对这两种情况的解释却是截然不同的。

为了让大家更直观地了解这个实验，也为了让它更加符合相对论实验的一贯风格，我把它等价地搬到火车上来。

实验很简单：在火车上放一个导体和导线组成的回路，地面上放一块磁铁。火车开动后，火车上的导体就会切割地面磁铁产生的磁感线，从而在回路里产生电流。

这是一个非常简单的电磁感应实验，类似的实验法拉第做了一大把，我这里只不过把导体回路放在了火车上而已。

实验结果也毋庸置疑：运动导体切割磁感线，回路里一定会产生电流。但是，当我们分别站在地面（磁体不动导体动）和火车上（导体不动磁体动）看问题时，爱因斯坦在论文里说的问题就出现了，有意思的事情也随之而来。

在火车上，我们看到的是：眼前的导体和回路都没动，当火车经过磁铁那里时，回路里的磁感线突然增加了，也就是出现了变化的磁场。

那么，我们要如何解释这个现象呢？

很简单，根据法拉第定律，变化的磁场会产生电场。所以，回路里会出现电场，导体中的自由电子就在电场的作用下定向移动，于是回路里就产生了电流。

在地面上，我们看到的是：磁铁在地面静止不动，磁感应强度没有变化。火车经过这里时，火车上运动的导体会切割磁铁产生的磁感线。

这时候我们是如何解释的呢？

我们会说，导体里有很多自由电子，火车运动时，这些自由电子也会跟着一起运动，而运动电子在磁场中会受到洛伦兹力。所以，当火车经过磁铁上方时，电子就会在洛伦兹力的作用下定向移动，于是在回路中形成电流。

因此，不管站在地面还是火车上，我们都能得出正确的结果。

但是其他人并不这样看，他们认为电磁理论只在以太系中才成立，在其它参考系里是不成立的。

因此，他们觉得只有站在地面上的人做的分析才是正确的，火车上的人则是在错误地使用电磁理论（因为火车系不是以太系）。而他们之所以都能给出正确的结果，那仅仅是一个巧合。

一个巧合，一个巧合，一个巧合！！！

重要的事情说三遍！我觉得在面对巧合这个事情上，是最能体现爱因斯坦之所以是爱因斯坦的。

科学上有各种各样的巧合，那么哪些是真巧合，哪些只是看起来像巧合，背后还有更深层的原因没有被发现？

要回答这些并不容易，它需要我们对这些问题进行深入而透彻的思考。而很多东西一旦变成了常识，就很难再引起人们的注意，但是爱因斯坦一直对它们保持着警觉。

爱因斯坦自己倒是很谦虚地说，这是因为他智力发育比较慢，所以，很多同龄人已经思考过的问题，他没有想通。于是，他就继续琢磨，这样想问题就想得深入了一些。

当然，爱因斯坦说他智力发育比较慢，你信吗？

但是他确实一直都像孩子一样，对许多大人们都习以为常的东西继续刨根问底。

几年以后，爱因斯坦又从“惯性质量等于引力质量”这个被大家视为巧合的地方开始深思，最后创立了广义相对论。

长尾社群有一个六年级的小学生，他说他学习新知识比较慢，因为他无法接受自己知识体系以外的东西。所以，他需要把新知识充分理解吸收，变成原来知识网络的一部分之后才敢放心大胆的往前走。

这种慢，跟爱因斯坦的“智力发育比较慢”颇有些类似之处。

18相对性原理

好，回到正题。

地面系和火车系对电磁感应的看法不一样，但是都能给出正确结果。

别人觉得这是个巧合，爱因斯坦却认为这分明是在暗示我们：电磁理论在地面系能用，在火车系也能用，这是电磁理论满足相对性原理的铁证。

但是，我们刚刚也分析了：火车上的人觉得变化的磁场产生了电场，磁铁附近有电场；地面上的人觉得是运动电子在磁场中受到了洛伦兹力，磁铁附近没有电场。

还有个大家更为熟悉的例子：火车上有一个静止的电荷，火车系会觉得这里只有电场没有磁场；地面的人会觉得这个电荷在动，而运动电荷会产生磁场，所以这里有磁场。

从这里我们可以看到，火车系能看到电场或者磁场，地面系却不一定能看到，反之亦然。这是很多人认为电磁理论不满足相对性原理的铁证，他们觉得电场、磁场这么实实在在的东西，怎么能在一个参考系里有，在另一个参考系里又没了呢？

所以，唯一合理的解释就是电磁理论不满足相对性原理，它只在某些参考系（比如以太系）成立，在其它参考系是不成立的。

但是，如果爱因斯坦坚信电磁理论也满足相对性原理，那么地面系和火车系看到的现象就必须同等真实。

这样的话，他就只能认为单独的电场和磁场都是相对的，只有电和磁的总和才是客观实在，这就很有狭义相对论内味了。

于是，我们就可以用一种统一的方式处理地面系和火车系的问题，爱因斯坦在论文开头提到的那种不对称性也随之消失了，这不是很好么？

爱因斯坦对这个实验的印象是如此之深，以至于他在论文的开头花了整整一段来讲它。

讲完之后他接着写到：诸如此类的例子，以及企图证实地球相对于“光媒介”运动实验的失败，引起了这样一种猜想：绝对静止这概念，不仅在力学中，而且在电动力学中也不符合现象的特性。倒是应当认为，对于力学方程适用的一切坐标系，对于上述电动力学和光学定律也一样适用。对于第一级微量来说，这是已经证明了的，我们要把这个猜想提升为公设。

这个公设自然就是狭义相对论的两大基本假设之一的相对性原理：一切物理定律（包括力学、电磁学、光学）在所有的惯性系里都是等价的，它们的数学形式在所有的惯性系里都相同。

伽利略只说力学定律满足相对性原理（上一篇文章里详细说了），爱因斯坦则把它的范围扩大了，认为电磁定律、光学定律也应该满足相对性原理。

而对于光行差、斐索流水等著名的以太漂移实验，爱因斯坦在论文里只提了一句“以及企图证实地球相对于光媒介运动实验的失败”，然后就没有了。

另外，他在后面也写了“对于第一级微量来说，这是已经证明了的”。这里特意提到v/c一阶量级，也说明他没怎么重视迈克尔逊-莫雷实验这个v²/c²二阶量级的实验。

这样，结合前面各种实验、理论以及哲学上的分析，爱因斯坦就正式回答了文章开篇的灵魂拷问：电磁理论是否满足相对性原理？

他坚定地回答：是！

而一旦认定电磁理论满足相对性原理，那所有的惯性系就都等价了，电磁定律也将在所有的惯性系里成立。与此同时，搞特殊的以太系将不再有任何立足之地。

19真正的困难

就在爱因斯坦一路高歌猛进，试图用这种思路协调牛顿力学和麦克斯韦电磁理论的时候，他遇到了一个困难，一个真正棘手的困难。

如果我们认为电磁定律满足相对性原理，那么麦克斯韦方程组就应该在所有的惯性系里都成立。

在《见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？》里我就给大家推导了，我们可以在不预设参考系的条件下直接从麦克斯韦方程组推出电磁波的速度就是光速c。

现在相对性原理说麦克斯韦方程组在所有的惯性系里都成立，那我自然就可以在所有的惯性系里都推出电磁波（光）的速度是c。

也就是说，光在所有惯性系里的速度都是c，它不随着参考系的改变而改变。我们知道这就是后来的光速不变原理。

当然，我们似乎可以直接从麦克斯韦方程组和相对性原理推出光速不变来。

但是，麦克斯韦方程组在当时的地位还没有这么稳固，许多人基于光速可变对麦克斯韦方程组做了各种令人难以置信的修改。爱因斯坦也考虑过一些发射理论，但都失败了。

所以，爱因斯坦最后还是选择把光速不变作为一条单独的原理提出来，而不是作为相对性原理和麦克斯韦方程组的推论。

不管怎样，在爱因斯坦创立狭义相对论的过程中，光速不变实在显得太过荒谬，完全跟常识相悖。

你想想，怎么能一个物体的速度在所有的惯性系里都一样呢？在一辆速度为300km/h的高铁上，列车员以5km/h速度朝车头走去。那么，火车上的人会觉得列车员的速度是5km/h，地面上的人觉得他的速度是300+5=305km/h。

火车系和地面系当然会觉得列车员的速度不一样，而且就差了火车的速度300km/h。你要说地面和火车上的人觉得列车员的速度是一样的，别人估计要建议你去看眼科了。

而现在，我们只要让麦克斯韦方程组满足相对性原理，就必然会得出火车系和地面系觉得光速都一样的结论，这不反了么？

明明电磁理论应该满足相对性原理，那为什么让麦克斯韦方程组满足相对性原理就会导致光速不变这个怪物呢？怎样才能把它们协调起来呢？

这个问题把爱因斯坦折磨得死去活来的，他写到：“为什么这两件事情彼此矛盾，我感到这个问题难以解决。我怀着修正洛伦兹某些思想的希望，差不多考虑了一年，毫无结果。这时候我才认识到，它真的是一个难解之谜。”

也就是说，爱因斯坦花了整整一年时间去思考这个问题，但没有任何结果。

在一个阳光明媚的日子，爱因斯坦去拜访了好友兼同事的贝索。他们就这个问题讨论了很多，然后爱因斯坦突然就明白了。第二天爱因斯坦又去看贝索，开口就说：“太感谢你了！我已经完全解决这个问题了。”

解决这个问题的5周以后（注意爱因斯坦当时在专利局上班，他只能用业余时间写论文），爱因斯坦就发表了划时代的论文《论动体的电动力学》。

在这篇论文里，他没有引用任何文献，没有提到任何当代著名的科学家。唯独在论文的最后写了这么一小段：“最后，我要声明，在研究这里所讨论的问题时，我曾得到我的朋友和同事贝索的热诚帮助，要感谢他一些有价值的建议。”

也就是说，贝索是爱因斯坦在狭义相对论的论文里唯一明文感谢的人。

他那天到底跟贝索聊了啥，我们现在是没法知道了。但是，我们试着猜想一下，看看爱因斯坦在1905年初到底知道些什么，困扰他的问题又是什么，要怎样才能合理地解决这些问题。

20对应态定理

这个问题的产生很简单：只要我们认为麦克斯韦方程组满足相对性原理，就一定会推出光速不变这个难题。

在经历了这么多的思索以后，爱因斯坦已经坚信电磁定律必须满足相对性原理了。所以，他要做的是想办法协调相对性原理和光速不变，而不管它们看起来有多矛盾。

那要怎样协调呢？

爱因斯坦肯定会想到洛伦兹1895年的论文，因为洛伦兹在这篇论文里提出了一套满足相对性原理的一阶电磁理论。这一点爱因斯坦自己也说了：“我怀着修正洛伦兹某些思想的希望，差不多考虑了一年。”

当然，在洛伦兹眼里，他提出的是一套在以太系和相对以太做匀速直线运动的参考系都适用的电磁理论。但是爱因斯坦根本不相信有什么绝对静止的以太，所以，在他眼里这就是一套满足相对性原理的一阶理论。

也就是说，洛伦兹最起码在v/c一阶情况下让它们协调了起来，那爱因斯坦肯定要来这里找找灵感啊。

那洛伦兹是如何做到这一点的呢？他的核心是证明了一个叫对应态定理的东西。

对应态定理是说，如果我们在相对以太静止的参考系（x,t）里考虑一个电磁状态，用E、H、P分别表示电场、磁场、电极化矢量。

那么，在相对这个参考系以速度v运动的新参考系（x’,t’）里，就存在一个对应的态E‘、H‘、P’。在v/c一阶情况下，它们作为x’与t’的函数，与E、H、P作为x与t的函数，在数学形式上是一样的。

在这两个参考系里，这些量的对应关系是这样的（x表示x轴坐标，t表示时间）：

是不是有点拗口？

确实有点，我这里主要是想保留洛伦兹思想的原汁原味，所以没做什么改动。

那些电磁物理量大家没必要去细究，洛伦兹的主要意思是：如果我在一个新的参考系里把横坐标x’和时间t’写成上面这个样子。那么，在一阶情况下，那些电磁物理量的数学形式就可以跟原来的保持一致。

这不就是说它们在v/c一阶下满足相对性原理么？

牛顿力学是通过伽利略变换满足相对性原理的，我们来看看洛伦兹采用的时空变化关系。也就是从一个惯性系变换到另一个惯性系时，时间坐标和空间坐标要怎么变：

在相对原来参考系以速度v运动的新参考系里，空间坐标x’=x-vt是非常正常的。它们之间就差了一个参考系的运动速度和时间的乘积（就像你在地面和火车的距离，就差了火车的速度乘以时间一样），伽利略变换里也是这样。

关键就是这个时间t’了，它和t之间有一个从来没见过的复杂关系，而且还跟光速c有关。

洛伦兹发现只有把t’写成t’=t-vx/c²这个样子，那些电磁物理量才能在两个惯性系里都保持一样的数学形式。可能他也不明白为什么要这样写，但是发现只有这样写，才能满足相对性原理。

所以，对洛伦兹来说，这只是一个纯粹的数学技巧，没有什么真实的物理意义在里面。于是，洛伦兹把t称为一般时，而把t’成为地方时（local time）。

从名字你也能看出来，洛伦兹认为相对以太系静止的t才是一般意义上的时间，是真实的时间。而t’只是一个地方时，只是为了满足对应态定理而增加的一个数学技巧。

爱因斯坦肯定能看到地方时在这里起的重要作用，这个陌生的概念是保证洛伦兹的电磁理论在一阶情况下满足相对性原理的关键。

于是就出现了他自己说的，试图扩展洛伦兹的某些思想，但是失败了。

虽然扩展失败了，但洛伦兹引入的地方时和对应态定理的思想，肯定给爱因斯坦留下了非常深刻的印象。他也应该能隐隐约约感觉到，问题的关键应该就出在时间、地方时这里。

21时间

提到时间，我们就会想到钟表，提到钟表立马就会想到钟表王国瑞士。巧得很，爱因斯坦就是瑞士伯尔尼专利局的职员。

那时候火车刚刚兴起，各个火车站之间的时间校准是一个很麻烦的问题。于是，爱因斯坦经常会收到各种关于时钟校准的专利申请。

比如，给你两个钟，你要如何校准它们呢？

如果这两个钟就在一个地方，我们直接校准它们就行了。但问题是，如果它们一个在北京站，一个在武汉站，那要怎么办呢？

也好办，只要假定光在空间中速度都一样（其实就是假定空间的均匀性），我们从北京站发射一个光信号到武汉站，再让信号返回北京。利用时间和路程的关系，校准这两个时钟也是很容易的事情。

既然异地时钟是可以被校准的，那么我们就可以用一个与自己相对静止的时钟来记录自己所在参考系的时间。

比如，我在火车上放一个时钟，这个时钟的读数就表示火车系的时间；我在地面放一个时钟，这个时钟就记录了地面系的时间。

为什么这个事情会搞得这么麻烦，很多人表示难以理解。他觉得时间嘛，不就是那个，那个，反正就是那个在那里的东西。虽然具体他也说不清楚，但是觉得时间应该是一个不言自明的东西。

你看，你要是连自己都说不清楚，你要怎么说服马赫？

前面我们说了，马赫对绝对时间和绝对空间的批判对爱因斯坦影响很大。马赫从实证主义的立场出发，认为绝对时间、绝对空间这种无法观测的物理量是没有科学上的意义的，它们只是一些形而上学概念，应该被抛弃。

所以，充分领会了马赫精神的爱因斯坦在考虑时间时，必然也要把时间建立可观测的基础之上，而可以用来观测时间的仪器自然就是时钟。

因此，爱因斯坦在说某个事件的发生时间时，他不再想着有个绝对时间，而是想着这个事件发生处时钟的读数，所以我们要谈时钟的校准。

异地时钟校准了，我们就可以判断两个异地事件是否同时发生了。因为我们假设了空间的均匀性，所以也可以直接用两个事件发射的光信号是否同时达到它们的中点来判断它们是否同时发生。

这样，同时性这个概念也可以用具体的实验来判断了，这很实证主义。然后，我估计就没有然后了……

22最后的沉思

总之，现在爱因斯坦的头脑里装着各种各样的想法，有洛伦兹的对应态定理、地方时的概念，也有深受马赫影响要抛弃绝对时间的执念，也有关于时钟的同步，同时性的判断（庞加莱的《科学与假设》里也写了这方面的内容）等问题。

很多线索都指向时间这个概念，时间是可疑的！

但爱因斯坦并不能把它们完全理顺，融会贯通。他需要一个契机，跟贝索的讨论就是这个契机。贝索作为一个局外人，肯定注意到了爱因斯坦某些没注意到的地方，或者贝索的某些无心之言刚好提醒了爱因斯坦。

于是，爱因斯坦陷入了沉思……

“没有绝对时间，有意义的只是时钟记录的时间。”

“任何关于时间的判断都是对同时性的判断。比如火车7点到站，它意思是火车到站这个事件跟我时钟的短针指到7这个事件是同时发生的。”

“两个异地事件是否同时发生，可以用闪光是否同时到中点来判断。”

“洛伦兹用对应态定理成功地在v/c一阶情况下解决了电磁理论满足相对性原理的问题，他的核心就是用一个叫地方时的概念来代替运动系里的时间。这虽然只是一个数学技巧，但看起来，就仿佛好像在运动系里真的有一个独立的时间似的。不知道的人一看这个公式，搞不好还真以为有两个时间……”

“慢着，两个时间？”爱因斯坦突然神情紧张，表情凝重，周围一片空灵，一个极为大胆的念头从他的头脑里一闪而过。

“如果我真的认为洛伦兹引入的地方时就是真正的时间呢？本来就没有绝对时间，那么每个参考系就都可以用自己携带的时钟来测量自己的时间。”

“如果我认为地方时才是真正的时间，那么每个参考系的地方时才是他们的时间，这样洛伦兹的电磁理论满足相对性原理反而就有了物理意义。那么，对应态定理中时间项的复杂关系，难道是在暗示两个参考系的时间的确不一样？”

“慢着慢着，有可能是这样的么？这个想法太大胆，太疯狂了。如果两个参考系的时间不一样，而且它们在一阶精度下存在对应态定理说的那种关系。那么在一个参考系里认为是同时发生的两个事件，在另一个参考系里就有可能被认为不是同时的。”

“同时性的概念也很好判断，用两个闪光是否同时到达中点就行了。假设地面系看到两道闪电同时击中车头车尾，火车中点有一个人，那么闪光在传播的过程中火车肯定要前进一段距离。于是，火车中点的人必然会先看到来自车头的光，后看到来自车尾的光。”

“如果牛顿在这里，他肯定要说来自车头的光速要大一些（要加上火车的速度），来自车尾的光速要小一些（减去火车的速度）。所以，来自车头的光比来自车尾的光的运动时间要短一些，而它们又是同时发出的（火车系也觉得事件是同时发生的，即同时的绝对性）。所以先看到车头，后看到车尾的光很正常，我用牛顿力学都解释几百年了。”

“慢着，牛顿说什么？来自车头的光速要大一些，等于光速加上火车的速度？不对啊，我从麦克斯韦方程组满足相对性原理出发，立马就得到了光在所有的惯性系里的速度都一样，都是c，怎么可能出现比光速大一些的情况？”

“那牛顿的解释就不靠谱了。如果我认为光的速度在地面和火车都是c的话，火车系觉得两束光走了相同的距离，光速也相同，那么它们在火车上传播的时间就必须也相同。“

“但是不对啊，如果它们的传播时间一样，火车上为什么会先看到来自车头的光，后看到来自车尾的光呢？传播时间一样，中点看到光的时间却不一样，唯一的解释就是它们并不是同时发出的。但是地面系明明觉得它们是同时发生的啊，这里怎么又不同时了呢？”

”对了，我现在在火车上，凭什么地面系觉得同时，火车系就必须也觉得同时呢？仔细一想，好像确实没有理由要求它们非如此不可。难道这才是问题的关键？难道只要接受了同时的相对性，上面的矛盾就消失了？”

“对，这正是问题的关键：地面系觉得同时发生的两个事件，火车系就是觉得它们不是同时发生的，闪电击中车头的事件先发生！”

“如果这样的话，我就从电磁理论满足相对性原理逼出了光速不变，光速不变又要求不同参考系对同时性有不同的判断。每个参考系都有自己的时间（地方时），它们按照对应态定理那样联系，这样就又满足相对性原理了。”

“从相对性原理逼出光速不变，经过同时的相对性又回到了相对性原理。OMG，这意味着什么？这不就意味着相对性原理、光速不变协调了么？”

“只要我们假定地方时才是真的时间，对应态定理出现的两个不一样的时间，在光速不变的情况下竟然真的不一样。于是，不同参考系里的时间就是不一样的（一阶相对性原理时间项表达式），同时性也是相对的（上面光速不变的推论）。”

“这不就刚好同时满足相对性原理和光速不变了么？也就是说，只要我认为每个参考系都有自己的时间，同时性是相对的，那我进可以满足相对性原理，退可以跟光速不变相容。这样一切矛盾就都烟消云散了！！！”

爱因斯坦抑制不住内心的狂喜，他知道只要协调了相对性原理和光速不变，就能解决牛顿力学和麦克斯韦电磁理论之间的矛盾。

只不过，他没想到问题的关键竟然在地方时，在同时的相对性上。对人们根深蒂固的时间观念动了如此大的手术，一场大地震看来是不可避免了。

再回过头想想，问题的关键还是在牛顿的绝对时间上。

只要脑海里还有意无意地保留绝对时间的想法，那么任何试图协调相对性原理和光速不变的尝试都注定会失败。而要让自己接受每一个参考系都有它自己独立的时间，这太疯狂，也太难了。

如今相对性原理和光速不变已经不矛盾了，顺着这个思路，爱因斯坦很快就把理论的各个部分串起来了。

从相对性原理和光速不变出发，他很快就独立推导出了联系两个惯性系之间的变换，也就是洛伦兹变换。然后拿麦克斯韦方程组来验算，发现它果然可以在洛伦兹变换下保持数学形式不变，电磁理论的确满足相对性原理。

再看看旁边的牛顿力学，牛顿力学可以在伽利略变换下保持数学形式不变，也就是具有伽利略协变性。而当速度远小于光速时，洛伦兹变换就可以退化为伽利略变换。

所以，牛顿力学肯定是某种更深刻的力学的低速近似。这种新力学的核心性质，就是它的所有定律都必须在洛伦兹变换下保持数学形式不变，也就是具有洛伦兹协变性。

那么，我们用洛伦兹变换代替伽利略变换，对牛顿力学进行一番改造，升级之后的新力学就必然在接近光速时也能适用了，这就是后来的相对论力学。

这样，以洛伦兹协变性为核心的狭义相对论就正式诞生了。

23狭义相对论

很多人看的相对论科普书和教材的逻辑是这样的：从开尔文著名的两朵乌云引出迈克尔逊-莫雷实验，然后说这个实验“否定了以太，证明了光速不变”。

然后说爱因斯坦因此提出了光速不变原理，再从光速不变（相对性原理似乎就是透明的存在）推出了狭义相对论的几个常见的效应，比如尺缩、钟慢、双生子效应。再讲一下质能方程，狭义相对论就算讲完了。

这给人的感觉，似乎狭义相对论就是一套从两个假设出发，专门推出一些稀奇古怪结论的东西。让人觉得相对论的核心就是这些反常识的内容：时间能变慢，空间能收缩，光速是极限，“天上一日，地上一年”也不再是神话。

当然，用这些东西用来吸引大众眼球，博取路人缘是非常不错的。但是，如果你以为这就是狭义相对论的核心，那就太肤浅了。

大家看看这篇和上一篇文章，你会发现都是围绕相对性原理来的，上面我也说了狭义相对论的核心就是洛伦兹协变性。

其实，我们可以把相对论理解为一个形容词，一个修饰性的词语。

比如，我们研究力的相互作用的学问叫力学。如果一套力学定律在洛伦兹变换下可以保持数学形式不变，也就是具有洛伦兹协变性，那么它就是相对论性的，我们可以称之为相对论力学。

牛顿力学只具有伽利略协变性，所以他不是相对论力学。

为什么我们没有听到有人说相对论电磁学或者相对论电动力学呢？

因为电磁理论天生就具有洛伦兹协变性，因此它天然就具有相对论性，所以我们就不用加相对论这个前缀了（难道你还能找出非相对论的电动力学出来？）。

这个在量子力学里体现得更明显。

在学习薛定谔方程那一套的时候，老师会明确地告诉你，我们现在学的是非相对论性量子力学，也就是无法在洛伦兹变换下保持数学形式不变的量子力学。

当然，有了相对论这么好的东西，大家当然希望薛定谔方程也能具有洛伦兹协变性。于是就有了后来的狄拉克方程、克莱因-高登方程，这一套新理论就叫相对论性量子力学。

不过，相对论性量子力学有一些无法克服的致命问题，这些问题直到把场论的思想引进来之后才得到圆满的解决。

于是，这套具有相对论性的量子力学在吸收了场论的思想以后，形成的新理论就叫量子场论。这是标准模型的基础，它显然也是具有洛伦兹协变性的。

我这样说，大家对相对论会不会有个全新的认识呢？

24升级牛顿力学

相对性原理是一个地位非常高的原理，它背后有着深刻的哲学和美学思想。

伽利略协变性和洛伦兹协变性都只是相对性原理的具体体现。区别在于：伽利略变换下的速度是直接叠加的，而洛伦兹变换下的速度叠加则比较复杂，到光这里它就刚好不变了（即光速不变原理）。

至于尺缩钟慢，它们只是相对论里的两个普通结论，切不要以为相对论就只是这些东西。

爱因斯坦发现用洛伦兹协变性取代伽利略协变性就能解决牛顿和麦克斯韦的冲突之后，自然要修改牛顿力学里的一些东西，让它们也具有洛伦兹协变性。

比如，动量守恒定律这么重要的定律，牛顿力学下的动量守恒肯定是伽利略协变的，那要怎么办呢？

如果我们直接把牛顿力学里的动量守恒定律搬到相对论力学里来，这个定律肯定不具有洛伦兹协变性。那么它就不是相对论力学里的定律，也就是说相对论里动量守恒不再成立。

但是，动量守恒定律这么重要的东西，我们不能说放弃就放弃啊，那损失太大了。

理想的做法是：我们修改一下动量的定义。牛顿力学里的动量是质量乘以速度，但是这样定义的动量在相对论力学里无法凑出动量守恒。所以我们就稍微改一下，让修改之后的定律既能保持动量守恒的形式，又具有洛伦兹协变性，那我们就可以继续在相对论里愉快地使用动量守恒定律了。

也因此，很多力学量的定义，在牛顿力学和相对论力学里是不一样的。初学者搞明白这点，可以减少很多不必要的困扰。

25假装的收尾

好，文章到这里差不多就可以收尾了。

这篇文章的主题是相对论的诞生，在爱因斯坦把相对性原理和光速不变作为两条基本假设，并且通过对时间的分析解决了两者的矛盾以后，狭义相对论的创建工作基本上就完成了。

至于从这两条基本假设出发，推出洛伦兹变换、尺缩钟慢、新的速度叠加公式等在教材了占了很大篇幅的东西，都是非常简单的事情。一个训练有素的物理专业本科生都能轻松完成这些工作。

这点我们从狭义相对论的创立时间表里也能一窥一二：爱因斯坦花了10年时间思考狭义相对论，用了整整1年时间去协调相对性原理和光速不变。协调好以后，他仅仅用了5周的业余时间就从两个基本假设出发推出了那些结论，并发表了论文。

如果你觉得创立狭义相对论并没有你想象的那么困难，那是因为你低估了把相对性原理和光速不变同时列为基本假设所需要的智慧和勇气。

所以，我整篇文章的核心，都是在告诉你为什么爱因斯坦会坚信电磁理论也满足相对性原理，以及他又是如何协调相对性原理和光速不变之间的矛盾的。

只有明白了这些，你才能真正明白爱因斯坦是如何创立狭义相对论的，其中的难点在哪，爱因斯坦的过人之处又在哪，为什么其他科学家没有这样想。

也会明白无论多么伟大的科学家提出多么天才的理论，其背后都是有理可寻、有据可依，绝不是凭空拍脑袋就能想出来的。学习物理没有捷径，千万不要以为即便没有基础，只要想到一个绝妙的点子就能扬名立万，媲美爱因斯坦。

对长尾科技来说，再复杂的科学，也有简单的逻辑。我帮你把它们背后的逻辑理都清楚，你就会觉得一切都很自然了~

至于如何从这两个假设推出相对论的那些结论的，我就不在主线（后台回复“主线”可以查看所有的主线文章）里说了，公众号后面开狭相支线再慢慢讲吧。

26从归纳到演绎

此外，通过对爱因斯坦创立狭义相对论这段科学史的研究，我们也发现很多流行的观点和看法是不对的。把今天的观念和想法有意无意地加在历史上，必然会出现各种问题。

比如，我们现在学习的理论里没有以太，很多人就觉得没有以太是理所当然的，但事情远没有想象的那么理所当然。

很多人以为迈克尔逊-莫雷实验否定了以太，看了这篇文章，大家就会知道压根就不是这么回事。

别说迈克尔逊在做了这个实验之后，他本人也只是否定了菲涅尔的部分曳引假说，从而转向了斯托克斯的完全曳引假说。

就连对这个实验研究了很久的洛伦兹，在提出了长度收缩假说以后，依然在坚定地使用以太。

科学家们在迈克尔逊-莫雷实验出来很多年后，甚至在狭义相对论出来以后，都还在讨论以太的各种问题，怎么能说这个实验否决了以太呢？

我们比较恰当的说法大概是：狭义相对论不需要以太，仅此而已。

我在文章里也分析了，狭义相对论的创建跟迈克尔逊-莫雷实验并没有什么直接的关系。这个实验直接影响了洛伦兹，而洛伦兹1895年的论文部分影响了爱因斯坦，仅此而已。

与此同时，马赫对绝对时空观的批判，爱因斯坦对电磁感应现象的分析，光行差和斐索流水实验都对狭义相对论的诞生产生了非常大的影响。

爱因斯坦主要是从协调牛顿力学和麦克斯韦电磁理论的角度思考相对论问题的，这里占主导地位的是演绎和思辨，迈克尔逊-莫雷实验这种具体的实验产生的影响倒是非常次要的。

爱因斯坦追求的是一种普遍性的自然法则，他在《自述》中写到：渐渐地我对那种根据已知事实用构造性的努力去发现真实定律的可能性感到绝望了。我努力得越久，就越加失望，也越加相信，只有发现一个普遍形式的原理，才能使我们得到可靠的结果。

这段话说得非常直白了。像洛伦兹那样试图根据已知事实（迈克尔逊-莫雷实验）去发展一套解释它们的新理论，爱因斯坦对这种完全被实验拖着鼻子走的归纳法感到绝望了。

然后，他就更加坚信，只有发现了像相对性原理和光速不变原理这样普遍形式的原理。我们从这些可靠的原理出发，利用演绎法推导各种结论（就像欧几里得从五个公设推出《几何原本》里那么多命题一样），才可能得到可靠的结果。

也就是说，爱因斯坦从归纳法走向了演绎法。

这可能也是爱因斯坦多次对外强调迈克尔逊-莫雷实验对他创立狭义相对论影响不大的原因。因为他非常不想让大家以为光速不变是从迈克尔逊-莫雷实验归纳出来的，而他对这种归纳法早已绝望了，这点我们要特别注意。

此外，相信大家也明白了：只要认定麦克斯韦方程组满足相对性原理，光速不变就是一个必然会出现的结论。而且，我们真正的困难也不是光速不变本身，而是如何协调光速不变和相对性原理之间的矛盾。

所以爱因斯坦要极力澄清这个事，不然大家对他通过先确定普遍形式的原理，然后通过演绎创立狭义相对论的方法论就完全会错意了。

27奥林匹亚科学院

至于如何找到这种普遍形式的原理，可能就要靠思辨了。

这里既有哲学上的思辨（比如马赫从实证主义立场批判绝对空间和绝对运动），也有对实验进行的逻辑分析（比如电磁感应现象并不是现有理论无法解释，但是对它的分析却能暴露出现有理论的内在逻辑问题），兼具哲学家的思辨能力和科学家的洞察力是爱因斯坦一个非常鲜明的特点。

大学刚毕业的时候，爱因斯坦跟几个朋友创建了一个叫奥林匹亚科学院的学习小组。小组的成员有学习物理的，有学习哲学的，也有工程师。

他们一起阅读大师们的著作，探讨科学和哲学交界的问题。比如马赫的《感觉的分析》、《力学史评》，庞加莱的《科学与假设》，休谟的《人性论》，斯宾诺莎的《伦理学》，穆勒的《逻辑学》，皮尔逊的《科学规范》等等。

奥林匹亚科学院的读书活动持续了3年半（1902-1905），刚好就是爱因斯坦的研究生阶段。

这一阶段的活动对爱因斯坦创立狭义相对论产生了极为重要的影响：马赫解放了爱因斯坦的思想，让他敢于突破牛顿的绝对时空观；庞加莱的非凡洞察力加速了他的相对论思想的形成；休谟关于因果律的批判，斯宾诺莎的唯理论思想都让爱因斯坦逐步放弃让人绝望的归纳法，转而走向演绎法；跟不同领域朋友的深入讨论也加速了相对论思想的形成，贝索更是唯一一个他在论文里明文感谢的人。

正因为爱因斯坦这份非主流的“研究生”履历，他思考相对论的方式和研究方法都跟其他物理学家不太一样，这也是大家容易误解爱因斯坦的一个原因。

爱因斯坦成名以后，很多记者跑来向他打听童年的事。爱因斯坦说：“你们为什么总喜欢问我童年怎么样，而不问我在奥林匹亚科学院怎么样呢？”

也因为如此，长尾君对爱因斯坦创立的奥林匹亚科学院非常神往，我创建长尾社群和知识星球也都是以此为宗旨。我也一样对科学和哲学都非常感兴趣，但自知水平有限，所以创建社群和星球跟大家一起共同学习。

现在的一个问题是：物理专业的朋友对哲学了解不多，学习哲学的朋友对20世纪以来的物理学也知之甚少，对话非常困难。

所以我们只能一边学习物理学，一边有组织地补哲学，希望以后也能研读诸如《物理与哲学相遇在普朗克标度》这样科学和哲学交界的书。也希望能尽可能多的影响下一代的中小学生，影响下一代的小爱因斯坦们。

另外，我在写这篇文章时候，喜闻中科院的哲学研究所刚刚成立，哲学所将致力于探讨现代科学的哲学基础和当代科技前沿中的哲学问题。

白春礼院长说：“我们需要进一步深入反思科学技术的历史发展规律，需要进一步深刻认识科学和哲学的关系。中国的科学发展要实现阶段性跨越，就必须紧扣科学前沿中的基本问题进行开拓和创新，而不能只是在已建立的概念体系和研究路径上跟踪国际上的工作。为此，科学家必须提升自己的创造性思维的能力，其中哲学的学习和哲学思维训练非常重要。”

白院长的话我非常赞同，理清科学的历史发展规律，让科学和哲学更好对话也是长尾科技正在做的事。爱因斯坦创立的奥林匹亚科学院，也主要是探讨科学和哲学的交界问题。这一点，我相信大家看完文章之后会有更深的体会，因为爱因斯坦就是一个这样的典范。

如果爱因斯坦没有深入地学习马赫，他能那么坚定地抛弃牛顿的绝对时空观么？他能坚定地抛弃绝对运动么？如果做不到这些，他又哪来的勇气认定电磁理论必须满足相对性原理呢？

如果做不到这些，那么爱因斯坦最大的可能性就是跟着洛伦兹的路线，死磕迈克尔逊-莫雷实验。也许他们最后可以从洛伦兹的经典电子论出发，也发展出一套可以解释目前所有观测现象的理论出来。

但是，可以想象，这套理论绝对会比狭义相对论复杂得多，麻烦的多。而且，如果没有狭义相对论这种全新的纲领，广义相对论的诞生可能就要遥遥无期了。

但凡学习物理的人，无不赞叹广义相对论的优美。如果我们现在学习的引力理论，是一套比标准模型还复杂得多的理论，你会不会觉得非常惋惜呢？

我经常听到有人说“我相信宇宙规律应该是简单而美的”，但是很多人并不知道要认识这种简单和美是需要站在一定的高度来看的。

一幅油画很美，但是如果你距离它非常非常近，你可能就只能看到油画里的斑斑点点，那就既不简单也不美了。

同样，想要认识和发现更加简单和优美的物理定律，你就得对原来的理论认识得更加深刻，站在更高的高度去看它才行。而这种认知，对科学基本问题的深入思考，是需要哲学参与的，我想这也是白院长的那段话想表达的意思吧。

如果这篇文章能让你对爱因斯坦创立狭义相对论的过程，对狭义相对论本身有更深层次的了解，那我的目的就达到了。

最后，这篇文章包含的内容实在是太多了，虽然我真的已经极力压缩了篇幅。

很多东西我都只是把核心思想点出来就算完事，并不敢展开讲。但是爱因斯坦创立狭义相对论的过程确实非常复杂，有太多的因素都对此都有影响。想要在一篇文章里把这个逻辑理顺，讲全，篇幅想短几乎是不可能的。

也有人建议我把文章拆分成好几篇，但是我拒绝了，因为这样会破坏文章的整体感。至于那些被压缩的内容，我后面在狭相支线里写一些短文跟大家单独聊吧。

相关文章：《相对论前夜：牛顿和麦克斯韦的战争》

收起阅读 »

你也能懂的质能方程E=mc²

狭义相对论

提到爱因斯坦，很多人的第一反应就是E=mc²。没办法，质能方程看起来“太简单”了：左边的E代表能量，右边的m代表质量，c是光速，都是中学生就能看懂的物理量。而且，这个方程看起来太神奇了，它告诉我们一般物体都蕴含了巨大的能量，原子弹那毁天灭地的力量就是最好的证明...

继续阅读 »

提到爱因斯坦，很多人的第一反应就是E=mc²。

没办法，质能方程看起来“太简单”了：左边的E代表能量，右边的m代表质量，c是光速，都是中学生就能看懂的物理量。而且，这个方程看起来太神奇了，它告诉我们一般物体都蕴含了巨大的能量，原子弹那毁天灭地的力量就是最好的证明。

又简单又神奇，不传播你传播谁？

但是，很多人容易忘记一件事：质能方程是狭义相对论的结论，需要站在狭义相对论的立场上才能精准地把握它。否则就容易望文生义，再类比、推广一下，后果就很可怕了。

比如，有人认为质能方程的意思是“质量可以转化成能量”，或者说“物质可以转化成能量”。延伸一下，物质代表“有”，能量代表“无”，质能方程暗示着“有无相生”，接下来欢迎进入太极物理频道……

也有人认为质能方程是在说“质量是能量的一种形式”。延伸一下，我们的物质本质上都是能量，一切都是能量，一切都是虚无，色即是空，接下来欢迎进入相对论佛学频道……

这种误解以及可怕的延伸，我还可以列很多。要不是建了那么多社群，见识了各种各样的人，我真难以想象质能方程会有如此丰富的“内涵和外延”。

不过，想想也不奇怪。毕竟谁都可以谈一下质能方程，谈的人多了，想法自然就多了。而且，质量亏损这个名字也很容易把大家往歪路上引。

那么，我们就来好好看一看质能方程，看看E=mc²到底是怎么回事，看看它是如何从狭义相对论推导出来的，以及如何正确地对待质能方程。

01从狭义相对论出发

因为质能方程是狭义相对论的产物，所以，想搞清楚质能方程就得先搞清楚狭义相对论。

什么是狭义相对论呢？

我在《相对论诞生：爱因斯坦是如何创立狭义相对论的？| 主线》里详细描述了狭义相对论的诞生过程，看完文章的朋友肯定都知道：狭义相对论的核心是洛伦兹协变性。

它跟牛顿力学的核心区别是：狭义相对论的物理定律在洛伦兹变换下保持数学形式不变，而牛顿力学的物理定律在伽利略变换下保持数学形式不变。至于尺缩、钟慢、双生子之类的效应，都是狭义相对论的一些简单结论。

质能方程E=mc²也是这样。

也就是说，只要我们认为物理定律应该在洛伦兹变换下保持数学形式不变（狭义相对论精神），我们就能推出质能方程E=mc²，而不需要其它的假设和限制。

因此，只要狭义相对论成立，质能方程就成立，它的适用范围是极广的。有些朋友认为质能方程只在核反应里才有效，这显然不对，因为狭义相对论并不是只在核反应里才有效。

那狭义相对论在哪些地方成立呢？是不是像有些人认为的，狭义相对论只在高速（近光速）情况下成立，在低速情况下就必须使用牛顿力学？

不不不，也不是这样的逻辑。

狭义相对论跟牛顿力学并不是互补的关系。牛顿力学只在低速时适用没错，但狭义相对论不仅在高速时适用，在低速时也同样适用。而且，在低速时它的精度比牛顿力学还要高。

也就是说，狭义相对论不管在低速、高速时都成立，牛顿力学只是狭义相对论在低速情况下一个还算不错的近似。既然狭义相对论的适用范围那么广，质能方程的适用范围自然也很广，而不是只局限在核反应里。

但是，爱因斯坦并不需要知道核反应里质量和能量的关系，他直接从狭义相对论的基本原理出发，就无可辩驳地得到了E=mc²。这是最让人震惊的地方，也是理性的巨大胜利。

接下来，我们就来看一看，看看为什么只要坚持狭义相对论的基本原理，只要坚持物理定律在洛伦兹变换下保持数学形式不变（洛伦兹协变性），我们就能得到质能方程E=mc²。

02动量守恒定律

再来看看E=mc²，公式的左边出现了能量E，看到能量我们就会想起能量守恒定律。既然是定律，那我们就要问了：你可不可以在洛伦兹变换下保持数学形式不变啊？如果可以，那就欢迎进入狭义相对论的世界；如果不行，那就从哪来回哪去，一边玩去。

不过，考虑到能量的种类太多太杂，我们先来看看更简单的动量守恒定律。

在牛顿力学里，动量的定义是mv（质量乘以速度），在不受外力或合外力为0时，两物体碰撞时动量守恒。

比如，两个质量都为m的小球以相等的速度v迎面撞上，碰撞后两个小球黏在了一起。如果以某个小球的运动方向为正（假设为向右），那这个小球的动量就是mv，另一个小球的动量就是-mv，碰撞前动量之和就是mv+(-mv)=0。

根据动量守恒定律，碰撞后小球的总动量也应该为0。而碰撞后它们又黏在了一起，变成了一个质量为2m的大球，所以碰撞后的速度就必然为0（不然总动量就不为0了）。

两个质量相等、速度相反的小球迎面相撞，碰撞后两个小球黏在一起并保持静止。这个事情很容易理解，不管是用牛顿力学的动量守恒定律来计算，还是根据常识来判断都没错。

但是，我们关注的并不是碰撞本身，而是：动量守恒定律是定律么？

这个问题好像很奇怪，动量守恒定律当然是定律了，不然这名字是瞎叫的么？

但是，我希望来到这里的读者，对定律要有更深层的理解。前面说了，狭义相对论和牛顿力学的核心区别，就是前者的物理定律在洛伦兹变换下保持数学形式不变，后者的物理定律在伽利略变换下保持数学形式不变。

那么，当你把动量定义为mv，当你在说动量守恒定律的时候，这个定律是在洛伦兹变换下保持数学形式不变呢，还是在伽利略变换下保持数学形式不变？如果是前者，那这条动量守恒定律就是狭义相对论下的定律；如果是后者，它就是牛顿力学下的定律。

当然，我们很清楚，把动量定义为mv是牛顿力学里的做法。所以，这样的动量守恒定律必然是牛顿力学下的定律，它必然能在伽利略变换下保持数学形式不变。

下面我们来简单地验证一下。

03伽利略变换

要验证动量守恒定律是否可以在伽利略变换下保持数学形式不变，我们就要先搞清楚什么是伽利略变换？搞清楚当我们在说一个定律在伽利略变换下保持数学形式不变时，我们到底在说什么？

其实，伽利略变换也好，洛伦兹变换也罢，都是联系两个参考系的东西。变换嘛，就是把一个参考系的物理量变到另一个参考系里去。

比如，我在300km/h的高铁上，觉得前面的椅子速度为0，列车员正以5km/h的速度往车头走，这是高铁系的测量结果。

那么，如果我站在地面，地面系测量椅子和列车员的速度又会是多少呢？有同学立马会说：“我知道，从地面上看，高铁上椅子的速度是300km/h，列车员的速度是300+5=305km/h。"

如果我问他这样算的依据是什么，他会觉得这还要什么依据，这不是天经地义的事情么？当然要有依据，物理学是一门非常严密的科学，做什么都要有理有据。

我们现在讨论的是同一个东西（椅子、列车员）在不同参考系里的速度，这就涉及两个参考系之间的变换，是一件很严肃的事情。如何把这两个参考系里的物理量联系起来？答案就是前面说的伽利略变换、洛伦兹变换。

在牛顿力学里，我们用伽利略变换联系两个惯性系，那伽利略变换到底长啥样呢？

假设我们在地面系S建立了一个坐标系（x,y,z,t），现在有一辆火车以速度v沿x轴正方向匀速运动。我们在火车系S’里也建一个坐标系（x’,y’,z’,t’），为了简化问题，我们让这两个坐标系一开始是重合的。

坐标系建好后，空间中发生了任何事件，地面系和火车系都会记录下这个事件的时空信息（x,y,z记录空间信息，t记录时间信息）。我们想知道的就是：地面系和火车系记录的时空信息之间有什么联系？

不同的变换会给出不同的答案，伽利略变换的答案是：

我们知道，牛顿力学里的时间是绝对的，所有参考系的时间都一样，所以伽利略变换里有t'=t。因为t‘代表火车系的时间，t代表地面系的时间，t'=t不就是说大家的时间都相等，时间是绝对的么？

再看空间，因为火车只沿x轴正方向移动，所以火车系和地面系在y轴和z轴的坐标都一样，x坐标的关系x'=x-vt也不难理解，琢磨一下就明白了。

有了坐标和时间的关系，我们很容易就能求出火车系的速度u'和地面系的速度u之间的关系：u‘=u-v。这个就不推了，不清楚的可以看看《相对论前夜：牛顿和麦克斯韦的战争》，里面有更加详细的推导。

伽利略变换的速度关系是u‘=u-v，这就意味着：火车系测量的速度等于地面系测量的速度减去火车相对地面的速度。

比如，在速度v=300km/h的高铁上，如果高铁系测量列车员的速度u'=5km/h，地面系测量列车员的速度u就应该满足：5=u-300，u确实等于5+300=305km/h，跟我们的直觉一样。

但是，我们要清楚地认识到：这些推理都是建立在伽利略变换的基础上的。

因为我们采用了伽利略变换，所以两个惯性系之间的速度才可以这样叠加。火车系测量的速度是5km/h，地面系的结果是300+5=305km/h，这不是什么天经地义的事情，而是伽利略变换的结果。

04牛顿力学的定律

有了这个认识，我们再思考一下：当我们说动量守恒定律是牛顿力学里的定律时，我们到底在说什么？

在牛顿力学里，动量的定义是质量乘以速度，也就是mv。我想看动量守恒定律是不是定律，就是要看在一个惯性系（比如火车系）里成立的动量守恒定律，用伽利略变换把它变到另一个参考系以后，它是否依然成立。

因为质量是一个不变量，不管在哪里都不变。所以，不同惯性系之间动量的差别就体现在速度v上了。

还是以小球的碰撞为例，假设两个质量都为m的小球以速度v迎面相撞，碰撞后两个小球黏在一起并保持静止。取向右的方向为正，从地面系看，碰撞前两个小球的动量分别为mv和-mv，碰撞前总动量为0。碰撞后，两个小球黏在一起并保持静止，所以碰撞后的动量2m×0=0，也是0。

因为碰撞前的总动量等于碰撞后的总动量（都是0），所以，地面系确实认为存在动量守恒定律。

但是，我们看动量守恒定律是不是牛顿力学下的定律，并不是只看这个定律在地面系是否成立，还要看用伽利略变换把它变到另一个惯性系之后，它是否依然成立。

因此，我们要换一个参考系，看看新参考系里的碰撞过程是否依然满足动量守恒定律。为了计算方便，我们就把新参考系选在从左往右运动的小球身上，也就是站在速度为v的小球上再来看这个问题。

在地面系，两个小球碰撞前的速度分别为v和-v，碰撞后两个小球黏在一起，速度为0。那么，在新参考系里，碰撞前后小球的速度又分别是多少呢？

在牛顿力学里，我们使用伽利略变换的速度叠加公式u‘=u-v联系两个惯性系之间的速度。也就是说，在原参考系里速度为u的物体，在新参考系里速度就是u‘=u-v。

因此，对于碰撞前速度为v的小球，在新参考里速度为v-v=0；碰撞前速度为-v的小球，在新参考系里速度为-v-v=-2v；碰撞后速度为0的小球，在新参考系里的速度为0-v=-v。

也就是说，同样的碰撞，新参考系看到的是：两个质量为m的小球，一个速度为0（以它为参考系，速度当然为0），一个速度为-2v（对面的小球），它们碰撞之后黏在一起，变成了质量为2m，速度为-v的大球。

那么，在新参考系里动量守恒定律还成立么？我们再来验算一下：碰撞前两个小球的动量分别为m×0=0和m×（-2v）=-2mv，碰撞后黏在一起的大球的动量为2m×（-v）=-2mv。

看到没有，新参考系里碰撞前后的动量都是-2mv，依然相等。所以，在新参考系里动量守恒定律依然成立。

当然，这里我们只验证了一个新参考系。但是，你完全可以根据伽利略变换的速度叠加公式，证明只要把动量定义为mv，动量守恒定律在一般情况下都成立。

这样，我们才敢理直气壮地说：如果把动量定义为mv，动量守恒定律的确是牛顿力学里的定律。因为你用伽利略变换把动量守恒定律变到任何惯性系，它都成立。

那么，到了狭义相对论里呢？

05洛伦兹变换

在狭义相对论里，联系两个惯性系的不再是伽利略变换，而是全新的洛伦兹变换：

变换的细节我们先不细究，不过你可以看到：在洛伦兹变换里，火车系的时间t'和地面系的时间t不再一样（t'≠t），它们之间有个巨复杂的关系。

也就是说，在狭义相对论里，时间不再是绝对的，不同惯性系的时间并不一样，每个惯性系都有自己的时间。

再看看火车系和地面系的x坐标之间的关系，也是一个非常复杂的式子。所以，不难想象，从洛伦兹变换推出的速度叠加公式肯定就没有伽利略变换的那么简单。

中间的推导过程我就省了，洛伦兹变换下的速度叠加公式是这样的：

怎么样，比伽利略变换下的u'=u-v复杂多了吧？

但是，仔细观察一下就会发现，如果v远小于光速c，分母的v/c²就约等于0，分母就变成了1，于是这个速度叠加公式就回到了伽利略变换下的u'=u-v。因为牛顿力学是狭义相对论的低速近似，所以伽利略变换自然也是洛伦兹变换的低速近似。

在牛顿力学里，我们使用伽利略变换导出的速度叠加公式，所以可以用300+5=305km/h表示地面系测量的列车员速度。但是，我们在狭义相对论里使用的是洛伦兹变换导出的新速度叠加公式，那结果肯定就不再是305km/h了。

也就是说，如果火车系测量列车员的速度为5km/h，我问地面系的结果是多少？牛顿力学给出的结果是305km/h，这是用伽利略变换算出来的；狭义相对论认为这个结果不等于305km/h（当然也极为接近这个数字），因为它是用洛伦兹变换算出来的。

如果你问谁算得更准确，那当然是狭义相对论的结果更准确，但牛顿力学的结果也跟它极为接近。因为火车的速度v和列车员的速度u都太小了（相对光速c），所以洛伦兹变换的速度叠加公式的分母1-vu/c²基本上等于1，于是基本上就等于伽利略变换的结果。

但是，如果火车的速度接近光速，分母1-vu/c²就会远小于1，那得到的结果就跟伽利略变换完全不一样了，所以牛顿力学就不能用了。

通过这个例子，相信大家对伽利略变换和洛伦兹变换都有了一定的了解，也明白不同变换下的速度叠加公式是不一样的。具体的计算过程可以不用搞得太清楚（亲自推一遍当然更好），但道理一定要明白。

06狭义相对论的定律

知道了洛伦兹变换，我们再来看这个问题：在狭义相对论里，动量守恒定律还是定律吗？

当我们在说这句话的时候，我们的意思是：如果把动量仍然定义为mv，那动量守恒定律在洛伦兹变换下还能保持数学形式不变么？如果动量守恒定律在一个惯性系里成立，我用洛伦兹变换把它变到另一个惯性系以后，它还成立吗？

具体的计算我就不做了，稍微想一下就知道答案肯定是否定的。

因为我们已经证明了：如果把动量定义为mv，动量守恒定律在伽利略变换下是可以保持数学形式不变的，这样动量守恒定律才步入了牛顿力学的殿堂。

然而，现在动量的定义（mv）没变，联系两个惯性系之间的变换却从伽利略变换变成了洛伦兹变换。既然伽利略变换能让动量守恒定律保持数学形式不变，那换了变换以后肯定就不一样了啊。

也就是说，如果我们依然把动量定义为mv，在洛伦兹变换下，新参考系的动量守恒定律必然不再成立。

要验算也很简单，洛伦兹变换下的速度叠加公式是这样的：

还是刚才的小球碰撞问题，我们可以用同样的方法把新旧惯性系碰撞前后的速度都算出来，再看看动量是否相等。

谁算谁知道，答案必然不相等。

于是，我们就面临一个非常棘手的问题：如果我们在狭义相对论里依然把动量定义为mv，那么，经过洛伦兹变换以后，新参考系里的动量守恒定律就不再成立。如果动量守恒定律无法在洛伦兹变换下保持数学形式不变，那它就没有资格成为狭义相对论里的定律。

也就是说，如果我们继续沿用牛顿力学的动量定义（mv），那狭义相对论里动量守恒定律就不再成立。

怎么办？

解决方案也很明显：要么，我们放弃动量守恒定律，认为狭义相对论里动量守恒定律不再成立；要么，我们修改一下动量的定义，让新定义下的动量守恒定律在洛伦兹变换下依然可以保持数学形式不变，从而保住它在狭义相对论里的定律地位。

很显然，闭着眼睛我们都知道要选后者。

动量守恒定律这么重要的东西，你说放弃就放弃了？为了坚持动量的定义（mv）而放弃动量守恒定律，这种行为太愚蠢了。如果动量守恒定律不再成立，我要动量有何用？

07新的动量

所以，为了保住狭义相对论里的动量守恒定律，我们需要重新定义动量。重新定义的目的，就是让新的动量守恒定律具有洛伦兹协变性，让它在狭义相对论里能继续以定律自居。

那么，我们要把新动量定义成啥样，才能让它具有洛伦兹协变性呢？这个倒不难，因为洛伦兹变换是明确给出了的，我们只要凑出一个新动量，让动量守恒定律在洛伦兹变换下依然可以保持数学形式不变，而且在速度远小于光速时能够回到牛顿力学的定义就行了。

这个过程我略了，感兴趣的自己去试一下。最后，为了保住狭义相对论里的动量守恒定律，我们必须把动量定义成这样：

可以看到，当v远小于光速c时，分母就会变成1，此时的动量就回到了牛顿力学的定义mv。而且，你试一试，这样定义动量，确实可以让动量守恒定律在洛伦兹变换下保持数学形式不变，皆大欢喜。

到这里，我们就完成了从牛顿力学到相对论力学升级的第一步。为了让动量守恒定律具有洛伦兹协变性，我们修改了动量的定义。

但是，力学量又不止动量一个，物理定律也不止动量守恒定律一个。你考虑了动量守恒定律，那能量守恒定律要不要考虑？你改了动量的定义，那动能的定义要不要改？

改，当然要改，一个个排队慢慢来！

为了让动能不跟新的动量发生矛盾，为了让能量守恒定律也能顺利入驻狭义相对论，我们需要同步修改动能的定义。

而接下来，就是见证奇迹的时刻：一旦开始修改动能的定义，你会发现质能方程E=mc²竟然神奇地冒出来了。

08新的动能

狭义相对论里的动能要怎么改呢？当然是照着牛顿力学慢慢改。

在牛顿力学里，动能的定义是mv²/2。一个质量为m的木块静止在地面，它的动能为0，我用一个恒力F推这个木块，木块移动了距离S，速度均匀加速到了v。

我在《什么是高中物理？》的第25节跟大家算过：一个物体在恒力F的作用下会以一定的加速度做匀加速运动。根据牛顿第二定律，这个力F和物体的质量m以及加速度a之间的关系是：F=ma。而一个物体以加速度a从0加速到v，运动的距离S可以表示成：S=v²/2a。

如果我们算一下力F在空间上的累积（也就是力F做的功）F·S，会发现它刚好就等于物体增加的动能mv²/2：

也就是说，合外力对物体做的功等于动能的改变量，这就是中学的动能定理。也因如此，我们在牛顿力学里可以用合外力F和位移S的乘积F·S来表示动能增加的大小，如果物体一开始动能为0，那F·S就是物体最终的动能。

那么，牛顿力学里这个关于动能的计算方式可不可以搬到狭义相对论里来呢？

大抵还是可以的，毕竟狭义相对论在低速情况下还要回到牛顿力学，所以许多东西都会保持一定的一致性。比如，狭义相对论里的动量虽然不再是mv，但是基本形式上还是质量m乘以速度v，只不过加了一个相对论特有的系数。

因此，我们在狭义相对论里就暂时用F·S计算动能好了。位移S好说，但问题是：这个力F要如何表示？

在牛顿力学里，力F的常见表示有两种：一种是根据牛顿第二定律F=ma来算；另一种是对F=ma做一个微小的变形，把加速度a按照定义表示成Δv/Δt，然后把m和Δv组合成动量的改变量Δp（p=mv），然后F=ma=mΔv/Δt=Δp/Δt。

也就是说，对于力F，我们既可以把它表示成质量m和加速度a的乘积，也可以把它表示成单位时间内动量的变化量，也就是动量的变化率Δp/Δt。然而，狭义相对论里的新动量我们已经找到了，那就直接用动量的变化率Δp/Δt表示F，再用F·S计算物体的动能吧，省时省力。

然后，我们要意识到一件事：前面我们都假设力F是恒力，认为物体在做匀加速运动，这是一种特例。

我们要计算物体的动能，要推导质能方程，当然不希望它只在这种特殊情况下才成立。所以，我们要考虑更一般的情况：如果力F和位移S都在变，我们应该如何计算它们的乘积？

地球的表面是弯的，但在小范围内我们可以认为它是平的。同理，在足够小的范围内，我一样可以认为力F和位移S的大小不变。如果用ds表示这个微小的位移变化，用F·ds表示力F在这个微小位移里做的功，那么，把0到S所有的功累加起来就能得到总动能E。

写成数学表达式就是这样：

很显然，为了保证结果的一般性，我们这里动用了微积分。这个具体的计算过程我不想多讲，因为但凡学了微积分，会分部积分的同学都知道怎么算。如果你不会微积分，这个计算过程我也没法在这里给你科普，我只能建议你先看看我的《你也能懂的微积分》，再找本微积分教材看看。

更为重要的是：这个计算过程并不会影响你对质能方程的理解。

因为这只是一个纯数学计算手段。人们之所以误解质能方程，并不是因为不知道这个公式的形式是E=mc²，而是无法理解这个方程背后的物理意义和物理背景。

如果你跟着我的思路来到这里，知道为了让动量守恒定律满足洛伦兹协变性，我们不得不重新定义了动量，进而需要重新定义动能。你就会知道质能方程到底是怎么来的，就算看不懂中间的计算过程，也不会影响你对质能方程的理解。

这里，我就放一张新动能的推导图片，你能看懂就看，看不懂也没事。当然，如果你暂时看不懂，但是为了能看懂而去学习微积分，那自然是极好的。这里也没多少微积分的知识，关键就是一个分部积分。计算思路也非常简单，就是用狭义相对论里新动量的变化率代替力F：

我把结果放到倒数第二步：

也就是说，一个物体的动能E在狭义相对论里可以表示成这样：括号外面是mc²，括号里面是相对论因子减去1。

我们把中间那一大串东西称为相对论因子（也叫洛伦兹因子），因为相对论里经常会用到它，所以我们就用一个特殊符号γ来表示这个相对论因子：

这样，你再看看狭义相对论里的新动量，是不是就相当于在牛顿力学的动量mv上乘了一个相对论因子γ？也就是说，狭义相对论里的新动量可以简写成p=γmv。

同样，上面的动能表达式一样可以通过相对论因子γ简写为：

在这个式子里，m依然是我们熟知的质量，是一个不随速度和参考系变化而变化的物理量。而这个E，就是因为有力F作用在物体身上，物体因为运动而具有的动能。

这个动能的形式很有意思。

在牛顿力学里，动能的表达式是mv²/2，只有一项；到了狭义相对论，动能的表达式竟然有两项。而且，后一项mc²竟然跟物体的速度v没有关系，只跟物体的质量m有关，只有前一项γmc²才会随着速度的增大而增大（因为γ会随着速度的变大而变大）。

这有点拔出萝卜带出泥的味道，原本我们只是在正正经经地计算狭义相对论的新动能。现在你倒好，你算出的新动能里竟然还有一项跟速度无关的mc²，单位还跟能量一样。

仔细看看这个新动能，如果物体的速度v为0，相对论因子γ就等于1，那动能就变成了E=mc²-mc²=0。静止物体的动能为0，很符合我们对动能的认知。

如果物体的速度开始增大，相对论因子γ就开始大于1，第一项γmc²就在增大，它跟mc²的差值也会不断增大，结果就是动能不断增大。

这给人的感觉，就好像是物体静止时具有mc²的能量，当物体开始运动时，我们用γmc²减去物体静止时具有的能量mc²就得到了物体的动能。所以，爱因斯坦面对这个式子时，创造性地把mc²解释为质量为m的物体静止时具有的能量，简称静能。

如果我们把mc²解释为物体的静能，而E是物体的动能，那静能+动能自然就是物体具有的总能量。于是，γmc²就成了物体具有的总能量（动能+静能）。

这样解释的话，是不是一切都合情合理了呢？

09质能方程

复盘整个过程，我们到底做了什么？

我们只是坚持狭义相对论的基本原理，认为物理定律在洛伦兹变换下应该保持数学形式不变，也就是认为物理定律应该具有洛伦兹协变性。

然后，为了让动量守恒定律具有洛伦兹协变性，我们修改了动量的定义。动量修改了以后，动能自然也得跟着改。然而，令谁也没有想到的是：当我们把这种符合狭义相对论精神的新动能（E=γmc²-mc²）计算出来以后，发现它竟然带了一个尾巴mc²。

接着，爱因斯坦认为mc²应该是物体静止时具有的能量，也就是静能，γmc²是物体的静能和动能之和，也就是物体的总能量。

整个过程，我们唯一引入的就是狭义相对论的基本原理，也就是认为物理定律应该具有洛伦兹协变性，然后就发现狭义相对论的新动能把静能mc²带出来了，这太意外了！

于是，我们就从狭义相对论里自然而然地推出了质能方程：E=mc²。

不知道爱因斯坦看到这个结论后是什么反应，这只是牛顿力学向相对论力学升级过程中的一个小步骤，结果却发现能量和质量之间竟然有E=mc²这样一种神奇的关系。

这个结论看起来是如此的不可思议，因为真空光速c是一个非常大的数字（3×10^8m/s），平方一下就更大了。根据质能方程，一个半斤重的苹果蕴含的能量将高达525万吨TNT当量，大致相当于350颗广岛原子弹爆炸释放的能量，这太夸张了。

但是，E=mc²又是直接从狭义相对论的基本原理直接推出来的，如果质能方程错了，那就是狭义相对论错了。而爱因斯坦对狭义相对论的信心是极强的，所以，他在写完《论动体的电动力学》的三个月后，就完成了质能方程的论文。

10回到牛顿

习惯了将动能视为mv²/2的人可能不太习惯E=γmc²-mc²这种新动能表达式。但是，因为牛顿力学是狭义相对论的低速近似，所以它在低速条件下依然可以回到大家熟悉的mv²/2，不信我们来试一试。

把相对论因子γ进行泰勒展开，就得到了这样的结果：

泰勒展开就是看你想近似到什么程度，你不是说牛顿力学是相对论力学的低速近似么？那相对论力学要低速近似到什么程度才会变成牛顿力学呢？泰勒展开会告诉我们答案。

如上图，我们对一张真实照片进行了“泰勒展开”。一阶近似下就是随便描了一个轮廓，我们可能看了个寂寞；二阶近似下可以看清楚一些细节，图片变清楚了一些；三阶近似下，细节就更清楚了，更接近原图……

只要你开心，你可以无限阶近似下去，近似的阶数越高，图片就越接近原始图片。同理，我们对相对论因子γ进行泰勒展开，它就被分成了无穷多项的叠加，你可以按照自己的需求采取相应的近似水平。

我们说牛顿力学是相对论力学的低速近似，这个低速是相对于光速而言的。当速度v远小于光速c时，v/c就是一项很小的项，（v/c)²以及更高次项就是更小的项了，可以选择性忽略。

那么，如果我们只取前两项，也就是取γ=1+（v/c)²/2，再把γ代入狭义相对论的新动能：E=γmc²-mc²=mc²（γ-1）=mv²/2。不多不少，刚好就回到了牛顿力学的mv²/2。

也就是说，牛顿力学的动能只是狭义相对论动能的一个二阶近似。

因为mv²/2只是一个近似值，所以它必然会丢失一些信息。只是，万万没想到，它丢失的信息里居然包含了物体静止时具有的能量mc²。一旦我们通过更加精确的狭义相对论把这个丢失的信息找了回来，就会发现任何质量为m的物体都含有mc²如此巨大的能量。

其实，静止的物体具有能量一点也不奇怪。

一堆火药放在那里，你肯定知道它有能量，甚至能算出这堆火药爆炸时会释放出多少能量。与此同时，你也知道火药爆炸释放的只是部分化学能，并不是它的全部能量。现在，我们第一次有办法把它的全部能量算出来了，途径就是质能方程E=mc²。

质能方程把质量和能量联系起来了。那么，在这种新视角下，我们应该如何看待质量和能量的关系呢？

11质量与能量

再次回到狭义相对论的动能表达式：

回想一下，爱因斯坦是如何解释这个式子的？爱因斯坦想：既然E是物体的动能，那么γmc²就是物体的总能量，mc²是物体静止时具有的能量，简称静能。

注意，我们是先得到了动能E，是先有能量，先有总能量γmc²和静能mc²，然后再考虑如何衡量能量的大小。因为c是常数，所以就只能用质量m来衡量静能的大小，这个次序不能乱。

于是乎，质量就成了能量的量度。

因此，如果物体吸收了一点能量，它静止时的能量增加了，质量也会增加；如果物体释放了一点能量，它静止时的能量减少了，质量也会减小。

所以，把质能方程写成m=E/c²反而更容易理解它的含义（爱因斯坦一开始就是这么写的）：你想知道一个物体的质量是多少吗？那就用它静止时的能量除以c²吧，于是我们才说质量是能量的量度。

一个物体静止时的能量是多种多样的，可以有内能、化学能、核能以及各种势能。但是我不关心种类，你把它们都加起来，除以c²就能得到物体的质量m。

为什么我要如此小心翼翼地描述这一段呢？因为只有极少数人在看到质能方程E=mc²后会认为它是在说“质量是能量的量度”，许多人的第一反应是：质能方程意味着“质量可以转化成能量”。核反应里出现了质量亏损，就是一块“实实在在”的物质丢失了一块质量，然后它们转化成了“虚无缥缈”的能量。

这是一种非常常见，但危害极大的误解。顺着这种误解，稍微发散一下就能搞出太极相对论、佛学相对论之类的东西。你以为原子弹释放了能量，是因为原子弹爆炸时丢失了一块东西，然后这部分质量转化成了能量？

不不不，原子弹爆炸释放能量的过程，跟一般的火药爆炸没什么不同，只不过前者释放的能量比较多，后者释放的能量比较少而已。原子弹爆炸释放了能量，所以度量原子弹能量的质量会减少；火药爆炸释放了能量，所以度量火药能量的质量也会减少。

这就是一个普通的能量转化过程，体系的一部分能量（原子弹的核能，火药的化学能等）通过爆炸转化成了动能和其它能量。于是，原子弹和火药的能量E减少了，度量这个能量的质量m也相应减少了，并且遵守E=mc²，仅此而已。

这也是我比较讨厌“质量亏损”这个词的原因，它太容易让人误解了，太容易让人误以为质量只在核反应中才会减少，让人误以为核反应就是“质量转化成了能量”。

没有什么质量转化成了能量，只有质量是能量的量度，质量就是度量一个物体静止时具有多少能量的。

我知道，不管我在这里说什么，你都难以接受为什么我们不能说“质量转化成了能量”，你不认为这样有什么不妥，甚至觉得它理所当然。而且，就算我让你强行记住这个结论，你后面还是会忘的，毕竟大家都习惯用自己习惯的方式思考。

所以，我们就来深入地扒一扒，看看你在说“质量转化成能量”时，你到底在说什么？看看为什么很多人会这样想，以及最重要的：为什么质能方程E=mc²不能这么理解？

12牛顿的质量

在牛顿时代，大家认为宇宙万物都是由微小的实物粒子（原子）组成，认为宇宙就是一堆粒子的集合，各种物理现象只是粒子间的排列组合和运动变化，而粒子的运动规律则由牛顿力学给出。

在这样的语境下，人们认为组成物质的基本微粒是不可摧毁的，自然界的各种变化只是它们的排列组合，并不会摧毁粒子本身。到了18世纪，化学家们在一定精度内发现化学反应前后物质的总质量不变，也就是大名鼎鼎的质量守恒定律，这就更加佐证了这种观点。

因为化学反应只是原子间的排列组合，如果原子的种类和数目都没变，那原子的总质量就不变，质量自然就守恒了。

一旦我们认为“一个物体的质量等于组成这个物体的所有微粒质量之和”，质量基本上就被当成了物质的代名词。因为，你潜意识里会觉得：只要是物质，肯定就由一些实物微粒组成，它的质量自然就等于所有微粒的质量之和。

那能量呢，能量在这种语境下又扮演了什么角色？

还是看化学反应，我们认为化学反应就是原子间的排列组合。比如木炭燃烧，在化学家眼里就是木炭里的碳原子和空气中的氧原子重新组成了二氧化碳分子，这个过程释放了能量，但燃烧前后原子的种类和数量都没变，所以质量不变。

也就是说，化学家认为虽然木炭燃烧释放了能量，但它们的质量不会变。在这种语境下，质量和能量明显是不同的东西：质量是组成物质的所有原子质量之和，能量不过是原子在重组过程中释放出来的副产品。

正因为牛顿语境下的质量和能量是如此的不同，我们在第一次看到质能方程E=mc²，第一次听说在核反应里会发生违反质量守恒定律的“质量亏损”时，才会认为这是“质量转化成了能量”，是组成物质的实物粒子实实在在地被摧毁了（质量减小），然后神奇地转化成了能量。

但问题是，质能方程E=mc²并不是牛顿力学的东西，而是狭义相对论的天之骄子啊。

相对论和量子力学是20世纪物理学的两大革命，它们颠覆了牛顿力学的许多观念。物质不能再简单地看作一堆实物粒子的集合，质量不再是组成物体粒子的质量之和，化学家发现的质量守恒定律也不再成立……

总之就是，时代变了，世界变了，一切都变了，原来的“质量转化成能量”自然也得跟着变。所以，如果我们想搞清楚为什么不能再那样思考，就得先搞清楚牛顿的观念是如何被打破的？

13电磁场的挑战

狭义相对论是爱因斯坦在协调电磁理论和牛顿力学的过程中建立起来的，所以它的论文就叫《论动体的电动力学》（公众号后台回复“狭义相对论论文”获取原论文）。

我们也知道，在19世纪建立电磁大厦的过程中，有两个人的作用至关重要，他们是法拉第和麦克斯韦。

法拉第创造性地提出了“场”，用电磁场来描述电磁现象。麦克斯韦则用优美的数学语言把法拉第的思想表现了出来，得到了能够描述一切经典电磁现象的麦克斯韦方程组。

这些历史大家都很熟悉，但是很多人没有注意到：法拉第提出的电磁场，其实是一个超出牛顿物理图景的概念。

什么意思？在牛顿的观念里，物质是由基本微粒组成的，那电磁场是由什么微粒组成的呢？很显然，电磁场并不由什么微粒组成，这看起来就跟牛顿的物质观发生了冲突。

于是，有些人就主张电磁场只是描述物质的一种数学手段，不具有物理上的意义，也就是不认为电磁场是真实的物质，这样牛顿的物质观就不用对它负责了。但是，很快人们就发现不能这么干，因为电磁场具有能量。

为什么电磁场具有能量呢？

举个例子，我从北京向武汉发射一束电磁波，因为电磁波的速度有限（光速），它从北京到武汉需要一段时间。那么，当电磁波离开了北京，却又还没到武汉时，能量去哪了？此时的能量既不在北京，也不在武汉，那就只能在电磁场里。

于是乎，电磁场就理所当然具有了能量。一个东西具有能量，那它肯定就有物理上的意义，也就是说它是真实存在的物质。如果电磁场是物质，而它又不由实物微粒构成，那就真的跟牛顿的观念冲突了。

但人们还不死心，虽然电磁场是真实存在的物质，但我们还是可以把电磁场和电磁波看作某种实物粒子衍生出来的现象，这样它们的基础就还是牛顿的实物粒子。

比如水波，虽然它是真实存在的，但水波其实是许多水分子有规律的运动衍生出来的现象，它的基础还是水分子这种“微粒”。那么，如果我们认为电磁波跟水波一样，也是由于某种微粒的振动引起的，这不就符合牛顿的观念了么？

按理说，这种想法是非常自然的，毕竟水波、电磁波都是波。但问题是，当我们说水波是由水分子的振动引起时，我们的确看见了水，所以说“水是水波的介质”没什么问题。

但如果你说电磁波也是由某种介质的振动引起的，那这种介质是什么？光就一种电磁波，光可以在太空、真空中传播，而这里似乎什么都没有，不存在什么介质。你总不能说电磁波是由某种介质的振动引起的，但又说不出这种介质是什么吧？

是，电磁波的确有可能存在介质，只是我们还没发现，没发现并不代表它不存在。但是，你也要明白这么做的巨大风险：这是在假设一种看不见、摸不着，目前任何实验都观测不到，却又在太空、真空中广泛存在的介质。

虽然一听就不怎么靠谱，但想到只有这样才能不违背牛顿的观念，人们（包括麦克斯韦、赫兹）就纷纷接受了，并将这种介质命名为以太。也就是说，如果我们把电磁波看作以太的振动，就像把水波看作水的振动那样，它就可以与牛顿的观念和平共处了。

然而，我们都知道爱因斯坦在狭义相对论里把以太仍了，也就是把作为电磁波介质的以太仍了。他认为并不能把电磁波看作以太的振动，电磁波不需要介质，它跟水波有本质的区别。

那有人就要问了：如果电磁波没有介质，它是怎么传播出去的呢？

我反倒想问一句：你凭什么觉得只要是波，就一定要有介质呢？你觉得水波、声波都是通过介质传出去的，所以电磁波也要有介质？

没道理啊，没理由说张三李四是这样，就要求王五也这样。更重要的是，你认为波都有介质，其实就是认为所有的波都跟水波一样，都是通过相邻介质点的力学作用传出去的。但我们已经说了电磁波跟水波不一样，那就不能套这个逻辑了，更多细节可以看看我的《相对论诞生：爱因斯坦是如何创立狭义相对论的？| 主线》。

因此，到了狭义相对论，我们是彻底无法再把电磁波当作某种介质（以太）的振动了，无法再把它还原为某种微粒的衍生现象了，这就跟牛顿的物理图景彻底冲突了。

于是，我们现在就有两种东西：一种是实物微粒，比如分子、原子、质子、中子等，它们看上去可以由更基本的微粒组成；另一种就是无法看成实物微粒的电磁场。

如何把它们统一起来呢？

很显然，牛顿力学是办不到的，我们需要狭义相对论和量子力学才能统一它们。这种包含了狭义相对论、量子力学以及场论思想的全新理论，就叫量子场论。这是一种全新的物理图景，大家熟悉的粒子物理标准模型就是在这上面建立起来的。

怎么统一实物粒子和场呢？无非就是两种思路：要么认为粒子更基本，场是粒子的某种衍生物（牛顿物理干不了这事，现代物理学里倒是有人这么考虑，比如温伯格）；要么就认为场更基本，粒子是场的某种衍生物。

量子场论的主流思想是后一种，也就是认为场更加基本，粒子只是场的激发态。比如，电磁场是更基本的，电磁场的激发态就是光子；质子场是更基本的，质子场的激发态就是质子，以此类推。

量子场论认为万物皆场，场是更加基本的东西。粒子只是这种量子化场的激发态，场与场之间的相互作用决定了要发生的一切。具体细节这里就不多说了，后面科普量子力学时再细说。

总之，到这里大家就应该清楚了：牛顿的物理图景已经崩塌了，物质并不是由坚不可摧的实物粒子组成的。在更现代的量子场论里，场反而是更加基本的东西，粒子只是场的激发态。

如果你记住了这一点，质能方程E=mc²就非常容易理解了。因为质能方程最难以理解的地方，就是你非要用牛顿的观念，来理解这个已经完全超出了牛顿物理学的东西。

量子场论是狭义相对论和量子力学联姻的产物，因此必然能跟质能方程相容。我这里并不要求你理解量子场论，只要你能意识到不能再用牛顿的观念来思考质能方程，后面的一切就都好说了

打了这样的预防针，我们再来看看经常跟质能方程同时出现的质量亏损。

14质量亏损

进入20世纪，人们发现了一件“奇怪”的事情：组成原子核的核子质量之和，竟然比原子核本身的质量要大。

什么意思？我们知道原子核是由质子和中子组成的，比如氘核就是由一个质子和一个中子组成。按照原来的观念，我们肯定认为氘核的质量等于一个质子的质量加上一个中子的质量。但实验结果却是：一个质子和一个中子的质量之和比氘核的质量要大。

为什么？

我们对这个结果表示惊奇，是因为它跟牛顿的观念不一样。我们认为一个物体的质量应该等于所有组成物体的微粒质量之和，认为一个氘核的质量应该等于一个质子加上一个中子的质量。但结果却是一个质子（1.6726×10^-27kg）和一个中子（1.6749×10^-27kg）的质量之和（3.3475×10^-27kg）比一个氘核（3.3436×10^-27kg）的质量要大。

而且，我们还知道：质子和中子结合成氘核释放的能量E，跟减少的质量m之间刚好满足E=mc²。

于是，很多地方就用质量亏损来解释这个事，说质子和中子组合成氘核时发生了质量亏损，亏损的质量就按质能方程释放能量。

从牛顿的观念来看，这样考虑是非常自然的。因为质量减小了，肯定就意味着损失了一部分组成物质的“真材实料”，而它刚好又按照质能方程释放了一定的能量，这可不就是损失的质量转化成了能量么？

但问题是，质能方程是狭义相对论的产物，我们不能再用牛顿的观念去思考，因而不能说是“质量转化成了能量”。

那问题到底出在哪？我们应该如何看待质子和中子结合成氘核这个现象？如果不是核原料损失了一部分质量并转化成了能量，那又是什么呢？

问题的关键就在于：单独的质子是质子，跟中子一起组成氘核的质子还是质子，它们并没有什么不同。既然质子的成分都是一样的（两个上夸克和一个下夸克组成），并没有在跟中子组合成氘核的过程中损失什么，你说它质量亏损到底是亏损了什么？

是原来的质子由三个夸克组成，组成氘核之后的质子就损失了一个夸克，只由两个夸克组成了？或者是，你觉得原来的质子是由100个什么微粒组成的，组成氘核的质子就损失了1个微粒，只有99个微粒了？

显然，不可能是这样。质子有质子的内部结构，如果它的内部结构发生了变化，那就不是质子了。就像一个质子和一个中子组成了氘核，但如果增加了一个中子，那就不叫氘核，而是氚核。

既然单独的质子叫质子，氘核里的质子也叫质子，那它们就应该是一样的，质子并没有缺胳膊少腿，中子也一样。既然质子和中子都没有损失什么成分，那它们质量亏损到底是亏损了什么呢？它又能亏损什么呢？

出问题了吧？仔细一推敲，你就会发现这个逻辑是行不通的。

但是，在核反应里确实发生了质量亏损啊。质子、中子和氘核的质量都能查到，确实是前两者加起来比后者大，质量确实损失了一部分啊，这到底是怎么回事呢？

大家认为化学反应前后质量守恒，认为两块砖头一起称的质量应该等于单独称的质量之和，为什么质子和中子组成氘核之后质量就减少了呢？难道核反应比较特殊，有它独特的规律？

15核反应特殊吗？

核反应它一点也不特殊！

质子和中子组合成氘核，它是核子（组成原子核的粒子，包括质子、中子以及它们的反粒子）的重新组合，化学反应是原子的重新组合。一个是核子的重组，一个是原子的重组，有什么本质的区别？

核子间的相互作用主要是强力，原子间的相互作用主要是电磁力，除了强力比电磁力要强一些以外，核反应和化学反应没什么太大的不同。

甚至，两块磁铁在磁力作用下吸在了一起，这个过程跟核反应、化学反应也没什么本质的区别，无非就是把核子、原子换成了磁铁，是不是这个道理？

如果核反应没什么特殊，那质子和中子组成氘核释放出能量，碳原子和氧原子组成二氧化碳分子（木炭燃烧）释放出能量，两块磁铁吸在一起释放出能量（没错，的确释放了能量，不然磁铁碰撞时的声音是哪来的？）的过程就应该是类似的。

如果质子和中子组成氘核的核反应会发生质量亏损，那木炭燃烧会不会发生质量亏损？两个磁铁吸在一起会不会发生质量亏损？

有些人可能有点懵，因为他印象里的“质量亏损”是一个非常高级的名词，是一个违背了质量守恒定律的东西。这种反直觉的新玩意，只有全新的相对论与核反应才能与之相配，一般的化学反应怎配享有如此待遇？把两个磁铁放到这里来就更过分了。

而且，中学化学也讲过，化学反应前后物质的总质量是不变的。两个磁铁吸在一起，根据直觉，前后的质量就更加不可能变了。所以，根据直觉和常识，他绝不相信化学反应、磁铁吸在一起也会发生质量亏损。

但是，我上面的推理也很有道理啊，核反应也好，化学反应、磁铁吸在一起也好，都是两个小东西组成了一个大东西，并且都释放了能量。区别无非就是核反应释放的能量大，化学反应释放的能量中等，磁铁吸在一起释放的能量少，并没有什么本质的不同。

还有，质能方程E=mc²是爱因斯坦从狭义相对论的基本原理推出来的，所以，狭义相对论成立的地方质能方程也应该成立。那么，狭义相对论就只在核反应里成立？化学反应和磁铁相吸就不遵守狭义相对论了么？显然不是啊。

因此，从直觉和常识出发，我们觉得只有核反应才会发生质量亏损，亏损的质量和释放的能量满足质能方程。从逻辑和推理出发，又似乎是核反应、化学反应、磁铁吸在一起的过程都会出现质量亏损，亏损的质量跟释放的能量之间都满足质能方程。

直觉和逻辑发生了冲突，我听谁的？

当然是逻辑，科学从来就不是为了符合你的直觉而建立的。你要说直觉，亚里士多德的理论最符合直觉了，牛顿的都很反直觉，更别说相对论了。

所以，我们应该相信核反应、化学反应、磁铁吸在一起的过程中都发生了质量亏损。

如果化学反应也有质量亏损，那亏损的质量m跟化学反应（比如木炭燃烧）释放的能量E之间也会满足E=mc²。只不过，化学反应释放的能量E比较少，而光速c又很大，所以根据E/c²算出来的亏损质量m就非常小，小到平常根本察觉不出来，于是化学家们才总结出了质量守恒定律。

至于磁铁，它们吸在一起时释放的能量就更少了，亏损的质量也就更小。所以，我们就更加不会察觉分开的磁铁与吸在一起的磁铁在质量上会有什么不同了。

这样，我们就能以一种统一的逻辑解释所有的事情，既不与理论相冲突（从狭义相对论推出的E=mc²是普适的，核反应、化学反应、磁铁都应该遵守），也不跟实验相冲突（核反应容易观测到，化学反应、磁铁不太容易观测到）。

那问题的关键就来了：如果这种逻辑是对的，如果核反应、化学反应甚至磁铁吸在一起释放能量时都发生了质量亏损，而我们又不能像牛顿那样认为是组成物质的“材料”少了一块，那它到底亏损了什么？为什么它的质量会减少？

这就涉及到一个非常关键问题：在狭义相对论里，我们应该如何看待质量？

16质量是能量的量度

木炭燃烧时，碳原子和氧原子结合成二氧化碳分子，这个过程释放了能量，相应的质量也亏损了一点。这个结论已经不奇怪了，我们奇怪的是：它的质量为什么会减小？

如果我们还用牛顿的观念思考这个问题，你就会发现怎么也想不通。你觉得一个物体的质量是组成这个物体的所有粒子质量之和，然而碳原子、氧原子组成二氧化碳分子时，原子的种类和数量都没有变，但总质量却减小了。整个过程除了释放了一定的能量之外，并没有发生其它的事情。

似乎是能量减少了一点，质量就会减少一点，就好像质量不是用来衡量组成物质的微粒，而是用来衡量能量的多少似的。

没错，这正是问题的关键：在狭义相对论里，质量确实变成了一个衡量体系能量多少的量。你静止时有多少能量，对应的质量就是多少，它们的关系由质能方程E=mc²给出。质量不是别的什么东西，它就是能量的量度，这才是一切问题的关键。

以前，我们老觉得质量是物质的代名词，觉得一卡车砖头的质量等于每一块砖头的质量之和，所以每一个分子的质量就应该等于所有组成它原子的质量之和。我们是如此地相信还原论，相信所有的物质都可以还原为一个个基本粒子，相信物质的质量等于所有组成物质粒子的质量之和。

而这，正是我们理解质能方程的最大障碍。

现在我们要改变观念，物质的质量不再是组成它基本粒子的质量之和，而是用来度量能量的。物质的能量固然包含了组成物质的基本粒子的能量，但它还包含了基本粒子之间因为相互作用而具有的能量，比如各种势能。

比如，什么叫重力势能？我搬起一块石头，石头就增加了一定的重力势能。因为石头和地球之间存在引力，当石头离开地面后，石头和地球之间就存在这样一种能量。石头落地后，重力势能减少了，度量能量的质量自然也跟着减小了，减少的能量E和质量m之间满足E=mc²。

质子和中子组成氘核的情况也一样，无非就是把质子和中子换成了地球和石头，把质子和中子之间的强力换成了地球和石头之间的引力，一个释放了重力势能，一个释放了核能。

因此，只有我们认为“质量是能量的量度”，而不再是牛顿观念里物质的代名词，不再是衡量物质所包含基本粒子的质量之和时，我们才能逻辑一致地看待上述所有问题，才能非常自然地解释质量亏损。

为什么质子和中子组成氘核之后，它们的质量会减小？因为独立的质子和中子具有一定的能量，而质量是能量的量度，所以质子和中子组成的系统就具有一定的质量。质子和中子组成氘核后释放了一定的能量E，系统的总能量减少了，度量能量的质量m自然也减小了，它们之间满足E=mc²。

木炭燃烧变成了二氧化碳，碳原子和氧原子组合成二氧化碳分子时释放了能量E，于是度量能量的质量m自然也减小了，它们之间依然满足质能方程E=mc²。

我用力拉开两个磁铁，其实是往磁铁组成的系统里注入了能量，磁铁的能量增加了，度量能量的质量自然也跟着增加了。所以，分开的磁铁会比吸在一起的磁铁更重，你用多大能量把磁铁拉开，它们的质量就增加了这个能量除以光速c的平方。

我们用力压缩一个弹簧，弹簧的能量增加了，度量弹簧能量的质量自然也增加了。所以，压缩的弹簧比松开的弹簧更重。

一个手电筒发出了一束光，因为光带走了一部分能量，所以手电筒的能量减少了，度量手电筒能量的质量自然也减小了。于是，发光手电筒的质量会一直慢慢减小。

但是，如果我们把手电筒放在一个铁箱子里，虽然发光手电筒的质量在不断减小，但手电筒发出的光并没有逃出箱子，所以手电筒和箱子的总能量并没有减少。于是，手电筒和箱子的总质量也不会发生变化。

为什么要举这么多例子？当然是帮你快速洗脑。

我们在牛顿的世界里浸泡了太久，已经形成了极大的思维惯性。当我们在谈论物理，谈论自然界的各种现象时，潜意识里就会从牛顿的角度来思考问题，所以我们会觉得相对论和量子力学很奇怪。所谓奇怪，无非就是跟固有的观念不一样，在这里就是跟牛顿的观念不一样。

17新的图景

我们要不断提醒自己：现在的物理图景已经不再是牛顿那样了，宇宙并不是一堆微粒的集合，一个物体的质量也不是组成物体实物微粒的质量之和。

如果你觉得“让人不这样思考”比较难，那可以接触一下量子场论，试着从量子场的角度来看待这个世界。毕竟，让人忘掉熟悉的旧观念很难，但是，一旦接受了新的观念，旧观念自然就忘了。

量子场论首先是一种场论，它的核心思想是：宇宙并不是由什么“实物粒子”构成的，而仅仅是由场构成，一切都是场。所谓粒子，不过是这些量子化场的激发态。

然后，量子场论是量子力学和狭义相对论联姻的产物。为什么我们要让量子力学和狭义相对论联姻呢？因为处理微观粒子要用量子力学，处理高速（近光速）运动的物体要用狭义相对论。那么，如果你想处理高速的微观粒子，就必须同时使用量子力学和狭义相对论，也就是它们联姻后的量子场论。

也因如此，当我们用量子场论看问题时，我们其实也是在用狭义相对论看问题。而质能方程又是狭义相对论的结论，所以量子场论的图景跟质能方程是相容的。

毕竟，如果一切都是场，没有什么“实物粒子”，那自然就不存在什么“实物粒子被摧毁了变成能量”的说法。如果一切都是场，各种物理现象就只是场与场之间的相互作用，不存在谁被摧毁了，自然也不存在什么代表物质的“质量”转化成了能量。

这样，“质量转化成能量”就完全站不住脚了。

而前面我们也说了，场是有能量的，场和场之间的相互作用自然会涉及能量的变化。能量在不断变化，度量能量的质量自然也会不断变化，它们的桥梁就是质能方程。

这样，我们就可以非常自然地接受“质量是能量的量度”这个观念了，而这，才是打开质能方程E=mc²的正确方式。

18不动的质量

不过，需要注意的是，我上面说的"质量是能量的量度"，指的都是物体静止时的能量，并不涉及物体的动能。

我们知道动能是跟参考系有关的，在一个参考系里是静止的物体（动能为0），在另一个参考系里可能就是运动的（动能不为0），动能并不一样。

因此，如果把动能考虑进去，速度的增加就会导致动能的增加，能量增加了对应的质量也会增加。这样，物体的质量就会随着速度的增加而增加，也就是所谓的动质量。

但是，我非常不希望引入动质量。物理学要把握变化世界里不变的东西，质量原本是跟物体的运动状态无关的，你现在让它随着速度的变化而变化，何必呢？动质量又不是非用不可，我的文章从头到尾都没有动质量，不一样可以讲质能方程么？

我知道，有些地方是从动质量开始讲质能方程的。他们先定义动质量，再把狭义相对论的新动量定义为动质量和速度的乘积，然后去算新动能。

这样读者就会很困惑，你凭什么把新动量定义为动质量和速度的乘积？难道狭义相对论就是用动质量替换掉原来的质量，剩下的照搬？然后各种脑洞大开，胡思乱想。

在这篇文章里，我只是坚持狭义相对论的基本原理，要求动量守恒定律在洛伦兹变换下保持数学形式不变，然后自然就得到了新动量：

这样逻辑上就非常自然。在这个新动量里，质量m依然是不随物体的运动状态而改变的质量，动量是一个速度的函数，而不是动质量和速度的乘积。

另外，我们再看一看狭义相对论的新动能：

爱因斯坦认为mc²是物体静止时的能量，E是物体的动能，所以γmc²就是物体的总能量（动能+静能）：γmc²=E+mc²。

现在我们说“质量是能量的量度”，如果这个能量指的是物体静止时的能量mc²，那质量就是（静）质量；如果我们把动能E也加进来，认为能量是总能量γmc²，那得到的就是动质量。

也就是说，动质量和总能量在某种程度上是在描述相同的东西。然而，总能量是一直都存在的，并且是个非常重要的守恒量。如果已经存在一个守恒的总能量，为什么还要引入会导致混乱的动质量呢？

因此，我在文章里提到的质量通通都是（静）质量，完全不用动质量这种东西，也省得大家胡思乱想，最后把自己带沟里去了。

当然，虽然学界的主流是舍弃动质量，但也有少数学者认为动质量依然有存在的必要，这个我就不多说了，感兴趣的自己去查。

19结语

写到这里，文章差不多就可以收尾了。

通观全文，大家会发现质能方程的推导还是很简单的，只要遵守狭义相对论的基本原理，E=mc²就会自动地从动能表达式里冒出来。

真正困难的，还是理解质能方程背后世界观和物质观的转变，理解从牛顿到狭义相对论的转变，理解从“质量转化成能量”到“质量是能量的量度”的转变。

虽然相对论和量子力学革命已经过去了百年，但牛顿的观念还是深深地烙在许多人的心里。毕竟，我们在中学都要学习牛顿力学，只有少数人会系统地学习相对论和量子力学，而这方面的科普又比较少。

所以，习惯于用牛顿的观念去理解质能方程并不奇怪。

但话又说回来，毕竟如今已经是21世纪了，相对论和量子力学已经极大地改变了牛顿的世界观和物质观。如果你对后牛顿时代的物理学不感兴趣也就罢了，如果感兴趣（比如质能方程），就一定要注意牛顿观念的局限性。

我们不能总是从牛顿的角度来考虑这些后牛顿时代的物理学，否则，我们不仅无法掌握这些内容，还会误入歧途。

如果你能很好地理解质能方程，就能很好地理解狭义相对论，也能很好地理解从牛顿到现代物理的转变，这是一块非常好的试金石。

所以，现在你明白质能方程E=mc²了么？

收起阅读 »

最美的公式：你也能懂的麦克斯韦方程组（微分篇）

电动力学狭义相对论麦克斯韦方程组

在上一篇文章《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》里，长尾科技带着大家从零开始一步一步认识了麦克斯韦方程组的积分形式，这篇文章我们就来看看它的微分形式。在积分篇里，我们一直在跟电场、磁场的通量打交道。我们任意画一个曲面，这个曲面可以是闭合的，也可以...

继续阅读 »

在上一篇文章《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》里，长尾科技带着大家从零开始一步一步认识了麦克斯韦方程组的积分形式，这篇文章我们就来看看它的微分形式。

在积分篇里，我们一直在跟电场、磁场的通量打交道。我们任意画一个曲面，这个曲面可以是闭合的，也可以不是，然后我们让电场线、磁感线穿过这些曲面，它们就两两结合形成了四个积分形式的方程组。从这里我们能感觉到：麦克斯韦方程组的积分形式是从宏观角度来描述问题，这些曲面都是宏观可见的东西。那么微分形式呢？微分形式似乎应该从微观角度去看问题，那么我们要怎样把曲面、通量这些宏观上的东西弄到微观里来呢？

一个很简单的想法就是：我让宏观上的东西缩小缩小，直到缩小成一个点，这样不就进入微观了么？积分形式的麦克斯韦方程组需要选定一个曲面，但是它并没有限定这个曲面的大小，我可以把这个曲面选得很大，也可以选得很小。当你把这个曲面选得很小很小的时候，麦克斯韦方程组的积分形式就自然变成了微分形式。所以，微分形式的基本思想还是很简单的，它真正麻烦的地方是在于如何寻找一种方便的计算方式，这些我后面会细说。

因为微分形式和积分形式的这种承接关系，我建议大家尽量先看看积分篇的内容。在积分篇里，我是从零开始讲电磁学，讲麦克斯韦方程组，所以阅读起来不会有什么门槛。但是到了微分篇，上篇文章已经详细说了一些东西（诸如电场、通量、环流等概念）这里就不会再细说了。长尾君不会从天而降地抛出一个东西，如果在这篇文章里遇到了什么难以理解的东西，可以看看是不是在积分篇里已经说过了~

好，下面进入正题。在积分篇里我跟大家讲过，麦克斯韦方程组总共有四个方程，分别描述了静电（高斯电场定律）、静磁（高斯磁场定律）、磁生电（法拉第定律）、电生磁（安培-麦克斯韦定律）。这四个方程各有积分和微分两种形式，积分形式我们上篇已经说过了，微分形式我们还是按照顺序，也从静电开始。

01微分形式的静电

在积分篇里，我们是这样描述静电的：我在空间里任意画一个闭合曲面，那么通过闭合曲面的电场线的数量（电通量）就跟这个曲面包含的电荷量成正比。用公式表述就是这样：

这就是积分形式的高斯电场定律：左边表示通过闭合曲面S的电通量（E是电场强度，我们把面积为S的闭合曲面分割成许多小块，每一个小块用da表示，那么通过每一个小块面积的电通量就可以写成E·da。套上一个积分符号就表示把所有小块的电通量累加起来，这样就得到了通过整个闭合曲面S的电通量），右边那个带了enc下标的Q就表示闭合曲面包含的电荷量，ε0是个常数。这些内容我在积分篇里都详细说过了，这里不再多言。

下面是重点：因为这个闭合曲面S是可以任何选取的，它可以大可以小，可以是球面也可以是各种乱七八糟的闭合曲面。那么我们就不妨来学习一下孙悟空，变小变小再变小，我让这个闭合曲面也一直缩小缩小，缩小到无穷小，那么这时候高斯电场定律会变成什么样呢？

这里会涉及一丢丢极限的概念，我们这样考虑：一个闭合曲面缩小到无穷小，其实就是它的表面积或者体积无限趋向于0。也就是说，我假设有一个球的体积为ΔV，然后让这个ΔV无限趋近于0，那这样就可以表示这个球缩小到无穷小了。用数学符号可以记成这样：

Lim就是英文单词极限（limit）的缩写，ΔV通过一个箭头指向0可以很形象的表示它无限趋近于0。有了这个极限的概念，我们就可以很自然的表示通过这个无穷小曲面的电通量了（直接在电通量的前面加个极限符号），这时候高斯电场定律就成了这样：

这样，我们就把高斯电场定律从宏观拉到了微观：方程的左边表示曲面缩小到无穷小时的电通量，方程的右边表示无穷小曲面包含的电荷量。但是，当曲面缩小到无穷小的时候，我们再使用电荷量Q就不合适了，所以我们改用电荷密度（符号为ρ）。电荷密度，从名字里我们就能猜出它表示的是单位体积内包含电荷量的大小，所以它的表达式应该是用电荷量除以体积，即：ρ=Q/V。

所以，如果我们把微观的高斯电场定律左右两边都同时除以体积ΔV，那么右边的电荷量Q除以体积Δ就变成了电荷密度ρ，左边我们也再除以一个ΔV，那么公式就变成了下面这样：

公式的右边除以一个体积ΔV，就成了电荷密度ρ除以真空介电常数ε0，那左边呢？左边原来是通过无穷小曲面的电通量，这玩意除以一个体积ΔV之后表示什么呢？这一长串的东西，我们给它取了个新名字：散度。

也就是说，电场E在一个点（被无穷小曲面围着的这个点）上的散度被定义为电场通过这个无穷小曲面的电通量除以体积。散度的英文单词是divergence，所以我们通常就用div(E)表示电场E的散度，即：

所以，高斯电场定律的微分形式就可以表示成这样：

它告诉我们：电场在某点的散度跟该点的电荷密度成正比。

然后呢？然后微分篇的第一个方程就这样说完了？这只不过把高斯电场定律积分形式的曲面缩小到了无穷小，然后两边同时除了一个体积，右边凑出了一个电荷密度，左边巴拉巴拉凑出一大堆东西你告诉我这个新东西叫散度就完事了？不带这么玩的！那这个散度到底有什么物理意义？我要如何去计算具体的散度（你用无穷小通量去定义散度倒是好定义，但是这样计算可就麻烦了）？还有，很多人多多少少知道一些麦克斯韦方程组的样子，虽然不是很懂，那个倒三角符号▽倒还是记得的，你这公式里为什么没有▽符号呢？

02初入江湖的▽

没错，我们用无穷小曲面的通量和体积的比值来定义散度，这样定义是为了突出它跟通量之间的联系，也方便大家从积分的思维自然的转化到微分的思维中来。但是，这种定义在具体计算的时候是没什么用的，我们不会通过去计算无穷小曲面的通量和体积的比值来计算一个点的散度，因为这样实在是太麻烦了。我们有种更简单的方式来计算电场在某个点的散度，而这种方法，就会使用到我们熟悉的倒三角▽符号。

在这种新的表示方法里，电场E的散度可以被写成这样：▽·E，所以我们就可以用这个东西替换掉方程左边div(E)，那么麦克斯韦方程组的第一个方程——描述静电的高斯电场定律的微分形式就可以写成这样：

这样写的话，是不是就感觉熟悉多了？也就是说，同样是为了表示散度，我们用▽·E代替了代替了原来无穷小曲面通量和体积比值那么一大串的东西。而且这样还非常好计算，使用这种新的方式，你只要给出一个电场，我分分钟就可以把电场的散度写出来。这种倒三角▽符号，绝对是符号简化史上的奇迹。

所以，我接下来的工作，或者说理解麦克斯韦方程组的微分形式的核心内容，就是要来告诉大家这个倒三角▽符号到底是什么意思，▽·（后面加了一个点）又是什么意思？为什么▽·E可以表示电场E的散度就？为什么▽·E跟我们前面散度的定义div（E）是等价的？也就是说：

为什么上面的式子是相等的，而且都可以用来表示电场E的散度？

这就是我在开篇说的：微分形式的基本思想还是很简单的，它真正麻烦的地方在于如何寻找一种方便计算的方式，这种方便的计算方式自然就是▽。那么我们接下来就先把电磁相关的物理内容搁置一旁，先一起来看一看这个传奇符号▽的前世今生，理解了它，你就理解了麦克斯韦方程组的微分形式的精髓。

03从导数说起

要理解▽，我们还是得先再来看一看这个衡量事物变化快慢的概念：导数。说“再”是因为我们在积分篇里已经讲过了：法拉第发现了电磁感应，发现变化的磁场能产生电场，而且磁场变化得越快，产生的电场越大。这里我们就需要这样一个量来描述磁场变化的快慢，只不过当时我们没有展开说。

我还是借用上篇身高的例子来看看我们是如何描述变化的快慢的。一个人在十二三岁的时候一年可以长10厘米，我们说他这时候长得快；到了十七八岁的时候可能一年就只能长1厘米，我们就说他长得慢。也就是说，我们衡量一个量（这里就是身高，假设身高用y表示）变化快慢的方法是：给定一个变化的时间dt（比如一年，或者更小），看看这个量的变化Δy是多少，如果这个量的变化很大我们就说它变化得很快，反之则变化得慢。

在这里，我稍微解释一下Δy和dy的区别：如下图所示，我们假设函数在x轴上有一个增量Δx，这个用Δx或者dx表示都一样，两者相等。但是，这个在x轴上的变化带来的y轴上的变化就不一样了：Δy表示的是y轴实际的变化量，是我用前后两个不同的x对应的y值直接相减得到的真实结果；而dy则不是，dy是我们在M点做了一条切线，然后我用这条直线来代替曲线，当x轴上变化了Δx的时候这条直线上对应y上的变化。

从这个图里我们可以看到：Δy的值是要比dy大一点点的，但是随着Δx或者dx的减小，它们的之间的差值会急速减小，比Δx减小的快得多，这个差值也是我们常说的高阶无穷小。Δy叫做函数从一点到另一点的增量，而dy则被叫做函数的微分，或者叫它的线性主部。“以直（dy）代曲(Δy)”是现代微积分的一个核心思想，从这个图里可见一斑。

在微积分刚创立的时候，莱布尼茨把dx看作一个接近0但又不等于0的无穷小量，这种“朴素”的思维很符合直觉，而且用这种思想来计算也没什么错，但是它的基础是非常不牢固的。正是这种幽灵般的无穷小量dx（时而可以看作是0，时而可以当除数约分）导致了第二次数学危机，数学家们经过一个多世纪的抢救才给微积分找到了一个坚实的地基：极限理论。

这段内容不是太理解没关系，只要知道我们可以用dy/dx表示函数在M点的导数（在这里就是切线的斜率），可以用它来表示图像在这里变化的快慢就行了。

再回到人的身高随年龄变化的这个例子里来。人在各个年龄t都会对应一个身高y，这每个（t,y）就对应了图上的一个点，把这些点全都连起来大致就能得到这样一个图：

在导数dy/dt大的地方，图形里的斜率很大，通俗的说就是曲线很陡峭；而导数很小的地方，对应的曲线就很平缓。

在这个例子里，身高y是随着年龄t变化而变化，也就是说给定任何一个t的值，都有一个y的值跟它对应，我们就可以说身高y是一个关于年龄t的函数（function），记做y=f(t)。这个f自然就是函数的英文单词function的缩写，函数就是这样一种对应（映射）关系。在这里，身高y的值只跟年龄t一个变量相关，我们就说这是一个一元函数。但是，如果我们的问题稍微复杂一些，我的某个量不止跟一个量有关，而是跟多个量有关呢？

04多个变量的偏导数

比如山的高度，一座山在不同点的高度是不一样的，而在地面上确定一个点的位置需要经度和纬度两个信息。或者，你可以自己在地面上建立一个坐标系，然后地面上每一个点都可以用（x,y）来表示。因为每一个位置（x,y）都对应了那个地方山的高度z，那么z就成了一个关于x和y的函数，记做z=f(x,y)。因为山的高度z需要两个变量x和y才能确定，所以我们说z=f(x,y)是一个二元函数。

再例如，我房间的每一个点都有一个温度，所以房间的温度T是一个关于房间内空间点的函数，而房间里每一个点的位置需要长宽高三个变量（x,y,z）才能确定。所以，我房间里的温度T是一个关于x,y,z的三元函数，记做T=f(x,y,z)。

我们再来回过头来看看导数，在一元函数y=f(t)里，我们用dy/dt来表示这个函数的导数，导数越大的地方曲线变化得越快。因为一元函数的图像是一条曲线，曲线上的一个点只有一个方向（要么往前，要么往后，反正都是沿着x轴方向），所以我们可以直接用dy/dt表示函数变化得有多快。但是，如果这个函数不是一元函数，而是二元、三元等多元函数呢？

比如山的高度z是关于位置x,y的二元函数z=f(x,y)，这时候地面上的每一个点（x,y）都对应一个值，它的函数图像就是一个曲面（如山的表面），而不再是一条曲线。而曲面上的每一个点有无数个方向（前后左右360°都可以），x和y只是这无数方向中的两个，那我们要如何把握这无数个方向上的高度变化快慢呢？

当然，我们不可能把这无数个方向都一一找出来，也没这个必要。一个平面上有无数个点，但是我只用x和y这两个方向组成的（x,y）就可以表示所有的点。同样的，虽然在函数曲面上的一点有无数个方向，不同方向函数变化的快慢都不一样的，但是我们只要把握了其中的两个，就能把握很多信息。

那么我们要如何表示函数z沿着x轴方向变化的快慢呢？直接用dz/dx么？好像不太对，因为我们的z是一个关于x和y的二元函数，它的变量有两个，你这样直接dz/dx合适么？合法么？但是，如果我在考虑x轴方向的时候，把y看作一个常数，也就是把y轴固定住，这样函数z就只跟x相关了，于是我们就把一个二元函数（曲面）变成了一个一元函数（曲线）。

如上图所示，当我们固定y=1的时候，这个曲面就被这个y=1的平面切成了两半，而平面与曲面相交的地方就出现了一条曲线。这条曲线其实就是当我固定y=1的时候，函数z的图像，只不过这时候z只跟x一个变量有关，所以它变成了一个一元函数。于是，我们就可以仿照一元函数的方法定义导数了，也就是说：我们在z=f(x,y)上无法直接定义导数，但是如果我们把y固定起来了，这时候二元函数的曲面就变成了一元函数的曲线，那么我们就在曲线上定义导数了。这种把y的值固定在某个地方，然后计算函数在x轴方向上的导数，叫作关于x的偏导数，记做∂z/∂x。同样，如果我们把x的值固定，计算函数在y轴方向上的导数，那自然就是关于y的偏导数，记做∂z/∂y。

05全微分

有了偏导数的概念，我们就有办法写出dz和dx、dy之间的关系了。在一元函数里，导数是dy、dt，我们自然就可以写出dy和dt之间的关系：

那么，到了二元函数z=f(x,y)的时候呢？我们想象有个人在山的一点要往另一点爬，我们让他先沿着x轴的方向爬（也就是固定住y的值），假设他沿x轴移动了dx。根据上面偏导数的定义，如果我们把y 的值固定了，那么他在x轴方向上的导数是可以用偏导数∂z/∂x来表示，那么在他沿着x轴移动的时候，他上升的高度就可以写成（∂z/∂x）·dx。同样，接下来他沿着y轴方向走的时候，他上升的高度就可以写成（∂z/∂y）·dy。我们把这两个部分上升的高度加起来，不就得到了最终爬山的高度变化dz的了么？也就是说：

这个公式我们可以把它做作全微分定理，它其实是对上面一元函数导数关系的一个自然推广。它告诉我们，虽然在曲面的一个点上有无数个方向，但是只要我们掌握了其中x和y两个方向上的偏导数，我们就能把握它的函数变化dz。还原到爬山的这个例子上来，这个公式是在告诉我们：如果我知道你沿着x轴和y轴分别走了多少，然后我知道你这座山在x轴和y轴方向的倾斜度（即偏导数）是多少，那我就知道你爬山的纯高度变化有多少（又是几近大废话~）。

我们费了这么多劲就为了推出这个公式，那么这个公式里肯定隐藏了什么重要的东西。不过，现在这种形式还不容易看清楚，我们还得稍微了解一点矢量分析的内容，把公式拆成矢量点乘的形式，那就明显了。

06再谈矢量点乘

关于矢量点乘的事情，我在积分篇的第六节就已经说过一次了，因为电场的通量Φ就是电场E和面积a的点乘：Φ=E·a。因为矢量是既有大小又有方向的量，而我们小时候学习的乘法它只管大小不管方向，所以两个矢量之间就得重新定义一套乘法规则，而最常见的就是点乘（符号为‘·’）。

两个矢量OA、OB的点乘被定义为：OA·OB=|OA||OB|Cosθ（矢量的表示原本是在它头顶上加一个箭头，但是这里不方便这样表示，那就用黑体表示了）。它表示一个矢量OA在另一个矢量OB上的投影OC（OC=|OA| Cosθ）和另一个矢量的大小的乘积，可见两个矢量点乘之后的结果是一个标量（只有大小没有方向）。

这些内容我在上一篇都已经说了，这篇文章我们再来看看矢量点乘的几个性质。

性质1：点乘满足交换律，也就是说OA·OB=OB·OA。这个很明显，因为根据定义，前者的结果是|OA||OB| Cosθ，后者的结果是|OB||OA| Cosθ，它们明显是相等的。

性质2：点乘满足分配律，也就是说OA·（OB+OC）=OA·OB+OA·OC。这个稍微复杂一点，我这里就不作证明了，当做习题留给大家~

性质3：如果两个矢量相互垂直，那么它们点乘的结果为0。这个也好理解，如果两个矢量垂直，那么一个矢量在另一个矢量上的投影不就是一个点了么？一个点的大小肯定就是0啊，0乘以任何数都是0。如果大家学习了三角函数，从Cos90°=0一样一眼看出来。

性质4：如果两个矢量方向一样，那么它们点乘的结果就是他们大小相乘。理解了性质3，理解4就非常容易了，从cos0°=1也能一眼便知。

此外要注意的是，点乘是不满足结合律的，也就是说没有（OA·OB）·OC=OA·（OB·OC），为什么？因为两个矢量点乘之后的结果是一个标量，你再让一个标量去点乘另一个矢量压根就没有意义，点乘是两个矢量之间的运算。

我们小学就开始学的加法、乘法满足交换律、结合律、分配律，而矢量的点乘除了不能用结合律以外，其它的都满足。我这样写是为了告诉大家：点乘虽然是一种新定义的运算，但是它和我们平常接触的加法、乘法还是很类似的，大家不用对这种陌生的运算产生未知的恐惧。

07坐标系下的点乘

一个矢量有大小又有方向，我们通常是用一个箭头来表示的，箭头的方向就代表了矢量的方向，而箭头的长短就代表了矢量的大小。如果我们这时候建立一个坐标系，把这个箭头的一端移动到坐标原点，那么箭头的另一端就会固定在坐标系的某个点上，这样的话，我们就可以用一个坐标点来表示一个矢量了。

如上图，A点的坐标是（4,3），那么这个矢量OA就可以记为（4,3）。然后，我们把矢量OA沿着x轴y轴做一个分解：

于是，我们的矢量OA就可以表示成：OA=OB+OC（矢量的加法就是把两个矢量首尾相连，所以OB+BA=OA，而BA=OC，所以有上面的结论）。这时候，如果我们在x轴上定义一个单位向量x（1,0），那么OB的长度是x长度的四倍，而他们的方向又一样，所以矢量OB=4x。同样，在y轴上定义一个单位向量y(0,1)，那么OC=3y。那么，我们的OA就可以重新写成：OA=OB+OC=4x+3y。

这样的话，我任意一个矢量（x1,y1）都可以写成x1x+y1y。于是我就成功的把那个括号给丢了，把坐标表示的矢量变成了我们熟悉的加法运算。这里我们要特别区分：x1,y1是坐标，是数，是标量，而黑体的x,y代表的是单位矢量。那么矢量的点乘就可以写成这样：（x1,y1）·（x2,y2）=（x1x+y1y）·（x2x+y2y）。因为点乘是满足分配律（见性质2）的，所以我们可以把上面的结果直接完全展开成：x1x2xx+x1y2xy+y1x2yx+y1y2yy。

然后下面是重点：因为矢量x和y是分别沿着x轴和y轴的，所以它们是相互垂直的，而根据性质3，两个矢量如果相互垂直，它们的点乘结果就是0。也就是说，xy=yx=0，那么我们展开式的中间两项x1y2xy+y1x2yx就直接等于0。而根据性质4，xx= yy =1（因为x和y都是长度为1的单位矢量，自己跟自己点乘方向肯定一样）。

于是，我们就可以发现两个矢量点乘之后的结果只剩下第一项和第四项的系数部分了，也就是说：（x1,y1）·（x2,y2）=（x1x+y1y）·（x2x+y2y）= x1x2 +y1y2。

08梯度的诞生

对于很多高中生来说，这只是一个熟悉得不能再熟悉的结论，但是我还是从头到尾给大家扎扎实实的推导了一遍。长尾科技不喜欢那种凭空突然冒出一个结论的感觉，所以我也希望读者看我的文章，每个结论得出来都是踏踏实实的，都是严密的逻辑推导出来的。这个式子有什么用呢？我们看看它的后面一半（带箭头的x，y表示矢量，对应上面公式里的黑体x,y）：

再对比一下我们上面推导出来的全微分定理：

这个全微分定理的右边跟矢量点乘的右边是不是很像？都是两个量相乘然后把结果加起来。如果我们把dx看作x2，dy看作y2，两个偏导数看作x1和y1，那么我们就可以按照这个点乘的公式把这个全微分定理拆成两个矢量点乘的样子，即dz可以写成这样：

于是，dz就被我们拆成了两个矢量点乘的样子，我们再来仔细看看这两个矢量：右边的这个矢量的两个分量分别是dx和dy，这分别是我沿着x轴和y轴分别移动无穷小的距离，它们相加的结果用dl来表示:

而左边呢，左边这个矢量的两个分量分别是函数z=f(x,y)对x和y的两个偏导数，这个我们也用一个新的符号来表示它：

绕了这么久，我们现在终于看到这个▽符号了，这个▽z的名字就叫：z的梯度。

把左右两边的矢量都单独拎出来之后，我们就可以把原来的式子写成更简单的样子：

这一段信息量有点大，对于没接触过矢量分析的人来说可能会稍有不适。我们前面绕那么大弯子讲全微分dz，讲矢量的点乘，都是为了引出这个式子，然后从中提炼出梯度▽z的概念。不是很理解的朋友可以好好再看一看上面的文章，再想一下，长尾君基本上是从零开始一步一步写到这里来的，只要耐心看肯定能看懂~

搞懂了这些事情的来龙去脉之后，我们就来重点看看我们引出来的▽z，也就是z的梯度。

09梯度的性质

这个梯度我们要怎么去看呢？首先▽z是一个矢量，是矢量就既有大小又有方向，我们先来看看梯度的方向。

上面我们已经得到了dz=▽z·dl，把dz表示成了两个矢量的点乘，那我们再根据矢量点乘的定义把它们展开，就可以写成这样：

这个dz则表示山的高度的一个微小变化，那么，沿着哪个方向走这个变化是最快的呢？也就是说我选择哪个方向会使得dz的变化最大？

Cosθ表示的是直角三角形里邻边和斜边的比值，而斜边总是比两个直角边大的，所以它的最大值只能取1（极限情况，θ=0°的时候），最小为0（θ=90°）。而根据上面的dz=|▽z||dl|cosθ，显然你要让dz取得最大值，就必须让cosθ取最大值1，也就是必须让▽z和dl这两个矢量的夹角θ=0°。

两个矢量的夹角等于0是什么意思？那就是这两个矢量的方向一样啊。也就是说：如果我们移动的方向（dl的方向）跟梯度▽z的方向一致的时候，dz的变化最大，我们高度变化最大。这就告诉我们：梯度▽z的方向就是高度变化最快的方向，就是山坡最陡的方向。

假设你站在一个山坡上四处遥望，那个最陡的地方就是梯度的方向，如果你去测量这个方向的斜率，那这就是梯度的大小。所以，梯度这个名字还是非常形象的。

10▽算子

我们再仔细看一下梯度▽z的表示:

这是一个矢量，但是它看起来好像是▽和一个标量z“相乘”，我们把这个z提到括号的外面来，这时候这个梯度▽z就可以写成这样：

所以，如果把▽单独拎出来，就得到了这样一个东西：

这个东西就值得我们玩味了，这是啥？▽z表示的是二元函数z=f(x,y)的梯度，也就是说我们先有一个函数z，然后我们把这个▽往函数z前面一放，我们就得到z的梯度。从函数z得到z的梯度的具体过程就是对这个函数z分别求x的偏导和y的偏导。

也就是说，单独的▽是这么个东西：我▽自己本身并不是什么具体的东西，我需要你给我一个函数，然后我对你这个函数进行一顿操作（求x和y的偏导），最后返回一个这个函数的梯度给你。这就像是有一个特定功能的模具：你给我一堆面粉，我一顿处理之后返回你一个饼。但是显然的，它并不是面粉，也不是饼，它单独的存在没有什么意义，它一定要跟面粉结合才能产生有具体意义的东西。

这种东西叫算子，▽就叫▽算子。基于▽算子的巨大影响力，它又有一大堆其他的名字：从它的具体功能上来看，它被称为矢量微分算子；因为它是哈密顿引入进来的，所以它又被称为哈密顿算子；从读音上来说，它又被称为nabla算子或者del算子。这些大家了解一下，知道其他人在谈论这个的时候都是在指▽算子就行了。

11梯度、散度和旋度

▽算子不是一个矢量，除非你把它作用在一个函数上，否则它没啥意义。但是，它在各个方面的表现确实又像一个矢量，只要你把▽算子的“作用”看成矢量的“相乘”。

一个矢量一般来说有3种“乘法”：

1、矢量A和一个标量a相乘：aA。比如我把一个矢量A大小变为原来的2倍，方向不变，那么这时候就可以写成2A。

2、矢量A和一个矢量B进行点乘：A·B。这个点乘我们上面介绍很多了，A·B=|A||B|Cosθ，这里就不说了。

3、矢量A和一个矢量B进行叉乘：A×B。这个叉乘跟点乘类似，也是我们单独针对矢量定义的另外一种乘法，|A×B|=|A||B|Sinθ。大家可以看到，这个叉乘跟点乘唯一的区别就是：点乘是两个矢量的大小乘以它们的余弦值Cosθ，叉乘是两个矢量的大小乘以它们的正弦值Sinθ（在直角三角形里，角的对边和斜边的比为正弦Sinθ，邻边和斜边的比值为余弦Cosθ）。

那么，同样的，我们的▽算子也有3种作用方式：

1、▽算子作用在一个标量函数z上：▽z。这个▽z我们上面说过了，它表示函数z的梯度，它表示这个函数z变化最快的方向。

2、▽算子跟一个矢量函数E点乘：▽·E。这就表示E的散度，我们开篇讲的高斯电场定律的左边就是电场E的散度，它就是表示成▽·E这样。

3、▽算子跟一个矢量函数E叉乘：▽×E。它叫E的旋度，这个我们后面会再详细说。

这样，我们就以一种很自然的方式引出了这三个非常重要的概念：梯度（▽z）、散度（▽·E）和旋度（▽×E）。大家可以看到，▽算子的这三种作用跟矢量的三种乘法是非常相似的，只不过▽是一个算子，它必须作用在一个函数上才行，所以我们把上面的标量和矢量换成了标量函数和矢量函数。

我们在描述山的高度的函数z=f(x,y)的时候，不同的点（x,y）对应不同的山的高度，而山的高度只有大小没有方向，所以这是个标量函数，我们可以求它的梯度▽z。但是，电场E既有大小又有方向，这是一个矢量，所以我们可以用一个矢量函数E=f(x,y)表示空间中不同点（x,y）的电场E的分布情况。那么对这种矢量函数，我们就不能去求它的梯度了，我们只能去求它的散度▽·E和旋度▽×E。

为了让大家对这些能够有更直观的概念，我们接下来就来仔细看看电场的散度▽·E。

12电场的散度

当我们把电场的散度写成▽·E这样的时候，我们会觉得：啊，好简洁！但是我们也知道▽算子的定义是这样的：

那么▽·E就应该写成这样：

而我们知道电场E其实是一个矢量函数（不同点对应的电场的情况），那我们还是可以把E分解成x,y两个分量的和，这两个分量后面跟一个x和y方向的单位向量就行了。那么，上面的式子就可以写成这样：

然后，因为矢量点乘是满足分配律的，所以我们可以把他们按照普通乘法一样展开成四项。而x和y是垂直的单位向量，所以x·y=y·x=0，x·x=y·y=1，然后我们最后剩下的就只有这两项了（这一块的推导逻辑跟“坐标系下的矢量点乘”那一节一样，觉得有点陌生的可以再返回去看看那一部分）：

这就是电场E的散度的最终表达式，它的意思很明显：我们求电场E的散度就是把矢量函数E分解成x和y方向上的两个函数，然后分别对它们求偏导，最后再把结果加起来就行了。

为了让大家对这个有个更直观的概念，我们来看两个小例子：

例1：求函数y=2x+1的导数。

这个函数的图像是一条直线（不信的可以自己去找一些x的值，代入进去算算y的值，然后把这些点画在图上），它的斜率是2，也就是说导数是2。也就是说，对于一次函数（最多只有x，没有x的平方、立方……），它的导数就是x前面的系数（2x前面的2），而后面的常数（1）对导数没有任何影响。

例2：求电场E=2x+yy的散度。

我们先来看看这个电场E，它在x方向上（2x）的系数是2，也就是说它的电场强度是不变的，一直都是2。但是，在y方向上（yy）的系数是y，也就是说当我沿着y轴越走越远的时候，这个系数y也会越来越多，这就表示y方向上的电场强度会越来越大。

所以E=2x+yy描述的是这样一个在x轴方向上不变，在y轴方向上不断变大的电场。要求这个电场的散度，根据上面的式子，我们得先求出电场的偏导数，那偏导数要怎么求呢？还记得我们是怎么得到偏导数这个概念的么？我们是固定y的值，也就是假设y的值不变，把y看作一个常数，这时候求得了对x的偏导数；同样，把x当做一个常数，求函数对y的偏导数。

那么，当我们求函数对x的偏导数∂E/∂x时，我们可以把y当作常数（就像例1中后面的1一样）。如果y是常数，x方向前面的系数又是2，也是常数，所以这整个就变成了一个常数（常数的导数为0），所以∂E/∂x=0。同样，当我们求y的偏导的时候，就把x都看成常数（导数为0），而y方向前面的系数为y（导数为1），所以∂E/∂y=0+1=1。

那么电场E的散度▽·E就可以表示成这两个偏导数的和：▽·E=∂E/∂x+∂E/∂y=0+1=1，也就是说，电场E的散度为1。

这虽然是一个非常简单的求电场散度的例子，但是却包含了我们求偏导，求散度的基本思想。通过这种方式，我们可以很轻松的就把电场E的散度▽·E求出来了。

补了这么多的数学和推导，我们现在有了一个定义良好，计算方便的散度▽·表达式了，但是，你还记得我们在开始讲到的散度的定义么？我们最开始是怎样引入散度的呢？

我们是从麦克斯韦方程组的积分形式引入散度的。高斯电场定律说通过一个闭合曲面的电通量跟这个闭合曲面包含的电荷量成正比，而且这个曲面可以是任意形状。然后我们为了从宏观进入微观，就让这个曲面不停地缩小缩小，当它缩小到无穷小，缩小到只包含了一个点的时候，这时候我们就说通过这个无穷小曲面的通量和体积的比就叫散度（用div表示）。

也就是说，我们最开始从无穷小曲面的通量定义来的散度和我们上面通过偏导数定义来的散度▽·指的是同一个东西。即：

13为何这两种散度是等价的？

很多人可能觉得难以理解，这两个东西的表达形式和来源都完全不一样，它们怎么会是同一个东西呢？但是它们确实是同一个东西，那我们为什么要弄两套东西出来呢？在最开始我也说了，通过无穷小曲面的通量定义的散度很容易理解，跟麦克斯韦方程组的积分形式的通量也有非常大的联系，但是这种定义不好计算（上面的例2，你用这种方式去求它的散度试试？），所以我们需要找一种能方便计算、实际可用的方式，这样才出现了▽·形式的散度。

至于为什么这两种形式是等价的，我给大家提供一个简单的思路。因为这毕竟是面向大众的科普性质的文章，具体的证明过程我就不细说了。真正感兴趣的朋友可以顺着这个思路去完成自己的证明，或者来我的社群（回复“社群”即可）里讨论。

证明思路：我们假设有一个边长分别为Δx、Δy、Δz的小长方体，空间中的电场为E(x,y,z)，然后假设在这个长方体的正中心有一个点（x,y,z）,那么这个电场通过这个长方体前面（沿着x轴正方向）的电场就可以表示为：Ex（x+Δx/2,y,z）。Ex表示电场在x方向上的分量（因为我们是考虑长方体上表面的通量，所以只用考虑电场的x分量），因为中心坐标为（x,y,z），那么沿着x轴移动到表面的坐标自然就是（x+Δx/2,y,z）。而这个面的面积为ΔyΔz，那么通过前面的电通量就可以写成：Ex（x+Δx/2,y,z）·ΔyΔz。

同样的，通过长方体后面（沿着x轴的负方向）的电通量，就可以写成Ex（x-Δx/2,y,z）·ΔyΔz。因为这两个面的方向是相反的（前面后面，一个沿着x轴正方向，一个沿着负方向），所以，这两个沿着x轴方向的面的电通量之和Φx就应该是两者相减：Φx=（Ex（x+Δx/2,y,z）·ΔyΔz- Ex（x-Δx/2,y,z）·ΔyΔz）。

如果我们两边都除以Δv（其中，Δv=ΔxΔyΔz），那么就得到：Φx/Δv=（Ex（x+Δx/2,y,z）- Ex（x-Δx/2,y,z））/Δx，然后你会发现等式的右边刚好就是偏导数的定义（标准的极限定义）。也就是说，电场通过沿着x轴的两个面（前后两面）的通量之和就等于电场的x分量对x的偏导数：Φx/Δv=∂Ex/∂x。

同样的，我们发现电场沿着y轴的两面（左右两面）和z轴的两面（上下两面）的电通量之和分别就等于电场的y分量和z分量对y和z的偏导：Φy/Δv=∂Ey/∂y，Φz/Δv=∂Ez/∂z。然后我们把这三个式子加起来，左边就是电场通过六个面的通量除以体积，也就是通过这个长方体的通量除以体积，右边就是我们▽·E的形式，这分别就是我们上面两种散度的表示方式，证明完成。

这个证明一时半会没看懂也没关系，感兴趣的可以后面慢慢去琢磨。我只是想通过这种方式让大家明白通过某一方向的两个面的通量跟这方向的偏导数之间是存在这种对应关系的，这样我们就容易接受无穷小曲面的通量和▽·这两种散度的定义方式了。

这两种散度的定义方式各有所长，比如我们在判断某一点的散度是否为零的时候，我用第一个定义，去看看包含这个点的无穷小曲面的通量是不是为零就行了。如果这一点有电荷，那么这个无穷小曲面的电通量肯定就不为零，它的散度也就不为零；如果这个无穷小曲面没有包含电荷，那这一点的散度一定为0，这就是高斯电场定律的微分方程想要告诉我们的东西。但是，如果你要计算这一点的散度是多少，那还是乖乖的拿起▽·去计算吧。

14散度的几何意义

此外，跟梯度一样，散度这个名字也是非常形象的。很多人会跟你说散度表示的是“散开的程度”，这种说法很容易让初学者误解或者迷惑，比如一个正电荷产生的产生的如下的电场线，它看起来是散开的，所以很多就会认为这里所有的点的散度都是不为零的，都是正的。

但是，根据我们上面分析，散度反映的是无穷小曲面的通量，这直接跟这一点是否有电荷对应。那么，这个图的中心有一个正电荷，那么这点的散度不为零没毛病，但是其他地方呢？其他地方看起来也是散开的，但是其他地方并没有电荷，没有电荷的话，其他点电场的散度就应该为0（因为这个地方无穷小曲面的通量有进有出，它们刚好抵消了），而不是你看起来的好像是散开的，所以为正。

也就是说，对于一个点电荷产生的电场，只有电荷所在的点的散度不为0，其他地方的散度都为0。我们不能根据一个电场看起来是散开的就觉得这里的散度都不为0，那么，这个散开到底要怎么理解呢？

你可以这么操作：你把电场线都想象成水流，然后拿一个非常轻的圆形橡皮筋放到这里，如果这个橡皮筋的面积变大，我们就说这个点的散度为正，反正为负。如果你把橡皮筋丢在电荷所在处，那么这点所有方向都往外流，那么橡皮筋肯定会被冲大（散度为正）；但是在其他地方，橡皮筋会被冲走，但是不会被冲大（散度为0），因为里外的冲力抵消了。这样的话，这种散开的模型跟我们无穷小曲面的通量模型就不再冲突了。

15方程一：高斯电场定律

说了这么多，又是证明不同散度形式（无穷小曲面的通量和▽·）的等价性，又是说明不同散度理解方式的同一性（无穷小曲面的通量和散开的程度），都是为了让大家从更多的维度全方位的理解散度的概念，尽量避开初学者学习散度会遇到的各种坑。理解了这个散度的概念之后，我们再来看麦克斯韦方程组的第一个方程——高斯电场定律的微分形式就非常容易理解了：

方程的左边▽·E表示电场在某一点的散度，方程右边表示电荷密度ρ和真空介电常数的比值。为什么右边要用电荷密度ρ而不是电荷量Q呢？因为散度是无穷小曲面的通量跟体积的比值，所以我们的电量也要除以体积，电量Q和体积V的比值就是电荷密度ρ。对比一下它的积分形式：

两边都除以一个体积V，然后曲面缩小到无穷小：左边的通量就变成了电场的散度▽·E，右边的电荷量Q就变成了电荷密度ρ，完美！

麦克斯韦方程组的积分形式和微分形式是一一对应的，理解这种对应的关键就是理解散度（和后面的旋度）这两种不同定义方式背后的一致性，它是沟通积分和微分形式的桥梁。理解了它们，我们就能在这两种形式的切换之间如鱼得水，我们就能一看到积分形式就能写出对应的微分形式，反之亦然。

16方程二：高斯磁场定律

理解了高斯电场定律的微分形式，那么高斯磁场定律的微分形式就能轻松写出来了。因为现在还没有找到磁单极子，磁感线都是闭合的曲线，所以闭合曲面的磁通量一定恒为0，这就是高斯磁场定律积分形式的思想：

那么，我们一样把这个曲面缩小到无穷小，通过这个无穷小曲面的磁通量就叫磁场的散度，那么方程的左边就变成了磁场的散度，而右边还是0。也就是说：磁场的散度处处为0。所以，麦克斯韦方程组的第二个方程——高斯磁场定律的微分形式就是：

17旋度

静电和静磁的微分形式我们已经说完了，那么接下来就是磁如何生电的法拉第定律了。关于法拉第是如何通过实验一步一步发现法拉第定律的内容，我在积分篇里已经详细说了，这里就不再多说。对法拉第定律的基本思想和积分形式的内容还不太熟悉的请先去看上一篇积分篇的内容。

法拉第定律是法拉第对电磁感应现象的一个总结，他发现只要一个曲面的磁通量（B·a）发生了改变，那么就会在曲面的边缘感生出一个旋涡状的电场E出来。这个旋涡状的感生电场我们是用电场的环流来描述的，也就是电场沿着曲面边界进行的线积分。

用具体的公式表示就是这样：

公式左边是电场E的环流，用来描述这个被感生出来的电场，而公式的右边是磁通量的变化率，用来表示磁通量变化的快慢。

这个法拉第定律是用积分形式写的，我们现在要得到它的微分形式，怎么办？那当然还是跟我们上面的操作一样：从积分到微分，我把它无限缩小就行了。那么，这里我们把这个非闭合曲面缩小缩小，一直缩小到无穷小，那么我们这里就出现了一个无穷小曲面的环流。

还记得我们怎么定义散度的么？散度就是通过无穷小闭合曲面的通量和闭合曲面体积的比值，而我们这里出现了一个无穷小非闭合曲面的环流，因为非闭合曲面就没有体积的说法，只有面积。那么，通过无穷小非闭合曲面的环流和曲面面积的比值，会不会也有是一个另外什么量的定义呢？

没错，这确实是一个全新的量，而且这个量我们在前面稍微提到了一点，它就是旋度。我们把▽算子跟矢量做类比的时候，说一个矢量有三种乘法：跟标量相乘、点乘和叉乘。那么同样的，▽算子也有三种作用：作用在标量函数上叫梯度（▽z）,以点乘的方式作用在矢量函数上被称为散度（▽·z），以叉乘的方式作用在矢量函数上被称为旋度（▽×z）。

也就是说，我们让▽算子以叉乘的方式作用在电场E上，我们就得到了电场E的旋度▽×E，而这个旋度的另一种定义就是我们上面说的无穷小非闭合曲面的环流和这个曲面的面积之比。因为旋度的英文单词是curl，所以我们用curl（E）表示电场的旋度。所以，我们就可以写下下面这样的式子：

跟散度的两种定义方式一样，我们这里的旋度也有▽×和无穷小曲面的环流两种表述方式。在散度那里，我给大家证明了那两种散度形式等价性，在旋度这里我就不再证明了，感兴趣的朋友可以按照类似的思路去尝试证明一下。

18矢量的叉乘

因为旋度是▽算子以叉乘×的方式作用在矢量场上，所以这里我们来简单的看一下叉乘。两个矢量A和B的点乘被定义为：A·B=|A||B|Cosθ，它们的叉乘则被定义为|A×B|=|A||B|Sinθ，其中θ为它们的夹角。单从这样看，它们之间的差别好像很小，只不过一个是乘以余弦Cosθ，另一个是乘以正弦Sinθ。

从它们的几何意义来说，点乘表示的是投影，因为|OA|Cosθ刚好就是OA在OB上的投影，也就是OC的长度。如下图：

那么叉乘呢？叉乘是|OA|Sinθ，这是AC的长度，那么|A×B|=|A||B|Sinθ=|AC||OB|，这是啥？这是面积啊，如果我以OA和OB为边长作一个平行四边形，那么AC就刚好是这个平行四边形的高，也就是说，矢量A和B的叉乘（|A×B|=|AC||OB|）就代表了平行四边形OADB的面积。

关于矢量的叉乘就说这么多，在前面讲矢量点乘的时候我还详细介绍了点乘的性质和坐标运算的方法，那是因为为了自然的引出▽算子，不得不讲那些。叉乘也有类似的性质和坐标运算的法则，这个在网上随便一搜或者找一本任意矢量分析的书都能找到。而且，你现在不会熟练的进行叉乘运算，并不会影响你对麦克斯韦方程组的微分形式的理解，这里了解一下它的定义和几何意义就行了。

19方程三：法拉第定律

好，知道了矢量的叉乘，知道了▽×E可以表示电场的旋度，而且知道旋度的定义是：无穷小非闭合曲面的环流和这个曲面的面积之比。那我们再来回过头看一看法拉第定律的积分形式：

公式的左边是电场的环流，右边是磁通量的变化率，它告诉我们变化的磁通量会在曲面边界感生出电场。我在积分篇里说过，磁通量（B·a）的变化可以有两种方式：磁场（B）的变化和通过曲面面积（S）的变化，我们上面这种方式是把这两种情况都算在内。但是，还有的学者认为只有磁场（B）的变化产生的电场才算法拉第定律，所以法拉第定律还有另外一个版本：

这个版本的把原来对整个磁通量（B·da）的求导变成了只对磁感应强度B的求偏导，这就把磁感线通过曲面面积变化的这种情况给过滤了。

在积分形式里有这样两种区别，但是在微分形式里就没有这种区分了。为什么？你想想我们是怎么从积分变到微分的？我们是让这个曲面不停的缩小缩小，一直缩小到无穷小，这个无穷小的曲面就只能包含一个没有大小的点了，你还让它的面积怎么变？所以我们的微分形式就只用考虑磁感应强度B的变化就行了（对应后面那个法拉第定律）。

我们现在假设把那个曲面缩小到无穷小，方程的左边除以一个面积ΔS，那就是电场的旋度▽×E的定义：

左边除了一个面积ΔS，那右边也得除以一个面积，右边本来是磁感应强度的变化率（∂B/∂t）和面积的乘积，现在除以一个面积，那么剩下的就是磁感应强度的变化率∂B/∂t了。那么，麦克斯韦方程组的第三个方程——法拉第定律的微分形式自然就是这样：

简洁吧？清爽吧？这样表示之后，法拉第定律的微分形式看起来就比积分形式舒服多了，而且它还只有这一种形式。直接从方程上来看，它告诉我们某一点电场的旋度等于磁感应强度的变化率。简单归简单，要理解这种公式，核心还是要理解左边，也就是电场的旋度▽×E。

20旋度的几何意义

我们知道旋度的定义是无穷小曲面的环流和面积的比值，但是它既然取了旋度这个名字，那么它跟旋转应该还是有点关系的。我们变化的磁场感生出来的电场也是一个旋涡状的电场。那么，是不是只要看起来像漩涡状的矢量场，它就一定有旋度呢？

这个问题我们在讨论散度的时候也遇到过，很多初学者认为只要看起来发散的东西就是有散度的，然后我们通过分析知道这是不对的。一个点电荷产生静电场，只要在电荷处散度不为零的，在其他地方，虽然看起来是散开的，其实它的散度是零。如果我们放一个非常轻的橡皮筋在上面，除了电荷所在处，其它地方这个橡皮筋是不会被撑开的（即便会被冲走），所以其他地方的散度都为零。

同样的，在旋度这里，一个变换的磁场会产生一个旋涡状的电场，在旋涡的中心，在磁场变化的这个中心点这里，它的旋度肯定是不为零的。但是，在其它地方呢？从公式上看，其它地方的旋度一定为零，为什么？因为其他地方并没有变化的磁场啊，所以按照法拉第定律的微分形式，没有变化的磁场的地方的电场的旋度肯定是0。

跟散度一样，我们不能仅凭一个感生电场是不是旋转状的来判断这点旋度是否为0，我们也需要借助一个小道具：小风车。我们把一个小风车放在某一点上，如果这个风车能转起来，就说明这点的旋度不为0。你只要把风车放在感生电场中心以外的地方，就会发现如果外层的电场线让小风车顺时针转，内层的电场线就会让小风车逆时针转，这两股力刚好抵消了。最终风车不会转，所以旋度为0。

如果大家能理解静电场除了中心点以外的地方散度处处为零，那么理解感生电场除了中心点以外的地方旋度处处为零就不是什么难事。在非中心点的地方，散度的流入流出两股力量抵消了，旋度顺时针逆时针的两股力量抵消了，为什么刚好他们能抵消呢？本质原因还是因为这两种电场都是随着距离的平方反比减弱。如果它们不遵守平方反比定律，那么你去计算里外的散度和旋度，它们就不再为零。

关于旋度的事情就先说这么多，大家如果理解了旋度，对比法拉第定律的积分方程，要理解它的微分方程是很容易的。我前面花了很大的篇幅给大家讲了矢量的点乘和散度，作为类比，理解矢量的叉乘和旋度也不是什么难事，它们确实太相似了。

21方程四：安培-麦克斯韦定律

讲完了磁生电的法拉第定律，我们麦克斯韦方程组就只剩最后一个电生磁的安培-麦克斯韦定律了。它描述的是电流和变化的电场如何产生旋涡状的感生磁场的，因为它电的来源有电流和变化的电场两项，所以它的形式也是最复杂的。方程的积分形式如下（具体过程见积分篇）：

左边的磁场的环流，右边是曲面包围的电流（带enc下标的I）和电场的变化率。它告诉我们，如果我们画一个曲面，通过这个曲面的电流和这个曲面里电通量的变化会在曲面的边界感生出一个旋涡状的磁场出来，这个旋涡状的磁场自然是用磁场的环流来描述。

可以想象，当我们用同样的方法把这个曲面缩小到无穷小的时候，如果我们在方程的左右两边都除以这个曲面的面积，那么方程的左边就成了磁场B的旋度▽×B，右边的两项除以一个面积会变成什么呢？

电通量的变化率除以面积之后就剩下电场的变化率∂E/∂t，这个跟法拉第定律的磁通量变化率除以面积类似。那么电流（带enc的I）那一项呢？电流I除以面积得到的东西是什么？这里我们定义了一个新的物理量：电流密度J。很显然，这个电流密度J就是电流除以电流通过的曲面的面积（注意不是体积）。相应的，电流密度的单位是A/m²（安培每平方米）而不是A/m³。

这样，麦克斯韦方程组的第四个方程——安培-麦克斯韦定律的微分形式就自然出来了：

虽然还是有点长，但是相比积分形式已经是相当良心了，它告诉我们某一点感生磁场的旋度▽×B等于电流密度J和电场变化率∂E/∂t两项的叠加。其实它跟积分形式讲的都是一回事，都是在说电流和变化的电场能够产生一个磁场，只不过积分形式是针对一个曲面，而微分形式只是针对一个点而已。

22麦克斯韦方程组

至此，麦克斯韦方程组的四个方程：描述静电的高斯电场定律、描述静磁的高斯磁场定律、描述磁生电的法拉第定律和描述电生磁的安培-麦克斯韦定律的微分形式就都说完了。把它们都写下来就是这样：

高斯电场定律说电场的散度跟这点的电荷密度成正比。

高斯磁场定律说磁场的散度处处为0。

法拉第定律说感生电场的旋度等于磁感应强度的变化率。

安培-麦克斯韦定律说感生磁场的旋度等于电流密度和电场强度变化率之和。

这里最引入注目的就是▽算子了，它以点乘和叉乘的方式组成的散度▽·和旋度▽×构成了麦克斯韦方程组微分形式的核心，这也是为什么我要花那么大篇幅从偏导数、矢量点乘一步步给大家引出▽算子的原因。也因为如此，微分篇的数学部分比积分篇要多得多得多，相对也要难以理解一些，所以大家要稍微有耐性一点。

从思想上来讲，微分形式和积分形式表达的思想是一样的，毕竟它们都是麦克斯韦方程组。它们的差别仅仅在于积分形式是从宏观的角度描述问题，我们面对的宏观上的曲面，所以要用通量和环流来描述电场、磁场；而微分形式是从微观的角度来描述问题，这时候曲面缩小都无穷小，我们面对的东西就变成了一个点，所以我们使用散度和旋度来描述电场、磁场。

这一点是特别要强调的：通量和环流是定义在曲面上的，而散度和旋度是定义在一个点上的。我们可以说通过通过一个曲面的通量或者沿曲面边界的环流，但是当我们在说散度和旋度的时候，我们都是在说一个点的散度和旋度。

理解了这些，你再回过头去看看麦克斯韦方程组的积分形式：

我们只不过把定义在曲面上的通量和环流缩小到了一个点，然后顺势在这个点上用利用通量和环流定义了散度和旋度。因为定义散度和旋度分别还除了一个体积和面积，所以我们积分方程的右边也都相应的除了一个体积和面积，然后就出现了电荷密度ρ（电荷Q除以体积V）和电流密度J（电流I除以面积S），电通量和磁通量那边除以一个体积和面积就剩下电场强度E和磁感应强度B的变化率，仅此而已。

如果我们从这种角度去看麦克斯韦方程组的积分形式和微分形式，你就会觉得非常的自然和谐。给出积分形式，你一想散度和旋度的定义，就可以立马写出对应的微分形式；给出微分形式，再想一想散度和旋度的定义，也能立刻写出对应的积分形式。当我想从宏观入手的时候，我看到了曲面上的通量和环流；当我想从微观入手的时候，我也能立马看到一个点上的散度和旋度。积分和微分形式在这里达成了一种和谐的统一。

23结语

到这里，麦克斯韦方程组的积分篇和微分篇就都说完了。长尾君在这两篇文章里先从零开始引出了通量，然后从通量的概念慢慢引出了麦克斯韦方程组的积分形式，再从积分形式用“把曲面压缩到无穷小”推出了对应的微分形式。整个过程我都极力做到“通俗但不失准确”，所有新概念的引出都会先做层层铺垫，绝不从天而降的抛出一个新东西。目的就是为了让多的人能够更好的了解麦克斯韦方程组，特别是让中学生也能看懂，能理解麦克斯韦方程组的美妙，同时也激发出他们对科学的好奇和热爱之心，打消他们对“高深”科学的畏惧之心：看，这么高大上的麦克斯韦方程组，年纪轻轻的我也能看懂，也能掌握~

此外，麦克斯韦方程组是真的很美，你掌握的物理知识越多，就会越觉得它美。我也更希望大家是因为它的美而喜欢这个方程组，而不仅仅是因为它的“重要性”。我们也都知道，麦克斯韦写出这套方程组以后，就从方程推导出了电磁波，当他把相关的参数代入进去算出电磁波的速度的时候，他惊呆了！他发现这个电磁波的速度跟人们实验测量的光速极为接近，于是他给出了一个大胆的预测：光就是一种电磁波。

可惜的是，英年早逝的麦克斯韦（48岁去世）并没能看到他的预言被证实，人类直到他去世9年后，也就是1888年才由赫兹首次证实了“光是一种电磁波”。那么，麦克斯韦是怎么从方程组导出电磁波的呢？既然我们已经学完了麦克斯韦方程组，想必大家也很知道如何从这套方程组推导出电磁波的方程，然后亲眼见证“电磁波的速度等于光速”这一奇迹时刻。这部分的内容，长尾科技下篇文章再说。

最后，这篇文章主要参考了《电动力学导论》（格里菲斯）和《麦克斯韦方程直观》（Daniel Fleisch），大家想对麦克斯韦方程组做进一步了解的可以看看这两本书，需要电子档的可以在后台回复“麦克斯韦方程组”。

最美的方程，愿你能懂她的美~

相关文章：《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》

收起阅读 »

见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？

电动力学狭义相对论麦克斯韦方程组

在前两篇文章里，长尾君给大家介绍了麦克斯韦方程组的积分和微分形式。大家也都知道麦克斯韦从这套方程组里推导出了电磁波，然后通过计算发现电磁波的速度正好等于光速。于是，麦克斯韦就预言“光是一种电磁波”，这个预言后来被赫兹证实。电磁波的发现让麦克斯韦和他的电磁理论走...

继续阅读 »

在前两篇文章里，长尾君给大家介绍了麦克斯韦方程组的积分和微分形式。大家也都知道麦克斯韦从这套方程组里推导出了电磁波，然后通过计算发现电磁波的速度正好等于光速。于是，麦克斯韦就预言“光是一种电磁波”，这个预言后来被赫兹证实。

电磁波的发现让麦克斯韦和他的电磁理论走上了神坛，也让人类社会进入了无线电时代。你现在可以随时给远方的朋友打电话，能用手机刷长尾科技的文章，都跟电磁波有着密切的关系。那么，麦克斯韦到底是怎么从麦克斯韦方程组推导出电磁波方程的呢？这篇文章我们就来一起见证这一奇迹的时刻。

01什么是波？

要理解电磁波，首先我们得了解什么是波？有些人可能觉得这个问题有点奇怪，什么是波这还用问么？我丢一块石头到水里，水面上就会形成一个水波；我抖动一根绳子，绳子上就会就会出现一个波动。生活中还有很多这种波动现象，我虽然读书少，但是什么是波还是知道的。

没错，水波、绳子上的波动这些都是波，我在这里抛出“什么是波？”这个问题并不是想来掰指头数一数哪些东西是波，哪些不是，而是想问：所有这些叫作波的东西有什么共同的特征？我们如何用一套统一的数学语言来描述波？

我们研究物理，就是从万千变化的自然界的各种现象里总结出某种一致性，然后用数学的语言定量、精确的描述这种一致的现象。现在我们发现了水波、绳子上的波等许多现象都有这样一种波动现象，那我们自然就要去寻找这种波动现象背后统一的数学规律，也就是寻找描述波动现象的方程，即波动方程。

为了寻找统一的波动方程，我们先来看看最简单的波：抖动一根绳子，绳子上就会出现一个波沿着绳子移动，以恒定的频率抖动就会出现连续不断的波。

为了更好地研究绳子上的波动，我们先建立一个坐标系，然后把注意力集中到其中的一个波上。于是，我们就看到一个波以一定的速度v向x轴的正方向（右边）移动，如下图：

那么，我们该如何去描述这种波动呢？

首先，我们知道一个波是在不停地移动的，上图只是波在某个时刻的样子，它下一个时刻就会往右边移动一点。移动了多少也很好计算：因为波速为v，所以Δt时间以后这个波就会往右移动v·Δt的距离。

另外，我不管这个时刻波是什么形状的曲线，反正我可以把它看成一系列的点（x,y）的集合，这样我们就可以用一个函数y=f(x)来描述它（函数就是一种对应（映射）关系，在函数y=f(x)里，每给定一个x，通过一定的操作f(x)就能得到一个y，这一对（x,y）就组成了坐标系里的一个点，把所有这种点连起来就得到了一条曲线）。

然后，y=f(x)只是描述某一个时刻的波的形状，如果我们想描述一个完整动态的波，就得把时间t考虑进来。也就是说我们的波形是随着时间变化的，即：我绳子上某个点的纵坐标y不仅跟横轴x有关，还跟时间t有关，这样的话我们就得用一个二元函数y=f(x,t)来描述一个波。

这一步很好理解，它无非告诉我们波是随时间（t）和空间（x）变化的。但是这样还不够，世界上到处都是随着时间、空间变化的东西，比如苹果下落、篮球在天上飞，它们跟波的本质区别又在哪呢？

02波的本质

仔细想一下我们就会发现：波在传播的时候，虽然不同时刻波所在的位置不一样，但是它们的形状始终是一样的。也就是说前一秒波是这个形状，一秒之后波虽然不在这个地方了，但是它依然是这个形状，这是一个很强的限制条件。有了这个限制条件，我们就能把波和其它在时间、空间中变化的东西区分开了。

我们这样考虑：既然用f(x,t)来描述波，那么波的初始形状（t=0时的形状）就可以表示为f(x,0)。经过了时间t之后，波速为v，那么这个波就向右边移动了vt的距离，也就是把初始形状f(x,0)往右移动了vt，那么这个结果可以这样表示：f(x-vt,0)。

为什么把一个函数的图像往右移动了一段vt，结果却是用函数的自变量x减去vt，而不是加上vt呢？这是一个中学数学问题，我这里稍微帮大家回顾一下：你们想，如果我把一个函数图像f(x)往右移动了3，那么我原来在1这个地方的值f(1)，现在就成了4这个地方的函数值。所以，如果你还想用f(x)这个函数，那肯定就得用4减去3（这样才能得到f(1)的值），而不是加3（4+3=7，f(7)在这里可没有什么意义）。

所以，如果我们用f(x,t)描述波，那么初始时刻（t=0）的波可以表示为f(x,0)。经过时间t之后的波的图像就等于初始时刻的图像往右移动了vt，也就是f(x-vt,0)。于是，我们就可以从数学上给出波运动的本质：

也就是说，只要有一个函数满足f(x,t)=f(x-vt,0)，满足任意时刻的形状都等于初始形状平移一段，那么它就表示一个波。水波、声波、绳子上的波、电磁波、引力波都是如此，这也很符合我们对波的直观理解。

这里我们是从纯数学的角度给出了波的一个描述，下面我们再从物理的角度来分析一下波的形成原因，看看能不能得到更多的信息。

03张力

一根绳子放在地上的时候是静止不动的，我们甩一下就会出现一个波动。我们想一想：这个波是怎么传到远方去的呢？我们的手只是拽着绳子的一端，并没有碰到绳子的中间，但是当这个波传到中间的时候绳子确实动了，绳子会动就表示有力作用在它身上（牛爵爷告诉我们的道理），那么这个力是哪里来的呢？

稍微分析一下我们就会发现：这个力只可能来自绳子相邻点之间的相互作用，每个点把自己隔壁的点“拉”一下，隔壁的点就动了（就跟我们列队报数的时候只通知你旁边的那个人一样）这种绳子内部之间的力叫张力。

张力的概念也很好理解，比如我们用力拉一根绳子，我明明对绳子施加了一个力，但是这根绳子为什么不会被拉长？跟我的手最近的那个点为什么不会被拉动？

答案自然是这个点附近的点给这个质点施加了一个相反的张力，这样这个点一边被我拉，另一边被它邻近的点拉，两个力的效果抵消了。但是力的作用又是相互的，附近的点给端点施加了一个张力，那么这个附近的点也会受到一个来自端点的拉力，然而这个附近的点也没动，所以它也必然会受到更里面点的张力。这个过程可以一直传播下去，最后的结果就是这根绳子所有的地方都会张力。

而且，我们还可以断定：如果绳子的质量忽略不计，绳子也没有打结没有被拉长，那么绳子内部的张力处处相等（只要有一个点两边的张力不等，那么这个点就应该被拉走了，绳子就会被拉变形），这是个很重要的结论。

通过上面的分析，我们知道了当一根理想绳子处于紧绷状态的时候，绳子内部存在处处相等的张力。当一根绳子静止在地面的时候，它处于松弛状态，没有张力，但是当一个波传到这里的时候，绳子会变成一个波的形状，这时候就存在张力了。正是这种张力让绳子上的点上下振动，所以，分析这种张力对绳子的影响就成了分析波动现象的关键。

04波的受力分析

那么，我们就从处于波动状态的绳子中选择很小的一段AB，我们来分析一下这个小段绳子在张力的作用下是如何运动的。放心，我们这里并不会涉及什么复杂的物理公式，我们所需要的公式就一个，大名鼎鼎的牛顿第二定律：F=ma。

牛顿第一定律告诉我们“一个物体在不受力或者受到的合外力为0的时候会保持静止或者匀速直线运动状态”，那么如果合外力不为0呢？牛顿第二定律就接着说了：如果合外力F不为零，那么物体就会有一个加速度a，它们之间的关系就由F=ma来定量描述（m是物体的质量）。也就是说，如果我们知道一个物体的质量m，只要你能分析出它受到的合外力F，那么我们就可以根据牛顿第二定律F=ma计算出它的加速度a，知道加速度就知道它接下来要怎么动了。

牛顿第二定律就这样把一个物体的受力情况（F）和运动情况（a）结合起来了，我们想知道一个物体是怎么动的，只要去去分析它受到了什么力就行了，所以它牛。

再来看我们的波，我们从处于波动状态的绳子里选取很小的一段AB，我们想知道AB是怎么运动的，就要分析它受到的合外力。因为不考虑绳子的质量，所以就不用考虑绳子的重力，那么，我们就只要分析绳子AB两端的张力T就行了。

如上图，绳子AB受到A点朝左下方的张力T和B点朝右上方的张力T，而且我们还知道这两个张力是相等的，所以才把它都记为T。但是，我们知道波动部分的绳子是弯曲的，那么这两个张力的方向是不一样的，这一点从图中可以非常明显的看出来。我们假设A点处张力的方向跟横轴夹角为θ，B点跟横轴的夹角就明显不一样了，我们记为θ+Δθ。

因为绳子上的点在波动时是上下运动，所以我们只考虑张力T在上下方向上的分量，水平方向上的就不考虑了。那么，我们把AB两点的张力T都分解一下，稍微用一点三角函数的知识我们就能发现：B点处向上的张力为T·sin（θ+Δθ），A点向下的张力为T·sinθ。那么，整个AB段在竖直方向上受到的合力就等于这两个力相减：F= T·sin（θ+Δθ）-T·sinθ。

好了，按照牛顿第二定律F=ma，我们需要知道物体的合外力F、质量m和加速度a，现在我们已经知道了合外力F，那么质量m和加速度a呢？

05波的质量分析

质量好说，我们假设绳子单位长度的质量为μ，那么长度为Δl的绳子的质量就是μ·Δl。

但是，因为我们取的是非常小的一段，我们假设A点的横坐标为x，B点的横坐标为x+Δx，也就是说绳子AB在横坐标的投影长度为Δx，那么，当我们取的绳长非常短，波动非常小的时候，我们就可以近似用Δx代替Δl，这样绳子的质量就可以表示为：μ·Δx（本来我在考虑这里要不要再解释一下微积分思想，但是一想，会看这篇电磁波篇的，必须是已经提前看了麦克斯韦方程组的积分篇和微分篇，而我在那两篇里已经介绍过这种思想了，那这里就不说了~）。

质量搞定了，剩下的就是加速度a了。你可能以为我已经得到了合外力（F= T·sin（θ+Δθ）-T·sinθ）和质量m（μ·Δx），那么剩下肯定就是用合外力F除以质量m得到加速度a（牛顿第二定律），不不不，这样就不好玩了。我们还可以从另一个角度来得到加速度a，然后把它们作为拼盘拼起来。从哪里得到加速度呢a？从描述波的函数f(x,t)里。

06波的加速度分析

不知道大家还记得我们在前面说的这个描述波的函数y=f(x,t)么？这个函数的值y表示的是在x这个地方，时间为t的时候这一点的纵坐标，也就是波的高度。我们现在要求的也就是AB上下波动时的加速度，那么，怎么从这个描述点位置的函数里求出加速度a呢？

这里我们再来理解一下加速度a，什么叫加速度？从名字就可以感觉到，这个量是用来衡量速度变化快慢的。加速度嘛，肯定是速度加得越快，加速度的值就越大。假如一辆车第1秒的速度是2m/s，第2秒的速度是4m/s，那么它的加速度就是用速度的差（4-2=2）除以时间差（2-1=1），结果就是2m/s²。

再来回想一下，我们是怎么求一辆车的速度的？我们是用距离的差来除以时间差的。比如一辆车第1秒钟距离起点20米，第2秒钟距离起点50米，那么它的速度就是用距离的差（50-20=30）除以时间差（2-1=1），结果就是30m/s。

不知道大家从这两个例子里发现了什么没有？我用距离的差除以时间差就得到了速度，我再用速度的差除以时间差就得到了加速度，这两个过程都是除以时间差。那么，如果我把这两个过程合到一块呢？那是不是就可以说：距离的差除以一次时间差，再除以一次时间差就可以得到加速度？

这样表述并不是很准确，但是可以很方便的让大家理解这个思想。如果把距离看作关于时间的函数，我们对这个函数求一次导数（就是上面的距离差除以时间差，只不过趋于无穷小）就得到了速度的函数，对速度的函数再求一次导数就得到了加速度的表示。所以，我们把一个关于距离（位置）的函数对时间求两次导数，就可以得到加速度的表达式。

波的函数f(x,t)不就是描述绳子上某一点在不同时间t的位置么？那我们对f(x,t)求两次关于时间的导数，自然就得到了这点的加速度a。因为函数f是关于x和t两个变量的函数，所以我们只能对时间的偏导∂f/ ∂t，再求一次偏导数就加个2上去。于是我们就可以这样表示这点的加速度a=∂²f/ ∂t²（关于偏导数的介绍，微分篇里有详细叙述，这里不再说明）。

这样，我们就把牛顿第二定律F=ma的三要素都凑齐了：F= T·sin（θ+Δθ）-T·sinθ，m=μ·Δx，a=∂²f/ ∂t²。把它们集合在一起就可以召唤神，阿不，就可以写出AB的运动方程了：

这个用牛顿第二定律写出来的波动方程，看起来怎么样？嗯，似乎有点丑，看起来也不太清晰，方程左边的东西看着太麻烦了，我们还需要对它进行一番改造。那怎么改造呢？我们可以先把sinθ给干掉。

07方程的改造

为了能够顺利地干掉sinθ，我们先来回顾一下基本的三角函数：

如上图，右边是一个直角三角形abc，那么角θ的正弦值sinθ等于对边c除以斜边a，正切值tanθ等于对边c除以邻边b。

当这个角度θ还很大的时候，a比b要明显长一些。但是，一旦角度θ非常非常小，可以想象，邻边b和斜边a就快要重合了。这时候我们是可以近似的认为a和b是相等的，也就是a≈b，于是就有c/b≈c/a，即tanθ≈sinθ。

也就是说，在角度θ很小的时候，我们可以用正切值tanθ代替正弦值sinθ。我们假设这根绳子的扰动非常小，形变非常小，那么θ和θ+Δθ就都非常小，那么它们的正弦值就都可以用正切值代替。于是，那个波动方程左边的sin(θ+Δθ)-sinθ就可以替换为：tan(θ+Δθ)-tanθ。

为什么我们要用正切值tanθ代替正弦值sinθ呢？因为正切值tanθ还可以代表一条直线的斜率，代表曲线在某一点的导数。想想正切值的表达式tanθ=c/b，如果建一个坐标系，那么这个c刚好就是直线在y轴的投影dy，b就是在x轴的投影dx，它们的比值刚好就是导数dy/dx，也就是说tanθ=dy/dx。

然而，因为波的函数f(x,t)是关于x和t的二元函数，所以我们只能求某一点的偏导数，那么正切值就等于它在这个点的偏导数：tanθ=∂f/ ∂x。那么，原来的波动方程就可以写成这样：

这里我稍微解释一下偏导数的符号，我们用∂f/ ∂x表示函数f(x,t)的偏导数，这是一个函数，x可以取各种各样的值。但是如果我加一个竖线|，然后在竖线的右下角标上x+Δx就表示我要求在x+Δx这个地方的导数。

再来看一下这个图，我们已经约定了A点的横坐标为x，对应的角度为θ；B点的横坐标是x+Δx，对应的角度为θ+Δθ。所以，我们可以用x+Δx和x这两处的偏导数值代替θ+Δθ和θ这两处的正切值tan（θ+Δθ）和tanθ，所以波动方程才可以写成上面那样：

接着，如果我们再对方程的两边同时除以Δx，那左边就变成了函数∂f/ ∂x在x+Δx和x这两处的值的差除以Δx，这其实就是∂f/ ∂x这个函数的导数表达式。也就是说，两边同时除以一个Δx之后，左边就变成了偏导数∂f/ ∂x对x再求一次导数，那就是f(x,t)对x求二阶偏导数了。

上面我们用我们已经用∂²f/ ∂t²来表示函数对t的二阶偏导数，那么这里自然就可以用∂²f/ ∂x²来表示函数对x的二阶偏导数。然后两边再同时除以T，得到方程就简洁多了：

把方程左边的tan(θ+Δθ)-tanθ变成了函数f(x,t)对空间x的二阶偏导数，这个过程非常的重要，大家可以好好体会一下这个过程。正切值tanθ就是一阶导数，然后两个正切值的差除以自变量的变化就又产生了一次导数，于是总共就有了两阶，所以我们才能得到上面那个简洁的式子。

08经典波动方程

再看看方程右边的μ/T，如果你仔细去算一下μ/T的单位，你会发现它刚好就是速度的平方的倒数，也就是说如果我们把一个量定义成T/μ的平方根，那么这个量的单位刚好就是速度的单位。可以想象，这个速度自然就是这个波的传播速度v：

这样定义速度v之后，我们最终的波动方程就可以亮相了：

这个方程就是我们最终要找的经典波动方程，为什么把它作做经典的波动方程呢？因为它没有考虑量子效应啊，在物理学里，经典就是非量子的同义词。如果我们要考虑量子效应，这个经典的波动方程就没用了，我们就必须转而使用量子的波动方程，那就是大名鼎鼎的薛定谔方程。

薛定谔就是从这个经典波动方程出发，结合德布罗意的物质波概念，硬猜出了薛定谔方程。这个方程让物理学家们从被海森堡的矩阵支配的恐惧中解脱了出来，重新回到了微分方程的美好世界。薛定谔方程虽然厉害，但是它并没有考虑狭义相对论效应，而高速运动（近光速）的粒子在微观世界是很常见的，我们也知道当物体接近光速的时候就必须考虑相对论效应，但是薛定谔方程并没有做到这一点。

最终让薛定谔方程相对论化是狄拉克，狄拉克把自己关在房间三个月，最终逼出了同样大名鼎鼎的狄拉克方程。狄拉克方程首次从理论上预言了反物质（正电子），虽然当时的科学家们认为狄拉克这是在胡闹，但是我国的物理学家赵忠尧先生却几乎在同时就首次在实验室里观测到了正负电子湮灭的情况。

另外，狄拉克的工作也推动了量子场论的诞生，打开了一扇让人无比神往的新世界大门。物理学家们沿着这条路驯服了电磁力、强力、弱力，建立起了粒子物理的标准模型，于是四海清平，天下大定，除了那该死的引力。这些精妙绝伦的故事我们后面再讲，如果把这些故事写成一本《量子英雄传》，嗯，一定不比金庸的武侠逊色~

好了，回归正题，看到这个经典波动方程到后面还能掀起那么大的浪来，是不是突然就对它肃然起敬了呢？我们这样一顿操作推导出了经典波动方程，有的朋友可能有点懵，没关系，我们再来捋一下。这个看着很复杂的，包含了二阶偏导数的方程其实就只是告诉我们：我们把这根绳子极小的一段看作一个质点，那么这个质点满足牛顿第二定律F=ma，仅此而已。

09复盘

我们整个推导过程不过就是去寻找F=ma中的这三个量。我们把绳子的张力在竖直方向做了分解，然后得到了它在竖直方向上的合力F（T·sin（θ+Δθ）-T·sinθ）；我们定义了单位长度的质量μ，然后就可以计算那小段绳子的质量m（μ·Δx）；我们通过对波的函数f(x,t)的分析，发现如果对这种表示距离（位移）的函数对时间求一次偏导数就得到了速度，再求一次偏导数就得到了加速度，于是我们就得到了这段绳子的加速度a（∂²f/ ∂t²）。然后我们就把这些量按照牛顿第二定律F=ma拼了起来。

在处理问题的过程中，我们做了很多近似：因为我们是取得很小的一段，那么我们就可以用Δx近似代替绳子的长度Δl；假设扰动很小，绳子偏离x轴很小，那么角度θ就很小，我们就近似用正切值tanθ代替正弦值sinθ。很多人乍一看，觉得这么严格的推导怎么能这么随意的近似呢？你这里近似那里近似，得到的最终结果还是准确的么？

要理解这个问题，就得正式去学习微积分了，我现在告诉你微积分的核心思想就是一种以直代曲的近似，你信么？微积分里就是用各种小段小段的直线去近似的代替曲线，但是得到的结果却是非常精确的。因为我们可以把这些线段取得非常非常的小，或者说是无穷小，那么这个误差也就慢慢变成无穷小了。所以我们在分析这根绳子的时候，也都强调了是取非常小的一段，给一个非常小的扰动，得到一个非常小的角度θ。

另外，tanθ就是一次导数，然后它们的差再除以一次Δx，就又出现了一次导数，所以方程的左边就出现了f(x,t)对位置x的两次偏导数。方程的右边就是函数f(x,t)对时间t求两次偏导数得到的加速度a（求一次导数得到速度，求两次就得到加速度）。

所以，虽然我们看到的是一个波动方程，其实它只是一个变装了的牛顿第二定律F=ma。理解这点，波动方程就没什么奇怪的了。我们再来仔细的审视一下这个方程：

这个波动方程的意义也很直观，它告诉我们f(x,t)这样一个随时间t和空间x变化的函数，如果这个二元函数对空间x求两次导数得到的∂²f/ ∂x²和对时间t求两次导数得到的∂²f/ ∂t²之间满足上面的那种关系，那么f(x,t)描述的就是一个波。

如果我们去解这个方程，我们得到的就是描述波的函数f(x,t)。而我们前面对波做数学分析的时候得到了这样一个结论：如果一个函数f(x,t)描述的波，那么就一定满足f(x,t)=f(x-vt,0)。所以，波动方程的解f(x,t)肯定也都满足前面这个关系，这一点感兴趣的朋友可以自己下去证明一下。

好了，经典的波动方程我们就先讲到这里。有了波动方程，你会发现我们通过几步简单的运算就能从麦克斯韦方程组中推导出电磁波的方程，然后还能确定电磁波的速度。

10真空中的麦克斯韦方程组

麦克斯韦方程组的微分形式是这样的：

这组方程的来龙去脉长尾科技在上一篇文章《最美的公式：你也能懂的麦克斯韦方程组（微分篇）》里已经做了详细的介绍，这里不再多说。这组方程里，E表示电场强度，B表示磁感应强度，ρ表示电荷密度，J表示电流密度，ε0和μ0分别表示真空中的介电常数和磁导率（都是常数），▽是矢量微分算子，▽·和▽×分别表示散度和旋度：

接下来我们的任务，就是看如何从这组方程里推出电磁波的方程。

首先，如果真的能形成波，那么这个波肯定就要往外传，在远离了电荷、电流（也就是没有电荷、电流）的地方它还能自己传播。所以，我们先让电荷密度ρ和电流密度J都等于0，当ρ=0，J=0时，我们得到的就是真空中的麦克斯韦方程组：

有些人觉得你怎么能让电荷密度ρ等于0呢？这样第一个方程就成了电场的散度▽·E=0，那不就等于说电场强度E等于0，没有电场了么？没有电场还怎么来的电磁波？

很多人初学者都会有这样一种误解：好像觉得电场的散度▽·E等于0了，那么就没有电场了。其实，电场的散度等于0，只是告诉你通过包含这一点的无穷小曲面的电通量为0，电通量为0不代表电场E为0啊，因为我可以进出这个曲面的电通量（电场线的数量）相等。这样有多少正的电通量（进去的电场线数量）就有多少负的电通量（出来的电场线数量），进出正负抵消了，所以总的电通量还是0。于是，这点的散度▽·E就可以为0，而电场强度E却不为0。

所以这个大家一定要区分清楚：电场E的散度为0不代表电场E为0，它只是要求电通量为0而已，磁场也一样。

这样我们再来审视一下真空中（ρ=0，J=0）的麦克斯韦方程组：方程1和2告诉我们真空中电场和磁场的散度为0，方程3和4告诉我们电场和磁场的旋度等于磁场和电场的变化率。前两个方程都是独立的描述电和磁，后两个方程则是电和磁之间的相互关系。我们隐隐约约也能感觉到：如果要推导出电磁波的方程，你肯定得把上面几个式子综合起来，因为波是要往外传的，而你上面单独的方程都只是描述某一点的旋度或者散度。

有一个很简单的把它们都综合在一起的方法：对方程3和方程4两边同时再取一次旋度。

方程3的左边是电场的旋度▽×E，对它再取一次旋度就变成了▽×（▽×E）；方程3的右边是磁场的变化率，对右边取一次旋度也可以得到磁场B的旋度▽×B，这样不就刚好跟方程4联系起来了么？对方程4两边取旋度看起来也一样，这看起来是个不错的兆头。

可能有些朋友会有一些疑问：你凭什么对方程3和4的两边取旋度，而不取散度呢？如果感兴趣你可以两边都取散度试试，你会发现电场E的旋度取散度▽·（▽×E）的结果恒等于0。

这一点你看方程3 的右边会更清楚，方程3的右边是磁场的变化率，你如果对方程左边取散度，那么右边也得取散度，而右边磁场的散度是恒为0的（▽·B=0就是方程2的内容）。这样就得不出什么有意义的结果，你算出0=0能得到什么呢？

所以，我们现在的问题变成了：如何求电场E的旋度的旋度（▽×（▽×E））？因为旋度毕竟和叉乘密切相关，所以我们还是先来看看叉乘的叉乘。

11叉乘的叉乘

在积分篇和微分篇里，我已经跟大家详细介绍了矢量的点乘和叉乘，而且我们还知道点乘的结果A·B是一个标量，而叉乘的结果A×B是一个矢量（方向可以用右手定则来判断，右手从A指向B，大拇指的方向就是A×B的方向）。

而点乘和叉乘都是矢量之间的运算，那么A·B的结果是一个标量，它就不能再和其它的矢量进行点乘或者叉乘了。但是，A×B的结果仍然是一个矢量啊，那么按照道理它还可以继续跟新的矢量进行点乘或者叉乘运算，这样我们的运算就可以有三个矢量参与，这种结果我们就称为三重积。

A·（B×C）的结果是一个标量，所以这叫标量三重积；A×（B×C）的结果还是一个矢量，它叫矢量三重积。

标量三重积A·（B×C）其实很简单，我在微分篇说过，两个矢量的叉乘的大小等于它们组成的平行四边形的面积，那么这个面积再和一个矢量点乘一把，你会发现这刚好就是三个矢量A、B、C组成的平行六面体的体积。

这个大家对着上面的图稍微一想就会明白。而且，既然是体积，那么你随意更换它们的顺序肯定都不会影响最终的结果。我们真正要重点考虑的，还是矢量三重积。

矢量三重积A×（B×C），跟我们上面说电场E旋度的旋度▽×（▽×E）形式相近，密切相关。它没有上面标量三重积那样简单直观的几何意义，我们好像只能从数学上去推导，这个推导过程，哎，我还是直接写结果吧：

A×（B×C）=B（A·C）-C（A·B）。

结果是这么个东西，是不是很难看？嗯，确实有点丑。不过记这个公式有个简单的口诀：远交近攻。什么叫远交近攻呢？当年秦相范雎，啊不，A×（B×C）里的A距离B近一些，距离C远一些，所以A要联合C（A·C前面的符合是正号）攻打B（A·B前面的符号是负号），这样这个公式就好记了，感兴趣的可以自己去完成推导的过程。

12旋度的旋度

有了矢量三重积的公式，我们就来依样画葫芦，来套一套电场E的旋度的旋度▽×（▽×E）。我们对比一下这两个式子A×（B×C）和▽×（▽×E），好像只要把A和B都换成▽，把C换成E就行了。那么，矢量三重积的公式（A×（B×C）=B（A·C）-C（A·B））就变成了：

▽×（▽×E）=▽（▽·E）-E（▽·▽）。

嗯，▽（▽·E）表示电场E的散度的梯度，散度▽·E的结果是一个标量，标量的梯度是有意义的，但是后面那个E（▽·▽）是什么鬼？两个▽算子挤在一起，中间还是一个点乘的符号，看起来好像是在求▽的散度（▽·），可是▽是一个算子，又不是一个矢量函数，你怎么求它的散度？而且两个▽前面有一个电场E，怎么E还跑到▽算子的前面去了？

我们再看一下矢量三重积的公式的后面一项C（A·B）。这个式子的意思是矢量A和B先进行点乘，点乘的结果A·B是一个标量，然后这个标量再跟矢量C相乘。很显然的，如果是一个标量和一个矢量相乘，那么这个标量放在矢量的前面后面都无所谓（3C=C3），也就是说C（A·B）=（A·B）C。

那么，同样的，E（▽·▽）就可以换成（▽·▽）E，而它还可以写成▽²E，这样就牵扯出了另一个大名鼎鼎的东西：拉普拉斯算子▽²。

13拉普拉斯算子▽²

拉普拉斯算子▽²在物理学界可谓大名鼎鼎，它看起来好像是哈密顿算子▽的平方，其实它的定义是梯度的散度。

我们假设空间上一点（x,y,z）的温度由T（x,y,z）来表示，那么这个温度函数T（x,y,z）就是一个标量函数，我们可以对它取梯度▽T，因为梯度是一个矢量（梯度有方向，指向变化最快的那个方向），所以我们可以再对它取散度▽·。

我们利用我们在微分篇学的▽算子的展开式和矢量坐标乘法的规则，我们就可以把温度函数T（x,y,z）的梯度的散度（也就是▽²T）表示出来：

再对比一下三维的▽算子：

所以，我们把上面的结果（梯度的散度）写成▽²也是非常容易理解的，它跟▽算子的差别也就是每项多了一个平方。于是，拉普拉斯算子▽²就自然可以写成这样：

从拉普拉斯算子▽²的定义我们可以看到，似乎它只能对作用于标量函数（因为你要先取梯度），但是我们把▽²稍微扩展一下，就能让它也作用于矢量函数V（x,y,z）。我们只要让矢量函数的每个分量分别去取▽²，就可以定义矢量函数的▽²：

定义了矢量函数的拉普拉斯算子，我们稍微注意一下下面的这个结论（课下自己去证明）：

然后再看看中间的那个东西，是不是有点眼熟？

我们在求电场旋度的旋度的时候，不就刚好出现了（▽·▽）E这个东西么？现在我们就可以理直气壮地把它替换成▽²E了，于是，电场旋度的旋度就可以写成这样：

▽×（▽×E）=▽（▽·E）-（▽·▽）E=▽（▽·E）-▽²E。

至此，我们利用矢量的三重积公式推电场E的旋度的旋度的过程就结束了，然后我们就得到了这个极其重要的结论：

它告诉我们：电场的旋度的旋度等于电场散度的梯度减去电场的拉普拉斯。有了它，电磁波的方程立马就可以推出来了。

14见证奇迹的时刻

我们再来看看真空中的麦克斯韦方程组：

它的第三个方程，也就是法拉第定律是这样表示的：

我们对这个公式两边都取旋度，左边就是上面的结论，右边无非就是对磁感应强度B取个旋度，即：

你看看这几项，再看看真空中的麦克斯韦方程组：方程1告诉我们▽·E=0，方程4告诉我们▽×B=μ0ε0（∂E/ ∂t），我们把这两项代入到上面的式子中去，那结果自然就变成了：

μ0、ε0都是常数，那右边自然就变成了对电场E求两次偏导。再把负号整理一下，最后的式子就是这样：

嗯，于是我们就神奇般的把磁感应强度B消掉了，让这个方程只包含电场E。我们再对比一下我们之前唠叨了那么多得出的经典波动方程：

我们在推导经典波动方程的时候只考虑了一维的情况，因为我们只考虑波沿着绳子这一个维度传播的情况，所以我们的结果里只有∂²f/ ∂x²这一项。如果我们考虑三维的情况，那么不难想象波动方程的左边应该写成三项，这三项刚好就是f的三维拉普拉斯：

所以我们的经典波动方程其实可以用拉普拉斯算子写成如下更普适的形式：

再看看我们刚刚从麦克斯韦方程组中得到的电场方程：

嗯，我们推出的电场的方程跟经典波动方程的形式是一模一样的，现在我们说电场E是一个波，你还有任何异议么？

我们把电场E变成了一个独立的方程，代价是这个方程变成了二阶（方程出现了平方项）的。对于磁场，一样的操作，我们对真空中麦克斯韦方程组的方程4（▽×B=μ0ε0（∂E/ ∂t））两边取旋度，再重复一次上面的过程，就会得到独立的磁感应强度B的方程：

这样，我们就发现E和B都满足波动方程，也就是说电场、磁场都以波动的形式在空间中传播，这自然就是电磁波了。

15电磁波的速度

对比一下电场和磁场的波动方程，你会发现它们是形式是一模一样的（就是把E和B互换了一下），这样，它们的波速也应该是一样的。对比一下经典波动方程的速度项，电磁波的速度v自然就是这样：

我们去查一下μ0、ε0的数值，μ0=4π×10^-7N/A²，ε0=8.854187818×10^ -12 (F/m)，代入进去算一算：

再查一下真空中的光速 c=299792458m/s。

前者是我们从麦克斯韦方程组算出来的电磁波的速度，后者是从实验里测出来的光速。有这样的数据做支撑，麦克斯韦当年才敢大胆的预测：光就是一种电磁波。

当然，“光是一种电磁波”在我们现在看来并不稀奇，但是你回顾一下历史：科学家们是在研究各种电现象的时候引入了真空介电常数ε0，在研究磁铁的时候引入了真空磁导率μ0，它们压根就跟光无关。麦克斯韦基于理论的美学和他惊人的数学才能，提出了位移电流假说（从推导里我们也可以看到：如果没有麦克斯韦加入的位移电流这一项，是不会有电磁波的），预言了电磁波，然后发现电磁波的速度只跟μ0、ε0相关，还刚好就等于人们测量的光速，这如何能不让人震惊？

麦克斯韦一直以为自己在研究电磁理论，但是当他的电磁大厦落成时，他却意外地发现光的问题也被顺手解决了，原来他一直在盖的是电磁光大厦。搞理论研究还可以买二送一，打折促销力度如此之大，惊不惊喜，意不意外？

总之，麦克斯韦相信自己的方程，相信光是一种电磁波，当赫兹最终在实验室里发现了电磁波，并证实它的速度确实等于光速之后，麦克斯韦和他的理论获得了无上的荣耀。爱因斯坦后来却因为不太相信自己的方程（认为宇宙不可能在膨胀）转而去修改了它，于是他就错失了预言宇宙膨胀的机会。当后来哈勃用望远镜观测到宇宙确实在膨胀时，爱因斯坦为此懊恼不已。

16结语

回顾一下电磁波的推导过程，我们就是在真空麦克斯韦方程组的方程3和方程4的两边取旋度，然后就很自然的得出了电磁波的方程，然后得到了电磁波的速度等于光速c。这里有一个很关键的问题：这个电磁波的速度是相对谁的？相对哪个参考系而言的？

在牛顿力学里，我们说一个物体的速度，肯定是相对某个参考系而言的。你说高铁的速度是300km/h，这是相对地面的，你相对太阳那速度就大了。这个道理在我们前面讨论的波那里也一样，我们说波的速度一般都是这个波相对于它所在介质的速度：比如绳子上的波通过绳子传播，这个速度就是相对于绳子而言的；水波是在波在水里传播，那么这个速度就是相对水而言的；声波是波在空气里传播（真空中听不到声音），声波的速度就自然是相对空气的速度。

那么，电磁波呢，从麦克斯韦方程组推导出的电磁波的速度是相对谁的？水？空气？显然都不是，因为电磁波并不需要水或者空气这种实体介质才能传播，它在真空中也能传播，不然你是怎么看到太阳光和宇宙深处的星光的？而且我们在推导电磁波的过程中也根本没有预设任何参考系。

于是当时的物理学家们就假设电磁波的介质是一种遍布空间的叫作“以太”的东西，于是大家开始去寻找以太，但是怎么找都找不到。另一方面，电磁波的发现极大地支持了麦克斯韦的电磁理论，但是它跟牛顿力学之间却存在着根本矛盾，这种情况像极了现在广义相对论和量子力学之间的矛盾。怎么办呢？

1879年，麦克斯韦去世，同年，爱因斯坦降生，这仿佛是两代伟人的一个交接仪式。麦克斯韦电磁理论与牛顿力学之间的矛盾，以及“以太”这个大坑都被年轻的爱因斯坦搞定了，爱因斯坦搞定它们的方法就是大名鼎鼎的狭义相对论。其实，当麦克斯韦把他的电磁理论提出来之后，狭义相对论的问世就几乎是必然的了，因为麦克斯韦的电磁理论其实就是狭义相对论框架下的理论，这也是它跟牛顿力学冲突的核心。所以，爱因斯坦才会把他狭义相对论的论文取名为《论动体的电动力学》。

麦克斯韦的电磁理论结束了一个时代，却又开启了一个新时代（相对论时代），它跟牛顿力学到底有什么矛盾？为什么非得狭义相对论才能解决这种矛盾？这些将是我后面要讨论的重点。我会尽力让大家看到科学的发展有它清晰的内在逻辑和原因，并不是谁拍拍脑袋就提出一个石破天惊的新理论出来的。

此外，电磁理论和牛顿力学的融合是人类解决两个非常成功却又直接冲突理论的一次非常宝贵的经验，这跟我们现在面临的问题（广义相对论和量子力学的冲突）非常类似。我希望能够通过这种叙述给喜欢科学的少年们一些启示，让他们以后面对广义相对论和量子力学冲突的时候，能够有一些灵感。

嗯，没错，我在期待未来的爱因斯坦~

《最美的公式：你也能懂的麦克斯韦方程组（积分篇）》

《最美的公式：你也能懂的麦克斯韦方程组（微分篇）》

收起阅读 »

最美的公式：你也能懂的麦克斯韦方程组（积分篇）

狭义相对论麦克斯韦方程组

2004年，英国的科学期刊《物理世界》举办了一个活动：让读者选出科学史上最伟大的公式。结果，麦克斯韦方程组力压质能方程、欧拉公式、牛顿第二定律、勾股定理、薛定谔方程等”方程界“的巨擘，高居榜首。麦克斯韦方程组以一种近乎完美的方式统一了电和磁，并预言光就是一种电...

继续阅读 »

2004年，英国的科学期刊《物理世界》举办了一个活动：让读者选出科学史上最伟大的公式。结果，麦克斯韦方程组力压质能方程、欧拉公式、牛顿第二定律、勾股定理、薛定谔方程等”方程界“的巨擘，高居榜首。

麦克斯韦方程组以一种近乎完美的方式统一了电和磁，并预言光就是一种电磁波，这是物理学家在统一之路上的巨大进步。很多人都知道麦克斯韦方程组，知道它极尽优美，并且描述了经典电磁学的一切。但是，真正能看懂这个方程组的人却不多，因为它不像质能方程、勾股定理这样简单直观，等式两边的含义一眼便知。毕竟，它是用积分和微分的形式写的，而大部分人要到大学才正式学习微积分。

不过大家也不用担心，麦克斯韦方程组虽然在形式上略微复杂，但是它的物理内涵确是非常简单的。而且，微积分也不是特别抽象的数学内容，大家只要跟着长尾科技的思路，看懂这个“最伟大“的方程也不会是什么难事~

01电磁统一之路

电和磁并没有什么明显的联系，科学家一开始也是独立研究电现象和磁现象的。这并不奇怪，谁能想到闪电和磁铁之间会有什么联系呢？

1820年，奥斯特在一次讲座上偶然发现通电的导线让旁边的小磁针偏转了一下，这个微小的现象并没有引起听众的注意，但是可把奥斯特给高兴坏了。他立马针对这个现象进行了三个月的穷追猛打，最后发现了电流的磁效应，也就是说电流也能像磁铁一样影响周围的小磁针。

消息一出，物理学家们集体炸锅，立马沿着这条路进行深入研究。怎么研究呢？奥斯特只是说电流周围会产生磁场，那么这个电流在空间中产生的磁场是怎么分布的呢？比方说一小段电流在空间某个地方产生的磁感应强度的多大呢？这种思路拓展很自然吧，定性的发现某个规律之后必然要试图定量地把它描述出来，这样我不仅知道它，还可以精确的计算它，才算完全了解。

三个月，在奥斯特正式发表他的发现仅仅三个月之后，毕奥和萨伐尔在大佬拉普拉斯的帮助下就找到了电流在空间中产生磁场大小的定量规律，这就是著名的毕奥-萨伐尔定律。也就是说，有了毕奥-萨伐尔定律，我们就可以算出任意电流在空间中产生磁场的大小，但是这种方法在实际使用的时候会比较繁琐。

又过了两个月之后，安培发现了一个更实用更简单的计算电流周围磁场的方式，这就是安培环路定理。顺便，安培还总结了一个很实用的规律来帮你判断电流产生磁场的方向，这就是安培定则（也就是高中学的右手螺旋定则）。

至此，电生磁这一路的问题“似乎”基本解决了，我们知道电流会产生磁场，而且能够用安培环路定理（或者更加原始的毕奥-萨伐尔定律）计算这个磁场的大小，用安培定则判断磁场的方向。那么，我们现在知道怎么单独描述电和磁，知道了电怎么生磁，秉着对称的思想，我怎么样都要去想：既然电能够生磁，那么磁能不能生电呢？

由于种种原因，奥斯特在1820年发现了电生磁，人类直到11年后的1831年，才由天才实验物理学家法拉第发现了磁生电的规律，也就是电磁感应定律。法拉第发现磁能生电的关键就是：他发现静止的磁并不能生电，一定要变化的磁才能生电。

发现电磁感应定律之后，我们知道了磁如何生电，有了安培环路定理，我们就知道电流如何产生磁场。咋一看，有关电磁的东西我们好像都有解决方案了。其实不然，我们知道安培环路定理是从奥斯特发现了电流周围会产生磁场这一路推出来的，所以它只能处理电流周围表示磁场的情况。

但是，如果没有电流呢？如果我压根就没有导线让你可以形成电流，如果仅仅是电场发生了变化，那么这样能不能产生磁场呢？大家不要觉得我胡搅蛮缠，你想想，根据电磁感应定律，变化的磁场是可以产生电场的。所以，我会反过来猜想变化的电场能否产生磁场并不奇怪。而这，正好是安培环路定理缺失的部分。

于是，麦克斯韦就对安培环路定理进行了扩充，把变化的电场也能产生磁场这一项也添加了进去，补齐了这最后一块短板。

到这里，电和磁的统一之路就走得差不多了，麦克斯韦方程组的基本形式也呼之欲出了。这里我先让大家考虑一下：我们都知道麦克斯韦方程组描述了经典电磁学的一切，而且它是由四个方程组成的。那么，如果让你选择四个方程来描述电磁里的一切，你大致会选择四个什么样的方程呢？

此处思考一分钟……

我不知道大家是怎么考虑的，反正我觉得下面这条思路是很自然的：如果要用四个方程描述电磁的一切，那么我就用第一个方程描述电，第二个方程描述磁，第三个方程描述磁如何生电，第四个方程描述电如何生成磁。嗯，好巧，麦克斯韦方程组就是这样的～

所以，我们学习麦克斯韦方程组，就是要看看它是如何用四个方程优雅自洽地描述电、磁、磁生电、电生磁这四种现象的。接下来我们就来一个个地看。

02库仑的发现

在奥斯特发现电流的磁效应之前，人类已经单独研究电研究了好长时间，人们发现电荷有正负两种，而且同性相斥，异性相吸。后来库伦发现了电荷之间相互作用的定量关系，它发现电荷之间的作用力跟距离的平方成反比的。也就是说，如果我把两个电荷之间的距离扩大为原来的两倍，这两个电荷之间的作用力就会减少为原来的四分之一，扩大为三倍就减少为九分之一。

这个跟引力的效果是一样的，引力也是距离扩大为原来的两倍，引力的大小减少为原来的四分之一。为什么大自然这么偏爱“平方反比”规律呢？因为我们生活在一个各向同性的三维空间里。

什么意思？我们可以想想：假设现在有一个点源开始向四面八方传播，因为它携带的能量是一定的，那么在任意时刻能量达到的地方就会形成一个球面。而球面的面积公式S=4πr²（r为半径），它是跟半径的平方r²成正比的，这也就是说：我们同一份能量在不同的时刻要均匀的分给4πr²个部分，那么每个点得到的能量就自然得跟4πr²成反比，这就是平方反比定律的更深层次的来源。

因此，如果我们生活在四维空间里，我们就会看到很多立方（三次方）反比的定律，而这也是科学家们寻找高维度的一个方法。许多理论（比如超弦理论）里都有预言高维度，科学家们就去很小的尺度里测量引力，如果引力在一个很小的尺度里不再遵循平方反比定律，那就很有可能是发现了额外的维度。

好了，从更深层次理解了静电力遵循平方反比定律后，要猜出静电力的公式就是很简单的事情了。因为很明显的，两个电荷之间的静电力肯定跟两者的电荷量有关，而且还是电荷越大静电力越大，加上距离平方反比规律，两个电荷之间的静电力大致就是下面这样的了：

这就是我们中学学的库伦定律：两个电荷之间的静电力跟两个电荷量的乘积成正比，跟它们距离的平方成反比，剩下的都是常数。q1、q2就是两个电荷的电荷量，ε0是真空的介电常数（先不管它是啥意思，知道是个跟电相关的常数就行了），我们熟悉的球面积公式S=4πr²赫然出现在分母里，这是三维空间平方反比规律的代表。

库伦定律是一个实验定律，也就说库伦做了很多实验发现两个电荷之间确实存在着一个这么大小的静电力，但是它并没有告诉你这个静电力是如何传递的。两个并没有接触的物体之间存在某种力，一个常见的想法就是这两个物体之间存在着某种我们看不见的东西在帮它们传递作用力，那么这种东西是什么呢？有人认为是以太，有人认为是某种弹性介质，但是法拉第说是力线，而且这种力线不是什么虚拟的辅助工具，而是客观的物理实在。它可以传递作用力，也可以具有能量。这些思想慢慢形成了我们现在熟知的场。

03电场的叠加

有了场，我们就可以更加细致的描述两个电荷之间的相互作用了。为什么两个电荷之间存在这样一个静电力呢？因为电荷会在周围的空间中产生一个电场，这个电场又会对处在其中的电荷产生一个力的作用。这个电场的强度越大，电荷受到的力就越大，正电荷受力的方向就是这点电场的方向。所以，电场具有大小和方向，这是一个矢量。

为了直观形象的描述电场，我们引入了电场线。电场线的密度刚好就代表了电场强度的大小，而某点电场线的切线方向就代表了该处电场的方向。一个正电荷就像太阳发光一样向四周发射电场线，负电荷就汇集电场线。

这些内容大家在中学的时候应该都学了，我就一笔带过，接下来我们考虑一个稍微复杂一点的问题：库伦定律告诉了我们两个点电荷之间静电力的大小，那么我们就可以根据这个求出一个点电荷周围的电场强度。然而，一个点电荷是最简单的情况，如果带电源再复杂一点呢？如果我有很多个电荷，或者说我直接就是一块形状不规则的带电体，这时候我们要怎么求它产生的电场呢？

一个很简单自然的想法就是：如果有很多个电荷，我就把每个电荷在这点产生的电场强度算出来，再把它们叠加起来就行了。如果这是一个连续的带电体（比如一根带电的线），那我们就再次举起牛顿爵爷留给我们的微积分大刀，哗啦啦地把这个带电体切成无数个无穷小的部分，这样每一个无穷小的部分就可以看做一个点电荷，然后把这无数个点电荷在那点产生的电场强度叠加起来（就是积分）就行了。

我们上面的思路其实就是秉着“万物皆可切成点，万物皆可积”的精神，强行让库伦定律和微积分联姻，“硬算”出任何带电体在任意位置的场强。这在原理上是行得通的，没问题，但是在具体操作上就很复杂了，有没有更简单优雅一点的办法呢？

有，不过这需要我们换个角度看问题。物理学研究物体运动变化的规律，但是物体时时刻刻都处在变化之中，你要怎么去寻找它的规律呢？这里就涉及到科学研究的一个重要思想：把握变化世界里那些不变的东西。

牛顿发现一切物体在运动中都有某种共同不变的东西，不管物体怎样运动，受到什么样的力，这个东西只由物体的密度和体积决定，于是牛顿从中提炼出了质量的概念（当然，现在质量是比密度体积更基本的概念）；科学家们发现物体在各种变化的过程中有某种守恒的东西，于是提炼出了能量的概念。那么，带电体在周围空间中产生电场的过程，能不能也提炼出某种不变的东西呢？

04通量的引入

我们先不管电，先来看看我们更熟悉的水。毕竟水流和电流有某种相似之处，

我在一个水龙头的出口处装一个喷头，让水龙头向周围的空间喷射水流（就像正电荷喷射电场线一样），然后我用一个完全透水（水能够自由的穿过塑料袋）的塑料袋把水龙头包起来。那么，从水龙头出来的所有的水都必须穿过这个塑料袋，然后才能去其他地方，穿过这个塑料袋的表面是所有水的必经之路。

这个看似平常的现象后面却隐藏了这样一个事实：无论塑料袋有多大，是什么形状，只要你是密封的。那么，从水龙头流出的水量就一定等于通过这个塑料袋表面的水量。

从这里，我们就抽象出来了一个非常重要的概念：通量。通量，顾名思义，就是通过一个曲面的某种流量，通过塑料袋表面的水的流量就叫塑料袋的水通量。这样上面的例子我们就可以说成水龙头的出水量等于塑料袋的水通量了。

好，水的事就先说到这里，我们再回过头来看看电。还是用上面的实验，现在我们把水龙头换成一个正电荷，我们还是用一个完全透电（对电没有任何阻力）的塑料袋套住一个正电荷，那会发生什么呢？水龙头的喷头散发的是水流，正电荷“散发”的是电场线；通过该塑料袋的水流量叫塑料袋的水通量，那么电场线通过塑料袋的数量自然就叫塑料袋的电通量。对于水通量，我们知道它等于水龙头的出水量，那么塑料袋的电通量等于什么呢？

我们知道，之所以会有电场线，是因为空间中存在电荷。而且，电荷的电量越大，它产生的电场强度就越大，电场线就越密，那么穿过塑料袋的电场线的数量就越多，对应的电通量就越大。所以，我们虽然无法确定这个电通量的具体形式，但是可以肯定它一定跟这个塑料袋包含的电荷量有关，而且是正相关。

这就是在告诉我们：通过一个闭合曲面的电通量跟曲面内包含电荷总量是成正比的，电荷量越大，通过这个任意闭合曲面的电通量就越大，反之亦然。这就是麦克斯韦方程组的第一个方程——高斯电场定律的核心思想。

把这个思想从电翻译到水上面去就是：通过一个闭合曲面的水量是这个曲面内包含水龙头水压的量度，水压越大，水龙头越多，通过这个闭合曲面的水量就越大。这几乎已经接近“废话”了~所以，大家面对那些高大上的公式方程的时候不要先自己吓自己，很多所谓非常高深的思想，你把它用人话翻译一下，就会发现它非常简单自然。

我们再来审视一下高斯电场定律的核心思想：通过一个闭合曲面的电通量跟曲面包含的电荷量成正比。那么，我们要怎么样把这个思想数学化呢？电荷的总量好说，就是把所有电荷的带电量加起来，那么通过一个闭合曲面的电通量要怎么表示呢？

05电场的通量

我们先从最简单的情况看起。

问题1：我们假设空间里有一个电场强度为E的匀强电场，然后有一个面积为a的木板跟这个电场方向垂直，那么，通过这个木板的电通量Φ要怎么表示呢？

我们想想，我们最开始是从水通过曲面的流量来引入通量的，到了电这里，我们用电场线通过一个曲面的数量表示电通量。而我们也知道，电场线的密度代表了电场强度的大小。所以，我们就能很明显的发现：电场强度越大，通过木板的电场线数量越多；木板的面积越大，通过木板的电场线数量越多。而电场线的数量越多，就意味着电通量越大。

因为电场强度E是一个矢量（有大小和方向），所以我们用E的绝对值|E|来表示E的大小，那么我们直接用电场强度的大小|E|和木板面积a的乘积来表示电通量的大小是非常合理的。也就是说，通过木板的电通量Φ=|E|×a。

木板和电场线方向相互垂直是最简单的情况，如果木板和电场的方向不垂直呢？

问题2：还是上面的木板和电场，如果木板跟电场的方向不是垂直的，它们之间有一个夹角θ，那这个电通量又要怎么求呢？

如上图，首先，我们能直观地感觉到：当木板不再和电场方向垂直的时候，这个木板被电场线穿过的有效面积减小了。原来长度为AB的面都能挡住电场线，现在，虽然还是那块木板，但是真正能够有效挡住电场线的变成了BC这个面。

然后，我们再来谈一谈曲面的方向，可能很多人都认为曲面的方向就是定义为AB的方向。其实不是的，我们是用一个垂直于这个平面的向量的方向表示这个平面的方向，这个向量就叫这个平面的法向量。如上图所示，我画了一个跟木板垂直的法向量n，那么这个法向量n和电场E的夹角才是木板这个平面和电场的夹角θ。

AB、BC和θ之间存在一个非常简单的三角关系：BC=AB×cosθ（因为夹角θ跟角ABC相等，cosθ表示直角三角形里邻边和斜边的比值）。而我们有知道垂直的时候通过木板的电通量Φ=|E|×|a|，那么，当它们之间有一个夹角θ的时候，通过木板的电通量自然就变成了：Φ=|E|×|a|×cosθ。

06矢量的点乘

到了这里，我们就必须稍微讲一点矢量和矢量的乘法了。

通俗地讲，标量是只有大小没有方向的量。比如说温度，房间某一点的温度就只有一个大小而已，并没有方向；再比如质量，我们只说一个物体的质量是多少千克，并不会说质量的方向是指向哪边。而矢量则是既有大小，又有方向的量。比如速度，我们说一辆汽车的速度不仅要说速度的大小，还要指明它的方向，它是向东还是向南；再比如说力，你去推桌子，这个推力不仅有大小（决定能不能推动桌子），还有方向（把桌子推向哪一边）。

标量因为只有大小没有方向，所以标量的乘法可以直接像代数的乘法一样，让它们的大小相乘就行了。但是，矢量因为既有大小又有方向，所以你两个矢量相乘就不仅要考虑它的大小，还要考虑它的方向。假如你有两个矢量，一个矢量的方向向北，另一个向东，那么它们相乘之后得到的结果还有没有方向呢？如果有，这个方向要怎么确定呢？

这就是说，我们从小学开始学习的那种代数乘法的概念，在矢量这里并不适用，我们需要重新定义一套矢量的乘法规则，比如我们最常用的点乘（符号为‘·’）。你两个标量相乘就是直接让两个标量的大小相乘，我现在矢量不仅有大小还有方向，那么这个方向怎么体现呢？简单，我不让你两个矢量的大小直接相乘，而是让一个矢量的投影和另一个矢量的大小相乘，这样就既体现了大小又体现了方向。

如上图，我们有两个矢量OA和OB（线段的长短代表矢量的大小，箭头的方向代表矢量的方向），我们过A点做AC垂直于OB（也就是OA往OB方向上投影），那么线段OC的长度就代表了矢量OA在OB方向上的投影。而根据三角函数的定义，一个角度θ的余弦cosθ被定义为邻边（OC）和斜边（OA）的比值，即cosθ=OC/|OA|（绝对值表示矢量的大小，|OA|表示矢量OA的大小）。所以矢量OA在OB方向上的投影OC可以表示为：OC=|OA|×cosθ。

既然两个矢量的点乘被定义为一个矢量的投影和和另一个矢量大小的乘积，现在我们已经得到了投影OC的表达式，那么矢量OA和OB的点乘就可以表示为：

OA·OB=OC×|OB|=|OA||OB|cosθ。

为什么我们上面明明还在讲电场通过一个平面的通量，接着却要从头开始讲了一堆矢量的点乘的东西呢？因为电场强度也是一个矢量，它有大小也有方向（电场线的密度代表大小，电场线的方向代表它的方向）；平面其实也是一个矢量，平面的大小不用说了，平面的方向是用垂直于这个平面的法向量来表示的。而且，我们再回顾一下当平面跟电场方向有一个夹角θ的时候，通过这个平面的电通量Φ=|E|×|a|×cosθ。这是不是跟上面两个矢量点乘右边的形式一模一样？

也就是说，如果我们从矢量的角度来看：电场E通过一个平面a的电通量Φ就可以表示为这两个矢量（电场和平面）的点乘，即Φ=E·a（因为根据点乘的定义有E·a=|E|×|a|×cosθ）。

这种表述既简洁又精确，你想想，如果你不使用矢量的表述，那么你在公式里就不可避免地会出现很多和夹角θ相关的地方。更关键的是，电场强度和平面本来就都是矢量，你使用矢量的运算天经地义，为什么要用标量来代替它们呢？

总之，我们知道一个电场通过一个平面的电通量可以简洁的表示为：Φ=E·a，这就够了。但是，高斯电场定律的核心思想是通过闭合曲面的电通量跟曲面包含的电荷量成正比，我们这里得到的只是一个电场通过一个平面的电通量，一个平面和一个闭合曲面还是有相当大的区别的。

07闭合曲面的电通量

知道怎么求一个平面的电通量，要怎么求一个曲面的电通量呢？

这里就要稍微涉及一丢丢微积分的思想了。我们都知道我们生活在地球的表面，而地球表面其实是一个球面，那么，为什么我们平常在路上行走时却感觉不到这种球面的弯曲呢？这个答案很简单，因为地球很大，当我们从月球上遥望地球的时候，我们能清晰地看到地球表面是一个弯曲的球面。但是，当我们把范围仅仅锁定在我们目光周围的时候，我们就感觉不到地球的这种弯曲，而是觉得我们行走在一个平面上。

地球的表面是一个曲面，但是当我们只关注地面非常小的一块空间的时候，我们却觉得这是一个平面。看到没有，一个曲面因为某种原因变成了一个平面，而我们现在的问题不就是已知一个平面的电通量，要求一个曲面的电通量么？那么地球表面的这个类比能不能给我们什么启发呢？

弯曲的地球表面在小范围内是平面，这其实是在启发我们：我们可以把一个曲面分割成许多块，只要我们分割得足够细，保证每一小块都足够小，那么我们是可以把这个小块近似当作平面来处理的。而且不难想象，我把这个曲面分割得越细，它的每一个小块就越接近平面，我们把这些小平面都加起来就会越接近这个曲面本身。

下面是重点：如果我们把这个曲面分割成无穷多份，这样每个小块的面积就都是无穷小，于是我们就可以认为这些小块加起来就等于这个曲面了。这就是微积分最朴素的思想。

如上图，我们把一个球面分割成了很多块，这样每一个小块就变成了一个长为dx，宽为dy的小方块，这个小方块的面积da=dx·dy。如果这个小块的电场强度为E，那么通过这个小块的电通量就是E·da。如果我们我们把这个球面分割成了无穷多份，那么把这无穷多个小块的电通量加起来，就能得到穿过这个曲面的总电通量。

这个思想总体来说还是很简单的，只是涉及到了微积分最朴素的一些思想。如果要我们具体去计算可能就会比较复杂，但是庆幸的是，我们不需要知道具体如何计算，我们只需要知道怎么表示这个思想就行了。一个小块da的电通量是E·da，那么我们就可以用下面的符号表示通过这个曲面S的总电通量：

这个拉长的大S符号就是积分符号，它就是我们上面说的微积分思想的代表。它的右下角那个S代表曲面S，也就是说我们这里是把这个曲面S切割成无穷小块，然后对每一块都求它的通量E·da，然后把通量累积起来。至于这个大S中间的那个圆圈就代表这是一个闭合曲面。

08方程一：高斯电场定律

总之，上面这个式子就代表了电场E通过闭合曲面S的总电通量，而我们前面说过高斯电场定律的核心思想就是：通过闭合曲面的电通量跟这个曲面包含的电荷量成正比。那么，这样我们就能非常轻松的理解麦克斯韦方程组的第一个方程——高斯电场定律了：

方程的左边，我们上面解释了这么多，这就是电场E通过闭合曲面S的电通量。方程右边带enc下标的Q表示闭合曲面内包含的电荷总量，ε0是个常数（真空介电常数），暂时不用管它。等号两边一边是闭合曲面的电通量，另一边是闭合曲面包含的电荷，我们这样就用数学公式完美地诠释了我们的思想。

麦克斯韦方程组总共有四个方程，分别描述了静电、静磁、磁生电、电生磁的过程。库伦定律从点电荷的角度描述静电，而高斯电场定律则从通量的角度来描述静电，为了描述任意闭合曲面的通量，我们不得不引入了微积分的思想。我们说电通量是电场线通过一个曲面的数量，而我们也知道磁场也有磁感线（由于历史原因无法使用磁场线这个名字），那么，我们是不是也可以类似建立磁通量的概念，然后在此基础上建立类似的高斯磁场定律呢？

09方程二：高斯磁场定律

磁通量的概念很好建立，我们可以完全模仿电通量的概念，将磁感线通过一个曲面的数量定义磁通量。因为磁场线的密度一样表征了磁感应强度（因为历史原因，我们这里无法使用磁场强度）的大小。所以不难理解，我们可以仿照电场把磁感应强度为B的磁场通过一个平面a的磁通量Φ表示为Φ=B·a。

同样，根据我们在上面电场里使用的微积分思想，类比通过闭合曲面电通量的作法，我们可以把通过一个闭合曲面S的磁通量表示为：

然后，我们可以类比高斯电场定律的思想“通过闭合曲面的电通量跟这个曲面包含的电荷量成正比”，建立一个高斯磁场定律，它是核心思想似乎就应该是：通过闭合曲面的磁通量跟这个曲面包含的“磁荷量”成正比。

然而这里会有个问题，我们知道自然界中有独立存在的正负电荷，电场线都是从正电荷出发，汇集与负电荷。但是自然界里并不存在（至少现在还没发现）独立的磁单极子，任何一个磁体都是南北两极共存。所以，磁感线跟电场线不一样，它不会存在一个单独的源头，也不会汇集到某个地方去，它只能是一条闭合的曲线。

上图是一个很常见的磁铁周围的磁感线，磁铁外部的磁感线从N极指向S极，在磁铁的内部又从S极指向N极，这样就形成一个完整的闭环。

如果磁感线都是一个闭环，没有独立存在的磁单极，那我们可以想一想：如果你在这个闭环里画一个闭合曲面，那么结果肯定就是有多少磁感线从曲面进去，就肯定有多少跟磁感线从曲面出来。因为如果有一根磁感线只进不出，那它就不可能是闭合的了，反之亦然。

如果一个闭合曲面有多少根磁感线进，就有多少根磁感线出，这意味着什么呢？这就意味着你进去的磁通量跟出来的磁通量相等，那么最后这个闭合曲面包含的总磁通量就恒为0了。这就是麦克斯韦方程组的第二个方程——高斯磁场定律的核心思想：闭合曲面包含的磁通量恒为0。

通过闭合曲面的磁通量（B·a是磁通量，套个曲面的积分符号就表示曲面的磁通量）我们上面已经说了，恒为0无非就是在等号的右边加个0，所以高斯磁场定律的数学表达式就是这样的：

对比一下高斯电场定律和高斯磁场定律，我们会发现他们不仅是名字想象，思想也几乎是一模一样的，只不过目前还没有发现磁荷、磁单极子，所以高斯磁场定律的右边就是一个0。我们再想一想：为什么这种高斯XX定律能够成立？为什么通过任意闭合曲面的某种通量会刚好是某种量的一个量度？

原因还在它们的“平方反比”上。因为电场强度和磁感应强度都是跟距离的平方成反比，而表面积是跟距离的平方正比，所以你前者减小多少，后者就增加多少。那么，如果有一个量的表示形式是前者和后者的乘积，那么它的总量就会保持不变。而通量刚好就是XX强度和表面积的乘积，所以电通量、磁通量就都会有这样的性质。

所以，再深思一下你就会发现：只要一种力的强度是跟距离平方成反比，那么它就可以有类似的高斯XX定律，比如引力，我们一样可以找到对应的高斯定律。数学王子高斯当年发现了高斯定理，我们把它应用在物理学的各个领域，就得到了各种高斯XX定律。麦克斯韦方程组总共就四个方程，就有两个高斯定律，可见其重要性。

静电和静磁方面的事情就先说这么多，还有疑问的请咨询高斯，毕竟这是人家独家冠名的产品。接下来我们来看看电和磁之间的交互，看看磁是如何生电，电是如何生磁的。说到磁如何生电，那就肯定得提到法拉第。奥斯特发现电流的磁效应之后，大家秉着对称性的精神，认为磁也一定能够生电，但是磁到底要怎样才能生电呢？不知道，这就得做实验研究了。

10电磁感应

既然是要做实验看磁如何生电，那首先肯定得有一个磁场。这个简单，找两块N极和S极相对的磁铁，这样它们之间就会有一个磁场。我再拿一根金属棒来，看看它有没有办法从磁场中弄出电来。因为金属棒是导电的，所以我把它用导线跟一个检测电流的仪器连起来，如果仪器检测到了电流，那就说明磁生电成功了。

法拉第做了很多这样的实验，他发现：你金属棒放在那里不动，是不会产生电流的（这是自然，否则你就是凭空产生了电，能量就不守恒了。你要这样能发电，那我买块磁铁回家，就永远不用再交电费了）。

然后，他发现金属棒在那里动的时候，有时候能产生电流，有时候不能产生，你要是顺着磁感线的方向运动（在上图就是左右运动）就没有电流，但是你要是做切割磁感线的运动（在上图就是上下运动）它就能产生电流。打个通俗的比喻：如果把磁感线想象成一根根面条，你只有把面条（磁感线）切断了才会产生电流。

再然后，他发现金属棒在磁场里不动虽然不会产生电流，但是如果这时候我改变一下磁场的强度，让磁场变强或者变弱一些，即便金属棒不动也会产生电流。

法拉第仔细总结了这些情况，他发现不管是金属棒运动切割磁感线产生电流，还是磁场强度变化产生电流，都可以用一个通用的方式来表达：只要闭合回路的磁通量发生了改变，就会产生电流。我们想想，磁通量是磁场强度B和面积a的乘积（B·a），我切割磁感线其实是相当于改变了磁感线通过回路的面积a，改变磁场强度就是改变了B。不管我是改变了a还是B，它们的乘积B·a（磁通量）肯定都是要改变的。

也就是说：只要通过曲面（我们可以把闭合回路当作一个曲面）的磁通量发生了改变，回路中就会产生电流，而且磁通量变化得越快，这个电流就越大。

到了这里，我们要表示通过一个曲面的磁通量应该已经轻车熟路了。磁通量是B·a，那么通过一个曲面S的磁通量给它套一个积分符号就行了。于是，通过曲面S磁通量可以写成下面这样：

细心的同学就会发现这个表达式跟我们高斯磁场定律里磁通量部分稍微有点不一样，高斯磁场定律里的积分符号（拉长的S）中间有一个圆圈，我们这里却没有。高斯磁场定律说“闭合曲面的磁通量恒为0”，那里的曲面是闭合曲面，所以有圆圈。而我们这里的曲面并不是闭合曲面（我们是把电路回路当成一个曲面，考虑通过这个回路的磁通量），也不能是闭合曲面。因为法拉第就是发现了“通过一个曲面的磁通量有变化就会产生电流”，如果这是闭合曲面，那根据高斯磁场定律它的磁通量恒为0，恒为0那就是没有变化，没变化按照法拉第的说法就没有电流，那还生什么电？

所以，我们要搞清楚，我们这里不再是讨论闭合曲面的磁通量，而是一个非闭合曲面的磁通量，这个磁通量发生了改变就会产生电流，而且变化得越快产生的电流就越大。上面的式子给出的只是通过一个曲面S的磁通量，但是我们看到了最终决定电流大小的并不是通过曲面的磁通量的大小，而是磁通量变化的快慢。那么这个变化的快慢我们要怎么表示呢？

我们先来看看我们是怎么衡量快慢的。比如身高，一个人在十二三岁的时候一年可以长10厘米，我们说他这时候长得快；到了十七八岁的时候可能一年就长1厘米，我们就说他长得慢。也就是说，我们衡量一个量（假设身高用y表示）变化快慢的方法是：给定一个变化的时间dt（比如一年，或者更小），看看这个量的变化dy是多少，如果这个量的变化很大我们就说它变化得很快，反之则变化得慢。

因此，我们可以用这个量的变化dy和给定的时间dt的比值dy/dt来衡量量这个量y变化的快慢。所以，我们现在要衡量磁通量变化的快慢，那就只需要把磁通量的表达式替换掉上面的y就行了，那么通过曲面S的磁通量变化的快慢就可以这样表示：

这样，我们就把磁生电这个过程中磁的这部分说完了，那么电呢？一个闭合回路（曲面）的磁通量有变化就会产生电，那这种电要怎么描述？

11电场的环流

可能有人觉得磁通量的变化不是在回路里产生了电流么，那么我直接用电流来描述这种电不就行了么？不行，我们的实验里之所以有电流，是因为我们用导线把金属棒连成了一个闭合回路，如果我们没有用导线去连金属棒呢？那肯定就没有电流了。

所以，电流并不是最本质的东西，那个最本质的东西是电场。一个曲面的磁通量发生了变化，它就会在这个曲面的边界感生出一个电场，然后这个电场会驱动导体中的自由电子定向移动，从而形成电流。因此，就算没有导线没有电流，这个电场依然存在。所以，我们要想办法描述的是这个被感生出来的电场。

首先，一个曲面的磁通量发生了改变，就会在在曲面的边界感应出一个电场，这个电场是环绕着磁感线的，就像是磁感线的腰部套了一个呼啦圈。而且，你这个磁通量是增大还是减小，决定了这个电场是顺时针环绕还是逆时针环绕，如下图：

如果我们从上往下看的话，这个成闭环的感生电场就是如下图所示：它在这个闭环每点的方向都不一样，这样就刚好可以沿着回路驱动带电粒子，好像是电场在推着带电粒子在这里环里流动一样。

这里，我们就要引入一个新的概念：电场环流，电场的环流就是电场沿着闭合路径的线积分。这里有两个关键词：闭合路径和线积分。闭合路径好说，你只有路径是闭合的，才是一个环嘛，感生电场也是一个环状的电场。

电场的线积分是什么意思呢？因为我们发现这个感生电场是一个环状电场，它在每一个点的方向都不一样。但是，我们依然可以发动微积分的思想：这个电场在大范围内（比如上面的整个圆环）方向是不一样的，但是，如果在圆环里取一个非常小的段dl，电场E就可以看做是一个恒定的了，这时候E·dl就是有意义的了。然后把这个环上所有部分的E·dl都累加起来，也就是沿着这个圆环逐段把E·dl累加起来，这就是对电场求线积分。而这个线积分就是电场环流，用符号表示就是这样：

积分符号下面的C表示这是针对曲线进行积分，不同于我们前面的面积分（下标为S），积分符号中间的那个圆圈就表示这个是闭合曲线（电场形成的圆环）。如果大家已经熟悉了前面曲面通量的概念，我想这里要理解电场在曲线上的积分（即电场环流）并不难。

这个电场环流有什么物理意义呢？它就是我们常说电动势，也就是电场对沿着这条路径移动的单位电荷所做的功。我这里并不想就这个问题再做深入的讨论，大家只要直观的感觉一下就行了。你想想这个电场沿着这个回路推动电荷做功（电场沿着回路推着电荷走，就像一个人拿着鞭子抽磨磨的驴），这就是电场环流要传递的概念。而用这个概念来描述变化的磁产生的电是更加合适的，它既包含了感生电场的大小信息，也包含了方向信息。

12方程三：法拉第定律

所以，麦克斯韦方程组的第三个方程——法拉第定律的最后表述就是这样的：曲面的磁通量变化率等于感生电场的环流。用公式表述就是这样：

方程右边的磁通量的变化率和和左边的感生电场环流我们上面都说了，还有一个需要说明的地方就是公式右边的这个负号。为什么磁通量的变化率前面会有个负号呢？

我们想想，法拉第定律说磁通量的变化会感生出一个电场出来，但是我们别忘了奥斯特的发现：电流是有磁效应的。也就是说，磁通量的变化会产生一个电场，这个电场它自己也会产生磁场，那么也就有磁通量。那么，你觉得这个感生电场产生的磁通量跟原来磁场的磁通量的变化会有什么关系？

假如原来的磁通量是增加的，那么这个增加的磁通量感生出来的电场产生的磁通量是跟原来方向相同还是相反？仔细想想你就会发现，答案必然是相反。如果原来的磁通量是增加的，你感生出来的电场产生的磁通量还跟它方向相同，这样不就让原来的磁通量增加得更快了么？增加得更快，按照这个逻辑就会感生出更强大的电场，产生更大的与原来方向相同的磁通量，然后又导致原来的磁通量增加得更快……

然后你会发现这个过程可以无限循环下去，永远没有尽头，这样慢慢感生出无限大的电场和磁通量，这肯定是不可能的。所以，为了维持一个系统的稳定，你原来的磁通量是增加的，我感生电场产生的磁通量就必然要让原来的磁通量减小，反之亦然。这就是楞次定律的内容，中学的时候老师会编一些口诀让你记住它的内容，但是我想让你知道这是一个稳定系统自然而然的要求。楞次定律背后还有一些更深层次的原因，这里我们暂时只需要知道这是法拉第定律那个负号的体现就行了。

到这里，我们就把麦克斯韦方程组的第三个方程——法拉第定律的内容讲完了，它刻画了变化的磁通量如何产生电场的过程。但是，我们上面也说了，我们这里的磁通量变化包含了两种情况：导体运动导致的磁通量变化和磁场变化导致的磁通量变化。这两种情况其实是不一样的，但是它们居然又可以用一个统一的公式来表达，这其实是非常不自然的，当时的人们也只是觉得这是一种巧合罢了，但是爱因斯坦却不认为这是一种巧合，而是大自然在向我们暗示什么，他最终从这里发现了狭义相对论，有兴趣的同学可以这里思考一下。

也因为这两种情况不一样，所以，法拉第定律还有另外一个版本：它把这两种情况做了一个区分，认为只有磁场变化导致的磁通量变化才是法拉第定律，前面导体运动导致的磁通量变化只是通量法则。所以我们有时候就会看到法拉第定律的另一个版本：

对比一下这两个法拉第定律，我们发现后面这个只是把那个变化率从原来的针对整个磁通量移到了只针对磁场强度B（因为B不是只跟时间t有关，还可以跟其它的量有关，所以我们这里必须使用对时间的偏导的符号∂B/∂t），也就是说它只考虑变化磁场导致的磁通量变化。这种形式跟我们后面要说的法拉第定律的微分形式对应得更好，这个后面大家会体会到。

磁生电的过程我们先讲这么多，最后我们来看看电生磁的情况。可能有些人会觉得我这个出场次序有点奇怪：明明是奥斯特先发现了电流的磁效应，大概十年后法拉第才发现了磁如何生电，为什么你却要先讲磁生电的法拉第定律，最后讲电生磁呢？

13安培环路定理

确实，是奥斯特首先爆炸性地发现了电流的磁效应，发现了原来电和磁之间并不是毫无关系的。

如上图，假设电流从下往上，那么它在周围就会产生这样一个环形的磁场。磁场的方向可以用所谓的右手定则直观的判断：手握着导线，拇指指向电流的方向，那么你右手四指弯曲的方向就是磁场B的方向。

然后毕奥、萨伐尔和安培等人立马着手定量的研究电流的磁效应，看看一定大小的电流在周围产生的磁场的大小是怎样的。于是，我们就有了描述电流磁效应的毕奥-萨伐尔定律和安培环路定理。其中，毕奥-萨伐尔定律就类似于库伦定律，安培环路定理就类似于高斯电场定律，因为在麦克斯韦方程组里，我们使用的是后一套语言，所以我们这里就只来看看安培环路定理：

安培环路定理的左边跟法拉第定律的左边很相似，这是很显然的。因为法拉第定律说磁通量的变化会在它周围产生一个旋转闭合的电场，而电流的磁效应也是在电流的周围产生一个旋转闭合的磁场。在上面我们已经说了我们是用电场环流（也就是电场在闭合路径的线积分）来描述这个旋转闭合的电场，那我们这里一样使用磁场环流（磁场在闭合路径的线积分）来描述这种旋转闭合的磁场。

安培环路定理的右边就比较简单了，μ0是个常数（真空磁导率），不用管它。I通常是用来表示电流的，enc这个右标我们在高斯电场定律那里已经说过了，它是包含的意思。所以，右边这个带enc的电流I就表示被包含在闭合路径里的总电流，哪个闭合路径呢？那自然就是你左边积分符号中间那个圈圈表示的闭合路径了。

也就是说，安培环路定理其实是在告诉我们：通电导线周围会产生旋转磁场，你可以在这个电流周围随便画一个圈，那么这个磁场的环流（沿着这个圈的线积分）就等于这个圈里包含的电流总量乘以真空磁导率。

那么，这样就完了么？静电、静磁分别由两个高斯定律描述，磁生电由法拉第定律描述，电生磁就由安培环路定理描述？

不对，我们看看安培环路定理，虽然它确实描述了电生磁，但是它这里的电仅仅是电流（定理右边只有电流一项）。难道一定要有电流才会产生磁？电磁感应被发现的原因就是看到奥斯特发现了电流的磁效应，发现电能生磁，所以人们秉着对称性的原则，觉得既然电能够生磁，那么磁也一定能够生电。那么，继续秉着这种对称性，既然法拉第定律说“变化的磁通量能够产生电”，那么，我们实在有理由怀疑：变化的电通量是不是也能产生磁呢？

14方程四：安培-麦克斯韦定律

那么，为什么描述电生磁的安培环路定理里却只有电流产生磁，而没有变化的电通量产生磁这一项呢？难道当时的科学家们没意识到这种对称性么？当然不是，当时的科学家们也想从实验里去找到电通量变化产生磁场的证据，但是他们并没有找到。没有找到依然意味着有两种可能：不存在或者目前的实验精度还发现不了它。

如果你是当时的科学家，面对这种情况你会作何选择？如果你因为实验没有发现它就认为它不存在，这样未免太过保守。但是，如果你仅仅因为电磁之间的这样一种对称性（而且还不是非常对称，因为大自然里到处充满了独立的电荷，却没有单独的磁单极子）就断定“电通量的变化也一定会产生磁”这样未免太过草率。这种时候就是真正考验一个科学家能力和水平的时候了。

麦克斯韦选择了后者，也就是说麦克斯韦认为“变化的电通量也能产生磁”，但是他并不是随意做了一个二选一的选择，而是在他的概念模型里发现必须加入这样一项。而且，只有加上了这样一项，修正之后的安培环路定理才能跟高斯电场定律、高斯磁场定律、法拉第定律融洽相处，否则他们之间会产生矛盾（这个矛盾我们在后面的微分篇里再说）。麦克斯韦原来的模型太过复杂，我这里就不说了，这里我用一个很简单的例子告诉大家为什么必须要加入“变化的电通量也能产生磁”这一项。

在安培环路定理里，我们可以随意选一个曲面，然后所有穿过这个曲面的电流会在这个曲面的边界上形成一个环绕磁场，问题的关键就在这个曲面的选取上。按理说，只要你的这个曲面边界是一样的，那么曲面的其他部分就随便你选，因为安培环路定理坐标的磁场环流只是沿着曲面的边界的线积分而已，所以它只跟曲面边界有关。下面这个例子就会告诉你即便曲面边界一样，使用安培环路定理还是会做出相互矛盾的结果。

上图是一个包含电容器的简单电路。电容器顾名思义就是装电的容器，它可以容纳一定量的电荷。一开始电容器是空的，当我们把开关闭合的时候，电荷在电池的驱动下开始移动，移动到了电容器这里就走不动了（此路不通），然后电荷们就聚集在电容器里。因为电容器可以容纳一定量的电荷，所以，当电容器还没有被占满的时候，电荷是可以在电路里移动的，电荷的移动就表现为电流。

所以，我们会发现当我们在给电容器充电的时候，电路上是有电流的，但是电容器之间却没有电流。所以，如果我们选择上图的曲面，那么明显是有电流穿过这个曲面，但是，如果我们选择下面这个曲面呢（此处图片来自《麦克斯韦方程直观》，需要的可以后台回复“麦克斯韦方程组”）？

这个曲面的边界跟上图一样，但是它的底却托得很长，盖住了半块电容器。这是什么意思呢？因为我们知道电容器在充电的时候，电容器里面是没有电流的，所以，当我们把曲面选择成下面这个样子的时候，根本就没有电流穿过这个曲面。

也就是说，如果我选上面的曲面，有电流穿过曲面，按照安培环路定理，它是肯定会产生一个环绕磁场的。但是，如果我选择下面的曲面，就没有电流通过这个曲面，按照安培环路定理就不会产生环绕磁场。而安培环路定理只限定曲面的边界，并不管你曲面的其它地方，于是我们就看到这两个相同边界的曲面会得到完全不同的结论，这就只能说明：安培环路定理错了，或者至少它并不完善。

我们再来想一想，电容器在充电的时候电路中是有电流的，所以它周围应该是会产生磁场的。但是，当我们选择下面那个大口袋形的曲面的时候，并没有电流穿过这个曲面。那么，到底这个磁场是怎么来的呢？

我们再来仔细分析一下电容器充电的过程：电池驱使着电荷不断地向电容器聚集，电容器中间虽然没有电流，但是它两边聚集的电荷却越来越多。电荷越来越多的话，在电容器两个夹板之间的电场强度是不是也会越来越大？电场强度越来越大的话，有没有嗅到什么熟悉的味道？

没错，电场强度越来越大，那么通过这个曲面的电通量也就越来越大。因此，我们可以看到虽然没有电流通过这个曲面，但是通过这个曲面的电通量却发生了改变。这样，我们就可以非常合理地把“变化的电通量”这一项也添加到产生磁场的原因里。因为这项工作是麦克斯韦完成的，所以添加了这一项之后的新公式就是麦克斯韦方程组的第四个方程——安培-麦克斯韦定律：

把它和安培环路定理对比一下，你就会发现它只是在在右边加了变化的电通量这一项，其它的都原封未动。E·a是电通量，套个面积分符号就表示通过曲面S的电通量，再加个d/dt就表示通过曲面S电通量变化的快慢。因为在讲法拉第定律的时候我们详细讲了通过曲面磁通量变化的快慢，这里只是把磁场换成了电场，其他都没变。

ε0是真空中的介电常数，把这个常数和电通量变化的快慢乘起来就会得到一个跟电流的单位相同的量，它就被称为位移电流，如下图：

所以，我们经常能够听到别人说麦克斯韦提出了位移电流假说。其实，它的核心就是添加了“变化的电通量也能产生磁场”这一项，因为当时并没有实验能证明这一点，所以只能暂时称之为假说。在安培环路定理里添加了这一项之后，新生的安培-麦克斯韦定律就能跟其他的几条定律和谐相处了。而麦克斯韦之所以能够从他的方程组里预言电磁波的存在，这最后添加这项“变化的电通量产生磁场”至关重要。

因为你想想，预言电磁波的关键就是“变化的电场产生磁场，变化的磁场产生电场”，这样变化的磁场和电场就能相互感生传向远方，从而形成电磁波。而变化的电场能产生磁场，这不就是麦克斯韦添加的这一项的核心内容么？电场变了，磁通量变了，于是就产生了磁场。至于麦克斯韦方程组如何推导出电磁波，我后面再专门写文章解释，这里知道电磁波的产生跟位移电流的假说密切相关就行了。

15麦克斯韦方程组

至此，麦克斯韦方程组的四个方程：描述静电的高斯电场定律、描述静磁的高斯磁场定律、描述磁生电的法拉第定律和描述电生磁的安培-麦克斯韦定律的积分形式就都说完了。把它们都写下来就是这样：

高斯电场定律说穿过闭合曲面的电通量正比于这个曲面包含的电荷量。

高斯磁场定律说穿过闭合曲面的磁通量恒等于0。

法拉第定律说穿过曲面的磁通量的变化率等于感生电场的环流。

安培-麦克斯韦定律说穿过曲面的电通量的变化率和曲面包含的电流等于感生磁场的环流。

我们看到，在这里从始至终都占据着核心地位的概念就是通量。

如果一个曲面是闭合的，那么通过它的通量就是曲面里面某种东西的量度。因为自然界存在独立的电荷，所以高斯电场定律的右边就是电荷量的大小，因为我们还没有发现磁单极子，所以高斯磁场定律右边就是0。

如果一个曲面不是闭合的，那么它就无法包住什么，就不能成为某种荷的量度。但是，一个曲面如果不是闭合的，它就有边界，于是我们就可以看到这个非闭合曲面的通量变化会在它的边界感生出某种旋涡状的场，这种场可以用环流来描述。因而，我们就看到了：如果这个非闭合曲面的磁通量改变了，就会在这个曲面的边界感生出电场，这就是法拉第定律；如果这个非闭合曲面的电通量改变了，就会在这个曲面的边界感生出磁场，这就是安培-麦克斯韦定律的内容。

所以，当我们用闭合曲面和非闭合曲面的通量把这四个方程串起来的时候，你会发现麦克斯韦方程组还是很有头绪的，并不是那么杂乱无章。闭上眼睛，想象空间中到处飞来飞去的电场线、磁场线，它们有的从一个闭合曲面里飞出来，有的穿过一个闭合曲面，有的穿过一个普通的曲面然后在曲面的边界又产生了新的电场线或者磁场线。它们就像漫天飞舞的音符，而麦克斯韦方程组就是它们的指挥官。

16结语

有很多朋友以为麦克斯韦方程组就是麦克斯韦写的一组方程，其实不然。如我们所见，麦克斯韦方程组虽然有四个方程，但是其中有三个半（高斯电场定律、高斯磁场定律、法拉第定律、安培环路定理）是在麦克斯韦之前就已经有了的，真正是麦克斯韦加进去的只有安培-麦克斯韦定律里”电通量的变化产磁场”那一项。知道了这些，有些人可能就会觉得麦克斯韦好像没那么伟大了。

其实不然，在麦克斯韦之前，电磁学领域已经有非常多的实验定律，但是这些定律哪些是根本，哪些是表象？如何从这一堆定律中选出最核心的几个，然后建立一个完善自洽的模型解释一切电磁学现象？这原本就是极为困难的事情。更不用说麦克斯韦在没有任何实验证据的情况下，凭借自己天才的数学能力和物理直觉直接修改了安培环路定理，修正了几个定律之间的矛盾，然后还从中发现了电磁波。所以，丝毫没有必要因为麦克斯韦没有发现方程组的全部方程而觉得他不够伟大。

最后，如题所示，我这篇文章讲的只是麦克斯韦方程组的积分篇，方程都是用积分是形式写的。因为积分篇主要是从通量，从宏观的角度来描述电磁学，所以相对比较容易理解。有积分篇那就意味着还有麦克斯韦方程组的微分篇，微分篇的内容我下一篇文章再讲。我这篇文章主要参考了《电动力学导论》（格里菲斯）和《麦克斯韦方程直观》（Daniel Fleisch），大家想对麦克斯韦方程组做进一步了解的可以看看这两本书，需要电子档的可以在后台回复“麦克斯韦方程组”。

最美的方程，愿你能懂她的美~

收起阅读 »

四维形式的狭义相对论及其动力学

固有时（proper time）

四维坐标，四维速度，四维加速度

四维动量，质能方程

不变量和守恒量

四维力，四维牛顿定律

闵氏空间和洛伦兹变换

四维闵可夫斯基时空

洛伦兹变换

标量，矢量和张量

如何理解麦克斯韦方程中的不对称性

强迫症犯了

有办法对称吗？

正负“不相容”

正负调换之殇

绝杀

总结

闵氏几何是什么？它是如何统一时空并极大简化狭义相对论的？

相对论前夜：牛顿和麦克斯韦的战争

相对论诞生：爱因斯坦是如何创立狭义相对论的？ | 主线

你也能懂的质能方程E=mc²

最美的公式：你也能懂的麦克斯韦方程组（微分篇）

见证奇迹的时刻：如何从麦克斯韦方程组推出电磁波？

最美的公式：你也能懂的麦克斯韦方程组（积分篇）

热门文章

热门话题