四维形式的狭义相对论及其动力学

狭义相对论相对论

作者|yubr编辑|Trader Joe's在前一章《闵氏空间和洛伦兹变换》中我们已经介绍了闵氏几何和四维语言，在本章中我们将使用前一章介绍的四维语言来描述狭义相对论及其动力学。固有时（proper time）假设给定两个事件，我们知道这两个事件发生的时间间隔...

继续阅读 »

作者|yubr
编辑|Trader Joe's

在前一章《闵氏空间和洛伦兹变换》中我们已经介绍了闵氏几何和四维语言，在本章中我们将使用前一章介绍的四维语言来描述狭义相对论及其动力学。

固有时（proper time）

假设给定两个事件，我们知道这两个事件发生的时间间隔在不同的参考系中看是不一样的，它们之间通过洛伦兹变换来联系。

我们选取一个特殊的参考系，使得在这个参考系中看，这两个事件是发生在同一空间点的，我们把在这个参考系中测到的两个事件的事件间隔称为这两个事件的固有时，记作，这也就是静止于该参考系的钟所测到的时间间隔。

需要注意的是，虽然我们是利用了一个特殊的参考系来定义固有时，但是固有时本身的值和参考系无关，也就是说，所有的观者测量到的两个事件的固有时是相同的。

根据固有时的定义和四维时空间隔的不变性，我们有

另一方面

从而我们得到了固有时和坐标时之间的关系

因为所以。

这告诉我们，对于确定的两个事件，在那个两个事件空间坐标相同的参考系去测到的时间间隔是最短的，换句话说，固有时最短。

四维坐标，四维速度，四维加速度

在前一章《闵氏空间和洛伦兹变换》中，我们已经证明了把时间和三维空间矢量放在一个可以构成一个4-矢量：

称为四维坐标矢量。

我们把四维坐标矢量对固有时的导数定义为四维速度矢量：

其中是三维速度。利用定义容易证明，四维速度的内积是一个不变量：

我们把四维速度矢量对固有时的导数定义为四维加速度矢量：

其中是三维加速度。利用四维速度的内积是个常数，我们可以证明四维速度和四维加速度是正交的：

显然，根据定义，四维速度和四维加速度都是4-矢量，它们在洛伦兹变换下的行为和四维坐标矢量完全一样：

现在我们知道引入这些四维矢量的好处了：

根据在洛伦兹变换下的变换规则，我们固然可以导出三维速度和三维加速度在洛伦兹变化下的变换规则。

但是这样做表达式会异常繁琐，因为这些三维量都不是洛伦兹协变的，而上面定义的四维速度和四维加速度在洛伦兹变换下的行为相当简单，它们都是洛伦兹协变的。

四维动量，质能方程

接下来我们转入动力学的研究。仿照三维动量的定义，我们把一个质量为 的粒子的四维动量定义为其质量和其四维速度的乘积，同时，我们把四维动量的第一个分量称为能量（除以光速），后面三个分量称为三维动量：

于是我们得到能量和三维动量的表达式：

四维动量的内积也是一个不变量：

从而有

上式就是最一般形式的质能方程。

对于质量为零的粒子（比如光子），我们有；

对于静止的粒子，我们有。

不变量和守恒量

接下来我们来辨析两个非常重要的概念：不变量和守恒量。

不变量指的是在洛伦兹变换下不变的量，意思是在一个惯性参考系中测到的值和另一个惯性参考系中测到的值是一样的，不变量的值不依赖于参考系。

任意两个4-矢量的内积就是不变量，例如：四维时空间隔（四维坐标的内积），光速（四维速度的内积），质量（四维动量的内积），等等。

守恒量指的是在一个反应过程前后不发生改变的量，连续的对称性对应守恒量，例如能量（对应时间平移不变），动量（对应空间平移不变），角动量（对应空间转动不变），等等。

不变量和守恒量并没有必然的联系，不变量不一定守恒，守恒量不一定不变。

让我们来举一个高中物理中就熟悉的例子：一个质子和一个中子结合成一个原子核。我们知道在这个过程中结合后原子核的质量是小于结合前质子的质量加上中子的质量的，这称为质量亏损，表明在这个过程前后系统的质量并不守恒，所以质量不是守恒量。

但是我们还知道在这个过程中系统还会放出能量，前面亏损掉的质量利用上面的质能方程折算成能量后正好等于放出的能量，所以这个过程前后能量是守恒的。

另一方面，能量显然不是不变量，这从能量的表达式就可以看出来：在一个相对粒子静止的参考系（）和在一个相对粒子运动的参考系（），所测量到的粒子的能量显然是不同的，所以能量不是不变量。

概括一下，质量是不变量却不是守恒量，能量是守恒量却不是不变量。

四维力，四维牛顿定律

我们把四维力定义为四维动量对固有时的导数：

其中是三维力。上式第二个等号实际上也就是四维形式的牛顿运动定律。我们来看看这个方程的4个分量分别代表什么含义。

0-分量：代表了能量守恒定律
i-分量(i=1,2,3)：代表了牛顿第二定律

所以，四维形式的牛顿运动定律同时包含了能量守恒定律和牛顿第二定律。

预告：在下一章中，我们将用四维语言重写麦克斯韦方程组和整个电磁学，为此我们需要引入四维势，四维流，场强张量等洛伦兹协变的物理量，同时我们还将介绍著名的A-B效应。

收起阅读 »

闵氏空间和洛伦兹变换

洛伦兹变换闵氏空间

作者：yubr编辑：Trader Joe's四维闵可夫斯基时空我们在本科阶段接触的经典力学和经典电动力学里的物理规律，都是以三维矢量方程的形式描述的。无论是牛顿运动定律，还是麦克斯韦方程组，其基本的物理对象都是三维欧式空间的矢量（例如：位置矢量，电...

继续阅读 »

作者：yubr

编辑：Trader Joe's

四维闵可夫斯基时空

我们在本科阶段接触的经典力学和经典电动力学里的物理规律，都是以三维矢量方程的形式描述的。

无论是牛顿运动定律，还是麦克斯韦方程组，其基本的物理对象都是三维欧式空间的矢量（例如：位置矢量，电场，磁场等等）。

我们通过求解动力学方程，来研究它们随着时间坐标的演化和随着空间坐标的分布。

这种描述貌似没有什么问题，既然如此，我们为什么还要引入四维时空呢？

爱因斯坦在1905年建立的狭义相对论最深远的意义，就在于揭示了时间和空间的内在联系：时间和空间并不像牛顿力学所宣称的那样是独立的、正交的、没有联系的；而是紧密相关的、可以互相转化的。

牛顿力学描述的时空对象是三维欧氏空间和一维时间的直和，它们之间通过所谓的伽利略变换（伽利略变换是三维欧氏群 E3 群的群元，包含了三维平移，三维转动，三维反射等保持三维空间距离不变的变换）来联系，伽利略变换中，时间和空间是独立变化的。

而狭义相对论所描述的时空是 3+1 维的闵氏时空，它们之间通过洛伦兹变换（洛伦兹变换是洛伦兹群的群元，包含了保持四维闵氏时空距离不变的变换: 三维转动，三维反射和boost变换）来联系，洛伦兹变换中，时间和空间是相互耦合的。

无数的高能物理实验告诉我们，我们的时空确实是通过洛伦兹变换而不是通过伽利略变换来联系的，这意味着时间和空间是互相关联而非互相独立的——牛顿错了，爱因斯坦对了。

下面我们先介绍洛伦兹变换。

洛伦兹变换

为了简单起见，我们只介绍最简单的洛伦兹boost变换。

假设有两个坐标系和

S':(t',x',y',z')

，其中系相对系沿着轴以速度运动，并且在运动过程中始终保持轴与轴平行，轴与轴平行，轴与轴重合。

我们把初始条件设为时两个系的原点重合。现在我们要问的是：对于同一个事件， 和 的定量关系是什么？

我们知道任何理论都有基本的假设。牛顿力学的时空背景是三维欧氏空间，在这个空间中，一切的坐标变换必须满足三维空间距离不变：

从这个基本假设出发，我们可以导出伽利略变换，也就是牛顿力学中，联系和的定量关系：

同理，狭义相对论的时空背景是四维闵氏时空，在这个时空中，一切坐标变换必须满足 四维时空距离不变：

其中

c

为光速。从这个基本假设出发，我们就可以导出洛伦兹变换（推导留作练习）：

为了简化记号，我们定义，，上述洛伦兹变换可以写为

或者用矩阵的语言，可以写为

我们将矩阵

称为沿

x

轴boost的洛伦兹变换矩阵，记作。

标量，矢量和张量

从上面的洛伦兹变换的表达式可以看到，这四个数在洛伦兹变换下并不是孤立的，而是一个整体，它们一起按照矩阵进行变换，所以我们把它们放到一起组成一个矢量（这称为4-矢量）：

其中约定

x^0=ct，x^1=x，x^2=y，x^3=z

则上述洛伦兹变换可以记为

（注意这里我们采用了爱因斯坦求和约定：重复指标求和，写完整就是）

其中和都可以取0，1，2，3。

上式可以用来定义所有的4-矢量：

任意四个数 的集合，如果在洛伦兹变换 下它们满足

则称这四个数组成了一个4-矢量。我们把指标在上面的矢量称为逆变矢量。

我们可以通过度规来将矢量的指标进行升降。闵氏时空的度规
逆度规

如果为逆变矢量，则我们称为协变矢量，例如，坐标矢量，则

利用协变矢量和逆变矢量的内积，我们可以把四维时空间隔写为

因为我们知道四维时空间隔必须是洛伦兹变换下的不变量，所以必须在洛伦兹变换下是不变的，也就是必须满足

但是是逆变矢量，它在洛伦兹变换下的行为我们已经知道，将这个代入上式，我们就得到了洛伦兹变换矩阵必须满足的关系式

上式也是洛伦兹变换最一般最严格的数学定义式

利用上式容易证明，任何一个逆变矢量和协变矢量相乘得到的结果都是洛伦兹变换下的不变量，即，这种逆变矢量和协变矢量的相乘称为缩并。

我们把这种在洛伦兹变换下不变的量称为标量，它是逆变矢量和协变矢量的缩并。

上述关于标量和矢量的定义很容易推广到任意阶张量。我们看到标量没有指标，它有个分量，它可以视为零阶张量，在洛伦兹变换下不变；矢量有一个指标，它有个分量，它可以视为一阶张量，它在洛伦兹变换下乘上一个洛伦兹变换矩阵；类似的，我们可以定义 n 阶逆变张量：

n 阶逆变张量是这样 个数的集合，这 个数在洛伦兹变换下满足

为了不那么抽象，我们举一个具体的例子：二阶逆变张量 ( )就是这样 16 个数的集合（，共 16 个分量），这 16 个数在洛伦兹变换下满足

上面这个式子一共包含了16个等式，我们取其中一个加以说明。设这个二阶张量的00分量在一个参考系中的值为，在另一个参考系中的值为，那么新参考系中的00分量的值由旧坐标系中的各个分量按照这样的线性组合构成：

T^{\prime 00}=\sum_{\rho=0}^3\sum_{\sigma=0}^3\Lambda^0_{\rho}\Lambda^0_{\sigma}T^{\rho \sigma}

其中是联系两个参考系的洛伦兹变换矩阵

利用度规升降，我们可以从任意阶的逆变张量（指标都在上面的）出发定义任意阶的协变张量（指标都在下面的）和混合张量（指标有上有下的）。

例如，二阶协变张量定义为

(1,1) 阶混合张量定义为

以上我们介绍了四维闵氏时空中的洛伦兹变换和标量，矢量，张量的定义，这些都是四维语言的基础。

一个关于闵氏时空的更加友好通俗的介绍可以参看闵氏几何是什么？它是如何统一时空并极大简化狭义相对论的？

用四维语言描述的物理量和物理定律，相比我们熟悉的三维形式，要简洁优美得多，并且用四维语言我们一眼就能看出物理量的变换性质和体系的对称性

用术语来说：四维形式是“协变的”，三维形式是“非协变的”。

这一点其实很好理解，因为实验已经证明了我们所处的世界是 3+1 维的时空，时间维度和空间维度是耦合在一起的而非割裂的，那么我们用把时空一并处理的四维语言来描写世界当然要比用人为地把时间割裂出去的三维语言自然得多。

预告：

在下一章中，我们将用上面介绍的四维语言描写狭义相对论的动力学——我们将把熟悉的三维力学中的那些物理量（如：位置矢量，速度，加速度，动量，力，等等）和物理定律（比如牛顿第二定律）全部推广到四维形式。

收起阅读 »

为什么我们的宏观世界是三维的（附答疑）

物理

作者| yubr编辑| Trader Joe's经验表明，我们所生活的这个宏观世界是一维时间+三维空间所组成的四维时空的有机整体，这一点是狭义相对论的基本观点，也已经被无数的实验所验证（例如，LHC上每时每刻都在以无数微观粒子“尸骨”来向世人宣示着狭义相对论无...

继续阅读 »

作者| yubr
编辑| Trader Joe's

经验表明，我们所生活的这个宏观世界是一维时间+三维空间所组成的四维时空的有机整体，这一点是狭义相对论的基本观点，也已经被无数的实验所验证（例如，LHC上每时每刻都在以无数微观粒子“尸骨”来向世人宣示着狭义相对论无以伦比的准确性）。

这里，我主要想简单地从经典力学的角度（因为我们现在只讨论宏观问题，用经典力学就够了）证明一下组成我们宏观世界的空间维数只能是3，而不能是 4,5,6,… 等更高维度。

经典力学的一般性分析

我们考虑两体组成的有心力系统（例如，地球+太阳，或者月球+地球）。

我们知道两体运动可以等效为质心平动和两体的相对运动，而质心的平动是平凡的，可以不看。

需要注意的是，两体的有心力系统，其运动轨迹一定约束在一个二维平面上，这一点和空间的维数没有关系，所以我们采用极坐标最为方便，其中为两体之间的相对距离。两体相对运动的拉氏量为

其中是两体的约化质量，是两体之间的引力势。因为拉式量不显含有，所以对应循环坐标的正则动量一定守恒

当然我们知道这其实就对应角动量守恒。所以拉氏量可以改写为只依赖和的形式

因为拉氏量不显含时间，所以这个体系的总能量（哈密顿量）守恒，

其中有效势能 。

我们假设处是平衡位置，也就是

然后我们把在平衡位置附近展开，保留到二阶小量，

其中一阶导数由于平衡位置的定义而为零。所以总能量为

两边对时间微分我们得到

再做一个坐标平移 ，得到

其中。

这是一个我们很熟悉的简谐振子的运动方程，当且仅当也就是时，这个体系在微扰下是稳定的。

插曲：维空间的万有引力

接下来我们来推导 维空间下球对称引力势的具体表达式。从引力势满足的泊松方程出发

引力场强，所以，两边积分

其中和分别为维空间的体元和面元。再利用散度定理

我们得到

因为

所以

其中为维空间的立体角。从而

这里利用了球对称引力场的场强和角度无关的结论。所以维空间的球对称引力场强

下面来求维空间立体角的表达式，利用

其中是我们熟悉的Gamma函数。所以，当时，就回到我们熟悉的三维空间的立体角。所以最后我们得到维空间的球对称引力场强

其中是一个只和空间维数有关的函数，且总是正的。

例如，对三维空间，，，这正是我们熟悉的万有引力定律的平方反比表达式；对于四维空间，，所以，等等。所以维空间下球对称引力势的表达式为（取无穷远为势能零点）

两体系统的引力势能为

其中是一个只和维数有关的函数，只要时，就是正的，引力势就是吸引势。

稳定性：几维空间才合适？

让我们继续回到上面的两体有心力系统中来。

有了任意维空间球对称势能的表达式，我们就可以计算稳定性条件 对于空间维数的限制了，

将其带入稳定性条件中，同时利用条件，最后得到

因为引力势总是吸引势，所以，所以由上式可得。另一方面，低维的空间（）从生物学角度已经被禁戒掉了，从而只能有

所以，我们宏观世界的空间只能是三维的，如果空间维数大于三维，体系将在微扰下不稳定——比如你轻轻地吹一口气，整个太阳系就会灰飞烟灭。

一个更简单的方法

以上的推导略显繁琐，下面用一个更简单的方法进行论证。

经典力学中有一条定理被称为位力定理（Virial theorem），它告诉我们对于一个具有个自由度的体系，其平均动能和平均势能之间具有如下关系

其中和分别表示动能和势能，尖括号代表取平均值。通常地，势能总是坐标的次齐次函数，即

其中为任意常数。对于齐次函数，我们可以使用高等数学中的欧拉齐次函数定理，

从势能的表达式我们得到，所以，代入位力定理中，我们得到

如果，，总能量的平均值。

因为动能的平均值总是正的，所以总能量的平均值总是负的，这时系统是稳定的。

倘若空间不是3维，会发生什么？

如果，那么，即总能量的平均值是零或正数，此时体系都是不稳定的。
如果，则动能的平均值是零，这是一个死气沉沉的世界。
如果，动能和势能的平均值将同号，但是一个物理系统的动能平均值总是正的，所以总能量的平均值也是正数，这样的系统是不稳定的。

所以，利用位力定理，我们可以更加简单地证明，宏观世界的空间维数只能是3。

额外维？

最后，我想再简单提一下高维理论。在各种额外维（Extra dimensions）的物理模型中，我们的空间维数是可以大于三维的。

但是这并不和我们上面的结论矛盾，因为上面始终论证的都是宏观世界。

而所有的额外维模型，其超过三维的空间维度都是蜷曲在极小的空间尺度中的（当然也就意味着必须要超高的能标才有可能探测到其带来的效应）。

当涉及到宏观系统和宏观距离的时候（此时的能标都是极低的），那些额外的维度并不会对万有引力和库仑力的平方反比表达式有明显的修正（这一点要感谢同办公室的美女博后Kimiko帮忙指出），因而并不会对我们的宏观世界的稳定性造成任何影响。

附注

微扰下稳定的意思是说，如果我们对正在太阳的椭圆轨道上运行的地球做一个径向的小扰动，那么地球将在平衡位置附近来回振荡着做简谐振动；反之如果体系在微扰下不稳定，那么你对着地球沿径向方向吹一口气，地球就直接飞到十万八千里以外去了。一个很好的类比是，想象一个静止在山顶的球（此时势能处于极大值，势能的二阶导数小于零）和一个静止在谷底的球（此时势能处于极小值，势能的二阶导数大于零），两个球都处在平衡位置（因为此时合力为零，球静止），但是轻轻碰一下后，山顶的球会直接滚下来，而谷底的球只会在谷底附近来回振荡，因此前者是在微扰下不稳定的，后者是在微扰下稳定的。
接下来这一段是比较严格的推导，如果你不想看，也可以直接通过能量守恒定性地得到结论。在三维空间，面积正比于距离的平方，所以为了保证能量守恒，引力场强必须按照反比于距离平方的规律衰减；而在维空间，面积是正比于距离的次方，所以为了保证能量守恒，引力场强必须按反比于距离的次方的规律衰减。
Gamma函数的定义为，从定义出发，可以推出Gamma函数的几个有用的性质，例如，，等。
关于Virial theorem的证明，可以参看一般的经典力学的教科书，例如Goldstein的Classical Mechanics。
关于这一点，可以考察一个氢原子体系。我们知道氢原子中，电子被原子核束缚在核内运动，其总能量是负的，这意味着我们需要从外界输入一定的能量给电子才能将其电离出原子。如果电子的总能量是零，这意味着我们只要轻轻地碰一下电子，它就可以挣脱原子核的束缚；如果电子的总能量为正，它直接就跑到无穷远去了，根本不可能被原子核束缚。不管是以上哪种情况，都没办法形成稳定存在的原子。

答复读者集中的疑虑

接下来我们通过一些补充说明来回答大家几处集中的疑虑。

（1）我们是不是在假设空间是三维的前提下进行的推导，然后才得到了空间是三维的结论？这样岂不是循环论证？

原文的基本逻辑是：我们先假设宏观世界的空间是维的（注意是一个任意的正整数，不一定是3），然后从经典力学的基本原理出发进行推导。最后我们发现当且仅当的时候力学系统才能在微扰下稳定，换句话说才能形成我们今天稳定的宇宙，从而我们得出结论——我们的宏观世界只能是三维的。

所以我们并没有在一开始就假设空间是三维的，宏观世界的空间是三维的，这是推论而不是前提。

（2）为什么只使用经典力学？

因为我们这里只讨论宏观世界的空间维度，对于宏观世界，使用经典力学就足够了，不需要使用量子理论。我们并没有涉及微观世界的维度。

事实上，正如原文最后一段所说，在微观世界，理论上是允许超过三维的额外维存在的，只是因为探测到这些额外维所需要的能量远远高于我们宏观世界的能标，所以我们在日常生活中看不到这些额外维，它们也不会影响宏观世界的力学系统的稳定性。

（3）经典力学的原理在高维空间是否还成立？

大家有这样的疑虑主要是大家都比较熟悉三维空间的牛顿矢量力学，潜意识里认为谈到经典力学，就一定是三维空间中的力学。

事实上并不是如此。我们在一开始就采用了分析力学的范式，分析力学最重要的一点是引入了广义坐标的概念，从而使得对力学系统的分析可以推广到任意自由度，任意维，而不必局限在三维。

（4）如何理解维空间引力场强随距离的次方衰减？

我们考虑一个确定的引力场源，假设有两个半径分别为和 () 的同心球面将其包围。

因为这两个球面内部的引力场源是相同的，所以穿过这两个球面的引力场的通量（通量等于场强和面积的乘积）应该相等，即。

而在三维空间，面积是正比于距离平方的，，。所以，为了使得穿过这两个球面的通量相等，引力场强必须按照反比于距离平方的规律衰减，即。

类似地，在维空间，因为面积是正比于距离的次方的，所以为了保证通量守恒，引力场强必须按反比于距离的次方的规律衰减。（注：引力场的通量守恒在三维空间是显然成立的，但是把通量守恒推广到高维其实是一个优美的假定，这点特别感谢我学弟 @苏雨山指出。）

（5）关于低维情况

原文中提到对于低维情况（），已经从生物学角度禁戒掉了。这样的论证确实不够严谨，这里我们补上低维空间的严格证明。

在原文中我们已经证明了，维空间的引力势能为

其中

对于或，，这使得引力势成了排斥势，显然这和引力只有吸引势这一事实矛盾。

但是对于呢？细心的读者会发现，在的时候，上面的表达式的分母等于零，这使得上面的表达式对于二维情况不再适用。

是的，你没有猜错！

二维是比较特殊的维度，在二维会有很多不同于其他维度的神奇的现象。

首先我们注意到，为了保证能量守恒，二维空间的引力场必须和距离的1次方成反比

其中是无关紧要的正常数（更加严格的计算给出），负号表明引力是吸引的。

因为引力势是引力场对距离的积分，大家可以想想二维空间下引力势对距离的函数是什么样的？

我才不会偷偷告诉你其实就是对数函数。怎么样，是不是够奇葩？在所有的维度中，二维是唯一一个其引力势对距离的依赖关系不是幂函数的，所以二维很特殊。

但是特殊归特殊，我们照样可以证明宏观世界下二维空间的力学系统不稳定。

考虑二维空间中，一个质点绕着引力源作匀速圆周运动的系统，根据引力提供向心力我们有

从而得到二维空间的轨道速度

这意味着二维空间的轨道速度是一个和轨道半径没有关系的常数！

这个后果是灾难性的：在二维空间的轨道上作圆周运动的天体，在受到微小的扰动后，并不会回到原来的位置，而是会立刻以新的半径运动！这同样使得稳定的力学系统不复存在，因此，二维也被排除了。

我们这里再次强调，以上论证的只是宏观世界的空间维度，并不涉及微观。

在不少凝聚态系统中，确实存在低维系统（例如，石墨烯就是典型二维材料）。

但需要注意的是，这里的低维只是因为材料的其他维度的尺度相对于剩下的维度来说太小，从而可以忽略不计，所以我们将电子在其中的运动近似当作在低维空间中的运动来处理而已。

但严格来说，低维材料仍然是三维的。（例如，石墨烯的厚度只有一层原子，所以电子在石墨烯中的运动完全可以忽略在厚度这个维度上的运动而只需要考虑其在那层原子所铺开的那个二维平面上的运动。但是，即便是一层原子厚那也是有厚度的，其厚度方向的尺度并不严格为零，所以石墨烯严格来说仍然是三维的。）

我们希望以上的补充说明可以解答大家的疑惑。

收起阅读 »

用Python数值求解偏微分方程

微分 Python

作者｜yubr编辑｜TraderJoe's1 引言微分方程是描述一个系统的状态随时间和空间演化的最基本的数学工具之一，其在物理、经济、工程、社会等各方面都有及其重要的应用。然而，只有很少的微分方程可以解析求解，尤其对于偏微分方程，能解析求解的种类更是寥寥可数。...

继续阅读 »

作者｜yubr

编辑｜TraderJoe's

1 引言

微分方程是描述一个系统的状态随时间和空间演化的最基本的数学工具之一，其在物理、经济、工程、社会等各方面都有及其重要的应用。

然而，只有很少的微分方程可以解析求解，尤其对于偏微分方程，能解析求解的种类更是寥寥可数。更多的微分方程可以采用数值法进行求解，只要精度足够高，就可以满足科学和工程上的需求。

数值求解微分方程的基本思路是先把时间和空间离散化，然后将微分化为差分，建立递推关系，然后利用计算机强大的重复计算能力，快速得到任意格点处的值。

Python的Numpy、Scipy工具包可以很好地实现此功能，Matplotlib工具包则可以将求解结果画为非常直观的图形。接下来，我们先以常微分方程的数值求解为例，引入差分的思想，再将其推广到偏微分方程中。

2 常微分方程的差分求解

一般地，一阶常微分方程可以写为

首先，将连续的变量和离散化，连续的函数和化为离散的序列和，则上述微分方程可以化为差分方程

从而我们得到递推关系

有了递推关系和初始条件以后，就可以利用 Python 的强大计算功能，得到任意的的值了，下面我们通过一个具体的例子来说明。

2.1 RC回路放电问题

对于一个回路，我们有

其中，分别为电流，电阻，电量和电容，利用，并定义，我们得到一个含初始条件的一阶常微分方程

这个方程当然可以解析求解，得到。

我们现在尝试用上述差分法来求解数值解，并与解析结果进行比较。按照差分法，可以得到递推关系

下面我们用 Python 进行数值求解

import numpy as np
import matplotlib.pyplot as plt
rc = 2.0 #设置常数
dt = 0.5 #设置步长
n = 1000 #设置分割段数
t = 0.0 #设置初始时间
q = 1.0 #设置初始电量

#先定义三个空列表
qt=[] #用来盛放差分得到的q值
qt0=[] #用来盛放解析得到的q值
time = [] #用来盛放时间值

for i in range(n):
    t = t + dt
    q1 = q - q*dt/rc #qn+1的近似值
    q = q - 0.5*(q1*dt/rc + q*dt/rc) #差分递推关系
    q0 = np.exp(-t/rc) #解析关系
    qt.append(q) #差分得到的q值列表
    qt0.append(q0) #解析得到的q值列表
    time.append(t) #时间列表

plt.plot(time,qt,'o',label='Euler-Modify') #差分得到的电量随时间的变化
plt.plot(time,qt0,'',label='Analytical') #解析得到的电量随时间的变化
plt.xlabel('time')
plt.ylabel('charge')
plt.xlim(0,20)
plt.ylim(-0.2,1.0)
plt.legend(loc='upper right')
plt.show()

上图给出了差分法得到的结果与解析法得到结果的比较，发现两者符合得很好，这说明对于这个问题，改进的欧拉法已经可以给出足够精确的结果。

需要注意的是，这个微分方程本身比较简单，可以解析求解，而对于复杂得多的微分方程，没法解析求解，但是上述数值求解差分方法仍然是适用的。

3 偏微分方程的差分求解

有了差分代替微分的思想，接下来我们将其推广到偏微分方程的求解中。以一般二阶抛物型偏微分方程为例，一般的可以写为

仍然是将时间和空间离散化，将微分化为差分，即

其中和分别为空间步长和时间步长，和分别标记空间指标和时间指标，则我们得到差分方程

由此得到递推关系

下面我们考察一个具体的例子，一维热传导方程的求解。

3.1 一维热传导方程的求解

一维热传导方程是一个典型的抛物型二阶偏微分方程。设表示在时间，空间处的温度，则根据傅里叶定律（单位时间内流经单位面积的热量和该处温度的负梯度成正比），可以导出热传导方程

其中称为热扩散率，分别为热导率，比热和质量密度，都是由系统本身确定的常量。

为了具体，设，设边界条件为

设步长为：，从而，所以递推关系为

上图直观地给出了差分法求解偏微分方程的过程。先把时空坐标都离散化，根据递推关系，由下一行的三个蓝点的值可以给出上一行的一个红点的值，由于边界条件和初始条件（即最下方和两边的绿线）已知，所以按这个递推关系可以得到网格中的所有值。下面我们用 Python 代码来实现。

import numpy as np
import matplotlib.pyplot as plt

h = 0.1#空间步长
N =30#空间步数
dt = 0.0001#时间步长
M = 10000#时间的步数
A = dt/(h**2) #lambda*tau/h^2
U = zeros([N+1,M+1])#建立二维空数组
Space = arange(0,(N+1)*h,h)#建立空间等差数列，从0到3，公差是h

#边界条件
for k in arange(0,M+1):
    U[0,k] = 0.0
    U[N,k] = 0.0

#初始条件
for i in arange(0,N):
    U[i,0]=4*i*h*(3-i*h)

#递推关系
for k in arange(0,M):
    for i in arange(1,N):
        U[i,k+1]=A*U[i+1,k]+(1-2*A)*U[i,k]+A*U[i-1,k]

上述代码中，我们首先把位于0-3中的空间等分为30份，位于0-1的时间等分为10000份，然后通过设置初始条件、边界条件和递推关系并借助for循环就得到了1个30*10000的二维数组，里面放着每个离散的时空点的温度值。

为了直观地展现温度随时空的变化关系，接下来开始画图，首先画出不同时刻温度随空间坐标的变化

#不同时刻的温度随空间坐标的变化
plt.plot(Space,U[:,0], '', label='t=0',linewidth=1.0)
plt.plot(Space,U[:,3000], '', label='t=3/10',linewidth=1.0)
plt.plot(Space,U[:,6000], '', label='t=6/10',linewidth=1.0)
plt.plot(Space,U[:,9000], '', label='t=9/10',linewidth=1.0)
plt.plot(Space,U[:,10000], '', label='t=1',linewidth=1.0)
plt.ylabel('u(x,t)', fontsize=20)
plt.xlabel('x', fontsize=20)
plt.xlim(0,3)
plt.ylim(-2,10)
plt.legend(loc='upper right')
plt.show()

从图中可以看到，温度关于呈现轴对称分布，这是由初始条件造成的。另外，对每一点的空间坐标，随着时间的推移，温度越来越低。

接下来，我们来画出温度等高线来描述温度随任意时空点的变化

#温度等高线随时空坐标的变化，温度越高，颜色越偏红
extent = [0,1,0,3]#时间和空间的取值范围
levels = arange(0,10,0.1)#温度等高线的变化范围0-10，变化间隔为0.1
plt.contourf(U,levels,origin='lower',extent=extent,cmap=plt.cm.jet)
plt.ylabel('x', fontsize=20)
plt.xlabel('t', fontsize=20)
plt.show()

我们利用颜色的深浅来标记温度，温度越高，颜色越红。从中同样可以看到，温度随空间的分布关于轴对称，而且随着时间的推移，温度越来越低。

4 总结

在本文中，我们利用Python数值求解了常微分方程和偏微分方程，基本思想是先将连续的坐标离散化，然后将微分化为差分，由差分方程得到递推关系，然后利用计算机强大的重复计算能力得到任意格点处的函数值。

虽然上面只算了两个例子，但是这种方法完全可以推广到任意偏微分方程的求解中。

在量子色动力学（QCD）中，由于强相互作用具有渐进自由的特性，所以在低能情况下没办法像QED那样使用微扰论计算，这时就要采用格点QCD的方法计算。

其基本思想也是将时空离散化，然后从第一性原理的路径积分出发去计算。

由于时空被离散化了，相当于人为地引入了一个最小时空距离，在傅里叶变换到动量空间后相当于引入了一个最大的动量截断，所以计算结果不会出现紫外发散，从而可以算到很高的精度，在一些情况下，格点的计算结果甚至比实验更精确。

所以，将连续参数离散化，把微分化为差分的思想，是极其重要的。

附录

不同的算法对于方程右边具体取什么形式并不一样，从而精度也不一样。例如，欧拉法右边取得是；改进的欧拉法右边取的是；二阶Runge-Kutta法右边取的是；四阶Runge-Kutta法右边取的是，其中，，，。这些算法的差别在于计算精度不同，并不改变差分的本质思想。为了具体，我们这里采用改进的欧拉法。
傅里叶定律告诉我们单位时间通过单位面积的热量和该处的温度负梯度成正比，即，其中是热流，即单位时间通过单位面积的热量，为热导率，为温度。能量守恒定律告诉我们单位时间流出某闭合曲面的热量等于其内部减少的能量，即，其中表示单位体积的热容，而与分别为质量密度和单位质量的热容（比热），联合散度定理，我们得到，再将傅立叶定律带入，就得到了热传导方程，其中称为热扩散率。在一维的情况下，热传导方程就退化到了正文中的形式，即。

收起阅读 »

运动的分解为啥这样干？

高中物理中学物理

“典例问答”栏目将不定期剖析典型问题，把最本质的方法与规律呈现给读者。欢迎大家关注“因物悦理”，我将持续分享高中物理的干货哟。问：如图，速度的分解为啥一定得这样干？相信读者不用想就能正确写出上图的速度分解的关系式：。不过我也确信总有人会疑惑：为啥速度只能这样分...

继续阅读 »

“典例问答”栏目将不定期剖析典型问题，把最本质的方法与规律呈现给读者。欢迎大家关注“因物悦理”，我将持续分享高中物理的干货哟。

问：如图，速度的分解为啥一定得这样干？

相信读者不用想就能正确写出上图的速度分解的关系式：。不过我也确信总有人会疑惑：为啥速度只能这样分解而不能有其他的分解方式呢？

教辅或者部分老师肯定会说：船速是合速度，你不分解它分解谁？再就是说船的分运动有俩：沿绳方向的收缩和绕O点的转动。依据这两个分运动的效果就能正确得出结果。

只是这种解释在我看来有点像看着答案的事后诸葛所给出的强行解释。运动的合成与分解本质上是平面（空间）向量基本定理的应用，基向量本就可以任意选择（想了解更多，请点击“力的分解到底是不是很任性”），它们只有好用与不好用之分！

机智的你可能会说，咱们研究平抛运动的时候，不都是把它沿竖直和水平方向分解的么？谁会傻到把它沿其他方向去分解呀？

处理平抛运动的典型方法

没错，我只能说这么分解平抛运动会让求解问题变得很简单。但凡事不得讲究具体问题具体分析么？来来来，看看下面这个问题：物体从斜面上平抛而后落回斜面，如何求物体离斜面最远的距离呢？

物体依旧做平抛运动，你是不是下意识就把这个运动沿水平和竖直方向分解呢？你放心，这么干肯定能求解出问题的答案。不过你有没有想过，若把运动沿斜面和垂直于斜面分解，会非常方便地判断出物体在何处离斜面最远，以及这个最远距离是多少。

这个例子不就恰好说明了运动的分解就是可以任意选择分解方向嘛！既然如此，凭啥到了开头的那个例子里就不行咧？

行，总可以了吧？不过当你分解速度的时候会发现一个棘手的问题——你只知道绳被拉动的速度（大小、方向均已知）和船行进的速度方向！请问你咋分解？这不就等同于已知一个力和另一个力的方向，要问你力的分解的可能性么？这种讨厌的问题一点意思也没有，哪曾想到在这里却成了一个有力的佐证！

纵你有千万种分解可能，倘若咱像下图这样进行速度的分解，我们依然可以得到正确的答案！

那么问题就来了——面对这样的分解方式，你又该如何讲故事呢？嘘，这事千万别让咱386旅独立团的李团长知道了，不然老李又要破口大骂了：什么他娘的合速度，啊？老子分解的就是！

其实呀，这个问题本来就与运动的分解没啥关系，因为它归根到底是一个几何问题（示意图如下）：

绳长与船到岸边的距离始终满足一个定量关系：

是它决定了船速与拉绳速度之间的大小关系!

显然，只要船没靠岸，这个关系式每时每刻都成立！当船从上图中的位置向岸边移动了一段距离，用时；与此同时，绳会收缩一段长度。于是有定量关系：

展开完全平方项，并利用的关系，化简后得到：

嘿，船速大小不就是么？拉绳的速度大小不就是么？由于咱们现在想要知道的是绳和船的瞬时速度之间的关系，这不就得把时间取得无穷小么？

如此，船的移动距离和绳收缩的距离都是无穷小（想了解无穷小，戳我）！既然它俩都是无穷小了，它俩的平方那还不得小到离谱？这种小被称为高阶无穷小，是可以忽略的！于是上面化简的等式就变成了：

两边同时除以，关系式就变成了：

再根据图中的几何关系有，你看这俩速度大小的关系是你想要的吗？

如果你很纠结上面的过程中忽略高阶无穷小量的做法（这是正儿八经的做法！！！），只要你有高三的数学水平，下述的求导过程分享给你。

思绪的起点如旧，由于几何关系每时每刻都成立，所以咱们把等式写成：

这是在提醒自己：和都是时间的函数。那么只需把等式两边对时间求导，结果即为：

其中船速大小为，拉绳速度大小为，同样有关系。瞧嘛，速度大小之间的关系不就出来了么？

这样的例子可不少哟，下图中靠着两面墙滑动的直杆，其两端的速度也是这种类似的关系，要不给你留个作业自己试试？

吐个槽：本来开头的这个问题就没在教科书里有过哪怕丁点的涉及，但是在教辅里却有占据c位的意思，真是谜之操作。虽说教科书只负责写纲领，脏活累活留给教辅干，但是此问题的活干得就很不地道：只给结果却没有令人信服的原因，很是令人不爽。

不过言归正传，高中阶段用运动的分解去求解这个问题只能算是没有办法的办法。当你想对这个问题打破砂锅问到底时，希望你能从这篇文章中挖掘到有用的信息。

收起阅读 »

如何理解麦克斯韦方程中的不对称性

物理麦克斯韦方程组

本文旨在说明如何理解麦克斯韦方程组中的不对称性。为了不破坏能量守恒，麦克斯韦方程组中电场和磁场关于时间的偏导数不能同正或同负，而只能一正一负。经过尝试我们发现，即使调换它们的相对负号，我们仍可以得到一个自洽的麦克斯韦方程组。

强迫症犯了

众所周知，麦克斯韦方程组统一了电和磁，并且充满了对称的美感。但是，如果仔细观察麦克斯韦方程组的形式，还是可以找到一些不对称的瑕疵的。首先我们写出（无介质时候的）麦克斯韦方程组^[1]，

你是否想过，号称最美公式的麦克斯韦方程组，右边居然至少有三处让人不舒服的地方^[2]

关于方程(1)和(2)：磁场的散度为 0 而电场的散度不为零，即磁场永远为无源场而电场可以是有源的；（多出一个 ）
关于方程(3)和(4)：磁场的旋度既可以通过变化的电场产生，又可以通过电流产生，而电场的旋度只能通过变化的磁场产生，即不存在所谓 “磁流”；（多出一个 ）
关于方程(3)和(4)：方程(3)的右边是负号，而方程(4)的右边是正号。

有办法对称吗？

关于第一点和第二点的解释，其实很简单，因为实验没有发现磁单极子，不存在所谓的 “磁荷”。因此这是麦克斯韦方程内秉的不对称性。如果实验找到了单独存在的磁荷，那么前两点的不对称性就完全不存在了。

当然原则上你可以定义所谓的 “等效磁荷”^[3]，使得麦克斯韦方程形式上更加对称。

但是必须要记住的是，你引入的只是等效的磁荷，而不是物理上真实存在的。你只是通过一些数学上的花哨技巧和物理概念的重新定义使得方程变得更加对称了，但是这种内秉不对称性（即实验上只存在电荷但是不存在磁荷）依然是存在的。关于磁单极子的内容，是一个非常艰深的大坑，可以和拓扑以及规范场论联系起来，所以这里不展开。

正负“不相容”

下面我们主要关注第三点，即正负号的不对称性。

如果你和我一样，是一个重度的对称性嗜好者，那么你会认为方程(3)右边取负号而方程(4)右边取正号是一件很难忍受的事，因为你至少可以提出三种替换法则：

都取正号；
都取负号；
(3)正(4)负；

下面我们就来尝试一下，如果作了上述替换，分别会发生什么惊天动地的事情，以至于我们必须接受这种不对称美。

图片来源于网络

首先，第一种和第二种替换本质上是一样，都会带来物理上灾难性的后果：破坏能量守恒定律。

我们以都取正号为例。考虑真空中无源（即）的情况。如果把方程(3)和(4)右边都改成正号

回忆一下从真空麦克斯韦方程推导电磁波方程的过程，我们立刻就能发现问题。我们不妨以电场为例，

所以电场的 “波动方程” 为

其 “平面波” 解^[4]

或者

其中

A

为任意常数。

这下问题大了

因为上述解描述的是振幅随空间（方程(11)）或者时间（方程(12)）指数衰减（指数上取负号的时候）或指数爆炸（指数上取正号的时候）的交变电场，无论哪一种都违反能量守恒^[5]。容易验证对磁场也是如此。

另一方面，如果采用第二种替换，即把方程(3)和(4)右边都改成负号，那么经过和上面完全一样的推导，同样可以得到违反能量守恒的交变电磁场的解。

所以我们得到结论：

无论是把方程(3)和(4)右边都改成正号还是都改成负号，都会破坏能量守恒定律，都是物理上不允许的。唯有一正一负才能保证能量守恒。

既然一正一负能保证能量守恒，那为什么就不能是(3)正(4)负呢？

正负调换之殇

那我们就看看(3)正(4)负会发生什么可怕的事情。

前方高能

倘若(3)正(4)负，

这确实不违反能量守恒，确实可以得到简谐振荡的交变电磁波。

但是这样就行了么？事情没那么简单。

我们知道除了用电场强度和磁感应强度，我们还可以等效地用标量势和矢量势来描述一个体系，

这两式显然和新的麦克斯韦方程是矛盾的（好吧也没那么显然）。对方程(17)两边同时取旋度，并且利用一个梯度场的旋度为零，我们得到

于是我们成功变回了负号，这和方程(15)矛盾！

慢着！！！

你不服气了，方程(17)和(18)完全是人为定义的标势和矢势，既然已经对麦克斯韦方程改写了，那么理应对标势和矢势也要重新定义。然后经过仔细观察，你发现只要把定义改为

那就和新的麦克斯韦方程协调了。

别忙，很快又有新的不幸的事情发生了。注意到

所以有

我们知道用标势和矢势描述体系时候会有冗余的自由度，这种自由度会带来规范对称性，允许我们对

\phi

和

A

做某个变换而不改变物理（也就是

E

和

B

)。

为了消除这种冗余的自由度，我们可以对

\phi

和

A

施加某种限制，这被称为规范固定。一种最常用的规范被称为 Lorenz 规范^[6]：

如果用四维语言表示，引入四导数和四矢势，那么 Lorenz 规范可以更加紧凑地写为。这种形式下 Lorenz 规范具有明显的 Lorentz 不变性，这也是 Lorenz 规范最大的优点。

在 Lorenz 规范下，方程(22)简化为

这也是标势

\phi

满足的无源情况下的达朗贝尔方程。从物理上讲，施加了规范固定后，标势和矢势满足的达朗贝尔方程与电场和磁场满足的波动方程是等价的。

仔细观察方程(24)，我们发现其形式和之前得到的 “病态” 的电场的波动方程(10)是完全一样的，所以由方程(24)求解出的标势也是一个振幅会随时空坐标指数衰减或者指数爆炸的形式，这也是物理上不允许的。

所以，方程(19)和(20)对标势和矢势的重新定义仍然会带来矛盾。

绝杀

但是你最后还想再挣扎一下，你发现对标势和矢势还有一种新的定义方式

这种定义方式，既和新的麦克斯韦方程(13)-(16)相容，又能使得

\phi

和

A

的达朗贝尔方程形式成为正确的波动方程的形式，从而其解为简谐波（请验证这一点！），看起来似乎没什么毛病了。

这在真空中无源的情形下确实没毛病，但如果把

\rho

和

J

考虑进来会怎么样呢？如果我们仿照含源的初始形式的麦克斯韦方程(1)-(4)，直接 naive 地把新的麦克斯韦方程(13)-(16)推广到有源情形，就得到

但是可以证明这样会和电流的连续性方程相矛盾^[7]，具体地说，对方程(30)两边取散度，并且利用一个矢量场旋度的散度等于，我们有

这显然和电流的连续性方程矛盾。但是，聪明的你很快就发现，其实就差一个相对负号。如果我们把方程(27)中的

\rho

前面加上一个负号，或者把方程(30)中的

J

前面加上一个负号，那么就可以得到电流的连续性方程了。

这两种替换其实是等价的^[8]，因为电流的初始定义就是正电荷运动的方向，我们把电流反向，等价于把正负电荷颠倒。为明确起见，我们下面采用在

J

前面加上负号的约定。

非常好，到目前为止，我们终于可以写下完全自洽的另一种形式的麦克斯韦方程组了，

并且标势和矢势必须定义为

仔细比较以上六个方程，和初始版本的麦克斯韦方程(1)-(4)以及标势矢势的初始定义(17)-(18)，虽然它们的正负号分布很不同，但却是等价的^[9]。

最后我们再来从实验的角度考察一下。初始版本的方程(3)来源于法拉第的电磁感应定律。

实验事实告诉我们，感生电动势的大小等于磁通量的负的增长率，这和方程(3)是一致的。

我们现在把方程(3)的右边变为正，同时把电流进行了反向，这并不违反实验。因为把电流反向的同时，相当于把感生电动势的正负号也反向了。初始版本的方程(4)来源于安培环路定理，实验事实告诉我们，环绕电流的磁场的回路积分等于穿过这个回路的电流的大小，这当然和方程(4)是一致的。

我们现在把方程(4)的右边变为负，这仍然不违反实验，因为我们现在对电流方向的定义也和之前正好颠倒了。至于位移电流这一项，本来就没有实验上直接的可观测对应，只是当年麦克斯韦为了满足电流的连续性方程而加进去的。

而上面已经论证过，在新形式的麦克斯韦方程下，仍然自洽地满足电流的连续性方程，所以位移电流这一项前面多出的负号不影响物理实质。

总结

总结一下，对于开篇列出的麦克斯韦方程组中的三点不对称性，前两点来源于实验上没有找到独立存在的磁单极子，这是麦克斯韦方程内秉的不对称性。

对于第三点正负号的不对称性，上面尝试了三种替换，即全都改成正号，全都改成负号，和把正负号颠倒。最后我们发现，全都改成正号或负号的操作是不允许的，这会破坏能量守恒定律。

而把正负号颠倒的操作是允许的，我们可以得到等效船新版本（方程(32)-(35)），同时标势和矢势的定义必须改为对应的新形式（方程(36)-(37)）。

所以：

两个量绝对的正负号是没有意义的，物理上有意义的是两个量之间的相对正负。物理上只禁止了麦克斯韦方程中磁场旋度和电场旋度的右边同正同负的情景，而至于究竟谁正谁负，在物理上是等价的。

最后补充一点

从对称性的角度来看，支配电磁规律的是规范理论，而可以证明规范理论在宇称变换下是不变的，因此电磁规律天生就具有宇称变换下的对称性。

如果你足够敏锐就可以发现，上面这两种版本的麦克斯韦方程组，区别只在于对叉乘的方向做了相反的定义，从而使

E

和

B

的地位发生了颠倒（真空中）。或者等价的说，两种版本的麦克斯韦方程组，其手征性的定义正好相反，在原版本中的左旋（右旋）到了新版本中成了右旋（左旋），改变手征性的变换就是宇称变换。因为电磁规律在宇称变换下是不变的，所以两种版本的麦克斯韦方程组理应在物理上是等价的。

附录

1. 为了简化记号，以及最大程度的突出对称和不对称，这里采用Heaviside-Lorentz单位制，这个单位制下，真空介电常数和真空磁导率都不出现，并且高斯单位制中的

4\pi

也不再出现。同时采用自然单位制，即取真空光速

c=1

。关于麦克斯韦方程组的介绍，可以参考两篇很棒的科普文：最美的公式：你也能懂的麦克斯韦方程组（微分篇）和最美的公式：你也能懂的麦克斯韦方程组（积分篇）。

2. 如果你发现了第四处不对称的地方，欢迎戳我，我会怀着最诚挚的热情和你讨论。

3. 事实上，如果你学习过电磁学，就会知道在碰到磁介质问题时，经常采用等效磁荷的方法，这种方法不仅更具有对称的美感，而且在处理一些特定问题时会方便很多。

4. 简单起见，以一维为例，足以说明问题。

5. 因为按照能量守恒，在真空中传播的电磁场的振幅应该始终保持不变，其解应该为

Ae^{\pm i k}(x\pm t)

的简谐波的形式。

6. 注意，Lorenz和我们熟悉的提出Lorentz变换的Lorentz是两个人！

7. 电流的连续性方程可以表示为，其物理含义是流出一个闭合曲面的净电流等于曲面内部电荷量减少的速率。如果用四维语言，定义四维流密度，则连续性方程可以写为明显Lorentz不变的形式，。而连续性方程来源于电荷守恒，而电荷守恒是电磁理论具有

U(1)

规范对称性的必然结果，所以无论何时都不能破坏电流的连续性方程。

8. 唯一细微的差别在于使用四维语言描述麦克斯韦方程组时。如果定义电磁场张量

F_{\mu \nu} \equiv \partial _\mu A_\nu - \partial _\nu A_\mu

，则含源的初始形式的麦克斯韦方程(1) - (4)可以等价为

\partial^\mu F_{\mu \nu} = J_{\nu}

。而对于新形式的麦克斯韦方程(27) - (30)，如果我们在

J

前面加一个负号，那么(27) - (30)仍然等价为

\partial^\mu F_{\mu \nu} = J_{\nu}

；而如果我们在

\rho

前面加一个负号，那么(27) - (30)等价为

\partial^\mu F_{\mu \nu} = -J_{\nu}

，相当于四维流密度前面差了一个负号。这一点是可以理解的，因为改变

\rho

的正负号相当于改变了电荷的正负号，而在QED中，电磁流的表达式为

J_\mu = e \bar{\psi} \gamma_\mu \psi

，是正比于电子电量

的，改变了

\rho

的正负号就改变了

的正负号，所以四维流矢量前面会多一个负号。

9. 也许我没有考虑完全，如果你发现新版本的麦克斯韦方程中有任何不自洽的地方，欢迎戳我，我将怀着最诚挚的热情和你讨论。

作者｜

yubr

编辑｜

TraderJoe's

The End

科学哲学入门

科学哲学

我们准备探讨科学哲学的基础命题，世界观、真理、事实、推理、可证伪性以及工具主义和现实主义。（华南师范大学本科生）1 世界观世界观没有标准定义，但我们可以这样描述它：“世界观”是一个观点体系，其中不同观点如同拼图的一块块拼板一样相互联结。也就是说，世界观并不是一...

继续阅读 »

我们准备探讨科学哲学的基础命题，包括世界观、真理、事实、推理、可证伪性以及工具主义和现实主义。

撰文 | 谢漓仢（华南师范大学本科生）

1 世界观

世界观没有标准定义，但我们可以这样描述它：“世界观”是一个观点体系，其中不同观点如同拼图的一块块拼板一样相互联结。也就是说，世界观并不是一些分离、独立、不相关的观点的集合，而是一个不同观点相互交织、相互关联、相互联结的体系。

“举例是理解的试金石”，我们就拿亚里士多德的世界观来讲吧。

注意，“亚里士多德的世界观”和“亚里士多德世界观”不是同一个东西，前者指的是亚里士多德本人的观点集合，而后者指亚里士多德去世后，西方主流文化共享的一系列观点，而这些观点以亚里士多德的观点为基础。

1.1 观点

亚里士多德的观点：

1.地球是宇宙中心。

2.地球是静止的。

3.地球之外的天体都围绕地球运转。

4.月下区（地球和月球之间）有四种基本元素，即土、水、气和火。

5.月上区（月亮以外）由第五种基本元素构成，第五种基本元素就是以太。

6.每种基本元素都有自己的基本性质，它决定了元素的表现特征。

7.元素的基本性质都由运动趋势表现。

8.土元素有向宇宙中心运动的天然趋势。

9.水元素也有靠近宇宙中心的趋势，但比土元素的弱。

10.气元素天然地向土和水以上、火以下的区域运动。

11.火元素有远离宇宙中心的趋势。

12.以太有绕宇宙中心做匀速圆周运动的天然趋势。

13.在月下区，任何物体都趋于静止。它们或处于其在宇宙的自然位置，或受到其他东西的阻挡。

14.静止的物体会保持静止，除非它被别的运动的物体推动。

15.......

注意，亚里士多德的观点集合并不是随意拼凑出来的，他有足够的理由。当然，现在我们几乎能证明他每一个观点都是不对的。但在当时，这些观点并不幼稚，每一条都很有道理，都有许多的生活经验支撑着。

我们先别管对错，来分析一下亚里士多德的观点集合。这些观点组成了一个相互关联、环环相扣的观点体系。举个例子，我们去超市购物会列一条清单，清单上的的商品之间是互不关联的，而亚里士多德的观点集合并不是一条杂乱无章的购物清单。想象一下，观点集合是一幅拼图，每块拼图都是一个观点。世界观就像拼图一样，一块拼板和它旁边的拼板相互咬合，旁边的拼板又和旁边的旁边的拼板咬合，以此类推。所有拼板都是相互关联的，最后我们可以得到一个体系，体系内的每个部分相互拼合，形成了一个内部相互关联、具有稳定性和一致性的整体。

举例是理解的试金石。“地球是宇宙中心”的观点与“土元素有向宇宙中心运动的趋势”的观点相互关联，毕竟地球本身主要由土元素构成。

有个地方值得注意，在一幅拼图中，拼板也分核心拼板和外围拼板。要是想拿别的拼板来替换核心拼板，那很可能得把整幅拼图都换掉才行。相比之下，外围拼板可以在不怎么影响其他拼板的情况下进行替换。

同理，亚里士多德的观点中也分核心观点和外围观点，后者可以在不对整体世界观进行大幅改动的情况下进行替换。举个例子，在亚里士多德的时代，由于当时的技术水平只能分辨出五大行星，所以他就以为宇宙里只有五大行星。某天出现了存在第六大行星的证据，亚里士多德也能轻松地接纳这个观点，而不需要对他的整个观点体系进行重大调整。

在亚里士多德的观点体系里，“地球是宇宙中心”“地球是静止的”这两个观点是核心观点。它们是核心观点的原因并不是亚里士多德对此深信不疑，而是它们像拼图中心的拼板，要替换它们就得改变相关观点，而这最终会导致整个观点体系的调整。

要是用“太阳是宇宙中心”的观点替换“地球是宇宙中心”的观点，我们就会发现它并不能与拼图的其它部分拼合在一起。比如说，主要由土元素和水元素构成的大重量物体应该往太阳跑，但事实并不是这样子的。为了符合生活经验，大量相互关联的其他观点也得改变，这和建立一个全新的观点拼图并没有什么区别。

到目前为止，我们讨论了亚里士多德本人的观点。你可能会觉得世界观指的是某个人的观点拼图。没错，就是这样子的。我们每个人的观点体系和其他人的相比，多少都会有些不同。也就是说，我们之间的世界观总是存在细微的差异。

1.2 证据

如果人们的观点都是有道理的，那我们似乎会有某些证据来支撑我们的观点。

比如，你很可能不认同亚里士多德的观点，觉得地球不是宇宙中心。或者缩小范围，地球不是太阳系中心而太阳才是太阳系的中心，地球和太阳系里的其他行星都围绕着太阳运转。冒昧地说，我对你是否有支撑这一观点的证据表示怀疑。

你能找到证明“地球围绕太阳运转”的直接证据么？直接证据就是指，当我在骑自行车的时候，能真切地感受到微风拂面，能看到周围的物体都在退后，等等。我有直接证据证明我骑车时在运动。你有这样的直接证据来证明“地球围绕太阳运转”吗？

或许你找不到这样的直接证据，但你可能会有其他证据能与你的观点相符合，比如你的老师讲过，在某本书上看过......也就是说，你之所以会认为地球围绕太阳旋转，主要是因为这个观点可以和你的其他观点相符合，而相反的观点则不能放到这个拼图里。换句话说，你用来支撑这个观点的证据与你的观点拼图紧密相联，也就是与你的世界观紧密相联。

你可能会说：“就算我没有直接证据证明地球围绕太阳运转，你也不能说我的观点是不合理的，因为天文学家肯定有这样的直接证据。”

实际上，即使是天文学家也没有这样的直接证据。我并不是说没有很好的证据能支撑“地球围绕太阳运转”的观点，好的证据是存在的，但它们并没有人们所认为的那么直接。

1.3 常识

我们从小就开始接受牛顿世界观。当谈到牛顿世界观时，所提到的观点似乎都成了常识。但你想想，你所认为的常识真的就是常识吗？你看，地球貌似并不是围绕太阳运转的。往窗外看，地球看起来就是静止的。生活中，运动的物体最终总会停下，这和牛顿世界观中“运动的物体趋向于保持运动”的观点又不太符合。

在你学习牛顿第一定律的“物体在不受力的情况下将保持静止或匀速直线运动”和牛二特例“物体在受力但合力为0的情况下将保持静止或匀速直线运动”的观点之前，你能想象得到吗？你能自己得出牛一牛二吗？它们真的是常识吗？很有可能，你甚至连“力”的概念都没有。

先入为主，因为我们在先前所接受的教育中就学习到了这个观点，所以我们会把这个观点当作一个显而易见的真理。

虽然我们都认同牛顿世界观的大部分观点，但它们并不是单纯地通过常识就能得到的。我们之所以会很自然地觉得它们是正确的，那是因为我们成长于牛顿世界观的环境。如果我们从小接受的是亚里士多德世界观，那么我们也会觉得亚里士多德世界观是常识。

从任何一个世界观自身的角度来看，这一世界观的观点都很自然是正确的。所以，像“我们的基本观点看起来是正确的、看起来是常识性的、看起来显然是对的”这类事实，都不是好的证据，不能证明这些观点是正确的。

毫无疑问，亚里士多德世界观被证明是严重错误的。地球不是宇宙中心，物体的运动特征不是由其内在的“基本性质”决定的，等等。现在我们所认为的宇宙，与亚里士多德世界观的宇宙完全不同。这些观点虽然不正确，但还是组成了具有一致性的观点体系，并且在近两千年的时间里被人们当作常识。

我们的观点体系也具有一致性，也显然是常识。那我们的世界观有没有可能也会被证明是错误的呢？

2 真理

有个流传广泛的说法：事实的累积是一个直接的过程，而科学的主要目的是提供正确的理论来解释这些事实。其实它误解了事实、真理以及两者与科学的关系，而这些问题往往都比人们朴素认为的要更加错综复杂。

“地球围绕太阳运转”的观点是我们的世界观的一部分，我们认为这个观点是真的，而认为“太阳围绕地球运转”的观点是假的。然而，秉持亚里士多德世界观的人们却有着相反的判断。我们的观点和他们的观点相比，到底有什么不同呢？如果我们的观点确实是真的，而亚里士多德世界观的观点确实是假的，那又是什么决定了一个观点为真，而另一个观点为假呢？

对于这个问题，通常的答案是“事实是使一个观点为真的因素”。举个例子，你曾听过不少证明“地球围绕太阳运转”的事实，而这些事实决定了这个观点是真的。有趣的是，事实和真理往往是循环定义的，也就是说，它们的定义依赖于彼此。人们在被问到“什么是真理”的时候，总是会回答“被证实的或者不存在争议的事实”；而被问到“什么是事实”的时候，又会说“被认为为真的事物就是事实”。

插入一段故事。我高中上体育课前由于练字过于专心，迟到了一分钟。体育老师问询，我如实回答。他很愤怒，问我为何糊弄他，我无奈地回答这就是事实。他又问什么是事实？我陷入了沉思，说了句：“事实，就是详细的细节”。这一幕至今仍然历历在目。

言归正传。这样的循环定义对我们关心的问题并没有帮助。什么是真理而什么又是事实？事实性观点和非事实性观点的区别在哪？是什么决定了哪些观点是真的，而另一些观点却是假的？

人们经常会把上面提到的问题，也就是关于真理的中心问题，和关于真理的认知论问题搞混。一般来说，认知论是关于知识的学说，是哲学的一个分支，关于真理的一个核心认知论问题是“我们通过什么方式知道了哪些观点是真的？”。认知论问题虽然很重要，但不是我们目前所关心的。

实际上，我们有很多关于真理的理论，它们大概可以分为两类：真理符合论和真理融贯论。

2.1 真理符合论

根据真理符合论，决定一个观点为真的因素是这个观点与现实相符合，而决定一个观点为假的因素是这个观点没能与现实相符合。

举例是理解的试金石。如果“地球围绕太阳运转”是真的，那么决定这个观点为真的是“在现实中，地球确实围绕太阳运转”。也就是说，决定这个观点为真的因素是这个观点与事物的真实情况相符合。同样地，如果“太阳围绕地球运转”是假的，那么这个观点为假的原因是它与现实不符。

在上面的例子里，“现实”不是指你和我所认为的现实。你和我所认为的现实通常都不会对现实本来的样子产生影响。这里的现实指的是“真的”现实，这样的现实是完全客观的。它独立于我们，不取决于大多数人是如何认为的。

2.2 真理融贯论

根据真理融贯论，决定一个观点为真的因素是它与其他观点连贯一致或者紧密关联。

以我所秉持的“地球围绕太阳运转”的观点为例子。我相信教材，而它明确地告诉我“地球确实围绕太阳运转”。我相信天文教授，而他们也告诉我“地球是围绕太阳运转的”。总的来说，我所秉持的“地球围绕太阳运转”的观点与其他观点相一致，根据真理融贯论，这样的一致性就是决定一个观点为真的因素。

同样，我们也可以用拼图来比喻真理融贯论，一个真的观点就像拼图里的一块拼板。也就是说，如果某个观点可以与整个观点拼图拼合在一起，那么这个观点就是真的。一个假的观点不能与整个拼图拼合。根据真理融贯论，决定一个观点为真的因素是它可以融入一个整体的观点集合，而决定一个观点为假的因素则是它不能融入一个整体的观点集合。

融贯论是一种理论类型，其中还有很多具体的理论。不同的融贯论之间，主要差异在于把谁的观点放在观点拼图里。

如果我们关注的是某个人的观点，那这就是个人主义融贯论。根据个人主义融贯论，一个观点如果能够与喵尼斯公主的其他观点相一致，那么这个观点对喵尼斯来说就是真的。

如果我们关心的是某个群体的观点集合，那这就是团体融贯论。特别地，如果某个科学相关的观点能与科学家这个群体的观点集合拼合在一起，那么这个观点就是真的。我们姑且称之为“以科学为基础的融贯论”，它是团体融贯论的其中一种。

虽然个人主义融贯论和以科学为基础的融贯论都属于真理融贯论，但它们是截然不同的。举个例子，猫布先生的观点主要来自对某些宗教经文严格的字面解读，他坚定不移地相信月亮和地球的距离大于太阳和地球的距离，同时月亮上有人居住并且经常举办狂欢派对，而我们想的不会和猫布想的一样。有趣的是，对宗教经文的字面解读总是会带来很神奇的观点，比如地平说和地心说。

尽管猫布的观点拼图和我的完全不同，但其形成了一个能完美拼合的观点体系，因此根据个人主义融贯论，猫布关于月亮的观点就是真的。也许你不能理解猫布的想法，实际上，他关于月亮的观点对他来说就像你的观点对你来说一样是真的。当然，根据以科学为基础的融贯论，猫布关于月亮的观点是假的。

2.3 真理符合论的难题

乍一看某些符合论似乎才是正确的，事实上它们仍然面临了一些难题，主要关于观点和现实的关系。

我们先来讨论一下知觉表征论，它的核心是：感官为我们提供了外部世界各种物体的表征，以视觉为例，这些表征就是我们看到的画面。几乎所有人都认为这是理所当然的。其实这个观点有些有趣的推论，其中最重要的一个是这个观点意味着在某种意义上，我们每个人都是与这个世界隔绝的。更具体地说，我们没有办法确定自身感官所提供的表征是否准确。

接下来，我要用两种方法解释“如果直觉表征论是正确的，为什么我们无法确定自身感官所提供的表征是否准确”。第一种解释关注我们如何评估表征的准确性，第二种解释涉及“《全面回忆》情景”。

2.3.1 评估表征的准确性

假如我们面前有个表征，比如一张小姐姐的照片，要判断这张照片的准确性的最直接的方法就是亲自见她一面，拿照片和现实中的她对比一下。同样，面对微信朋友圈的凡尔赛文学（自说自话、明贬暗褒，目的在于炫耀），你也可以去对比一下他的图文和他的日常生活。

要评估表征的准确性，归根结底我们需要把表征和表征所代表的事物进行对比，比如拿小姐姐的照片和她本人对比一下。

然而，我们却不能真的做到把事物的视觉表征与真正的事物进行对比，因为我们无法从自己的意识经验中走出来，不能对比自己意识经验里的东西和让我们产生这个意识经验的东西，因此也就无法评估事物的视觉表征是否准确。

当然，我们在评估视觉表征的准确性的时候，需要把表征和其所表征的事物进行对比，而不是与其他表征对比。要是你拿视觉表征去和触觉表征或者嗅觉表征对比，这并不能评估视觉表征的准确性。也就是说，你对比B站唱见的的照片和她们的翻唱作品，这对你评估视觉表征的准确性并没有任何帮助。

这个推论说明，我们根本没法评估感官给我们提供的表征是否准确。或者说，我们不能确定现实到底是什么样子的。

2.3.2 《全面回忆》情景

《全面回忆》是一部科幻电影，电影中想旅行但生活穷困的人们有另一个选择，那就是把旅行体验植入大脑。这些体验来自于特别真实的虚拟现实，人们无法区分它们和现实事物。另一部主题相似的电影是《黑客帝国》，电影中的想法并不是好莱坞首先提出的，早在15世纪笛卡尔就深入地探讨这个想法。

假设你生活在24世纪，而你是一位历史学家并研究21世纪早期的历史。你打算通过《全面回忆》情景来体验在21世纪早期是什么样子的。你在其中看一篇那个年代就有的关于科学哲学的文章。你现在的体验，也就是这些文字以及周围的环境，都可能是《全面回忆》情景的一部分。而且如果真的是这样，你根本就无法得知自己是不是身处于这样的一个情景中。

我们虽然都认为自己的体验来源于“正常”的现实，但并不能确认这些体验真的不是来自《全面回忆》情景的。也就是说，我们无法确定现实真正的样子。

请别误解，我并不是说现实和我们认识的完全不一样，只是说我们无法确定现实真正的样子。如果我们无法确定现实真正的样子的话，那么随之而来的问题是：如果真理符合论是正确的，我们就永远无法确定一个观点是否是真的，至少无法确认关于外部世界的一个观点是否是真的。当然，这并不是说真理符合论就是错的或者不可接受的。

2.4 真理融贯论的难题

回顾一下个人主义融贯论，如果一个观点可以与某个人的观点集合拼合在一起，那这个观点对他来说就是真的，如果不能拼合在一起，那就是假的。对猫布先生来说是真的观点，对我来说却不一定是真的。没有单独存在的真理，真理都是相对于个体而言的。

有个地方值得注意，在个人主义融贯论里没有“更真”或“更假”的真理，猫布的观点为真的程度和我的观点为真的程度是一样的。根据个人主义融贯论，没有办法说明我的观点比猫布的观点更真。

总之，个人主义融贯论是一种极端的“一切皆有可能”的相对主义。虽然不能开地图炮，认为个人主义融贯论都是错的，但是这么强的相对性视角实在是让人难以接受。

再来看团体融贯论，如果一个观点可以与某个群体整体的观点集合拼合在一起，那么这个观点就是真的。当然，具体指的是哪个群体，这决定于所涉及的融贯论版本。

团体融贯论主要的问题是：

1.没有考虑一个群体秉持错误观点的可能性。

2.没有办法确定哪些人才能算作群体的成员。

3.对任何一个群体来说，都不存在一个由整个群体共同秉持的、具有一致性的观点集合。

对于第一个问题，我们拿个例子来讲。如果某个群体的成员都确信猫布先生是有罪的，那么就算猫布没有犯罪，他也会被这个群体认为是有罪的。根据团体融贯论，这个群体的“猫布有罪”的观点是真的，而错误的是没有犯罪的猫布的“猫布无罪”的观点。在这里，群体成员所共同秉持的观点居然与事实相反，是不是有点意思？

对于第二个问题，群体范围很难确定。以“科学家”这个群体的团体融贯论为例，什么人才算得上是科学家？猫布的兴趣在高能物理，并且发过7篇PRL。毫无疑问，他是世界顶尖的学者，但他仍然秉持“太阳围绕地球运转”的观点，他还能算作科学家吗？

补充一下，PRL 全称 Physical Review Letters，是 APS（美国物理学会）期刊的顶刊。另外，在高能物理方向7篇 PRL 是绝对的大佬，起码长江以上。如果是凝聚态方向，虽然还是很强，但没有那么令人震惊。当然，不能否认他仍是一流的学者。Anyway，这不是我们这里关注的重点。

我们到底要不要把猫布也算作“科学家”？通常来说，不存在一个清晰的标准来确定某人是否应该算作某个群体的成员。也就是说，群体的边界往往是模糊的，要想准确地界定一个群体的成员并不是一件容易的事。

对于第三个问题，来看一个例子。这种情况很常见：群体中的一位成员秉持一种观点，而另一位成员却持有相反的观点。然而，当一个群体的成员并没有秉持一致的观点时，他们就没有一致的观点拼图，这个群体的融贯论也就不能很好地界定。

总结一下，个人主义融贯论会陷入一种让人无法接受的相对主义。而团体融贯论虽然避免了相对主义的问题，但同时又遇到了别的问题。所以，无论是真理符合论还是真理融贯论，对关于真理的核心问题，都无法提供一个让人完全满意的答案。

2.5 Cogito，ergo sum

笛卡尔坚持认为是形而上学第一原理的“我思故我在”，在拉丁语中是 cogito, ergo sum，英语译作 I think, therefore I am。

在前面我们讨论了关于知觉的问题，大多数人都认为知觉表征论是对知觉工作机制的常识性描述。如果这个理论是正确的，那我们就无法确定现实真正的样子。有了这个结论，我们可以问：“是否存在我们可以完全确定的事物？”

在《第一哲学沉思录》中，笛卡尔想找到一个绝对确定的、可以在其之上进行知识构建的基础。也就是说，笛卡尔想找到一个或几个自己感到可以完全确定的观点，然后在这个确定的基础之上，严谨地构建出其他全部知识，建立一个公理化体系。

笛卡尔假设存在一个非常强大的“邪恶骗子”，可以把思想和知觉直接植入我们的大脑。如果在这种情况还能找到自己完全确定的观点，那这个观点就是这位中二青年想要的观点。我们大部分的观点都经不起这个测试，比如“我眼前有一篇文章”的观点。甚至，“我有一个身体”的观点也经不起这个测试。是不是有点“缸中之脑”的内味了？

那有没有观点能通过这个测试呢？是否存在一个可以让我们感到完全确定的观点？笛卡尔认为他找到了，就是“我思，故我在”。

事实上，在《沉思录》中并没有出现“我思，故我在”的说法，但笛卡尔确实在其他著作中提过。他在《沉思录》中写的是：每当他想到“我是，我存在”这句话时都觉得这句话一定是真的。换句话说，笛卡尔认为“我至少作为一个思维主体存在”的观点是可以完全确定的。可以想象，在想到“我是，我存在”时，笛卡尔一定是在思考，因为只有这样才能想到这句话。

笛卡尔虽然找到了可以完全确定的观点，但发现它们实在是太少了。而且后来被证明，这些观点所构成的基础太小了，人们无法在其上进行知识构建，无法建立笛卡尔的公理化体系。

我们简单地讨论了关于真理的主要理论，并解释了它们以及围绕在真理周围的命题都是存在各种问题的。我曾提到过一个普遍的观点：科学的目标是创造新的理论来描述相当直接、明确的事实。现在我们必须明确的是，不能把科学、科学史和科学哲学，都简单地看作体现“科学的目的是不断创造出更多真观点和真理论的集合”的过程。事实上，这些命题远比我们想象的要复杂得多。

3 事实

毫无疑问，事实与科学紧密相联，人们认为科学应该描述事实，然而“事实”这个概念比人们所认为的要更加复杂、更加微妙。

3.1 经验事实

举例是理解的试金石。考虑这样的情景：你坐在书桌前，把一支铅笔放到桌上。“在你面前的书桌上有一支铅笔”就是你所能找到的关于事实的一个明确范例。你可以看到、碰到这支铅笔，可以听到铅笔敲桌子的声音，可以闻到铅笔那木头的清香。甚至，你还可以尝一尝这只可爱的铅笔。对于“书桌上有一支铅笔”这个事实，你有直接明确、由观察得来的证据。

这一类以观察为基础的事实就是经验事实。但至于哪些事实可以算作经验事实，并没有一个清晰的标准。同时，我们也不能完全确定现实就是我们所感受到的样子。考虑到这个因素，你就不能完全确定你面前的书桌上有一支铅笔。不过在这个例子里，因为你有最直接明确的证据，所以如果有某个事实可以算作经验事实的话，那么“在你面前的书桌上有一支铅笔”一定就是那个事实。总的来说，这一类由直接明确的、经观察得来的证据支撑的事实就是经验事实最明显的例子。

3.2 哲学性/概念性事实

现在拿起两支铅笔中的一支放到书桌的抽屉里，然后关上抽屉，这样你就看不到、摸不到也感受不到这支铅笔了。通常你会觉得，就算自己感受不到，但那支铅笔还在那里。也就是说，你认为“抽屉里有一支铅笔”是一个事实。

请思考一下为什么你会这么认为。请注意，你认为“抽屉里有一支铅笔”的原因，与认为“书桌上有一支铅笔”的原因是不同的。你关于书桌上铅笔的观点是基于直接的、经过观察得来的证据，而“抽屉里有一支铅笔”的观点不可能基于任何直接的、经过观察得来的证据。毕竟，你无法看到、摸到或观察到抽屉里的那支铅笔，所以关于这个观点，你不可能有直接的、经过观察得来的证据。那么，你为什么如此坚定地认为抽屉里有一支铅笔呢？

你之所以会这么认为，是源于你看待世界的方式。一般来说，我们对世界有一个判断，那就是“组成世界的大部分物体都是稳定的，即使在没有被观察到的时候，也依然保持存在”。对此我们深信不疑，而这正是我们认为抽屉里有一支铅笔的原因。

所以，我们认为“书桌上有一支铅笔”与认为“抽屉里有一支铅笔”的原因是有实质性的区别的。前者基于直接的、经过观察得来的证据，而后者主要源于我们对世界所秉持的看法。

但是这与科学哲学又有什么关系呢？我们知道，一个科学理论必须尊重相关事实。有趣的是，当我们在看待科学史的各个理论与其所需要尊重的事实时，会发现某些事实虽然被人们认为是比较明确的经验事实，但在实际上却更依赖于人们对世界的哲学性/概念性判断。

举个例子，从亚里士多德到大胆的开普勒的这段历史长河中，人们普遍相信行星和其他天体都做匀速圆周运动。但是我们现有的理论说的并不是这样，行星应该以太阳为焦点沿椭圆轨道运动，并且有个速率分布，在轨道不同地方的速度是不一样的。所以，“匀速圆周运动事实”的观点被证明是错的。虽然在我们这个时代，“匀速圆周运动事实”听起来很不可思议，但在以前的很长一段时间里，它似乎被人们看成一个显而易见的事实。

这一类事实，或者说人们深信不疑的一些观点，在很大程度上依赖于我们对世界的哲学性/概念性认识，也就是“哲学性/概念性事实”。

重点是，一类是经验事实，另一类是哲学性/概念性事实，它们之间的界限并不是绝对分明的。换句话说，大部分观点都不能简单归为经验事实或者哲学性/概念性事实。相反，大多数观点的既涉及通过观察得来的经验性的证据，又涉及我们对世界更概括性的认识。

用连续统的概念可以更好地理解。在连续统的一段是最明显的经验事实，比如“书桌上有一支铅笔”。而在连续统的另一端是最清晰的哲学性/概念性事实，比如“天体做匀速圆周运动”的观点。我们把大部分自己秉持的观点都当作事实，而这些事实在连续统中处于最明确的经验事实和最明确的哲学性/概念性事实之间。也就是说，我们秉持这些观点的原因，一方面是经过观察得来的经验性的证据，另一方面是这些观点能与我们的整体观点拼图拼合在一起。

实际上曾经有不少观点，人们原来以为它们是显而易见的经验事实，但后来却发现它们只是哲学性/概念性“事实”，而且还是错的。

4 推理

在科学领域有两种常见的逻辑推理模式，它们分别是证实推理和不证实推理。

4.1 证实推理

爱因斯坦的广义相对论在刚提出时颇有争议，与人们广泛接受的其它理论有些冲突。

广相可以得出别的理论无法给出的预言，比如它说应该存在引力波。按理来说，我们应该能观测到引力波。然后LIGO证明了确实有引力波，同时这个预言也被当成证据来支撑广相。值得注意，爱因斯坦的理论做出了正确的预言，而这是别的理论做不到的。

这样的推理模式在科学中很常见。当我们根据某个理论得出某些预言，而这些预言又被证明是正确的，它们就提供了证据来证明这个理论的正确性。

这个推理过程的示意图：

如果 T，那么得出 O

O 是正确的

所以 T 非常有可能是正确的

4.2 不证实推理

曾经有两位科学家声称发现了一种可以实现低温核聚变的方式，也就是说，他们找到了一种冷聚变的打开方式。冷聚变理论颇具争议，人们普遍认为超高温是核聚变的条件之一。

一般来说，我们可以通过理论来得出某些预言。如果冷聚变理论是正确的，那么在冷聚变过程中会有大量的种子被释放出来。然而实际上并没有探测到这样的现象，这被当作证据来证明冷聚变理论不成立。

这样的的推理模式在科学中也很常见。当我们根据某个理论来提出预言，而这些预言又被证明是不正确的，那我们就会以此为证据来证明这一理论不成立。

这个推理过程的示意图：

如果 T，那么得出 O

O 是不正确的

所以 T 是不正确的

4.3 归纳推理和演绎推理

证实推理其实是一种归纳推理，而不证实推理是一种演绎推理。

你的中学老师可能曾经告诉你：“归纳推理是从特殊到一般，而演绎推理是从一般到特殊”。这个说法大概是对的，但它并不准确。

举例是理解的试金石。

喵尼斯的棋艺与黑嘉嘉旗鼓相当，而猫布在围棋上从来没有下赢过别人。这次下棋，猫布也没有多大进步。考虑到这些因素，猫布基本不可能下赢喵尼斯。

上面的例子是一个归纳推理的论证过程。考虑到论证过程的前提条件，其结论应该是合理的。然而，就算所有前提条件和证据都是正确的，也仍然有可能得出错误的结论。虽然可能性很小，但猫布下赢喵尼斯的机会还是有的。

这就是归纳推理的特点：即使所有前提条件都是真的，所得出的结论却依然可能会错。

相比之下，在演绎推理时，如果所有前提条件都是真的，那么所得出的结论就一定是真的。

我们拿个例子来体会一下演绎推理。

某个人对伊恩竖起了中指。不管是谁对伊恩摆出这个国际通用手势，他都被称为友好人士。科特就是那个竖中指的人。所以科特是友好人士。

演绎推理与归纳推理很不一样。具体来说，如果论证过程的前提条件是真的，那么结论也是真的。这就是演绎推理的特点。

让我们回到证实推理和不证实推理的讨论中。证实推理是一种归纳推理，往往不能保证结论的正确性。也就是说，证实推理只能为某个理论提供支撑，就算有再多被证实的预言，也不能保证理论的正确性。

有些科学理论永远无法从严格意义上证明，其中部分原因就是证实推理模式的归纳推理性质。大多数科学理论从很大程度上说都是由归纳证据所支撑的，所以不管存在多少证实证据，这个理论也仍然有可能被证明是错的。

在正确性方面，科学理论都不可避免地面临质疑，但这并不是小瑕疵，也不是大缺陷。

注意，实际的理论所涉及的因素和推理在复杂性和相互交织程度上，比我们所讨论的要高得多。有些理论的预言看起来像是一个相当简单的观察结论，但实际观测时却并不简单。

比如，为了预言恒星光线出现弯折的点的位置需要进行一系列计算，为了进行这些计算就需要不少简化的假设，而这些假设严格来说都是不正确的。所有人都知道这些假设是错误的，但是不用这些假设，就不可能进行计算。

有趣的是，大多数熟悉观测的人都同意这些假设不会改变整体的观测结果，也就是说这次观测结果为爱因斯坦的理论提供了证实证据。

如果不能严格证明某个理论是正确的，那是不是至少能证明某些理论是错误的呢？你可能会认为不证实推理能证明某个理论是不正确的，可惜事实并没有那么简单。

当你在做“冷却法测金属的比热容”的实验时，老师给你一个铜、铁和铝样品，要你以铜为标准样品测铁和铝的比热容。你按照实验教材的指示操作，相信实验结果会与书上一致，在100°C时铁为0.110cal/°C、铝为0.230cal/°C。不幸的是，你测出铁是0.105cal/°C、铝是0.192cal/°C。

如果按照不证实推理的推理公式，我们有

如果测的样品是铁和铝，那么我应该测得与教材一致的比热容。

我测得的比热容与教材不一致。

所以我测的样品不是铁和铝。

我相信，只要你是一个正常人，一般都不会轻易地得出“教材写错了”或“我测的不是铁和铝”的结论。相反，你更可能会去寻找自己没测准的原因。我们都知道，仅仅以少量的证据为基础就得出结论，这是一个很不明智的做法。

细致一点，我们有

如果待测样品是铁和铝，标准样品是铜且在100°C的比热容与教材一致，所有实验仪器都是正常工作的，保温瓶中的冰水混合物正好处于0°且保持不变，以及所有的其他因素都是正常的，那么我应该测得与教材一致的比热容。

我测得的比热容与教材不一致。

所以待测样品不是铁和铝，或者标准样品不是铜，或者某个实验仪器出了差错，或者保温瓶内不是0°C，又或者某个其他因素不正常。

关键的是，前面那个示意图所表示的不证实推理模式过于简化。

更准确的示意图如下：

如果 T，且，，，...，，那么 O

O 是不正确的

所以 T 是不正确的，或者是不正确的，或者是不正确的，或者是不正确的，......，或者是不正确的。

在这个示意图中，、，...，代表辅助假设。辅助假设很关键，如果没有它们，我们就得不到想要的观察结果。也就是说，如果我们有某个理论又有某种情况，而且所有隐含的辅助假设都正确，那我们就可以得到想要的结果。如果理论的预言被证明是不正确的，那很可能这个理论还是正确的，只是某些辅助假设错了而已。

还记得冷聚变理论吧？在冷聚变过程应该能观察到大量中子释放的现象，但实际上并没有观察到。然而，之所以预言能观察到这个现象，主要是因为一个辅助假设，那就是“冷聚变的过程与热聚变过程相似”。要是他们还想坚持冷聚变理论的话，就不得不放弃这个辅助假设。

现在我们遇到了一个问题：存在不证实证据时，是放弃某些辅助假设更合理，还是直接放弃整个理论更合理？如果是放弃某些辅助假设更合理的话，那在什么情况下才应该放弃整个理论呢？

5 科学方法

奎因-迪昂论点是科学哲学中非常著名的一个观点，涉及一系列相互交织又颇有争议的命题。

奎因认为

1.我们的观点并不是单独面对“经验的裁判”的，而是作为一个整体。

2.通常不存在判断两个理论到底哪个才正确的“关键实验”。

3.非充分决定性，现有的数据往往不足以让人们找到唯一正确的理论。

5.1 观点集合和经验的批判

当面对不证实证据时，总会涉及一些辅助假设。我们总是有可能放弃辅助假设，而不是放弃整个理论。

在我们进行验证某个假设的实验时，我们并不是真的只对单个假设进行验证，而是验证它的主要假设以及辅助假设。因此，我们通常所验证的，其实是一个观点集合。通常，一个假设不能被孤立地验证，相反，被验证的都是一系列观点。如果实验结果与预期不符，那么我们可以通过放弃或修改这一系列观点中的任意一个，来给这个理论续一秒。

回忆一下世界观的概念，它是个观点集合。在蜘蛛网似的观点集合中，对边缘观点的修改并不怎么影响中心观点，而中心观点的修改则会导致整个观点网络的变化。面对不证实证据时，比起修改中心观点，貌似修改边缘观点更合理。

虽然说面对不证实证据的是一个观点集合，但是它到底包含了多少观点呢？是我们整个观点集合吗？还是说只验证了整个观点集合中的一个相对较小的子集呢？

这个问题没有统一的答案。奎因激进地认为面对经验的裁判的是一个人的整个观点网络。如果面对与我们秉持的观点不符的证据，那么任何观点甚至核心观点都不能逃过被修改的命运。而迪昂比较保守，他觉得没有这么夸张。

5.2 关键实验

关键实验指的是，当面对两个相互竞争的理论时，有可能设计出一个实验，使它们对实验结果的预言是相互矛盾的。也就是说，当两个理论的预言相互矛盾时，这个实验至少可以证明其中一个理论是错误的。

然而，如果面对不证实证据时总是可以放弃辅助假设，而不是放弃整个理论，那么关键实验似乎是不存在的。

5.3 不充分确定性

总结一下，理论在面对不证实证据的时候，通常可以被保留。设计关键实验也几乎是不可能的。由于证实证据具有归纳推理的性质，我们做不到明确证明某个理论的正确性。简言之，很多相互竞争的理论，通常都可以与所有现有证据相吻合，很难说到底哪个才是“正确”的。

对此，我们一般会说：“根据现有数据，所有理论都是不充分确定的。”

不充分确定性通常被认为是奎因-迪昂论点的内容之一，其实对不充分确定的概念还可以有多种解读。比如：科学理论都是“社会构建”，或多或少都是由相关社区所发明的。相对于物质世界，科学理论与社会条件之间的联系更为紧密，而且反映的也是社会条件而不是物质世界。不存在唯一得到确认且客观的科学理论。

在这种观点中，科学理论是社会的反映，从“正确”这个词任何深层或客观的意义上来说，不能说一个理论是独一无二“正确”的理论。当然了，这种解读未免过于激进了。

5.4 对科学方法的意义

人们所说的“科学方法”，通常包括

1.收集相关事实。

2.收集解释这些事实的假设。

3.验证假设，进行证实或不证实的实验。

5.4.1 亚里士多德的公理化方法

请注意，以下讨论都基于亚里士多德世界观，这里的“科学”一词并不是指现代科学！

科学的目标是提供确定的知识。也就是说，科学知识必定为真，而不仅只是可能为真。要想得到这样的结论，就得使用基于必定为真的基本原则的演绎推理。这种方法通常被称为公理化方法，它是基于某些基本原则的演绎推理。

给出一个科学解释的本质是给出某种符合逻辑的论证过程。科学解释和符合逻辑的论证是紧密相连的。一个合理的科学解释都应该包括实证。这里的“实证”其实就是三段论，是包含大前提、小前提和结论的论证过程。

科学知识必须是正确的知识，三段论的结论必定为真。这与现代科学很不同，后者的目的是提供可能正确的理论，但我们并不期待科学能保证这些理论都是正确的。

得出的结论必定为真，这听起来很美好，但这要求前提必定为真。这个前提为什么必定为真呢？因为在这之前有另一个三段论，这个必定为真的前提就是另一个三段论的结论。当然，三段论链条不会无限延长，最终在某个点上的某些前提不是通过三段论得来的，它们是起始点，是本身就必定为真的“第一原理”，也就是公理。

亚里士多德认为，如果某个人有正常的智慧，接受过适当的教育，并对科学有一定的悟性，那么他就会一眼“看出”某些关于这个世界的基本事实，而且这些事实必定为真。这就是人们如何得到第一原理的，很不可思议吧？显然，这种方法是完全行不通的，根本问题就在第一原理。谁能一眼看穿世界啊！沼跃鱼吗？

可以看到，这样的公理化方法以必定为真的第一性原理为基础，但要找到被一致认可、必定为真的起始点还是个问题。所有类似的方法都有这个通病。正是出于这个原因，现在的普遍认识是“科学理论不能被保证是一定正确的”，这是由大多数科学推理的归纳性质所决定的。

5.4.2 波普尔的证伪主义

波普尔是证伪主义的支持者，但他没有把证伪当作明确的科学研究方法。事实上，他认为所有科学方法都是不明确的。然而，他确实认为证伪是科学的一个关键元素，这是区分科学理论与非科学理论的关键前提。

波普尔认为科学强调的应该是尝试对理论进行反驳，而不是证实理论。对很多理论来说，找到证实证据实在太容易了，比如弗洛伊德的精神分析法，它的“预言”已经非常概况化，几乎任何一个事物都可以被解读为证实了这个理论。而爱因斯坦的广相预言了恒星光线在经过天体附近时会发生弯曲，这个现象可以在日全食时被观测到，这是个明确的预言，而且要证伪的话也不难。在证伪的意义上，爱因斯坦的广义相对论冒了很大的风险，所以它是一个好的科学理论。

对波普尔来说，一个理论所冒的风险越大，这时它的科学性就越强。风险指的是能做出容易被证伪的明确预言。也就是说好的科学应该强调证伪而不是证实，应该努力寻找有风险的理论。一个成功的科学理论，就算反复通过验证明确且夸张的预言来反驳，也仍然站得住脚。

5.4.3 假设演绎法

人们经常提到假设演绎法。其基本思想是从一组假设或者一个理论出发，演绎出一系列可经观察得来的结果。如果观察到了所预言的结果，这就会被认为是支持了这个假设；如果没有观察到所预言的结果，这就会被当成证明假设不成立的证据。

假设演绎法所关心的通常不是假设是如何形成的，而是对其进行证实。这个区别就是发现语境和辩护语境的差异，这里不展开。

毋庸置疑，证实推理和不证实推理在科学领域都扮演了重要角色。基于这些推理模式与假设演绎法的密切关系，我们完全可以说假设演绎法在科学领域扮演了重要角色。有一种观点是“科学以一种相对简单的过程推进，也就是从假设出发提出预言，然后根据预言的现象是否被观察到来接受或放弃假设”。

然而，再思考一下我们在前面讨论过的命题，包括证实推理的归纳性质、面对不证实证据时放弃辅助假设的可能性、理论的不完全确定性、设计关键实验的难度、观点集合接受验证的概念，等等。

结合我们已经讨论过的内容，这种观点是对科学过于简单化的描述。

假设演绎法归根结底是证实推理和不证实推理。然而，尽管假设演绎法是一种科学方法，但称它就是科学方法就不合适了。

6 可证伪性

可证伪性是一种对待理论的态度。当你觉得某个理论存在不正确的可能性时，你的态度就是可证伪性。

举例是理解的试金石。喵尼斯是物理学家，她相信大爆炸是正确的。但要是不证实证据越来越多的话，那喵尼斯也愿意放弃它。喵尼斯虽然认为大爆炸是正确的，但也承认它有可能是错误的。也就是说，喵尼斯认为这个理论是可证伪的。

相比之下，猫布相信地平说。而且不管出现什么不证实证据，他总有办法绕过它们，并且继续相信地平说。无论我们向猫布展示多少证据来表明地平说是错的，他都不听并且依然坚持地平说。也就是说，猫布认为这个理论是不可证伪的。

这里存在一个误区，当人们提到可证伪性时，往往会把它当成理论本身的性质。实际上，可证伪性并不是理论本身的特点，而是对某个理论所秉持的态度。举个例子，有两个人都相信地平说，其中一个人被说服之后就不再相信地平说了，而另一个人无论如何都不肯承认地平说是错误的。地平说还是同一个地平说，但他们对待地平说的态度却不同。

因此，“某个理论本身是不可证伪的”的这个说法并不准确，关键在于对这个理论的态度，你的态度决定了你认为它是可证伪的还是不可证伪的。

乍一看，可证伪性是一个相当简单的概念。然而在科学史中，比如从地心说到日心说的变化，要说明某个理论什么时候被当成不可证伪的，这一点都不容易。某个理论在面对不证实证据时，最开始的时候可以放弃一些辅助假设，但到需要阴谋论的时候，继续坚持这一理论就显得不太合理了。然而，合理与不合理之间并不存在一个清晰的边界，我们说明不了到底什么时候某个理论才被当成不可证伪的。

还记得解读经文的那个猫布吧？在我们讨论的过程中，他总是拿一些支撑经文的证据来证明经文是正确的。如果猫布所相信的经文是正确的，那么猫布的观点就是被证实了的，而我们的观点则是不正确的。值得注意的是，我们不接受猫布提供的证据，而且无论他提供了多么强有力的证据来证明其观点，我们都拒绝改变自己的观点。因此在猫布的角度来看，他把自己所相信的理论当作可证伪的，而我们才是把自己的观点当作不可证伪的那个。

我们认为的有意义的证据和猫布认为的是非常不同的，我们把重点放在我们以为是经验事实的证据上，而对猫布来说，最重要的证据都来自经文。补充一下，如果面对的是以经文为基础的证据，比如新发现的经文或对现有经文更好的解读等，猫布愿意在不证实证据足够多的情况下改变自己的观点。

这里遇到了一个很微妙的问题：什么样的的证据才可以算作有意义的证据？事实上，这个问题在科学史和科学哲学中反复出现。

重点是，人们所认为最有意义、最重要的证据与其整体世界观是紧密相连的。猫布对经文的坚持在他的观点拼图中处于核心观点位置，如果猫布放弃对经文的坚持，那么他的观点拼图整个都得换掉。我们和猫布的观点拼图影响了各自把什么样的证据才当作有意义的证据，而这又会反过来影响我们和猫布对“是谁认为自己的理论不可证伪”这个问题的看法。

也不是不能论证：把对宗教经文的字面解读作为证据不好，猫布把自己的观点当成不可证伪的。只是，我们不能因为猫布拒绝接受我们的证据，就得出他认为自己的理论是不可证伪的结论。要证明猫布认为自己的理论不可证伪，我们需要考虑一系列相关命题，比如在经验证据和古代经文之间，哪个作为证据更合理。

7 科学态度

接下来要介绍常见的看待科学理论的两种态度，它们分别是工具主义与现实主义。

7.1 描述、预测和预言

“描述”就是通过某种方式，来讲清楚我们所能感知到的世界。

一个苹果从树上掉到地上，我们可以说它刚才在树上，现在在空中，然后会掉到地上。当然，我们还可以更详细一些，用苹果在任一时刻 t 的位置的函数 s(t) 来描述。后面这种描述方式更清晰，而且没有歧义。

由于人类的感知中有过去、现在和未来之分，我们把对未来的描述称为“预测”。

这里有个点，“描述”“预测”和“预言”到底有什么区别呢？我想，描述和预测在本质上并没有区别，比如我们给出苹果的位置关于时间的函数，不管你这个 t 怎么取，是取过去的还是未来的某个时刻，它还是它，同一个函数。逻辑上的现在性和时间上的先在性是分开的，英文里有 Prediction 和 Forecast，前者强调逻辑上的导出顺序，而后者更强调时间。在物理中，一般关心的是因果关系，而不是时间的先后。另外，预测和预言也没有多大区别，只是预言对人类而言有某些特殊的意义罢了。

7.2 工具主义和现实主义

我们希望从科学理论中得到定量的描述和预测，或者至少是定性半定量的。但是，我们就真的满足于此了吗？难道你不想知道世界的本质是什么吗？爱因斯坦在年轻时观点立场不太坚定，而老年爱因斯坦认为现实世界归根结底就是物理学。现实世界是不是归根结底就是某个学科呢？某个理论是不是真的就反映或模拟了现实世界呢？

我们是否需要理论反映现实世界的情况，这是个很有争议的命题，也正是这个命题把工具主义和现实主义（实在论）区分了开来。对工具主义者来说，一个合理的理论可以给出描述和预测，但它不关心这个理论是否反映了现实世界。而对现实主义者来说，理论不仅要能描述和预测，还得反映现实世界的真实情况。

我们面前的书桌上有一支铅笔，你要移动这支铅笔，但是你不能跟它有任何联系，你不能碰它、不能吹气、不能扔东西。你可能会觉得，这样的超距作用是不可能的。

而牛顿的万有引力，它能使物体在不接触的情况下改变运动状态。你把桌上的铅笔拿起来，然后松手，铅笔就会掉到地上。要是我问你铅笔为什么会掉到地上，你的答案可能是“这只铅笔受到了地球的万有引力”。要是我问你，万有引力是不是真实的力？你很可能会回答：“当然，万有引力是真实存在的。”

也就是说，我们通常是以现实主义的态度来对待牛顿的万有引力的，认为万有引力是真实存在的。我想，我们之所以会很自然地对牛顿的万有引力持现实主义态度，是有一个先入为主的因素的。我们从小就被灌输万有引力的概念，生活在牛顿世界观的环境里。自然而然地，我们不会去反思万有引力是不是真实存在的，而它这个超距作用到底该怎么解释？

事实上，牛顿本人就是以工具主义态度来看待万有引力的。他虽然认为这些方程可以很好地描述和预测物体的运动状态，但同时也对物体为什么会有这样的运动状态保持不可知论的态度。你可以拿牛顿的理论去描述和预测物体的运动轨迹，但你在面对“万有引力是不是真实的力”的问题时，只能保持沉默。

“对于不可言说的事物只能保持沉默。”

当然了，爱因斯坦的广义相对论能给出一个不涉及超距作用的解释，但那是后话了。

注释

1. 世界观：与库恩的《科学革命的结构》中的“范式”有关。粗略来说，范式是一个共同的观点集合以及共同使用的解决问题的方法。当新的科学范式出现并替代了现有的科学范式时，这就叫范式转移。库恩不仅强调科学进步具有革命性，还强调科学共同体的重要作用。库恩的核心概念是范式，所谓的范式是由一些具有普遍性的理论假设和定律以及它们的应用方法构成的，而它们都是由某个特定的科学共同体的成员所接受的。当科学家遵循同一个范式时，他们是在从事库恩所谓的常规科学；在解决问题的过程中，范式遇到阻碍就会出现反常；而当遇到的困难达到难以控制的程度时，危机就会出现；原来的范式会被另一个不相容的范式取代，从而出现革命。库恩认为科学就是这样不断向前发展的。

2. 真理：从事物理研究的人一般都不愿意讨论真理。当然了，温伯格是个例外。如果有兴趣深入研究真理理论，Theories of Truth（Kirkham，1992）是最全面的素材。

3. 事实：与“观察渗透理论”相关。即使看起来直接明确的经观察通常也会与多个理论相互交织。

4.工具主义和现实主义：Wesley C. Salmon 对这些命题进行了全面的研究。相关的，现实主义与反现实主义之争，即实在论与反实在论之争也广受争议。这与工具主义与现实主义之争相似，但又不太一样。粗略地说，实在论认为科学理论给出的描述反映了事物的真实情况，在这些理论中处于核心位置的实体都是真实存在的。反实在论则持相反观点。克利（Klee，1997）对这些进行了入门的讨论，而弗兰奇、尤林和韦特斯坦（French，Uehling and Wettstein，1998）和莱普林（Leplin，1984）则是关于实在论/反实在论的论文选集。

8 德威特推荐书目

接下来会给出德威特关于延伸阅读的建议，有所删改。我只截取了自己感兴趣的部分，如果你真的对科学史和科学哲学感兴趣，那就快点去把这本找来看看吧！

8.1 科学史

关于科学史的介绍，梅森的《科学史》（A History of the Sciences）（Mason，1962）是一本优秀的单册读物。梅森的书对从古巴比伦和古埃及时期开始，一直讲到20世纪的科学，而且有数量惊人的细节。

林德伯格的《西方科学的起源》（The Beginnings of Western Science）（Lindberg，1992）探讨了古时候和中世纪的科学。

库恩的《哥白尼革命》（The Copernican Revolution）（Kuhn，1957）是探讨16和17世纪变化的经典著作。

科恩的《新物理学的诞生》（The Birth of a New Physics）（Cohen，1985）是对这些变化更为概括、更加易懂的介绍。

关于新近的发展，克拉夫的《量子世代》（Quantum Generations）（Kragh，1999）全面介绍了19世纪末期以来的物理学发展史。

佩尔森与希茨-佩尔森合著的《自然的仆人》（Servants of Nature）（Pyenson and Sheets-Pyenson，1999）则从一些不同而重要的角度描述了科学进取精神的历史。

8.2 物理学的哲学问题

库欣的《物理学中的哲学概念》（Philosophical Concepts in Physic）（Cushing，1998）是一个不错的起点。他是一位物理学家，但同时对哲学命题也感兴趣。他的著作详细介绍了物理学中的许多发现，并重点说明了这些发现所涉及的哲学命题。

科索的《表象与现实》（Appearance and Reality）（Kosso，1998）也对物理学中的哲学命题进行了有趣而易懂的讨论。

同样地，兰格的《物理学的哲学导论》（An Introduction to the Philosophy of Physics）（Large，2002a）也是一本浅显的著作，但其更加详尽，探讨了现代物理学语境下出现的某些核心哲学问题。

8.3 其他著作

《斯坦福哲学百科全书》是一个很好的在线资源，从网站 https://plato.stanford.edu 即可找到。其中的文章涉及广泛的哲学话题，包括科学史和科学哲学。而且其中的文章通常有一个范围广泛的参考书目。

盖尔的《科学理论》（Theory of Science）（Gale，1979）对科学哲学进行了很好的概括性介绍，书中大量使用了科学史中的实例。

另一本不错的入门级著作是洛西的《科学哲学历史导论》（A Historical Introduction to the Philosophy of Science）（Losse，1972）,书中同样大量引用了历史实例。

德威特很喜欢派因的《科学与人类前景》（Science and the Human Prospect）（Pine，1989），这本书所涉及的话题范围很广。在 http://www2.hawaii.edu/~pine/book1-2.html 中可以找到在线版本。

金格里奇的《天眼》（The Eye of Heaven）（Gingerich，1993）针对科学史和科学哲学领域内更具体详细的研究提供了反例。

林德伯格的《中世纪的科学》（Science in the Middle Ages）（Lindberg，1978）和克拉格特的《科学史的关键问题》（Critical Problems in the History of Science）（Clagett，1969）都汇集了一系列探讨更具体命题的论文，而且通俗易懂。

9 长尾社群推荐书目

长尾科技的文章更新时，中科院各研究所公众号纷纷转载。社群里有众神坐镇，不乏哲学大佬。下面罗列一些社群曾经推荐过的哲学入门书籍，略有删改。

9.1 科学哲学

长尾：

德威特《世界观》：谢漓仢《科学哲学入门》的蓝本，是一本科学史与科学哲学的导论。

查尔默斯《科学究竟是什么》：介绍了科学哲学的整个发展历程，文笔流畅容易入门。

杰弗里·戈勒姆《人人都该懂的科学哲学》、叶峰《二十世纪数学哲学》、刘大椿《一般科学哲学史》、刘大椿《分殊科学哲学史》、王浩《逻辑之旅：从哥德尔到哲学》......

波普尔《猜想与反驳》、弗拉森《科学的形象》、沃特金斯《科学与怀疑论》、拉卡托斯《科学研究纲领方法论》、苏佩斯《科学结构的表征和不变性》......

Excogito：

欧内斯特·内格尔《科学的结构》：这本巨厚能看完不错了，而且这人比较实诚。

还有另一个内格尔：托马斯·内格尔《你的第一本哲学书》《本然的观点》《心灵和宇宙》。

王维：

张志林《意义的分析实在论与反实在论的争论》

拾柒年蝉：

弗兰克《科学的哲学》：这是一本老书，但是很不错。这虽然是本哲学书，但是里面涉及到了几何学、牛顿力学、相对论、量子力学等具体的科学和后面的哲学。

9.2 哲学入门

长尾：

张志伟《西方哲学十五讲》：十分友好的一本哲学入门书，甚至有配套视频。

王维：

哲学入门：

内格尔《你的第一本哲学书》、阿德勒《哲学的误区》、威廉·魏斯德《后楼梯》、乔斯坦·贾德《苏菲的世界》、庞思奋《哲学之树》、张世英《哲学导论》、伯什博恩《没有标准答案的哲学问题》。

西方哲学史：

斯通普夫《西方哲学史》：这本是我看过的最早一本哲学史读物，恐怕也是销量最好的一本。总体来说文笔比较流畅，主要的一些哲学家都涉及到了。作为入门是够用了。

梯利《西方哲学史》：相对而言对哲学家的观点介绍比较简练，但涉及的人物也更多，也比较适合入门。

希尔贝克《西方哲学史》：我最推崇的是希尔贝克和伊耶版的，这本书最大的特点在于语言更具思辨性，是以一种反思和批判的态度来看哲学史的，因而能够给读者更大的启示，并训练学生的哲学思维。当然文笔也非常之流畅，五星推荐。

相对而言，我最不推荐的是罗素版的《西方哲学史》，虽然罗素更知名，而他的文笔却也算是相当的好（诺贝尔文学奖得主），但罗素毕竟不是哲学史家出身，且对以往哲人的观点批判过于主观化。所以并不是一本好的哲学史入门读物。

- END -

参考资料

[1] 理查德·德威特，《世界观》，孙天译，机械工业出版社，2020年，第 1，99 页。

[2] 长尾科技和他的朋友们。

杂谈 | 谢漓仢（华南师范大学本科生）

和往常一样，接下来是一些杂谈。

此音频因违规无法查看

社群总是会有些很有意思的对话，首先关心戴为，主题为“原创内容”。

戴为 “原创内容”

戴为：

科普这个行业，其实现在整体还比较定位不清。如果把它看作某种知识或文化产业，这种“重复造轮子”的事情应该是大家要努力避免的。但如果把它看作教育，那就无可厚非了。

问题就是，科普工作者做着“对着教课书造轮子”的事情，吃的却是知识产品的钱。换句话说，我觉得所谓的“知识付费”，其实是把很多应该被区分开的东西揉到了一起。如果读者在为“原创知识”付费，那credit应该属于知识创造者。如果读者在为“对知识的解读”付钱，那credit应该属于这种解读方式或思路的提出者。

但现在的很多内容提供者让我不理解的一点在于，连那种解读都不是他自己的，他仅仅是扮演了一个“知识中介”的角色。其实当“知识中介”是无可厚非的，我们可以说所有的教师都是这样的中介。但是，教师可从来没有声称自己是“内容提供者”啊。

那么，那些靠知识付费的“个体户教师”，又是何德何能说自己是卖内容的呢？

群友：

其实目前传统的教学工作也属于知识传播，只是形式不同而已，我们从小到大上学读的书同样要拿钱买。

戴为：

嗯，我明白。所以我也不是真的担心任何版权之类的问题。我仅仅是在做一件事之前希望想明白自己在干什么。

如果说，我在读某本课本的时候，觉得这本书的写作思路特别好，值得让更多人看到。那我把这本书的思路用自己的预言复述简化了一遍，我到底是在干什么呢？原则上，如果我只是觉得这本书的思路值得向更多人传播，最高效的方法应该是：你们都去看这本书吧！然而遗憾的是，我知道如果我这样说，并没有多少人真的会去看。

谢漓仢：

我学习的时候，就怀疑自己脑子中的想法是不是全是别人的，而自己什么想法都没有。如果说我正处于被动灌输知识阶段，那什么时候才不是？我看的是别人的教材，学的是别人的理论。如果说我复述时其实是在二次创作，里面已经包含了我的想法，那我只是大概理解了别人的想法，然后把自己的理解组织成自己的语言告诉别人，但这想法终究是别人的。

戴为：

我之前想的是，大多数所谓内容提供者所做的事情仅仅是：把传统媒介中的内容，用适合自媒体的传播形式复述了一遍。

群友：

好的一方面是：现在只是获取途径编的廉价，很多人可以学到更多知识。

戴为：

我的理解时：一定程度上，知识变得廉价是因为很多人很多媒介在一遍一遍重复讲同样的东西。但这也有一个很麻烦的地方，就是很可能一个人读了100篇文章，产生了一种自己收获很多知识的错觉。其实榨干以后仅仅是一两个idea加上大量的水分。

实际上在我看来，写科普，甚至广义地说，做教育，就是用一种会觉得会“更方便下咽”的方式给知识加水。如果我的读者全是爱因斯坦，我只要说两句话，他就能立刻把所有后续的东西全在自己的脑子里补全，那当然是效率最高的信息传递方式。而所谓“适合自媒体”的传递方式，难道就是尽量降低效率，尽量加水以减少读者自己的思考过程吗？

群主：

戴神还是对自媒体，对流量不够理解啊，你别说科普了，很多很多的自媒体，都是哪里有流量就往哪里跑。他们本来就是在做一门流量生意，本来就不是有心做什么教育。这是一个被流量裹挟的时代，随便翻两本科普书，把里面的东西摘录一下就可以发文章，头条们还要求你一天一篇。质量不够就数量来凑，广告费足够就行了。

真正从事科学的工作者，那些比较专业写的东西，没人看、没流量，也就知乎给这些人留了一块自留地。比如，物理素养真的很高的人大部分都在做科研，平时也没空写科普吧。愿意为了写科普去啃教材的，我估计都是极少数。既要有情怀，又要有手段。很多好的科普书，都是一些大佬退休以后闲情逸致写的。科普，我觉得以前从来就没有被当作正经的职业看待过，也没有那个条件。

戴为：

嗯，我也就偶尔想玩玩。主义是主义，生意是生意。自嘲一下，这大概就是所谓“书生造反，十年不成”吧。想太清楚不仅没用，还凭空给自己增加心理负担...

谢漓仢：

在部分读者的角度上看，如果某个瘟疫不被科普自媒体提起，这些读者可能压根就不会去思考。相反，他们是看了别人的想法后才去思考的。群主的这种科普，在激起读者思考的动力这一方面，和日本的科普书有些相似。不过有一点不同，就是群主的文章会涉及具体的细节和过程，活生生的通俗教材，而日本科普书大多是直接给个结论。

我还没想清楚“知道别人的思考过程后，自己会不会去思考同样的内容”，我感觉不太影响，自己应该还是可以有自己的理解吧。yubr也强调要有自己的想法。

(引用) yubr：“自始至终，记得要有自己的逻辑体系和思维框架，不要被书和文献牵着走，也不要被老师牵着走。自己的可以不完善，但一定要有。如果没有的话，你和程序有什么区别呢？”

(引用) 千星：“逼格高点的话叫：纷纷纭纭，斗乱而不可乱也；浑浑沌沌，形圆而不可败也。”

戴为：

唉，y神这要求显然是太高了。自己的觉解只影响一个人的上限，但这世上绝大多数人根本就不需要关心，或许也从来没有关心过自己的上限。

我学了某些东西后，觉得它很棒，值得所有人都知道，就想用自己的话转述给别人。当然，其中的想法是原创者的而不是我的，我只是充当了一个传播媒介的作用。

然而，我总觉得不经转述，那些人可能就一辈子都不知道有这个东西。虽然他们可能本来就不关心，但无论他们关不关心，都不能影响我的输出。久而久之，当我发现真的没人care时，自然就不会再转述了，这是无可厚非的。

接下来关心陆泓帛，主题为“照本宣科”。

陆泓帛 “照本宣科”

陆泓帛：

我以前见过一个在知乎上讲范畴论的，真的是错的一塌糊涂，神TM Top硬说是集合范畴。

金声玉振：

知乎标准已经低到这种程度了吗？

陆泓帛：

有些时候嘛，人们可能会觉得一个东西没什么好写的，随便答一答，把思想写出来就行。这种时候翻车在一定程度上是情有可原的。

但是真正讨厌的是乱写、照本宣科和名词党。

一般对于我自己知道比较复杂的东西，我会好好写。于我自己觉得简单的，就大概讲一讲中心思想就完事了。然后，题主问了，我再补细节。

谢漓仢：

照本宣科这个怎么把握啊？有些人不敢肯定自己写的是正确的，总要参考一下教材嘛。

陆泓帛：

一般来讲，教材的引用率不能太高，尤其是复杂的部分，一定要配简单的理解方式。换言之，就算要抄书。也要能够人们在TLDR的情况下大概把握证明的核心思路和内容成立的原因。

比如说，我写高斯-博涅定理，那我在放书上的证明之前，就应该说一句：它成立的原因，无外乎就是，我走一圈肯定要走回来，而我走这一圈具体的绕法，则取决于具体的曲率。

虽然我知道，要进行这种提炼对答主本身的能力和基础有一定的要求。但是，首先能揽瓷器活的肯定要有金刚钻。其次，你没有金刚钻你宁愿别揽那瓷器活，也别强做啊。当然，这也只是我个人的看法。对于书上有的，至少我会用这样的标准要求我自己写的内容。对于书上没有的，我会希望尽可能地把它直观的部分写出来，或者至少保证我答案的严谨性和完整性。

谢漓仢：

要是书上写的已经很通俗了呢？

陆泓帛：

那就应该把这本书推荐出去，直接让人们到源头去看，然后把截图贴出来。

谢漓仢：

大概了解陆神的想法了。

陆泓帛：

完全地为读者的发展着想，这就是我的想法。至于作者，你都不能做到100%地为读者考虑，还当什么作者？当然，如果你只是纯粹地想炫技，或者玩恶趣味，或者只是想写本书取悦自己，那问题不大。这个时候你可以说：“劳资爱咋写咋写，读者爱看不看”。但这个不是写回答类的，或者科普/入门类作品的态度。

群友：

这种书还有出版的必要么？

陆泓帛：

有啊，《数学天书》就是以炫技为主的，里面整理了历史上各种秀上天的操作。有时候我自己也喜欢炫技，或者单纯写点东西取悦自己，这个无可厚非的。但是，我只是觉得，不要影响到别人的发展，这是某种意义上基本的素质。

群友：

骚操作也是有思路的。

陆泓帛：

但很多时候这些思路观赏价值远大于其实际价值。这种妙手见多了，可以拓宽思路，兴许下一个玩出这种操作的就是你呢？有时候我觉得搞数学有点像下棋或者电竞，你需要针对即时的情况，做出反应和决策，进行尝试和修正，而且要频繁。

群友：

其实有些骚操作是基于深刻的哲学观念，就看你相信什么了，而科普就是要把这种观念讲出来。

陆泓帛：

这种骚操作一般不会太骚，会很美。真正的骚操作是那种几乎想不到，纯靠细节刚的，而且刚的过程有出人意料的简单。

嗯，没什么想补充的，就感受一下吧！

注释

1. 这篇文章可以看作“科学哲学入门”，它介绍了一些最基本的概念，也推荐了进一步阅读的书籍。但是，我更希望它是我自己的文章。也就是说，我自己写起来开心就好。事实上，我的原创标签正是“生活”中的“生活记录”，而不是“科学”中的“科普”。我并没有打算把它写成完整的科普，而只是把它视作读书笔记。当然，我还是相信读者在其中也能学到不少东西的！

2. 我成了魔怔人，我要对所有理论持工具主义态度！^_^

3. “谢漓仢”是我的网名，Li Bo 二声。当时是照着“陆泓帛”的汉语拼音取的，再挑些自己喜欢的字词。

4. 封面是《杀戮的天使》的瑞吉儿·加德纳。

5. 感谢长尾科技，让我有机会接触德威特的《世界观》。在其中，我发现自己曾经的思考大部分都能对上号：我想的问题早就有人想过了！而且别人想得比我深入，不仅命名甚至还分类了。德威特的《世界观》让我打开了“科学哲学”的大门，这对我的认识有莫大的帮助。

6. 感谢群友@戴为、@张越之、@walter，他们提供了关于“描述、预测和预言”的内容。

7. 感谢群友@小熊君，他的排版建议解决了我的烦恼。他为了教我们排版，甚至专门写了篇文章：https://mp.weixin.qq.com/s/-foBBqLxI3p0gT0jxBmkRQ。欢迎关注他的公众号“小熊慢慢说”。

8. 我用的字体、标题、排版等样式均来源于“返朴”。其中，三级标题来自“数理人文”。关于字体颜色，我采用了小熊的建议，红色的色值是#DF5445，蓝色的色值是#2980b9。

9. 我相信我可爱的宝宝能有耐心看完这篇稍微有点长的文章，大概两万四千字吧。

收起阅读 »

简谐振动的运动学方程是怎么来的？

振动牛顿力学

简谐振动是最简单最基本的振动，它的典型例子是弹簧振子。水平弹簧振子什么是弹簧振子呢？一个不考虑质量的弹簧连接一个有质量的小球或物块，然后把它沿着弹簧的方向压缩或者拉伸一定的距离（不要拉得太狠，悠着点儿）后松手，那么物块就会只在弹簧弹力的作用下，周期性地往复振动...

继续阅读 »

简谐振动是最简单最基本的振动，它的典型例子是弹簧振子。

什么是弹簧振子呢？一个不考虑质量的弹簧连接一个有质量的小球或物块，然后把它沿着弹簧的方向压缩或者拉伸一定的距离（不要拉得太狠，悠着点儿）后松手，那么物块就会只在弹簧弹力的作用下，周期性地往复振动。弹簧振子是一个理想物理模型。振子速度最大的位置回复力为零，此处称之为平衡位置。

在高中我们就知道，弹簧振子的运动学方程可以表达为如下正弦或余弦函数形式：

\begin{aligned}<br /> x(t)=A \cos (\omega t+\varphi)\\<br /> x(t)=A \sin (\omega t+\varphi')<br /> \end{aligned}

它们都表述了振子偏离平衡位置的位移随时间变化的关系。由中学数学可知这两个函数是等价的。那么这个振动方程到底是怎么推导出来的呢？

我的书架上有四本书对这个振动方程有所描述，分别是漆安慎版《力学》、人教社的高中物理教材、《费曼物理学讲义》、赵凯华版《新概念物理教程·力学》，外加知乎@烤羚羊的思路。他们面对同一件事虽然思路迥异，却又殊途同归，真真是各有各的特点，各有各的巧妙。我们一起来看看吧^_^

方式一 “易得”型

这种方式的典型代表是漆老的《力学》，在书中，振动方程来自于直接写出微分方程的解，画风是下面这这样的：

为什么可以写成这样呢？当时的我左思右想也没搞明白这个余弦函数是怎么来的。漆老可能觉得读者基本都是大学生了，这等小菜，自己可以推出来。看来我和漆老对大学生的基本要求隔了一个地球周长。所以当时我只是把它当成基本结论去记的。现在，这种处理方式着实不能满足我对科学的渴望，必须深究下去。

方式二科学探究型

这种方式的典型代表是现行高中物理人教版教材。从国家到地方都在大力开展新课程改革，要求在物理教学中要重视学生的物理探究过程，多多体验一下科学家们发现问题、提出猜想、设计实验、得出结论、讨论验证等的科学研究过程。所以人教版高中物理教材是按如下方式得出振动方程的。

首先，观察弹簧振子的频闪照片。

让弹簧振子先振动起来，然后让频闪仪对着弹簧振子每隔 0.05s闪光一次，闪光的瞬间振子就会被照亮，从而得到闪光时小球的位置，相邻两个位置之间的时间相隔为0.05 s。拍摄时让底片从左向右匀速运动，因此在底片上留下了小球和弹簧的一系列的像。

或者，在桌面上放一个弹簧振子（附一支描线笔），下面放上一条长长的宽纸带，然后在弹簧振子振动的同时在一侧把纸带匀速卷起来，这样就得到一条和频闪照片类似的图像。

然后，猜想图像的函数并验证。书上引导读者猜想这是正弦函数。然后根据振幅和周期写出正弦函数表达式，再从实验中得到的图像中选择几个点，得到不同时间所得到的位置值，把这个位置值和表达式中对应时间的函数值做个比较。如果符合得很好，说明振动图像就是对应正弦函数。

接着，书上就直接给出了振动方程，如下图所示。

人教版高中教材的这个方法简单直观，规避了严谨的数学推理。其中，把时间作为一个数轴，位移作为另一个数轴，从一维振动中拉一个二维图像的方法是很奇妙的一个思路。

然而，弹簧振子的一维振动，怎么就跟三角函数扯上了关系呢？ 弹簧振子难道就有没有什么内在的、固有性质使得它必然与三角函数有关系吗？

答案显示不是。一定是弹簧振子的某些固有属性使得它与三角函数有关系。那么我们首先就得找找，弹簧振子到底有哪些固有的属性和规律呢。

弹簧振子的常微分方程

（如果你是中学生，当你看到常微分方程这五个字时也许会比较纳闷，先不管它，我们来一步步把它给逼出来）

弹簧振子的固有属性

弹簧振子有哪些固有属性会影响到它的振动呢？

首先想到的性质一定有物块的质量，我们可以想想，在弹簧的拉伸长度一定的前提下，如果物块越重，振子就应该越“懒”，运动状态就越难得改变，也就是振动得越慢。所以质量可能会在振动方程中体现出来。

接着，我们还应该想到弹簧的劲度系数 也会影响到振动的快慢。如果弹簧越是“硬邦邦”，在弹簧被拉长相同的长度时所具有的拉力就越大，物块受到更大的拉力就应该会更快地回到平衡位置。所以劲度系数也可能会在振动方程中体现出来。

有了质量和劲度系数，这只是我们寻找振动方程的一小步，还需要从弹簧振子必须满足的内在规律上找。

振子的牛顿第二定律

最先想到的应该是牛顿运动定律。

读高中时书上就讲，牛顿牛爵爷把力和运动通过牛顿第二定律结合起来，小到灰尘，大到天体都可以用，可以说是相当的厉害。弹簧振子自然也不例外。也就是说，弹簧振子一定满足，其中，就是弹簧受到的弹力，是振子的加速度。

但是，这和我们寻找的振动方程有什么关系呢？牛二定律里面并没有出现时间、也没有出现位移呀。其实，这里需要一丢丢的微积分知识，利用微积分，加速度可以表达为位置矢量的二阶导数。即可以把牛顿第二定律表达为如下形式：

F= ma = m \frac{\mathrm{d}^{2}x}{\mathrm{d}{t^2}}

如果你没有微积分方面的数学储备，推荐你参阅长尾科技的文章你也能懂的微积分。

这样一操作，和就立马出现了，似乎答案以经找到了。仔细一想，其实还没有。你想想看，在振子振动的过程中，弹力总是保持不变的吗？显然不是。换句话说，弹力也会随着时间，或者说随着位移发生变化。如果力不随位移变化还好，我们直接积分就可以得到位移和时间的关系了。可是现在并不单纯，它里面还藏着或没有露出来，要想直接积分就比较麻烦。

胡克定律

下一步，我们自然要再去找找与之间的关系。想必你已经知道了，就是牛顿的死对头胡克发现的胡克定律。胡克定律表达为如下形式：

F=-kx

胡克定律中有两点需要注意，一是它表达了振子离开平衡位置的位移与所受弹力成正比，二是弹力方向始终与位移的方向相反（前提是我们把振子的平衡位置定义为原点，即位移为0的位置）。

牛顿与胡克的“联姻”——常微分方程

接下来，让人尴尬的一步就出现了。如果我们把胡克定律中表达的带进牛顿第二定律中去，再把常数放在一起，就得到了下面这货：

\frac{\mathrm{d} ^{2}x}{\mathrm{d}{t^2}}=-\frac{k}{m}x

在数学中为了更一般的讨论，常常把它写成下面这种形式：

m \frac{\mathrm{d} ^{2}x}{\mathrm{d}{t^2}}+kx=0

在数学中，第2个方程被称为二阶常微分方程。叫“微分方程”是因为方程中有自变量的微商；叫二阶是因为微商的阶数最高是二阶的；叫“常”是因为函数的自变量只有一个，即时间t。

为什么说尴尬呢？你瞧瞧，有着恩恩怨怨的牛顿和胡克虽然吵了一辈子，但是他们在科学上的成就却彼此左手拉右手，至少在描述简谐振动这件事儿上，别提它们有多甜蜜。

那么该如何求解这个二阶常微分方程，来得到位移关于时间的表达式呢？解法其实有很多，真真是八仙过海，各显神通了。在这里，我介绍两种求解方式，一个用的是费曼的推理手法，另一个用复数和指数求解的思路。我们一个个地看。

方式三费曼的推理

费曼是一位擅长通过简单的例子去说明高深问题的大师。比如，1986年，挑战者号失事后，费曼只用一杯冰水和一只橡皮环，就在国会向公众揭示了挑战者失事的根本原因——低温下橡胶失去弹性。而在弹簧振子的问题上，费曼体现了他的另一个能力——面对一个一般的问题，先从简单的情况入手，抓住事物规律的核心，再去考虑补充其他的细节。

接下来，就让我们一起，看看费曼是如何推导出振子位移随时间变化的振动方程的。

1. 考虑特殊情况，化简微分方程

上面的二阶常微分方程中有两个常数和，为分析的方便，我们不妨把和放到一块儿，并令,即假设有这样一个弹簧振子，它的劲度系数的数值和物块的质量的比值等于1，这个假设显然是允许的。这样，没有常数干扰的微分方程就写成了

\frac{\mathrm{d} ^{2}x}{\mathrm{d}{t^2}}=-x

至于不等于1的情况，我们先放一边儿，过一会儿再考虑它。

2. 抓住微分方程的关键性质尝试构造函数

不知你发现了没有，方程(3)其实表达了这么一个意思：关于时间的函数，在经过两次求导 (即) 后居然变回了它自己，还是，只不过多了一个负号。

到底是什么样的函数具有这样的性质呢？此处迅速在头脑里回忆一下初等函数，我们发现，正弦函数或余弦函数都行。不妨设 $x=\cos(t)$

3. 根据物理意义优化函数的表达

我们知道，时间的单位是"秒"，而余弦cos的括号里装着的应该是以"度"为单位的角度量。因此括号里面不单单有时间，还应该乘上一个量，使得它与时间的乘积是一个角度。

我知道你一定想到了圆周运动的角速度，因为它乘以时间就是角度。不过，这里需要提醒一下，我们需要的量虽然与角速度在单位上相同，但它并不是物体旋转时的角速度，因为这里的振子并没有体现出旋转的意思。但是我们依然可以借用这个符号，把这个量写成 $\omega_0$ 。这样，振动方程进一步被优化成了下面这个样子：

x(t)=\cos\omega_0t

这个函数离我们的目标以经很近了，可是那个到底是个啥？它有什么物理意义呢？我们还需要进一步探索。

4.把函数尝试代入微分方程

为了理解的物理意义，我们把猜测的 $x=\cos(\omega_0t)$ 带入二阶常微分方程中，去看看将会有什么表现。代入后的结果如下：

\frac{\mathrm{d} ^{2}x}{\mathrm{d}{t^2}}=-\omega_0^{2}x

通过比较(1)、(5)这两个式子我们发现，只要令 $\omega_0^{2}=k/m$ ，即这两个式子就相同了。那么。

可以看出，这个的确跟弹簧的固有属性有关系，那么这个关系体现在什么方面呢？

结合物理情景分析意义

对函数 $x=\cos\omega_0t$ ，我们结合实际振动来分析看看。

首先振子的位移一定在一个区间内变化，最大值有正负之分，有对称性，而且最小值为0，余弦函数的取值范围是 $(-1,1)$ ，也具有对称性；
当时间时，取最大值，这表示振子是从最大位移处开始运动的；
振子振动具有周期性，而 $\cos\omega_0 t$ 正好是周期函数。

函数的性质与振子的物理性质符合得很好，所以我们有理由相信，弹簧振子的运动学方程一定具有余弦函数的内核。

但是还有个问题，振子的振动周期，到底等于多少呢？

这个问题其实很好回答。我们知道，所谓周期，其实就是物体经过一个时间段之后，正好回到出发点。而在余弦函数 $\cos\theta$ 中，周期是。也就是说，当振子运动了的时间后， $\cos(\omega_0 t)$ 括号中所谓的"角度",就将等于。这样我们就有，这样就求得了周期的表达式为：

这个表达式说明什么意思呢？

表明了当振子质量越大，振动的周期越大，即振子振动得越慢；
表明了当弹簧劲度系数越大，振子得周期越小，即振子振动得越快。这和我们上面得讨论和实验规律相吻合。

说到这里，对于振子的运动方程，我们不仅把它的盖头掀开了一大半，还顺带求出了弹簧振子的振动周期，还进一步发现了是一个跟周期有关的量，表达了振动的固有属性。

由特殊到一般，得到通解

通过刚才的分析我们知道， $\cos(\omega_0t)$ 仅仅表达了振子从最大位移处开始运动的情况，此时振子的速度为0，然而，振子的运动初速度可以不为0啊。比如本来振子静止在平衡位置，现在让一颗子弹射入振子内部，并从此刻开始计时，那么振子的运动方程就不再是余弦，而要用正弦。

更进一步想想下这个场景，你正在用秒表去记录振子的运动，让秒表指零时为计时起点，此时振子在最大位移处，振动方程正好是余弦。然后牛顿也带着秒表走进来，他刚令秒表从零开始计时（假设你的秒表已经走过了的时间），就发现振子在最大位移的一半处。这个时候，对牛顿而言，他在零时刻看到的振子的位置，应该跟你经过了时刻看到的位置是一样的。因此，振动方程应该写作：

\cos\omega_0(t+t_0)

由于是一个任意的数，此时令 $\varphi =\omega_0 t_0$ ，它也是一个任意的数，这样，方程可以进一步改成 $x=\cos(\omega_0 t+\varphi)$ 。

还有最后一个事儿没处理干净，就是振子的振幅，在上面的表达式中，余弦函数的最大值只是1，对应着我们仅仅把振子拉开离平衡位置一个单位长度，可是我们可以把振子拉开到任意长度后松手，也就是振幅可以是1的倍数，也就是说，我们只需要把振幅 $A$ 乘到余弦函数前面即可。最终，振子的运动学方程就变成了：

x=A\cos(\omega_0 t+\varphi)

这就是以弹簧振子为代表的简谐振动的通解。

方式四用复变函数的思路

这个思路要感谢知乎大佬@烤羚羊，他也是从二阶常微分方程入手，在他给出的求解过程中一开始和费曼是一样的，都是先猜想解的形式。只不过，费曼猜想的是余弦函数，而@烤羚羊猜想的是指数，即，它和余弦函数一样，也可以在经历两次求导后得到于原函数类似的形式。经过一通推导后，得到了简谐振动方程的复数形式如下：

x(t)=r\left[\mathrm{e}^{i(\omega t+\phi)}+\mathrm{e}^{-i(\omega t+\phi)}\right]

有兴趣的同学可以跳转到知乎@烤羚羊的文章（https://zhuanlan.zhihu.com/p/133809744）去看看。

在下一篇文章中，我将从简谐振动的复数形式出发，去看看怎么在GeoGebra中把简谐振动与圆周运动直观地联系起来。

方式五能量守恒大法好

上面的做法总结起来无外乎两种，一种是从振子的实验数据出发，去猜余弦函数（高中教材的做法），一种是从振子的动力学方程出发，去猜常微分方程的解的可能形式（费曼的做法和知乎@烤羚羊的做法）。都是靠猜。

那有没有什么办法可以不用靠猜，直接通过严谨的数学推导就能得出振动方程呢？有的，就是利用机械能守恒定律。这和上面的思路完全不同，《新概念物理学教程·力学》中用的就是这种办法。我们一起看看吧^_^

弹簧振子具有的能量

为了讨论振子的运动学方程，我们先看看振子运动过程中的不变量——总能量。

对于宏观的弹簧振子而言，总能量无外乎两种，一种是振子的动能,我们在中学就已经知道它的计算式为 $\frac{1}{2}mv^2$ ，显然它和振子的速度有关系，而速度是位置的一阶导数。另一种是系统的弹性势能，那么弹性势能的具体表达式又是什么呢？我么一起把它搞出来。

弹性势能的泰勒级数

我以前被泰勒级数这四个字吓住过，不知道是个什么玩意儿，随着认识的加深，我逐渐明白了它的意义——用来近似的。部分读者可能还蒙在鼓里。接下来请允许我对它多唠叨几句。

首先，我们给出弹性势能的泰勒级数展示式。为了讨论的方便，我们把平衡位置记为0点，那么偏离平衡位置的位移和振子的位置在数值上相等，这样，振子的泰勒级数可以表达为如下形式：

$U(x)=U(0)+U^{\prime}(0)x+\frac{U^{\prime \prime}(0)}{2 !}x^{2}+\frac{U^{\prime \prime \prime}\left(0\right)}{3 !}(x^{3}+\ldots$

大家不要被这么一长串公式给吓着，怎么理解它的意义呢？我们通过分析一副石膏像的素描过程来理解它。

在上图的素描画中，第一步先画出人物的轮廓，虽然它和真实的照片差距很远，但仍然可以知道这画了一个人，我把它称为对真实照片的模拟加入了一阶近似；

接着第二步，对人像的五官进行深入勾勒，这时我们发现摩西的感觉已经出来了，但还是和真实照片有差距，我把它称为对真实照片的模拟加入了二阶近似；

然后到了第三步，画家开始对照片中的光影明暗进行深入分析和表现，使得素描画更加立体丰满，此时的画作和真实照片的差距已经很小了。我把这称为对真实照片的模拟加入了三阶近似；

现在你应该明白了，只要我们不断地近似下去，让近似项越来越多，我们对原始对象地表现将会越来越逼真。

回到泰勒级数上去，它干的活儿和上面的素描过程其实是一样的。就相当于那一张白纸，就是对弹性势能加了一阶近似， $\frac{U^{\prime \prime}(0)}{2 !}x^{2}$ 就是对弹性势能加了二阶近似，依此类推。

这么做有什么好处呢？它可以帮助我们得到弹性势能的表达式。接下来我们分析一下这些近似项蕴含的意义。

1.首先看，它表示振子在平衡位置时的弹性势能。根据对称性的方便，我们令平衡位置时的弹性势能为0，即

2.再看一级近似。这里有个一阶导数，它表示什么意思呢？嘿嘿，在中学我们就学过，弹簧弹力做的功等于弹性势能变化量的负值，把这句话写成微分形式就是。然后把它变个形，就得到了弹性势能一阶导数的表达式：

再根据胡克定律，弹簧弹力大小，所以最终我们得到了弹性势能一阶导数为

而当时，振子处于平衡位置时的弹力为零，把带入上式就得到弹性势能的一阶导数为0。

3.再看弹性势能的二阶导数。有了一阶导数的表达式，二阶导数自然就可以轻松得到，即

4.最后看高阶项。由于二阶导数已经为一个常数（即弹簧的劲度系数）了，那么三阶以上的各项就只好都等于0了。

终于，弹性势能的表达式就被我们搞出来了,即

换元积分求解

有了动能和势能的表达式，我们就可以得到总的机械能表达式

为了等会儿便于积分，把它再改写成

v=\sqrt{\frac{2E}{m}(1-\frac{k}{2E}x^2)}

因为振子的振动过程中总能量守恒，所以是一个常数。为了求解随时间变化的函数，我们写出速度的导数形式，那么有

\boxed{\frac{\mathrm{d}x}{\sqrt{1-\frac{kx^2}{2E}}}=\sqrt{\frac{2E}{m}}\mathrm{d}t}

接下来就是一些积分技巧，我们通过换元法，令 $\sqrt{\frac{k}{2E}}x=\sin\varphi$ ,这样分母

\sqrt{1-\frac{kx^2}{2E}}=\sqrt{1-\sin^2 \varphi}=\cos\varphi

而且有

\mathrm{d}x=\sqrt{2E/k}\cos\varphi\mathrm{d}\varphi

经过这么一折腾，上面框框中的式子就被改成下面这个容易积分的形式

两边积分，得

再把 $\varphi$ 换回到，就得到

\boxed{x=\sqrt{\frac{2E}{k}}·\sin(\sqrt{\frac{k}{m}}t+\varphi_0)}

终于大功告成，这个表达式和我们常见的表达式 $x(t)=A \sin (\omega t+\varphi’)$ 在意思上是一样的。其中的就是振幅 , $\sqrt{\frac{k}{m}}$ 就是我们之前定义那个 $\omega_0$ 。

最后的话

洋洋洒洒六千多字，不算多但也不算少，经过这么一通分析，我主要感受到以下两点：

要想认真学懂一个知识，少不了旁征博引，博览群书，不要囿于一家之言。因为一本书有一本书的观点，它往往会受作者的意图、篇幅、定位等方面的考虑，不一定面面俱到。
把学到的知识写下来，讲给大家听，会加深、巩固和检验你对知识了解，还能结交优秀的人。我以前很自卑，很少跟人交流，加上之前视野不开阔，学习不够深入，对很多知识的认识只是浮于表面。在长尾君的引导下，我逐渐学着去学习，学着写点东西，把学到的东西再讲出来。这么做不仅利己，还能利人，何乐而不为呢？

关于简谐振动的方程，也许还有其它的推导方式，如果你知道的话，欢迎在下方评论区留言与我分享，让更多的人知道^_^

保持终身学习的态度，

和优秀的人一起进步，

发现世界的美。

长按二维码关注，发现更多内容哦

收起阅读 »

动能定理和机械能守恒定律到底该怎么用？

机械能守恒中学物理

问：动能定理和机械能守恒定律到底该怎么用？从使用条件上来说，动能定理要比机械能守恒定律要广，无论物体受到什么力、运动过程有多么复杂，动能定理都可以使用。但是机械能守恒定律必须满足只有系统重力或者弹力做功这个条件时才能使用。所以从这个角度来说，肯定优先考虑使用动...

继续阅读 »

问：动能定理和机械能守恒定律到底该怎么用？

从使用条件上来说，动能定理要比机械能守恒定律要广，无论物体受到什么力、运动过程有多么复杂，动能定理都可以使用。但是机械能守恒定律必须满足只有系统重力或者弹力做功这个条件时才能使用。所以从这个角度来说，肯定优先考虑使用动能定理。

从研究对象上来说，如果只是单个物体，动能定理肯定也是优先考虑的。比如抛体运动，不管是否考虑空气阻力，用动能定理都没毛病。只有在不考虑空气阻力时，抛体运动的物体才有机械能守恒，此时用机械能守恒定律列表达式也很方便。如果是多个物体组成的系统，在高中阶段里不要求知道系统的动能定理，所以只能采用隔离法对每个物体进行受力分析，然后对每个物体写出动能定理表达式，最后联立求解。要是能事先判断出这个系统机械能是守恒的，那么用机械能守恒定律写表达式肯定很爽了，一个方程就可以了。

从等式的写法上也是有区别的，动能定理属于功能关系，体现的是能量变化与某种力做功的对应关系，所以动能定理的表达式只能是：

W_{合}=\frac{1}{2}mv^2-\frac{1}{2}mv_{0}^2

就算是天王老子来了也不能写成其他形式。而机械能守恒定律的表达式体现的是一个过程里，系统的机械能始终是不变的，等式里与功没有半毛钱关系，所以等式只能是：

E_{p0}+E_{k0}=E_{p1}+E_{k1}

或者是：

\Delta E_{p}+\Delta E_{k}=0

举例说明1

抛体运动（竖直上抛、斜抛、平抛、自由落体算特殊情形），不计空气阻力，对于物体而已，动能定理的表达式都是：

mgh=\frac{1}{2}mv^2-\frac{1}{2}mv_{0}^2

等式里的

mgh

指的是重力做的功。

由于物体下落过程中，只有重力做功，所以物体的机械能守恒（严格来说，应该是物体和地球组成的系统），那么机械能守恒定律的表达式为：

mgh+\frac{1}{2}mv_{0}^2=\frac{1}{2}mv^2

这个表达式的形式为

E_{p0}+E_{k0}=E_{p1}+E_{k1}

，且取水平地面为零势能面，等式中的 $mgh$ 指的是物体在初始位置的重力势能！！！

当然了，表达式还可以写成：

-mgh+（\frac{1}{2}mv^2-\frac{1}{2}mv_{0}^2）=0

这个表达式的形式为

\Delta E_{p}+\Delta E_{k}=0

，这样写的好处是可以不用选择零势能，等式里的 $-mgh$ 指的是物体下落过程中的重力势能的变化量。

举例说明2

不计各处的阻力，滑轮质量不计，用一段不可伸长的轻绳连接A、B两个物体。用手托住两物体，使得绳上的拉力为恰好为零。从静止释放后，A物体上升、B物体下降。

要是想用动能定理的话，就只能对A、B两个物体分别使用，其方程如下：

对于物体A，由动能定理：

FL-m_{A}gL=\frac{1}{2}m_{A}v^2-0

对于物体B，由动能定理：

m_{B}gL-FL=\frac{1}{2}m_{B}v^2-0

因为轻绳不可伸长，且绳两端的拉力等大，所以方程组如上所示。

再来看机械能守恒定律的表达式，由于两物体和轻绳组成的系统，只有重力做功，所以系统的机械能守恒，则有如下的表达式：

0=(\frac{1}{2}m_{B}v^2+\frac{1}{2}m_{A}v^2)+(m_{A}gL-m_{B}gL)

这个等式的形式就是初状态机械能等于末状态机械能，且零势能面选在了初始位置。同时也可以理解成动能的变化加上势能的变化等于零。

对于举例2来说，当把动能定理的方程组化简后就能得到机械能守恒定律的表达式，但是直接用机械能守恒定律来写方程肯定要简洁。

ps：写在最后，从咬文嚼字的角度来说，物理学里定律的地位是要高于定理的地位。所谓定律，就是科学家通过做各种实验，从实验现象里总结出来的规律，它的正确性由实验保证。定律是无法通过数学公式“推导”或者“证明”出来的，而定理是根据这些定律推导出来的。选择几条定律为根基，可以构建整个理论体系，比如牛顿运动定律，但是定理显然没这个本事。所以上述讨论的动能定理和机械能守恒定律仅仅局限于高中阶段解题的用法上。

收起阅读 »

中学生能理解最小作用量原理吗？

拉格朗日函数最速降线理论力学物理科普最小作用量原理中学物理

最小作用量原理被称为物理中的“第一性原理”，其地位可见一斑。我出于对物理规律普适性的向往，折腾了三个多月写出这篇三万七千字的长文，终于了却了自己的这个心愿。目录02 并不可怕的微积分04 初识变分06 横空出世的拉格朗日方程08 最小作用量的前世今生10 哈密...

继续阅读 »

前言

最小作用量原理被称为物理中的“第一性原理”，其地位可见一斑。我出于对物理规律普适性的向往，折腾了三个多月写出这篇三万七千字的长文，终于了却了自己的这个心愿。

本着自己懂不如大家懂的原则，我尽力把文字写得很通俗。作为文章里最大的拦路虎——数学，以高中生所具备的基础出发，我遵循懂思想、重定义、足够用的原则娓娓道来，其难度绝对赶不上高考数学题。信不信由你，你敢挑战不？

01 伟大的牛顿运动定律之困惑

02 并不可怕的微积分

03 和约束说不（1）

04 初识变分

05 和约束说不（2）

06 横空出世的拉格朗日方程

07 费马原理和最速降线

08 最小作用量的前世今生

09 哈密顿原理

10 哈密顿方程

11 一统江湖

12 结语

友情提示：遇到较长的公式时，请左右滑动公式查看完整结果

一、伟大的牛顿运动定律之困惑

神一般的牛顿出版的著作《自然哲学的数学原理》里，众人皆知的牛顿运动定律和万有引力定律给人类认识自然提供了有力的武器，以至于牛顿之后的科学家认为只要找出物体的受力和运动的初始条件，就能搞清楚物体之后的运动规律。从这个角度来说，牛顿的光环太耀眼，导致18世纪的物理学界再没出现过像他这样的集大成者。虽然如此，但是在具体的复杂问题中怎样把牛顿运动定律变得好用还是大有可为的。

牛顿运动定律是为回答物体怎样做机械运动而生的一个力学体系，也就是要弄清楚物体的位置随时间会发生怎样的变化。要完成这一光荣的使命，牛顿运动定律其实是会挑对象的——研究的物体要能被看成质点。

什么？要知道质点本就是个理想模型，现实世界里哪有真正的质点呢？要是牛顿运动定律只能用在质点身上，那它岂不是一点用都没有？

别急别急，我不是这个意思。对于实际的物体来说，虽然不能把它看成质点，但是可以把它看成由大量质点组成的集合呀。除非这些质点的运动都一样，咱们还能用一个质点来做个代表；否则，就必须隔离每个质点进行单独地详尽研究。高中物理里的“板、块”模型就是这样一类典型问题，有没有想起被它支配的恐惧呢？要是再多几个板或块，是不是就想直接放弃了呢？

“板、块”已经是非常简化的模型了，要是换成杆呀、滑轮呀、支架呀等更实际的部件时，岂不是更要头大？究其原因，就是这些实际的部件会给咱们的待研究对象施加各种各样的约束，而且这些约束对于对象施加的作用力几乎都是事先未知的。

约束是个啥？简单的说，就是物体不能随心所欲地运动，其运动轨迹被这些器件限制在某条线或者面上。

呃，干嘛要去研究这些复杂的器件呀，这不自讨苦吃嘛？嗨，谁说不是呢，可是历史的车轮来到了工业革命，哪个机器上不带点这些器件呢？而各种机器的制造不得依靠理论指导实践么？牛顿运动定律虽然是强有力的理论武器，但是当用它解决这些形形色色的实际问题时也会显得复杂重重。

另外，牛顿运动定律用在复杂问题中显得麻烦的原因还在于其核心——是一个矢量表达式。而在具体计算的时候都是用它的分量式，也就是高中生非常熟悉的正交分解法。即在空间直角坐标系里，把力和运动分别沿三个坐标轴的方向进行分解，化矢量运算为代数运算。如此一来，一个矢量方程就变成了三个标量方程：

要是再考虑约束条件带来的方程，总的方程数量会更多。这还只是针对一个对象的方程数量，要是涉及更多的对象，其方程总数就多得去了。

这里只看一个高中物理里的简单例子就能体会其中的复杂性。一个质量为的小球在竖直平面内沿半径为的圆形轨道做圆周运动，此刻它以速度运动到图中的点，其到圆心的连线与竖直方向成角。

采用矢量分解的办法，将圆心选为原点，建立如上图所示的直角坐标系。则写出的方程为：

方程组里除了质量、重力加速度和夹角已知外，还有三未知量。要解出所有的结果，显然还差一个方程。刚好可以利用约束条件，由于小球始终在圆轨道上运动，其到圆心的距离始终不变，所以有：

这里的和就是此时小球在点的坐标，这又是两个未知量，还得再利用运动学的公式，分别将其和、与、联系起来。由于小球在两个方向上做的不是匀变速直线运动，咱们还只能写成微分方程的形式（关于微分，下一节马上就说到，别怕哈）。你看，这么捣鼓下来，共有五个未知数、五个方程，其中还有微分方程，求解难道可想而知了。

看完上一段文字是不是一脸蒙圈？你欺负我没学过高中物理是吗？圆周运动哪有这么干的呢？不应该是在点沿法向和切向建立坐标系吗？而且也用不着用和来表示小球的位置关系，一个夹角就搞定了呀。

对对对，你说得都对，这么干确实简单得不得了。因为法向方向的方程为：

这么一来，轨道对小球的支持力就直接给求出来了。请注意一下这里的因果关系：支持力的大小是随着速度大小的变化而变化的，其值事先未知。假如我不关心支持力，只想知道小球沿圆周运动时的速度大小的变化特点，那么切向方向的方程送给你：

至于切向加速度与速度之间的关系可以通过简单的微分方程来确定。

天呐，不仅方程数量锐减，而且求解难度也大大降低了！对物理又开始爱了。细心的读者可能已经发现了，咱们不过是换了一个坐标系而已，依旧是用牛顿运动定律的套路来求解问题。本来嘛，这不正显出了牛顿运动定律的伟大么？管天管地管空气，牛爷就是这么傲娇。但是咱们要思考的是：更换坐标系是不是一种简化计算的通用方法呢？面对数量众多的矢量分量方程，咱们能有更好的办法来精简方程数量吗？

这些问题亟待大神们各显神通去解决，咱们在瞻仰大佬们的成果之前得先增添一些简单的数学武器。毕竟工欲善其事，必先利其器。

二、并不可怕的微积分

有关微积分的思想，大家可以去阅读我之前写的两篇文章。这里将围绕着微积分的定义引出后面要用到的一些工具。

说到微分就必须先提到导数。无论是某些物理量的定义——比如速度、加速度等，还是几何中为了衡量图线的倾斜程度，最终殊途同归到一个词——变化率，也就是一个量的变化值比上另一个量的变化值。

以形象直观的图形来说，要反映图中倾斜直线的倾斜程度，显然是图中的角度（0到90度范围内）越大，直线就越陡峭。而角度的大小可以由其正切值来反映：，也称为直线的斜率。

从图中可以发现，对于直线来说，无论哪一段的倾斜程度都是一样的。这很好理解，如果物体始终做匀速直线运动，无论用哪一段的位移除以对应的时间，求出来的速度都是一样的。但是相比直线，曲线是更常见的，变速运动也是更常见的。如此一来，曲线上不同部位的倾斜程度就不一样了。所以我们就会更关心曲线上每处的倾斜情况如何。

那么问题就来了，过曲线上一点可以画出无数条直线，哪条直线才是反映该处的倾斜程度呢？

从直线斜率的计算可以看到，要出现和，需要在直线上取两个点才行。所以同样的做法在曲线上来一遍即可，由此得到的直线称为割线。

但割线的斜率并不是我们需要的，因为取不同的点就会得到不同的割线，难不成曲线在点处的斜率会如此调皮？所以，既要利用点，又要使得计算结果为曲线在点处的斜率，只能让点无限靠近点，使其两者相差无穷小！关于这个幽灵，可以去看我之前的文章。

这么一来，我们就发现割线变成了曲线在点处的切线，而曲线在点处的斜率就由该切线的斜率来反映。此时，切线的斜率就得写成。由于曲线都有对应的函数来表示的，而数学里又习惯把函数写成，所以有：

从函数的角度来说，得给这个比值重新起个名字——函数的导数，记为：

别怕哈，这一坨表达式看起来好吓人，其实很简单——因为函数的导数就是该函数曲线在某点处的切线斜率。所以，只要你知道啥是斜率，看懂这个表达式肯定不在话下。

不过咱要啰嗦几句，记作非常简洁，但是容易忘记是对自变量求导数。所以为了强调是对求导，就弄了另外一个符号：

前面的这一块东西作用在其身上就表示对求导。有时候为了书写方便，就写成：

请注意，不是与相除哟！捋清这一点至关重要，不然你看到后面的公式肯定会糊。

导数说完了就可以说微分了。还是看图中的切线，其与竖直虚线相交于点。其中段的距离可以表示为：

由于本身就是无穷小了，即也是无穷小，那么与的差会更小，将其称为的高阶无穷小。你可以把高阶无穷小想象成是无穷小的儿子，既然老子都是小不点，儿子就更不用谈了。

咱们就是把称为函数在处的微分，记为。即：

由于自变量对自身的导数等于1，也就是，所以：

这么一来，函数在处的微分就可以表示为：

或者记为：

这和刚才导数的符号不同，这里是指函数的微分与自变量的微分的比值，也称为微商。

说完了这两个重要的概念后，就能根据定义得到几个重要的结论。这些结论在数学教材里都有严格的证明（都很简单明了），大伙自己去看书也挺香的。悦理君就当给大家留个练习哈。

常数的导数为零，记为

两个函数相加减的结果，其导数等于每个函数的导数相加减，即：

两个函数相乘的结果，其导数为：

这个结果记起来稍微要费点脑子：你可以想象自己一个人带着两个娃，现在得给娃脱衣睡觉，你是不是得挨个来？先给第一个娃脱衣服，让第二个娃一边呆着（）；然后是第一个娃看着，给第二个娃脱衣服（）。两个娃的衣服都脱完了才算完事，即。

至于两个函数相除的导数就不写了，后面的物理问题里暂时用不上。毕竟这篇文章的主角是物理，数学工具够用就行。

另外，还有一个重要的结论就是复合函数的导数。复合函数你可以想象成是套娃，函数的变量只是个中间角色，它是自变量x的函数，即：

所以函数应该写成，其自变量是。那么求的导数是指函数对自变量求导数，其结果为：

详细严格的证明过程请自行阅读数学教材。这个等式的识记也好理解，相当于你的娃现在穿了两件衣服，你是不是得一件一件的脱？而且是先脱外层的衣服，再脱里面的衣服，两件都脱完了才算完事，即。这就是复合函数求导的链式法则。

以上是关于求导的结论，而求导数的基本法则也就是求微分的基本法则，只是形式上稍微变一变就可以了。比如：

看到这里，是不是觉得微分理解起来也不难呀？本来嘛，当你理顺了概念的来龙去脉搞，由它衍生的结论也就手到擒来了。大家往后继续看就会发现，这种学习方式被悦理君体现得淋漓尽致。

回来继续唠嗑微分。前面我是用只含一个自变量的一元函数带领大伙叩开了微分的大门，但是更多的函数所含有的自变量不止一个，这样的函数被称为多元函数。它们的微分会不会有啥不同呢？

咱们就看看最简单的多元函数，即函数含有两个自变量和，记为。多元函数的导数定义完全类似一元函数，不过区别就在于函数的变化量可以由两个自变量中的任意一个变化所引起，所以函数在某点处的导数就有多个，其数量取决与自变量的个数。

如果函数的变化是由的变化所引起的，由此得到的导数称为函数关于的偏导数，偏心嘛，只管不管，记为：

其结果为：

同理，如果函数的变化是由的变化所引起的，由此得到的导数称为函数关于的偏导数，即为：

其结果为：

有了多元函数的偏导数概念，类似于一元函数的微分，则多元函数的微分就是：

说完了微分说就该说一说积分了，从如今的“微积分”这个名称上就能看出它俩可是一对形影不离的好基友。不过要想发现它俩的基情，着实要下一番功夫。

积分起源于对封闭图形的面积计算。你肯定能很快写出矩形、三角形或者梯形的面积计算公式，但是面对一般的封闭图形时就无能为力了。不过没关系，咱可以用那些规则图形的面积来逼近这个不规则图形的面积。这就好比铺地砖一样，总能用规则的地砖近似地铺满一块区域，至于边边角角可以用更小的规则地砖将其覆盖，直到最后看不出什么缝隙。

那这种朴素的思想如何用数学语言来描述呢？假设有一条函数曲线，在变量取值于的范围内与坐标轴围成了一个曲边梯形。当我们要计算这个图形的面积时，先把区间分割份，这样的话每一份就对应一个小区间，而每一个小区间就对应一个小矩形条，然后把这个小矩形条（相当于规则的地砖）的面积求和去替代曲边梯形的面积。

至于所有矩形条的面积和能不能代替曲边梯形的面积、以及代替的误差有多大，这有严谨的数学论证，咱就省略几千字了哈，数学教材可是等着你们去宠幸呢。显然此处只关注能精确替代的情形，即把区间分割成无穷多份，使得无穷多个小矩形条的面积和存在一个确定不变的极限值，那么这个值就是这个曲边梯形的面积，记作：

这个式子称为被积函数在区间的定积分，和分别称为定积分的下限和上限，是积分变量。

显然定积分是一个数，只要函数的表达式和区间定了，这个数就定了。换句话说，你把积分变量写成还是亦或是都没关系。

这是肯定的撒，比如说函数是二次函数，无论写成还是写成，这不都是相同的抛物线么？它与坐标轴所围成的图形还能有差别？如果现在咱要求这条抛物线在的范围内与坐标轴所围成的图形面积，结果肯定是一样的嘛。所以有：

为啥要啰嗦上面这么一段文字呢？还不是担心你对接下来的表述弄混淆了嘛。既然定积分是一个确定的数，如果让积分上限（用下限也行）在区间内任意取值，咱就可以一一对应的写出任意个定积分（请记住，它是一个数）。

看到这里，你是不是就想起了函数？变动的积分上限有与之一一对应的数！把这个函数起名为积分上限函数，记作。按照刚才描述的函数构造方法，则有：

其中。

你看，我可是特意把积分变量换成了，就是为了让你看清楚积分上限函数的变量是积分上限而不是积分变量本身！拗口不？那就慢慢地多读几遍哈！

花这么多铺垫给你甩出积分上限函数可不是为了让你练习拗口令，而是这个函数有个及其重要的性质——积分上限函数的导数等于被积函数，即：

等式成立的条件以及证明过程就请各位辛苦一下翻阅数学教材了，很简单、很容易看懂！

这个性质一下子就把求导和定积分给联系起来了。求导或者求微分是对函数的一种运算，那么这种运算就有与之对应的逆运算，就好比加法的逆运算是减法，乘法的逆运算是除法。如果函数满足：

则函数被称为是函数的原函数。显然，求原函数就是求导运算的逆运算。刚好上面提到的积分上限函数就是被积函数的原函数，这下该知道的重要地位了吧？

对了，你还记得常数的导数为零的结论吗？要是咱给积分上限函数加上一个任意常数，你会发现啥？新的函数的导数也等于，即：

所以新函数也是的原函数，这说明的原函数可以有无限多个。严格的数学证明会告诉你，如果是的一个原函数，那么其他无限多个原函数只能是的形式。也就是对于同一个被积函数来说，不同原函数之间只相差一个任意常数。

鉴于求原函数是求导的逆运算，而且原函数就长成的样子，这么重要的式子不得给它上个户口？于是将其命名为不定积分，记作：

也就是说不定积分是一种运算，是微分运算的逆运算。请不要把它和定积分搞混了哈，人家定积分是一个数。

什么？你要问定积分怎么算？积分上限函数笑而不语地向你招了招手。假设是被积函数的原函数，显然积分上限函数也是的同伙。刚才已经说过了，不同原函数之间只相差一个任意常数，所以有：

发现没，只要令积分上限里的等于，咱们要的定积分不就现原形了吗？

不过还有一个小问题就是任意常数的取值。定积分是一个确定的数，岂容你任意取值？若真如此，岂不是变成了薛定谔的定（小）积（猫）分（咪）？所以咱得把的值给求出来。很简单，你先令积分上限的等于，这不有：

么？于是就有：

再令积分上限里的等于，于是：

即定积分的值等于被积函数的原函数在积分上、下限处取值的差。为了方便，咱们会给出一个新的记法：

完美收工！这便是大名鼎鼎的牛顿——莱布尼茨公式！是它把定积分的计算与求原函数进行了联姻，于是微分与积分的基情就开始了。

三、和约束说不（1）

第一部分里提到，牛顿力学方程有些力不从心的原因在于研究对象会受到约束，所以如何在求解问题的过程中“消除”约束就是一个刚需。这里将“消除”加上引号，并不是说真的把作用在研究对象上的约束给解除掉，而是指在方程里不出现这些未知的、复杂的约束，从而使得方程变得更易求解。在那个小球沿圆轨道运动的例子里，咱们发现只要换一个坐标系就能使得求解变得柳暗花明又一村。

这是偶然还是必然？这背后有没有隐藏着什么不可告人的秘密？谜底揭晓，这个秘密就是坐（zou）标（jin）变（ke）换（xue）！即不再用直角坐标和来描述物体的位置变化特点，而是用另外一种坐标。这就好比买东西，以前总是用现金，现在有了手机支付，便捷程度一下就提升了。

不过要提醒一点的是，坐标变换没有绝对的好坏，只有在具体问题中存在相对最适用的区别。这就好比现金和手机支付一样都有存在的价值，手机没电没网的时候，现金支付是不是很香呢？

那如何进行坐标变换呢？这里有个依据——一个被称为自由度的东西。对于一个自由质点来说，当其在空间运动时，由矢量分解的特点可知，需要3个直角坐标、和才能确定它的位置。如果是个自由质点组成的自由质点系来说，则需要个这样的坐标来描述，也就是：

、、...、

由于每个质点都是自由的，所以这些坐标都是彼此独立的，少一个都不能把这个质点系的运动状态给描述清楚。这些独立坐标的个数就是这个研究对象的自由度。

但是对于受约束的研究对象来说，自由度肯定是要小一些的，因为约束的存在使得原先的部分坐标之间会有联系。还是看第一部分给出的小球沿圆轨道运动的例子，小球在竖直平面内运动，所以需要和两个独立坐标来描述它的运动。但是小球还被限制在圆轨道上运动，所以两个坐标之间始终满足：

的约束条件。

这个约束条件的存在，使得或总能被另一个坐标给表示出来，所以描述这个小球的独立坐标只需要1个就可以了，也就是它的自由度为1。这就是为啥咱们只用小球到圆轨道圆心的连线与竖直方向的夹角来描述它的运动的原因啦。

推广开来，对于由质点组成的质点系，其受到了个类似于小球这样的约束（称为完整约束，具体定义就不展开，个人觉得有点影响文章的连贯性，读者可以自行翻阅任何一本理论力学的教材），那么这个系统的自由度记为，其值为：

也就是说描述这个受约束的系统，只需个独立坐标就可以了。至于这个坐标从哪来，可以是以前的个坐标里选择个，也可以另起炉灶重新选择个其他的坐标。反正坐标系又不是只有直角坐标系这么一家。

至于新的坐标系是什么样子的，甩给你一句话——具体问题具体分析！好家伙，反手就是一个好家伙。比如说可以选极坐标呀，柱坐标，球坐标等等。为了给这些新坐标起个统一的名字，就叫它们为广义坐标吧。

不过别高兴得太早，换坐标并没有真正做到“消除”约束。啥情况？虽然使用广义坐标后，自由度从降为了，这会导致总的方程数量减少。但是若考虑到牛顿方程的矢量特性，依然要写出较多的分量式；而且未知的约束力也会出现在其中的方程里，即使咱们不想搭理约束力，也不得不硬着头皮联立求解方程组。所以咱们还需更彻底地“消除”约束。

回想第一部分里提到的约束，意思就是物体的运动状态有所被限制。比如车轮在地面上无滑动的滚动；刚体具有不变的形状；被光滑铰链链接的刚体等。这些例子里，静摩擦力就是使得车轮不滑动的约束力；刚体的内力约束其形状不变；铰链约束着被链接的刚体的运动状态。

对于纯滚动的物体来说，静摩擦力对其不做功；对于刚体来说，由于其形状不变，其内部各质点没有相对位移，所以内力做功的代数和为零；结合铰链约束的特点，铰链上的约束力所做功的代数和也为零。这些例子透露出，咱们可以通过从做功的角度来消除约束力的影响。

可是做功就会涉及到位移，那物体应该发生怎样的位移才能使得约束力做的功为零呢？这样的位移是特殊值还是普遍值呢？或者说物体真能发生这样的位移吗？

问题发展到这里时，咱们又遇到了拦路虎。再正常不过了，解决问题就是打怪升级的过程，这里再次需要有力的数学武器，但这个武器并不是为解决约束问题而生的，其来头可不小呢。

四、初识变分

历史上有过这么几个著名的问题：光在不同介质中传播时有什么特点呢？费马断言光通过空间中固定两点的真实传播路径是其用时最短的那条路径，这便是著名的费马原理。

伯努利曾向物理同僚们踢馆，悬赏一道智力题：小球从固定高处沿某条轨道滑到固定低处，怎样的轨道能使得小球最快到达目的地呢？这便是著名的最速降线问题。

关于这两个问题的具体求解，在后面会展现出来，这里暂时只说问题的求解思路。这两个例子都是要解决同一个问题——要从众多可能的轨迹中选择一条确定轨迹，该轨迹对应着最小值。

提到求最值应该不陌生吧？高中数学里不是经常求函数的最值么？所谓函数的最值，你可以想象有一片山区，所有山顶中最高的就是最大值，所有山谷中最低的就是最小值。而每个山顶（谷）称为函数的极大（小）值，所以求最值就转化成求极值。

用数学语言描述就是自变量在某个值附近取值时，函数值都不大（小）于的值，就说函数在处取极大（小）值。对于每个极值点，其典型的几何特征就是在处的导数为零，因为函数曲线在此处的切线平行于轴。

不过要注意的是，上述两个例子并不是要求函数的极值，而是函数的函数取极值的问题。啥？你确定你没多打几个字？没有！且听我娓娓道来。

求函数的极值，前提是这个函数已知了。比如咱们熟悉的抛物线函数，想知道当自变量在这个区间能否取极值时，只要按照上面的办法把函数求导，看看有没有的值能使导数为零。

但是上述两个例子里，咱们事先连函数的表达式是啥都不知道！这不显然的嘛，要是知道了函数表达式，路径不就知道了么？

所以例子里的问题应该是这样的：事先给定了的取值范围，但是函数表达式未知，可能是，也可能是，还可能是等。然后对这些不同的函数曲线比较长短，长短最短的那条函数曲线就是咱们的目标！这就意味着要把这些可能的待定函数丢进一个计算长度的函数里，这样的话，出来的结果就是该函数曲线的长度。

你看嘛，这不就是给函数再套一个函数嘛？所以，函数的函数这个叫法就是这么来的。拗口是吧？谁说不是呢？！所以它有一个新名字——泛函。咱们习惯把函数记作，则泛函被记作：

请不要被这个符号给吓到了，你可以随便用一个符号把给包起来。但是请注意，泛函的自变量不再是变量，而是函数。这是泛函与函数最大的不同。

弄清楚了泛函，就可以来说泛函的极值。和求函数极值一样，也需要求出泛函的导数，然后找出它的零点。函数求导需要计算函数的变化量，同理给泛函求导也要整出它的变化量。请再次注意泛函的变量是函数，所以泛函的变化是由不同的函数所导致的。而这些不同的函数就引出了变分的概念。

当自变量在它的取值范围内任取一个值时，此处对应着许多可取的函数集合，则与这两个不同函数之间的差值就称为函数在处的变分，记为：

显然，泛函的变化量则为：

熟悉不？是不是和函数的变化量及其相似呀？唯一的不同是函数的变化量来自于自变量的变化，而泛函的变化量则由函数的变分所导致。

类比可得（此处省略了上千字的严格数学推导），泛函也有“微分”！不过为了加以区分，泛函的“微分”称为变分，记作。不出意外的类比，其结果为：

其中和相差一个的高阶无穷小量。

如果泛函的变量有多个，以最少的两个变量为例，则泛函写成：

则其变分为：

依据参考前述的多元函数的微分结果。

扯点闲话，这里之所以省略了泛函变分的推导过程，主要目的在于突出类比的思想，这可是物理学里及其重要的思想方法，甚至可以说是一种优秀的物理直觉！把外在相似而内涵一致的现象归为一类，这不就是物理学的本职工作么？再者，泛函变分的推导远没有函数微分的推导那么直观和简洁，如果硬要堆砌出来，只会显得满满的硬核数学风，与本文的主题思想相差甚远。

言归正传，既然微分和变分如此的相似，咱们就指着相似性好好薅一下。比如说函数如果可导的话，那么其导数的变分则为。根据函数变分的定义可知：

再根据导数的运算法则有：

即：

也就是说对函数求变分和求导数的运算次序是可以交换的。这个特性会在后续反复用到。

好啦，变分的神秘面纱已经被掀开了一角，咱们的武器库里又多了一项得力的数学工具。想看它大杀四方的威力还请耐心地等等，现在咱们的思绪得回到物理问题中去了。

五、和约束说不（2）

在“消除”约束的道路上，咱们发现约束力做功为零就很香，只不过会困惑于功对应的是哪一段位移，以及这样的位移有没有普遍性。哎，这讨厌的约束啥时候是个头啊？！

嗨，就这？多大点事嘛。你不是不清楚对应哪段位移么？咱就给你弄出所有可能的位移！你不是疑惑位移有没有普遍性么？咱就给你弄出所有可能的位移！你不是还.....？咱就给你弄出所有可能的位移！怎么样，管够不？

好家伙，说得容易，怎么弄呀？物体运动的时候位移是确定的，你怎么弄出所有可能的位移呢？

简单！咱不让物体真的动起来不就完了撒？此时此刻的你是不是一脸懵逼？别担心，详细解释这就附上。先说物体的实际位移，它对应着一段时间间隔，在这个时间段内，由于物体的运动已经发生了，所以这段位移也就定下来了。那要是咱只着眼于某个时刻呢？这相当于把时间“固定”住，谁又会知道物体该往何处运动呢？

打个比方，当你从家去到学校，这就是你的实际位移，显然这是一段确定的位移。而你在家还没出门时，你是不是可曾想过去商场？去饭店？去球场？去一切可以去的地方？反正只要没迈开腿行动，头脑里就可以想出任何可以去的地方。

既然针对一个固定的时刻，物体在接下来的运动中可以有很多种可能的位移，而这些可能的位移并不是物体实际发生的位移，所以给这些可能的位移起个新名字——虚位移。啊这，名字就给人一种虚无缥缈的感觉，这很物理吗？

答案是这很物理！谁说物理里只能引入那些实实在在的东西？磁感线、电场线是不是引入的两个假想工具？这里的虚位移也是如此！它的作用就好比几何题里的辅助线，背后隐藏着巨大的作用。

那么虚位移又该如何来表示呢？物体的位置咱们可以用位矢来表示，其实就是从坐标原点指向物体所在的位置坐标的有向线段。

显然位矢是时间的函数，因为不同时刻物体所处的位置不一样，故把位矢记作，简记为。根据虚位移的特征，则物体在固定的时刻有很多可能的位矢，记作位矢集合。

写到这里，大家想到了什么？这不和刚刚介绍的泛函很像么？也是固定一个自变量的取值，此处对应着可能的函数集合。所以虚位移就是在固定时刻，两个可能的位矢差。这正好就是函数的变分嘛！所以沿用变分的符号，则虚位移为：

这就是为啥咱要先初识变分的原因，因为只有当你初步了解了啥是变分，你才能明白虚位移是个啥玩意。顺便说一下，物体的实际位移应该表示为：

由于咱们把位矢看做是时间的函数，那么当物体实际运动的时候，这个函数关系式是确定的（哪怕咱们还没求出来，也是如此）；而物体的实际位移只是因为时刻不同才导致的位置不同。咱一定要仔细区分虚位移和实际位移的表达差异。

对了，聊了这么久的虚位移，咱们可不要忘了引入它的初衷。虽然它能解决我们对于位移的那些困惑，但是最重要的问题——约束力做功为零的目的能实现吗？敲黑板啦，快点看过来。

比如物体被约束在一个光滑曲面上运动，咱们把这个曲面的方程形式记为：

如果里面不含有，则表示这个光滑曲面是固定的，因为它的位置不随时间变化嘛；而如果里面含有，则表示这个光滑曲面是运动的。至于这个曲面方程的具体长啥样并不重要，你若耿耿于怀这一点，你写个球面方程也行啊。

现在咱们让时间固定，让物体在受约束的前提下取其虚位移，则有：

成立。这不废话嘛，毕竟物体始终受到约束，就算产生了虚位移也是被束缚着，当然要满足这个约束曲面的方程撒。把这两个方程相减，你就会发现：

依据请参考多元泛函的微分。

请问有没有人觉得少一项呢？按照多元泛函的微分，确实有这一项，但是你在引入虚位移的时候不是要把时间固定么？也就是，所以这一项就没有了。你发现没，无论约束曲面的方程里是否含有参数，虚位移满足的条件都是一样的？即满足：

如果你对向量的数量积有所了解的话，上面的满足条件可以立刻改写成两个向量的数量积，即：

两个向量的数量积为零意味着这两个向量互相垂直，而这个等式里的第一个向量即为虚位移，第二个向量就是约束曲面的法向量。至于为啥是法向量，高中数学里可是学过如何通过直线方程写出该直线的法向量哟。你若会写直线的法向量，只要多加一个分量就是曲面的法向量。

得出了虚位移方向与约束曲面的法向量垂直的结论有啥用呢？别忘了物体在光滑曲面上受到的约束力就是垂直于曲面的弹力，即弹力与曲面的法向量共线。如此不就意味着弹力与虚位移互相垂直么？再根据功的定义有：

哈哈哈哈，约束力终于给“消除”啦！这里出现的称为虚功。由于约束力的虚功为零，从而达到了“消除”约束力的效果，这就是引入虚位移的真正目的，也是它自身价值的体现。

再比如说刚体，其内力约束着自身形状不变，这就意味着内部任意两个质点之间的距离是不变的。假设某两个质点的位矢分别为和，则约束条件显然为：

这个等式就是两点之间的距离公式，其中为一个常数。如果像上一个例子一样写成函数方程的形式，那就是：

根据前面已经推出的虚位移所满足的条件，即有：

化个简就能得到：

先别急着担忧这个化简的结果如何解释，咱们还没说这两质点所受的约束力呢。显然，它俩之间的相互作用力就是约束力。既然是它俩之间的相互作用力，不得有等大、反向、沿着两点的连线这三个特点么？

示意图里已经清楚地标出了来。如果把这三个特点的文字描述转化为数学语言，你会发现有：

前一个等号体现了两个作用力等大与反向的特点，第二个等号体现了两个力沿着两点连线的特点。啧啧啧，你不得不称赞数学语言的精准与简洁！

接下来就该把两质点各自所受约束力的虚功给弄出来了，显然有：

和

虽然各个约束力的功不为零，但是总功：

你看，约束力依旧被“消除”了。

咋样，用虚位移“消除”约束力很香吧？而且不仅光滑支持面和刚体有这样的特点，像光滑铰链呀、绷紧且不可伸长的轻绳等产生的约束，都有约束力的总虚功为零的特点。这就爽歪歪了，此法不仅实用，而且还能惠及一大批约束！就好比玩着消消乐，点开一个技能包消除了满屏的图案，爽不？

既然有这么多约束力的总虚功为零，于是乎就归个类吧——约束力总虚功为零的约束称为理想约束，记作：

什么，你又给我谈理想？难道物理离开了理想就不能活了？

看来有必要再次重申理想的意义——抓主要因素而忽略次要因素，从而把各种实际问题抽象成一个个物理模型，通过研究物理模型从而找出背后隐藏的规律。这才是理想的根本目的！至于如何抹去理想和现实之间的差距，待你弄清了本质规律后可以慢慢加入各种实际的因素，规律的适用范围不就扩大了么？还有问题？

好啦，现在工具都已齐活，咱们即将开始大干一场！在撸起袖子之前，我想强调的是：相比知道怎么干，弄清为什么要干和为什么要这么干是更重要的前提！毕竟事出有因，如果你只盯着做事之方而忽视了谋事之略，岂不是很容易堕云雾中？倘若读者能从这些文字中领悟到物理绝不是天马行空的胡思乱想，而是在解决一个个具体问题中逐渐发展的优美体系，我辛苦敲字的付出也就值得啦。

六、横空出世的拉格朗日方程

开工之前再强调一遍，接下来的工作只是去改造牛顿运动定律的核心方程：

让其能更好地用于有约束的场景。至于会有啥不同凡响的结果，那就拭目以待吧。

核心方程里的力指的是物体所受的合外力。对于受到约束的体系来说，合外力可分为主动力的合力和约束力的合力。那么分到系统里的个质点来说，主动力的合力记为，约束力的合力记为。在这样的记号体系下，每个质点满足的牛顿第二定律方程为：

这里有。

看到这个方程，相信大伙不难想到接下来要干嘛——把等式两边同时乘以对应质点的虚位移，利用理想约束的总虚功为零的特点将约束给“消除”掉。不过有个问题咱们得交待清楚：等式右边的是啥？它乘以虚位移以后又是啥？它要是毫无名分的呆在等式里像什么话呀？

所以咱们要把这个方程进行一个骚操作——把移项到左边来，使得方程变成：

那么就有名分了。不是，你这是在逗我吗？小学生都会的等式移项，你拿来糊弄谁呢？这操作还真是骚啊！

各位请稍安勿躁，就是这么一个简单的移项还就真的解决了名分问题！从数学的角度来说确实就是简单的移项，但是考虑到物理量纲可就意义重大了。咱看个通俗易懂的例子，假设一份饭20元，可以写成等式：“20元=一份饭”。你若没有一张20元的钞票，可以付两张10元的钞票嘛，那么等式为：“10元+10元=一份饭”。也就是说钱和钱能直接相加，可你有听过钱和饭相加的吗？即对于物理量来说，只有量纲相同的量才能相加。倘若你非要把等式里的“一份饭”进行移项，将其写成：“-(一份饭)+20元=0”，那么“-(一份饭)”表示的只能是钱！只能是钱！是钱！看到这，你还觉得移项是个简单的活吗？

回到牛顿第二定律的方程里来，没有移项以前就是质量乘以加速度，而移项以后，这一项就是力！这就不禁有人问了，哪来的力？这个力确实不是真实存在的，咱们称为惯性力。至于为啥这么叫，我在后文合适的地方再提及。但无论如何，即使不纠结它的名字，这一项表示力肯定是板上钉钉了。如此，等式：

里的每一项都有了正当的名分，分别是惯性力、主动力和约束力。若将等式两边同乘以质点的虚位移，等式变为：

那么各项分别是惯性力的虚功、主动力的虚功和约束力的虚功。

如果这个质点系受到的是理想约束，不就有约束力的总虚功为零么？也就是：

所以咱们只需把所有质点的虚功方程相加即可构造出约束力的总虚功，即：

于是对于理想约束的体系来说，改造后的方程就能简化成：

等等，你管这个叫简化？我的拳头都变硬了！

相比单个不受约束的质点的方程来说，上式确实有些复杂，那是因为单个不受约束的质点本来就是最简单的情形啊。但是对于受约束的体系来说，上面的方程成功地消除了未知约束力的影响，你能说它不是简化的结果？

另外咱要坦白的是，上面的简化结果是借助理想约束的条件才得到，可是在复杂的现实面前，理想化岂不是我们的一厢情愿吗？并不是的！遇到非理想约束的情形时，你把力看成是主动力与非理想的约束力的合力不就可以了嘛？剩下的问题就甩锅给数学吧。这就是我在上一节提及的如何在理想和现实之间搭建桥梁的方法。

理想化的问题咱们可以不纠结了，但是这个简化方程里又出现了一个新的问题——虚位移。物理规律建立在这么一个虚无缥缈的对象之上，总让人觉得不放心，所以社会主义改造的步伐依然不能停下来。

咱们回头看看得到的方程，它是项乘积的和为0。如果每个质点的虚位移之间都是彼此独立、互不影响的话，那么由于虚位移的任意性，要保证所有项的和为零，只能是每项虚位移前的系数都为零才行。这个结论可以用反证法得到，严格的证明过程可以参考变分法的教材，不难。

果真如此的话，这个方程就退化成了自由质点的牛顿第二定律表达式啦，说明上面的这个简化方程是可以包含无约束的简单情形。而对于有约束的质点系来说，质点系的虚位移之间不再是彼此独立的，怎么办？

想起来了吗？在“和约束说不（1）”里面就提出了专门解决这个问题的办法——广义坐标呀。假设这个受约束的质点系的自由度为，也就是要选择个彼此独立的广义坐标，记为：

那么每个质点在时刻的位矢就是这些广义坐标的函数，记为：

这里有。

质点的位矢被广义坐标给表示出来了，那么质点的虚位移肯定也就不在话下了撒。显然有：

注意虚位移的特点，时间是被固定的。所以把上面两式相减，再参考多元函数的微分就有：

这么写挺麻烦的，甩出求和符号就挺简洁，即：

更换了广义坐标后，方程就变成了：

大伙千万不要怕这个表达式，这就是把项类似于

的表达式相加而已。

另外，根据速度定义可知，速度等于位移除以时间，也就是位矢对时间的导数；而加速度是速度的变化量除以时间，也就是速度对时间的导数。所以加速度就是位矢对时间的二阶导数（数学部分涉及导数时，约定在函数字母的右上角加撇号；物理部分涉及导数时，约定在物理量字母的头上加点号），记为：

最终方程变为：

把等式左边的这一坨东西稍微变形一下（即把小括号拆开），就变成了：

眼瞅着等式越写越长，这还了得？那就先找个新符号吧，令：

称其为广义力。

这个叫法很自然，因为方程的第一项变为了：

对比原始方程就会发现这不就是广义坐标下的“主动力”的虚功么？所以把称为广义力再合适不过了。

等等，我咋感觉你又在敷衍呢？说来说去，你只不过是换了壳，用去代替了书写比较麻烦的一项，至于怎么求、怎么继续变化，你却只字不提。哎呀，别着急嘛，时候未到而已，后面会给安排的哈。但不管咋说，它的名分不是给了嘛？先占个坑。

现在重点说说等式里的第二项，只要咱们稍微施加一下魔法就可以让它大变样！由于这一项里存在二阶导数，如果咱们想要求出未知的位矢，那么需要要积分两次才能还原。本来积分计算就比较麻烦了，结果还要来两次，岂不是自讨苦吃？难道就没啥好的法子吗？

有的亲，分部积分法就能大有作为。所谓分部积分法其实就是利用两个函数乘积的求导公式来替换积分对象，从而使得积分计算变得相对容易。所以，为了替换掉这个讨厌的二阶导数，咱们将其变换为：

别怕别怕，动手把等式右边的第一项按照函数乘积的求导法则展开就能得到上述这个恒等式，要不亲自试试？

这么一弄，二阶导数就可以被替换了。可是替换出来的结果里变成了两项相减，而且看起来挺吓人。别急，魔法还没施展完呢。

由于

其中表示对时间求导。而含有多个参数，并且每个坐标也与时间有关，即每个坐标也是时间的函数。这相当于它有多个娃，且每个娃身上都穿了衣服。现在要对时间求导，意味着要给每个娃脱衣服，流程就应该为抱来一个娃，然后给Ta脱衣服，直到把所有娃的衣服都脱完。知道该怎么写了吗？于是就有：

来个求和符号，并且把广义坐标对时间的导数即广义速度记为其字母的上面打一点，于是有：

顺带着咱们还发现了这么一个结论：

因为你是把对其中一个变量求偏导，而每个变量之间彼此独立，所以其偏导数自然是变量前面的系数啦。

再来看

这一项。对其中一个广义坐标的偏导数一般仍旧是所有广义坐标及时间的函数。比如函数含有和两个变量，求函数对变量的偏导数为，结果依然含有所有的变量。当然了，特殊的情况里，函数对某一变量的偏导数可能是常数或者只含部分变量，大伙完全可以自行举例哈。

所以考虑一般情形下，将对时间求导就得对所有变量再来一遍“脱衣”操作。即：

显然我们得用上求和符号的，则有：

请注意是角标在遍历取值，如有不明白，对比它的完全展开式。

嘿，你想退出不看了吗？哎，我说别急着走呀，上式不就是多元函数的求导嘛？看把你给吓的，别怕哈。况且好戏马上就要开始了，不信的话继续往后看。由于每个广义坐标是彼此独立的，所以可以把求导的先后顺序进行调换。为啥要这么做呢？话不多说，先看看效果吧：

看出变化了吗？求导顺序调换后，就是把对求偏导的操作提到最外面来了。那再看看整个括号里面是啥？不就是么？你以为将计数序号换成我就不认识你啦？所以这一大坨东西就简化成了：

这下你明白了交换求导顺序的目的了吧？对了，这出戏还算精彩不？偷偷告诉你，后面的好戏更多哟。

写了这么多公式，其实就是把和进行了变形和化简。来看看等式现在的样子：

再把等式右边第一项的求和符号放到求导运算里，则：

这回看起来是不是有特点了？因为等式右侧的两项里都含有，而且偏导符号都作用在上，唯一的区别就是偏导作用的自变量不同罢了。这又给了咱们捯饬捯饬的机会。

还记得复合函数求导的法则吗？如果复合函数长这样：

那么函数就是各个广义坐标和广义速度的函数，因为是各个广义坐标和广义速度的函数。现在要算对某个广义坐标或广义速度的导数，不就得一层层的进行么？显然有：

和

这两个结果刚好就能和等式右侧的第一项与第二项对上。巧不巧？

是不是有点好奇为啥会选择函数呢？为啥把对某个广义坐标或广义速度求导后就出现了咱想要的结果呢？其实一点也不稀奇，当你知道一些常见函数求导的结果以后，你反过来凑出这些函数岂不是易如反掌？就好比你熟悉了完全平方的展开式，你是不是就会根据现有的三项凑出一个完全平方呢？道理是一样的。

对了，你看眼熟不？是位矢对时间的导数即速度，那么质量的一半乘以速度的平方不就是单个质点的动能么？那么质点系的总动能则为：

倘若你亲自演算一下就会发现：

怎么样，世界是不是一下子就清爽了很多？

如果再把之前定义的广义力翻出来，咱们花费了一些精力改造的牛顿第二定律表达式就变成了：

由于每个广义坐标是彼此独立的，要使所有项的和为零，只能是：

这里有。

好端端的牛顿第二定律表达式被你整成这幅模样，这是整形失败了？别急着吐槽，人家这个等式其实长得也不差，至少也很简洁，不是么？况且我们在改造之前就说过两个目的：其一是为了解决未知的约束问题，其二是为了避免使用矢量式。你看它是不是都解决了？至于能否把它熟练地用得飞起，就看你的数学水平了。

当然了，大佬们也想面对简单问题，所以把目光瞄向了广义力。对于一类被称为保守力的力来说，它们共同的特点是：对物体做的功与物体的运动路径无关，只与物体的起始位置有关。这句话一说出来，是不是立刻想到了好几种这样的力？重力、弹力、静电力、分子间的作用力。既然这些力做功有如此特点，它们就会对应着相应的势能：重力势能、弹性势能、电势能、分子势能，是不是个个都耳熟能详？

咱们就拿最简单的重力来说吧。高中物理里，重力做功与重力势能变化之间的关系很简洁：

也就是说，重力可以表示为：

对于质量不变的物体来说，其受到的重力是恒定的（不考虑高度和纬度变化带来的微小影响）。所以咱们可以利用上式计算出整个过程里物体在任意位置的重力。那么问题来了，换成一个变化的力，比如弹力、非恒定的电场力，又该如何求出物体在某处所受的保守力呢？

这个问题是不是似曾相识呀？祭出极限大法不就可以了么？咱让初末两位置无限接近，极限情况下，上述的比值不就是物体在某处所受的保守力么？等式：

蹦蹦跳跳地向你招手。等等，这不就是重力势能对高度的导数么？即：

同理，弹力与弹性势能之间、电场力与电势能之间都有类似的关系，有兴趣就自己去推理吧。咱们就统一把势能记为，显然势能是位置的函数。由于力是矢量，在直角坐标里有对应的分量，根据刚才得到的关系，则每个方向上的保守力的分量大小为：

可能有读者会疑惑这里为啥是偏导，而刚才重力的表达式里却是导数。很简单，重力势能至于竖直高度有关（重物不变），所以重力势能是位置（竖直方向）的单变量函数。而一般情形下，势能是位置分量的多变量函数。

另外，如果你想直接写出保守力矢量与势能的关系，就得写成：

因为势能对位矢求偏导，其实就是分别对它的三个直角坐标分量求偏导，结果依旧是矢量，即：

而力不就是：么？明白否？

稍微推广一下，对于含有个质点的系统来说，其势能是与每个质点位置都有关的函数。所以每个质点所受保守力的各个分量分别为：

这里有。

有了这些铺垫，广义力：

就可以拿来改造了。求和符号里是两个矢量的数量积，咱们把它俩改成坐标形式，即：

接下来就是向量数量积的坐标运算啦，咱就不多费口舌了，结果为：

等式右边的这一坨东西连同求和符号一起，恰好就是的展开式。因为是每个直角坐标分量的函数，而它们又是广义坐标的函数，那么复合函数求导的链式法则用起来撒。
如此一来，广义力就及其简单了：

对比“普通力”和势能之间的关系，你会发现两个等式的形式及其相似。从这个角度来说，把它称为广义力也是名副其实呀。

把这种简单的结果带入到之前的方程里，就有：

由于势能一般只是位置的函数，与速度或者广义速度无关，说明：

所以可以把等式右边第一项里填一个常数，使得方程的形式变得更加简洁，即：

如果你嫌书写太麻烦，可以令：

则有：

这就是大名鼎鼎的拉格朗日方程，被称为拉格朗日函数！是的，他做到了！此方程随着他的巨著《分析力学》一出，拉式从此封神！

咱们回想初衷，不就是希望把牛顿第二定律变得好用一点么？心高气傲的拉格朗日才不会满足于小打小闹地数学技巧，他要的是站在巨人肩膀上开宗立派，发展出能一劳永逸解决力学问题的根本方法。这就好比战场杀敌，弱时小米步枪战术穿插，强时飞机大炮给老子炸！火力强就是王道！

这里咱们承认拉式方程的根本性，原因之一是无论广义坐标怎么取，拉格朗日方程都是不变的，这种万变不离其宗的魅力谁能抵挡？至于它是否还具有更深层次的意义，有待后文揭晓。

在即将结束此节内容之际，咱还得回答读者心中可能的一个疑惑：美如诗的拉格朗日方程是在保守力的前提得出的，那么问题就来了，保守力虽有，难道所有的力都是保守力？起码咱们熟知的摩擦力可不是保守力！这怎么搞？

你得这么看：从本质上摩擦力是电磁力，而电磁力属于保守力。所以拉格朗日方程似乎不会遇到非保守力的情形。不过这是从微观层面来说的，可是在宏观层面摩擦力是真实存在的，而且也不是保守力，此时咱们得到的拉格朗日方程就不能把广义力那一项进一步化简了。至于计算起来会不会很头铁，机智的我再次甩锅给数学了哈。

七、费马原理和最速降线

在揭示拉格朗日方程的深刻内涵之前，咱们得把目光转移到拉格朗日之前的时代。因为在此之前，有两个不同问题的答案殊途同归，冥冥之中好像暗示着什么。

前面已经提到过费马原理和最速降线问题，现在咱们要正儿八经地写出方程进行求解了。咱们都知道光在介质中的传播速度满足：

为了使讨论一般化，在光线穿过的平面区域内，介质的折射率与所在的位置有关，即折射率是坐标的函数。显然，光在介质中的传播速度就是坐标的函数，将其记为。

如今咱们想计算出光从一点传播到另一点的时间，不就是路程除以传播速度的事嘛，考虑到传播速度是变化的，微积分拿去用，不谢哈。所以咱们得先计算光通过的一小段路程，有：

然后算出通过这一小段路程的时间为：

最后算出通过全段路程的时间为：

费马原理说光在介质中通过固定两点时，是沿着传播时间最短的路径行进的。所以咱们现在的任务就是要找到一个路径函数使得最小。

而最速降线问题与之类似。

咱们先算出小球经过的一小段路程：

再根据机械能守恒定律，可以求出小球下降高度为时对应的速度，即：

可得：

所以小球通过这一小段路程的时间为：

显然，小球通过全段路程的时间为：

不难看出，最速降线问题目的也是要在两端固定的区间里找到一个路径函数使得最小。既然如此，两个问题就一并解决吧。虽然两个的表达式的具体内容不一样，但是从形式上都可以写成：

其中泛函的变量有俩——和。而咱们的求解目的就是找出使得最小，那么目光自然就落在了泛函积分（也是泛函）的导数的零点上。

要算泛函的导数，也就是计算泛函的变分；而它又取决于函数的变分：

所以咱们得先从此处入手。这里的是任意一条可能的路径，而是咱们要找的那条唯一的路径。由于真实问题的背书里明确要求所有路径的两个端点相同，所以在两个端点处有函数的变分位零，即：

接着，咱们就引入一个变量和一个与自变量有关的任意这函数，将函数的变分写成：

这里只要求在两个端点处满足：

而的值只受变量控制。有点迷惑不？明明，一面说函数是任意的，一面又说的值只受变量控制，这不是挂羊头卖狗肉嘛？请听好，是这样理解的：咱们是事先任选一个函数，这一步确定以后再通过变量去控制的值。这就好比炒菜以前你就往锅里随机洒了一把盐，最后这道菜的咸淡就只能用加入的水量来控制，明白了么？是不是妥妥的有控制变量法的味道呀？

这么处理的好处是可以把泛函看成是参数的单变量函数，因为泛函的变量：

是参数的单变量函数，意味着：

也是如此。

那么把泛函看成是参数的单变量函数有啥好处咧？就问你是喜欢一元函数还是多元函数？二选一是不是就老实地选一元函数？现在重新书写一遍目标泛函，即为：

如此一来，泛函取极值的必要条件变为：

求导的链式法则还不用起来？显然有：

之所以写成是想说明这个导数也是参数的函数。刚才咱们在写的时候就说过是咱们要找的那条唯一路径，也就是说当：

时才有：

所以这就要求=0，于是咱们就解决了：

和

另外，根据

和

两式，有：

和

好啦，万事俱备，咱就开始吹东风吧。目标导数就写成：

为了利用两端处的特点，所以得把右侧第二项改一改。因为这一项里有，将其取定积分后就能出现和。但是前面还有一项与它相乘，是不是得把它和凑到一起求导？前文已经用过的分部积分法还记得不？变形结果给你呈上：

接下来只需对上式两边积分：

等式右侧的第一项就为零了，因为

最终，咱们的目标导数就变成这样了：

由于

而具有任意性，所以只能是：

这里稍微多说几句，假若被积函数里有多个独立变量和其对应的导函数，即泛函为：

并且所有函数取值的端点也是固定的。那么只需完全复用上面的推导过程，则有：

不要怕嘛，相比只有一个变量的情况来说，多个变量的情形无非就是在求导时熟练使用链式法则。

那么对于每个独立的变量来说，其对应的在其端点处均有：

所以上面那个繁琐的等式里，右边的第一项为零了。再根据：

的结果以及每个是任意的，所以就能得到如此的个方程：

卧槽，这个结果的形式与上一节得出的拉格朗日方程如出一辙！如果把上式里的换成、换成，这不活脱脱的就是力学里面的拉格朗日方程了么？这是巧合还是里面有不可告人的秘密？元芳，你怎么看？

咱们捋一捋，最速降线问题在欧拉时代（1728年）就利用变分法（从几何的角度）得到了完美地解决，但若干年后（1755年）的拉格朗日提出了更普遍的方法——从分析的角度利用变分法，并严格得出了上述方程。咱们刚才的推导思路就是拉格朗日对变分法发展的贡献，此乃拉神的成名作！而为了解决含有约束的力学问题而诞生的拉格朗日方程是之后的事了（1788年）。

试想一下你是当年的拉神，当你看到自己全新改造的力学方程竟然有早已在世且失散多年的孪生兄弟，你会不会去重新审视变分法和力学方程之间的关系呢？所谓老树开新花，像这种老方法应用到新问题并得出新结论的故事即将上演。

八、最小作用量的前世今生

现在咱们的思绪又得重新回到费马时代，他和一批批学者一样是简洁的拥趸——自然界本身就是简洁的亦或是描述自然界的理论是简洁的，总之简洁就是王道。在这种信仰的加持下，他必然想要提出一个能解释多种光现象的理论，于是他认准了光在传播过程中走时间最短的路径。

想知道这个原理是如何来解释光的传播特点的吗？不要走开哈。

我们知道光在同一种介质中传播时是沿直线传播的。由于两点之间线段最短，而光在同种介质中的传播速度是定值，所以光沿着这条最短路径传播用时最短。

再来看光的反射现象，它指的是光从一种介质射到与另一种介质的分界面时，一部分光会返回到原介质中的现象。即整个过程里，光始终在同一介质中传播，所以传播的速度是定值。显然，当整个光路的长度最短时对应的传播时间最短。从下图中可以看到，依然是两点之间线段最短的特点。

最后再来看光的折射现象，它指的是光从一种介质射到与另一种介质的分界面时，一部分光会进入到另一种介质中的现象。由于光在不同介质中传播，所以传播的速度会发生变化。显然这种情况下，路程最短对应的时间就不是最短的了。

因为你得让光在传播速度快的介质里多走一段路程，而在传播速度慢的介质里少走一段路程，这样才能使得总时间最短。至于折射点在哪，费马自有他的方法给确定出来。这些细节不是这里的重点，咱也就写个批注吧：“我想到了一个绝妙的办法来找出折射点，只是这里的空白处太小，写不下了”。毕竟咱等凡人学不来费大神的成就，他的骚操作总可以学学吧？

可惜咱们被费大神撩得刚要入迷就被一盆冷水给泼醒了，因为费马原理虽然可以对光的传播特点做统一解释，可是面对光的干涉或者衍射现象就无能为力了。而且不怪咱们事后诸葛，这个原理本就有很大部分的先验假设，你可以认为是费马的物理直觉或信仰的体现。况且当时也没有合适的数学工具对其进行严格证明，所以这一次费马对简洁地追求算不上成功。但是前人栽树后人乘凉，费大神的思想星火吸引着后来人助其燎原。

在发展费马原理的人群中，绝对绕不开被称为最小原理之父的莫培督了。他认可费马的思想，但是想不通光的传播路径为啥是从耗时最短和路径最短中二选一。于是他来了个新瓶装旧酒——光所钦定的路径，其真正优势在于作用量最小！

至于作用量是啥，莫培督给出的答案是质量、速度和所通过的距离三者之积。至于他为什么要这么定义，鬼知道！这不就留下把柄了么？马赫作为代表就曾严厉批评，说莫培督的最小作用量原理只是一个模糊不清的概念，勉强地被用来解释各种不同的物理现象。想象一下你看着答案去凑解答步骤，是不是有内味了？

虽然莫培督的最小作用量被不少人诟病，但是它确实尽到了去统一解释不同物理现象的使命，比如不仅解释得了光的折射定律，还驾驭了碰撞过程中的动量守恒定律。这对追求简洁的执念喂的饼还不够大吗？虽然这个饼有点夹生，好在神队友欧拉来操刀了。

欧拉在研究静力学的平衡问题时就独立发现这类问题的特性都可以用某个量取极小值而导出。这下可就激发了欧拉的探索欲望，他想得到描述力学问题的普遍方程。好一个透过现象看本质，要知道欧拉可是解决了最速降线问题的大神，变分法就是由他创立的，人家的实力可是明摆着呢。

他修改了莫培督的最小作用量原理的表述：设定一个质量为、速度为的质点移动无穷小距离，则这个运动质点的真实轨迹是所有连接两个端点的可能轨迹中取值最小的。

你说的修改表述就是加了一个积分吗？你要这样想可就图样图森破了。欧拉是要用变分的思想找出任意可能路径中的某一条路径，而这条路径对应的作用量取最小值。从数学上来看，这是一个泛函问题。而莫培督的表述其实就是一个函数极值问题，即他已经知道了实际轨迹，然后用他定义的作用量一算，唉，发现其取最小值。这就好比欧拉是正向写出解答过程求答案，而莫培督是知道答案反过来给出解释。这才是欧拉表述的精髓所在，况且人家还自带严格的数学工具做后盾。

咱们弄两个例子来体验一下这个表述的威力吧。先看最简单的情形，如果没有任何外力作用在一个运动的质点上，根据牛顿第一定律可知，这个质点做匀速直线运动。那么从作用量的角度来看，如何得出这个结论呢？由于质点的质量不变，当其不受外力时，其运动的速度也不会发生变化（加速度为零）。对于作用量而言，质点在两点间的所有可能的运动轨迹中，只有直线轨迹才能使得作用量取最小值。所以结论就是：质点做的是匀速直线运动。

再来看抛体运动。质量为的物体在运动过程中只受重力的作用，设质点的初速度为。根据动能定理可以很容易知道质点运动一段距离后的速度为：

这里的是指起点和终点之间的竖直高度差。如果沿竖直和水平方向建立直角坐标系，则就是竖直方向上的位移。咱们的目的就是要找出竖直位移和水平位移之间的关系，即轨迹方程。显然现在我们并不知道的函数表达式长什么样。

那就试试作用量吧。首先写出运动过程中的小段弧长：

所以作用量为：

利用前面介绍的求变分导数的办法就能找到令作用量取最小值的条件，由此就可以求出和的关系，结果正是反映抛体运动规律的二次函数。这就留给大伙当个练习做做。

欧拉虽然有理有据地论证了最小作用量的观点，但是没有力学方程的背书让此观点依旧显得有些神秘。不过欧拉地成功尝试让拉格朗日看到了曙光，于是乎，拉神拿起了有自主知识产权的变分法武器去攻打最小作用量这个高地。

咱们在前面为了解决约束问题，通过引入虚位移的办法成功改造了牛顿第二定律，得到了被称为动力学普遍方程的结果：

由它出发，一路斩荆披棘得到了拉格朗日方程，通过它可以求得物体的运动轨迹。而拉格朗日早在解决数学里的泛函极值时就利用变分法得到了相同的方程，因此很难不联想到用变分法求作用量的极值也能求得物体的运动轨迹。探索就是从改造动力学普遍方程开始的，前方高能预警！

首先把方程移项成：

再把加速度写成位矢的二阶导数。显然咱们是讨厌处理二阶导数的，所以分部积分法刚好可以麻溜地用在等式右侧的这一项上：

考虑到约束问题的自由度，所以方程得改用广义坐标，那么下面的几段文字纯粹是数学运算了，各位看官请保重。

先看

这一项，求导符号与求和符号可以交换顺序，所以该项就变成了：

在第六节里已经出现过很多结论，咱们这里就照搬啦。各位要是忘记了，请辛苦回头查阅哈。显然有：

和

所以有：

求导的链式法则用了那么多次，你或多或少应该有些敏感了吧？你瞧上式的括号里出现了

这样的项，这里有。

倘若里的能变成，那么这个乘积不就变成了动能对广义坐标的求导结果了么？想到这里，结论

映入了咱的脑海。我在这里之所以略显啰嗦，是希望读者明白数学证明也好、数学推导也罢，并不是毫无目的的演算，而是顺着逻辑线自然发展的。所以读者不要被这种略显繁琐的推导给吓到了。

这下可好了，于是就有：

请注意“一点”之差！你瞧

就是动能通过第个位矢对全体广义速度的偏导之和。由于每个位矢的导数都会一般含有全体广义速度，所以把全体位矢遍历一遍后就得到了动能对全体广义速度的偏导之和，即

所以有：

于是咱们就将

这一项成功地变成了：

是不是看得还算过瘾且轻松呢？

接着看第二项

这个简单，由于求导运算和变分运算可以调换位置，那么马上可以得到

而右边的结果就是。

对了，原方程里的

这一项不就是主动力的虚功么？即：

你若换成广义坐标，那就是：

这个结论也早就在第六节得出了。所以不管你是用啥坐标体系，这一项就是主动力的虚功，就算天王老子来了也变不了。

好了，来看看动力学普遍方程的整形结果吧：

既然整过形，咱们就称其为动力学普遍方程的1.0版本吧。哎，大夫，还能帮我把这儿给整整那儿给修修不？咱还想再简化一点。行，那就满（得）足（加）你（钱）！

上式左侧的括号里不是有

吗？这就是坐标变换的必然结果，显然自然就是对应着咱们熟悉的这一项，所以请大声说出来它的名字——广义动量！偷个懒，换个简单的字母代替它，令：

另外，如果主动力是保守力，那么保守力的虚功就有对应的势能。那么根据功能关系即有：

要是物体运动过程里还存在着机械能守恒的特点，那么物体的动能与势能之和就是一个定值，即：

这里的是一个常数。只需对等式两边取变分，则有：

经过这么一番精心打扮后，动力学普遍方程被简化成：

撒花，2.0版本的动力学普遍方程发版啦。高能预警暂告一段落，果断给自己加个鸡腿吧，能看到这里实属不易！

享受完美食地犒劳，咱们又得继续开工啦，毕竟唯美食和知识不可负也。各位在刚才的数学变换中有没有忘记最初的目标呢？咱们可不是吃饱了没事干就跑来给动力学普遍方程做个整形，咱们是希望借助这个方程撑腰去坐实最小作用量原理。所以咱们得紧盯作用量不放手。

说到这，估计大家和我一样一脸懵逼——作用量到底是个啥？其实作用量就是人为定义的一个东西，现在有了动力学普遍方程和严谨的变分学做后援，咱们要做的就是把它给“凑出来”！是的，你没看错，就是给“凑出来”。所以接下来的内容数学味颇浓而物理色彩有些黯淡，警报拉响！

回想上一节得出拉格朗日方程的经过，咱们的目标泛函形如：

当泛函的变分时即可得到拉格朗日方程。所以咱们得想心思去找到这么一个积分泛函。打量一下整形后的动力学普遍方程，将等式两边积分：

恰好等式右侧的这一项里有变分符号，若将其拿到积分符号外侧，作用量会不会就构造好了？

呃，我有句话不知当讲不当讲：上述积分有一个非常隐蔽的bug。什么？！你看呀，在目标泛函

里，咱们是要求所有可能函数的自变量都在之间取值，也就是所有函数曲线的端点相同。如果咱们给动力学方程两边积分，就意味着已经默认了所有可能路径都有相同的起止时刻，因为你是冲着构造作用量去的撒，那不得和人家目标泛函一样么？

可是咱们在得出

的时候假设了物体在运动过程中机械能守恒，这不bug就出现了：所有可能路径的起止位置一样（这是大前提）、现在又要求所有路径对应的起止时刻也相同、你还假设所有路径都有机械能守恒的特点，你觉得这么多要求加一起是不是可以直接报出这条轨迹的名字了？这哪还需要对作用量求变分呢？

所以，在所有可能路径的起止位置一样、又想利用机械能守恒的特点，那么就意味着所有可能路径的起止时刻必然不同。咱们现在必须重新审视函数的变分了，深呼吸一下，警报再次拉响！

当每条路径对应的起止时刻不同时，路径函数的变分还要考虑到时刻不同所带来的影响。按照第四节所叙述的函数变分记为：

将称为等时变分。为了加以区分，这里把非等式变分记为（没找到合适的符号，只能用将就一下），有：

此处的是考虑到时间变化的一条曲线。

参考一元函数的微分可得：

将其带入到非等时变分的式子可得：

显然，等式可变为：

将得到的带入到动力学普遍方程，则：

上式左侧的结果是现成的，即：

而改造的重心就在右侧的第二项，因为咱们从来没有弄个非等时变分呀，还是第二项熟悉一些。

现在目光锁定在了

上，你若看不出啥门道，咱们把广义动量给换回来，即：

我猜你可能不习惯求动能对广义速度的偏导，没关系，咱把坐标换回去就完事了。（此处的推导方法不唯一，下面的推导过程就当抛砖引玉了）

咋把坐标换回去呢？还是求导的链式法则撒，只不过这回是反着用，不信你看结果：

没毛病吧？只是这越写越长的式子看得人心里发毛，当务之急是赶紧给它整形。

由于位矢和广义坐标之间的函数关系本就未知，所以这一项就是拦路虎。好在有结论：

整形的第一步就变为：

由于第一个求和符号只对最后两项有作用，所以结果可以改写成：

嘿，看到

这一项有没有一个激灵惊醒自己？咱们最初引入广义坐标的时候就把位矢与广义坐标的函数关系记为：

倘若你要求位矢的导数，二营长，你的链式法则呢？给老子上啊！于是有：

咋还多了这条讨厌的尾巴呢？没办法，这就是链式法则的结果啊。不过咱们也有办法甩掉它——假设就可以了嘛。这意味着我们假设位矢不含有时间参数（如此会使得拉格朗日函数也不显含时间参数，这必然会有系统机械能守恒的特点，这个结论在最后一节会抛出来），说明咱们考虑的对象是个稳定体系。这样的对象还是有的嘛，假设行得通。

如此，咱们的整形手术就可以完工了，有：

等号右侧的结果完全就可以直接看出来了：

也就是咱们发现：。

好啦，众神归位，方程

就变成了：

由于是常量，所以

于是等式变成了：

你看右侧的部分是不是刚好就是动能的非等时变分呢？所以此式的完成态为：

对比2.0版本的动力学普遍方程

上式仅有的改变就是把等时变分换成了非等式变分。但正是这一细微的变化却修复了前述所提及的bug，这个补丁打得很是及时呀！

咱们现在就可以放心地对打了补丁的2.0版方程两边进行积分了，有：

对于不同的可能路径，其对应的起止时刻和可以不同，这里只是统一用其表示积分的上下限而已。

显然等式左边的积分结果为：

因为虽然每条可能路径的起止时刻不同，但大前提是每条可能路径的起止位置是一样的，所以在两个端点处有：

于是乎就有了拉格朗日心心念的最小作用量啦，即：

也就是说拉格朗日要找的作用量为：

当它的变分为零时就能推导出力学中的拉格朗日方程啦！

奇

怪，当初从力学问题中得出的拉格朗日方程明明长这样：

可是你这作用量里没有拉格朗日函数啊。别急，待我给你变一变。还记得咱们曾经引入的拉格朗日函数等于

那么

对了，咱们不是一直假设有机械能守恒的特点么？所以

于是

这里的是常量。你现在再去看看这个作用量，它能推出拉格朗日方程吗？

好啦，警报彻底停歇了。回想这一路的历程，咱们发现猜想终归只是猜想，无论你有多么坚定的信念也必须付之严格的证明，这颇有一番西天取经之意境。如今终达极乐世界，想必曾经的艰辛也是值得的。不过我佛讲究九九归真，劫数未满难成正果，拉格朗日推出的最小作用量原理便是如此。

究其原因就是这个最简形式的最小作用量原理只能针对机械能守恒且外力为保守力的情形，少了这些限制就无法得出这个最简形式。还有呀，上述数学味颇浓的推导过程导致后续的许多物理同僚质疑最小作用量原理只是一种有趣的数学变换，所以拉神的最小作用量原理并没有得到实际应用。

它的命运会如何发展？To be, or not to be, that is the question !

九、哈密顿原理

虽然拉格朗日的最小作用量原理没有激起太大的水花，但是拉格朗日方程可谓是威风凛凛，人称数学的一首诗！美如画也不过如此吧。后生才俊哈密顿受到这首诗的熏陶之后，宏伟目标也就随之浮现了：要通过演绎方法从最少的公理去导出一个体系的完备表述。显然，最小作用量原理被他看中了，而他要做的就是改进它。

这里我想简要提一提哈密顿的成果发布历程。被“数学的一首诗”熏陶过的哈密顿最早将目光投入到几何光学领域，想借用拉格朗日的思想方法去构建几何光学。天资聪颖的他做到了，并在这个过程里认识到了几何光学领域的最小作用量原理。而更能体现其水平的地方在于他将光学领域的成果类比到经典力学领域，从而重构了经典力学体系，也就有了本节的主题——哈密顿原理。

我啰嗦上面一段看似没营养的文字是希望读者明白：无论这个领域是实现了从0到1的飞跃，还是实现了从1到10的发展，都是大神们站在前人肩膀上进行接力赛的结果。即使再聪明的头脑，其迸发的思想火花都是有迹可循的。所以请读者牢记：科学研究永远需要脚踏实地，鸡汤故事才需要夸张的天才素材。希望读者在学习的过程中都能有正确的认识。

好啦，回到正事里来。要得到哈密顿原理，其实途径和拉格朗日非常相似，但是哈密顿在处理变分的时候从一开始就一针见血的采用等时变分，这是他比拉格朗日做得好的地方。稍后大家就会看到哈密顿原理的表述，里面涉及的概念要清晰严谨得多！

至于推导出结果就非常简单了，因为可以把上一节中的主要推导过程直接复制过来。而且咱们在上一节里已经被拉格朗日鞭策过了，怎么说也会获得一些公式免疫吧。

有请1.0版本的动力学普遍方程入场：

这个版本的方程里没有涉及机械能守恒的假设，所以哈密顿可以放心的对其进行等时变分的处理。即对于所有可能的路径，不仅起止位置相同，咱还要求对应的起止时间也相同。如此一来，每条可能的路径对应的机械能就会不一样了。如果其中一条路径有机械能守恒的特点，那么其他路径就没有这个特点了。不过没关系，反正1.0版本的方程里就没这个限制。

接下来只需对这个方程两边积分：

这个操作咱们已经见怪不怪了。显然等式左侧的积分结果为：

因为所有可能路径的起止位置一样，所以路径函数在这两处的变分为零，即：

只需这么简单的一步，咱们就得到了哈密顿原理，即：

不是，这是哪跟哪啊？看起来还不如拉格朗日给出的最小作用量原理呢。哎呀，不着急嘛，这个等式是哈密顿原理的一般形式，如果你想得到简化版的表达式，来嘛。

你可还认识

这一项？对喽，就是主动力的虚功。如果主动力是保守力，这不就有

现在再看上面的等式变成啥样了：

哦豁，咱们在前面不是把拉格朗日函数定义成么？来了来了，你要的最简表达式来了，即：

把变分号拿到积分符号外面来，则有：

咋样，这简洁程度是你想要的不？清晰明了的推导过程换来如此简洁的结果，你还能不爱么？其实在第七节尾处咱们就发现了端倪：只要把目标泛函

里的换成拉格朗日函数，就能通过目标泛函的变分为零得出力学中的拉格朗日方程。而如今，咱们通过力学方程正儿八经地得出了这个结论。看来这个玩意还真有点内涵哟。

哈密顿给起了个名字叫做主函数，还给了它一个符号记作

于是乎，哈密顿就甩出了原理：保守的、完整的力学体系在相同时间内，由某一初位置转移到另一已知位置的一切可能运动中，真实运动的主函数具有稳定值，也就是有

的结论。这就是大名鼎鼎的哈密顿原理（哈密顿版本的最小作用量原理）。

嘘，我知道你会疑惑啥。先说保守的事，只有在保守的条件下，作用量才能写成这个最简形式。不过前文已经谈过了保守与非保守的问题，按照目前的观点，所有的相互作用都可归纳为四种基本相互作用，而这四种基本作用全是保守的。从这个角度来看，咱们可以不用去纠结非保守的情况。倘若你非要盯着非保守的情形，那么把哈密顿原理的一般形式拿去用喽。

再来说稳定值。稍微有点高中数学底子就能明白，对于一个函数来说，如果它的导数在某处的值为零，并不意味着这个函数在此处取到了极小值！因为还有可能取到的是极大值，甚至并非是极值。但是这些情况下统称为函数取到了稳定值。类似的，当泛函的变分等于零时，也只能说泛函取稳定值。只是在很多物理现象里，作用量确实取的是最小值，再加上历史上一直都这么称呼的，所以最小作用量的叫法也就没有更正过来。

扫清疑惑后是不是就发现这个主函数香得不要不要呢？从它可以推导出拉格朗日方程或者动力学普遍方程，也就意味着经典力学范畴里的结论都可以由它推导出来了。这种由最少的公理推导出更多结论的理论体系正是哈密顿所追求的！他小子做到了！

更出乎他意料之外的是，哈密顿原理在经典力学范畴之外也能如鱼得水，这就甩牛顿运动定律好几条街了。高中生都很熟悉的牛顿力学有它的局限性，在电磁领域、高速领域、微观领域都不适用，但是哈密顿原理直到如今仍然担当着统一性原理的角色。从此，哈密顿原理实至名归地走上神坛，被封为“第一性原理”！

这里不得不进行一下咬文嚼字，物理学里面有定律、定理和原理的说法。定律是大量实验现象的总结；定理是基于定律给推导出来的；原理是从大量定律中抽象出来的能够用来推导定律的框架。比如牛顿的三大定律、机械能（动量）守恒定律、电磁感应定律等；比如动能定理、动量定理等。比如伽利略的相对性原理、最小作用量原理。看着这些熟悉的名称，定律、定理和原理之间的差异是不是就一下子体现出来了？

作用量说到这里差不多可以告一段落了。毕竟它里面的玄机需要在更广的范围里去体现，这个就得看我本人的悟性了。我争取把这个系列的文章写下去，因为我也很想体会这其中如痴如醉的美。

对喽，哈密顿不仅改造了作用量，还改造了拉格朗日方程，得出了一组更简洁、更有特点的方程。既然来都来了，那就和我一起去瞧瞧吧。

十、哈密顿方程

拉格朗日方程的诞生给解决复杂力学问题带来了福音，不过也增添了一些挑战——毕竟拉格朗日方程是一个二阶微分方程，要求解未知数得积分两次才行。要知道积分运算可比微分运算麻烦得多，况且你还要积分两次，想想都觉得头大。所以哈密顿对方程的改造就是从降阶开始的。

咱们再把拉格朗日方程组揪出来瞧瞧：

方程数量有个，未知数也有个，分别是。由于等式左边的第一项一般不为零，那么每个方程一般都含有这个二阶导数。

接下来咱们所说的降阶就是从这一项开始改造的。想想中学里解一元二次方程时，老师是不是教过我们一种办法叫做换元法？你有二次项没关系，咱把你替换掉！这样就能把方程化成一次方程。

类似的，哈密顿也是采用换元的做法。把广义动量拿出来，即

方程就变成了

你看，从形式上方程不就降阶为一阶微分方程了么？

想法挺好，只是中间还有很多工作要做。难道你只管替换第一项，就不管第二项了？这就好比甩给你一个一元二次方程

你只顾着把换成，结果方程变成了

是不是一脸懵逼？原本方程组只有共个未知数，结果你又弄进来共个新的未知数，使得未知数的总数变成了个，可是方程数量却只有个，这就有点讨厌了。

于是，想法子再弄出个方程就是咱们接下来的目标，怎么弄呢？

你想想，引进的个新变量就不能和之前的个变量有关系吗？毕竟咱们换元时是令

假如与或者有关系，那不就间接意味着与有关系了么？这每一个关系可就是实打实的一个方程啊，凑数肯定有用！

按照这个思路，可就是一位至关重要的媒婆。从拉格朗日方程可以看出，既然存在和这两项，意味着是和的函数，这里有。

很明显，如果不是和的函数，那么所有的和都为零。即使存在部分的和为零，也还是其他剩余的和的函数嘛。所以就一般情形来说，是所有和的函数。

此话一出，你看到和会想到啥？请大声说出“链式法则”！由于可能还是时间的函数，为了不让这个愣头青搅局，咱们就直接对取等时变分。即：

利用前面引进的换元，则有：

你瞧，在这个式子里出现了与的踪影，看来它俩还真有一腿啊！

另外，由于未知数只有和共个，意味着方程组里的其他量要么是已知的常数，要么就是这个未知数的函数！不难理解吧？假设这样的函数记为，那么原方程里的肯定就和这个函数有关系，或者说函数可以由来构造。

好吧，我承认构造的活有点像几何里作辅助线一样，存在一定的思维创造性和跳跃性，但思路既已到此，咱们也别无选择。这里我就直接给出的构造结果：

由于和其实都是的函数，并且构造里引入了，所以就是和的函数啦。

睁大眼睛看，接下来你将体验到函数所带来的快感！这不已经有了的存在么？所以咱也对做同样的操作，则有

把的结果带进来，就有：

另外，由于是和的函数，链式大法告诉你：

喏，照妖镜在此，妖怪还不快快显出原形？！所以对应项一一相等，即：

你瞧第一个等式，咱一下就把

的替身给找到了。把它带入到原始的拉格朗日方程，就有：

别急，我知道你想说啥，这不还有添头：

嘛。你看，这两个等式里的未知数就只有和了，而现在方程的数量恰好为个，并且从形式上看也都是一阶微分方程。咱们的目这么快就达到了？

可不嘛！偷偷告诉你，更大的惊喜在后面哟！如果咱们面对的是一个保守体系，那么就存在一种势能，使得广义力可以写成：

把它带入到换元后的拉格朗日方程里，则有：

由于势能只是广义坐标的函数，则有：

所以添头方程也可以改写成：

这个做法咱们在前面推导拉格朗日方程的时候就用过了。

好啦，最后偷个懒，令

以简化书写，那么我们的个方程就呼之欲出啦：

这里有

啧啧啧，整形过后的拉格朗日方程不仅变成了一阶方程，还贼对称！如果说拉格朗日方程被称为一首诗，这个方程组以神话自居绝对是当之无愧！这便是大名鼎鼎的哈密顿方程。

方程里除了未知数，这个是啥来头？它被称为哈密顿函数，根据前面的替换可知

请问你有没有觉得最后两项很眼熟啊？拉格朗日函数为

所以这两个函数之间的关系就为：

对了，咱们在第八节中推演拉格朗日的最小作用量时就发现

当然前提是咱们研究的对象为稳定系统。若是如此，哈密顿函数会简单得让你惊掉下巴，因为有：

这是啥？这不就是系统的机械能（暂只考虑力学系统）吗？我的天呐，对于稳定体系来说，它的机械能对广义坐标的偏导、对广义动量的偏导所得出的方程就能描述物体的运动规律！

如果系统的机械能守恒，那么哈密顿函数与拉格朗日函数的差别就体现在各自对时间变化的规律上

哈密顿方程说到这里，你有没有发现它其实就是另选了一套坐标体系：以广义动量和广义坐标作为变量，由此就能演绎出对称与简洁的一阶微分方程组。最重要的是，当咱们把眼光超越了经典力学的范畴后，哈密顿方程是过渡到其他领域最方便的形式。关于这一点，得在其他文章再写了。至于啥时候能写出来，就得看我的悟性了。

十一、一统江湖

哈密顿原理之所以被后来人推上第一性原理的宝座，这和物理学的根本任务是分不开的：对于一个系统，咱们得找出它的真实运动状态！可是不同的系统就会有不同的具体描述方式，你看力学系统就是关心它的位置如何变化，经典力学领域用牛顿运动定律来描述；电磁领域关心的就是电场和磁场如何变化，得用麦克斯韦方程组来搞定；而热力学系统又得另起炉灶。

请问你想不想偷个懒——绕开这些具体的、不同形式的方程来回答“什么是真实运动状态”？如果真能偷懒，岂不是一本万利的买卖？有这等好事，傻子才不干呢！不过思来想去，要实现偷懒，咱们就只有一种办法——是骡子是马，拉出来溜溜！将所有可能的运动状态都拿出来海选，从而在里面找出真实的运动状态。这么一来，不管是啥类型的系统，这种“笨”办法不就可以通吃了么？

你瞧，这个“笨”办法和哈密顿原理的思想不正是王八看绿豆——对上眼儿了么？这种路线正确的原理，你不把它放第一位放哪？再者，原理本身是无法直接给予证明的，得通过它推出的一些列正确的、自洽的结论来加以佐证。而哈密顿原理都经受住了这些严格地考验。所以咱们海选的依据就是作用量，即一个物理系统实际发生的真实运动状态是所对应的作用量具有最小值（稳定值）的那个状态。

好啦，现在开局一张图

接下来就看看它能在经典力学领域内画出什么绚丽的画面吧。

经典力学领域的规律被牛顿支配得明明白白，其核心就是牛顿三大定律。第一定律是说物体总保持静止或匀速直线运动状态，除非有力作用在物体上使其改变运动状态；第二定律就是大名鼎鼎的啦；而第三定律指的是物体间的相互作用力总是等大、反向、作用在同一条直线上。

而经典力学领域要解决的问题就是如何描述物体的机械运动，也就是搞清楚物体的位置变化有啥规律。咱们一开始接触物理的时候就知道，要判断物体的位置有没有变化需要找一个参照物，也就是参考系。虽然参考系可以任意的选取，但是牛爷的理论只能在惯性系中成立。就是说被选为参照物的对象必须是静止或者是匀速直线运动状态或者是这个对象不受任何的外力，以此为基准来描述物体的运动才能用上牛顿三大定律。

这样的参考系有没有呢？反正牛顿在其著作里就直接假定了宇宙深处有这么一个绝对的惯性参考系，它远离任何星体，所以它不受任何力的作用，自然就是牛顿心目中的白月光啦。不过有个问题咧，如果咱们只是想研究眼前物体的运动规律，是不是也得选远在天涯的绝对惯性系呢？那不得麻烦死啊？！

看到这个问题，教父级大神伽利略云淡风轻地笑而不语，默默地扔出了两件宝贝：伽利略变换和伽利略相对性原理。先说伽利略变换，假设你相对地面的行走速度是，飞驰的高铁相对地面的速度是；现在改成让你以同样的速度在高铁车厢里行走，如果行走方向高铁运行的方向相同，那么你相对地面的速度就是，反之你相对地面的速度就是。这么浅显的结论没毛病吧？

将其上升到理论的高度，假设现有两个不同的参考系和（对应上述例子里的地面和高铁），其中一个参考系（高铁）相对另一个参考系（地面）以恒定的速度（）运动，那么同一个物体（人）相对这两个参考系的位矢和满足：

并且我们认定在两个参考系里，时间是一样的。哈哈哈，这个天经地义的认识后来被相对论改命了。这里不用操心，我们目前只在宏观低速领域内讨论问题。

基于此才有了例子里速度叠加的运算，即把上式两边对时间求导，则有：

这便是伽利略变换。对于此矢量式，在直线运动中规定好正方向以后可以简化为代数运算，你可以自行验证上述例子里的计算结果。

如果这两个参考系都是惯性系，把位矢关系式的两边对时间求二阶导数，则有：

这说明物体在不同惯性参考系里的运动方程有相同的形式。推而广之，意味着所有的惯性系对研究机械运动是等价的；或者说在不同的惯性参考系里，所有的力学规律是等价的。这便是伽利略的相对性原理。

等等，咱们不是要从哈密顿原理去推演经典力学的体系么？怎么无缘无故地说起伽利略了呢？是这么回事，你要知道咱们现在也就一个哈密顿原理，至于那个长什么样子我们压根不知道。要是没有它的真面目，我们又如何能推演出更多的规律呢？即使是猜的模样，咱们也得有些依据才行，而刚才啰嗦了半天的伽利略变换和相对性原理就是依据。也就是说哈密顿原理可以演化出经典力学的体系，但是还要借助一些左膀右臂才能开疆扩土撒。显然伽利略的贡献是其左膀，至于右臂咱们稍后再说。

回到左膀里来，既然在不同惯性系中所有力学规律是等价的，而力学体系的全部性质都集中在拉格朗日函数身上，所以相对于不同惯性参考系来说，力学体系的拉格朗日函数所满足的方程肯定是相同的。敲黑板啦，并不是说力学体系相对不同参考系的拉格朗日函数一样。因为由一个力学体系不能完全决定对应的拉格朗日函数，其后还可以添加一个“任意常数”，这和求不定积分很类似。

这里的“任意常数”并不是我们理解的一个不变的数字，而是根据哈密顿原理推出的一个只与广义坐标和时间有关的任意函数对时间的全导数，即有：

这里的函数可以是任意的，只要求它的变量仅为和即可。

为啥会有这个特点呢？因为根据哈密顿原理，当对作用量取等时变分时，有：

由于哈密顿原理中有端点的限制条件，则有：

显然就有，即由哈密顿原理求出的真实运动相同，所以描述的为同一个力学体系。

再来说一下右臂，哪个搞物理的人不希望看到物理理论的普适性？这种能放之四海而皆准的特性除了能反映出物理规律有很宽的管辖范围外，还意味着物理规律满足对称的特点。啥？对称？这不是个几何特征的词么？

是的，单纯说对称确实指的是几何特征，比如你把一个正三角形实施绕中线对折、绕中心旋转等操作，你会发现操作前后得到的图形是一样的。将对称性引申到物理规律中去，意味着把物理规律也实施某些操作后依然有相同的结果。比如你换个时间、换个地点去做同样的实验，只要实验条件完全相同，你得到的实验结果就是一样的，即物理规律并没有随时间或者地点的变化而变化。这两个基本的对称性被称为时间平移的不变性和空间平移的不变性，时空还有其他的一些对称性这里就暂且不列了。

不过咱要实话告诉你，时空对称性其实是人们的一种假设，是对自然界是简洁的执念。现有的物理理论可都是建立在这个假设之上的，因为咱们坚信物理定律的普适性。倘若今后发现在宇宙的长河里，某段时间或某个区域里存在着不同的物理规则，那么现有的物理大厦估计就得重建了，毕竟地基歪了嘛。这事又不是没有发生过，百年前的两朵乌云不就干引发过一场轰轰烈烈的拆迁运动么？

咳咳，哥本哈根学派有一句名言：先有自然才有人类，但是先有人类才有自然科学。我们人类需要理解大自然才创造了这些叫自然科学的产物，但是大自然从来不需要理解人类创造的自然科学。

有了这些铺垫，我们就要开始大展身手了哈。本着由易到难的打怪顺序，咱们首先要解决的问题就是推出不受任何作用影响的自由质点的运动规律。自由质点相对惯性系里的运动时间与空间具有均匀性的特点怎样在拉格朗日函数中体系出来呢？这意味着拉格朗日函数里不显含时间和物体的坐标，如此一来，拉格朗日函数就只能是速度的函数。另外，空间的均匀性还意味着拉格朗日函数与速度的方向也没关系，即拉格朗日函数只能是速度大小的函数。由于速度是矢量，其大小是向量的模，考虑后续计算的方便，模的平方与模本身可以看成是等价的。所以我们可以猜出拉格朗日函数是的函数。

函数的变量给定下来了，但是咱们还不清楚函数的表达式，所以还要继续猜。考虑到伽利略的相对性原理，针对同一个力学体系在两个不同的惯性参考系中运动，假若两个参考系之间的相对速度无穷小，极限情形下，这个力学体系的运动轨迹肯定是一样的。如此一来，变换前后的拉格朗日函数虽然有所不同，但是只能相差一个仅与坐标（对于自由质点，用不着广义坐标）和时间有关的任意函数对时间的全导数。

假设物体相对参考系的速度为，参考系相对参考系的无穷小速度为，那么物体相对参考系的速度为：

将变换前后的拉格朗日函数就分别记作和，显然两者之间的差异满足：

咱们要用到一个数学公式，这是整篇文章里唯一一次没有任何铺垫就甩出了公式。我尽力了，毕竟数学工具到用时方恨少呀。这个公式就是大名鼎鼎的泰勒展开式，也就是把一个连续可导的函数用多项式去无限逼近。其实高中物理里就用到过这个结论，比如单摆要求摆角很小，只有这样才有。

泰勒公式：

为函数在点处展开的结果，其中最后一项（当趋近于时）是的高阶无穷小。

数学工具用起来吧。对于

先用完全平方公式打开得到：

由于本就是无穷小量了，那么就是高阶无穷小量，那就略去吧。所以拉格朗日函数变为：

对比泰勒公式，我们将视为公式里的，而视为公式里的，然后我们只需把公式展开到一次项即可。因为到了二次项，公式里的

是的高阶无穷小量，可以忽略了。

于是用泰勒公式展开以后的结果就是：

前面我们已经猜到了拉格朗日函数是的函数，所以其导数就应该是对求导，即：

再根据拉格朗日函数的差异特征，显然就有：

咱们把等式右边按照求导的链式法则展开，即有：

也就是有：

看好了！考虑到具有任意性，该等式恒成立的条件只能是对应项恒等。所以有

且

由于是常量，而只可能与有关，最多是个常数，因为只是的函数撒。

而等式右边的要么只与有关，要么就是常量。所以两边等式要恒成立，只能是这两个偏导数都为常量才行，即。常数是多少咱们不必去管它，就将其记作吧。由此咱们就得到了：

好家伙，咱们只根据两个原理就猜出了自由质点的拉格朗日函数，它居然是咱们熟知的质点动能。熟悉归熟悉，这结果可靠不？这还得用更多的事实来验证它。

上面咱们是借助两个惯性参考系之间只有无穷小速度的极限情形去猜出拉格朗日函数，但是实际情况里，两个惯性参考系之间更多的是存在有限的速度（暂不考虑高速的情形，目前超纲了哈）。如此情形下，刚才猜出来的结论能经受考验不？

假设两个惯性参考系之间的速度为，而自由质点在其中一个惯性系中以速度运动，那么根据伽利略变换可知，该质点在另一个参考系中的速度为

所以两种情形对应的拉格朗日函数分别为

和

根据伽利略相对性原理，在不同惯性参考系中的所有力学规律都一样，那么对于同一个自由质点来说，这两个拉格朗日函数也就只相差一个只与坐标和时间有关的任意函数对时间的全导数。

来吧，变形看看：

由于是常量，而

所以拆开后的结果可以写成：

你瞧，括号里不正好是一个只与和有关的函数么？看来这一关过了。

还有利好消息！自由质点在惯性系中怎么运动呀？想必大伙都知道答案——保持静止或匀速直线运动状态！这是大名鼎鼎的牛顿第一定律呀。那么拉格朗日函数及其方程能给出这个结论？

由哈密顿原理推出的拉格朗日方程，即：

咱们现在已经猜出了自由质点的拉格朗日函数为

所以有

和

将其带入到拉格朗日方程就有：

由于是常数，意味着。这个常数可以为零也可以不为零，若为零意味着物体保持静止状态；若不为零意味着物体保持匀速直线运动状态。怎样？拿捏得可否还行？

如果咱们只研究自由质点的运动肯定不够呀，怎么着也得来点相互作用吧？要不然要牛顿第二、第三定律有何用呢？

既然要来点相互作用，就得增加更多的质点，这样彼此之间才会产生相互作用嘛。一步步来，先假设有个质点，但彼此之间仍旧自由，相当于彼此都离得无限远。那么咱们把这个质点看成一个大的系统时，这个系统的拉格朗日函数想必不难猜出——就是所有单个自由质点的拉格朗日函数之和嘛，即：

如果把这个大体系弄小，让里面的个质点彼此不再孤单，那么它们之间不就有了相互作用了么？请注意，这个阶段咱们讨论的依旧是没有外部作用的情形，即对这个体系来说算是自由体系。那么这个体系的拉格朗日函数除了包含各个质点的动能外，还要包含一个与多个质点坐标有关的项，就记作：

奇怪哎，这个与质点间相互作用有关的函数为啥没有显含时间呢？其实这是必然的，因为伽利略相对性原理中存在着绝对时间的假定，如果显含时间，说明质点间的相互作用不是“瞬间改变”的，即影响的扩散有一定的速度。那么结合伽利略变换就会发现，在不同相对速度的惯性参考系里，质点间的相互作用的扩散速度就不一样了！

这...这说明了啥？你想呀，现在的这一坨存在相互作用的质点可不再是自由身啦，它们间的相互作用会直接影响到彼此的运动。如果彼此间的影响随着选用的惯性参考系不同而有先后之分，那意味着该质点系在不同惯性参考系里的运动规律就不一样了，这可正好与伽利略的相对性原理相矛盾呀。哈哈哈，谁还不是读着伽利略长大的呢？他那一套反证法咱用得麻溜着呢。

如此一来，这个质点系的拉格朗日函数就只是速度和位置的函数而不显含时间，可是这有啥好啰嗦的呢？睁大眼睛瞧着吧！既然不显含时间，根据求导的链式法则有：

就这？你在逗我吗？

别急，好戏才刚刚开始。质点系的拉格朗日函数不是满足拉格朗日方程：

么？这不正好可以把

替换成

嘛？另外就是，所以这么捣鼓一下后的结果就成了：

眼瞅着越来越复杂了吧？其实不然，等式右边不正好是两个函数乘积的求导展开式么？先不要往后看结果，看看自己能不能写出答案。没错，等式变成了：

再移个项，局势就明朗了，即：

一个函数的导数为零，说明这个函数是个常数。所以

是个常数。至于它是个啥玩意儿，化个简就知道了。

的表达式

里，只有第一项与速度有关，所以有：

那么就有：

也就是说

为常数。

你看这个结果，第一项是质点系的动能，根据量纲可以推测第二项肯定也是能量！不然的话，这两项怎么进行相减呢？

等等，咱们好像只听过能量相加时是常量的情形，也就是能量守恒，这里出现的是减号是不是有点小讨厌呢？

没关系，咱们既然已经确定了函数的量纲是能量，那就再定义一个新的函数，使得：

仅仅只是一个负号的差异，显然的量纲也是能量。你再看，刚才的常数就变成了：

简记为：

哈哈哈，这不就变成了动能加上某种形式的能量了吗？而且其和不变！

由于咱们现在考虑的对象只是宏观低速领域的力学体系，什么电啊、磁啊、分子啊、原子核之类的通通不予考虑。而且这个还只与质点的位置有关，这不就是势能了么？

我的天呐，本来只想着猜出自由质点系的拉格朗日函数，一不留神把机械能（动能加势能）守恒给推导出来了。意不意外、惊不惊喜？哦，想起来了，咱们的初心是要推出牛顿第二定律和第三定律，要不你先平复一下激动的心情，我们去见证更多的精彩吧。

现在已经得出了自由质点系的拉格朗日函数：

即系统动能和系统势能的差。由于牛顿第二定律是针对单个质点的规律，所以咱们需要把这个拉格朗日函数推广到受外界相互作用影响的单个质点的身上。

请不要重复造轮子，咱们完全可以把刚才的那个自由质点系一分为二嘛：待研究的单个质点和剩余的、运动情况已知的部分。这个情况对于质点来说，属于外部对象，咱们称其为处于外部（）场中。如此一来，把这两部分看成整体，其拉格朗日函数依旧如上，照搬过来即可：

这里的前两项分别是、两部分各自的动能，第三项是、之间的势能。

咱们现在的目的是得到处于外部场中的单个质点的拉格朗日函数，所以的表达式里只能保留与质点有关的信息。由于部分的运动是已知的，所以部分的位矢就可以用已知的时间函数来代替。本来嘛，运动物体的位矢就是时间的函数。如此一来，就是只依赖时间的一项。前面刚介绍过拉格朗日函数的特征，所以这一项不要也罢。这么一番处理后，咱们就顺理成章地得到了处于外场中的单个质点的拉格朗日函数啦：

发现没，在外场中运动的单个质点，它的拉格朗日函数依旧为通常的形式，差别只在于势能可能显含时间。所以将这个质点的拉格朗日函数记为：

将其带入到拉格朗日方程可得：

这又是个啥？

等式左边是将质点的动量对时间求导，由于物体的质量是常数（低速领域），所以结果为：

再把定义成质点所受的外界施加的力，这不妥妥地弄出了么？

什么，力能这么定义？为啥不可呢？你要知道，按照牛顿力学的发展历程，是先定义了力，后来才有势能的概念。现在只不过是反过来了而已，为啥不行？

厉害呀！把一个小小的拉格朗日函数捣鼓一下，牛顿的两个定律就现原形了。咱们一鼓作气，看看能不能推导出牛顿第三定律。

在牛顿力学的发展历程里，牛顿第三定律来源于对碰撞现象的规律总结，这在我之前的文章里有所提及。惠更斯在研究碰撞现象时明确指出了动量守恒的特点，牛顿老爷子由此悟出了物体间的相互作用力满足等大、反向、作用在同一直线上的特点，这就是大伙熟悉的牛顿第三定律啦。所以，接下来就是要看看哈密顿原理能否推出系统动量守恒这个特征。

说到守恒，上面在推导牛顿第二定律时，无意中用到了时间均匀性的特点。空间不也有均匀性么？那么通过这个特点是不是也能发现啥呢？

假如空间具有均匀性，那么一个封闭系统在空间里整体平移之后，其性质保持不变。这就好比有两套完全一样的房子，所有因素完全一致，你住哪套不是住呢？对吧？既然如此，倘若咱们把这个系统里的所有质点都平移相同的位移，这个体系的拉格朗日函数并不会发生改变，即。但是这个过程里，每个质点的位矢都发生了改变，即，这里有。

咱们早就知道了封闭系统的拉格朗日函数只与系统里每个质点的速度以及每个质点的位矢有关，所以根据链式法则有：

由于质点只是做了整体平移，其各自的速度并没有发生变化，所以，这里有。

各项准备工作就绪，咱们看看得到了啥：

由于位移常量具有任意性，而这个等式又是恒成立，所以只能得出如此结果：

一旦把这个结果带入到拉格朗日方程组

中，这里有。只需把方程相加即可得到：

这一项，于是你将会看到：

封闭体系的拉格朗日函数表达式咱们是知道的，所以求和符号的结果就是：

也就是有：

这不就意味着系统的动量是个常数么？系统动量守恒的结论就这么得来了。

至于想得到心心念的牛顿第三定律也非常容易。根据封闭体系的拉格朗日函数的表达式可知：

由于

这不显而易见的有

么？咱们现在只关心两个质点之间的相互作用力的规律，所以只需把这个封闭体系的质点数量降为2即可。对于每个质点来说，其所受的相互作用力为：

如果系统只有两个质点，则有：

这不正是作用力与反作用力的特点——等大、反向、作用在同一条直线上么？

好啦，现在咱们要收网捋一下了。从哈密顿原理出发，只需借助伽利略相对性原理、并假设时空具有均匀性，那么经典力学的所有规律全给弄出来了。哈密顿曾经的信仰——从最少的假设或者原理出发去构建整个物理体系，现在就在经典力学领域得到了实现!

嘿，请收下我的膝盖，让我有资格膜拜吧！

十二、结语

正如前言里面所说，我写这篇长文的目的就是想体验物理规律的普适性所带来的震撼。写到此，我终于可以松一口气，自我感觉已经做到了剥丝抽茧。相信能一口气看完全文的读者或多或少也能有所体会。

在写文章的过程中，我最大的感触就是只有能把自己给讲明白了，才能写出逻辑清晰、严谨自洽的文字。可能是自己当老师的缘故吧，我早已习惯了把学习过的东西以非常通俗的方式表达出来，所以有太多次面对一个概念、一个公式、甚至是一个符号时，我都会费尽心思去查找资料，只为了能让自己彻底明白。如此，我才能写出让读者易读能懂的文字。

最后，我发现学习也好，写文章也罢，这是能上瘾的。当我一次次输出有着自我理解的文章时，它们能反过来极大提升我的学习效率。而且这样的文章还很荣幸的受到一些读者的喜爱，幸福指数蹭蹭往上涨了不少哟。

咋样，你也想拥有这样的学习状态吗？那就请不要放过任何一个你面对的疑点，想办法干掉它，量变过渡到质变就会在你身上出现！到时你就尽情享受学习带给你的红利吧。

因物悦理

学物理不应该是云里雾里的感觉，理清它的逻辑线、享受它的普适性、欣赏它的简洁美，你一定会因物悦理~

公众号

后台回复【12】，免费领取高中物理同步专题讲练资料

后台回复【3】，免费领取高考物理专题训练资料

更多干货资料，敬请期待......

【往期精彩文章】

高中物理核心体系系列文章【从上帝视角审视高中物理】

学习高中物理会面临的系列困惑

高中物理学习策略系列

高中物理问题剖析系列（不定期更新中）

收起阅读 »

固有时（proper time）

四维坐标，四维速度，四维加速度

四维动量，质能方程

不变量和守恒量

四维力，四维牛顿定律

四维闵可夫斯基时空

洛伦兹变换

标量，矢量和张量

经典力学的一般性分析

插曲： 维空间的万有引力

稳定性：几维空间才合适？

一个更简单的方法

额外维？

附注

答复读者集中的疑虑

1 引言

2 常微分方程的差分求解

2.1 RC回路放电问题

3 偏微分方程的差分求解

3.1 一维热传导方程的求解

4 总结

强迫症犯了

有办法对称吗？

正负“不相容”

正负调换之殇

绝杀

总结

方式一 “易得”型

方式二 科学探究型

弹簧振子的常微分方程

弹簧振子的固有属性

振子的牛顿第二定律

胡克定律

牛顿与胡克的“联姻”——常微分方程

方式三 费曼的推理

1. 考虑特殊情况，化简微分方程

2. 抓住微分方程的关键性质尝试构造函数

3. 根据物理意义优化函数的表达

4.把函数尝试代入微分方程

结合物理情景分析意义

由特殊到一般，得到通解

方式四 用复变函数的思路

方式五 能量守恒大法好

弹簧振子具有的能量

弹性势能的泰勒级数

换元积分求解

最后的话

热门文章

热门话题

插曲：维空间的万有引力

方式二科学探究型

方式三费曼的推理

方式四用复变函数的思路

方式五能量守恒大法好