四维形式的狭义相对论及其动力学
作者|yubr
编辑|Trader Joe's
在前一章《闵氏空间和洛伦兹变换》中我们已经介绍了闵氏几何和四维语言,在本章中我们将使用前一章介绍的四维语言来描述狭义相对论及其动力学。
固有时(proper time)
假设给定两个事件,我们知道这两个事件发生的时间间隔在不同的参考系中看是不一样的,它们之间通过洛伦兹变换来联系。
我们选取一个特殊的参考系,使得在这个参考系中看,这两个事件是发生在同一空间点的,我们把在这个参考系中测到的两个事件的事件间隔称为这两个事件的固有时,记作 ,这也就是静止于该参考系的钟所测到的时间间隔。
需要注意的是,虽然我们是利用了一个特殊的参考系来定义固有时,但是固有时本身的值和参考系无关,也就是说,所有的观者测量到的两个事件的固有时是相同的。
根据固有时的定义和四维时空间隔的不变性,我们有
另一方面
从而我们得到了固有时 和坐标时 之间的关系
因为 所以 。
这告诉我们,对于确定的两个事件,在那个两个事件空间坐标相同的参考系去测到的时间间隔是最短的,换句话说,固有时最短。
四维坐标,四维速度,四维加速度
在前一章《闵氏空间和洛伦兹变换》中,我们已经证明了把时间和三维空间矢量放在一个可以构成一个4-矢量:
称为四维坐标矢量。
我们把四维坐标矢量对固有时的导数定义为四维速度矢量:
其中 是三维速度。利用定义容易证明,四维速度的内积是一个不变量:
我们把四维速度矢量对固有时的导数定义为四维加速度矢量:
其中 是三维加速度。利用四维速度的内积是个常数,我们可以证明四维速度和四维加速度是正交的:
显然,根据定义,四维速度和四维加速度都是4-矢量,它们在洛伦兹变换 下的行为和四维坐标矢量完全一样:
现在我们知道引入这些四维矢量的好处了:
根据 在洛伦兹变换下的变换规则,我们固然可以导出三维速度和三维加速度在洛伦兹变化下的变换规则。
但是这样做表达式会异常繁琐,因为这些三维量都不是洛伦兹协变的,而上面定义的四维速度和四维加速度在洛伦兹变换下的行为相当简单,它们都是洛伦兹协变的。
四维动量,质能方程
接下来我们转入动力学的研究。仿照三维动量的定义,我们把一个质量为 的粒子的四维动量定义为其质量和其四维速度的乘积,同时,我们把四维动量的第一个分量称为能量(除以光速),后面三个分量称为三维动量:
于是我们得到能量和三维动量的表达式:
四维动量的内积也是一个不变量:
从而有
上式就是最一般形式的质能方程。
对于质量为零的粒子(比如光子),我们有 ;
对于静止的粒子,我们有 。
不变量和守恒量
接下来我们来辨析两个非常重要的概念:不变量和守恒量。
不变量指的是在洛伦兹变换下不变的量,意思是在一个惯性参考系中测到的值和另一个惯性参考系中测到的值是一样的,不变量的值不依赖于参考系。
任意两个4-矢量的内积就是不变量,例如:四维时空间隔(四维坐标的内积),光速(四维速度的内积),质量(四维动量的内积),等等。
守恒量指的是在一个反应过程前后不发生改变的量,连续的对称性对应守恒量,例如能量(对应时间平移不变),动量(对应空间平移不变),角动量(对应空间转动不变),等等。
不变量和守恒量并没有必然的联系,不变量不一定守恒,守恒量不一定不变。
让我们来举一个高中物理中就熟悉的例子:一个质子和一个中子结合成一个原子核。我们知道在这个过程中结合后原子核的质量是小于结合前质子的质量加上中子的质量的,这称为质量亏损,表明在这个过程前后系统的质量并不守恒,所以质量不是守恒量。
但是我们还知道在这个过程中系统还会放出能量,前面亏损掉的质量利用上面的质能方程折算成能量后正好等于放出的能量,所以这个过程前后能量是守恒的。
另一方面,能量显然不是不变量,这从能量的表达式 就可以看出来:在一个相对粒子静止的参考系( )和在一个相对粒子运动的参考系( ),所测量到的粒子的能量显然是不同的,所以能量不是不变量。
概括一下,质量是不变量却不是守恒量,能量是守恒量却不是不变量。
四维力,四维牛顿定律
我们把四维力定义为四维动量对固有时的导数:
其中 是三维力。上式第二个等号实际上也就是四维形式的牛顿运动定律。我们来看看这个方程的4个分量分别代表什么含义。
0-分量:代表了能量守恒定律
i-分量(i=1,2,3):代表了牛顿第二定律
所以,四维形式的牛顿运动定律同时包含了能量守恒定律和牛顿第二定律。
预告:在下一章中,我们将用四维语言重写麦克斯韦方程组和整个电磁学,为此我们需要引入四维势,四维流,场强张量等洛伦兹协变的物理量,同时我们还将介绍著名的A-B效应。
收起阅读 »
闵氏空间和洛伦兹变换
作者:yubr
编辑:Trader Joe's
四维闵可夫斯基时空
我们在本科阶段接触的经典力学和经典电动力学里的物理规律,都是以三维矢量方程的形式描述的。
洛伦兹变换
标量,矢量和张量
逆度规
用术语来说:四维形式是“协变的”,三维形式是“非协变的”。
在下一章中,我们将用上面介绍的四维语言描写狭义相对论的动力学——我们将把熟悉的三维力学中的那些物理量(如:位置矢量,速度,加速度,动量,力,等等)和物理定律(比如牛顿第二定律)全部推广到四维形式。
如何理解麦克斯韦方程中的不对称性
本文旨在说明如何理解麦克斯韦方程组中的不对称性。为了不破坏能量守恒,麦克斯韦方程组中电场和磁场关于时间的偏导数不能同正或同负,而只能一正一负。经过尝试我们发现,即使调换它们的相对负号,我们仍可以得到一个自洽的麦克斯韦方程组。
强迫症犯了
关于方程(1)和(2):磁场的散度为 0 而电场的散度不为零,即磁场永远为无源场而电场可以是有源的;(多出一个 ) 关于方程(3)和(4):磁场的旋度既可以通过变化的电场产生,又可以通过电流产生,而电场的旋度只能通过变化的磁场产生,即不存在所谓 “磁流”;(多出一个 ) 关于方程(3)和(4):方程(3)的右边是负号,而方程(4)的右边是正号。
有办法对称吗?
正负“不相容”
都取正号; 都取负号; (3)正(4)负;
这下问题大了
无论是把方程(3)和(4)右边都改成正号还是都改成负号,都会破坏能量守恒定律,都是物理上不允许的。唯有一正一负才能保证能量守恒。
正负调换之殇
前方高能
我们知道除了用电场强度 和磁感应强度 ,我们还可以等效地用标量势 和矢量势 来描述一个体系,
慢着!!!
绝杀
总结
两个量绝对的正负号是没有意义的,物理上有意义的是两个量之间的相对正负。物理上只禁止了麦克斯韦方程中磁场旋度和电场旋度的右边同正同负的情景,而至于究竟谁正谁负,在物理上是等价的。
从对称性的角度来看,支配电磁规律的是 规范理论,而可以证明 规范理论在宇称变换下是不变的,因此电磁规律天生就具有宇称变换下的对称性。
附录
作者|
yubr
编辑|
TraderJoe's
The End
闵氏几何是什么?它是如何统一时空并极大简化狭义相对论的?
1905年,爱因斯坦正式提出了狭义相对论;1908年,闵可夫斯基给出了狭义相对论的几何表述,也就是我们这里说的闵氏几何。爱因斯坦一开始对这套几何语言很反感,认为这些纯数学上的“花架子”没什么用,还增加了相对论的复杂度。但是,他很快就发现闵氏几何非常重要,发现这绝不是什么纯数学技巧,而是有着深刻物理内涵的洞见。而且,如果要建立广义相对论,少了它根本不行。
几何语言清晰直观,在处理许多问题时有很大的优势,这在双生子佯谬里体现得非常明显:使用代数语言,使用洛伦兹变换去处理双生子佯谬,其中难度之大思维之绕,绝对是对智商极大的考验;而使用几何语言,这个问题就简单得不像是个问题。然而,目前绝大部分介绍相对论的书籍文章还是使用的代数语言,所以你还是能经常看到许多人在一些非常简单的问题上纠缠不清,争论不休。
梁灿彬老师说他上世纪80年代从“言必称几何”的芝加哥大学回来以后,就一直在国内大力推广相对论的几何语言,但是不明白为啥过了三十多年大众对它还是很排斥。长尾科技就在这篇文章里跟大家好好聊一聊,希望能够解开大家跟闵氏几何之间的心结。
因为这是从零开始的一篇文章,所以我暂时就只谈相对论里最简单的几何语言,也就是狭义相对论里的闵氏几何。至于广义相对论里涉及的黎曼几何,我们后面再说。
01为什么很多人觉得几何语言难?
了解相对论的人大多知道一点闵氏几何,知道我们可以通过画时空图的方式来解决一些很复杂的问题,但是他会觉得闵氏几何很难:把时空图画出来很难,画出来之后去解释时空图更难。当看到别人对着时空图“轻而易举”地把问题解决了,他心里没底。他无法理解为什么你说时空图里的这个代表了相对论的里的那个,为什么你对时空图里的一些点、线、面做这样的处理就对应着相对论里的那个问题。所以,他觉得你在时空图里做的那些几何操作非常“虚”,他不理解这些几何背后的实质,自然会觉得很难。
然而,这不该是几何该给我们留下的印象啊。我们平常接触的几何,一个点、一条线、一个正方形、一个圆,这些都是我们日常生活里一些形状的完美投射,它们非常的实在,一点都不虚。很多在代数上不好理解的东西,我们把它画到几何图形上一下子就理解了。几何原本就应该比代数更加简单直观,但是为什么到了相对论这里,大家反而觉得几何语言更加难以接受了呢?原因就是狭义相对论里使用的几何并不是我们熟知的欧式几何,而是一种全新的闵氏几何,当我们把欧式几何里的一些习惯和常识代入进来的时候,自然会引起各种水土不服。
所以,这里我们先不谈闵氏几何和欧式几何的具体区别,我们先来看看狭义相对论是怎么和闵氏几何对上眼了的。为什么狭义相对论不用欧式几何来描述,而非得使用一个我们不熟悉的闵氏几何呢?这个问题不清楚,讲再多闵氏几何的性质也是白搭。
02两个基本假设
为什么狭义相对论要使用我们不熟悉的闵氏几何,原因当然还是得从自身来找。大家都知道狭义相对论有两条基本假设:相对性原理和光速不变。从这两个假设出发我们可以很自然的推导出狭义相对论里各种奇奇怪怪的结论,这里我们先来审查一下这两个假设。
相对性原理说物理定律在所有的惯性参考系里都是平等的,不存在一个特殊的惯性系。这一点很自然,伽利略很早就发现这点了,他意识到一个人在一个匀速移动(惯性系)的密闭船舱里根本无法区分这艘船到底是静止的还是以某个速度匀速运动。无法区分的意思就是这两个参考系(静止和匀速运动)是平等平权的,否则,你就应该有办法把它们区分开。
不同的是:伽利略只敢给力学定律打包票,他只敢说我们无法用力学实验区分两个惯性系,其他定律(比如电磁学实验)能不能区分惯性系他就不敢说了。爱因斯坦说你不敢打包票我来,我打赌所有的物理定律(力学的也好,电磁学或者其他的也好)都无法区分惯性系,你在船舱里做什么实验都也无法区分这艘船是静止的还是匀速运动的。
从这里我们可以感觉到,相对性原理好像并没有那么反常识,它只是把伽利略的那套相对性原理的适用范围给扩大了。那么,狭义相对论里那么多结论的“诡异”似乎就应该来自另外一个假设,也就是光速不变。
光速不变说真空中的光速在所有的惯性系里都是一样的。不论你在哪个惯性系(注意一定要是惯性系,非惯性系里光速就没人管它了)里测量光速,在静止的地面也好,飞速的火车飞船里测也好,测得的光速都是一个定值c。
这就太反常识了,怎么能够在不同的参考系里测量同一个物体的速度都相同呢?比如,在一辆速度为300km/h的高铁上,有一个人以5km/h的速度朝车头走去。那么,高铁上的人会觉得他的速度是5km/h,而地面的人会觉得他的速度是300+5=305km/h,这两个速度肯定是不一样的。但是,如果我把这个人换成一束光,让这束光射向车头,光速不变就是说不管你是在高铁上测量,还是在地面上测量,这束光的速度都是c。你以为在地面上测量的光速应该是c+300km/h么?对不起,并不是这样。
你觉得这个事诡异么?诡异!为什么会这样呢?不知道,光速不变是狭义相对论的一个基本假设,这个类似数学里的公理,我们只能假设它是对的,但是却无法证明它是对的,它的可靠性由实验保证。其实,这个事情很多人还是知道的,但是,大多数人并不知道如果我们再深挖一下光速不变原理的秘密,我们就能找到一条通向闵氏几何的隐秘通道。
03光速不变的秘密
光速不变说你在任何惯性系中测量光速,得到的结果都是c,我们来定量的分析一下这个原理。
假设我们在K系里测量一束光,假设这束光在Δt的时间内走了Δl的距离,那么显然就有Δl=Δt×c。如果我们把这束光在x,y,z三个坐标轴方向移动距离的分量记为Δx,Δy,Δz,那么根据勾股定理就有:Δl²=Δx²+Δy²+Δz²,再把这两个式子合起来就能得到:Δx²+Δy²+Δz²-(Δt×c)²=0。如果这时候我们用一个新的量Δs²表示左边的东西,那么就有Δs²=Δx²+Δy²+Δz²-(Δt×c)²=0。
好,事情发展到这里,一切都非常容易理解,上面的事情倒腾来倒腾去就是一束光在空间里走了一段距离,然后套用了小学生都知道的距离等于速度乘以时间而已。而且,大家也会发现这个事跟光速不变也没有什么关系,你就是把上面的光换成一颗子弹,把光速c换成子弹的速度,那么上面的一切推理都还是那样的。没错,因为光速不变说的是光速在不同的惯性系里都一样,那么我们还得再考察一个惯性系。
还是上面那束光,我们这次在另一个参考系K’里对它进行测量。假设我们测量的结果是它在Δt’的时间内走了Δl’,我们同样对这个距离做一个分解,假设它在x,y,z三个坐标轴方向移动距离的分量记为Δx’,Δy’,Δz’。根据光速不变原理,光在这个参考系里的速度还是c,那么,按照上面的逻辑,我们依然可以得到Δs’²=Δx’²+Δy’²+Δz’²-(Δt’×c)²=0。
当我们把K和K’这两个参考系了的结果拿来对比的时候,光速不变原理带来的反常效应就出现了:大家有没有发现Δs和Δs’的表达式的形式完全一致,而且值还相等(都等于0)?
我们只是把K系里测量的时间和距离全都换成了K’系里测量的时间和距离,其它的东西我们一概没动。而在牛顿力学里,Δs和Δs’的表达式形式是不一样的,因为牛顿力学里另一个惯性系的测量速度会加上两个参考系之间的相对速度。也就是说在牛顿体系里,在K’系里测量的光速应该是c加上两个参考系的相对速度,这样Δs’的形式就Δs跟不完全一样了,而相对论是用光速不变强制保证了它们的形式一致。
这一点大家好好想一想,它并不难理解,但是却是后面的关键。我们现在等于说是定义了一个Δs,对于光来说,这个Δs的值在不同的参考系里是相等的,刚好都是0。
那么,重点来了:如果我把这个Δs从光推广到所有物体,我仍然从两个不同的惯性系K和K’去测量这个物体在空间上运动的距离Δx、Δy、Δz和时间上经过的间隔Δt,然后一样把它们组合成Δs和Δs’。那么,这个物体的Δs和Δs’之间有没有什么关系呢?它们是不是还跟光的Δs和Δs’一样相等并且都等于0呢?
是否等于0很好回答,一看就知道肯定不等于0。假设博尔特1秒钟跑10米,那么Δt=1、Δx=10,不考虑另外两个维度(Δy=Δz=0),看看Δs²的表达式:Δs²=Δx²+Δy²+Δz²-(Δt×c)²=100+0+0-(1×3×10^8)²,这显然是个非常大的负数。那么问题的关键就落在在惯性系K和K’里测量的这两个值Δs和Δs’是否相等,也就是说,如果博尔特在跑步,我们从地面和火车上测量得到的 Δs和Δs’是否相等?
这个答案我直接告诉大家:一样!
这个证明过程其实也非常简单,这不就是同一个事件看它在不同的惯性系里是否满足某个式子么?同一个事件在不同惯性系下变换关系,在相对论里这不就是洛伦兹变换的内容么?所以,你直接用洛伦兹变换去套一下Δs和Δs’,你很简单就能发现它们是相等的,这里我就不做具体计算了,当作课后习题。
所以,我们通过分析就得到了这样一个结论:在相对论里,不同惯性系里测量一个物体的位移、时间等信息可能不一样,但是它们组合起来的Δs²=Δx²+Δy²+Δz²-(Δt×c)²确是相等的,而这个值对光来说还刚好就是0。
注意了,这个结论极其重要,正是它决定了为什么我们要使用闵氏几何来描述狭义相对论,甚至,从某种角度来说,它几乎包含了闵氏几何里的全部奥秘。为了让大家更好地了解这个结论背后的意义,我们先去看一看欧式几何里的类似情况。
04欧式几何不变量
在欧式几何里也有一些量是不随坐标系的变化而变化的,比如最简单的线段的长度。
在二维的欧式几何里,我们假设在一个直角坐标系里有两点A(x1,y1)、B(x2,y2),令Δx=x2-x1,Δy=y2-y1,那么,利用勾股定理就能非常容易的算出AB之间的距离Δl²=Δx²+Δy²。这时候我们如果在建一个新的直角坐标系,在这个新的坐标系里原来A、B两点的坐标变成了A(x1’,y1’)、B(x2’,y2’),同样令Δx’=x2’-x1’,Δy’=y2’-y1’,AB之间新的距离Δl’²=Δx’²+Δy’²。这时候我们可以很轻松的验证Δl=Δl’,也就是说Δx²+Δy²=Δx’²+Δy’²。
这个结论一点都不奇怪,我们都可以很直观的感觉到,为什么呢?因为欧式几何就是我们日常熟悉的空间啊,我们现在就假设有一跟2米长的尺子AB,我在一个直角坐标系里计算它的长度的平方Δl²=Δx²+Δy²=2²=4,难不成我在另一个坐标系里算得它的长度的平方Δl’²=Δx’²+Δy’²还能不等于4么?我这把尺子的长度是一定的,如果我在不同坐标系下得到尺子的长度却不一样了,那还了得,那这几何就有问题了。
因此,在欧式几何里,Δl²=Δx²+Δy²也是一个坐标系不变量,这个值不随你取坐标系的变化而变化。很显然的,如果把欧式空间从二维推广到三维,那么这个不变量自然就可以写成Δl²=Δx²+Δy²+Δz²;推广到四维,我们用t表示第四个维度,那么Δl²=Δx²+Δy²+Δz²+Δt²,再往上推广几维,我就加几个分量就行了。
大家肯定注意到了:在欧式几何里,不随坐标系变化的是Δl²=Δx²+Δy²+Δz²+Δt²,而我们上面在讲狭义相对论的时候,不随惯性系变化的量Δs²=Δx²+Δy²+Δz²-(Δt×c)²。这两者非常的相似,这个光速c是个常数,可以不用考虑,为了方便计算我们甚至可以直接约定c=1,这样的话Δl²和Δs²的差别就仅仅只差一个Δt前面的负号而已。
那么,这种形式上的相似和那个负号的差别到底意味着什么呢?毕竟它们一个代表的是不随惯性系的变化而变化的量(Δs²),一个代表的是欧式几何里不随坐标系的变化而变化的量(Δl²),一个是物理量,一个是几何量,好像并没有直接的关系。但是,我们这样想想:如果我想用一种几何来描述狭义相对论里Δs²=Δx²+Δy²+Δz²-(Δt×c)²不随惯性系的变化而变化的这种性质,我们肯定就不能选欧式几何了(因为欧式几何里不随坐标系变化的量是Δl²=Δx²+Δy²+Δz²+Δt²)。所以我们需要一种新的几何,在这种新几何里,不随坐标系变换而变化的量是类似Δs²这样带有一个负号的量,这种全新的几何自然就是闵氏几何。
你这时候心里可能有点疑惑:我们真的可以只凭借不随参考系变化的量是Δs²和Δl²,就断定这是两种不同的几何么?Δs²和Δl²这些东西到底意味着什么?或者说,到底是什么决定了一种几何?
05线元决定几何
我们从小就在学习欧式几何,我们学习直线、三角形、圆等很多几何图形,我们关心它们的各种性质,比如两点的距离、曲线的长度、两条线的夹角、一个图形的面积。但是,大家有没有想过:在欧式几何的各种各样的性质里,有没有哪个是最基本的?也就是说,我们能不能只定义这个最基本的量,其他的各种量都可以从这个量里衍生出来?这样的话,我们就只需要抓住这一个最基本量的性质,就可以抓住这种几何的性质了。
答案是:有,这个最基本的量就是弧长,准确地说是组成任意曲线、弧线的基本元段长。
要把这个说清楚,我们这里得稍微引入一丢丢微积分的思想,别慌,这个很容易理解的~在欧式几何里,我们很容易求一根线段的长度(直角坐标系里利用勾股定理就行了),但是,如果要你求一条任意曲线的长度呢?
比如上图的曲线AB,这是随手画的很一般的一条曲线,不是什么特殊的圆弧,你要怎么求它的长度呢?数学家们是这么考虑的:我在曲线AB之间取一些点,比如P1、P2、P3,然后这三个点就把这段圆弧的分成了四个部分。我们用线段把这几个点连起来,这样我们就得到了一条折线,这时候我们就用折线的长度(也就是这四条线段的和AP1+P1P2+P2P3+P3B)来近似代替曲线AB的长度。当然,你肯定会说,曲线的长度明显比这四条线段加起来更长啊,你怎么能用折线的长度来代替曲线呢?
是的,如果你只在AB之间取三个点,那么曲线AB的长度肯定要比折线的长度多很多,这样近似的误差很大。但是,如果我再多取一些点呢?我在AB之间取十个、一百个甚至一千一万个点,那么,这成千上万条线段组成的折线的总长度跟曲线AB比呢?当然,还是会短一些,但是,你可以想象,这时候这些折线已经跟曲线AB非常接近了。如果一根1米长的曲线被你分成了1万条线段,这时候你用肉眼根本分辨不出来这是原来的曲线还是折线。但是你内心还是知道折线要短一些,那么接下来就是重点了:如果我在曲线AB之间放无穷多个点呢?
无穷是一个很迷人,同时也很迷惑人的词汇。从上面的分析我们知道:当我们在曲线AB里放越多的点,这些小线段连起来的折线就越接近曲线AB本身。那么,当我们放了无穷多个点的时候,这无穷多个线段组成的折线是不是就应该等于曲线AB的长度了?答案是肯定的,而这,就是微积分最朴素也是最核心的思想。
在这种思想的指导下,我们要求任意曲线的距离,最终还是要求小线段的距离,因为无穷多个小线段累加起来的长度就是曲线的长度。因此,我们只要知道如何求无穷小的线段的长度,我们就能用微积分的思想求出任意曲线的长度,我们把这个最基本小线段称为曲线的一个元段长,记做dl。
在欧式几何里,我们把基本元段dl在坐标系里分解一下,用dx和dy表示dl在x轴和y轴上的分量,那么根据勾股定理就有dl²=dx²+dy²,我们就把dl²称之为线元。
提炼出了线元这个概念以后,我们就可以开始反推了。在任何一种几何里,如果我们确定了线元,就等于知道了元段dl的长度,然后就可以利用上面微积分的思想求任意一段曲线的长度。那么,接下来,我们会发现几何里的其他性质都可以按照这些定义。比如,我们就可以把两点之间的距离定义为这两点之间所有可能的曲线里最短的一条,把两条直线的夹角定义为弧长和半径的比值(想象在一个圆里,半径固定,弧长越大角度越大),其他什么面积、体积之类的几何性质就都可以根据这些基本性质来定义。
最后,你会发现只要给定了一个线元,我们就能把它所有的几何性质都确定下来,也就是说:线元决定几何。
那么,什么是欧式几何呢?欧式几何就是由欧式线元(dl²=dx²+dy²)决定的几何。非欧几何呢?只要你的线元不是欧式线元,那么这个线元决定的几何就是非欧几何。用这种新线元,我们一样可以定义出在这种新几何里的曲线长度、两点的距离、线的夹角等等几何性质。
那么,闵氏几何是什么?闵氏几何的线元又是什么呢?
答:很显然,闵氏几何就是由闵氏线元决定的几何。闵氏线元是这样的ds²=-dt²+dx²+dy²+dz²,如果只考虑二维闵氏几何的话,那么ds²=-dt²+dx²。
闵氏线元(ds²=-dt²+dx²)跟欧式线元(dl²=dx²+dy²)十分相像,它们之间唯一的差别就在于闵氏线元的第一个分量dt²的前面是负号,而欧式线元全部都是正号。也因为如此,闵氏几何跟欧式几何也非常像,所以闵氏几何还有一个称呼,叫伪欧几何。但是,我们也要特别注意这个负号,正是这个负号,决定了闵氏几何和我们熟悉的欧式几何里所有不一样的地方,而这些不一样,恰恰是我们通过闵氏几何来理解狭义相对论的关键。
06闵氏几何与狭义相对论
我们现在知道了,所谓的闵氏几何,不过是由闵氏线元ds²=-dt²+dx²+dy²+dz²决定的几何。在这种几何里面,曲线的长度、两点的距离、线的夹角等一切性质都有这个第一项带了一个负号的闵氏线元决定。
看看这个闵氏线元ds²=-dt²+dx²+dy²+dz²,再看看我们最开始提到的那个在狭义相对论里不随惯性系的变化而变化的量Δs²=Δx²+Δy²+Δz²-(Δt×c)²,是不是非常像?在相对论里有两种单位制:国际单位制和几何单位制。国际单位制就是我们平常熟悉的那一套单位制,几何单位制就是选择光速c=1,这样可以大大简化在用几何处理相对论问题的难度。采用几何单位制的话,不随惯性系变化的Δs²=Δx²+Δy²+Δz²-Δt²,这就真的跟闵氏线元ds²=-dt²+dx²+dy²+dz²一模一样了。
这就是为什么我们要用闵氏几何,而不是欧式几何来描述狭义相对论的根本原因。
在牛顿的世界里,时间是绝对的,三维的空间也是绝对的,一根木棒在三维空间里随便怎么变换,随便怎么变换参考系,它在三维空间里的长度是一定的,这个是跟三维的欧式线元对应的(因为三维的欧式线元dt²+dx²+dy²也不随坐标系的变化而变化)。
但是,在狭义相对论里,空间不再是绝对的,不再是一成不变的,我们熟悉的尺缩效应不就是说从不同的惯性系里观测同一把尺子,这个尺子的长度是不一样的么?这就是说空间上的“长度”在狭义相对论的不同惯性系里不再是不变量。但是,我们发现如果把时间也考虑进来,把三维空间和一维时间一起组合成四维时空,那么这个四维时空里的间隔Δs²=Δx²+Δy²+Δz²-Δt²就是不随惯性系的变化而变化的量(这个在前面说过,用洛伦兹变换可以非常方便的证明)。
所以,在牛顿的世界里,三维空间是绝对的,他必须保证同一把尺子在不同的三维空间的坐标系里长度是一样的,也就是说在度量三维空间里长度的方式(这个有个更专业的概念叫度规,这里我们知道就行)必须跟坐标系无关,而欧式几何正好有这样的特性,所以牛顿力学的背景是欧式几何。
而在狭义相对论里,三维空间并不是绝对的,三维空间里一把尺子的长度在不同惯性系里是不一样的。但是,三维空间和一维时间组成的四维时空是绝对的。四维时空里如果也有这样一把“尺子”,那么这把“尺子”无论从哪个惯性系来看,它的四维“长度”都是一样的。而狭义相对论的这种四维“长度”,或者说我们在四维时空里度量长度的方式,它跟闵氏线元表达式的形式是一样的。也就是说只有在闵氏几何里,狭义相对论的时空间隔才对应于他们几何里的“长度”的概念,所以我们要使用闵氏几何来描述狭义相对论。
理解这一段非常的重要,因为只有理解了这个,你才能从根本上把闵氏几何和狭义相对论对应起来。有很多闵氏几何的科普文章里上来就是直接给你画时空图,然后告诉你闵氏几何里的这种图形这个几何性质对应着狭义相对论里的这种概念,这样很多人就感觉难以接受,然后对几何语言产生抵触的心理。
好,既然我们打算用闵氏几何来描述狭义相对论,那么肯定就要把狭义相对论里的物理语言翻译成闵氏几何里的几何语言。几何肯定是离不开画图的,在欧式几何里我们经常会画出一个几何图形在空间上的样子,这是空间图。而狭义相对论把时间和空间看作一个整体, 它要求我们以同等的地位来看待时间和空间,所以我们需要画出一个事件同时在时间和空间里的样子,这种图就叫时空图。
07时空图
在时空图里,你能非常自然地感觉到时间和空间被统一起来了,因为时空图里的时间轴和空间轴有着完全的平等的地位。
在时空图里,一个粒子现在在哪,你找到它的空间坐标(x,y,z),记下现在的时间t,那么你就得到了它的时空信息(x,y,z,t),那这个时空信息就对应时空图里的一个点,这就叫时空点。
同样的,你再记下它下一个时刻t1的位置(x1,y1,z1),那么它又对应了坐标系的另一个点(x1,y1,z1,t1)。所以,一个粒子在任一时刻的时间、空间信息就都对应了时空图里的一个点。那么,如果考察这个粒子的全部历史,你就可以得到一系列的这种时空点,这些点在时空图里就会形成一条线,这条能代表粒子全部历史的线就叫粒子的世界线。
现实生活里一个粒子有四个维度(三维空间+一维时间),那么对应的坐标轴应该也是四维的,但是我们在二维平面里勉强可以画出三维图形,对四维图形实在无能为力。为了方便起见,我们假设粒子只沿x轴方向运动,这样我们就可以不考虑y轴和z轴的情况,从而把四维的问题简化为二维,然后我们就可以很愉快的在一张二维的纸上画这二维时空图了。
我们先建立一个坐标系,横轴x代表粒子的空间信息,纵轴t代表粒子的时间信息。为了再次简化问题,我们采用几何单位制,也就是取光速c=1,然后我们再来看一些具体问题。
问题1:一个静止不动的粒子在时空图里是什么样的?或者说它的世界线是什么样的?
这个答案很容易想到,一个粒子静止不动,就是在空间上没动,那么它的x坐标一直为零,但是时间依然在流逝,也就是粒子的时间坐标在一直变大。所以,静止不动的粒子是世界线是一条跟t轴重合,垂直于x轴的直线。
问题2:一个匀速向右运动的粒子的世界线是什么样的?
这个也不难想象,一个匀速向右运动的粒子,它在时间轴不停往上走的同时,空间轴上也在不停地往右走,那么这个粒子的世界线应该是一条斜直线。问题是,斜多少?是所有的坐标空间它都可以斜,还是有什么限制?这个问题我们先放着,先看看第三个问题。
问题3:一条朝右上方45°的斜直线(如下图的L1)代表了什么粒子的世界线?
我们先来算一算这个粒子的速度:我们在粒子的世界线L1上取两个点,也就是假设粒子在t1时刻在位置x1,在t2时刻在位置x2。因为这条直线是45°的,所以很显然x2-x1=t2-t1,.那么粒子的速度v=(x2-x1)/(t2-t1)=1。
速度等于1是什么意思?我们在画图的时候采用的是几何单位制,也就是取光速c=1(如果我们不采用几何单位制,那么竖轴的单位就不是t,而是ct,本质并没有什么不同)。现在这个粒子的速度等于1,其实就是代表这个粒子的速度是光速,速度是光速那自然就是光子了,那么这条45°斜直线就代表了光子的世界线。
从这里我们可以看到,在时空图里,光子的世界线是45°的斜直线。我们也知道在相对论里任何有质量粒子的速度都是小于光速的,那么一个有质量的粒子做匀速直线运动的世界线该是一条什么样的斜直线呢?是在区域1还是区域2?
我们可以这样想一下:如果粒子的速度比光速小,那么假设粒子在t1时刻在x1处,那么到了t2时刻它肯定到不了x2地方,那么这两点的连线肯定就在L1的上方,也就是区域1。其实我们也可以想一个极端的粒子,假设这个粒子在原点不动,那么粒子的世界线就是跟t轴重合,粒子速度到达光速就是45°的那条直线,那么速度在静止和光速之间的粒子世界线自然就是在区域1的斜直线了。
现在我们知道了这样一个结论:在时空图里,45°的斜直线代表了光子的世界线(如L1),比光子世界线更陡,更加靠近t轴的斜直线(如L2)是有质量粒子匀速直线运动,或者说惯性运动(速度小于光速)的世界线。
有了这样的基本认识,我们来用几何语言分析一下狭义相对论里入门教材里必定会碰到的问题:火车闪光问题。这个问题之所以重要,是因为它揭示了同时的相对性,也就是说在一个惯性系看来是同时发生的事件,在另一个参考系里不一定是同时发生的。爱因斯坦敏锐地发现了这点,然后借此从看似牢不可破的牛顿力学里撕开了一道口子。
08同时的相对性
在牛顿力学里,时间是绝对的,所以同时必然也是一个绝对的词汇。在一个参考系看来是同时发生的事件,不管谁来看都绝对是同时发生的,这也是一个非常符合常识的论述。
但是,爱因斯坦用一个简单的火车实验就让人们的这个信念坍塌了,这个实验是这样的:假设地面上有一辆匀速运动的火车,在某一个时刻,地面上的观察者发现这个火车的车头和车尾同时被闪电击中。也就是说,对于地面参考系而言,闪电击中车头和车尾这两个事件是同时发生的。但是,爱因斯坦认为在火车参考系里,这两个事件就不是同时发生的。
原因也很简单,我们假设在闪电击中火车头尾的时候,在地面这两点的中点有一个观察者。因为两个事件在地面系看起来是同时发生的,所以,站在地面中间的那个观察者肯定会同时看到车头和车尾发过来的闪光,所以这两个事件是同时的。
但是,站在火车中间的观察者就不是这样了,因为车头车尾的闪光在向中间传播的时候,火车本身也在前进,所以火车中间的人就会先看到车头发过来的闪光,后看到车尾发过来的闪光。所以,火车上的观察者就会觉得这闪电击中车头和车尾这两个事件不是同时发生的,而是击中车头的先,击中车尾的后。
爱因斯坦从这个火车闪光实验出发,发现了同时的相对性,进而打开了狭义相对论的大门。这个实验比较简单,整个逻辑过程也不复杂,但是这样讲不够直观,不够具有普遍性。因为很多人会把这个实验当做一个特例来处理,也就是只有当他们意识到要讲同时的相对性的时候才会想起这个实验,平常就会把这个实验带来的同时的相对性给忘了,然后带来一系列的“相对论诡异疑难”。下面我们从几何语言来看看这个问题,看看如何让这个重要问题更直观,更具有普遍性。
我们假设闪电同时击中车头车尾(从地面系观测)的时候,火车的车尾M’、车头N’刚好经过地面的M和N点,P点为地面MN的中点,P’为火车上的中点,我们来看看怎么在时空图上描述这个闪电击中火车的问题。
我们先来看看地面上M和N点的世界线,因为M、N在地面上没有动,所以M和N点的世界线都是一条沿着时间轴t竖直向上的直线(空间位置没动,只有时间t在动)。同样的,在MN中间的P点也没动,它的世界线也是一条竖直向上的直线。这三条线好画,那么在火车上的M’、N’和P’,它们都在做匀速直线运动,那它们的世界线是什么样的呢?这个我们上一节刚好说了,做匀速运动的粒子的世界线是一条比45°线更陡的斜直线。那我们把这六个点的世界线都画出来,不难理解应该就是下面这样(横轴为空间x,纵轴为时间t,这里省略了)。
下面是关键的了,怎么画车头、车尾的闪光向中点传播的过程?我们知道,闪电击中车头车尾之后,这个事件就会向四面八方发射光信号(所以四面八方的人都能看到火车被闪电击中了),但是,其他的信号我们都不关心,我们只关心被地面中点P和火车中点P’所接收到的那一束光信号。那么,这个光信号要怎么画呢?它们的出发点肯定在m和n,那接下来呢?这次我们再次想起了上一节中提到的:光子的世界线是45°的斜直线。那么我们就加上这两条45°的世界线,最后的图就是下面这样的。
这两根世界线跟两个中点P、P’的世界线产生了三个交点A、B、C,这是三个很有意思的点,我们来分析一下它们的物理含义。
首先是A点,A点是闪光世界线跟地面中点P点的世界线交点,它们相交了是什么意思?纵轴代表时间,横轴代表空间,相交了就代表这两个粒子此时时间和空间信息都一样,都一样那就是相遇了啊,具体到我们这个问题就是闪光传播到了地面上的中点。因为地面没有动,M和N点到P点的距离又是一样的,那么车头车尾的闪光肯定同时到达地面中点,所以它们都相交于A点是正确的。
再来看B点和C点。B点是车尾的闪光的世界线和火车里面的中点P’世界线的交点,那B点代表的意思自然就是火车中间的观察者观察到车尾的闪光这个事件。同理,C点是车头闪光世界线跟P’世界线的交点,那C点就是火车中间的观察者观察到车头闪光的这个事件。这样看就非常明显了,纵坐标是时间轴,那么B事件明显就是在C事件之后发生的啊。
这正是同时的相对性的表现:对于地面系,它们都交于A点,所以是同时的;对于火车系,它们分别交于B点C点,所以是不同时的,这在时空图里极为直观。
这里有一个事要强调一下:我们在这个火车闪光问题里虽然涉及到了地面系和火车系,但是我们是一直在地面系来分析问题的。我们画的时空图,不管是地面上的点还是火车上的点,我们都是在地面系画,因为毕竟一张图只有一个坐标系嘛。那么,我们能不能在一张图里同时把地面系和火车系两个惯性系都画上呢?
答案当然是可以的。
09两个坐标系
我们来具体看看这个问题:假设我们现在已经画了一个地面系的直角坐标系x-t,那么我们要如何把火车系的坐标系x’-t’画出来?
第一次遇到这个问题的同学可能有点懵,不着急我们一步步来,我们先看看火车系的纵轴t’要怎么画。要画火车系的纵轴,我们先想想一个坐标系的纵轴的是什么意思?我们知道如果我们让一个点的横坐标为零,那么这个点的轨迹就是跟纵轴重合的。还记得我们上面说的静止粒子的世界线么?静止粒子的空间坐标x为0,所以它的世界线就是垂直于x轴,与t轴重合的一条直线。那么,火车系的t’轴自然也是在火车系里静止在原点处粒子的世界线。
这一点很重要,大家好好理解一下,也就是说我们只要把火车系处于原点处粒子的世界线画出来,我们就能得到火车系的t’轴。那么,一个在火车系静止的点,在地面系看来它是在做匀速直线运动,而匀速直线运动的点的世界线,我们上面也说了,就是一条比45°更陡的斜直线。所以,火车系的t’轴就是这样一条更陡的斜直线,如下图所示:
火车系的t’轴画好了,那火车系的x’轴呢?大家可以看到我在图上用虚线画了一根与t’垂直的轴,并且特意标明了“错误的x’轴”。为什么要这样标呢?因为这是相对论初学者极容易犯的错误。我们已经习惯了欧式几何,欧式几何里直角坐标系都是相互垂直的,所以到了这里很多人看到我们已经画出了t’轴,就立马条件反射地画一根和t’轴垂直的当做x’轴,但是这是错误的,为什么呢?
这里我们第一次感受到了闵氏几何的异样。我在最开始花了那么大的篇幅告诉大家为什么狭义相对论要使用闵氏几何,我们也知道了闵氏几何的线元跟欧式几何不一样(时间项前面多了一个负号),所以,我们在画时空图处理狭义相对论问题的时候,一定要意识到自己虽然是在欧式平面里画图,但是我们画的是闵氏几何里的图形。
有人可能会有点疑问,我们前面不是已经用时空图解决了同时的相对性问题么?我们不是已经把爱因斯坦火车闪光问题用时空图画出来了么,我没感觉啥异样啊?那只是因为那个问题比较简单:它只有一个坐标系,而且也不涉及到线长相关的问题,所以我即便在一个欧式直角坐标系里把它画出来了,它也暂时没什么冲突。如果我们生活在一个闵氏空间里,那么我们画出的闵氏直角坐标系肯定都是相互垂直的,但是我们生活在欧式空间里,我已经用一个欧式空间里的直角坐标系画了一个闵氏坐标系,那么另一个就肯定不可能再是垂直的了。
这里的逻辑有点绕,大家可以细细品味,搞得不是很懂也不要紧,我接下来会把另一个坐标系画出来,大家能看懂再回去看上面的一段话就明白了。
好,回到正题,我们再来看看火车系正确的x’轴该怎么画。我们再来整体回顾一下这个事情:我们现在是已经画好了地面系x-t,要画火车系x’-t’,火车系和地面系它有没有什么关系呢?有啊,洛伦兹变换说的不就是地面系和火车系的关系么?什么是洛伦兹变换?比如我在地面系观测到了一个粒子的位置和速度,现在我想知道它在火车系里是什么情况,我并不需要重新再到火车系里测量一遍这个粒子的位置和速度,我只需要根据洛伦兹变换就可以直接得到火车系里那个粒子的运动情况。所以,洛伦兹变换就是两个惯性系之间的联系,我只要知道了一个惯性系里粒子的运动情况,立马我就可以知道其他惯性系里粒子运动的情况。
所以,我们可以根据洛伦兹变换来找到两个惯性系之间的联系。我现在不是根据地面系的坐标轴来找火车系的坐标轴么?我们对着洛伦兹变换改就是了。洛伦兹变换是下面这样的:
其中,x,y,z,t代表地面系里观测到的,x’,y’,z’,t’是火车系里观测到的。v是火车系相对地面系的速度,火车的速度一旦给定了,这个v就是一个定值,c是光速,所以右边的γ都是一个常数。如果我们再根据几何单位制来,取c=1,那么洛伦兹变换就可以简化成下面的样子:
因为我们只考虑火车系相对地面系在x轴方向上的运动,所以在y和z方向上还跟原来一样,我们可以不考虑。我们现在画图也是来画x-t图,所以我们重点关注这两个式子:
这是什么呢?这不就是火车系了的x’和t’么?我现在要画的就是x’的坐标轴,也就是火车系的空间坐标轴,那怎么找到这个坐标轴呢?这个我们前面也提过:纵坐标的那条线就是横坐标为0的所有点的集合,反过来也是,横坐标就是纵坐标为0的点的集合。所以,我们令火车系的时间等于0,也就是纵坐标t’=0就能找到横坐标x’轴了。
那我们令t’=γ(t-vx)=0,因为γ是一个不为零的常数,所以就只有t-vx=0了,也就是t=vx。
这在x-t坐标系里就是一条过原点的直线,斜率为火车的速度v(斜率就是这条直线的倾斜程度,你可以理解为一个坡越陡斜率越大。当直线与横轴重合的时候,斜率为0;当直线跟横轴成45°的时候,斜率为1;当直线跟纵轴重合的时候,斜率为无穷大)。因为我们这里是几何单位制,光速为1,在狭义相对论里任何有质量的物体它的运动速度都是小于光速的,所以火车的速度v肯定是小于1的,也就是说这条直线的斜率比45°的直线(刚好是光的世界线)小。
再者,我们可以用同样的方法令x’=γ(x-vt)=0,就能得到火车系的纵轴是这样一条直线:t=x/v。它的斜率是1/v,因为v小于1,所以1/v是个大于1的数,所以这条斜直线的斜率比45°要大(我们前面画的也正是这样)。这里我给一个初中数学的结论:斜率互为倒数(比如v和1/v)的两条直线它们是关于y=x,也就是45°的直线对称的。所以,我们的x’轴是跟t’轴关于45°的直线对称的。这样我们就能精确地把它画出来了,如下图:
第一次看到这样一个坐标系的同学可能会感觉非常别扭,为什么火车系x’-t’的坐标系不是正交的,不是一个直角呢?我们得这样看:它们是正交的,只不过它们是在闵氏几何里正交,我们现在强行把它画在欧式几何里,那么肯定就看起来不正交了。
还有同学也会有疑惑,你不是说狭义相对论里惯性系都是平权的么?那么为什么这里把地面系画成直角的,而把火车系画成了一个小于直角的坐标系?我要是人就在火车里,我非要把火车系画成直角的,不行么?行,当然行。你可以按照上面的思路把火车系画成直角的基准系,再反推过去画地面系,最终的两个图虽然形状不一样,但是实质上还是等价的。
理解这个双坐标系非常关键,它第一次向我们展示了闵氏几何不一样的地方。有了它,我们就可以很方便的处理不同惯性系里的一些事情,比如,我们喜闻乐见的尺缩效应。
10尺缩效应
尺缩效应是狭义相对论里比较有趣的一个效应,它简单说来就是一句话:运动的物体长度会收缩,也就是动尺收缩。但是这样描述会让许多初学者心生疑惑,你动尺收缩是真的收缩了还是只是看起来收缩了?这是一种观测效应还是一种由于光速有限造成的传播误差?你相对尺子没动,觉得尺子没缩,我觉得缩了,那么它到底缩了没有(这是个很常见的错误的问题)?
其实,用非几何语言初学相对论的人不可避免地会遇到很多类似这样的问题。因为大家在牛顿的那一套环境里浸润久了,想一下子把思维切换过来很麻烦。而且学相对论的人最容易载到“相对”两个字里来,该相对的东西不相对,不该相对的东西又跑去相对,最后把自己绕进去了。但是用几何语言却没有这样的烦恼,因为有很多物理量在3维的时候是相对的,在4维里就都是绝对的了。而且,几何图形清晰直白,会大大降低这类问题的难度和迷惑性。
好,现在我们来看看怎么用几何语言处理尺缩效应。
一个粒子的世界线是一条线,而一把尺子是由许多粒子组成的,所以一把尺子在时空图里留下的轨迹就应该是一个面,我们称之为尺子的世界面。我们还是以地面系为基准系,假设尺子相对地面系静止,那么尺子每个粒子的世界线都是一条平行于t轴的线,合起来它的世界面应该是一个有一定宽度的面。上一节我们已经学会了如何把运动的惯性系也画出来,我们再把相对尺子运动的参考系x’-t’(假设为火车系)画出来,总的时空图就是这样:
如上图所示,阴影部分就是在地面系静止的尺子的世界面,它跟x轴的交点为a,跟x’轴的交点为b。那么我们很容易就能知道oa就是尺子在静止地面系的长度,ob就是尺子在运动的火车系x’-t’的长度。
为什么呢?你想想oa代表什么意思?oa就是当地面系的时间为零的时候尺子在空间x轴的投影,那这显然就是尺子的长度了。那么,同样的道理,因为运动的火车系的坐标是x’-t’,ob也是当t’都为0的时候尺子在x’轴的投影,所以ob就是运动的火车系测得的尺子长度。
所以,尺缩效应就变成了比较oa和ob的长度。很显然,oa和ob的长度肯定不一样,那么到底是oa长还是ob长呢?
没错,你的眼睛没有看错,我就是在问到底是oa长还是ob长?可能这个时候你的脑袋是懵的,明明oab组成了一个直角三角形,ob是斜边,斜边肯定比直角边更长啊,这是初中生都知道的,ob比oa长难道还有什么疑问么?
没错,搁在欧式几何里,斜边大于直角边这绝对毫无疑问。但是,我们始终要记住我们处理狭义相对论问题用的是闵氏几何(否则也不会出现x’-t’这样看起来不正交的坐标系),那闵氏几何里要怎么样比较两条线段的长短呢?
这个时候你可能意识到了:我们在闵氏几何里连怎么定义线段的长度都不知道,更别提比较两条线段的长短了。那么,闵氏几何里一条线段的长度是怎么定义,怎么计算的呢?
11闵氏几何的线长
在讨论怎么定义,计算闵氏几何一条线段的线长之前,许多人可能对为什么这个问题会是一个问题都心存疑惑:线段的长度不就是用尺子去量一下线段么,为什么还需要什么定义?即便我不用尺子去量,一条线段我在直角坐标系里把它投影到x和y轴,假设它在x轴和y轴的投影长度分别是Δx和Δy,那么我就可以利用勾股定理很简单的算出这条线段的长度L²=Δx²+Δy²。
但是,我还是得再强调一次:你能这样做,是因为你已经假设了你是在欧式几何里。只有在欧式几何里,一条线段的长度才可以这样用勾股定理去计算,但是狭义相对论的几何背景是闵氏几何。为了让大家能更直观的了解,我们先不谈闵氏几何,我们就来看看球面几何。
球面几何顾名思义就是在在一个球面上的几何。你可以想象在一个篮球的表面,或者地球的表面上有两个点,那么,这两个点之间的距离应该是一段圆弧长,而不再是欧式几何里的直线。你想想,在这种情况下,你还能用勾股定理去计算这两点之间的距离么?你要硬用勾股定理去计算,那么算出来的是这两点之间的直线距离,并非在球面上的圆弧长,这显然是不对的。就好比你在地球表面计算北京到深圳的距离,你用勾股定理算出来的距离是在北京地底下打一个直线隧道通到深圳的距离,这显然不是你在地球表面从北京直线开车去深圳的距离。
从这里我们能直观地感觉到:在不同的几何里,长度的计算方式是不一样,每一种几何都有自己度量长度的规则(这就是度规),一旦这种规则确定了,这种几何也就确定了。其实,这一点我在「线元决定几何」这一节里已经说得非常明确了,不光是线长,所有的几何性质都是由线元决定的,不同的几何拥有不同的线元,自然就拥有不同的计算线长的方式。
二维欧式几何的线元是dl²=dx²+dy²,二维闵氏几何的线元是ds²=-dt²+dx²。二维欧式几何里线段长度的计算公式是这样的:
那么,二维闵氏几何里线段长度的计算公式自然就是这样的:
因为闵氏几何的线元的时间项前面有个负号,所以,为了避免根号里面的值出现负数从而让式子无意义,我们套了一个绝对值(它保证所有值都是非负的,比如-5的绝对值为5,记做|-5|=5)的符号。
也就是说,我们在闵氏几何里是根据这个式子来计算一条线段的长度的,Δt和Δx分别代表这条线在t轴和x轴的投影。这个式子跟欧式几何的距离计算公式很类似,唯一的不同还是时间项前面的那个负号。也正因为这个负号,闵氏几何里的线长问题才会变得更我们平常想的不一样。为了让大家熟悉一下这种新的线长计算方式,我先来举个简单的例子。
问题4:大家还记得光子的世界线是一条45°的斜直线把,我们现在随便在光子的世界线里取A、B两点,那么线段OA、OB的长度分别是多少呢?如下图所示:
我们先来看看OA的长度,因为这条直线是45°,所以A点在x轴和t轴上投影得到的距离就是一样长的,也就是Δt和Δx的大小是一样的。但是,闵氏几何里线段长度的计算公式是它们两个相减再开根号,现在这两个值是相等的,那么相减的结果不就是0了么?再开根号结果自然还是0。
也就是说,OA在闵氏几何里的长度为0。
你没有看错,它的长度就是0。OA你看着有这么长的一段,但是它在闵氏几何里的长度却是0,这就是那个负号带来的效果。同样的,你可以接着去算OB的长度,或者直接算AB的长度,你会发现它的长度一样全部都是0。
所以,我们有这样的结论:光子的世界线长度恒为0。这很反直觉吧?我们再来看个例子。
问题5:还是上面的图,我过B点做一条垂直于t轴的线,然后随便在BC之间取一条点D。那么OC就是静止不动的粒子的世界线,OD就是一条匀速直线运动的粒子的世界线,OB是光子的世界线,那么它们三个的长短怎么比呢?
乍一看,好像的OB>OD>OC。但是我们刚刚算过了光子世界线OB的长度为0;OC是静止不动的粒子的世界线,那么它在空间上的位移Δx就为0,那么OC的长度就是粒子在时间轴里走的长度;OD在时间轴上的投影跟OC一样,但是它的Δx不等于0,那么它们相减(-Δt²+Δx²)之后的数值肯定就变小了,那么OD是小于OC的。于是,我们得到的结论确实跟之前的感觉截然相反的,三者的长度是OC>OD>OB=0。
所以,当我们在说时空图了某一条曲线的长度的时候,我们都要意识到我们是用闵氏几何那把尺子(时间项前面有负号)来度量曲线的长度,这跟我们平常生活里感受的(欧式几何度量长度)是不一样的。一开始大家会觉得这种方式非常不习惯,但是一旦习惯了就会觉得这个非常自然。
好了,这里我们介绍了闵氏几何里线长的定义和计算方法,理论上我们就可以计算任意一条线段的长度了,也能比较两条线谁长谁短了。我们上一节不就是最后把尺缩效应归结比较两条线段oa和ob的线长么?那现在可以直接比了啊。
我们看到ob在x轴的投影跟oa是一样长的,但是oa在t轴的投影为0,ob在t轴的投影却大于零。但是,根据闵氏几何的线长公式,线长是这个线段在时间轴t和空间轴x投影长度平方相减再开根号。既然两条线段oa和ob在空间轴x上的投影都一样,那么在时间轴t上投影长度越大的,相减之后得到的值就越小,那么最后的线长就越小。
所以,我们能直接就这样感觉到,在闵氏几何下,ob是比oa更短的。而ob代表的是运动参考系下尺子的长度,oa是静止参考系下尺子的长度,既然ob比oa更短,那么就是说在运动参考系里尺子的长度更短,这就是我们常说的尺缩效应。
这里我们是直接用线长的计算公式算出oa和ob的长度然后再来做比较,虽然算出来了,但是可能不是很直观。在许多教材和文章里都会提到另外一种看起来更直观的比较方式,那就是使用校准曲线,很多人也经常看到这个但是不是很明白,我这里就一起再讲一下。
12校准曲线
校准曲线其实是回答了这样一个问题:闵氏几何里,到原点距离相等的点组成的轨迹是什么?
老规矩,我们先看看欧式几何的情况。在欧式几何里,到原点距离相等(比如说都等于2)的点组成的轨迹是什么呢?这个我们都知道,这就是一个圆,到定点的距离等于定长的点的集合就是圆,这个点就是圆心,这个定长就是半径。
在欧式几何里,如果一个点(x,y)到原点的距离为2,那么,根据勾股定理我们就可以很容易写出下面的关系:x²+y²=4。而学过一点解析几何的人就都知道,这就是圆的坐标方程。
那么,再回到闵氏几何,在闵氏几何里到原点的距离为2的点组成的轨迹是什么呢?其实也简单,我们不是已经有闵氏几何的距离公式了么?代入进去就行了,因为是求到原点的距离,所以Δx和Δt就分别是点的坐标x和t,如下图:
我们把两边平方展开就得到了:
大家对比一下,这个x²-t²=4跟我们在欧式几何里圆的方程只有一个符号的差别(因为坐标轴不同,作为纵轴t和y是完全等价的)。这个式子,学过高中数学的同学一眼就能看出来这是一条双曲线,没学过或者忘了的可以自己去找一些具体的点描上去(自己找一些x的值,然后去算t的值,最后把(x,t)组成的点画到坐标系上去,看看轨迹是什么)。我这里用GeoGebra(这是一个免费的在线数学绘图工具,你输入函数或者方程,它就会自动把对应的图像画出来,有兴趣大家自己也可以去画一画)给大家画了一个图,大家可以看看,双曲线大致就是这么一个形状:
我们先甭管双曲线在欧式几何里的各种几何意义,我们是怎么得到这个图的?我们是在闵氏几何里找距离原点距离相等(这里等于2)的点的集合,也就是说,你别看这个曲线是弯弯曲曲的,但是在闵氏几何里,这个曲线里所有的点到原点的距离都是相等的,都等于2。
因为这种曲线上所有点到原点的距离都相等(闵氏几何下),所以我们就可以用这种曲线当作一个标准来校准,这就是把它叫校准曲线的原因。还是那个尺缩效应的图,这次我们用校准曲线来看一下。
大家看到,我加了一条过a点的校准曲线,我们假设它跟x’轴交于c点。这样就非常清楚了,什么是校准曲线?校准曲线就是闵氏几何里到原点的距离都相等的点,因为a和c都在曲线上,所以,在闵氏几何里oa和oc的长度是相等的,也就是oa=oc。而b、c两点都在x’轴上,很显然的ob<oc,合起来就是ob<oc=oa,那我们就很自然地得到了ob的长度比oa更短的结论。
而oa就是在静止的地面系观测得尺子的长度,ob是在相对尺子运动的火车系上观测到尺子的长度。我们得到的结论是ob<oa,这不就是说在运动的参考系里观测到的尺子的长度更短么?完美符合尺缩效应的结论。
在狭义相对论里经常跟尺缩效应一起出现的还有一个钟慢效应,它说相对钟运动的参考系观测钟会觉得它走地更慢一些,也就是动钟变慢(这个不同于广义相对论里引力钟慢效应说的引力越大,时间越慢)。但是钟慢效应和尺缩效应在时空图的处理上是类似的,所以我这里就不说了,大家可以自己去画一下,想知道答案的可以参考梁灿彬老师《从零学相对论》的4.2节(没有资料的可以在公众号后台回复“梁灿彬”或“梁老师”,获取《从零学相对论》+《微分几何入门与广义相对论》以及梁老师配套的的教学视频)。
接下来,我们来看一个狭义相对论里让无数新人头痛不已,也让无数科普者无比心烦的一个问题。这个问题用几何语言处理极为简单,但是读者不认,他们不太了解闵氏几何,更无法理解几何图形里代表的物理实质,你凭什么用这个这个就代表了那个那个?但是,这个问题如果用传统的代数语言讲就极为复杂,而且逻辑非常绕,一不小心就在各种相对里面把自己都绕进去了,分析它简直是对智商极大的挑战。没错,这就是大名鼎鼎的“双生子佯谬”问题。
13双生子佯谬
双生子佯谬的描述倒是非常简单:假设地球上有一对双胞胎,有一天哥哥驾着宇宙飞船去太空里里飞了一大圈再返回地球。那么按照狭义相对论,我们就会发现哥哥再次回到地球的时候他会比弟弟更年轻。比如说,哥哥从地球出发的时候,这对双胞胎都是20岁,现在哥哥在太空飞了一圈再回来之后,有可能弟弟已经30岁了,哥哥才25岁。当然,这个具体的数字依赖于特定的飞行情况,但是哥哥肯定会比弟弟年轻这是一定的。
这个问题的争议点在哪呢?它争议就争议在:狭义相对论里有钟慢效应,也就是说运动的物体他的时间会变慢。那么似乎可以说哥哥离开地球在太空里运动了一圈,所以哥哥是运动的,那么哥哥的时间会变慢,回到地球更年轻好像说得通。但是,运动不是相对的么?你站在地球上觉得是哥哥在动,那么我站在飞船的角度来看,我也可以觉得是弟弟(包括整个地球)在远离我然后靠近我,那么运动的那个人就是弟弟,因此弟弟的时间更慢,兄弟见面的时候应该弟弟更年轻。这样不就前后矛盾了么?
双生子问题是一个佯谬,佯谬就是说它看起来是错的,是矛盾的,其实是正确的。也就是说,如果我们真的有这样一对双胞胎,哥哥去外面浪了一圈再回到地球,他是真的会更年轻。但是,这样的话,我们要如何解释后面那种矛盾的说法呢?也就是,站在飞船上哥哥的角度看来,运动的是弟弟和地球,为什么不可以认为弟弟和地球才是那个时间变慢的呢?
有人意识到是加速减速这个过程在作怪,但是加速减速他一样可以说,我在飞船上看,地球也是加速离我远去,再加速再回来。然后甚至有人说这里有加速度,就应该把广义相对论搬进来解释,在这条邪路上走地更远的甚至说:哥哥不是加速运动么?等效原理说加速度等效于引力,所以哥哥在加速的过程产生了引力,而广义相对论又说引力是时空弯曲,那么哥哥加速使得时空弯曲了。
其实,双生子佯谬不仅是让许多初学者疑惑,在相对论的几何语言普及之前,许多物理学家对它也是头疼不已。他们到了20世纪50年代还在吵这个,物理学家们吵就不是像我们这样在群里或者论坛里发表一下意见看法,他们是发文章到《自然》、《科学》这样的顶级学术杂志里吵,所以你可以想象一下那时的情况。但是,当几何语言普及之后,物理学界几乎就没人再因为这个争论了,因为在几何语言下,这个问题简直简单得不像话,它就跟2+2=4一样清晰简单,那还有什么好吵的。
为什么几何语言可以如此大幅度的降低双生子佯谬的难度呢?这里就涉及到了学习相对论里最重要的一个事:学习相对论最重要的就是要分清楚相对论里哪些东西是相对的,哪些是绝对的。你要是看这个理论的名字叫相对论,就认为什么都是相对的,那就完了。其实相反,狭义相对论的两个根基“光速不变”和“相对性原理”都是绝对的:前者说光速是绝对的,后者说物理定律的形式是绝对的,这其实是一个不折不扣的“绝对论”。
我们再回过来想一想,双生子佯谬到底为什么这么麻烦?不就是因为滥用相对,认为什么都可以相对,所以站在哥哥的立场和弟弟的立场应该都一样从而导致了佯谬么?那为什么我们用几何语言可以轻松把这个问题理清楚呢?因为我们在使用几何语言的时候,我们是把时3维空间和1维时间看做一个整体的4维时空。用3维眼光看世界,3维空间和时间都是相对的,但是4维时空确是绝对的。当我们站在更高的维度(4维时空)里看问题的时候,那些因为相对产生的各种问题就自然消失了。所以,使用几何语言思考相对论,是站在更高的维度上看问题,这是一种思维方式上的降维打击。看过刘慈欣《三体》的同学,想必都对降维打击产生的效果印象深刻,学习相对论,我们也要尽快提高自己的维度~
如果想体会一下3维语言处理双生子问题的复杂度,可以看看我之前写过的一篇《双生子佯谬过程全分析》,其处理问题之麻烦,逻辑之烧脑简直灭绝人性。虽然我已经尽量清晰通俗的语言来说这个问题了,但是读者的问题还是跟雪花一样飞过来。最开始我还比耐心的一个个在群里解释,后来就实在受不了了。要跟人把这个问题彻底解释清楚,少则一两个小时,多则一下午,太费时费精力了。而且,后面要理解许多人的问题都非常困难,因为要提出一个正确的相对论的问题也需要一定基础,有些同学相对论的基础知识不牢,提的问题都是问题,那还怎么去理解双生子佯谬呢?
这就像是游戏里刚出来就要去打终极BOSS,下场自然可想而知,这也是我为什么现在就这么着急的来讲几何语言的一个原因:我实在不想再回答3维语言的双生子问题了。而且,把自己局限在这几个效应佯谬里,也不是什么好事,因为讲相对论的人虽然经常讲这个几个东西,但是这些东西绝非相对论的精髓,大家早点从这些框框里跳出去,去感受一下相对论里更精妙的东西才是好事。
14双生子佯谬的几何解释
好,我们下面来看看从几何语言是如何降维解决双生子佯谬的问题的。我们先假设地球做惯性运动(忽略地球自转和引力场什么的),以地面系为基准系,我们在时空图里画一画哥哥和弟弟的世界线。
弟弟的世界线简单,因为他一直待在地球没动,所以他在空间坐标里没动,流逝的只有时间。那么,弟弟的世界线就是一条跟t轴平行的直线。
哥哥的世界线稍微复杂一点,但是也很容易。哥哥从地球出发,去太空浪了一圈再返回地球,这其中的过程无非是先加速远离地球(加速之后有没有匀速我们都不管了),太空里飞了一段时间要掉头返回地球,那么其中必定先减速,再反向加速驶向地球,最后还要减速降落在地球上。因为匀速运动的世界线是一条斜直线,那么加速运动的世界线就是曲线了,这曲线大致就是下面这个样子。
我们用a表示哥哥离开地球这个事件,b表示哥哥返回地球跟弟弟见面这个事件,那么这个时空图就大致是下面这样的:
问题来了,时空图在这里,哥哥弟弟的世界线也都画出来了,那么如何从图中判断哥哥弟弟谁更年轻呢?时空图里纵轴是时间轴,单从时间轴来看,哥哥和弟弟的世界线在时间轴的投影刚好是一样长的,那么是不是这样就代表哥哥弟弟经历的时间是一样长的呢?如果他们经历的时间一样,那么重逢时哥哥弟弟的年龄就应该一样大啊,那怎么还会有双生子佯谬呢?这显然跟事实不符。
那么这个时间到底要怎么看呢?我们先来想一想,我们要判断地球重逢时谁更年轻,其实就是判断在事件a和事件b之间哥哥弟弟谁自己经历的时间更长,我这里特别强调是自己经历的时间,为什么要这样强调?在牛顿力学里,时间是绝对的,全世界的人都共用一个时间,因此这么说是多余的。但是在相对论里时间是相对的,不同参考系对时间的测量也是不一样的(正因如此洛伦兹变换里两个系的时间t和t’是不相等的),那么在哪个参考系测量的时间可以表征一个人的真实年龄变化呢?或者换句话说,哪个时钟可以表征一个人年龄的真实变化呢?
答案显而易见:只有一直跟自己处于同一个参考系的时钟测量的时间才是自己年龄变化的真实时间。也就是说,只有我口袋里那块表的走时才是真正跟我的年龄增长对应的,我们把这个自己随身携带的时钟测量的时间称为固有时。相对论里时间是相对的,伦敦的那口大笨钟跟我不在一个参考系,凭什么说它的走时测量的是我的时间?
想通了这点,上面的事情就好理解了:我们把哥哥和弟弟的世界线都投影到时间轴,这其实得到的是地面系的时钟测量哥哥弟弟经历的时间,这钟相等没有任何意义。我们得用地面系的时钟测量弟弟的时间,再用飞船系的时钟(也就是哥哥随身带的时钟)测量哥哥经历的时间,也就是哥哥的固有时,这样对比才行。
那么问题来了:根据时空图和世界线,我们要如何得到哥哥的固有时呢?
15世界线和固有时
在这里,我先给出这个极为重要的结论:世界线的线长等于固有时。
这句话很短,意思却很明确,他就是告诉我们时空图里那个粒子的世界线的线长就表征了粒子的固有时,也就是跟粒子一直保持相对静止的时钟测量的时间。在上面的双生子佯谬的时空图里,哥哥和弟弟的世界线都画出来了,那么我们可以求出他们的线长。现在你说世界线线长等于固有时,那我们要比较哥哥弟弟的固有时,直接比较他们的世界线线长就完了。
所以,如果我们知道上述结论,那么双生子佯谬这个问题就简化为比较哥哥和弟弟世界线的线长,谁的长一些谁经历的时间就多一些,那谁就更老,那问题就相当简单了。因此,现在问题的关键就是如何理解上面的结论:为什么在闵氏时空里世界线的线长会等于固有时呢?
这个事情我们可以这样理解:固有时是什么?固有时就是自己随身带的时钟测量的时间,说得再准确一点,那就是跟自己一直处在同一个参考系里的时钟测量的时间。因此,如果一个时钟始终跟你处在同一个参考系里,它自然觉得你一直是静止不动的。比如,在飞船里的哥哥虽然要经历加速减速运动,还可能在宇宙里各种浪,但是在飞船里的人和时钟看来,哥哥一直坐在那里没动。
那么,重点来了:时钟觉得你不动,其实是觉得你在空间里没动,也就是说觉得你在空间上的位移为零。那么,你在时空(时间+空间)里移动的间隔就将全部由你在时间上的间隔贡献(因为空间没动,间隔为0)。
什么意思?我们再来理一下时空间隔这个概念:狭义相对论统一了时间和空间,用时空图上的一个点表示发生在某个时间某个空间上的一个事件,那么两个事件肯定就表示为时空图上的两个点,那么这两个点之间的距离(闵氏距离)就是这两个事件的时空间隔。而且,我们还反复强调了,闵氏几何里的时空间隔,就跟欧式几何里的空间间隔一样,它是不会随着参考系的变化而变化的。也就是说,只要发生了两个事件,那么不管我是在地面系看,还是在飞船系看,这两个事件信息虽然不一样,但是它们的时空间隔一定是一样的。
在欧式几何里,欧式线元是dl²=dx²+dy²,所有在x轴上相隔dx,y轴上相隔dy的两个点的空间间隔,或者说空间距离也就是dl²=dx²+dy²。同样的道理,在闵氏几何里,闵氏线元是ds²=-dt²+dx²,所以,在时间上和空间上分别相差dt、dx的两个事件,它们之间的时空间隔也就是 ds²=-dt²+dx²。
我们现在想知道固有时,也就是想知道跟自己处在同一个参考系里的时钟的走时。上面我们已经分析了,在自己所处的参考系里,肯定觉得自己是静止的,也就是空间间隔dx=0。因为时空间隔是ds²=-dt²+dx²,把dx=0代入进去我们就能得到ds²=-dt²。这就是在上面说的,自己参考系里的时空间隔全部由时间间隔贡献的意思。
有了ds²=-dt²,事情就明朗了:dt就是在自己所在参考系里的时间流逝,而ds是时空间隔,也就是时空图上两点的距离。这个微分符号d就是在告诉我们这是两个间隔无穷小的事件,如果我们把许多无穷小的这种事件累积起来(也就是对ds²=-dt²做积分运算),那么dt累积起来就是时钟流逝的时间,也就是固有时;而把ds累积起来,也就是把所有相邻时空点之间的距离累积起来,那得到的就是时空图里这条世界线的长度。
这就无可辩驳的向我们证明了:世界线的长度等于固有时。
其实,只要我们理解自己相对于自己所在的参考系肯定在空间上是静止的,所以时空间隔全部由时间间隔贡献。而时空间隔就是时空图里两点的距离,这个距离累积起来就是世界线的长度,而时间间隔累积起来自然就是这个参考系里流逝的时间就行了。上面做的各种简单的计算,无非就是从数学上更加严格地证明了这一点而已。
想通了这点就会觉得其实“世界线长等于固有时”是很正常的事情,在一些相对论的教材里,他们甚至直接拿这个来定义标准钟的。也就是说,他们在教材不会向你解释为什么“世界线长等于固有时”,而是直接告诉你“只有世界线的线长等于固有时的钟才是标准钟”,才是准确的钟,否则你的钟是有问题的。可见,在大家眼里,这个结论实在是非常自然的。
16双生子佯谬之完结篇
好了,如果我们能够理解“世界线的线长等于固有时”,那么困扰大家多年的双生子佯谬就瞬间变成了一个极其简单的问题。我们再来看看双生子佯谬的时空图:
比较哥哥弟弟重逢时谁的年龄更大,就是比较他们两个的固有时,就是比较哥哥和弟弟世界线的线长。那么,他们两个的世界线谁的更长一些呢?
其实这根本都不用定量的去计算,一眼就能看出弟弟的世界线更长,因为闵氏几何里线段长度是时间和空间项的平方相减之后再开方得到的。这个求线段距离的公式我们前面也说了,其实就是闵氏线元稍微处理一下,如下图:
所以,如果两条线在时间轴上长度一样(比如哥哥和弟弟的时间都是从a到b),那么在空间上走的越多的它的总线长就越短。弟弟静止没动,他的世界线是完全平行于t轴的,在x轴上都没有任何分量,也就是Δx=0,所以他的世界线肯定是最长的。哥哥因为去太空飞了一圈,所以空间上的分量Δx>0,那最终得到的S的值肯定就比弟弟更小了。
我们可以想象一个最极端的情况,我们假设哥哥以光速运动,那么它在空间上走的距离就最大。而我们知道光子的世界线长度为0,所以这时候哥哥的世界线长度就是最小值0了,0肯定比弟弟的世界线长度更小吧。
如果大家对这种粗略的讨论不放心,我们可以换种更精确的方式讨论。如下图,我们把弟弟和哥哥的世界线用很多平行于x轴的虚线分隔开,如果我们的分割线足够多,那么在每一个小段里哥哥的世界线就可以近似看做一条斜直线,而它的线长是显然比弟弟世界线里的那一小段短的(这我们在上面已经给过结论了)。由于每一小段里哥哥的世界线都更短,那么累加起来的总世界线肯定还是更短了。
总之,大家如果理解闵氏时空的线长计算公式,我相信理解哥哥的世界线更短是非常容易的,而世界线更短就意味着自己经历的时间(固有时)更短,那么重逢时哥哥就更年轻。这样,双生子佯谬就是很明显的事情了。
于是乎,我们发现让我们头疼不已的双生子佯谬就这样被解决了。在几何语言里,复杂的双生子问题被简化到仅仅比较一下哥哥弟弟两条世界线的线长就行了,而只要我们理解在闵氏几何里计算线长要用闵氏几何的方式(ds²=-dt²+dx²)去度量就没什么问题了。其实,你也不用觉得奇怪,把代数问题几何化之后带来问题难度的大幅度降低并不是什么奇怪的事情,我们在初中高中的数学里,不也经常借助画图去理解函数、方程的性质么?
这样处理问题简单是简单了,但是细心的人还是会有疑虑,他觉得:虽然你在这个以地面为基准系的时空图里确实严格地证明了哥哥的世界线更短,所以回来的时候更年轻。但是我如果不以地面系为基准系呢?我在其他的参考系里来看,来画时空图,比如我要是站在哥哥飞船的视角来画时空图,那结果会不会又不一样呢?因为说到底,大家觉得双生子佯谬难以理解,就是因为你可以站在弟弟的角度,也可以站在哥哥的角度,这样一相对就没完没了了。
这在以前的思维里确实是大问题,但是,在几何语言里这确不是问题。为什么呢?因为线长是一个几何量,这种几何量是不会随着坐标系的变化而变化的(因为它们是根据线元定义的,而线元在不同的坐标系里都是一样的),也就是跟坐标系的选择无关。这一点我们在二维欧式几何里也可以非常清楚地感觉到:你在二维欧式平面里有一条线段,那么这条线段的长度就是固定的。不管你是上下左右的移动这个直角坐标系,还是顺时针逆时针旋转这个直角坐标系,线段的长度始终都是一样的,这一点相信大家不难理解。
那么,同样的,在闵氏几何里,不论你选择哪个惯性系作为基准系,一条世界线的线长都是一样的。也就是说只要哥哥的世界线在一个参考系里比弟弟的世界线短,那么再所有的惯性参考系里都比弟弟的世界线短。这就跟在欧式几何里一根木棒只要在一个直角坐标系里比另一根木棒长,它在所有的直角坐标系里都比那根木棒长一样的道理。
其实,我们再仔细想一下,当初我们为什么选择闵氏几何来描述狭义相对论?不就是因为我们发现了在洛伦兹变换下,也就是在惯性参考系之间不论怎么相互转换,ds²=-dt²+dx²作为一个整体它的值是不变的么?然后我们以ds²=-dt²+dx²为线元建立了闵氏几何,而在闵氏几何里曲线的长度就是根据这个线元来定义的。所以,世界线的长度在闵氏几何不同的参考系里肯定就是一样的,我们也压根没必要舍近求远,去选择更复杂的参考系给自己找不痛快。
这样,我们就能消除那个疑惑,放心大胆的说哥哥的世界线更短了。于是,用闵氏几何讨论双生子佯谬的问题就全部结束了。其实,只要把几个关键的弯转过来,你就会发现双生子佯谬其实是非常简单的一个问题,它完全不值得我们花费那么多的时间精力在这里绕来绕去(这个问题跟薛定谔的猫在社群里并称两大月经问题),但是不使用几何语言,这好像也是没办法的事,太复杂了。相对论还有非常多精彩的东西等着我们去探索发现,在双生子这棵小树上把自己吊死了岂不可惜?闵氏几何虽然看上去有点怪异,但是当我们顺着思路慢慢看的时候,就会发现它其实也没那么奇怪,它不过就是在欧式线元的前面加了一个负号而已,其他的逻辑跟欧式几何都几乎是一模一样的。
17结语
文章到这就先告一段落,能够坚持看到这里的那妥妥的都是真爱了。我写这篇文章主要是想让更多人了解闵氏几何,了解闵氏几何是如何处理狭义相对论里的问题的,最好是让读者能开始习惯用几何语言讨论相对论问题。
所以我不能直接给你下定义,然后告诉你如何用闵氏几何处理这个那个问题,因为这样很多人会不服气,凭什么相对论的问题可以转化成这样的几何问题?为什么闵氏几何里的这个就对应了相对论里的那个问题?因为闵氏几何并没有那么直观,你把狭义相对论翻译到闵氏几何并不像我们把一个图形画到黑板上那么显而易见,所以我必须先把自己的知识清空,从头从零一点点的开始讲,让大家自然的切换到闵氏几何中来。于是,文章就不可避免的长了起来。
另一方面,我这只是科普性质的文章,重点是想让大家了解闵氏几何处理狭义相对论问题的核心思想,因此,我不会像教科书一样把各个概念和术语都写出来。相反,为了降低大家理解的难度,能不用术语的地方我尽量不用术语,能不写公式的地方尽量不写公式,我这真的只是一个闵氏几何的入门篇。大家如果想更全面深入的了解相关内容,可以去找专业的闵氏几何和相对论的教材,这里我还是推荐北京师范大学梁灿彬老师的《从零学相对论》(入门篇)和《微分几何入门与广义相对论》(高级篇),需要这两本书的电子版和配套教学视频的,可以在后台回复“梁灿彬”或者“梁老师”。把我这篇文章看懂了,再去看《从零学相对论》应该会很容易,更深入的问题我们后面再说。
相关文章:双生子佯谬的分析全过程
收起阅读 »相对论前夜:牛顿和麦克斯韦的战争
为了给狭义相对论作铺垫,我专门写了三篇麦克斯韦方程组的文章,为了让中小学生能更好理解麦克斯韦方程组,我又补了一篇微积分,现在终于可以正式谈狭义相对论了。
为什么讲狭义相对论要先讲电磁理论呢?
爱因斯坦发表狭义相对论的论文叫《论动体的电动力学》,一般电动力学教材的最后一章也会讲狭义相对论。这一来一去,你就知道它们的关系不一般了。
那这跟牛顿又有什么关系呢?
牛顿建立了上知天文下知地理的力学体系,日月星辰、潮起潮落都遵循他的定律,这是第一次工业革命的基石;麦克斯韦方程组则包含了一切经典电磁学的东西,还发现了电磁波,这是第二次工业革命的基础。
牛顿和麦克斯韦的理论在各自领域都获得了巨大的成功,是经典物理学的两座丰碑。但是,如果你试图把它们融合在一起,用统一的目光看待它们,立马就会出现不可调和的矛盾。
为了解决这些矛盾,爱因斯坦进行了艰苦卓绝的探索,并最终创立了狭义相对论。
这种处境,很像现在的广义相对论和量子力学。
当我们使用广义相对论处理引力,处理恒星和宇宙的演化时非常好用(可以忽略量子效应),当我们使用量子力学处理电磁力、强力、弱力时也非常好用(引力太弱,可以忽略)。
但是,当我们碰到那些又重又小的东西,无法忽略引力和量子效应中的任何一个的时候(比如黑洞和宇宙初期的奇点),就必须结合广义相对论和量子力学,这一结合就出大问题了。
广义相对论和量子力学的不兼容是当今物理学一等一的大事,这种情况跟百年前牛顿力学与麦克斯韦电磁学的不兼容很相似。两种理论能够在各自领域工作良好,就证明它们至少包含了某种正确性,而一结合就出问题,说明我们还是忽略了某些关键的东西。
那么,牛顿力学和麦克斯韦电磁学之间的矛盾是什么?为什么它们无法兼容?有什么关键的东西被忽略了,爱因斯坦又是如何发现的?为什么是年轻的爱因斯坦先发现了这个,而那些大物理学家们却老是差那么一点?
类似的,广义相对论和量子力学之间的矛盾又是什么?它们之间被忽略的关键东西又是啥?爱因斯坦统一牛顿力学和麦克斯韦电磁学的工作对我们统一广义相对论和量子力学又有什么启发?
学习历史是为了更好地把握未来,科学也一样。在下面的文章里,我会把尽力历史说清楚,现在和未来的问题,就交给你来慢慢琢磨了~
好,下面进入正题。
01日心说的困境
为了让大家更清楚地了解牛顿和麦克斯韦这两位大神的战争,我们先把时间往前推两千年。没错,又来到了古希腊。
提到日心说,绝大部分人立马就会想到哥白尼,甚至直接把日心说和哥白尼画上等号。但是,如果你去翻翻历史,就会发现早在公元前3世纪,一个叫阿利斯塔克的人就提出了日心说,这比哥白尼早了足足一千八百年。
阿利斯塔克被称为古希腊第一个著名的天文学家,他用数学计算出太阳的半径比地球大很多(虽然不够精确)。所以,他认为是太阳在宇宙中心,地球围着太阳转,地球自转一圈为一天,地球围着太阳公转一圈为一年。
这是一个很强的论证,如果太阳真的比地球大很多,我们当然更倾向于认为是小地球围着大太阳转。此外,他还发明了一些方法去测量太阳、月亮和地球之间距离的比值。
虽然受限于条件,他当时没法测得很准,但是随着时间的推移,这些数据肯定是会越来越精确的,那得到的结果也应该越来越支持阿利斯塔克的日心说。
但是,后面的结果我们都知道了。400年后,古代欧洲最伟大的天文学家托勒密在构建他的天文体系时采用的是地心说,而不是日心说,为什么?
抛开教会支持地心说不谈,托勒密作为一位杰出的科学家,他为什么最终选择了地心说,而不是看起来很合理的日心说呢?
具体的原因有很多,但其中有一条影响非常大,绝对不容忽视,甚至可以说是击中了当时日心说死穴的原因:如果地球真的在高速转动,那为什么我们跳起来后会落回原地,而没有被甩出去?为什么天上的云不会被吹向一边?
这个问题放到现在当然很简单,一个初中生都可以自豪地甩出“惯性”送给你。但是在当时,或者说在伽利略以前,这都是巨大的科学难题。
当我们在说惯性的时候,我们其实已经默认了伽利略-牛顿的运动观,认为“力是改变物体运动的原因,而不是维持运动的原因”。
但伽利略之前的人并不知道这些,他们认为运动是需要力来维持的。你跳起来之后没有力了,但是依然能落回原地,那就只能说明地球是静止的。
于是,托勒密就理所当然地拒绝了日心说!
02相对性原理
解决这个问题的人是伽利略。
伽利略想,这里的核心问题就是要解释“为什么地球在动,但是我却感觉不到地球在动?”。这个问题并不难,地球太大了不好说,我们先来看看我们熟悉的船。
假设在一个平静的湖面上有一艘匀速直线行驶的大船。我把所有的窗户都关上,让乘客看不到外面的景象。那么,乘客能根据船舱里的情况分辨出这艘船是静止还是匀速直线运动的么?
答案是不能!
你可以在船舱里做各种实验:你可以跳起来,然后发现自己会落回原地;你去看鱼缸的鱼,发现鱼依然均匀地分布在鱼缸的各个部分,并不会挤向船尾的方向;你可以跟朋友正常地玩篮球,而不用担心篮球会往后窜。
总之,大家可以想象,你在这个匀速行驶(一定要是匀速,加速的话就能明显感觉到不一样了)的船舱里做的一切力学实验,都应该跟在静止的船舱里没有任何区别。
也就是说,我们根本无法通过力学实验区分这艘船是静止的还是匀速直线运动的,这就是伽利略的相对性原理。
相对性原理告诉我们,一个静止和匀速直线运动的参考系是完全等价的。我们无法通过力学实验区分二者,这也非常符合我们的生活经验。
飞机在天上平稳飞行的时候,你可以在飞机里看书、写作,就像在家里一样。如果不看窗外的景象,你也很难区分飞机是在飞行途中还是静止在机场。一座在匀速上升或者下降的电梯,你会感觉它跟没动一样,只有电梯在加速减速的时候,你会发现明显的不同。
其它例子我就不多举了,相信大家只要稍微想一想,就会明白相对性原理其实是非常自然的。
有了相对性原理,日心说的困境就迎刃而解了,为什么?
因为我完全可以认为地球就是这样一艘大船(大飞机),它非常均匀的运动。所以,你根本就不能通过“跳起来会落回原地”这个事实来证明地球是静止还是运动。静止的地球会有这样的结果,匀速运动的地球一样会有这样的结果。因此,就算我支持日心说,认为地球在高速转动,这个事实也不会跟日心说发生冲突了。
于是,攻击日心说最锋利的武器瞬间就变成了一堆废铁。有了伽利略的这波神助攻,哥白尼的日心说才没有在这里翻车。
03惯性系
好,现在我们知道了:静止和匀速直线运动的参考系等价的,或者说惯性系都是等价的。
什么是惯性系?
惯性系的定义是个比较麻烦的问题,有些书用“满足牛顿第一定律的参考系”来定义惯性系。也就是说,如果一个物体在不受外力(或者合外力为零)的情况下能保持静止或者匀速直线运动,那它所在的参考系就是惯性系。因此,牛顿第一定律又叫惯性定律。
但是,如果深究一下,你就会发现这里出现了循环定义,因为什么叫不受外力?你想来想去,最后只能用“在惯性系里保持静止或者匀速直线运动”来定义不受外力。
这样,你定义惯性系需要依赖不受外力这个概念,定义不受外力又要依赖惯性系,这就是典型的循环定义了,这在逻辑上是不允许的。
不过,虽然逻辑上有点问题,但日常使用起来还是很方便的。你把一个篮球放在地面上,这个篮球静止不动,所以地面系就可以看作一个惯性系;你把这个篮球放在一辆加速的汽车上,篮球会向车尾滚动,所以加速的汽车系不是惯性系。
关于惯性系的定义,这里就不做深入讨论了。如果大家感兴趣,后面我可以专门写文章讨论这个麻烦的问题。
在这里,我们只要知道地面系可以近似看作惯性系,而且,如果一个参考系相对某个惯性系做匀速直线运动(比如一辆匀速运动的火车),那么这个参考系也是惯性系就行了。
有了惯性系的概念,伽利略的相对性原理就可以简单的说成“力学实验对所有的惯性系都平权”,或者说“我们无法通过任何力学实验来区分两个惯性系”,就不用老是重复说静止和匀速直线运动了。
毕竟,你在地面上觉得地面静止,火车在匀速运动;你在火车上,又会觉得火车静止,地面上的东西在匀速运动。静止和运动是个相对的概念,它取决于你如何选择参考系。
所以,执着于区分静止和匀速直线运动是没啥意义的,我们只要把握住它们(地面系和火车系)都是惯性系,而力学实验无法区分惯性系就行了。
好,我们现在知道了相对性原理要求力学实验对所有的惯性系都平权,而力学实验是由对应的力学定律来描述的。那么,相对性原理会对这些力学定律做出什么样的要求呢?
想找到答案,我们需要对相对性原理做更深层次的剖析。
04从实验到定律
假设现在有地面系和火车系两个惯性系,火车相对地面作匀速直线运动。
当我们说力学实验无法区分地面系和火车系的时候,我们是在说:我在火车里抛球也好,跳远也好,做的各种力学实验跟在地面上的感觉都是一样的。
你在地面上能跳多远,在火车上就能跳多远;你在地面上从1米高的地方放一个小球,这个小球经过多长时间着地,在火车上小球也会经过同样的时间着地。
你觉得不管在地面还是火车,1米高的小球都会经过相同的时间落地,所以我无法通过这个区分地面系和火车系。但是,这个下落时间,我们是可以通过力学定律精确算出来的。
比如,我们使用牛顿力学(当然你也可以用其它的理论,比如广义相对论)的自由落体运动公式,很快就能算出这个下落时间大概是0.45秒。
也就是说,你在地面系使用牛顿运动定律计算小球下落,得到的时间是0.45秒;在火车系依然使用这个公式计算,得到的结果依然还是0.45秒。
正因为你在地面系和火车系计算的时间都一样(废话,一样的公式,一样的已知条件,结果不一样才见鬼了~),你才会无法区分这两个惯性系。
不过,不知道你意识到了没有,你在这个过程中使用了一个可能连你自己都没有意识到的假定。正是这个假定,保证了你在地面系和火车系的计算结果都一样,保证了你无法区分这两个惯性系,保证了相对性原理。
这个假定就是:你默认牛顿运动定律不管在地面系还是火车系都是长这样的,你用来计算小球下落的数学公式,不管在地面系还是火车系都一样。
正因为你在地面和火车使用的都是这个公式(H=gt²/2),所以算出来的时间才会一样。你想想,如果你在地面系用H=gt²/2去算,在火车系用H=gt²/3去算,那结果还能一样么?
我知道,肯定有些人觉得我这是废话。牛顿运动定律只此一家,别无分店,怎么可能一个公式在地面系长这样,在火车系长那样呢?
我们学习自由落体运动的时候,老师也只讲了这一个公式,不管地面系还是火车系,你用得用它,不用还得用它,因为你压根就没有别的选择。
对对对,你说的都对,所以我才说很多人平常都不会意识到这个事情。
但是,你不得不承认这个问题确实是存在的。而且,正因为牛顿运动定律在地面系和火车系的数学形式一样,你才无法区分地面系和火车系,才会符合相对性原理。更重要的是,这并不是一件多么理所当然的事。
你觉得物理定律的数学形式在不同的惯性系里就必须长一样么?不不不,你有严格地证明么?你只不过觉得应该是这样的,然后就默认这样用了,而牛顿力学刚好满足这个条件罢了。
我完全可以认为某些定律只能在某些特殊的惯性系里使用,在其它的惯性系里使用就是错误的。这样,在不同的惯性系里使用定律的数学形式就不一样了,那么你就能区分这两个惯性系了,这也就意味着相对性原理不再成立。
所以,物理定律的数学形式在不同惯性系里是否一样,要看它是否满足相对性原理。这绝不是理所当然,天生就成立的。
也就是说,从实验的角度来看,相对性原理要求力学实验对所有的惯性系平权。你不管在哪个惯性系里做力学实验,你的感觉应该都是一样的,这样才无法区分这两个惯性系,它们才平权。
从定律的角度来看,相对性原理要求力学定律在所有惯性系的数学形式都一样。因为只有定律的数学形式一样,它在不同惯性系计算的结果才一样,这样才能“欺骗”你的感觉,让你无法分辨出在哪个惯性系,这样惯性系才平权。
从实验到定律,这两种表述是等价的,都是相对性原理的体现。
那么,牛顿力学是否满足相对性原理呢?应该是满足的。不然你在火车、飞机上使用了这么久的牛顿运动定律怎么一直没有出错呢?那要如何证明?如何证明牛顿运动定律的数学形式在所有的惯性系里都一样?
以前我们可能不知道有这回事,拿着牛顿的定律在地面系、火车系、飞机系随便就用。现在知道了,那就肯定要找一找这么做的合法性依据在哪,不能再继续这样耍流氓下去了。
以牛顿第二定律F=ma为例,假设它在地面系是这样的,那我要怎么证明它在火车系还是这样的呢?
你会发现我们需要一个桥梁,一个沟通地面系和火车系的桥梁,一个能把牛顿第二定律从地面系变换到火车系的桥梁。看看我们把F=ma变换到火车系之后,它的数学形式到底还是不是这样。
那地面系和火车系之间有没有桥梁呢?当然有,因为它们本身就有关系。
火车在地面上以一定的速度匀速运动,同一个事件,地面系把它的信息记录了一份,火车系也把它的信息记录了一份,这两者肯定是有某种关系的。
我们要做的,就是把这种变换关系找出来,把这两个惯性系之间的关系找出来,然后再看看牛顿力学的定律在这种变换下的数学形式是否发生改变。
那么,这到底是什么样的一种变换呢?
05伽利略变换
牛顿力学非常符合常识,所以这种变换应该也是符合常识的,我们不妨先来猜一猜。
假设我们在地面系S建立一个坐标系(x,y,z,t),有一辆火车以速度v(沿x轴正方向)匀速运动,我们在火车系S’里也建一个坐标系(x’,y’,z’,t’)。为了简化问题,我们让这两个坐标系一开始是重合的。
对于任何发生的事件,地面系和火车系都会记录下事件发时空信息(x,y,z记录空间信息,t记录时间信息)。我们想要知道的就是:这两套坐标系记录的时空信息之间有什么关系?
先看时间。
假如火车上有一个小球开始下落,火车上的时钟记录的时间为八点,那地面上的时钟会觉得是几点呢?不要笑,我不是在逗你玩,我是在讨论一件很严肃的事情~
你可能会觉得这还需要讨论么?
火车上的时钟记录的时间是早上八点,地面的钟只要没坏,不考虑什么时区的问题,它当然也是早上八点。
不仅如此,所有的钟记录的时间应该都是一样的,这是生活常识。我们宣布奥运会什么时候举行,只需要对外公布一个时间。不会说北京时间什么时候,上海时间什么时候,更不会说高铁时间什么时候,因为我们默认大家都共用一个时间:同一个世界,同一个时间。
没错,这种认为是非常有道理的,也非常符合我们的常识。
我不会说你这种想法是对还是错,我只能说这代表了你对时空的一种看法,这是你的一种时空观。在这种时空观下,时间是绝对的,独一无二的,所有人都共用同一个时间。
也就是说,如果你认同这种绝对的时间观,那么火车系测量时间t’和地面系测量时间t就应该永远都是相等的,即t’=t。
到后面我们会发现,这个问题绝不是你想象的这么简单,它背后大有学问。越是符合常识,越是平凡的东西,想要发现它的不平凡就越不容易。
好,接下来看空间。
地面系和火车系的三个空间坐标x,y,z应该满足什么关系呢?因为火车只沿着x轴运动,所以,你在地面系和火车系测量的y和z的值应该也是一样的(即y’=y,z’=z),唯一不同的就是x了。
这个关系也不难,大家琢磨一下就能得到这个结果:x'=x-vt。
也就是说,如果地面系测量的横坐标是x,你用这个x减去vt(火车的速度v乘以时间t),就能得到火车系下测量的横坐标x’。
你可以自己比划一下,假如你在火车系的原点处放一个小球,那么这个小球在火车系的横坐标x’就永远等于0(x’=0)。火车的速度乘以时间vt刚好就是地面系测量的它的位移x,这代入(0=x-vt)进去刚刚好。
如果小球不在原点,不难验证它们的横坐标依然满足这个关系。于是,我们就找到了两个惯性系之间的坐标变换关系:
如果我在地面系S观测到一个事件的时空坐标为(x,y,z,t),通过上面的坐标变换公式就能求出它在速度为v的火车系S’上的坐标(x’,y’,z’,t’),这样我们就找到了联系两个惯性系之间的一座桥梁。
回想一下,这种变换之所以能成立,是因为我们假设时间是绝对的(t’=t,它在所有参考系里都是一样的),空间像一个坚固的大盒子,无法被压缩。在这种绝对的时空观下,我们推出了两个惯性系之间的坐标变换关系,这个变换就叫伽利略变换。
06牛顿力学与伽利略变换
而牛顿力学也是绝对的时空观,牛顿在《自然哲学的数学原理》的一开头就写到:绝对的、真实的、数学的时间,由其特性决定,自身均匀的流逝,与一切外在事物无关;绝对空间自身的特性与一切外在事物无关,处处均匀,永不移动。
既然牛顿力学是绝对的时空观,而我们从绝对时空观里又自然地推导出了伽利略变换。那么,不难想象,在牛顿力学里联系两个惯性系的坐标变换应该就是伽利略变换。
也就是说,如果牛顿力学满足相对性原理,那么牛顿力学的所有定律就应该在伽利略变换下保持数学形式不变。
如果一个定律在地面系是A=BC,这几个量经过伽利略变换后变成了火车系的A’、B’和C’,那么它们还应该满足A’=B’C’,这样才叫数学形式没变。
我们说牛顿力学的定律形式不变,并不是说它什么都不变。物理量A、B、C经过伽利略变换之后变成了A’、B’、C’,那肯定跟以前的量不一样了。但是,你一个量变了,大家协同着一起变,最后总的数学形式依然保持A’=B’C’这个样子,这才是牛顿力学的所有定律在伽利略变换下保持形式不变的真正意思。
因此,我们也可以说牛顿运动定律具有伽利略协变性,或者伽利略不变性(在伽利略变换下所有物理量都协同变换,但是总的形式保持不变),用协变性、不变性大家可能更容易理解一些。
这段逻辑大家一定要好好理清楚,只有把这段彻底搞清楚了,才算真正明白了相对性原理。
为了让大家更深刻地理解“牛顿运动定律具有伽利略不变性”,我们来看一个具体的例子,看看大名鼎鼎的牛顿第二定律(F=ma)是如何具有伽利略不变性的。
07牛顿第二定律
牛顿第二定律说一个物体受到的合外力F等于这个物体的质量m乘以加速度a(F=ma),那我们就来分别考察一下这三个量在地面系和火车系的情况。
先说质量m,质量是一个不变量。不变量就说它是不随参考系的变化而变化的,你在地面系测的值是多少,在火车系就还是多少。
这个比较容易理解,质量是物体的一个内在属性,它怎么可能随着参考系的变化而变化呢?比如你去查电子的质量,那就是一个具体的数字(9.10956×10^-31kg千克),白纸黑字地写在那里,是不会随参考系的变化而变化的。
在牛顿力学里,除了质量m,力F也是一个不变量。这就是说,对地面系和火车系来说有m’=m,F’=F,那问题的关键就是看加速度a’和a了。
地面系和火车系的加速度有什么关系呢?
我们可以这样看,加速度是单位时间内速度的变化,速度是单位时间内位移的变化,而火车系S’和地面系S的位移关系是伽利略变换直接给出的(x’=x-vt)。那么,我们把位移关系的两边同时除以两次单位时间,不就能得到加速度a’和a的关系了么(用微积分说就是对时间求两次导数)?
好,火车系的速度是u’=s‘/t’,地面系的速度是u=s/t,我们把x’=x-vt的两边都除以时间(因为伽利略变换里t=t’,所以两边可以分别除),然后对应的速度关系就简单了(因为火车只沿x轴方向的运动,所以x和位移s是相等的,写成s’=s-vt也没问题):
推导很简单,得到的结果u’=u-v就是我们熟悉的速度合成法则,也就是说这两个惯性系测量的速度相差一个速度v,符合题意,没毛病。
好,有了速度关系u’=u-v,我们两边再同时除以一次单位时间,就能得到加速度a’和a的关系:
因为速度v是参考系的相对速度,是一个不随时间变化的常数,所以它在单位时间的变化量就是0,于是就对加速度就没有影响了。所以,我们就得到了a’=a,也就是说火车系的加速度a’等于地面系的加速度a。
这样,我们就发现地面系和火车系的力F、质量m和加速度a都是相等的(F’=F,m’=m, a’=a)。那么,如果牛顿第二定律在地面系长F=ma这样,经过伽利略变换之后的F’、m’、a’就依然可以满足F’=m’a’。
这就意味着牛顿第二定律的数学形式在伽利略变换前后保持不变,因此它具有伽利略不变性,证毕。
当然,不只是牛顿第二定律,牛顿力学的所有定律都具有伽利略不变性,你可以仿照我这个思路去验证一下。
08绝对时空观
好,到了这里,我帮大家把前面的思路理一下:伽利略为了给日心说做辩护,从生活经验和实验中提炼出来了相对性原理。
它告诉我们,无法通过力学实验区分静止和匀速直线运动的参考系,所有的惯性系都是平权的,没有谁更特殊。
力学实验由对应的力学定律(比如牛顿运动定律)来描述,如果一套理论满足相对性原理,那么它的数学形式就应该在所有的惯性系里保持一样。
为了验证一个定律在不同的惯性系的数学形式是否一样,我们就需要找到联系两个惯性系的桥梁,这就是坐标变换。而变换并不是天然存在的,不同惯性系下的物理量之间有什么关系,这严重依赖于你的时空观。
比如,你觉得所有惯性系测量的时间都是一样的吗?如果你回答是,那就说明你认为时间是绝对的,认为全世界的观察者都共用一个时钟。你觉得空间是像一个坚固的大房子,还是像一块可以被压缩拉伸的海绵?不同的回答就意味着对空间的不同理解。
不难想象,对时间和空间的不同理解,必然会导致不同的变换。
牛顿力学是绝对的时空观,它认为时间均匀流逝,与一切外在事物无关;空间处处均匀,永不移动。这种绝对时空观对应的变换就是伽利略变换,而牛顿力学的所有定律在伽利略变换下能够保持数学形式不变,所以牛顿力学满足相对性原理。
在绝对时空的大背景下,牛顿力学和伽利略变换配合得天衣无缝。它们能解释苹果下落,气球上升,能解释潮起潮落,也能解释日月星辰的轨道。力学取得了空前的成功,牛顿直接封神。
后来,人们把这种力学思想运用到热现象里去,把宏观的热现象还原成了微观分子间的相互作用,建立了热力学,一样获得了巨大的成功。
但是,当人们把研究对象转向电磁领域的时候,上帝的天平不再偏向牛顿和伽利略,电磁定律把他们组建的世界冲得七零八落。
大家都知道经典电磁领域的集大成者是麦克斯韦方程组,为了给这篇文章做准备,我前面专门写了三篇麦克斯韦方程组的入门文章(积分篇、微分篇和电磁波篇),这里就不再详述了。
电磁理论,或者说麦克斯韦方程组有什么问题呢?
09电磁理论的挑战
用一句话说就是:电磁定律不再满足伽利略变换,麦克斯韦方程组不具有伽利略不变性。
也就是说,麦克斯韦方程组长这样:
如果我们用伽利略变换把方程组的各个物理量都映射到另一个惯性系S’里,那么,在S’系下的新物理量将不再满足上面这种关系。
这跟牛顿第二定律完全不一样。上面我们已经验证了,我们把牛顿第二定律F=ma用伽利略变换从一个惯性系映射到另一个惯性系,新系下的F’、m’、a’依然能组成牛顿第二定律F’=m’a’,而麦克斯韦方程组办不到。
麦克斯韦方程组不具有伽利略不变性,这个事情既不需要实验验证,也不需要什么额外的假设。因为方程组就长这样,伽利略变换也是明确给出的,你判断麦克斯韦方程组是否具有伽利略不变性,这是一个纯粹的数学问题。你一通计算之后,它满足就满足,不满足就是不满足,没有讨价还价的余地。
所以,面对麦克斯韦方程组不具有伽利略不变性这个既定事实,我们要考虑的是:为什么会这样?
牛顿力学满足相对性原理,它用代表绝对时空观的伽利略变换与之适配。
现在麦克斯韦方程组跟伽利略变换不适配,那么就应该有两种可能:第一,麦克斯韦方程组根本就不满足相对性原理;第二,麦克斯韦方程组虽然满足相对性原理,但是与之适配的变换并不是伽利略变换。
那么到底是哪一种情况呢?我们来逐一分析下这两种可能性。
10第一种可能
如果是第一种,也就是认为麦克斯韦方程组不满足相对性原理,那是什么意思呢?
不满足相对性原理,就是说麦克斯韦方程组的数学形式并不是在所有的惯性系里都一样,它可能只在某个惯性系长这样,在其它的惯性系里就不是这样的了。假如麦克斯韦方程组在地面系是这样的,那么你可以在地面用它处理电磁现象,在火车系就不行了。
你可能觉得这太荒谬了,怎么可能我在火车上就不能使用麦克斯韦方程组了呢?难道火车上的电磁现象就不满足这些规律?如果法拉第在火车上做实验,会得出与实验室里完全不一样的电磁定律出来么?
荒谬归荒谬,但是如果你认为麦克斯韦方程组不满足相对性原理,结果就是这样。
当然,如果你认为麦克斯韦方程组在火车系不能用,那么我们也没有理由认为它在地面系就能用。因为地球只不过是宇宙里极其平常的一个星球,如果麦克斯韦方程组只在一个参考系中成立,那凭什么是地面系?太阳系可不可以?火星系可不可以?
所以,如果你非要认为麦克斯韦方程组不满足相对性原理,它只在一个参考系适用。那么,我们就只能选择一个在宇宙范围内看起来非常特殊的参考系,那这个参考系是什么呢?
很容易想到,如果我们秉持牛顿-伽利略的绝对时空观,把整个空间都看作一个坚固的大房子,那么这个房子本身所在的参考系毫无疑问就是那个最特殊的参考系。
另一方面,麦克斯韦方程组认为光是一种电磁波,传统的波动说认为只要是波那就一定有介质,没有介质波怎么传播呢?水波的介质就是水,声波的介质就是空气,没有水自然就没有水波,在真空里也听不到声音。
而光是一种电磁波,那么我们自然也需要一种能够传递电磁波的介质。
于是,我们会发现,要让假设成立,我们需要一个空间这个大房子本身所在的特殊参考系,这个参考系还要能够作为传播电磁波的介质。由于光可以在真空中传播,我们在宇宙的各个方向都能看到光,所以这种介质还应该遍布宇宙。
所以,大家就假设有一种铺满宇宙的东西,它既是那个最特殊的参考系,也是电磁波的介质,它的名字就叫以太。
大家可以发现,如果我们假设麦克斯韦方程组不满足相对性原理,那以太的出现几乎就是必然的,而且还跟我们熟悉的绝对时空观不冲突,多好!
这样处理的代价似乎是最小的,麦克斯韦本人接受的也是这样的观念。
也就是认为宇宙中充满了轻盈的以太,光通过以太传播,麦克斯韦方程组只能在以太系中成立,在其他参考系里不成立,所以它不满足伽利略变换也是说得过去的。
那么,为什么我们在地球上使用麦克斯韦方程组却没有出错呢?难道这么巧,地球所在的参考系刚好就是以太系?或者说,地球因为某种原因带着以太一起运动?不能够吧,这也太巧了,比你在1998年去杭州跟一个叫马云的人拜了把子的概率还小。
所以,物理学家们就只能拼了命的去寻找以太。如果地球真的“浸泡”在以太池里,那么地球自转的时候多多少少会产生一些“以太风”,只要实验设计得足够精巧,我们理论上是能找到它的。
然而,实验并没有找到任何以太风,事情就这样尴尬地僵住了。
11第二种可能
这样,第一种情况就分析完了,我们再来看看第二种情况。
也就是我们认为麦克斯韦方程组依然满足相对性原理,只不过,与之适配的变换并不是伽利略变换。
为什么我们要考虑第二种情况呢?是因为第一种情况会导致以太,但是大家死活都找不到以太,所以转向第二种么?
是,也不是!
大家找不到以太,当然会慢慢降低第一种可能性的威信,于是转而考虑第二种是可以理解的。但是,这个原因并没有那么重要,因为你找不到以太,大家还可以给你解释为什么你找不到以太(参见洛伦兹的操作,他用长度收缩来解释为什么我们观测不到以太风),不会轻易放弃,转而“投敌”的。
为什么要考虑第二种情况,因为第二种情况本身就很值得考虑。
相对性原理是个多么美妙的原理啊,伽利略当年就是凭着它给日心说翻盘的。牛顿力学的大获成功,就已经证明了相对性原理在力学领域是非常正确的,那凭什么到了电磁领域就不正确了呢?
在一个匀速直线运动的船舱里,我无法通过力学实验分辨出这艘船到底是静止还是匀速运动,难道通过电磁实验就能够区分了?
难道在匀速直线运动的船舱里,我们的电磁定律都不一样,那么我们使用的各种电气电子设备岂不是都要出问题了?如果我们的手机在运动的火车里不能用,你觉得这可能吗?
如果你坚持认为电磁定律不满足相对性原理,那么,上帝除了要制造一个特殊的以太参考系,还要让有的定律(力学定律)满足相对性原理,有的定律(电磁定律)不满足相对性原理,他不嫌麻烦么?他制造了这样一个又复杂又不美的体系,他妈妈知道么?
很多物理学家对物理定律的简单和美都有一种执着的追求,爱因斯坦、狄拉克、杨振宁都是这样,而相对性原理就是这样一条又简单又美的原理。
所以,不管是从美学考虑,还是从哲学考虑,让电磁定律放弃相对性原理都是让人很难接受的一件事。更何况,你根本没有任何实验证据,那就更可疑了。
近代物理学的发展,就是一部人类特权的消亡史。最开始你认为地球是宇宙中心,结果发现地球只不过是太阳系的一颗普通行星;你以为太阳是中心,结果发现银河系里有无数个太阳系;当你准备站银河系的时候,大量河外星系被发现了。当你准备退一万步,说起码这个宇宙是唯一的吧,结果很多理论都指向了各种版本的平行宇宙。
你以为你很特殊,结果物理学一次次告诉你:你一点也不特殊,上帝好像也没有倒腾什么特殊的东西。
既然这样,既然上帝这么公平公正,为什么我们要相信他预设了一个特殊的参考系呢?为什么他会对电磁定律开特殊的后门呢?相对性原理说大家都绝对公平,所有的惯性系都一样,这很符合近代物理的精神啊。
所以,我们也有充分的理由认为麦克斯韦方程组也是服从相对性原理的。
如果麦克斯韦方程组服从相对性原理,而它却不具有伽利略不变性,那我们就只能认为跟麦克斯韦方程组适配的变换并不是伽利略变换了,这又意味着什么呢?
12新的时空观
前面我也说了,伽利略变换是绝对时空观的体现,只要你假设大家都共用一个时间,认为空间就像坚固的大房子那样,那么惯性系之间的变换关系就是伽利略变换。
如果你认为麦克斯韦方程组不满足伽利略变换,那这就是在挑战绝对的时空观,这就是翻天的大事了。
所以,一般人根本就不敢往这方面想。虽然大家都认为相对性原理很美妙,觉得如果电磁理论也满足相对性原理,那当然是非常不错的事情。
但是,当他们继续往前走,发现这会跟绝对时空观发生冲突时,他们就立马起身告辞,表示下次一定支持相对性原理,然后就继续寻找以太去了。
为什么当相对性原理跟时空观发生冲突时,绝大部分人都立马抛弃了看起来很美的相对性原理,而选择坚守时空观呢?
这个其实也很容易理解。首先,很多人压根就没意识到有时空观这个问题。当他们发现如果让麦克斯韦方程组满足相对性原理,就会出现一些“荒谬”结论的时候,他们就觉得这是一条死路,这是方向错了,不予考虑。
然后,有极少数非常优秀的科学家会意识到这个问题。他们会隐隐约约地感觉到:“麦克斯韦方程组没问题,相对性原理也没问题,那是不是牛顿-伽利略的绝对时空观有什么问题?时间和空间是不是有可能并不是这样的?”
但是,光怀疑是不够的,你说绝对时空观可能不对,那么正确的时空观是什么?如何在全新的时空观里建立全新的物理学?摧毁旧世界是容易的,难的是如何建立新世界。
最后,只有一个年轻的科学家敢于完全抛弃绝对的时空观,并且在全新的时空观下建立了全新的物理学,彻底跟旧世界决裂。
因为他年轻,没有思想包袱,所以在旧世界里陷得不深,所以敢直接放弃旧的时空观。
因为从小就读康德、休谟、马赫、庞加莱等哲学大师的著作,所以不论是从哲学还是美学考虑,他都无比钟爱相对性原理。
因为他思考问题思考得很深,所以能找到让麦克斯韦方程组和相对性原理共存的办法。
因为他生活在钟表大国瑞士,供职于专利局,每天都要审查非常多跟时间钟表相关的专利,所以他对时间问题特别敏感,并最终从时间这里找到了关键的突破口。
这个人是谁,我相信你们都知道,他就是爱因斯坦。
只要把麦克斯韦方程组和相对性原理之间的冲突解决了,狭义相对论的诞生就是水到渠成的事了。
至于爱因斯坦是如何着手解决这个问题,他又是如何发现问题的关键,解开了别人眼里的死结从而创狭义相对论的,我下一篇文章再细说。
这里,我再带大家看一个具体的例子。看看如果坚持麦克斯韦方程组和相对性原理,到底会出现什么“大逆不道”的结论,以至于把那么多科学家都直接吓跑了。
13电磁波的疑难
在我的麦克斯韦方程组的第三篇文章《见证奇迹的时刻:如何从麦克斯韦方程组推出电磁波?》里,我带着大家一步步从麦克斯韦方程组推出了电磁波的波动方程,并给出了电磁波的速度公式:
因为μ0、ε0都是常数,代入进去我们就会发现电磁波的速度等于光速,从而发现“光是一种电磁波”。
对于能看到这里的朋友,我相信对这个结论已经不会奇怪了,那么真正奇怪的地方在哪里呢?
大家再去看看电磁波的推导过程,你会发现一件奇怪的事情:我是直接从麦克斯韦方程组出发,一顿数学操作之后得到的电磁波速度公式。整个过程我没有预设任何物理上的东西,没有预设任何参考系!
可能你还没有意识到这件事情的怪异之处,那我们再来回忆一下。初中刚学物理的时候,老师就一定跟你强调过:速度是相对的,你在说一个物体的速度的时候,一定要指定参考系,否则你说的速度就是没有意义的。
你坐在家里觉得自己没动,但是你相对太阳就在高速运动;你觉得地面的树没动,但是火车上的人就会觉得树在高速运动。这些很好理解,大家也很容易接受“凡谈论速度,必先指定参考系”。
但是,你在计算电磁波速度的时候,你指定参考系了么?你选定了哪个特定的参考系了么?
没有,都没有!
你做的事情就是拿起麦克斯韦方程组,一顿操作猛如虎,一通纯数学计算之后得到了那个电磁波的速度公式。
你在没有指定任何物理情景,没有指定任何参考系的情况下算出来了一个电磁波速度,那么这个速度算谁的?
地球系的?火车系的?太阳系的?显然都没有道理!
但是我们就是凭空算出一个速度c来了,虽然我不知道这是相对哪个参考系的,就像石头缝里凭空冒出一个孙猴子一样。
遇到这样棘手的问题,你会怎么考虑?
很显然,你没有任何理由认为这个速度是相对哪个具体参考系的,地球不行,火车不行,太阳也不行。
那么,要么你就认为存在一个特殊的参考系,比如我们在第一种可能里说的以太,认为这个速度是相对以太的。这其实就是认为麦克斯韦方程组不满足相对性原理。
要么,你就认为这个速度对所有的惯性系都成立,也就是认为电磁波在所有惯性系下的速度都是c。这其实就是认为麦克斯韦方程组满足相对性原理,认为它在所有的惯性系下都是正确的,这就是前面讨论的第二种可能。
从这里也可以看出,即便我们不从相对性原理本身考虑,麦克斯韦方程组推出的这个电磁波速度也逼着你不得不二选一。麦克斯韦方程组是否满足相对性原理,这是一个必须回答的问题。
此外,很多科普文章说,因为麦克斯韦方程组推出电磁波的速度(也就是光速)是一个常数,所以我们可以从麦克斯韦方程组推出狭义相对论的光速不变原理,这是不对的。
14光速不变原理
光速不变原理不是说光在真空中的速度是一个定值(我声波在空气中的速度还是一个定值呢),而是说你不管在哪个惯性系里测量真空中的光速,它都是一个定值。
它的重点是强调真空光速在所有的惯性系里都一样,也就是说真空光速对所有惯性系都平权。
大家能看到这里来,这句话已经听熟了吧?所有的惯性系都平权,这不就是相对性原理的核心思想么?
所以,你单从麦克斯韦方程组推出的电磁波速度,是无法推出光速不变原理的,因为这个速度根本就没有提及任何参考系。我完全可以说麦克斯韦方程组推出的光速只在以太系里成立,在其它系里不成立,这样你还能说光速不变么?
但是,如果你同时坚持麦克斯韦方程组和相对性原理,认为方程组在所有的惯性系里都成立。那么,你就可以在所有的惯性系里推出电磁波的速度,这样你就可以说真空光速在所有的惯性系里都是不变的,这才是光速不变原理。
也就是说,单独的麦克斯韦方程组推不出光速不变原理,但是麦克斯韦方程组+相对性原理就能推出光速不变原理。
所以,问题的核心还是你要不要坚持相对性原理。
而“真空光速在所有惯性系里都不变”这样一个结论对牛顿力学,对绝对时空观有多么“大逆不道”,大家应该能感觉到吧。
它直接颠覆了我们熟知的速度合成法则。我在地面观测火车上物体的运动速度,那肯定是要把火车的速度和物体的运动速度叠加起来考虑的,怎么可能我在火车上观察这个物体是这个速度,在地面上观察还是这个速度呢?
举个例子,在时速300km/h的高铁上,有一个列车员以5km/h的速度朝车头走去。火车上的人觉得列车员的速度的5km/h,地面上的人自然觉得列车员的速度是300+5=305km/h。
这时候如果有个人跳出来说,不对,我在地面看到这个列车员的速度跟在火车上看到的一样,都是5km/h,那估计大家要送你去精神病院了。
但是,当我们把这个列车员换成了一束光,结论就变成这样了。火车和地面的人竟然都觉得这束光的速度是c,你说这结果可怕不可怕?
而我们所做的,仅仅是假设麦克斯韦方程组满足相对性原理,然后光速就被吓得不敢变了!这种“大逆不道”的结论,牛顿和伽利略当然要不起,这基本上是要掀他们的桌子了。
所以,我们再来看看这个直击灵魂的问题:麦克斯韦方程组到底满不满足相对性原理?
15结语
至此,狭义相对论诞生前夜的各种素材,我都已经帮你准备好了。牛顿力学、麦克斯韦方程组、相对性原理、伽利略变换、绝对时空观之间的关系,我也基本上给你理清了。
有的朋友可能还会有点疑问:别的书籍文章在讲狭义相对论之前,都要大讲特讲迈克尔逊-莫雷实验,然后从这个实验出发讲光速不变,怎么你这里一句都没提?
你去翻一翻爱因斯坦的论文《论动体的电动力学》(后台回复“狭义相对论论文”),里面一样一句没提迈克尔逊-莫雷实验。
爱因斯坦是从电磁学出发建立的狭义相对论,因为他的叔叔是电气工程师,他们家又开了一个电气工厂,所以爱因斯坦从小就对电磁学非常感兴趣。
至于光速不变,我们上面已经分析了。只要坚持麦克斯韦方程组和相对性原理,光速不变就是一个自然而然的结论,并不是非要有实验才敢这样想。也就是说,有没有迈克尔逊-莫雷实验,爱因斯坦都能创立狭义相对论,我们不必过分夸大这个实验的作用。
所以,现在就是这样的局面,牌都在这里,你要怎么打?牛顿力学和麦克斯韦电磁学的核心冲突,牛顿和麦克斯韦这两尊大神之间的战争,你要怎么去化解?
我希望你能好好想一想,自己琢磨琢磨。谁都知道解决方案就是狭义相对论,但是只知道答案对你并没有太大的用处,我希望你自己能合乎逻辑地把正确答案推导出来。你也知道在试卷里只写一个答案但没有任何过程的后果吧?
这是科学史上难得一见场面,也是新手村的绝佳试炼基地。
以前的科学发展,大多是科学家在这个领域做了很多实验,总结了很多实验定律。最后再来个厉害人物对这些定律进行大综合,力学和电磁学的发展皆是如此。
但是,像狭义相对论这样,主要的发展动力来自两套在各自领域都工作良好,一结合就出矛盾的理论的情况是非常少见的。然而,我们现在又一次遇到了这种情况:广义相对论和量子力学在各自领域都工作良好,但是它们一结合就会出现无尽的灾难。
我们应该如何去协调广义相对论和量子力学呢?从这个角度来看,爱因斯坦成功协调牛顿力学和麦克斯韦电磁学的这次经验,是不是就更加显得弥足珍贵了呢?
我也很想知道,如果年轻的爱因斯坦在现在,他会如何看待广义相对论和量子力学之间的矛盾。科学家为了调和两者,提出的超弦理论、圈量子理论等有没有忽略什么关键性的东西?为什么引力没法量子化?我们对时空本性的认识,是不是又要发生一次大的变革?
这些问题有着无尽的吸引力,为了让我自己能尽早看到这些问题的答案,我现在竭尽全力给你们写科普。
所以,我不能只是简单地告诉你们答案,我得尽力把爱因斯坦的学习方式、思考方式、研究方式都写出来。让你们领会爱因斯坦的科学精神,然后让你们去思考这些大问题~
牛顿和麦克斯韦的战争就写到这里,至于爱因斯坦是如何化解这个矛盾的,我下一篇文章再细说。怕错过的,盯着我的公众号就行了。
当然,如果你能在这之前通过这篇文章的线索自己把问题解决了,自己独立地提出狭义相对论,那就再好不过了,那我简直要给你发一朵小红花。如果你有思路,但是在有的地方又卡壳了,可以来我的社群(后台回复“社群”)跟大家一起讨论,我相信这种方式对你的成长会大有裨益。
神探爱因斯坦,我们下篇文章见~
------------------------------------------
相关文章:
《闵氏几何是什么?它是如何统一时空并极大简化狭义相对论的?》
《你也能懂的微积分》
收起阅读 »相对论诞生:爱因斯坦是如何创立狭义相对论的? | 主线
你也能懂的质能方程E=mc²
提到爱因斯坦,很多人的第一反应就是E=mc²。
没办法,质能方程看起来“太简单”了:左边的E代表能量,右边的m代表质量,c是光速,都是中学生就能看懂的物理量。而且,这个方程看起来太神奇了,它告诉我们一般物体都蕴含了巨大的能量,原子弹那毁天灭地的力量就是最好的证明。
又简单又神奇,不传播你传播谁?
但是,很多人容易忘记一件事:质能方程是狭义相对论的结论,需要站在狭义相对论的立场上才能精准地把握它。否则就容易望文生义,再类比、推广一下,后果就很可怕了。
比如,有人认为质能方程的意思是“质量可以转化成能量”,或者说“物质可以转化成能量”。延伸一下,物质代表“有”,能量代表“无”,质能方程暗示着“有无相生”,接下来欢迎进入太极物理频道……
也有人认为质能方程是在说“质量是能量的一种形式”。延伸一下,我们的物质本质上都是能量,一切都是能量,一切都是虚无,色即是空,接下来欢迎进入相对论佛学频道……
这种误解以及可怕的延伸,我还可以列很多。要不是建了那么多社群,见识了各种各样的人,我真难以想象质能方程会有如此丰富的“内涵和外延”。
不过,想想也不奇怪。毕竟谁都可以谈一下质能方程,谈的人多了,想法自然就多了。而且,质量亏损这个名字也很容易把大家往歪路上引。
那么,我们就来好好看一看质能方程,看看E=mc²到底是怎么回事,看看它是如何从狭义相对论推导出来的,以及如何正确地对待质能方程。
01从狭义相对论出发
因为质能方程是狭义相对论的产物,所以,想搞清楚质能方程就得先搞清楚狭义相对论。
什么是狭义相对论呢?
我在《相对论诞生:爱因斯坦是如何创立狭义相对论的?| 主线》里详细描述了狭义相对论的诞生过程,看完文章的朋友肯定都知道:狭义相对论的核心是洛伦兹协变性。
它跟牛顿力学的核心区别是:狭义相对论的物理定律在洛伦兹变换下保持数学形式不变,而牛顿力学的物理定律在伽利略变换下保持数学形式不变。至于尺缩、钟慢、双生子之类的效应,都是狭义相对论的一些简单结论。
质能方程E=mc²也是这样。
也就是说,只要我们认为物理定律应该在洛伦兹变换下保持数学形式不变(狭义相对论精神),我们就能推出质能方程E=mc²,而不需要其它的假设和限制。
因此,只要狭义相对论成立,质能方程就成立,它的适用范围是极广的。有些朋友认为质能方程只在核反应里才有效,这显然不对,因为狭义相对论并不是只在核反应里才有效。
那狭义相对论在哪些地方成立呢?是不是像有些人认为的,狭义相对论只在高速(近光速)情况下成立,在低速情况下就必须使用牛顿力学?
不不不,也不是这样的逻辑。
狭义相对论跟牛顿力学并不是互补的关系。牛顿力学只在低速时适用没错,但狭义相对论不仅在高速时适用,在低速时也同样适用。而且,在低速时它的精度比牛顿力学还要高。
也就是说,狭义相对论不管在低速、高速时都成立,牛顿力学只是狭义相对论在低速情况下一个还算不错的近似。既然狭义相对论的适用范围那么广,质能方程的适用范围自然也很广,而不是只局限在核反应里。
但是,爱因斯坦并不需要知道核反应里质量和能量的关系,他直接从狭义相对论的基本原理出发,就无可辩驳地得到了E=mc²。这是最让人震惊的地方,也是理性的巨大胜利。
接下来,我们就来看一看,看看为什么只要坚持狭义相对论的基本原理,只要坚持物理定律在洛伦兹变换下保持数学形式不变(洛伦兹协变性),我们就能得到质能方程E=mc²。
02动量守恒定律
再来看看E=mc²,公式的左边出现了能量E,看到能量我们就会想起能量守恒定律。既然是定律,那我们就要问了:你可不可以在洛伦兹变换下保持数学形式不变啊?如果可以,那就欢迎进入狭义相对论的世界;如果不行,那就从哪来回哪去,一边玩去。
不过,考虑到能量的种类太多太杂,我们先来看看更简单的动量守恒定律。
在牛顿力学里,动量的定义是mv(质量乘以速度),在不受外力或合外力为0时,两物体碰撞时动量守恒。
比如,两个质量都为m的小球以相等的速度v迎面撞上,碰撞后两个小球黏在了一起。如果以某个小球的运动方向为正(假设为向右),那这个小球的动量就是mv,另一个小球的动量就是-mv,碰撞前动量之和就是mv+(-mv)=0。
根据动量守恒定律,碰撞后小球的总动量也应该为0。而碰撞后它们又黏在了一起,变成了一个质量为2m的大球,所以碰撞后的速度就必然为0(不然总动量就不为0了)。
两个质量相等、速度相反的小球迎面相撞,碰撞后两个小球黏在一起并保持静止。这个事情很容易理解,不管是用牛顿力学的动量守恒定律来计算,还是根据常识来判断都没错。
但是,我们关注的并不是碰撞本身,而是:动量守恒定律是定律么?
这个问题好像很奇怪,动量守恒定律当然是定律了,不然这名字是瞎叫的么?
但是,我希望来到这里的读者,对定律要有更深层的理解。前面说了,狭义相对论和牛顿力学的核心区别,就是前者的物理定律在洛伦兹变换下保持数学形式不变,后者的物理定律在伽利略变换下保持数学形式不变。
那么,当你把动量定义为mv,当你在说动量守恒定律的时候,这个定律是在洛伦兹变换下保持数学形式不变呢,还是在伽利略变换下保持数学形式不变?如果是前者,那这条动量守恒定律就是狭义相对论下的定律;如果是后者,它就是牛顿力学下的定律。
当然,我们很清楚,把动量定义为mv是牛顿力学里的做法。所以,这样的动量守恒定律必然是牛顿力学下的定律,它必然能在伽利略变换下保持数学形式不变。
下面我们来简单地验证一下。
03伽利略变换
要验证动量守恒定律是否可以在伽利略变换下保持数学形式不变,我们就要先搞清楚什么是伽利略变换?搞清楚当我们在说一个定律在伽利略变换下保持数学形式不变时,我们到底在说什么?
其实,伽利略变换也好,洛伦兹变换也罢,都是联系两个参考系的东西。变换嘛,就是把一个参考系的物理量变到另一个参考系里去。
比如,我在300km/h的高铁上,觉得前面的椅子速度为0,列车员正以5km/h的速度往车头走,这是高铁系的测量结果。
那么,如果我站在地面,地面系测量椅子和列车员的速度又会是多少呢?有同学立马会说:“我知道,从地面上看,高铁上椅子的速度是300km/h,列车员的速度是300+5=305km/h。"
如果我问他这样算的依据是什么,他会觉得这还要什么依据,这不是天经地义的事情么?当然要有依据,物理学是一门非常严密的科学,做什么都要有理有据。
我们现在讨论的是同一个东西(椅子、列车员)在不同参考系里的速度,这就涉及两个参考系之间的变换,是一件很严肃的事情。如何把这两个参考系里的物理量联系起来?答案就是前面说的伽利略变换、洛伦兹变换。
在牛顿力学里,我们用伽利略变换联系两个惯性系,那伽利略变换到底长啥样呢?
假设我们在地面系S建立了一个坐标系(x,y,z,t),现在有一辆火车以速度v沿x轴正方向匀速运动。我们在火车系S’里也建一个坐标系(x’,y’,z’,t’),为了简化问题,我们让这两个坐标系一开始是重合的。
坐标系建好后,空间中发生了任何事件,地面系和火车系都会记录下这个事件的时空信息(x,y,z记录空间信息,t记录时间信息)。我们想知道的就是:地面系和火车系记录的时空信息之间有什么联系?
不同的变换会给出不同的答案,伽利略变换的答案是:
我们知道,牛顿力学里的时间是绝对的,所有参考系的时间都一样,所以伽利略变换里有t'=t。因为t‘代表火车系的时间,t代表地面系的时间,t'=t不就是说大家的时间都相等,时间是绝对的么?
再看空间,因为火车只沿x轴正方向移动,所以火车系和地面系在y轴和z轴的坐标都一样,x坐标的关系x'=x-vt也不难理解,琢磨一下就明白了。
有了坐标和时间的关系,我们很容易就能求出火车系的速度u'和地面系的速度u之间的关系:u‘=u-v。这个就不推了,不清楚的可以看看《相对论前夜:牛顿和麦克斯韦的战争》,里面有更加详细的推导。
伽利略变换的速度关系是u‘=u-v,这就意味着:火车系测量的速度等于地面系测量的速度减去火车相对地面的速度。
比如,在速度v=300km/h的高铁上,如果高铁系测量列车员的速度u'=5km/h,地面系测量列车员的速度u就应该满足:5=u-300,u确实等于5+300=305km/h,跟我们的直觉一样。
但是,我们要清楚地认识到:这些推理都是建立在伽利略变换的基础上的。
因为我们采用了伽利略变换,所以两个惯性系之间的速度才可以这样叠加。火车系测量的速度是5km/h,地面系的结果是300+5=305km/h,这不是什么天经地义的事情,而是伽利略变换的结果。
04牛顿力学的定律
有了这个认识,我们再思考一下:当我们说动量守恒定律是牛顿力学里的定律时,我们到底在说什么?
在牛顿力学里,动量的定义是质量乘以速度,也就是mv。我想看动量守恒定律是不是定律,就是要看在一个惯性系(比如火车系)里成立的动量守恒定律,用伽利略变换把它变到另一个参考系以后,它是否依然成立。
因为质量是一个不变量,不管在哪里都不变。所以,不同惯性系之间动量的差别就体现在速度v上了。
还是以小球的碰撞为例,假设两个质量都为m的小球以速度v迎面相撞,碰撞后两个小球黏在一起并保持静止。取向右的方向为正,从地面系看,碰撞前两个小球的动量分别为mv和-mv,碰撞前总动量为0。碰撞后,两个小球黏在一起并保持静止,所以碰撞后的动量2m×0=0,也是0。
因为碰撞前的总动量等于碰撞后的总动量(都是0),所以,地面系确实认为存在动量守恒定律。
但是,我们看动量守恒定律是不是牛顿力学下的定律,并不是只看这个定律在地面系是否成立,还要看用伽利略变换把它变到另一个惯性系之后,它是否依然成立。
因此,我们要换一个参考系,看看新参考系里的碰撞过程是否依然满足动量守恒定律。为了计算方便,我们就把新参考系选在从左往右运动的小球身上,也就是站在速度为v的小球上再来看这个问题。
在地面系,两个小球碰撞前的速度分别为v和-v,碰撞后两个小球黏在一起,速度为0。那么,在新参考系里,碰撞前后小球的速度又分别是多少呢?
在牛顿力学里,我们使用伽利略变换的速度叠加公式u‘=u-v联系两个惯性系之间的速度。也就是说,在原参考系里速度为u的物体,在新参考系里速度就是u‘=u-v。
因此,对于碰撞前速度为v的小球,在新参考里速度为v-v=0;碰撞前速度为-v的小球,在新参考系里速度为-v-v=-2v;碰撞后速度为0的小球,在新参考系里的速度为0-v=-v。
也就是说,同样的碰撞,新参考系看到的是:两个质量为m的小球,一个速度为0(以它为参考系,速度当然为0),一个速度为-2v(对面的小球),它们碰撞之后黏在一起,变成了质量为2m,速度为-v的大球。
那么,在新参考系里动量守恒定律还成立么?我们再来验算一下:碰撞前两个小球的动量分别为m×0=0和m×(-2v)=-2mv,碰撞后黏在一起的大球的动量为2m×(-v)=-2mv。
看到没有,新参考系里碰撞前后的动量都是-2mv,依然相等。所以,在新参考系里动量守恒定律依然成立。
当然,这里我们只验证了一个新参考系。但是,你完全可以根据伽利略变换的速度叠加公式,证明只要把动量定义为mv,动量守恒定律在一般情况下都成立。
这样,我们才敢理直气壮地说:如果把动量定义为mv,动量守恒定律的确是牛顿力学里的定律。因为你用伽利略变换把动量守恒定律变到任何惯性系,它都成立。
那么,到了狭义相对论里呢?
05洛伦兹变换
在狭义相对论里,联系两个惯性系的不再是伽利略变换,而是全新的洛伦兹变换:
变换的细节我们先不细究,不过你可以看到:在洛伦兹变换里,火车系的时间t'和地面系的时间t不再一样(t'≠t),它们之间有个巨复杂的关系。
也就是说,在狭义相对论里,时间不再是绝对的,不同惯性系的时间并不一样,每个惯性系都有自己的时间。
再看看火车系和地面系的x坐标之间的关系,也是一个非常复杂的式子。所以,不难想象,从洛伦兹变换推出的速度叠加公式肯定就没有伽利略变换的那么简单。
中间的推导过程我就省了,洛伦兹变换下的速度叠加公式是这样的:
怎么样,比伽利略变换下的u'=u-v复杂多了吧?
但是,仔细观察一下就会发现,如果v远小于光速c,分母的v/c²就约等于0,分母就变成了1,于是这个速度叠加公式就回到了伽利略变换下的u'=u-v。因为牛顿力学是狭义相对论的低速近似,所以伽利略变换自然也是洛伦兹变换的低速近似。
在牛顿力学里,我们使用伽利略变换导出的速度叠加公式,所以可以用300+5=305km/h表示地面系测量的列车员速度。但是,我们在狭义相对论里使用的是洛伦兹变换导出的新速度叠加公式,那结果肯定就不再是305km/h了。
也就是说,如果火车系测量列车员的速度为5km/h,我问地面系的结果是多少?牛顿力学给出的结果是305km/h,这是用伽利略变换算出来的;狭义相对论认为这个结果不等于305km/h(当然也极为接近这个数字),因为它是用洛伦兹变换算出来的。
如果你问谁算得更准确,那当然是狭义相对论的结果更准确,但牛顿力学的结果也跟它极为接近。因为火车的速度v和列车员的速度u都太小了(相对光速c),所以洛伦兹变换的速度叠加公式的分母1-vu/c²基本上等于1,于是基本上就等于伽利略变换的结果。
但是,如果火车的速度接近光速,分母1-vu/c²就会远小于1,那得到的结果就跟伽利略变换完全不一样了,所以牛顿力学就不能用了。
通过这个例子,相信大家对伽利略变换和洛伦兹变换都有了一定的了解,也明白不同变换下的速度叠加公式是不一样的。具体的计算过程可以不用搞得太清楚(亲自推一遍当然更好),但道理一定要明白。
06狭义相对论的定律
知道了洛伦兹变换,我们再来看这个问题:在狭义相对论里,动量守恒定律还是定律吗?
当我们在说这句话的时候,我们的意思是:如果把动量仍然定义为mv,那动量守恒定律在洛伦兹变换下还能保持数学形式不变么?如果动量守恒定律在一个惯性系里成立,我用洛伦兹变换把它变到另一个惯性系以后,它还成立吗?
具体的计算我就不做了,稍微想一下就知道答案肯定是否定的。
因为我们已经证明了:如果把动量定义为mv,动量守恒定律在伽利略变换下是可以保持数学形式不变的,这样动量守恒定律才步入了牛顿力学的殿堂。
然而,现在动量的定义(mv)没变,联系两个惯性系之间的变换却从伽利略变换变成了洛伦兹变换。既然伽利略变换能让动量守恒定律保持数学形式不变,那换了变换以后肯定就不一样了啊。
也就是说,如果我们依然把动量定义为mv,在洛伦兹变换下,新参考系的动量守恒定律必然不再成立。
要验算也很简单,洛伦兹变换下的速度叠加公式是这样的:
还是刚才的小球碰撞问题,我们可以用同样的方法把新旧惯性系碰撞前后的速度都算出来,再看看动量是否相等。
谁算谁知道,答案必然不相等。
于是,我们就面临一个非常棘手的问题:如果我们在狭义相对论里依然把动量定义为mv,那么,经过洛伦兹变换以后,新参考系里的动量守恒定律就不再成立。如果动量守恒定律无法在洛伦兹变换下保持数学形式不变,那它就没有资格成为狭义相对论里的定律。
也就是说,如果我们继续沿用牛顿力学的动量定义(mv),那狭义相对论里动量守恒定律就不再成立。
怎么办?
解决方案也很明显:要么,我们放弃动量守恒定律,认为狭义相对论里动量守恒定律不再成立;要么,我们修改一下动量的定义,让新定义下的动量守恒定律在洛伦兹变换下依然可以保持数学形式不变,从而保住它在狭义相对论里的定律地位。
很显然,闭着眼睛我们都知道要选后者。
动量守恒定律这么重要的东西,你说放弃就放弃了?为了坚持动量的定义(mv)而放弃动量守恒定律,这种行为太愚蠢了。如果动量守恒定律不再成立,我要动量有何用?
07新的动量
所以,为了保住狭义相对论里的动量守恒定律,我们需要重新定义动量。重新定义的目的,就是让新的动量守恒定律具有洛伦兹协变性,让它在狭义相对论里能继续以定律自居。
那么,我们要把新动量定义成啥样,才能让它具有洛伦兹协变性呢?这个倒不难,因为洛伦兹变换是明确给出了的,我们只要凑出一个新动量,让动量守恒定律在洛伦兹变换下依然可以保持数学形式不变,而且在速度远小于光速时能够回到牛顿力学的定义就行了。
这个过程我略了,感兴趣的自己去试一下。最后,为了保住狭义相对论里的动量守恒定律,我们必须把动量定义成这样:
可以看到,当v远小于光速c时,分母就会变成1,此时的动量就回到了牛顿力学的定义mv。而且,你试一试,这样定义动量,确实可以让动量守恒定律在洛伦兹变换下保持数学形式不变,皆大欢喜。
到这里,我们就完成了从牛顿力学到相对论力学升级的第一步。为了让动量守恒定律具有洛伦兹协变性,我们修改了动量的定义。
但是,力学量又不止动量一个,物理定律也不止动量守恒定律一个。你考虑了动量守恒定律,那能量守恒定律要不要考虑?你改了动量的定义,那动能的定义要不要改?
改,当然要改,一个个排队慢慢来!
为了让动能不跟新的动量发生矛盾,为了让能量守恒定律也能顺利入驻狭义相对论,我们需要同步修改动能的定义。
而接下来,就是见证奇迹的时刻:一旦开始修改动能的定义,你会发现质能方程E=mc²竟然神奇地冒出来了。
08新的动能
狭义相对论里的动能要怎么改呢?当然是照着牛顿力学慢慢改。
在牛顿力学里,动能的定义是mv²/2。一个质量为m的木块静止在地面,它的动能为0,我用一个恒力F推这个木块,木块移动了距离S,速度均匀加速到了v。
我在《什么是高中物理?》的第25节跟大家算过:一个物体在恒力F的作用下会以一定的加速度做匀加速运动。根据牛顿第二定律,这个力F和物体的质量m以及加速度a之间的关系是:F=ma。而一个物体以加速度a从0加速到v,运动的距离S可以表示成:S=v²/2a。
如果我们算一下力F在空间上的累积(也就是力F做的功)F·S,会发现它刚好就等于物体增加的动能mv²/2:
也就是说,合外力对物体做的功等于动能的改变量,这就是中学的动能定理。也因如此,我们在牛顿力学里可以用合外力F和位移S的乘积F·S来表示动能增加的大小,如果物体一开始动能为0,那F·S就是物体最终的动能。
那么,牛顿力学里这个关于动能的计算方式可不可以搬到狭义相对论里来呢?
大抵还是可以的,毕竟狭义相对论在低速情况下还要回到牛顿力学,所以许多东西都会保持一定的一致性。比如,狭义相对论里的动量虽然不再是mv,但是基本形式上还是质量m乘以速度v,只不过加了一个相对论特有的系数。
因此,我们在狭义相对论里就暂时用F·S计算动能好了。位移S好说,但问题是:这个力F要如何表示?
在牛顿力学里,力F的常见表示有两种:一种是根据牛顿第二定律F=ma来算;另一种是对F=ma做一个微小的变形,把加速度a按照定义表示成Δv/Δt,然后把m和Δv组合成动量的改变量Δp(p=mv),然后F=ma=mΔv/Δt=Δp/Δt。
也就是说,对于力F,我们既可以把它表示成质量m和加速度a的乘积,也可以把它表示成单位时间内动量的变化量,也就是动量的变化率Δp/Δt。然而,狭义相对论里的新动量我们已经找到了,那就直接用动量的变化率Δp/Δt表示F,再用F·S计算物体的动能吧,省时省力。
然后,我们要意识到一件事:前面我们都假设力F是恒力,认为物体在做匀加速运动,这是一种特例。
我们要计算物体的动能,要推导质能方程,当然不希望它只在这种特殊情况下才成立。所以,我们要考虑更一般的情况:如果力F和位移S都在变,我们应该如何计算它们的乘积?
地球的表面是弯的,但在小范围内我们可以认为它是平的。同理,在足够小的范围内,我一样可以认为力F和位移S的大小不变。如果用ds表示这个微小的位移变化,用F·ds表示力F在这个微小位移里做的功,那么,把0到S所有的功累加起来就能得到总动能E。
写成数学表达式就是这样:
很显然,为了保证结果的一般性,我们这里动用了微积分。这个具体的计算过程我不想多讲,因为但凡学了微积分,会分部积分的同学都知道怎么算。如果你不会微积分,这个计算过程我也没法在这里给你科普,我只能建议你先看看我的《你也能懂的微积分》,再找本微积分教材看看。
更为重要的是:这个计算过程并不会影响你对质能方程的理解。
因为这只是一个纯数学计算手段。人们之所以误解质能方程,并不是因为不知道这个公式的形式是E=mc²,而是无法理解这个方程背后的物理意义和物理背景。
如果你跟着我的思路来到这里,知道为了让动量守恒定律满足洛伦兹协变性,我们不得不重新定义了动量,进而需要重新定义动能。你就会知道质能方程到底是怎么来的,就算看不懂中间的计算过程,也不会影响你对质能方程的理解。
这里,我就放一张新动能的推导图片,你能看懂就看,看不懂也没事。当然,如果你暂时看不懂,但是为了能看懂而去学习微积分,那自然是极好的。这里也没多少微积分的知识,关键就是一个分部积分。计算思路也非常简单,就是用狭义相对论里新动量的变化率代替力F:
我把结果放到倒数第二步:
也就是说,一个物体的动能E在狭义相对论里可以表示成这样:括号外面是mc²,括号里面是相对论因子减去1。
我们把中间那一大串东西称为相对论因子(也叫洛伦兹因子),因为相对论里经常会用到它,所以我们就用一个特殊符号γ来表示这个相对论因子:
这样,你再看看狭义相对论里的新动量,是不是就相当于在牛顿力学的动量mv上乘了一个相对论因子γ?也就是说,狭义相对论里的新动量可以简写成p=γmv。
同样,上面的动能表达式一样可以通过相对论因子γ简写为:
在这个式子里,m依然是我们熟知的质量,是一个不随速度和参考系变化而变化的物理量。而这个E,就是因为有力F作用在物体身上,物体因为运动而具有的动能。
这个动能的形式很有意思。
在牛顿力学里,动能的表达式是mv²/2,只有一项;到了狭义相对论,动能的表达式竟然有两项。而且,后一项mc²竟然跟物体的速度v没有关系,只跟物体的质量m有关,只有前一项γmc²才会随着速度的增大而增大(因为γ会随着速度的变大而变大)。
这有点拔出萝卜带出泥的味道,原本我们只是在正正经经地计算狭义相对论的新动能。现在你倒好,你算出的新动能里竟然还有一项跟速度无关的mc²,单位还跟能量一样。
仔细看看这个新动能,如果物体的速度v为0,相对论因子γ就等于1,那动能就变成了E=mc²-mc²=0。静止物体的动能为0,很符合我们对动能的认知。
如果物体的速度开始增大,相对论因子γ就开始大于1,第一项γmc²就在增大,它跟mc²的差值也会不断增大,结果就是动能不断增大。
这给人的感觉,就好像是物体静止时具有mc²的能量,当物体开始运动时,我们用γmc²减去物体静止时具有的能量mc²就得到了物体的动能。所以,爱因斯坦面对这个式子时,创造性地把mc²解释为质量为m的物体静止时具有的能量,简称静能。
如果我们把mc²解释为物体的静能,而E是物体的动能,那静能+动能自然就是物体具有的总能量。于是,γmc²就成了物体具有的总能量(动能+静能)。
这样解释的话,是不是一切都合情合理了呢?
09质能方程
复盘整个过程,我们到底做了什么?
我们只是坚持狭义相对论的基本原理,认为物理定律在洛伦兹变换下应该保持数学形式不变,也就是认为物理定律应该具有洛伦兹协变性。
然后,为了让动量守恒定律具有洛伦兹协变性,我们修改了动量的定义。动量修改了以后,动能自然也得跟着改。然而,令谁也没有想到的是:当我们把这种符合狭义相对论精神的新动能(E=γmc²-mc²)计算出来以后,发现它竟然带了一个尾巴mc²。
接着,爱因斯坦认为mc²应该是物体静止时具有的能量,也就是静能,γmc²是物体的静能和动能之和,也就是物体的总能量。
整个过程,我们唯一引入的就是狭义相对论的基本原理,也就是认为物理定律应该具有洛伦兹协变性,然后就发现狭义相对论的新动能把静能mc²带出来了,这太意外了!
于是,我们就从狭义相对论里自然而然地推出了质能方程:E=mc²。
不知道爱因斯坦看到这个结论后是什么反应,这只是牛顿力学向相对论力学升级过程中的一个小步骤,结果却发现能量和质量之间竟然有E=mc²这样一种神奇的关系。
这个结论看起来是如此的不可思议,因为真空光速c是一个非常大的数字(3×10^8m/s),平方一下就更大了。根据质能方程,一个半斤重的苹果蕴含的能量将高达525万吨TNT当量,大致相当于350颗广岛原子弹爆炸释放的能量,这太夸张了。
但是,E=mc²又是直接从狭义相对论的基本原理直接推出来的,如果质能方程错了,那就是狭义相对论错了。而爱因斯坦对狭义相对论的信心是极强的,所以,他在写完《论动体的电动力学》的三个月后,就完成了质能方程的论文。
10回到牛顿
习惯了将动能视为mv²/2的人可能不太习惯E=γmc²-mc²这种新动能表达式。但是,因为牛顿力学是狭义相对论的低速近似,所以它在低速条件下依然可以回到大家熟悉的mv²/2,不信我们来试一试。
把相对论因子γ进行泰勒展开,就得到了这样的结果:
泰勒展开就是看你想近似到什么程度,你不是说牛顿力学是相对论力学的低速近似么?那相对论力学要低速近似到什么程度才会变成牛顿力学呢?泰勒展开会告诉我们答案。
如上图,我们对一张真实照片进行了“泰勒展开”。一阶近似下就是随便描了一个轮廓,我们可能看了个寂寞;二阶近似下可以看清楚一些细节,图片变清楚了一些;三阶近似下,细节就更清楚了,更接近原图……
只要你开心,你可以无限阶近似下去,近似的阶数越高,图片就越接近原始图片。同理,我们对相对论因子γ进行泰勒展开,它就被分成了无穷多项的叠加,你可以按照自己的需求采取相应的近似水平。
我们说牛顿力学是相对论力学的低速近似,这个低速是相对于光速而言的。当速度v远小于光速c时,v/c就是一项很小的项,(v/c)²以及更高次项就是更小的项了,可以选择性忽略。
那么,如果我们只取前两项,也就是取γ=1+(v/c)²/2,再把γ代入狭义相对论的新动能:E=γmc²-mc²=mc²(γ-1)=mv²/2。不多不少,刚好就回到了牛顿力学的mv²/2。
也就是说,牛顿力学的动能只是狭义相对论动能的一个二阶近似。
因为mv²/2只是一个近似值,所以它必然会丢失一些信息。只是,万万没想到,它丢失的信息里居然包含了物体静止时具有的能量mc²。一旦我们通过更加精确的狭义相对论把这个丢失的信息找了回来,就会发现任何质量为m的物体都含有mc²如此巨大的能量。
其实,静止的物体具有能量一点也不奇怪。
一堆火药放在那里,你肯定知道它有能量,甚至能算出这堆火药爆炸时会释放出多少能量。与此同时,你也知道火药爆炸释放的只是部分化学能,并不是它的全部能量。现在,我们第一次有办法把它的全部能量算出来了,途径就是质能方程E=mc²。
质能方程把质量和能量联系起来了。那么,在这种新视角下,我们应该如何看待质量和能量的关系呢?
11质量与能量
再次回到狭义相对论的动能表达式:
回想一下,爱因斯坦是如何解释这个式子的?爱因斯坦想:既然E是物体的动能,那么γmc²就是物体的总能量,mc²是物体静止时具有的能量,简称静能。
注意,我们是先得到了动能E,是先有能量,先有总能量γmc²和静能mc²,然后再考虑如何衡量能量的大小。因为c是常数,所以就只能用质量m来衡量静能的大小,这个次序不能乱。
于是乎,质量就成了能量的量度。
因此,如果物体吸收了一点能量,它静止时的能量增加了,质量也会增加;如果物体释放了一点能量,它静止时的能量减少了,质量也会减小。
所以,把质能方程写成m=E/c²反而更容易理解它的含义(爱因斯坦一开始就是这么写的):你想知道一个物体的质量是多少吗?那就用它静止时的能量除以c²吧,于是我们才说质量是能量的量度。
一个物体静止时的能量是多种多样的,可以有内能、化学能、核能以及各种势能。但是我不关心种类,你把它们都加起来,除以c²就能得到物体的质量m。
为什么我要如此小心翼翼地描述这一段呢?因为只有极少数人在看到质能方程E=mc²后会认为它是在说“质量是能量的量度”,许多人的第一反应是:质能方程意味着“质量可以转化成能量”。核反应里出现了质量亏损,就是一块“实实在在”的物质丢失了一块质量,然后它们转化成了“虚无缥缈”的能量。
这是一种非常常见,但危害极大的误解。顺着这种误解,稍微发散一下就能搞出太极相对论、佛学相对论之类的东西。你以为原子弹释放了能量,是因为原子弹爆炸时丢失了一块东西,然后这部分质量转化成了能量?
不不不,原子弹爆炸释放能量的过程,跟一般的火药爆炸没什么不同,只不过前者释放的能量比较多,后者释放的能量比较少而已。原子弹爆炸释放了能量,所以度量原子弹能量的质量会减少;火药爆炸释放了能量,所以度量火药能量的质量也会减少。
这就是一个普通的能量转化过程,体系的一部分能量(原子弹的核能,火药的化学能等)通过爆炸转化成了动能和其它能量。于是,原子弹和火药的能量E减少了,度量这个能量的质量m也相应减少了,并且遵守E=mc²,仅此而已。
这也是我比较讨厌“质量亏损”这个词的原因,它太容易让人误解了,太容易让人误以为质量只在核反应中才会减少,让人误以为核反应就是“质量转化成了能量”。
没有什么质量转化成了能量,只有质量是能量的量度,质量就是度量一个物体静止时具有多少能量的。
我知道,不管我在这里说什么,你都难以接受为什么我们不能说“质量转化成了能量”,你不认为这样有什么不妥,甚至觉得它理所当然。而且,就算我让你强行记住这个结论,你后面还是会忘的,毕竟大家都习惯用自己习惯的方式思考。
所以,我们就来深入地扒一扒,看看你在说“质量转化成能量”时,你到底在说什么?看看为什么很多人会这样想,以及最重要的:为什么质能方程E=mc²不能这么理解?
12牛顿的质量
在牛顿时代,大家认为宇宙万物都是由微小的实物粒子(原子)组成,认为宇宙就是一堆粒子的集合,各种物理现象只是粒子间的排列组合和运动变化,而粒子的运动规律则由牛顿力学给出。
在这样的语境下,人们认为组成物质的基本微粒是不可摧毁的,自然界的各种变化只是它们的排列组合,并不会摧毁粒子本身。到了18世纪,化学家们在一定精度内发现化学反应前后物质的总质量不变,也就是大名鼎鼎的质量守恒定律,这就更加佐证了这种观点。
因为化学反应只是原子间的排列组合,如果原子的种类和数目都没变,那原子的总质量就不变,质量自然就守恒了。
一旦我们认为“一个物体的质量等于组成这个物体的所有微粒质量之和”,质量基本上就被当成了物质的代名词。因为,你潜意识里会觉得:只要是物质,肯定就由一些实物微粒组成,它的质量自然就等于所有微粒的质量之和。
那能量呢,能量在这种语境下又扮演了什么角色?
还是看化学反应,我们认为化学反应就是原子间的排列组合。比如木炭燃烧,在化学家眼里就是木炭里的碳原子和空气中的氧原子重新组成了二氧化碳分子,这个过程释放了能量,但燃烧前后原子的种类和数量都没变,所以质量不变。
也就是说,化学家认为虽然木炭燃烧释放了能量,但它们的质量不会变。在这种语境下,质量和能量明显是不同的东西:质量是组成物质的所有原子质量之和,能量不过是原子在重组过程中释放出来的副产品。
正因为牛顿语境下的质量和能量是如此的不同,我们在第一次看到质能方程E=mc²,第一次听说在核反应里会发生违反质量守恒定律的“质量亏损”时,才会认为这是“质量转化成了能量”,是组成物质的实物粒子实实在在地被摧毁了(质量减小),然后神奇地转化成了能量。
但问题是,质能方程E=mc²并不是牛顿力学的东西,而是狭义相对论的天之骄子啊。
相对论和量子力学是20世纪物理学的两大革命,它们颠覆了牛顿力学的许多观念。物质不能再简单地看作一堆实物粒子的集合,质量不再是组成物体粒子的质量之和,化学家发现的质量守恒定律也不再成立……
总之就是,时代变了,世界变了,一切都变了,原来的“质量转化成能量”自然也得跟着变。所以,如果我们想搞清楚为什么不能再那样思考,就得先搞清楚牛顿的观念是如何被打破的?
13电磁场的挑战
狭义相对论是爱因斯坦在协调电磁理论和牛顿力学的过程中建立起来的,所以它的论文就叫《论动体的电动力学》(公众号后台回复“狭义相对论论文”获取原论文)。
我们也知道,在19世纪建立电磁大厦的过程中,有两个人的作用至关重要,他们是法拉第和麦克斯韦。
法拉第创造性地提出了“场”,用电磁场来描述电磁现象。麦克斯韦则用优美的数学语言把法拉第的思想表现了出来,得到了能够描述一切经典电磁现象的麦克斯韦方程组。
这些历史大家都很熟悉,但是很多人没有注意到:法拉第提出的电磁场,其实是一个超出牛顿物理图景的概念。
什么意思?在牛顿的观念里,物质是由基本微粒组成的,那电磁场是由什么微粒组成的呢?很显然,电磁场并不由什么微粒组成,这看起来就跟牛顿的物质观发生了冲突。
于是,有些人就主张电磁场只是描述物质的一种数学手段,不具有物理上的意义,也就是不认为电磁场是真实的物质,这样牛顿的物质观就不用对它负责了。但是,很快人们就发现不能这么干,因为电磁场具有能量。
为什么电磁场具有能量呢?
举个例子,我从北京向武汉发射一束电磁波,因为电磁波的速度有限(光速),它从北京到武汉需要一段时间。那么,当电磁波离开了北京,却又还没到武汉时,能量去哪了?此时的能量既不在北京,也不在武汉,那就只能在电磁场里。
于是乎,电磁场就理所当然具有了能量。一个东西具有能量,那它肯定就有物理上的意义,也就是说它是真实存在的物质。如果电磁场是物质,而它又不由实物微粒构成,那就真的跟牛顿的观念冲突了。
但人们还不死心,虽然电磁场是真实存在的物质,但我们还是可以把电磁场和电磁波看作某种实物粒子衍生出来的现象,这样它们的基础就还是牛顿的实物粒子。
比如水波,虽然它是真实存在的,但水波其实是许多水分子有规律的运动衍生出来的现象,它的基础还是水分子这种“微粒”。那么,如果我们认为电磁波跟水波一样,也是由于某种微粒的振动引起的,这不就符合牛顿的观念了么?
按理说,这种想法是非常自然的,毕竟水波、电磁波都是波。但问题是,当我们说水波是由水分子的振动引起时,我们的确看见了水,所以说“水是水波的介质”没什么问题。
但如果你说电磁波也是由某种介质的振动引起的,那这种介质是什么?光就一种电磁波,光可以在太空、真空中传播,而这里似乎什么都没有,不存在什么介质。你总不能说电磁波是由某种介质的振动引起的,但又说不出这种介质是什么吧?
是,电磁波的确有可能存在介质,只是我们还没发现,没发现并不代表它不存在。但是,你也要明白这么做的巨大风险:这是在假设一种看不见、摸不着,目前任何实验都观测不到,却又在太空、真空中广泛存在的介质。
虽然一听就不怎么靠谱,但想到只有这样才能不违背牛顿的观念,人们(包括麦克斯韦、赫兹)就纷纷接受了,并将这种介质命名为以太。也就是说,如果我们把电磁波看作以太的振动,就像把水波看作水的振动那样,它就可以与牛顿的观念和平共处了。
然而,我们都知道爱因斯坦在狭义相对论里把以太仍了,也就是把作为电磁波介质的以太仍了。他认为并不能把电磁波看作以太的振动,电磁波不需要介质,它跟水波有本质的区别。
那有人就要问了:如果电磁波没有介质,它是怎么传播出去的呢?
我反倒想问一句:你凭什么觉得只要是波,就一定要有介质呢?你觉得水波、声波都是通过介质传出去的,所以电磁波也要有介质?
没道理啊,没理由说张三李四是这样,就要求王五也这样。更重要的是,你认为波都有介质,其实就是认为所有的波都跟水波一样,都是通过相邻介质点的力学作用传出去的。但我们已经说了电磁波跟水波不一样,那就不能套这个逻辑了,更多细节可以看看我的《相对论诞生:爱因斯坦是如何创立狭义相对论的?| 主线》。
因此,到了狭义相对论,我们是彻底无法再把电磁波当作某种介质(以太)的振动了,无法再把它还原为某种微粒的衍生现象了,这就跟牛顿的物理图景彻底冲突了。
于是,我们现在就有两种东西:一种是实物微粒,比如分子、原子、质子、中子等,它们看上去可以由更基本的微粒组成;另一种就是无法看成实物微粒的电磁场。
如何把它们统一起来呢?
很显然,牛顿力学是办不到的,我们需要狭义相对论和量子力学才能统一它们。这种包含了狭义相对论、量子力学以及场论思想的全新理论,就叫量子场论。这是一种全新的物理图景,大家熟悉的粒子物理标准模型就是在这上面建立起来的。
怎么统一实物粒子和场呢?无非就是两种思路:要么认为粒子更基本,场是粒子的某种衍生物(牛顿物理干不了这事,现代物理学里倒是有人这么考虑,比如温伯格);要么就认为场更基本,粒子是场的某种衍生物。
量子场论的主流思想是后一种,也就是认为场更加基本,粒子只是场的激发态。比如,电磁场是更基本的,电磁场的激发态就是光子;质子场是更基本的,质子场的激发态就是质子,以此类推。
量子场论认为万物皆场,场是更加基本的东西。粒子只是这种量子化场的激发态,场与场之间的相互作用决定了要发生的一切。具体细节这里就不多说了,后面科普量子力学时再细说。
总之,到这里大家就应该清楚了:牛顿的物理图景已经崩塌了,物质并不是由坚不可摧的实物粒子组成的。在更现代的量子场论里,场反而是更加基本的东西,粒子只是场的激发态。
如果你记住了这一点,质能方程E=mc²就非常容易理解了。因为质能方程最难以理解的地方,就是你非要用牛顿的观念,来理解这个已经完全超出了牛顿物理学的东西。
量子场论是狭义相对论和量子力学联姻的产物,因此必然能跟质能方程相容。我这里并不要求你理解量子场论,只要你能意识到不能再用牛顿的观念来思考质能方程,后面的一切就都好说了
打了这样的预防针,我们再来看看经常跟质能方程同时出现的质量亏损。
14质量亏损
进入20世纪,人们发现了一件“奇怪”的事情:组成原子核的核子质量之和,竟然比原子核本身的质量要大。
什么意思?我们知道原子核是由质子和中子组成的,比如氘核就是由一个质子和一个中子组成。按照原来的观念,我们肯定认为氘核的质量等于一个质子的质量加上一个中子的质量。但实验结果却是:一个质子和一个中子的质量之和比氘核的质量要大。
为什么?
我们对这个结果表示惊奇,是因为它跟牛顿的观念不一样。我们认为一个物体的质量应该等于所有组成物体的微粒质量之和,认为一个氘核的质量应该等于一个质子加上一个中子的质量。但结果却是一个质子(1.6726×10^-27kg)和一个中子(1.6749×10^-27kg)的质量之和(3.3475×10^-27kg)比一个氘核(3.3436×10^-27kg)的质量要大。
而且,我们还知道:质子和中子结合成氘核释放的能量E,跟减少的质量m之间刚好满足E=mc²。
于是,很多地方就用质量亏损来解释这个事,说质子和中子组合成氘核时发生了质量亏损,亏损的质量就按质能方程释放能量。
从牛顿的观念来看,这样考虑是非常自然的。因为质量减小了,肯定就意味着损失了一部分组成物质的“真材实料”,而它刚好又按照质能方程释放了一定的能量,这可不就是损失的质量转化成了能量么?
但问题是,质能方程是狭义相对论的产物,我们不能再用牛顿的观念去思考,因而不能说是“质量转化成了能量”。
那问题到底出在哪?我们应该如何看待质子和中子结合成氘核这个现象?如果不是核原料损失了一部分质量并转化成了能量,那又是什么呢?
问题的关键就在于:单独的质子是质子,跟中子一起组成氘核的质子还是质子,它们并没有什么不同。既然质子的成分都是一样的(两个上夸克和一个下夸克组成),并没有在跟中子组合成氘核的过程中损失什么,你说它质量亏损到底是亏损了什么?
是原来的质子由三个夸克组成,组成氘核之后的质子就损失了一个夸克,只由两个夸克组成了?或者是,你觉得原来的质子是由100个什么微粒组成的,组成氘核的质子就损失了1个微粒,只有99个微粒了?
显然,不可能是这样。质子有质子的内部结构,如果它的内部结构发生了变化,那就不是质子了。就像一个质子和一个中子组成了氘核,但如果增加了一个中子,那就不叫氘核,而是氚核。
既然单独的质子叫质子,氘核里的质子也叫质子,那它们就应该是一样的,质子并没有缺胳膊少腿,中子也一样。既然质子和中子都没有损失什么成分,那它们质量亏损到底是亏损了什么呢?它又能亏损什么呢?
出问题了吧?仔细一推敲,你就会发现这个逻辑是行不通的。
但是,在核反应里确实发生了质量亏损啊。质子、中子和氘核的质量都能查到,确实是前两者加起来比后者大,质量确实损失了一部分啊,这到底是怎么回事呢?
大家认为化学反应前后质量守恒,认为两块砖头一起称的质量应该等于单独称的质量之和,为什么质子和中子组成氘核之后质量就减少了呢?难道核反应比较特殊,有它独特的规律?
15核反应特殊吗?
核反应它一点也不特殊!
质子和中子组合成氘核,它是核子(组成原子核的粒子,包括质子、中子以及它们的反粒子)的重新组合,化学反应是原子的重新组合。一个是核子的重组,一个是原子的重组,有什么本质的区别?
核子间的相互作用主要是强力,原子间的相互作用主要是电磁力,除了强力比电磁力要强一些以外,核反应和化学反应没什么太大的不同。
甚至,两块磁铁在磁力作用下吸在了一起,这个过程跟核反应、化学反应也没什么本质的区别,无非就是把核子、原子换成了磁铁,是不是这个道理?
如果核反应没什么特殊,那质子和中子组成氘核释放出能量,碳原子和氧原子组成二氧化碳分子(木炭燃烧)释放出能量,两块磁铁吸在一起释放出能量(没错,的确释放了能量,不然磁铁碰撞时的声音是哪来的?)的过程就应该是类似的。
如果质子和中子组成氘核的核反应会发生质量亏损,那木炭燃烧会不会发生质量亏损?两个磁铁吸在一起会不会发生质量亏损?
有些人可能有点懵,因为他印象里的“质量亏损”是一个非常高级的名词,是一个违背了质量守恒定律的东西。这种反直觉的新玩意,只有全新的相对论与核反应才能与之相配,一般的化学反应怎配享有如此待遇?把两个磁铁放到这里来就更过分了。
而且,中学化学也讲过,化学反应前后物质的总质量是不变的。两个磁铁吸在一起,根据直觉,前后的质量就更加不可能变了。所以,根据直觉和常识,他绝不相信化学反应、磁铁吸在一起也会发生质量亏损。
但是,我上面的推理也很有道理啊,核反应也好,化学反应、磁铁吸在一起也好,都是两个小东西组成了一个大东西,并且都释放了能量。区别无非就是核反应释放的能量大,化学反应释放的能量中等,磁铁吸在一起释放的能量少,并没有什么本质的不同。
还有,质能方程E=mc²是爱因斯坦从狭义相对论的基本原理推出来的,所以,狭义相对论成立的地方质能方程也应该成立。那么,狭义相对论就只在核反应里成立?化学反应和磁铁相吸就不遵守狭义相对论了么?显然不是啊。
因此,从直觉和常识出发,我们觉得只有核反应才会发生质量亏损,亏损的质量和释放的能量满足质能方程。从逻辑和推理出发,又似乎是核反应、化学反应、磁铁吸在一起的过程都会出现质量亏损,亏损的质量跟释放的能量之间都满足质能方程。
直觉和逻辑发生了冲突,我听谁的?
当然是逻辑,科学从来就不是为了符合你的直觉而建立的。你要说直觉,亚里士多德的理论最符合直觉了,牛顿的都很反直觉,更别说相对论了。
所以,我们应该相信核反应、化学反应、磁铁吸在一起的过程中都发生了质量亏损。
如果化学反应也有质量亏损,那亏损的质量m跟化学反应(比如木炭燃烧)释放的能量E之间也会满足E=mc²。只不过,化学反应释放的能量E比较少,而光速c又很大,所以根据E/c²算出来的亏损质量m就非常小,小到平常根本察觉不出来,于是化学家们才总结出了质量守恒定律。
至于磁铁,它们吸在一起时释放的能量就更少了,亏损的质量也就更小。所以,我们就更加不会察觉分开的磁铁与吸在一起的磁铁在质量上会有什么不同了。
这样,我们就能以一种统一的逻辑解释所有的事情,既不与理论相冲突(从狭义相对论推出的E=mc²是普适的,核反应、化学反应、磁铁都应该遵守),也不跟实验相冲突(核反应容易观测到,化学反应、磁铁不太容易观测到)。
那问题的关键就来了:如果这种逻辑是对的,如果核反应、化学反应甚至磁铁吸在一起释放能量时都发生了质量亏损,而我们又不能像牛顿那样认为是组成物质的“材料”少了一块,那它到底亏损了什么?为什么它的质量会减少?
这就涉及到一个非常关键问题:在狭义相对论里,我们应该如何看待质量?
16质量是能量的量度
木炭燃烧时,碳原子和氧原子结合成二氧化碳分子,这个过程释放了能量,相应的质量也亏损了一点。这个结论已经不奇怪了,我们奇怪的是:它的质量为什么会减小?
如果我们还用牛顿的观念思考这个问题,你就会发现怎么也想不通。你觉得一个物体的质量是组成这个物体的所有粒子质量之和,然而碳原子、氧原子组成二氧化碳分子时,原子的种类和数量都没有变,但总质量却减小了。整个过程除了释放了一定的能量之外,并没有发生其它的事情。
似乎是能量减少了一点,质量就会减少一点,就好像质量不是用来衡量组成物质的微粒,而是用来衡量能量的多少似的。
没错,这正是问题的关键:在狭义相对论里,质量确实变成了一个衡量体系能量多少的量。你静止时有多少能量,对应的质量就是多少,它们的关系由质能方程E=mc²给出。质量不是别的什么东西,它就是能量的量度,这才是一切问题的关键。
以前,我们老觉得质量是物质的代名词,觉得一卡车砖头的质量等于每一块砖头的质量之和,所以每一个分子的质量就应该等于所有组成它原子的质量之和。我们是如此地相信还原论,相信所有的物质都可以还原为一个个基本粒子,相信物质的质量等于所有组成物质粒子的质量之和。
而这,正是我们理解质能方程的最大障碍。
现在我们要改变观念,物质的质量不再是组成它基本粒子的质量之和,而是用来度量能量的。物质的能量固然包含了组成物质的基本粒子的能量,但它还包含了基本粒子之间因为相互作用而具有的能量,比如各种势能。
比如,什么叫重力势能?我搬起一块石头,石头就增加了一定的重力势能。因为石头和地球之间存在引力,当石头离开地面后,石头和地球之间就存在这样一种能量。石头落地后,重力势能减少了,度量能量的质量自然也跟着减小了,减少的能量E和质量m之间满足E=mc²。
质子和中子组成氘核的情况也一样,无非就是把质子和中子换成了地球和石头,把质子和中子之间的强力换成了地球和石头之间的引力,一个释放了重力势能,一个释放了核能。
因此,只有我们认为“质量是能量的量度”,而不再是牛顿观念里物质的代名词,不再是衡量物质所包含基本粒子的质量之和时,我们才能逻辑一致地看待上述所有问题,才能非常自然地解释质量亏损。
为什么质子和中子组成氘核之后,它们的质量会减小?因为独立的质子和中子具有一定的能量,而质量是能量的量度,所以质子和中子组成的系统就具有一定的质量。质子和中子组成氘核后释放了一定的能量E,系统的总能量减少了,度量能量的质量m自然也减小了,它们之间满足E=mc²。
木炭燃烧变成了二氧化碳,碳原子和氧原子组合成二氧化碳分子时释放了能量E,于是度量能量的质量m自然也减小了,它们之间依然满足质能方程E=mc²。
我用力拉开两个磁铁,其实是往磁铁组成的系统里注入了能量,磁铁的能量增加了,度量能量的质量自然也跟着增加了。所以,分开的磁铁会比吸在一起的磁铁更重,你用多大能量把磁铁拉开,它们的质量就增加了这个能量除以光速c的平方。
我们用力压缩一个弹簧,弹簧的能量增加了,度量弹簧能量的质量自然也增加了。所以,压缩的弹簧比松开的弹簧更重。
一个手电筒发出了一束光,因为光带走了一部分能量,所以手电筒的能量减少了,度量手电筒能量的质量自然也减小了。于是,发光手电筒的质量会一直慢慢减小。
但是,如果我们把手电筒放在一个铁箱子里,虽然发光手电筒的质量在不断减小,但手电筒发出的光并没有逃出箱子,所以手电筒和箱子的总能量并没有减少。于是,手电筒和箱子的总质量也不会发生变化。
为什么要举这么多例子?当然是帮你快速洗脑。
我们在牛顿的世界里浸泡了太久,已经形成了极大的思维惯性。当我们在谈论物理,谈论自然界的各种现象时,潜意识里就会从牛顿的角度来思考问题,所以我们会觉得相对论和量子力学很奇怪。所谓奇怪,无非就是跟固有的观念不一样,在这里就是跟牛顿的观念不一样。
17新的图景
我们要不断提醒自己:现在的物理图景已经不再是牛顿那样了,宇宙并不是一堆微粒的集合,一个物体的质量也不是组成物体实物微粒的质量之和。
如果你觉得“让人不这样思考”比较难,那可以接触一下量子场论,试着从量子场的角度来看待这个世界。毕竟,让人忘掉熟悉的旧观念很难,但是,一旦接受了新的观念,旧观念自然就忘了。
量子场论首先是一种场论,它的核心思想是:宇宙并不是由什么“实物粒子”构成的,而仅仅是由场构成,一切都是场。所谓粒子,不过是这些量子化场的激发态。
然后,量子场论是量子力学和狭义相对论联姻的产物。为什么我们要让量子力学和狭义相对论联姻呢?因为处理微观粒子要用量子力学,处理高速(近光速)运动的物体要用狭义相对论。那么,如果你想处理高速的微观粒子,就必须同时使用量子力学和狭义相对论,也就是它们联姻后的量子场论。
也因如此,当我们用量子场论看问题时,我们其实也是在用狭义相对论看问题。而质能方程又是狭义相对论的结论,所以量子场论的图景跟质能方程是相容的。
毕竟,如果一切都是场,没有什么“实物粒子”,那自然就不存在什么“实物粒子被摧毁了变成能量”的说法。如果一切都是场,各种物理现象就只是场与场之间的相互作用,不存在谁被摧毁了,自然也不存在什么代表物质的“质量”转化成了能量。
这样,“质量转化成能量”就完全站不住脚了。
而前面我们也说了,场是有能量的,场和场之间的相互作用自然会涉及能量的变化。能量在不断变化,度量能量的质量自然也会不断变化,它们的桥梁就是质能方程。
这样,我们就可以非常自然地接受“质量是能量的量度”这个观念了,而这,才是打开质能方程E=mc²的正确方式。
18不动的质量
不过,需要注意的是,我上面说的"质量是能量的量度",指的都是物体静止时的能量,并不涉及物体的动能。
我们知道动能是跟参考系有关的,在一个参考系里是静止的物体(动能为0),在另一个参考系里可能就是运动的(动能不为0),动能并不一样。
因此,如果把动能考虑进去,速度的增加就会导致动能的增加,能量增加了对应的质量也会增加。这样,物体的质量就会随着速度的增加而增加,也就是所谓的动质量。
但是,我非常不希望引入动质量。物理学要把握变化世界里不变的东西,质量原本是跟物体的运动状态无关的,你现在让它随着速度的变化而变化,何必呢?动质量又不是非用不可,我的文章从头到尾都没有动质量,不一样可以讲质能方程么?
我知道,有些地方是从动质量开始讲质能方程的。他们先定义动质量,再把狭义相对论的新动量定义为动质量和速度的乘积,然后去算新动能。
这样读者就会很困惑,你凭什么把新动量定义为动质量和速度的乘积?难道狭义相对论就是用动质量替换掉原来的质量,剩下的照搬?然后各种脑洞大开,胡思乱想。
在这篇文章里,我只是坚持狭义相对论的基本原理,要求动量守恒定律在洛伦兹变换下保持数学形式不变,然后自然就得到了新动量:
这样逻辑上就非常自然。在这个新动量里,质量m依然是不随物体的运动状态而改变的质量,动量是一个速度的函数,而不是动质量和速度的乘积。
另外,我们再看一看狭义相对论的新动能:
爱因斯坦认为mc²是物体静止时的能量,E是物体的动能,所以γmc²就是物体的总能量(动能+静能):γmc²=E+mc²。
现在我们说“质量是能量的量度”,如果这个能量指的是物体静止时的能量mc²,那质量就是(静)质量;如果我们把动能E也加进来,认为能量是总能量γmc², 那得到的就是动质量。
也就是说,动质量和总能量在某种程度上是在描述相同的东西。然而,总能量是一直都存在的,并且是个非常重要的守恒量。如果已经存在一个守恒的总能量,为什么还要引入会导致混乱的动质量呢?
因此,我在文章里提到的质量通通都是(静)质量,完全不用动质量这种东西,也省得大家胡思乱想,最后把自己带沟里去了。
当然,虽然学界的主流是舍弃动质量,但也有少数学者认为动质量依然有存在的必要,这个我就不多说了,感兴趣的自己去查。
19结语
写到这里,文章差不多就可以收尾了。
通观全文,大家会发现质能方程的推导还是很简单的,只要遵守狭义相对论的基本原理,E=mc²就会自动地从动能表达式里冒出来。
真正困难的,还是理解质能方程背后世界观和物质观的转变,理解从牛顿到狭义相对论的转变,理解从“质量转化成能量”到“质量是能量的量度”的转变。
虽然相对论和量子力学革命已经过去了百年,但牛顿的观念还是深深地烙在许多人的心里。毕竟,我们在中学都要学习牛顿力学,只有少数人会系统地学习相对论和量子力学,而这方面的科普又比较少。
所以,习惯于用牛顿的观念去理解质能方程并不奇怪。
但话又说回来,毕竟如今已经是21世纪了,相对论和量子力学已经极大地改变了牛顿的世界观和物质观。如果你对后牛顿时代的物理学不感兴趣也就罢了,如果感兴趣(比如质能方程),就一定要注意牛顿观念的局限性。
我们不能总是从牛顿的角度来考虑这些后牛顿时代的物理学,否则,我们不仅无法掌握这些内容,还会误入歧途。
如果你能很好地理解质能方程,就能很好地理解狭义相对论,也能很好地理解从牛顿到现代物理的转变,这是一块非常好的试金石。
所以,现在你明白质能方程E=mc²了么?
收起阅读 »最美的公式:你也能懂的麦克斯韦方程组(微分篇)
见证奇迹的时刻:如何从麦克斯韦方程组推出电磁波?
在前两篇文章里,长尾君给大家介绍了麦克斯韦方程组的积分和微分形式。大家也都知道麦克斯韦从这套方程组里推导出了电磁波,然后通过计算发现电磁波的速度正好等于光速。于是,麦克斯韦就预言“光是一种电磁波”,这个预言后来被赫兹证实。
电磁波的发现让麦克斯韦和他的电磁理论走上了神坛,也让人类社会进入了无线电时代。你现在可以随时给远方的朋友打电话,能用手机刷长尾科技的文章,都跟电磁波有着密切的关系。那么,麦克斯韦到底是怎么从麦克斯韦方程组推导出电磁波方程的呢?这篇文章我们就来一起见证这一奇迹的时刻。
01什么是波?
要理解电磁波,首先我们得了解什么是波?有些人可能觉得这个问题有点奇怪,什么是波这还用问么?我丢一块石头到水里,水面上就会形成一个水波;我抖动一根绳子,绳子上就会就会出现一个波动。生活中还有很多这种波动现象,我虽然读书少,但是什么是波还是知道的。
没错,水波、绳子上的波动这些都是波,我在这里抛出“什么是波?”这个问题并不是想来掰指头数一数哪些东西是波,哪些不是,而是想问:所有这些叫作波的东西有什么共同的特征?我们如何用一套统一的数学语言来描述波?
我们研究物理,就是从万千变化的自然界的各种现象里总结出某种一致性,然后用数学的语言定量、精确的描述这种一致的现象。现在我们发现了水波、绳子上的波等许多现象都有这样一种波动现象,那我们自然就要去寻找这种波动现象背后统一的数学规律,也就是寻找描述波动现象的方程,即波动方程。
为了寻找统一的波动方程,我们先来看看最简单的波:抖动一根绳子,绳子上就会出现一个波沿着绳子移动,以恒定的频率抖动就会出现连续不断的波。
为了更好地研究绳子上的波动,我们先建立一个坐标系,然后把注意力集中到其中的一个波上。于是,我们就看到一个波以一定的速度v向x轴的正方向(右边)移动,如下图:
那么,我们该如何去描述这种波动呢?
首先,我们知道一个波是在不停地移动的,上图只是波在某个时刻的样子,它下一个时刻就会往右边移动一点。移动了多少也很好计算:因为波速为v,所以Δt时间以后这个波就会往右移动v·Δt的距离。
另外,我不管这个时刻波是什么形状的曲线,反正我可以把它看成一系列的点(x,y)的集合,这样我们就可以用一个函数y=f(x)来描述它(函数就是一种对应(映射)关系,在函数y=f(x)里,每给定一个x,通过一定的操作f(x)就能得到一个y,这一对(x,y)就组成了坐标系里的一个点,把所有这种点连起来就得到了一条曲线)。
然后,y=f(x)只是描述某一个时刻的波的形状,如果我们想描述一个完整动态的波,就得把时间t考虑进来。也就是说我们的波形是随着时间变化的,即:我绳子上某个点的纵坐标y不仅跟横轴x有关,还跟时间t有关,这样的话我们就得用一个二元函数y=f(x,t)来描述一个波。
这一步很好理解,它无非告诉我们波是随时间(t)和空间(x)变化的。但是这样还不够,世界上到处都是随着时间、空间变化的东西,比如苹果下落、篮球在天上飞,它们跟波的本质区别又在哪呢?
02波的本质
仔细想一下我们就会发现:波在传播的时候,虽然不同时刻波所在的位置不一样,但是它们的形状始终是一样的。也就是说前一秒波是这个形状,一秒之后波虽然不在这个地方了,但是它依然是这个形状,这是一个很强的限制条件。有了这个限制条件,我们就能把波和其它在时间、空间中变化的东西区分开了。
我们这样考虑:既然用f(x,t)来描述波,那么波的初始形状(t=0时的形状)就可以表示为f(x,0)。经过了时间t之后,波速为v,那么这个波就向右边移动了vt的距离,也就是把初始形状f(x,0)往右移动了vt,那么这个结果可以这样表示:f(x-vt,0)。
为什么把一个函数的图像往右移动了一段vt,结果却是用函数的自变量x减去vt,而不是加上vt呢?这是一个中学数学问题,我这里稍微帮大家回顾一下:你们想,如果我把一个函数图像f(x)往右移动了3,那么我原来在1这个地方的值f(1),现在就成了4这个地方的函数值。所以,如果你还想用f(x)这个函数,那肯定就得用4减去3(这样才能得到f(1)的值),而不是加3(4+3=7,f(7)在这里可没有什么意义)。
所以,如果我们用f(x,t)描述波,那么初始时刻(t=0)的波可以表示为f(x,0)。经过时间t之后的波的图像就等于初始时刻的图像往右移动了vt,也就是f(x-vt,0)。于是,我们就可以从数学上给出波运动的本质:
也就是说,只要有一个函数满足f(x,t)=f(x-vt,0),满足任意时刻的形状都等于初始形状平移一段,那么它就表示一个波。水波、声波、绳子上的波、电磁波、引力波都是如此,这也很符合我们对波的直观理解。
这里我们是从纯数学的角度给出了波的一个描述,下面我们再从物理的角度来分析一下波的形成原因,看看能不能得到更多的信息。
03张力
一根绳子放在地上的时候是静止不动的,我们甩一下就会出现一个波动。我们想一想:这个波是怎么传到远方去的呢?我们的手只是拽着绳子的一端,并没有碰到绳子的中间,但是当这个波传到中间的时候绳子确实动了,绳子会动就表示有力作用在它身上(牛爵爷告诉我们的道理),那么这个力是哪里来的呢?
稍微分析一下我们就会发现:这个力只可能来自绳子相邻点之间的相互作用,每个点把自己隔壁的点“拉”一下,隔壁的点就动了(就跟我们列队报数的时候只通知你旁边的那个人一样)这种绳子内部之间的力叫张力。
张力的概念也很好理解,比如我们用力拉一根绳子,我明明对绳子施加了一个力,但是这根绳子为什么不会被拉长?跟我的手最近的那个点为什么不会被拉动?
答案自然是这个点附近的点给这个质点施加了一个相反的张力,这样这个点一边被我拉,另一边被它邻近的点拉,两个力的效果抵消了。但是力的作用又是相互的,附近的点给端点施加了一个张力,那么这个附近的点也会受到一个来自端点的拉力,然而这个附近的点也没动,所以它也必然会受到更里面点的张力。这个过程可以一直传播下去,最后的结果就是这根绳子所有的地方都会张力。
而且,我们还可以断定:如果绳子的质量忽略不计,绳子也没有打结没有被拉长,那么绳子内部的张力处处相等(只要有一个点两边的张力不等,那么这个点就应该被拉走了,绳子就会被拉变形),这是个很重要的结论。
通过上面的分析,我们知道了当一根理想绳子处于紧绷状态的时候,绳子内部存在处处相等的张力。当一根绳子静止在地面的时候,它处于松弛状态,没有张力,但是当一个波传到这里的时候,绳子会变成一个波的形状,这时候就存在张力了。正是这种张力让绳子上的点上下振动,所以,分析这种张力对绳子的影响就成了分析波动现象的关键。
04波的受力分析
那么,我们就从处于波动状态的绳子中选择很小的一段AB,我们来分析一下这个小段绳子在张力的作用下是如何运动的。放心,我们这里并不会涉及什么复杂的物理公式,我们所需要的公式就一个,大名鼎鼎的牛顿第二定律:F=ma。
牛顿第一定律告诉我们“一个物体在不受力或者受到的合外力为0的时候会保持静止或者匀速直线运动状态”,那么如果合外力不为0呢?牛顿第二定律就接着说了:如果合外力F不为零,那么物体就会有一个加速度a,它们之间的关系就由F=ma来定量描述(m是物体的质量)。也就是说,如果我们知道一个物体的质量m,只要你能分析出它受到的合外力F,那么我们就可以根据牛顿第二定律F=ma计算出它的加速度a,知道加速度就知道它接下来要怎么动了。
牛顿第二定律就这样把一个物体的受力情况(F)和运动情况(a)结合起来了,我们想知道一个物体是怎么动的,只要去去分析它受到了什么力就行了,所以它牛。
再来看我们的波,我们从处于波动状态的绳子里选取很小的一段AB,我们想知道AB是怎么运动的,就要分析它受到的合外力。因为不考虑绳子的质量,所以就不用考虑绳子的重力,那么,我们就只要分析绳子AB两端的张力T就行了。
如上图,绳子AB受到A点朝左下方的张力T和B点朝右上方的张力T,而且我们还知道这两个张力是相等的,所以才把它都记为T。但是,我们知道波动部分的绳子是弯曲的,那么这两个张力的方向是不一样的,这一点从图中可以非常明显的看出来。我们假设A点处张力的方向跟横轴夹角为θ,B点跟横轴的夹角就明显不一样了,我们记为θ+Δθ。
因为绳子上的点在波动时是上下运动,所以我们只考虑张力T在上下方向上的分量,水平方向上的就不考虑了。那么,我们把AB两点的张力T都分解一下,稍微用一点三角函数的知识我们就能发现:B点处向上的张力为T·sin(θ+Δθ),A点向下的张力为T·sinθ。那么,整个AB段在竖直方向上受到的合力就等于这两个力相减:F= T·sin(θ+Δθ)-T·sinθ。
好了,按照牛顿第二定律F=ma,我们需要知道物体的合外力F、质量m和加速度a,现在我们已经知道了合外力F,那么质量m和加速度a呢?
05波的质量分析
质量好说,我们假设绳子单位长度的质量为μ,那么长度为Δl的绳子的质量就是μ·Δl。
但是,因为我们取的是非常小的一段,我们假设A点的横坐标为x,B点的横坐标为x+Δx,也就是说绳子AB在横坐标的投影长度为Δx,那么,当我们取的绳长非常短,波动非常小的时候,我们就可以近似用Δx代替Δl,这样绳子的质量就可以表示为:μ·Δx(本来我在考虑这里要不要再解释一下微积分思想,但是一想,会看这篇电磁波篇的,必须是已经提前看了麦克斯韦方程组的积分篇和微分篇,而我在那两篇里已经介绍过这种思想了,那这里就不说了~)。
质量搞定了,剩下的就是加速度a了。你可能以为我已经得到了合外力(F= T·sin(θ+Δθ)-T·sinθ)和质量m(μ·Δx),那么剩下肯定就是用合外力F除以质量m得到加速度a(牛顿第二定律),不不不,这样就不好玩了。我们还可以从另一个角度来得到加速度a,然后把它们作为拼盘拼起来。从哪里得到加速度呢a?从描述波的函数f(x,t)里。
06波的加速度分析
不知道大家还记得我们在前面说的这个描述波的函数y=f(x,t)么?这个函数的值y表示的是在x这个地方,时间为t的时候这一点的纵坐标,也就是波的高度。我们现在要求的也就是AB上下波动时的加速度,那么,怎么从这个描述点位置的函数里求出加速度a呢?
这里我们再来理解一下加速度a,什么叫加速度?从名字就可以感觉到,这个量是用来衡量速度变化快慢的。加速度嘛,肯定是速度加得越快,加速度的值就越大。假如一辆车第1秒的速度是2m/s,第2秒的速度是4m/s,那么它的加速度就是用速度的差(4-2=2)除以时间差(2-1=1),结果就是2m/s²。
再来回想一下,我们是怎么求一辆车的速度的?我们是用距离的差来除以时间差的。比如一辆车第1秒钟距离起点20米,第2秒钟距离起点50米,那么它的速度就是用距离的差(50-20=30)除以时间差(2-1=1),结果就是30m/s。
不知道大家从这两个例子里发现了什么没有?我用距离的差除以时间差就得到了速度,我再用速度的差除以时间差就得到了加速度,这两个过程都是除以时间差。那么,如果我把这两个过程合到一块呢?那是不是就可以说:距离的差除以一次时间差,再除以一次时间差就可以得到加速度?
这样表述并不是很准确,但是可以很方便的让大家理解这个思想。如果把距离看作关于时间的函数,我们对这个函数求一次导数(就是上面的距离差除以时间差,只不过趋于无穷小)就得到了速度的函数,对速度的函数再求一次导数就得到了加速度的表示。所以,我们把一个关于距离(位置)的函数对时间求两次导数,就可以得到加速度的表达式。
波的函数f(x,t)不就是描述绳子上某一点在不同时间t的位置么?那我们对f(x,t)求两次关于时间的导数,自然就得到了这点的加速度a。因为函数f是关于x和t两个变量的函数,所以我们只能对时间的偏导∂f/ ∂t,再求一次偏导数就加个2上去。于是我们就可以这样表示这点的加速度a=∂²f/ ∂t²(关于偏导数的介绍,微分篇里有详细叙述,这里不再说明)。
这样,我们就把牛顿第二定律F=ma的三要素都凑齐了:F= T·sin(θ+Δθ)-T·sinθ,m=μ·Δx,a=∂²f/ ∂t²。把它们集合在一起就可以召唤神,阿不,就可以写出AB的运动方程了:
这个用牛顿第二定律写出来的波动方程,看起来怎么样?嗯,似乎有点丑,看起来也不太清晰,方程左边的东西看着太麻烦了,我们还需要对它进行一番改造。那怎么改造呢?我们可以先把sinθ给干掉。
07方程的改造
为了能够顺利地干掉sinθ,我们先来回顾一下基本的三角函数:
如上图,右边是一个直角三角形abc,那么角θ的正弦值sinθ等于对边c除以斜边a,正切值tanθ等于对边c除以邻边b。
当这个角度θ还很大的时候,a比b要明显长一些。但是,一旦角度θ非常非常小,可以想象,邻边b和斜边a就快要重合了。这时候我们是可以近似的认为a和b是相等的,也就是a≈b,于是就有c/b≈c/a,即tanθ≈sinθ。
也就是说,在角度θ很小的时候,我们可以用正切值tanθ代替正弦值sinθ。我们假设这根绳子的扰动非常小,形变非常小,那么θ和θ+Δθ就都非常小,那么它们的正弦值就都可以用正切值代替。于是,那个波动方程左边的sin(θ+Δθ)-sinθ就可以替换为:tan(θ+Δθ)-tanθ。
为什么我们要用正切值tanθ代替正弦值sinθ呢?因为正切值tanθ还可以代表一条直线的斜率,代表曲线在某一点的导数。想想正切值的表达式tanθ=c/b,如果建一个坐标系,那么这个c刚好就是直线在y轴的投影dy,b就是在x轴的投影dx,它们的比值刚好就是导数dy/dx,也就是说tanθ=dy/dx。
然而,因为波的函数f(x,t)是关于x和t的二元函数,所以我们只能求某一点的偏导数,那么正切值就等于它在这个点的偏导数:tanθ=∂f/ ∂x。那么,原来的波动方程就可以写成这样:
这里我稍微解释一下偏导数的符号,我们用∂f/ ∂x表示函数f(x,t)的偏导数,这是一个函数,x可以取各种各样的值。但是如果我加一个竖线|,然后在竖线的右下角标上x+Δx就表示我要求在x+Δx这个地方的导数。
再来看一下这个图,我们已经约定了A点的横坐标为x,对应的角度为θ;B点的横坐标是x+Δx,对应的角度为θ+Δθ。所以,我们可以用x+Δx和x这两处的偏导数值代替θ+Δθ和θ这两处的正切值tan(θ+Δθ)和tanθ,所以波动方程才可以写成上面那样:
接着,如果我们再对方程的两边同时除以Δx,那左边就变成了函数∂f/ ∂x在x+Δx和x这两处的值的差除以Δx,这其实就是∂f/ ∂x这个函数的导数表达式。也就是说,两边同时除以一个Δx之后,左边就变成了偏导数∂f/ ∂x对x再求一次导数,那就是f(x,t)对x求二阶偏导数了。
上面我们用我们已经用∂²f/ ∂t²来表示函数对t的二阶偏导数,那么这里自然就可以用∂²f/ ∂x²来表示函数对x的二阶偏导数。然后两边再同时除以T,得到方程就简洁多了:
把方程左边的tan(θ+Δθ)-tanθ变成了函数f(x,t)对空间x的二阶偏导数,这个过程非常的重要,大家可以好好体会一下这个过程。正切值tanθ就是一阶导数,然后两个正切值的差除以自变量的变化就又产生了一次导数,于是总共就有了两阶,所以我们才能得到上面那个简洁的式子。
08经典波动方程
再看看方程右边的μ/T,如果你仔细去算一下μ/T的单位,你会发现它刚好就是速度的平方的倒数,也就是说如果我们把一个量定义成T/μ的平方根,那么这个量的单位刚好就是速度的单位。可以想象,这个速度自然就是这个波的传播速度v:
这样定义速度v之后,我们最终的波动方程就可以亮相了:
这个方程就是我们最终要找的经典波动方程,为什么把它作做经典的波动方程呢?因为它没有考虑量子效应啊,在物理学里,经典就是非量子的同义词。如果我们要考虑量子效应,这个经典的波动方程就没用了,我们就必须转而使用量子的波动方程,那就是大名鼎鼎的薛定谔方程。
薛定谔就是从这个经典波动方程出发,结合德布罗意的物质波概念,硬猜出了薛定谔方程。这个方程让物理学家们从被海森堡的矩阵支配的恐惧中解脱了出来,重新回到了微分方程的美好世界。薛定谔方程虽然厉害,但是它并没有考虑狭义相对论效应,而高速运动(近光速)的粒子在微观世界是很常见的,我们也知道当物体接近光速的时候就必须考虑相对论效应,但是薛定谔方程并没有做到这一点。
最终让薛定谔方程相对论化是狄拉克,狄拉克把自己关在房间三个月,最终逼出了同样大名鼎鼎的狄拉克方程。狄拉克方程首次从理论上预言了反物质(正电子),虽然当时的科学家们认为狄拉克这是在胡闹,但是我国的物理学家赵忠尧先生却几乎在同时就首次在实验室里观测到了正负电子湮灭的情况。
另外,狄拉克的工作也推动了量子场论的诞生,打开了一扇让人无比神往的新世界大门。物理学家们沿着这条路驯服了电磁力、强力、弱力,建立起了粒子物理的标准模型,于是四海清平,天下大定,除了那该死的引力。这些精妙绝伦的故事我们后面再讲,如果把这些故事写成一本《量子英雄传》,嗯,一定不比金庸的武侠逊色~
好了,回归正题,看到这个经典波动方程到后面还能掀起那么大的浪来,是不是突然就对它肃然起敬了呢?我们这样一顿操作推导出了经典波动方程,有的朋友可能有点懵,没关系,我们再来捋一下。这个看着很复杂的,包含了二阶偏导数的方程其实就只是告诉我们:我们把这根绳子极小的一段看作一个质点,那么这个质点满足牛顿第二定律F=ma,仅此而已。
09复盘
我们整个推导过程不过就是去寻找F=ma中的这三个量。我们把绳子的张力在竖直方向做了分解,然后得到了它在竖直方向上的合力F(T·sin(θ+Δθ)-T·sinθ);我们定义了单位长度的质量μ,然后就可以计算那小段绳子的质量m(μ·Δx);我们通过对波的函数f(x,t)的分析,发现如果对这种表示距离(位移)的函数对时间求一次偏导数就得到了速度,再求一次偏导数就得到了加速度,于是我们就得到了这段绳子的加速度a(∂²f/ ∂t²)。然后我们就把这些量按照牛顿第二定律F=ma拼了起来。
在处理问题的过程中,我们做了很多近似:因为我们是取得很小的一段,那么我们就可以用Δx近似代替绳子的长度Δl;假设扰动很小,绳子偏离x轴很小,那么角度θ就很小,我们就近似用正切值tanθ代替正弦值sinθ。很多人乍一看,觉得这么严格的推导怎么能这么随意的近似呢?你这里近似那里近似,得到的最终结果还是准确的么?
要理解这个问题,就得正式去学习微积分了,我现在告诉你微积分的核心思想就是一种以直代曲的近似,你信么?微积分里就是用各种小段小段的直线去近似的代替曲线,但是得到的结果却是非常精确的。因为我们可以把这些线段取得非常非常的小,或者说是无穷小,那么这个误差也就慢慢变成无穷小了。所以我们在分析这根绳子的时候,也都强调了是取非常小的一段,给一个非常小的扰动,得到一个非常小的角度θ。
另外,tanθ就是一次导数,然后它们的差再除以一次Δx,就又出现了一次导数,所以方程的左边就出现了f(x,t)对位置x的两次偏导数。方程的右边就是函数f(x,t)对时间t求两次偏导数得到的加速度a(求一次导数得到速度,求两次就得到加速度)。
所以,虽然我们看到的是一个波动方程,其实它只是一个变装了的牛顿第二定律F=ma。理解这点,波动方程就没什么奇怪的了。我们再来仔细的审视一下这个方程:
这个波动方程的意义也很直观,它告诉我们f(x,t)这样一个随时间t和空间x变化的函数,如果这个二元函数对空间x求两次导数得到的∂²f/ ∂x²和对时间t求两次导数得到的∂²f/ ∂t²之间满足上面的那种关系,那么f(x,t)描述的就是一个波。
如果我们去解这个方程,我们得到的就是描述波的函数f(x,t)。而我们前面对波做数学分析的时候得到了这样一个结论:如果一个函数f(x,t)描述的波,那么就一定满足f(x,t)=f(x-vt,0)。所以,波动方程的解f(x,t)肯定也都满足前面这个关系,这一点感兴趣的朋友可以自己下去证明一下。
好了,经典的波动方程我们就先讲到这里。有了波动方程,你会发现我们通过几步简单的运算就能从麦克斯韦方程组中推导出电磁波的方程,然后还能确定电磁波的速度。
10真空中的麦克斯韦方程组
麦克斯韦方程组的微分形式是这样的:
这组方程的来龙去脉长尾科技在上一篇文章《最美的公式:你也能懂的麦克斯韦方程组(微分篇)》里已经做了详细的介绍,这里不再多说。这组方程里,E表示电场强度,B表示磁感应强度,ρ表示电荷密度,J表示电流密度,ε0和μ0分别表示真空中的介电常数和磁导率(都是常数),▽是矢量微分算子,▽·和▽×分别表示散度和旋度:
接下来我们的任务,就是看如何从这组方程里推出电磁波的方程。
首先,如果真的能形成波,那么这个波肯定就要往外传,在远离了电荷、电流(也就是没有电荷、电流)的地方它还能自己传播。所以,我们先让电荷密度ρ和电流密度J都等于0,当ρ=0,J=0时,我们得到的就是真空中的麦克斯韦方程组:
有些人觉得你怎么能让电荷密度ρ等于0呢?这样第一个方程就成了电场的散度▽·E=0,那不就等于说电场强度E等于0,没有电场了么?没有电场还怎么来的电磁波?
很多人初学者都会有这样一种误解:好像觉得电场的散度▽·E等于0了,那么就没有电场了。其实,电场的散度等于0,只是告诉你通过包含这一点的无穷小曲面的电通量为0,电通量为0不代表电场E为0啊,因为我可以进出这个曲面的电通量(电场线的数量)相等。这样有多少正的电通量(进去的电场线数量)就有多少负的电通量(出来的电场线数量),进出正负抵消了,所以总的电通量还是0。于是,这点的散度▽·E就可以为0,而电场强度E却不为0。
所以这个大家一定要区分清楚:电场E的散度为0不代表电场E为0,它只是要求电通量为0而已,磁场也一样。
这样我们再来审视一下真空中(ρ=0,J=0)的麦克斯韦方程组:方程1和2告诉我们真空中电场和磁场的散度为0,方程3和4告诉我们电场和磁场的旋度等于磁场和电场的变化率。前两个方程都是独立的描述电和磁,后两个方程则是电和磁之间的相互关系。我们隐隐约约也能感觉到:如果要推导出电磁波的方程,你肯定得把上面几个式子综合起来,因为波是要往外传的,而你上面单独的方程都只是描述某一点的旋度或者散度。
有一个很简单的把它们都综合在一起的方法:对方程3和方程4两边同时再取一次旋度。
方程3的左边是电场的旋度▽×E,对它再取一次旋度就变成了▽×(▽×E);方程3的右边是磁场的变化率,对右边取一次旋度也可以得到磁场B的旋度▽×B,这样不就刚好跟方程4联系起来了么?对方程4两边取旋度看起来也一样,这看起来是个不错的兆头。
可能有些朋友会有一些疑问:你凭什么对方程3和4的两边取旋度,而不取散度呢?如果感兴趣你可以两边都取散度试试,你会发现电场E的旋度取散度▽·(▽×E)的结果恒等于0。
这一点你看方程3 的右边会更清楚,方程3的右边是磁场的变化率,你如果对方程左边取散度,那么右边也得取散度,而右边磁场的散度是恒为0的(▽·B=0就是方程2的内容)。这样就得不出什么有意义的结果,你算出0=0能得到什么呢?
所以,我们现在的问题变成了:如何求电场E的旋度的旋度(▽×(▽×E))?因为旋度毕竟和叉乘密切相关,所以我们还是先来看看叉乘的叉乘。
11叉乘的叉乘
在积分篇和微分篇里,我已经跟大家详细介绍了矢量的点乘和叉乘,而且我们还知道点乘的结果A·B是一个标量,而叉乘的结果A×B是一个矢量(方向可以用右手定则来判断,右手从A指向B,大拇指的方向就是A×B的方向)。
而点乘和叉乘都是矢量之间的运算,那么A·B的结果是一个标量,它就不能再和其它的矢量进行点乘或者叉乘了。但是,A×B的结果仍然是一个矢量啊,那么按照道理它还可以继续跟新的矢量进行点乘或者叉乘运算,这样我们的运算就可以有三个矢量参与,这种结果我们就称为三重积。
A·(B×C)的结果是一个标量,所以这叫标量三重积;A×(B×C)的结果还是一个矢量,它叫矢量三重积。
标量三重积A·(B×C)其实很简单,我在微分篇说过,两个矢量的叉乘的大小等于它们组成的平行四边形的面积,那么这个面积再和一个矢量点乘一把,你会发现这刚好就是三个矢量A、B、C组成的平行六面体的体积。
这个大家对着上面的图稍微一想就会明白。而且,既然是体积,那么你随意更换它们的顺序肯定都不会影响最终的结果。我们真正要重点考虑的,还是矢量三重积。
矢量三重积A×(B×C),跟我们上面说电场E旋度的旋度▽×(▽×E)形式相近,密切相关。它没有上面标量三重积那样简单直观的几何意义,我们好像只能从数学上去推导,这个推导过程,哎,我还是直接写结果吧:
A×(B×C)=B(A·C)-C(A·B)。
结果是这么个东西,是不是很难看?嗯,确实有点丑。不过记这个公式有个简单的口诀:远交近攻。什么叫远交近攻呢?当年秦相范雎,啊不,A×(B×C)里的A距离B近一些,距离C远一些,所以A要联合C(A·C前面的符合是正号)攻打B(A·B前面的符号是负号),这样这个公式就好记了,感兴趣的可以自己去完成推导的过程。
12旋度的旋度
有了矢量三重积的公式,我们就来依样画葫芦,来套一套电场E的旋度的旋度▽×(▽×E)。我们对比一下这两个式子A×(B×C)和▽×(▽×E),好像只要把A和B都换成▽,把C换成E就行了。那么,矢量三重积的公式(A×(B×C)=B(A·C)-C(A·B))就变成了:
▽×(▽×E)=▽(▽·E)-E(▽·▽)。
嗯,▽(▽·E)表示电场E的散度的梯度,散度▽·E的结果是一个标量,标量的梯度是有意义的,但是后面那个E(▽·▽)是什么鬼?两个▽算子挤在一起,中间还是一个点乘的符号,看起来好像是在求▽的散度(▽·),可是▽是一个算子,又不是一个矢量函数,你怎么求它的散度?而且两个▽前面有一个电场E,怎么E还跑到▽算子的前面去了?
我们再看一下矢量三重积的公式的后面一项C(A·B)。这个式子的意思是矢量A和B先进行点乘,点乘的结果A·B是一个标量,然后这个标量再跟矢量C相乘。很显然的,如果是一个标量和一个矢量相乘,那么这个标量放在矢量的前面后面都无所谓(3C=C3),也就是说C(A·B)=(A·B)C。
那么,同样的,E(▽·▽)就可以换成(▽·▽)E,而它还可以写成▽²E,这样就牵扯出了另一个大名鼎鼎的东西:拉普拉斯算子▽²。
13拉普拉斯算子▽²
拉普拉斯算子▽²在物理学界可谓大名鼎鼎,它看起来好像是哈密顿算子▽的平方,其实它的定义是梯度的散度。
我们假设空间上一点(x,y,z)的温度由T(x,y,z)来表示,那么这个温度函数T(x,y,z)就是一个标量函数,我们可以对它取梯度▽T,因为梯度是一个矢量(梯度有方向,指向变化最快的那个方向),所以我们可以再对它取散度▽·。
我们利用我们在微分篇学的▽算子的展开式和矢量坐标乘法的规则,我们就可以把温度函数T(x,y,z)的梯度的散度(也就是▽²T)表示出来:
再对比一下三维的▽算子:
所以,我们把上面的结果(梯度的散度)写成▽²也是非常容易理解的,它跟▽算子的差别也就是每项多了一个平方。于是,拉普拉斯算子▽²就自然可以写成这样:
从拉普拉斯算子▽²的定义我们可以看到,似乎它只能对作用于标量函数(因为你要先取梯度),但是我们把▽²稍微扩展一下,就能让它也作用于矢量函数V(x,y,z)。我们只要让矢量函数的每个分量分别去取▽²,就可以定义矢量函数的▽²:
定义了矢量函数的拉普拉斯算子,我们稍微注意一下下面的这个结论(课下自己去证明):
然后再看看中间的那个东西,是不是有点眼熟?
我们在求电场旋度的旋度的时候,不就刚好出现了(▽·▽)E这个东西么?现在我们就可以理直气壮地把它替换成▽²E了,于是,电场旋度的旋度就可以写成这样:
▽×(▽×E)=▽(▽·E)-(▽·▽)E=▽(▽·E)-▽²E。
至此,我们利用矢量的三重积公式推电场E的旋度的旋度的过程就结束了,然后我们就得到了这个极其重要的结论:
它告诉我们:电场的旋度的旋度等于电场散度的梯度减去电场的拉普拉斯。有了它,电磁波的方程立马就可以推出来了。
14见证奇迹的时刻
我们再来看看真空中的麦克斯韦方程组:
它的第三个方程,也就是法拉第定律是这样表示的:
我们对这个公式两边都取旋度,左边就是上面的结论,右边无非就是对磁感应强度B取个旋度,即:
你看看这几项,再看看真空中的麦克斯韦方程组:方程1告诉我们▽·E=0,方程4告诉我们▽×B=μ0ε0(∂E/ ∂t),我们把这两项代入到上面的式子中去,那结果自然就变成了:
μ0、ε0都是常数,那右边自然就变成了对电场E求两次偏导。再把负号整理一下,最后的式子就是这样:
嗯,于是我们就神奇般的把磁感应强度B消掉了,让这个方程只包含电场E。我们再对比一下我们之前唠叨了那么多得出的经典波动方程:
我们在推导经典波动方程的时候只考虑了一维的情况,因为我们只考虑波沿着绳子这一个维度传播的情况,所以我们的结果里只有∂²f/ ∂x²这一项。如果我们考虑三维的情况,那么不难想象波动方程的左边应该写成三项,这三项刚好就是f的三维拉普拉斯:
所以我们的经典波动方程其实可以用拉普拉斯算子写成如下更普适的形式:
再看看我们刚刚从麦克斯韦方程组中得到的电场方程:
嗯,我们推出的电场的方程跟经典波动方程的形式是一模一样的,现在我们说电场E是一个波,你还有任何异议么?
我们把电场E变成了一个独立的方程,代价是这个方程变成了二阶(方程出现了平方项)的。对于磁场,一样的操作,我们对真空中麦克斯韦方程组的方程4(▽×B=μ0ε0(∂E/ ∂t))两边取旋度,再重复一次上面的过程,就会得到独立的磁感应强度B的方程:
这样,我们就发现E和B都满足波动方程,也就是说电场、磁场都以波动的形式在空间中传播,这自然就是电磁波了。
15电磁波的速度
对比一下电场和磁场的波动方程,你会发现它们是形式是一模一样的(就是把E和B互换了一下),这样,它们的波速也应该是一样的。对比一下经典波动方程的速度项,电磁波的速度v自然就是这样:
我们去查一下μ0、ε0的数值,μ0=4π×10^-7N/A²,ε0=8.854187818×10^ -12 (F/m),代入进去算一算:
再查一下真空中的光速 c=299792458m/s。
前者是我们从麦克斯韦方程组算出来的电磁波的速度,后者是从实验里测出来的光速。有这样的数据做支撑,麦克斯韦当年才敢大胆的预测:光就是一种电磁波。
当然,“光是一种电磁波”在我们现在看来并不稀奇,但是你回顾一下历史:科学家们是在研究各种电现象的时候引入了真空介电常数ε0,在研究磁铁的时候引入了真空磁导率μ0,它们压根就跟光无关。麦克斯韦基于理论的美学和他惊人的数学才能,提出了位移电流假说(从推导里我们也可以看到:如果没有麦克斯韦加入的位移电流这一项,是不会有电磁波的),预言了电磁波,然后发现电磁波的速度只跟μ0、ε0相关,还刚好就等于人们测量的光速,这如何能不让人震惊?
麦克斯韦一直以为自己在研究电磁理论,但是当他的电磁大厦落成时,他却意外地发现光的问题也被顺手解决了,原来他一直在盖的是电磁光大厦。搞理论研究还可以买二送一,打折促销力度如此之大,惊不惊喜,意不意外?
总之,麦克斯韦相信自己的方程,相信光是一种电磁波,当赫兹最终在实验室里发现了电磁波,并证实它的速度确实等于光速之后,麦克斯韦和他的理论获得了无上的荣耀。爱因斯坦后来却因为不太相信自己的方程(认为宇宙不可能在膨胀)转而去修改了它,于是他就错失了预言宇宙膨胀的机会。当后来哈勃用望远镜观测到宇宙确实在膨胀时,爱因斯坦为此懊恼不已。
16结语
回顾一下电磁波的推导过程,我们就是在真空麦克斯韦方程组的方程3和方程4的两边取旋度,然后就很自然的得出了电磁波的方程,然后得到了电磁波的速度等于光速c。这里有一个很关键的问题:这个电磁波的速度是相对谁的?相对哪个参考系而言的?
在牛顿力学里,我们说一个物体的速度,肯定是相对某个参考系而言的。你说高铁的速度是300km/h,这是相对地面的,你相对太阳那速度就大了。这个道理在我们前面讨论的波那里也一样,我们说波的速度一般都是这个波相对于它所在介质的速度:比如绳子上的波通过绳子传播,这个速度就是相对于绳子而言的;水波是在波在水里传播,那么这个速度就是相对水而言的;声波是波在空气里传播(真空中听不到声音),声波的速度就自然是相对空气的速度。
那么,电磁波呢,从麦克斯韦方程组推导出的电磁波的速度是相对谁的?水?空气?显然都不是,因为电磁波并不需要水或者空气这种实体介质才能传播,它在真空中也能传播,不然你是怎么看到太阳光和宇宙深处的星光的?而且我们在推导电磁波的过程中也根本没有预设任何参考系。
于是当时的物理学家们就假设电磁波的介质是一种遍布空间的叫作“以太”的东西,于是大家开始去寻找以太,但是怎么找都找不到。另一方面,电磁波的发现极大地支持了麦克斯韦的电磁理论,但是它跟牛顿力学之间却存在着根本矛盾,这种情况像极了现在广义相对论和量子力学之间的矛盾。怎么办呢?
1879年,麦克斯韦去世,同年,爱因斯坦降生,这仿佛是两代伟人的一个交接仪式。麦克斯韦电磁理论与牛顿力学之间的矛盾,以及“以太”这个大坑都被年轻的爱因斯坦搞定了,爱因斯坦搞定它们的方法就是大名鼎鼎的狭义相对论。其实,当麦克斯韦把他的电磁理论提出来之后,狭义相对论的问世就几乎是必然的了,因为麦克斯韦的电磁理论其实就是狭义相对论框架下的理论,这也是它跟牛顿力学冲突的核心。所以,爱因斯坦才会把他狭义相对论的论文取名为《论动体的电动力学》。
麦克斯韦的电磁理论结束了一个时代,却又开启了一个新时代(相对论时代),它跟牛顿力学到底有什么矛盾?为什么非得狭义相对论才能解决这种矛盾?这些将是我后面要讨论的重点。我会尽力让大家看到科学的发展有它清晰的内在逻辑和原因,并不是谁拍拍脑袋就提出一个石破天惊的新理论出来的。
此外,电磁理论和牛顿力学的融合是人类解决两个非常成功却又直接冲突理论的一次非常宝贵的经验,这跟我们现在面临的问题(广义相对论和量子力学的冲突)非常类似。我希望能够通过这种叙述给喜欢科学的少年们一些启示,让他们以后面对广义相对论和量子力学冲突的时候,能够有一些灵感。
嗯,没错,我在期待未来的爱因斯坦~
相关文章:
收起阅读 »最美的公式:你也能懂的麦克斯韦方程组(积分篇)
2004年,英国的科学期刊《物理世界》举办了一个活动:让读者选出科学史上最伟大的公式。结果,麦克斯韦方程组力压质能方程、欧拉公式、牛顿第二定律、勾股定理、薛定谔方程等”方程界“的巨擘,高居榜首。
麦克斯韦方程组以一种近乎完美的方式统一了电和磁,并预言光就是一种电磁波,这是物理学家在统一之路上的巨大进步。很多人都知道麦克斯韦方程组,知道它极尽优美,并且描述了经典电磁学的一切。但是,真正能看懂这个方程组的人却不多,因为它不像质能方程、勾股定理这样简单直观,等式两边的含义一眼便知。毕竟,它是用积分和微分的形式写的,而大部分人要到大学才正式学习微积分。
不过大家也不用担心,麦克斯韦方程组虽然在形式上略微复杂,但是它的物理内涵确是非常简单的。而且,微积分也不是特别抽象的数学内容,大家只要跟着长尾科技的思路,看懂这个“最伟大“的方程也不会是什么难事~
01电磁统一之路
电和磁并没有什么明显的联系,科学家一开始也是独立研究电现象和磁现象的。这并不奇怪,谁能想到闪电和磁铁之间会有什么联系呢?
1820年,奥斯特在一次讲座上偶然发现通电的导线让旁边的小磁针偏转了一下,这个微小的现象并没有引起听众的注意,但是可把奥斯特给高兴坏了。他立马针对这个现象进行了三个月的穷追猛打,最后发现了电流的磁效应,也就是说电流也能像磁铁一样影响周围的小磁针。
消息一出,物理学家们集体炸锅,立马沿着这条路进行深入研究。怎么研究呢?奥斯特只是说电流周围会产生磁场,那么这个电流在空间中产生的磁场是怎么分布的呢?比方说一小段电流在空间某个地方产生的磁感应强度的多大呢?这种思路拓展很自然吧,定性的发现某个规律之后必然要试图定量地把它描述出来,这样我不仅知道它,还可以精确的计算它,才算完全了解。
三个月,在奥斯特正式发表他的发现仅仅三个月之后,毕奥和萨伐尔在大佬拉普拉斯的帮助下就找到了电流在空间中产生磁场大小的定量规律,这就是著名的毕奥-萨伐尔定律。也就是说,有了毕奥-萨伐尔定律,我们就可以算出任意电流在空间中产生磁场的大小,但是这种方法在实际使用的时候会比较繁琐。
又过了两个月之后,安培发现了一个更实用更简单的计算电流周围磁场的方式,这就是安培环路定理。顺便,安培还总结了一个很实用的规律来帮你判断电流产生磁场的方向,这就是安培定则(也就是高中学的右手螺旋定则)。
至此,电生磁这一路的问题“似乎”基本解决了,我们知道电流会产生磁场,而且能够用安培环路定理(或者更加原始的毕奥-萨伐尔定律)计算这个磁场的大小,用安培定则判断磁场的方向。那么,我们现在知道怎么单独描述电和磁,知道了电怎么生磁,秉着对称的思想,我怎么样都要去想:既然电能够生磁,那么磁能不能生电呢?
由于种种原因,奥斯特在1820年发现了电生磁,人类直到11年后的1831年,才由天才实验物理学家法拉第发现了磁生电的规律,也就是电磁感应定律。法拉第发现磁能生电的关键就是:他发现静止的磁并不能生电,一定要变化的磁才能生电。
发现电磁感应定律之后,我们知道了磁如何生电,有了安培环路定理,我们就知道电流如何产生磁场。咋一看,有关电磁的东西我们好像都有解决方案了。其实不然,我们知道安培环路定理是从奥斯特发现了电流周围会产生磁场这一路推出来的,所以它只能处理电流周围表示磁场的情况。
但是,如果没有电流呢?如果我压根就没有导线让你可以形成电流,如果仅仅是电场发生了变化,那么这样能不能产生磁场呢?大家不要觉得我胡搅蛮缠,你想想,根据电磁感应定律,变化的磁场是可以产生电场的。所以,我会反过来猜想变化的电场能否产生磁场并不奇怪。而这,正好是安培环路定理缺失的部分。
于是,麦克斯韦就对安培环路定理进行了扩充,把变化的电场也能产生磁场这一项也添加了进去,补齐了这最后一块短板。
到这里,电和磁的统一之路就走得差不多了,麦克斯韦方程组的基本形式也呼之欲出了。这里我先让大家考虑一下:我们都知道麦克斯韦方程组描述了经典电磁学的一切,而且它是由四个方程组成的。那么,如果让你选择四个方程来描述电磁里的一切,你大致会选择四个什么样的方程呢?
此处思考一分钟……
我不知道大家是怎么考虑的,反正我觉得下面这条思路是很自然的:如果要用四个方程描述电磁的一切,那么我就用第一个方程描述电,第二个方程描述磁,第三个方程描述磁如何生电,第四个方程描述电如何生成磁。嗯,好巧,麦克斯韦方程组就是这样的~
所以,我们学习麦克斯韦方程组,就是要看看它是如何用四个方程优雅自洽地描述电、磁、磁生电、电生磁这四种现象的。接下来我们就来一个个地看。
02库仑的发现
在奥斯特发现电流的磁效应之前,人类已经单独研究电研究了好长时间,人们发现电荷有正负两种,而且同性相斥,异性相吸。后来库伦发现了电荷之间相互作用的定量关系,它发现电荷之间的作用力跟距离的平方成反比的。也就是说,如果我把两个电荷之间的距离扩大为原来的两倍,这两个电荷之间的作用力就会减少为原来的四分之一,扩大为三倍就减少为九分之一。
这个跟引力的效果是一样的,引力也是距离扩大为原来的两倍,引力的大小减少为原来的四分之一。为什么大自然这么偏爱“平方反比”规律呢?因为我们生活在一个各向同性的三维空间里。
什么意思?我们可以想想:假设现在有一个点源开始向四面八方传播,因为它携带的能量是一定的,那么在任意时刻能量达到的地方就会形成一个球面。而球面的面积公式S=4πr²(r为半径),它是跟半径的平方r²成正比的,这也就是说:我们同一份能量在不同的时刻要均匀的分给4πr²个部分,那么每个点得到的能量就自然得跟4πr²成反比,这就是平方反比定律的更深层次的来源。
因此,如果我们生活在四维空间里,我们就会看到很多立方(三次方)反比的定律,而这也是科学家们寻找高维度的一个方法。许多理论(比如超弦理论)里都有预言高维度,科学家们就去很小的尺度里测量引力,如果引力在一个很小的尺度里不再遵循平方反比定律,那就很有可能是发现了额外的维度。
好了,从更深层次理解了静电力遵循平方反比定律后,要猜出静电力的公式就是很简单的事情了。因为很明显的,两个电荷之间的静电力肯定跟两者的电荷量有关,而且还是电荷越大静电力越大,加上距离平方反比规律,两个电荷之间的静电力大致就是下面这样的了:
这就是我们中学学的库伦定律:两个电荷之间的静电力跟两个电荷量的乘积成正比,跟它们距离的平方成反比,剩下的都是常数。q1、q2就是两个电荷的电荷量,ε0是真空的介电常数(先不管它是啥意思,知道是个跟电相关的常数就行了),我们熟悉的球面积公式S=4πr²赫然出现在分母里,这是三维空间平方反比规律的代表。
库伦定律是一个实验定律,也就说库伦做了很多实验发现两个电荷之间确实存在着一个这么大小的静电力,但是它并没有告诉你这个静电力是如何传递的。两个并没有接触的物体之间存在某种力,一个常见的想法就是这两个物体之间存在着某种我们看不见的东西在帮它们传递作用力,那么这种东西是什么呢?有人认为是以太,有人认为是某种弹性介质,但是法拉第说是力线,而且这种力线不是什么虚拟的辅助工具,而是客观的物理实在。它可以传递作用力,也可以具有能量。这些思想慢慢形成了我们现在熟知的场。
03电场的叠加
有了场,我们就可以更加细致的描述两个电荷之间的相互作用了。为什么两个电荷之间存在这样一个静电力呢?因为电荷会在周围的空间中产生一个电场,这个电场又会对处在其中的电荷产生一个力的作用。这个电场的强度越大,电荷受到的力就越大,正电荷受力的方向就是这点电场的方向。所以,电场具有大小和方向,这是一个矢量。
为了直观形象的描述电场,我们引入了电场线。电场线的密度刚好就代表了电场强度的大小,而某点电场线的切线方向就代表了该处电场的方向。一个正电荷就像太阳发光一样向四周发射电场线,负电荷就汇集电场线。
这些内容大家在中学的时候应该都学了,我就一笔带过,接下来我们考虑一个稍微复杂一点的问题:库伦定律告诉了我们两个点电荷之间静电力的大小,那么我们就可以根据这个求出一个点电荷周围的电场强度。然而,一个点电荷是最简单的情况,如果带电源再复杂一点呢?如果我有很多个电荷,或者说我直接就是一块形状不规则的带电体,这时候我们要怎么求它产生的电场呢?
一个很简单自然的想法就是:如果有很多个电荷,我就把每个电荷在这点产生的电场强度算出来,再把它们叠加起来就行了。如果这是一个连续的带电体(比如一根带电的线),那我们就再次举起牛顿爵爷留给我们的微积分大刀,哗啦啦地把这个带电体切成无数个无穷小的部分,这样每一个无穷小的部分就可以看做一个点电荷,然后把这无数个点电荷在那点产生的电场强度叠加起来(就是积分)就行了。
我们上面的思路其实就是秉着“万物皆可切成点,万物皆可积”的精神,强行让库伦定律和微积分联姻,“硬算”出任何带电体在任意位置的场强。这在原理上是行得通的,没问题,但是在具体操作上就很复杂了,有没有更简单优雅一点的办法呢?
有,不过这需要我们换个角度看问题。物理学研究物体运动变化的规律,但是物体时时刻刻都处在变化之中,你要怎么去寻找它的规律呢?这里就涉及到科学研究的一个重要思想:把握变化世界里那些不变的东西。
牛顿发现一切物体在运动中都有某种共同不变的东西,不管物体怎样运动,受到什么样的力,这个东西只由物体的密度和体积决定,于是牛顿从中提炼出了质量的概念(当然,现在质量是比密度体积更基本的概念);科学家们发现物体在各种变化的过程中有某种守恒的东西,于是提炼出了能量的概念。那么,带电体在周围空间中产生电场的过程,能不能也提炼出某种不变的东西呢?
04通量的引入
我们先不管电,先来看看我们更熟悉的水。毕竟水流和电流有某种相似之处,
我在一个水龙头的出口处装一个喷头,让水龙头向周围的空间喷射水流(就像正电荷喷射电场线一样),然后我用一个完全透水(水能够自由的穿过塑料袋)的塑料袋把水龙头包起来。那么,从水龙头出来的所有的水都必须穿过这个塑料袋,然后才能去其他地方,穿过这个塑料袋的表面是所有水的必经之路。
这个看似平常的现象后面却隐藏了这样一个事实:无论塑料袋有多大,是什么形状,只要你是密封的。那么,从水龙头流出的水量就一定等于通过这个塑料袋表面的水量。
从这里,我们就抽象出来了一个非常重要的概念:通量。通量,顾名思义,就是通过一个曲面的某种流量,通过塑料袋表面的水的流量就叫塑料袋的水通量。这样上面的例子我们就可以说成水龙头的出水量等于塑料袋的水通量了。
好,水的事就先说到这里,我们再回过头来看看电。还是用上面的实验,现在我们把水龙头换成一个正电荷,我们还是用一个完全透电(对电没有任何阻力)的塑料袋套住一个正电荷,那会发生什么呢?水龙头的喷头散发的是水流,正电荷“散发”的是电场线;通过该塑料袋的水流量叫塑料袋的水通量,那么电场线通过塑料袋的数量自然就叫塑料袋的电通量。对于水通量,我们知道它等于水龙头的出水量,那么塑料袋的电通量等于什么呢?
我们知道,之所以会有电场线,是因为空间中存在电荷。而且,电荷的电量越大,它产生的电场强度就越大,电场线就越密,那么穿过塑料袋的电场线的数量就越多,对应的电通量就越大。所以,我们虽然无法确定这个电通量的具体形式,但是可以肯定它一定跟这个塑料袋包含的电荷量有关,而且是正相关。
这就是在告诉我们:通过一个闭合曲面的电通量跟曲面内包含电荷总量是成正比的,电荷量越大,通过这个任意闭合曲面的电通量就越大,反之亦然。这就是麦克斯韦方程组的第一个方程——高斯电场定律的核心思想。
把这个思想从电翻译到水上面去就是:通过一个闭合曲面的水量是这个曲面内包含水龙头水压的量度,水压越大,水龙头越多,通过这个闭合曲面的水量就越大。这几乎已经接近“废话”了~所以,大家面对那些高大上的公式方程的时候不要先自己吓自己,很多所谓非常高深的思想,你把它用人话翻译一下,就会发现它非常简单自然。
我们再来审视一下高斯电场定律的核心思想:通过一个闭合曲面的电通量跟曲面包含的电荷量成正比。那么,我们要怎么样把这个思想数学化呢?电荷的总量好说,就是把所有电荷的带电量加起来,那么通过一个闭合曲面的电通量要怎么表示呢?
05电场的通量
我们先从最简单的情况看起。
问题1:我们假设空间里有一个电场强度为E的匀强电场,然后有一个面积为a的木板跟这个电场方向垂直,那么,通过这个木板的电通量Φ要怎么表示呢?
我们想想,我们最开始是从水通过曲面的流量来引入通量的,到了电这里,我们用电场线通过一个曲面的数量表示电通量。而我们也知道,电场线的密度代表了电场强度的大小。所以,我们就能很明显的发现:电场强度越大,通过木板的电场线数量越多;木板的面积越大,通过木板的电场线数量越多。而电场线的数量越多,就意味着电通量越大。
因为电场强度E是一个矢量(有大小和方向),所以我们用E的绝对值|E|来表示E的大小,那么我们直接用电场强度的大小|E|和木板面积a的乘积来表示电通量的大小是非常合理的。也就是说,通过木板的电通量Φ=|E|×a。
木板和电场线方向相互垂直是最简单的情况,如果木板和电场的方向不垂直呢?
问题2:还是上面的木板和电场,如果木板跟电场的方向不是垂直的,它们之间有一个夹角θ,那这个电通量又要怎么求呢?
如上图,首先,我们能直观地感觉到:当木板不再和电场方向垂直的时候,这个木板被电场线穿过的有效面积减小了。原来长度为AB的面都能挡住电场线,现在,虽然还是那块木板,但是真正能够有效挡住电场线的变成了BC这个面。
然后,我们再来谈一谈曲面的方向,可能很多人都认为曲面的方向就是定义为AB的方向。其实不是的,我们是用一个垂直于这个平面的向量的方向表示这个平面的方向,这个向量就叫这个平面的法向量。如上图所示,我画了一个跟木板垂直的法向量n,那么这个法向量n和电场E的夹角才是木板这个平面和电场的夹角θ。
AB、BC和θ之间存在一个非常简单的三角关系:BC=AB×cosθ(因为夹角θ跟角ABC相等,cosθ表示直角三角形里邻边和斜边的比值)。而我们有知道垂直的时候通过木板的电通量Φ=|E|×|a|,那么,当它们之间有一个夹角θ的时候,通过木板的电通量自然就变成了:Φ=|E|×|a|×cosθ。
06矢量的点乘
到了这里,我们就必须稍微讲一点矢量和矢量的乘法了。
通俗地讲,标量是只有大小没有方向的量。比如说温度,房间某一点的温度就只有一个大小而已,并没有方向;再比如质量,我们只说一个物体的质量是多少千克,并不会说质量的方向是指向哪边。而矢量则是既有大小,又有方向的量。比如速度,我们说一辆汽车的速度不仅要说速度的大小,还要指明它的方向,它是向东还是向南;再比如说力,你去推桌子,这个推力不仅有大小(决定能不能推动桌子),还有方向(把桌子推向哪一边)。
标量因为只有大小没有方向,所以标量的乘法可以直接像代数的乘法一样,让它们的大小相乘就行了。但是,矢量因为既有大小又有方向,所以你两个矢量相乘就不仅要考虑它的大小,还要考虑它的方向。假如你有两个矢量,一个矢量的方向向北,另一个向东,那么它们相乘之后得到的结果还有没有方向呢?如果有,这个方向要怎么确定呢?
这就是说,我们从小学开始学习的那种代数乘法的概念,在矢量这里并不适用,我们需要重新定义一套矢量的乘法规则,比如我们最常用的点乘(符号为‘·’)。你两个标量相乘就是直接让两个标量的大小相乘,我现在矢量不仅有大小还有方向,那么这个方向怎么体现呢?简单,我不让你两个矢量的大小直接相乘,而是让一个矢量的投影和另一个矢量的大小相乘,这样就既体现了大小又体现了方向。
如上图,我们有两个矢量OA和OB(线段的长短代表矢量的大小,箭头的方向代表矢量的方向),我们过A点做AC垂直于OB(也就是OA往OB方向上投影),那么线段OC的长度就代表了矢量OA在OB方向上的投影。而根据三角函数的定义,一个角度θ的余弦cosθ被定义为邻边(OC)和斜边(OA)的比值,即cosθ=OC/|OA|(绝对值表示矢量的大小,|OA|表示矢量OA的大小)。所以矢量OA在OB方向上的投影OC可以表示为:OC=|OA|×cosθ。
既然两个矢量的点乘被定义为一个矢量的投影和和另一个矢量大小的乘积,现在我们已经得到了投影OC的表达式,那么矢量OA和OB的点乘就可以表示为:
OA·OB=OC×|OB|=|OA||OB|cosθ。
为什么我们上面明明还在讲电场通过一个平面的通量,接着却要从头开始讲了一堆矢量的点乘的东西呢?因为电场强度也是一个矢量,它有大小也有方向(电场线的密度代表大小,电场线的方向代表它的方向);平面其实也是一个矢量,平面的大小不用说了,平面的方向是用垂直于这个平面的法向量来表示的。而且,我们再回顾一下当平面跟电场方向有一个夹角θ的时候,通过这个平面的电通量Φ=|E|×|a|×cosθ。这是不是跟上面两个矢量点乘右边的形式一模一样?
也就是说,如果我们从矢量的角度来看:电场E通过一个平面a的电通量Φ就可以表示为这两个矢量(电场和平面)的点乘,即Φ=E·a(因为根据点乘的定义有E·a=|E|×|a|×cosθ)。
这种表述既简洁又精确,你想想,如果你不使用矢量的表述,那么你在公式里就不可避免地会出现很多和夹角θ相关的地方。更关键的是,电场强度和平面本来就都是矢量,你使用矢量的运算天经地义,为什么要用标量来代替它们呢?
总之,我们知道一个电场通过一个平面的电通量可以简洁的表示为:Φ=E·a,这就够了。但是,高斯电场定律的核心思想是通过闭合曲面的电通量跟曲面包含的电荷量成正比,我们这里得到的只是一个电场通过一个平面的电通量,一个平面和一个闭合曲面还是有相当大的区别的。
07闭合曲面的电通量
知道怎么求一个平面的电通量,要怎么求一个曲面的电通量呢?
这里就要稍微涉及一丢丢微积分的思想了。我们都知道我们生活在地球的表面,而地球表面其实是一个球面,那么,为什么我们平常在路上行走时却感觉不到这种球面的弯曲呢?这个答案很简单,因为地球很大,当我们从月球上遥望地球的时候,我们能清晰地看到地球表面是一个弯曲的球面。但是,当我们把范围仅仅锁定在我们目光周围的时候,我们就感觉不到地球的这种弯曲,而是觉得我们行走在一个平面上。
地球的表面是一个曲面,但是当我们只关注地面非常小的一块空间的时候,我们却觉得这是一个平面。看到没有,一个曲面因为某种原因变成了一个平面,而我们现在的问题不就是已知一个平面的电通量,要求一个曲面的电通量么?那么地球表面的这个类比能不能给我们什么启发呢?
弯曲的地球表面在小范围内是平面,这其实是在启发我们:我们可以把一个曲面分割成许多块,只要我们分割得足够细,保证每一小块都足够小,那么我们是可以把这个小块近似当作平面来处理的。而且不难想象,我把这个曲面分割得越细,它的每一个小块就越接近平面,我们把这些小平面都加起来就会越接近这个曲面本身。
下面是重点:如果我们把这个曲面分割成无穷多份,这样每个小块的面积就都是无穷小,于是我们就可以认为这些小块加起来就等于这个曲面了。这就是微积分最朴素的思想。
如上图,我们把一个球面分割成了很多块,这样每一个小块就变成了一个长为dx,宽为dy的小方块,这个小方块的面积da=dx·dy。如果这个小块的电场强度为E,那么通过这个小块的电通量就是E·da。如果我们我们把这个球面分割成了无穷多份,那么把这无穷多个小块的电通量加起来,就能得到穿过这个曲面的总电通量。
这个思想总体来说还是很简单的,只是涉及到了微积分最朴素的一些思想。如果要我们具体去计算可能就会比较复杂,但是庆幸的是,我们不需要知道具体如何计算,我们只需要知道怎么表示这个思想就行了。一个小块da的电通量是E·da,那么我们就可以用下面的符号表示通过这个曲面S的总电通量:
这个拉长的大S符号就是积分符号,它就是我们上面说的微积分思想的代表。它的右下角那个S代表曲面S,也就是说我们这里是把这个曲面S切割成无穷小块,然后对每一块都求它的通量E·da,然后把通量累积起来。至于这个大S中间的那个圆圈就代表这是一个闭合曲面。
08方程一:高斯电场定律
总之,上面这个式子就代表了电场E通过闭合曲面S的总电通量,而我们前面说过高斯电场定律的核心思想就是:通过闭合曲面的电通量跟这个曲面包含的电荷量成正比。那么,这样我们就能非常轻松的理解麦克斯韦方程组的第一个方程——高斯电场定律了:
方程的左边,我们上面解释了这么多,这就是电场E通过闭合曲面S的电通量。方程右边带enc下标的Q表示闭合曲面内包含的电荷总量,ε0是个常数(真空介电常数),暂时不用管它。等号两边一边是闭合曲面的电通量,另一边是闭合曲面包含的电荷,我们这样就用数学公式完美地诠释了我们的思想。
麦克斯韦方程组总共有四个方程,分别描述了静电、静磁、磁生电、电生磁的过程。库伦定律从点电荷的角度描述静电,而高斯电场定律则从通量的角度来描述静电,为了描述任意闭合曲面的通量,我们不得不引入了微积分的思想。我们说电通量是电场线通过一个曲面的数量,而我们也知道磁场也有磁感线(由于历史原因无法使用磁场线这个名字),那么,我们是不是也可以类似建立磁通量的概念,然后在此基础上建立类似的高斯磁场定律呢?
09方程二:高斯磁场定律
磁通量的概念很好建立,我们可以完全模仿电通量的概念,将磁感线通过一个曲面的数量定义磁通量。因为磁场线的密度一样表征了磁感应强度(因为历史原因,我们这里无法使用磁场强度)的大小。所以不难理解,我们可以仿照电场把磁感应强度为B的磁场通过一个平面a的磁通量Φ表示为Φ=B·a。
同样,根据我们在上面电场里使用的微积分思想,类比通过闭合曲面电通量的作法,我们可以把通过一个闭合曲面S的磁通量表示为:
然后,我们可以类比高斯电场定律的思想“通过闭合曲面的电通量跟这个曲面包含的电荷量成正比”,建立一个高斯磁场定律,它是核心思想似乎就应该是:通过闭合曲面的磁通量跟这个曲面包含的“磁荷量”成正比。
然而这里会有个问题,我们知道自然界中有独立存在的正负电荷,电场线都是从正电荷出发,汇集与负电荷。但是自然界里并不存在(至少现在还没发现)独立的磁单极子,任何一个磁体都是南北两极共存。所以,磁感线跟电场线不一样,它不会存在一个单独的源头,也不会汇集到某个地方去,它只能是一条闭合的曲线。
上图是一个很常见的磁铁周围的磁感线,磁铁外部的磁感线从N极指向S极,在磁铁的内部又从S极指向N极,这样就形成一个完整的闭环。
如果磁感线都是一个闭环,没有独立存在的磁单极,那我们可以想一想:如果你在这个闭环里画一个闭合曲面,那么结果肯定就是有多少磁感线从曲面进去,就肯定有多少跟磁感线从曲面出来。因为如果有一根磁感线只进不出,那它就不可能是闭合的了,反之亦然。
如果一个闭合曲面有多少根磁感线进,就有多少根磁感线出,这意味着什么呢?这就意味着你进去的磁通量跟出来的磁通量相等,那么最后这个闭合曲面包含的总磁通量就恒为0了。这就是麦克斯韦方程组的第二个方程——高斯磁场定律的核心思想:闭合曲面包含的磁通量恒为0。
通过闭合曲面的磁通量(B·a是磁通量,套个曲面的积分符号就表示曲面的磁通量)我们上面已经说了,恒为0无非就是在等号的右边加个0,所以高斯磁场定律的数学表达式就是这样的:
对比一下高斯电场定律和高斯磁场定律,我们会发现他们不仅是名字想象,思想也几乎是一模一样的,只不过目前还没有发现磁荷、磁单极子,所以高斯磁场定律的右边就是一个0。我们再想一想:为什么这种高斯XX定律能够成立?为什么通过任意闭合曲面的某种通量会刚好是某种量的一个量度?
原因还在它们的“平方反比”上。因为电场强度和磁感应强度都是跟距离的平方成反比,而表面积是跟距离的平方正比,所以你前者减小多少,后者就增加多少。那么,如果有一个量的表示形式是前者和后者的乘积,那么它的总量就会保持不变。而通量刚好就是XX强度和表面积的乘积,所以电通量、磁通量就都会有这样的性质。
所以,再深思一下你就会发现:只要一种力的强度是跟距离平方成反比,那么它就可以有类似的高斯XX定律,比如引力,我们一样可以找到对应的高斯定律。数学王子高斯当年发现了高斯定理,我们把它应用在物理学的各个领域,就得到了各种高斯XX定律。麦克斯韦方程组总共就四个方程,就有两个高斯定律,可见其重要性。
静电和静磁方面的事情就先说这么多,还有疑问的请咨询高斯,毕竟这是人家独家冠名的产品。接下来我们来看看电和磁之间的交互,看看磁是如何生电,电是如何生磁的。说到磁如何生电,那就肯定得提到法拉第。奥斯特发现电流的磁效应之后,大家秉着对称性的精神,认为磁也一定能够生电,但是磁到底要怎样才能生电呢?不知道,这就得做实验研究了。
10电磁感应
既然是要做实验看磁如何生电,那首先肯定得有一个磁场。这个简单,找两块N极和S极相对的磁铁,这样它们之间就会有一个磁场。我再拿一根金属棒来,看看它有没有办法从磁场中弄出电来。因为金属棒是导电的,所以我把它用导线跟一个检测电流的仪器连起来,如果仪器检测到了电流,那就说明磁生电成功了。
法拉第做了很多这样的实验,他发现:你金属棒放在那里不动,是不会产生电流的(这是自然,否则你就是凭空产生了电,能量就不守恒了。你要这样能发电,那我买块磁铁回家,就永远不用再交电费了)。
然后,他发现金属棒在那里动的时候,有时候能产生电流,有时候不能产生,你要是顺着磁感线的方向运动(在上图就是左右运动)就没有电流,但是你要是做切割磁感线的运动(在上图就是上下运动)它就能产生电流。打个通俗的比喻:如果把磁感线想象成一根根面条,你只有把面条(磁感线)切断了才会产生电流。
再然后,他发现金属棒在磁场里不动虽然不会产生电流,但是如果这时候我改变一下磁场的强度,让磁场变强或者变弱一些,即便金属棒不动也会产生电流。
法拉第仔细总结了这些情况,他发现不管是金属棒运动切割磁感线产生电流,还是磁场强度变化产生电流,都可以用一个通用的方式来表达:只要闭合回路的磁通量发生了改变,就会产生电流。我们想想,磁通量是磁场强度B和面积a的乘积(B·a),我切割磁感线其实是相当于改变了磁感线通过回路的面积a,改变磁场强度就是改变了B。不管我是改变了a还是B,它们的乘积B·a(磁通量)肯定都是要改变的。
也就是说:只要通过曲面(我们可以把闭合回路当作一个曲面)的磁通量发生了改变,回路中就会产生电流,而且磁通量变化得越快,这个电流就越大。
到了这里,我们要表示通过一个曲面的磁通量应该已经轻车熟路了。磁通量是B·a,那么通过一个曲面S的磁通量给它套一个积分符号就行了。于是,通过曲面S磁通量可以写成下面这样:
细心的同学就会发现这个表达式跟我们高斯磁场定律里磁通量部分稍微有点不一样,高斯磁场定律里的积分符号(拉长的S)中间有一个圆圈,我们这里却没有。高斯磁场定律说“闭合曲面的磁通量恒为0”,那里的曲面是闭合曲面,所以有圆圈。而我们这里的曲面并不是闭合曲面(我们是把电路回路当成一个曲面,考虑通过这个回路的磁通量),也不能是闭合曲面。因为法拉第就是发现了“通过一个曲面的磁通量有变化就会产生电流”,如果这是闭合曲面,那根据高斯磁场定律它的磁通量恒为0,恒为0那就是没有变化,没变化按照法拉第的说法就没有电流,那还生什么电?
所以,我们要搞清楚,我们这里不再是讨论闭合曲面的磁通量,而是一个非闭合曲面的磁通量,这个磁通量发生了改变就会产生电流,而且变化得越快产生的电流就越大。上面的式子给出的只是通过一个曲面S的磁通量,但是我们看到了最终决定电流大小的并不是通过曲面的磁通量的大小,而是磁通量变化的快慢。那么这个变化的快慢我们要怎么表示呢?
我们先来看看我们是怎么衡量快慢的。比如身高,一个人在十二三岁的时候一年可以长10厘米,我们说他这时候长得快;到了十七八岁的时候可能一年就长1厘米,我们就说他长得慢。也就是说,我们衡量一个量(假设身高用y表示)变化快慢的方法是:给定一个变化的时间dt(比如一年,或者更小),看看这个量的变化dy是多少,如果这个量的变化很大我们就说它变化得很快,反之则变化得慢。
因此,我们可以用这个量的变化dy和给定的时间dt的比值dy/dt来衡量量这个量y变化的快慢。所以,我们现在要衡量磁通量变化的快慢,那就只需要把磁通量的表达式替换掉上面的y就行了,那么通过曲面S的磁通量变化的快慢就可以这样表示:
这样,我们就把磁生电这个过程中磁的这部分说完了,那么电呢?一个闭合回路(曲面)的磁通量有变化就会产生电,那这种电要怎么描述?
11电场的环流
可能有人觉得磁通量的变化不是在回路里产生了电流么,那么我直接用电流来描述这种电不就行了么?不行,我们的实验里之所以有电流,是因为我们用导线把金属棒连成了一个闭合回路,如果我们没有用导线去连金属棒呢?那肯定就没有电流了。
所以,电流并不是最本质的东西,那个最本质的东西是电场。一个曲面的磁通量发生了变化,它就会在这个曲面的边界感生出一个电场,然后这个电场会驱动导体中的自由电子定向移动,从而形成电流。因此,就算没有导线没有电流,这个电场依然存在。所以,我们要想办法描述的是这个被感生出来的电场。
首先,一个曲面的磁通量发生了改变,就会在在曲面的边界感应出一个电场,这个电场是环绕着磁感线的,就像是磁感线的腰部套了一个呼啦圈。而且,你这个磁通量是增大还是减小,决定了这个电场是顺时针环绕还是逆时针环绕,如下图:
如果我们从上往下看的话,这个成闭环的感生电场就是如下图所示:它在这个闭环每点的方向都不一样,这样就刚好可以沿着回路驱动带电粒子,好像是电场在推着带电粒子在这里环里流动一样。
这里,我们就要引入一个新的概念:电场环流,电场的环流就是电场沿着闭合路径的线积分。这里有两个关键词:闭合路径和线积分。闭合路径好说,你只有路径是闭合的,才是一个环嘛,感生电场也是一个环状的电场。
电场的线积分是什么意思呢?因为我们发现这个感生电场是一个环状电场,它在每一个点的方向都不一样。但是,我们依然可以发动微积分的思想:这个电场在大范围内(比如上面的整个圆环)方向是不一样的,但是,如果在圆环里取一个非常小的段dl,电场E就可以看做是一个恒定的了,这时候E·dl就是有意义的了。然后把这个环上所有部分的E·dl都累加起来,也就是沿着这个圆环逐段把E·dl累加起来,这就是对电场求线积分。而这个线积分就是电场环流,用符号表示就是这样:
积分符号下面的C表示这是针对曲线进行积分,不同于我们前面的面积分(下标为S),积分符号中间的那个圆圈就表示这个是闭合曲线(电场形成的圆环)。如果大家已经熟悉了前面曲面通量的概念,我想这里要理解电场在曲线上的积分(即电场环流)并不难。
这个电场环流有什么物理意义呢?它就是我们常说电动势,也就是电场对沿着这条路径移动的单位电荷所做的功。我这里并不想就这个问题再做深入的讨论,大家只要直观的感觉一下就行了。你想想这个电场沿着这个回路推动电荷做功(电场沿着回路推着电荷走,就像一个人拿着鞭子抽磨磨的驴),这就是电场环流要传递的概念。而用这个概念来描述变化的磁产生的电是更加合适的,它既包含了感生电场的大小信息,也包含了方向信息。
12方程三:法拉第定律
所以,麦克斯韦方程组的第三个方程——法拉第定律的最后表述就是这样的:曲面的磁通量变化率等于感生电场的环流。用公式表述就是这样:
方程右边的磁通量的变化率和和左边的感生电场环流我们上面都说了,还有一个需要说明的地方就是公式右边的这个负号。为什么磁通量的变化率前面会有个负号呢?
我们想想,法拉第定律说磁通量的变化会感生出一个电场出来,但是我们别忘了奥斯特的发现:电流是有磁效应的。也就是说,磁通量的变化会产生一个电场,这个电场它自己也会产生磁场,那么也就有磁通量。那么,你觉得这个感生电场产生的磁通量跟原来磁场的磁通量的变化会有什么关系?
假如原来的磁通量是增加的,那么这个增加的磁通量感生出来的电场产生的磁通量是跟原来方向相同还是相反?仔细想想你就会发现,答案必然是相反。如果原来的磁通量是增加的,你感生出来的电场产生的磁通量还跟它方向相同,这样不就让原来的磁通量增加得更快了么?增加得更快,按照这个逻辑就会感生出更强大的电场,产生更大的与原来方向相同的磁通量,然后又导致原来的磁通量增加得更快……
然后你会发现这个过程可以无限循环下去,永远没有尽头,这样慢慢感生出无限大的电场和磁通量,这肯定是不可能的。所以,为了维持一个系统的稳定,你原来的磁通量是增加的,我感生电场产生的磁通量就必然要让原来的磁通量减小,反之亦然。这就是楞次定律的内容,中学的时候老师会编一些口诀让你记住它的内容,但是我想让你知道这是一个稳定系统自然而然的要求。楞次定律背后还有一些更深层次的原因,这里我们暂时只需要知道这是法拉第定律那个负号的体现就行了。
到这里,我们就把麦克斯韦方程组的第三个方程——法拉第定律的内容讲完了,它刻画了变化的磁通量如何产生电场的过程。但是,我们上面也说了,我们这里的磁通量变化包含了两种情况:导体运动导致的磁通量变化和磁场变化导致的磁通量变化。这两种情况其实是不一样的,但是它们居然又可以用一个统一的公式来表达,这其实是非常不自然的,当时的人们也只是觉得这是一种巧合罢了,但是爱因斯坦却不认为这是一种巧合,而是大自然在向我们暗示什么,他最终从这里发现了狭义相对论,有兴趣的同学可以这里思考一下。
也因为这两种情况不一样,所以,法拉第定律还有另外一个版本:它把这两种情况做了一个区分,认为只有磁场变化导致的磁通量变化才是法拉第定律,前面导体运动导致的磁通量变化只是通量法则。所以我们有时候就会看到法拉第定律的另一个版本:
对比一下这两个法拉第定律,我们发现后面这个只是把那个变化率从原来的针对整个磁通量移到了只针对磁场强度B(因为B不是只跟时间t有关,还可以跟其它的量有关,所以我们这里必须使用对时间的偏导的符号∂B/∂t),也就是说它只考虑变化磁场导致的磁通量变化。这种形式跟我们后面要说的法拉第定律的微分形式对应得更好,这个后面大家会体会到。
磁生电的过程我们先讲这么多,最后我们来看看电生磁的情况。可能有些人会觉得我这个出场次序有点奇怪:明明是奥斯特先发现了电流的磁效应,大概十年后法拉第才发现了磁如何生电,为什么你却要先讲磁生电的法拉第定律,最后讲电生磁呢?
13安培环路定理
确实,是奥斯特首先爆炸性地发现了电流的磁效应,发现了原来电和磁之间并不是毫无关系的。
如上图,假设电流从下往上,那么它在周围就会产生这样一个环形的磁场。磁场的方向可以用所谓的右手定则直观的判断:手握着导线,拇指指向电流的方向,那么你右手四指弯曲的方向就是磁场B的方向。
然后毕奥、萨伐尔和安培等人立马着手定量的研究电流的磁效应,看看一定大小的电流在周围产生的磁场的大小是怎样的。于是,我们就有了描述电流磁效应的毕奥-萨伐尔定律和安培环路定理。其中,毕奥-萨伐尔定律就类似于库伦定律,安培环路定理就类似于高斯电场定律,因为在麦克斯韦方程组里,我们使用的是后一套语言,所以我们这里就只来看看安培环路定理:
安培环路定理的左边跟法拉第定律的左边很相似,这是很显然的。因为法拉第定律说磁通量的变化会在它周围产生一个旋转闭合的电场,而电流的磁效应也是在电流的周围产生一个旋转闭合的磁场。在上面我们已经说了我们是用电场环流(也就是电场在闭合路径的线积分)来描述这个旋转闭合的电场,那我们这里一样使用磁场环流(磁场在闭合路径的线积分)来描述这种旋转闭合的磁场。
安培环路定理的右边就比较简单了,μ0是个常数(真空磁导率),不用管它。I通常是用来表示电流的,enc这个右标我们在高斯电场定律那里已经说过了,它是包含的意思。所以,右边这个带enc的电流I就表示被包含在闭合路径里的总电流,哪个闭合路径呢?那自然就是你左边积分符号中间那个圈圈表示的闭合路径了。
也就是说,安培环路定理其实是在告诉我们:通电导线周围会产生旋转磁场,你可以在这个电流周围随便画一个圈,那么这个磁场的环流(沿着这个圈的线积分)就等于这个圈里包含的电流总量乘以真空磁导率。
那么,这样就完了么?静电、静磁分别由两个高斯定律描述,磁生电由法拉第定律描述,电生磁就由安培环路定理描述?
不对,我们看看安培环路定理,虽然它确实描述了电生磁,但是它这里的电仅仅是电流(定理右边只有电流一项)。难道一定要有电流才会产生磁?电磁感应被发现的原因就是看到奥斯特发现了电流的磁效应,发现电能生磁,所以人们秉着对称性的原则,觉得既然电能够生磁,那么磁也一定能够生电。那么,继续秉着这种对称性,既然法拉第定律说“变化的磁通量能够产生电”,那么,我们实在有理由怀疑:变化的电通量是不是也能产生磁呢?
14方程四:安培-麦克斯韦定律
那么,为什么描述电生磁的安培环路定理里却只有电流产生磁,而没有变化的电通量产生磁这一项呢?难道当时的科学家们没意识到这种对称性么?当然不是,当时的科学家们也想从实验里去找到电通量变化产生磁场的证据,但是他们并没有找到。没有找到依然意味着有两种可能:不存在或者目前的实验精度还发现不了它。
如果你是当时的科学家,面对这种情况你会作何选择?如果你因为实验没有发现它就认为它不存在,这样未免太过保守。但是,如果你仅仅因为电磁之间的这样一种对称性(而且还不是非常对称,因为大自然里到处充满了独立的电荷,却没有单独的磁单极子)就断定“电通量的变化也一定会产生磁”这样未免太过草率。这种时候就是真正考验一个科学家能力和水平的时候了。
麦克斯韦选择了后者,也就是说麦克斯韦认为“变化的电通量也能产生磁”,但是他并不是随意做了一个二选一的选择,而是在他的概念模型里发现必须加入这样一项。而且,只有加上了这样一项,修正之后的安培环路定理才能跟高斯电场定律、高斯磁场定律、法拉第定律融洽相处,否则他们之间会产生矛盾(这个矛盾我们在后面的微分篇里再说)。麦克斯韦原来的模型太过复杂,我这里就不说了,这里我用一个很简单的例子告诉大家为什么必须要加入“变化的电通量也能产生磁”这一项。
在安培环路定理里,我们可以随意选一个曲面,然后所有穿过这个曲面的电流会在这个曲面的边界上形成一个环绕磁场,问题的关键就在这个曲面的选取上。按理说,只要你的这个曲面边界是一样的,那么曲面的其他部分就随便你选,因为安培环路定理坐标的磁场环流只是沿着曲面的边界的线积分而已,所以它只跟曲面边界有关。下面这个例子就会告诉你即便曲面边界一样,使用安培环路定理还是会做出相互矛盾的结果。
上图是一个包含电容器的简单电路。电容器顾名思义就是装电的容器,它可以容纳一定量的电荷。一开始电容器是空的,当我们把开关闭合的时候,电荷在电池的驱动下开始移动,移动到了电容器这里就走不动了(此路不通),然后电荷们就聚集在电容器里。因为电容器可以容纳一定量的电荷,所以,当电容器还没有被占满的时候,电荷是可以在电路里移动的,电荷的移动就表现为电流。
所以,我们会发现当我们在给电容器充电的时候,电路上是有电流的,但是电容器之间却没有电流。所以,如果我们选择上图的曲面,那么明显是有电流穿过这个曲面,但是,如果我们选择下面这个曲面呢(此处图片来自《麦克斯韦方程直观》,需要的可以后台回复“麦克斯韦方程组”)?
这个曲面的边界跟上图一样,但是它的底却托得很长,盖住了半块电容器。这是什么意思呢?因为我们知道电容器在充电的时候,电容器里面是没有电流的,所以,当我们把曲面选择成下面这个样子的时候,根本就没有电流穿过这个曲面。
也就是说,如果我选上面的曲面,有电流穿过曲面,按照安培环路定理,它是肯定会产生一个环绕磁场的。但是,如果我选择下面的曲面,就没有电流通过这个曲面,按照安培环路定理就不会产生环绕磁场。而安培环路定理只限定曲面的边界,并不管你曲面的其它地方,于是我们就看到这两个相同边界的曲面会得到完全不同的结论,这就只能说明:安培环路定理错了,或者至少它并不完善。
我们再来想一想,电容器在充电的时候电路中是有电流的,所以它周围应该是会产生磁场的。但是,当我们选择下面那个大口袋形的曲面的时候,并没有电流穿过这个曲面。那么,到底这个磁场是怎么来的呢?
我们再来仔细分析一下电容器充电的过程:电池驱使着电荷不断地向电容器聚集,电容器中间虽然没有电流,但是它两边聚集的电荷却越来越多。电荷越来越多的话,在电容器两个夹板之间的电场强度是不是也会越来越大?电场强度越来越大的话,有没有嗅到什么熟悉的味道?
没错,电场强度越来越大,那么通过这个曲面的电通量也就越来越大。因此,我们可以看到虽然没有电流通过这个曲面,但是通过这个曲面的电通量却发生了改变。这样,我们就可以非常合理地把“变化的电通量”这一项也添加到产生磁场的原因里。因为这项工作是麦克斯韦完成的,所以添加了这一项之后的新公式就是麦克斯韦方程组的第四个方程——安培-麦克斯韦定律:
把它和安培环路定理对比一下,你就会发现它只是在在右边加了变化的电通量这一项,其它的都原封未动。E·a是电通量,套个面积分符号就表示通过曲面S的电通量,再加个d/dt就表示通过曲面S电通量变化的快慢。因为在讲法拉第定律的时候我们详细讲了通过曲面磁通量变化的快慢,这里只是把磁场换成了电场,其他都没变。
ε0是真空中的介电常数,把这个常数和电通量变化的快慢乘起来就会得到一个跟电流的单位相同的量,它就被称为位移电流,如下图:
所以,我们经常能够听到别人说麦克斯韦提出了位移电流假说。其实,它的核心就是添加了“变化的电通量也能产生磁场”这一项,因为当时并没有实验能证明这一点,所以只能暂时称之为假说。在安培环路定理里添加了这一项之后,新生的安培-麦克斯韦定律就能跟其他的几条定律和谐相处了。而麦克斯韦之所以能够从他的方程组里预言电磁波的存在,这最后添加这项“变化的电通量产生磁场”至关重要。
因为你想想,预言电磁波的关键就是“变化的电场产生磁场,变化的磁场产生电场”,这样变化的磁场和电场就能相互感生传向远方,从而形成电磁波。而变化的电场能产生磁场,这不就是麦克斯韦添加的这一项的核心内容么?电场变了,磁通量变了,于是就产生了磁场。至于麦克斯韦方程组如何推导出电磁波,我后面再专门写文章解释,这里知道电磁波的产生跟位移电流的假说密切相关就行了。
15麦克斯韦方程组
至此,麦克斯韦方程组的四个方程:描述静电的高斯电场定律、描述静磁的高斯磁场定律、描述磁生电的法拉第定律和描述电生磁的安培-麦克斯韦定律的积分形式就都说完了。把它们都写下来就是这样:
高斯电场定律说穿过闭合曲面的电通量正比于这个曲面包含的电荷量。
高斯磁场定律说穿过闭合曲面的磁通量恒等于0。
法拉第定律说穿过曲面的磁通量的变化率等于感生电场的环流。
安培-麦克斯韦定律说穿过曲面的电通量的变化率和曲面包含的电流等于感生磁场的环流。
我们看到,在这里从始至终都占据着核心地位的概念就是通量。
如果一个曲面是闭合的,那么通过它的通量就是曲面里面某种东西的量度。因为自然界存在独立的电荷,所以高斯电场定律的右边就是电荷量的大小,因为我们还没有发现磁单极子,所以高斯磁场定律右边就是0。
如果一个曲面不是闭合的,那么它就无法包住什么,就不能成为某种荷的量度。但是,一个曲面如果不是闭合的,它就有边界,于是我们就可以看到这个非闭合曲面的通量变化会在它的边界感生出某种旋涡状的场,这种场可以用环流来描述。因而,我们就看到了:如果这个非闭合曲面的磁通量改变了,就会在这个曲面的边界感生出电场,这就是法拉第定律;如果这个非闭合曲面的电通量改变了,就会在这个曲面的边界感生出磁场,这就是安培-麦克斯韦定律的内容。
所以,当我们用闭合曲面和非闭合曲面的通量把这四个方程串起来的时候,你会发现麦克斯韦方程组还是很有头绪的,并不是那么杂乱无章。闭上眼睛,想象空间中到处飞来飞去的电场线、磁场线,它们有的从一个闭合曲面里飞出来,有的穿过一个闭合曲面,有的穿过一个普通的曲面然后在曲面的边界又产生了新的电场线或者磁场线。它们就像漫天飞舞的音符,而麦克斯韦方程组就是它们的指挥官。
16结语
有很多朋友以为麦克斯韦方程组就是麦克斯韦写的一组方程,其实不然。如我们所见,麦克斯韦方程组虽然有四个方程,但是其中有三个半(高斯电场定律、高斯磁场定律、法拉第定律、安培环路定理)是在麦克斯韦之前就已经有了的,真正是麦克斯韦加进去的只有安培-麦克斯韦定律里”电通量的变化产磁场”那一项。知道了这些,有些人可能就会觉得麦克斯韦好像没那么伟大了。
其实不然,在麦克斯韦之前,电磁学领域已经有非常多的实验定律,但是这些定律哪些是根本,哪些是表象?如何从这一堆定律中选出最核心的几个,然后建立一个完善自洽的模型解释一切电磁学现象?这原本就是极为困难的事情。更不用说麦克斯韦在没有任何实验证据的情况下,凭借自己天才的数学能力和物理直觉直接修改了安培环路定理,修正了几个定律之间的矛盾,然后还从中发现了电磁波。所以,丝毫没有必要因为麦克斯韦没有发现方程组的全部方程而觉得他不够伟大。
最后,如题所示,我这篇文章讲的只是麦克斯韦方程组的积分篇,方程都是用积分是形式写的。因为积分篇主要是从通量,从宏观的角度来描述电磁学,所以相对比较容易理解。有积分篇那就意味着还有麦克斯韦方程组的微分篇,微分篇的内容我下一篇文章再讲。我这篇文章主要参考了《电动力学导论》(格里菲斯)和《麦克斯韦方程直观》(Daniel Fleisch),大家想对麦克斯韦方程组做进一步了解的可以看看这两本书,需要电子档的可以在后台回复“麦克斯韦方程组”。
最美的方程,愿你能懂她的美~
收起阅读 »