普朗克尺度和普朗克时间
1. 引言
1899年,德国物理学家、量子理论的开山鼻祖马克斯·普朗克 (Max Planck) 提出了一套特殊的单位制。
他试图通过三个我们宇宙中的基本物理学常数:光速 ,约化普朗克常数 和牛顿引力常数 来构建长度、时间、质量、能量等基本物理量的基本单位,这些基本单位统称为普朗克量。
通过量纲分析,普朗克发现唯一可能的具有对应量纲的物理量为
普朗克时间 普朗克尺度 普朗克质量 普朗克能标
等等。单纯从数值上来看,这些普朗克量很“极端”,它们对应了极短的时间尺度,极短的空间尺度,极高的能量标度。
一种常见于科普文中的说法是它们都表征了我们这个宇宙中的某种“极限”数值。
例如普朗克时间和普朗克尺度是我们宇宙中时间和空间的最小不可分割单元,普朗克能标是我们宇宙中所能达到的最高能标,等等。
然而,这种说法其实是不正确的,或者至少是不严谨的。
我们接下来将从一些(至少看起来)更深刻的方面去考察普朗克量的真正含义。
一颗定心丸:本文仍然是科普文,为了通俗我们将放弃一些不必要的严格性并略去所有的公式推导,所以读者可以放心地看下去。
2. 普朗克量中的基本常数
首先我们来考察组成这些普朗克量的三个基本物理学常数:光速 ,约化普朗克常数 和牛顿引力常数 ,在国际单位制下它们的数值分别为
这三个常数在物理学中极其基本和重要,因为它们分别是相对论、量子力学和引力理论的代盐人。
2.1 光速
1905 年爱因斯坦建立了狭义相对论,完全地解决了麦克斯韦方程组和伽利略世界观之间的矛盾:时间和空间应该是平权的,它们随着惯性系的改变而一起 “协同地变换”。
狭义相对论最重要的一个假设就是光速大小不随观者变化,在所有的惯性系中光速都是一个常数。
从这个假设出发,我们能推出惯性系之间的时空坐标变换必须保持如下的四维时空间隔不变
进一步我们能推出惯性系之间时空坐标变换的定量关系,也就是洛伦兹变换。
狭义相对论的一个重要推论就是它统一了质量和能量的概念。对于一个质量为 的静止的物体,其能量 由质量和光速平方的乘积给出
容易看出,上面定义的普朗克能标和普朗克质量之间也满足这样的关系
因为光速 是一个对所有惯性观者都不变的常数,所以谈到某个物体的质量和能量时我们完全可以将其视为一回事。
或者等价地,对能量的单位做一个重新标度 (rescale),我们可以将光速设为1,这就是所谓的自然单位制。
自然单位制的好处是所有的物理量的量纲都可以化为能量量纲的幂次,这对于标度估算极其方便。在自然单位制下,普朗克能标和普朗克质量就完全是一回事了,
同时,普朗克尺度和普朗克时间也完全是一回事了,因为普朗克尺度就是光在普朗克时间内走过的距离
2.2 普朗克常数
上面通过将光速设为 1,我们统一了普朗克能标和普朗克质量,也统一了普朗克时间和普朗克尺度,那么普朗克能标 (质量) 和普朗克时间 (尺度) 之间有什么关系呢?
这将不得不涉及到统治微观世界的量子理论。
1900年,为了解释黑体辐射的实验,普朗克假设黑体不能像经典物理中那样连续地辐射和吸收能量,对于角频率为 的电磁波,其辐射和吸收的最小能量单元为
其中 是一个和频率无关的极小常数,被称为约化普朗克常数。
普朗克的这种 “能量以 为基本单位进行量子化“ 的假设非常完美地解释了黑体辐射的实验曲线,并在之后成为了量子理论的开端。
1924年,德布罗意 (de Broglie) 提出实物粒子也具有波动性,其动量 和波长 之间的关系为
对于一个质量为 的实物粒子,我们总可以定义一个特征波长,被称为粒子的**康普顿波长 **(Compton wavelength)
康普顿波长的含义是:
如果我们将一个粒子的位置确定到它的康普顿波长以内,那么具有的能量涨落将大到足以再产生一个这样的粒子。
这是因为根据海森堡的不确定性关系,我们没法同时确定一个粒子的位置和动量 (能量),它的位置确定得越精确,其动量 (能量) 的不确定度就越大,它们不确定度的乘积大概是 的量级。
如果我们将一个粒子的位置准确到其康普顿波长以内,那么由此带来的能量不确定度将大于这个粒子的静止能量 ,这么大的能量足以从真空中再产生一个这样的粒子。
从康普顿波长的定义我们容易发现
普朗克尺度正是一个具有普朗克质量的粒子所具有的康普顿波长
或者从不确定关系的角度出发
当我们把时间确定到普朗克时间以内,其能量具有的不确定度将达到普朗克能标
出于和把光速设为 1 一样的原因,在自然单位制下我们也把约化普朗克常数设为1,这样普朗克能标 (质量) 和普朗克时间 (尺度)之间就成了简单的倒数关系
2.3 牛顿引力常数
在经典物理时代,人们最引以为豪的成就就是能用同一个公式来计算天地万物之间的引力。
对于两个质量分别为 和 ,相距为 的质点,它们之间的引力由牛顿万有引力公式描述
其中的负号代表了吸引力, 是一个和物体性质无关的常数,被称为牛顿引力常数,它描述了物体间万有引力的强弱。
牛顿的引力理论在遇到强引力场时会失效,它被爱因斯坦的广义相对论所替代,在广义相对论中,引力被描述为时空的弯曲。
和牛顿时空观不同的是,广义相对论中的时空不再是物质演化的背景舞台,而是会影响物质的分布,反过来物质的分布也会影响时空的几何。
物质和时空交织耦合在了一起,“物质告诉时空如何弯曲,时空告诉物质如何运动”,物质和时空之间的这种 “爱恨情仇” 在定量上由爱因斯坦场方程描述
其中方程左边的 是爱因斯坦张量,它刻画了时空的几何性质,而方程右边的 是能动张量,它对应了物质的分布。
我们可以看到,在广义相对论中又一次出现了牛顿引力常数的身影,它现在刻画了物质和时空之间耦合的强度。
牛顿引力常数的再次出现是很自然的结果,因为在弱引力极限下,广义相对论必须要退化为牛顿的引力理论。所以有引力出现的地方,就必然有 。
我们在后面可以看到,这个描述引力的常数,究竟是如何同我们宇宙中的“极限”量——普朗克量联系起来的。
2.4 WHY?
上面我们通过分析组成普朗克量的三个基本常数,讨论了不同普朗克量之间的关系,我们发现它们其实都是互相等价的,知道了其中一个,也就知道了其他几个。
特别地,在自然单位制下,它们之间就是简单的相等或者倒数关系。
那么接下来,我们要问一个基本的问题:
Why?
为何通过 , 和 的幂次组合就能得到我们宇宙中的“极限”数值呢?
一种常见的 argument 是光速 ,约化普朗克常数 和牛顿引力常数 都是很基本的物理学常数,它们分别描述了相对论、量子力学和引力的基本性质,而这三个基本常数通过量纲分析能组合出的唯一具有正确量纲的量就是上面列出的这些普朗克量。
这样的解释充其量只能说明普朗克量也应该是很基本的物理量,并且很有可能同时蕴含了量子理论和引力的信息,但并没有回答问题的本质
它们为何是我们宇宙中的“极限"量?
在接下来的两节中,我们将分别从引力和量子场论的角度,来考察普朗克量的“极限”之处。
3. 黑洞:对不起我不能再轻了
广义相对论最大的成就之一就是预言了黑洞 —— 一种引力极大、极其致密以至于连光都没法逃脱其束缚的奇特天体的存在。
在爱因斯坦1915年发表他的广义相对论后的短短一年,就由德国物理学家史瓦西 (Schwarzschild) 解出了场方程的第一个解析解——史瓦西解。
这个解预言了球对称、不带电、不自转的黑洞的存在,这类最简单的黑洞被称为史瓦西黑洞。
对于一个质量为 的史瓦西黑洞,它的 “半径” (视界) 由下式给出
这被称为史瓦西半径,它恰巧就等于当年拉普拉斯所预言的“暗星” 的半径。将一个物体保持质量不变并压缩到它的史瓦西半径以下,那它就成了一个黑洞。
我们现在考察一个质量为 的史瓦西黑洞,并令它的半径等于它的康普顿波长
我们发现其对应的质量正好就是普朗克质量!
这意味着
普朗克质量是最小的能稳定存在的黑洞的质量
因为如果黑洞的质量小于普朗克质量,其对应的史瓦西半径将小于它的康普顿波长,按照上面一节的论述,这将产生足够大的能量涨落来从真空中生成另一个黑洞,从而这个黑洞不能稳定存在。
4. 有效理论——基本物理理论的失效
我们知道以量子场论为框架的标准模型相当成功地描述了电磁力、弱力和强力,并且标准模型被证明是可以重整化的。
但是引力并没有被包括进来,一个很重要的原因就是引力没法重整化,根源在于引力的耦合常数,即牛顿引力常数 的量纲是能量量纲的 次,而一个理论的耦合常数如果是负的,那么这个理论就不可重整。
不可重整的含义是没办法引入有限多的抵消项来消除圈图计算中的所有无穷大。
一个不可重整的理论称为有效理论,意思是这个理论只在某个特定的能标以下有用,一旦超过这个能标,这个理论就失效了。
这种能标的截断称为 cut off,cut off 的具体位置就由这个有效理论决定,其实就是由它的耦合常数决定。
例如早期的弱相互作用理论中的四费米子相互作用,其耦合常数:费米常数 的量纲也是 ,所以四费米子相互作用也是一个有效理论,一旦能标达到 的时候,四费米子相互作用就失效了,必须要被更加完整的理论替代,后来我们知道这就是电弱统一理论。
回到引力的问题来,在尝试把经典引力进行重整化的时候,因为引力的耦合常数 的量纲是 ,不可避免也要进行能标截断,截断的具体位置正是由牛顿引力常数决定 。
在自然单位制下,代入牛顿引力常数的值,你会发现这其实就是普朗克能标
==所以,普朗克能标的真正含义是:经典引力理论失效的地方。==
而我们目前并没有一个成功的量子引力理论,所以对于普朗克能标以上的物理,我们没有任何理论可以进行描述。所以
==普朗克能标也是我们目前的所有物理理论能描述的最高的能标。==
有了普朗克能标的值,通过简单的换算就可以得到普朗克时间的值 。
在宇宙大爆炸发生后的普朗克时间内,即 秒内,根据不确定关系,宇宙的温度要高于普朗克能标。上面已经分析过,在这个阶段我们没有任何有效的物理理论去描述它,所有现有的物理规律全部失效,所以在这个意义上,普朗克时间才被称为是我们宇宙中最小的时间尺度。
5. 总结
本文的主要目的是想纠正很多人关于“普朗克时间和普朗克尺度是我们宇宙中的最小时空单元"的误解,以及由此产生的“我们的世界是离散化”的谬论。
量子化绝不是时空的离散化
主流的物理理论仍然坚持认为我们的时空是连续分布的,离散化的时空会破坏最基本洛伦兹对称性。
最后,重要的事情只说一遍
普朗克能标并不意味着宇宙中的最高能标,它只是我们目前已知的物理理论所能描述的最高能标;普朗克尺度也不是宇宙中的最小尺度,它只是我们目前已知的物理理论所能描述的最小尺度。
附注:
[1] 是微观世界中常用的能量标度,它等于十亿电子伏特。1电子伏特定义为一个电子通过1伏特的电场所获得的能量,它等于 焦耳。对于微观世界,焦耳是一个过大的能量标度,所以我们更多采用电子伏特。(打个比方:我们用光年衡量星系之间的距离,用公里衡量地球上两地之间的距离,用米衡量一个房间里两个人之间的距离,用是否点击关注衡量我和你之间的距离。)
[2] 原文为 “Matter tells spacetime how to curve, spacetime tells matter how to move”,by John Wheeler。
[3] 严格来说会差一个因子,但这是无关紧要的。
[4] 重整化是一种消除无穷大的技术。因为物理可观测量一定是有限大的,物理学家无法容忍一个“无穷大”的可观测量,但是量子场论的计算中会出现大量的无穷大,所以他们需要一个系统的方案来从这些无穷大中提取出和实验观测相符的有限量。可以重整化是一个理论“完备性”的基本要求。
[5] 回忆一下,在自然单位制中,所有物理量的量纲都可以转化为能量量纲的幂次——也许你现在能体会到自然单位制的优越性了。
[6] 有效理论的广泛性甚至远远超出量子场论和重整化的范畴,它的存在体现了物理规律随着能量标度分层表现的特点,即处于不同能标处的物理系统有其自身的规律,它们独立演化、互不干扰。固然,从原则上讲低能标处的物理规律可以由高能标处更基本的规律所决定,但当我们不知道高能标处规律的时候一样也可以通过有效理论来描述低能标时候的物理规律并和实验符合得很好。正如在发射火箭时只需要牛顿力学而不用考虑广义相对论,在煮咖啡时只需要热力学而不用考虑组成咖啡分子的夸克之间的量子色动力学一样,很多时候我们只需要考虑有效理论就足够了——它不完备,但是很有效。
[7] 凡事都有例外,作为量子引力的一个热门候选者,圈量子引力理论在一开始就放弃了空间连续性和平滑性的假定,通过保守性地整合量子理论和广义相对论,它能够建立了一套自洽的理论——当然,那是另外一个故事了。在圈量子引力理论中,时空确实是离散化的,时空的最小基本单元大概就是普朗克时间和普朗克尺度。抛弃时空连续性的圈量子引力看起来像是一个怪胎,但,也许它是对的呢?
统计物理的基本思想
统计物理的基本思想
作者 | yubr
1 基本概念和基本思想
统计物理的研究对象是大量微观粒子(mol级别,也就是 数量级)组成的宏观系统。统计物理的基本目标是从系统的微观性质出发,推导出系统的宏观性质。为此,我们先澄清几个概念。
我们假设一堆的气体分子( 数量级)组成了一个系统。这个系统可以有自己的体积,压强,温度,内能等参数,这些参数称为系统的宏观量。另一方面,这 量级的分子每一个都可以有自己的位置矢量、速度矢量、动量、能量等参数,这些参数称为系统的微观量。
系统的微观量每时每刻都在不断变化,而系统的宏观量可以不随时间变化。我们把宏观量不随时间变化的系统称为处于平衡态的系统。
为了描述这个系统的状态,我们有两种方法。
第一种方法是用系统的一组宏观量来描述系统的状态:
系统的状态 =
上式表明,当系统的压强、体积、温度、内能等宏观量分别取一组特定值的时候,我们得到了系统的一个状态,这种用一组宏观量来标记的状态称为系统的宏观态。
第二种方法是用系统中每个粒子的微观量来描述系统的状态:
系统的状态 =
上式表明,当每一个粒子的速度和动量分别取一组特定值的时候,我们得到了系统的一个状态,这种用每一个粒子的微观量来标记的状态称为系统的微观态 。
从原则上讲,我们可以对每一个粒子做动力学分析,(对经典系统,每一个粒子都服从牛顿运动定律,对量子体系,每一个粒子都服从薛定谔方程,它们都是决定论性的动力学方程,只要初始条件和边界条件给定,系统以后的演化就可以唯一确定),联立 个微分方程,然后精确地确定任意时刻每个粒子的运动状态,这样我们也就确定了任意时刻系统的微观态。
当然,很遗憾,这种方法完全不具有可操作性,根本原因还是因为宏观系统包含的粒子数实在太多了,宇宙中没有(现在没有,以后也很可能不会有)任何一台超级计算机能在有限时间内联立求解 个方程 ,所以我们根本不可能通过求解出每一个粒子的微观量然后外推出系统的微观态。
暴力求解的方法不切实际,那么是不是就意味着我们就没法描述一个宏观系统的状态了呢?当然不是!这就是统计物理大显身手的时候了,我们必须注意到以下重要的事实:(1)实验上可以测量的只有系统的宏观态(系统的微观态不可测量),而确定系统的宏观态只需要几个有限的宏观量就行了;(2)一个宏观态可以对应大量不同的微观态,而且不同的宏观态对应的微观态的数目并不相同 。
接下来,我们来引入统计物理中最重要的假设(也是唯一需要的假设):等概率假设
等概率假设:对一个处于平衡态的孤立系统,系统的每个微观态都有相同的可能性达到。
这是一个非常朴素和自然的假定,根据这个假定,再加上上面的分析,我们可以很自然地得到下面的推论:系统最有可能取到的宏观态是那个对应了最多微观态数的宏观态。
既然我们可以测量的只有系统的宏观态,而确定一个宏观态只需要几个有限的宏观量,那么为了描述一个宏观系统,我们只需要得到所有的宏观量的值就行了。对此,热力学采用了直接用实验测量来确定宏观量的方法,这是一种自下而上(bottom-up)的唯象方法;而统计物理则采用了从微观态出发,然后理论推导出宏观量的方法,这是一种自上而下(top-down)的理论方法。我们这里只讨论后者。
必须要注意的一点是,(可测量的)宏观量其实是(不可测量的)微观量统计平均后的结果。例如我们考虑一个装满气体分子的宏观容器的压强,我们测量到的压强并不是某一时刻某个分子撞击器壁的力,而是一段时间内大量分子撞击器壁后的平均效果。更一般地,设 是一个任意的物理量,则有
其中:
是一个相对宏观系统极小的时间尺度; 表示时刻系统的物理量 的值,这是一个微观量,并且每时每刻都在随着时间剧烈涨落,因而不可测量; 表示时刻我们测量到的系统的物理量 的值,这是一个宏观量,它其实是 这段时间内微观量 的统计平均,对于平衡态系统,它是个不随时间变化的量,可以测量。
但是,用上面这种“时间平均”的方法来计算宏观量其实并不可行,因为虽然 是一个相对宏观系统极小的时间尺度,但它相对微观世界极大。例如,我们还是考虑一个装满气体的宏观容器,在室温下,每秒内气体分子撞壁 次,每撞击一次,系统的微观状态就改变一次, 的值也可能改变一次。测量一秒内 个 的值然后取平均,这显然是不现实的。
为此,我们引入系综的概念。将系统复制 份, 是一个非常大的数字,并且保证这 个复制品的宏观态相同(即系统所有的宏观量都相同),但是微观态可以不同,这样的 个系统组成的集合就称为系综。引入系综的好处是可以把上面实际上不可操作的“时间平均”等价转化为下面可操作的“系综平均“:
时间平均的右边各项分别为不同时刻系统的微观量;系综平均的右边各项则为同一时刻系综中不同系统的微观量。各态历经假说 保证了时间平均和系综平均是等价的,这也是系综理论成立的基础。
设 时刻系统位于微观态 的概率为 (此时系统的物理量 取到的对应微观量记作 ),则上面的系综平均可以改写为
从下面开始我们将忽略尖括号右下角的“系综“两字,不加特殊说明,统计平均都默认是系综平均。
所以我们可以看到,整个统计物理的核心就是求解系统落在每个微观态i上的概率 。因为一旦有了,要求出任何物理量的宏观量(即我们实验测量到的量),我们只需要代入对应的微观量的值,然后按照上式做加权平均即可。求出了所有的宏观量,那么系统的宏观态也就完全确定了。这样我们就从系统的微观性质出发,推导出了系统的宏观性质,而这,正是统计物理的基本目标。
如果一个系统满足: ,则称系统处于平衡态,对应的统计称为平衡态统计; 如果一个系统满足:,则称系统处于非平衡态,对应的统计称为非平衡态统计;
我们下面只关注平衡态统计。
2. 经典统计
在统计物理中,我们常用的系综有三类:微正则系综,正则系综和巨正则系综,下面分别加以介绍 。
2.1 微正则系综()
微正则系综是最简单的系综,它所包含的系统是孤立系统,且具有确定的粒子数 ,体积 ,能量 。设系统所有可能的微观态数为 ,则由等概率假设,系统取到每个微观态的概率为
因为系统的每个微观态都有确定的能量,即
所以系统的内能,即平均能量(宏观量)为
2.2 正则系综()
正则系综包含的系统具有确定的粒子数 ,体积 ,温度 ,但是系统的能量 可以变化,我们的目标是求出正则系综中的系统取到某个具有特定能量的微观态的概率。
首先,为了保证系统具有确定的温度,我们可以把系统和一个大热源耦合,大热源的热容假设为无穷大,以至于其温度在热量交换下不变,所以当系统和大热源达到平衡态后,系统将具有和大热源相同的确定的温度,但因为系统存在涨落,所以系统的能量(微观量)并不确定,但是系统的平均能量(也即系统的内能,是宏观量)是确定的。
我们注意到系统和大热源整体构成一个孤立体系,它是微正则系综的元素,具有确定的能量 。设当系统能量为 时(此时大热源具有的能量为 ),系统具有的微观态数为 ,大热源具有的微观态数为 ,则系统和大热源组成的整体具有的总的微观态数为
显然这个数只和总能量 有关,并不依赖于 。因为这个系统和大热源的整体是一个孤立体系,所以我们可以使用等概率假设,这个整体取到每个微观态的概率 都相同
把此时系统所处的微观态标记为 (注意此时系统的能量为 ,大热源能量为 ),则此时系统和大热源整体可能取到的微观态数目为
所以系统取到微观态的概率为
因为热源很大,所以有 ,将上式两边取对数并且对 做小量展开,保留到一阶项,我们得到
联立热力学第一定律
和熵的统计定义
我们得到
所以
因为概率要归一化,所以我们最后得到正则系综中的系统处在微观态(对应能量为)的概率为
其中
称为系统的配分函数。上面的求和要包括系统所有的微观态。
有了系统处于任何微观态的概率,我们就可以利用配分函数计算出系统所有的宏观量的表达式,例如
内能
熵
亥姆霍兹自由能
系统的其他宏观量都可以由内能和亥姆霍兹自由能得到,例如压强 , 熵 ,热容 ,等等。
2.3 巨正则系综()
巨正则系综包含的系统具有确定的化学势 ,体积 ,温度 ,但是系统的粒子数 和能量 可以变化,我们的目标是求出巨正则系综中的系统取到某个具有特定粒子数和特定能量的微观态的概率 。
为了保证系统具有确定的化学势和温度,我们将系统和一个大粒子源与大热源耦合。利用和之前正则系综完全相同的分析方法,可以推出巨正则系综中系统处在微观态 (对应能量 ,粒子数 )的概率为
其中 和正则系综中的温度定义一致,
称为系统的化学势,
称为系统的巨配分函数。
利用巨配分函数我们可以计算系统的任何宏观量,例如
粒子数
内能
熵
亥姆霍兹自由能
系统的其他宏观量都可以由粒子数、内能、亥姆霍兹自由能导出。
3. 量子统计
对于量子系统,我们不仅要作统计平均,还要作量子平均。具体来说,对任一物理量,
插入完备性关系,我们有
定义密度矩阵算符
从而
所以,量子统计的核心就是求出系统的密度矩阵 ,有了它,我们就能计算任何物理量的量子平均。
如果一个系统满足 , ,则称系统处于纯态,此时密度矩阵 ;否则,称系统处于混合态。
从密度矩阵的定义出发,很容易证明如下的性质:
,等号当且仅当系统处于纯态时取到 的演化满足 von Neumann方程: ,其中为系统的哈密顿量
下面我们来推导在量子统计的框架下,正则系综和巨正则系综里物理量平均值(即可观测的宏观量)的表达式。
正则系综
概率
配分函数
密度矩阵
物理量的平均值:
巨正则系综
概率
巨配分函数
密度矩阵
物理量的平均值
附注
[1] 我们举一个形象的例子进行类比。考虑一个储蓄罐里放了100枚全同的硬币,盖上盖子用力摇晃均匀后打开,里面有的硬币正面朝上,有的硬币反面朝上。
所有硬币的状态的一种组合,例如“1号硬币正面朝上, 2号硬币反面朝上,..., 100号硬币反面朝上”,就是系统的一个微观态。显然,如果硬币全同,那么每个硬币都可以等可能地正面或反面朝上,所以每个微观态出现的概率都相同,等于 。
另一方面,你可以整体上数一数有多少枚硬币正面朝上,多少枚反面朝上,例如一种状态是 “43枚硬币正面朝上,57枚硬币反面朝上”,这就构成系统的一个宏观态。
[2] 为了有一个直观的感受,我们考虑1kg的氮气,这里面大概有个氮气分子。假如我们使用一台主频为3GHz的个人电脑进行计数,设一个周期可以数一个分子,那么这台电脑一秒可以数个分子,一年可以数个分子,数完1kg氮气中的全部分子需要整整2亿年!请注意,我们这里仅仅只是计数,如果要联立求解同样数目的微分方程组,那么还要花费多得多得多的时间。所以,可能直到宇宙毁灭的那天,你都没办法精确计算出1kg氮气中所有分子的运动状态。
[3] 还是考虑上面那个摇硬币的例子,我们可以看到不同的宏观态对应不同数目的微观态。例如:
"50枚硬币正面朝上,50枚硬币反面朝上"对应的微观态数为
"53枚硬币正面朝上,47枚硬币反面朝上"对应的微观态数为
"100枚硬币全部正面朝上"对应的微观态数为
如果每个微观态出现的概率都相等,那显然"50枚硬币正面朝上,50枚硬币反面朝上"这个宏观态出现的可能性最大,而"100枚硬币全部正面朝上"这个宏观态几乎不可能出现。
[4] 这种时间平均和系综平均的等价性由所谓的各态历经假说 (ergodic hypothesis) 来进行保证,该假说陈述如下:一个孤立系统,从任一微观态出发,经过足够长时间后,系统将遍历所有可能的微观态。这意味着,在时间 内( 相对微观系统来说是一个足够大的时间尺度),系统能遍历所有可能的微观态;另一方面,只要系综中系统的个数 取得足够大,也能遍历所有可能的微观态,所以对时间作平均可以等价转化为对系综作平均。
[5] 对于宏观系统(粒子数 ),用不同系综处理得到的结果是一样的,因为不同系综处理结果的差别在 量级,当 时,,所以对宏观系统,可以根据问题的方便选择合适的系综进行处理。但是对于微观系统(粒子数 几十), 相比 不可以忽略,所以不同系综处理的结果并不等价(例如涨落问题)。
[6] 注意,为微观量,即使当系统和热源达到平衡态后仍可以因为涨落而变化;而平均能量即内能是宏观量,当系统和热源达到平衡态后就确定不变了,也就是说总的宏观能量在系统和热源之间的分割在系统和热源达到平衡态时是确定的,这种分割方式将使得系统和热源整体具有最大的微观状态数,这也等价于热平衡时的两系统具有相同的温度。
[7] von Neumann方程在经典统计中的类比是Liouville方程: ,这里 为相空间的代表点密度(代表点密度和系统处于某个微观态的概率 是一回事),花括号代表Poisson括号。
[8] 下面第三个等号用了如下事实:任何厄密矩阵都可以按照其本征值和本征态分解,即
,其中 和 分别为厄密矩阵 的本征值和本征态。
熵是什么
熵是什么
作者 | yubr
本文想要用尽量通俗的语言介绍熵到底是什么。为了更加全面,我们将分别从熵的热力学定义,熵的统计力学定义(玻尔兹曼熵,吉布斯熵)和熵的信息学定义(香农熵,冯·诺依曼熵)来介绍,并揭示这些定义的相互联系。
1. 熵的热力学定义
利用卡诺热机和卡诺循环,我们可以证明如下的克劳修斯不等式,即对任一闭循环,我们有
等号当且仅当该过程是可逆过程时候成立。所以,对可逆过程
这告诉我们 的积分和路径无关,所以它是恰当微分,它的积分是一个态函数(所谓态函数,就是那些值只和状态有关而和怎么达到这个状态的路径无关的函数),我们把这个态函数就定义为熵
这就是熵的热力学定义。
联立克劳修斯不等式和熵的定义式,我们可以得到
等号当且仅当可逆过程可以取到。对于绝热系统, dQ=0 ,所以我们有
这正是热力学第二定律的一种等价表述,它告诉我们:对于绝热系统,熵永不减少。如果过程可逆,那么熵不变,如果过程不可逆,那么熵增加。
利用熵的定义,我们可以把热力学第一定律 改写为
2. 熵的统计力学定义
为了得到从熵的热力学定义得到熵的统计力学定义,我们先来考察温度的统计定义。
我们考虑两个相互之间可以传递热量的系统,但是它们整体和环境绝热。设两个系统的内能(即平均能量,是宏观量)分别为 和 ,随着两个系统之间的热量交换, 和 都会改变,但总能量 是一个常数,因为两个系统整体和环境绝热。设两个系统此时的微观状态数分别为 和 ,则此时整体的微观状态数为 。
这两个系统不停地发生能量交换,经过足够长的时间后,它们将达到热平衡,之后和将固定不变(再次强调,和 都是宏观量,是系统的平均能量,它们在系统达到平衡态后是不变的,但是因为涨落的存在,系统的瞬时能量(微观量)在达到平衡态后也可以不停地变化。关于宏观量和微观量的详细介绍,可以参看这篇文章:统计物理的基本思想。)
一个自然的问题是:当两个系统达到热平衡以后, 和 分别应该取什么值呢?或者说,平衡状态下,总能量 是怎么样在两个系统中进行分割的呢?
为此,我们先作出以下几个很合理的假设:
等概率假设:孤立系统所有可能的微观态有相同出现的可能性; 系统内部的动力学使得系统的微观态是连续变化的; 各态历经假设:经过足够长的时间,系统会遍历所有可能的微观态且经历每个态的时间相同。
根据这几个假设,我们得出以下结论:系统最有可能处于那个包含最多微观态数目的宏观态。对于一个大系统而言,“最有可能”将成为“压倒性的可能”。
所以,平衡态下总能量 在两个系统中的分割应该使得总微观态数 最大。
为了确定 ,我们只需要求解下式
用链式法则展开
因为 是常数,所以 ,所以
即
也就是说,上面这个等式对应了热平衡下两个系统的使得总微观态数目最大的那种能量分割方式,也就是热平衡下两个系统需要满足的条件。
根据热力学第零定律,处于热平衡的两个系统具有相同的温度,这和上面的等式是一致的,所以我们定义温度 为
上述定义温度的方式就是温度的统计定义,其中 是玻尔兹曼常数。这种定义方式和热力学中的绝对温度的定义是一致的。
有了温度的统计定义,将其与热力学第一定律
联立,我们就得到了熵的统计力学定义
这样,我们就从熵的热力学定义和温度的统计定义出发,推出了熵的统计力学定义。上式定义的熵称为玻尔兹曼熵(它刻在了玻尔兹曼的墓碑上),它告诉我们:一个系统的玻尔兹曼熵正比于这个系统的微观状态数的对数。所以玻尔兹曼熵是系统混乱度的衡量,系统的微观状态数越多,系统的玻尔兹曼熵就越大。
为了与信息学相联系,我们下面来推导熵的另一种统计力学定义。
假设一个系统含有 个等概率的微观态,则系统的总熵为 。但是,这 个微观态并不都是可以通过实验测量进行区分的,也就是说,它们对应的总熵并不全部可以测量。我们假设这些微观态被分成了几组,其中第 组包含了 个微观态,当然有 。
这些组是可以通过实验测量区分的,因为它们可能对应某一个宏观可测的性质,但是每个组内部的那些微观态是不可区分的。现在我们想知道对应可测量部分的熵的大小是多少?
因为第 个组包含了 个微观态,所以系统位于第 个组中的概率 ,第 个组中的熵为 ,因为每个组内部的微观态不可区分,所以 不可测量。
因为微观状态数具有可乘性,所以熵具有可加性(熵是微观状态数的对数),所以可测量部分的熵等于总熵减去不可测量部分的熵,不可测量部分的熵可以写为
所以可测量部分的熵等于
因为 ,所以最后我们得到可测量部分的熵的表达式为
上述熵的定义称为吉布斯熵,吉布斯熵的形式可以很容易和信息论联系起来,这点在下一节中将会看到。
3. 熵的信息学定义
这一节我们将尝试将信息量与前面介绍的熵联系起来,并给出熵的信息学定义。首先,我们考虑以下三句话:
牛顿的生日处在一年之中的特定一天; 牛顿的生日处在下半年; 牛顿的生日是某月的25日。
假如我们事先对牛顿的生日一无所知(事实上,牛顿出生于公元1643年元月4日),我们来看看这三句话提供的信息量和这三句话正确的概率之间的关系。第一句话正确的概率是百分之百,但这是一句废话,不能提供任何信息量,因为所有人的生日都是一年之中的特定一天;第二句话正确的概率是1/2,它能提供一定的信息量;第三句话正确的概率只有12/365,但是它能提供最大的信息量。所以我们看到,在缺乏任何先验信息的条件下,一句话正确的概率越大,则它提供的信息量越小。
在知道表述的信息量和表述正确的概率是反相关后,接下来我们来建立它们之间的定量关系。一个自然的假设是两个独立表述的信息量具有可加性,例如上面第二句话和上面第三句话提供的总信息量是它们各自提供的信息量之和;另一方面,两个独立表述正确的概率具有可乘性,例如上面第二句话和第三句话同时正确的概率为 ,是它们各自正确概率的乘积。信息量和概率的这种性质促使我们把信息量定义为概率的对数。
假设一个表述正确的概率是P,则这个表述包含的信息量Q定义为
这里 是一个正的常数,这保证了当正确概率上升时,信息量会下降。
上述这种信息量的定义是由香农 (Shannon) 给出的。如果我们取 ,并且选取自然常数为底 ,则这种定义将和热力学与统计物理中的结论一致;如果我们取 ,并且选取2为底 ,则此时信息量 的单位将用比特 (bit) 来量度。
假设我们有一组的表述,正确的概率分别为 ,信息量分别为 ,则我们把信息熵定义为平均信息量:
这种熵的定义称为香农熵。
我们来举一个简单的例子。设一个非均匀的骰子可以掷出6种结果,它们的概率分别为:1/10,1/10,1/10,1/10,1/10,1/2,则与每个结果相联系的信息量分别为 (取 ,并取2为底,则它们分别为3.32比特,3.32比特,3.32比特,3.32比特,3.32比特,1比特),香农熵为
取 ,并取2为底,则香农熵=2.16比特。
从形式上来看,香农熵(信息熵)和吉布斯熵(热力学熵)完全一样。并且,两种熵都衡量了系统的不确定度。一个系统的微观状态数越多,则混乱度越大,不确定度越大,系统的热力学熵就越大;类似的,一个表述正确的概率越低,它的不确定度就越大,从而它的信息量就越大,而香农熵对平均信息量进行了量化。所以,我们得出结论:热力学熵和信息熵本质上是一回事,它们都是对系统不确定度(混乱度)的衡量。这种热力学熵和信息熵的等价性,使得我们可以从信息论的观点着手理解热力学;同时,也意味着我们可以用热力学和统计力学中发展出来的工具去研究信息论。
最后,我们简单地介绍一下量子系统中的信息熵。上面的香农熵只适用于经典系统,对于量子系统,我们要如何定义信息熵呢?我们知道,经典统计中的核心问题是求系统处于某个微观态的概率,而量子统计中的核心问题则是求系统的密度矩阵,关于密度矩阵的详细讨论,可以参看:统计物理的基本思想。
设量子系统的密度矩阵为 ,则量子系统的信息量定义为
信息熵仍然定义为平均信息量
其中 为密度矩阵 的本征值。量子系统中熵的上述定义称为冯·诺依曼熵。
4. 总结
我们上面一共介绍了熵的五种等价定义:熵的热力学定义、玻尔兹曼熵、吉布斯熵、香农熵、冯·诺依曼熵,其中前三个定义属于热力学和统计物理的范畴,而后两个定义属于信息论的范畴。
但是我们上面证明了,热力学熵和信息熵本质上是一回事,它们都是对系统不确定度(混乱度)的衡量。这给我们展示了一个惊人的结果:本来看似毫不相干的热物理和信息论这两门学科,其实是可以通过熵来紧密相连的。
完美展示热物理和信息论联系的一个例子就是著名的麦克斯韦妖:擦除硬盘中信息的过程必然伴随着环境中热量的增加和环境中熵的增加。麦克斯韦妖的“微操”虽然可能使得系统的熵短时间内减少,但是当麦克斯韦妖的记忆容量被塞满时,它必须通过擦除记忆中的信息来重新储存新的信息,这种擦除信息的行为增加了环境的熵,这增量抵消了之前的微操所减少的系统的熵。所以整个宇宙的熵是不会减少的,热力学第二定律仍然成立。
伽利略逝世的那年牛顿诞生,真的是这样吗?
/ 伽利略逝世的那年牛顿诞生,真的是这样吗? /
今天课代表就来和你捞一捞这老生不常谈的问题,以及这背后的原因。
2018 年霍金刚刚离世,吃瓜群众们就给安排上了——霍金 PK 杨振宁
且不说霍金和杨老谁更厉害,霍金的支持者指出霍金的生日是伽利略的祭日(1.18),霍金的祭日是爱因斯坦的生日(3.14),因此霍金是两位大佬的转世,当然更厉害一些。
哦,我的上帝!你们这帮可怜的家伙!你们这个理由简直糟糕透了,就像隔壁露西小姐做的香蕉派一样!
我们毫不怀疑从伽利略到牛顿的传承,牛顿持有的就是伽利略变换代表的绝对时空观,牛顿力学和伽利略的相对性原理配合的也是天衣无缝,似乎冥冥中俩人之间有着传承关系。
在这里我无意去抨击各种封建迷信的说法,我只是就伽利略死的那年牛顿出生了这件事情展开讨论。真的是这样吗?
先说结论:不是!
如果你上网查牛顿的生日,大概率你会查到两个版本,1642 年 12 月 25 日和 1643 年 1 月 4 日。然后你再去查伽利略逝世是在 1642 年,于是乎按照第一个版本的牛顿生日,就有了两位大佬同年交接的说法,而且圣诞节的特殊日子也给这种说法平添了些许神秘感。
这有啥好奇怪的,连我没怎么念过书的奶奶都知道,人就是有俩生日啊,一个阳历一个农历。不光有俩生日,还有俩岁数呢,一个周岁一个虚岁。
CASE CLOSED!
牛爵爷诞于 1643 年 1 月 4 日,农历任午(1642)年腊月二十五,属马,小生日。
你可能会觉得好笑,人家外国人又不过农历。没错,但仔细一想,两个生日确实可能是由两种不同的历法造成的,只是和我们的农历没啥关系。
所以回到刚才的问题,牛顿的两个生日分别来自两种不同的历法 —— 儒略历(Julian) & 格里高利历(Gregorian)。按照儒略历,牛顿生于 1642 年 12 月 25 日,而按照格里高利历(即我们今天所使用的公历),牛顿则生于 1643 年 1 月 4 日。
CASE CLOSED AGAIN!
刚才我们所说的伽利略卒于 1642 年用的是格里高利历,换算成儒略历是 1641 年。
所以无论按照哪种历法,说伽利略去世和牛顿出生在同一年发生的说法是错误的。而且,准确的说牛顿在伽利略死后几乎一年(361 天)后才出生的。
切勿将将两个黄格子拿来比较
很多牛顿粉丝会在圣诞节当天在社交媒体上发文为牛爷庆生,比如美国天体物理学家 Neil Tyson 就在 2014 年圣诞节发推给牛爷庆生
评论区有另一种声音:若不加声明,则我们默认的语境是格里高利历,你应该 1 月 4 日发推才对。
真的是这样吗?这背后有没有更深层次的原因呢?
我们随便 google 一下,就会发现两种声音都有
究竟我们该在哪天给爵爷祝寿呢?
还有一个很难被意识到的问题,为什么我们在查牛顿生日的时候会有俩,而查伽利略祭日的时候就只有一个?
要回答上述问题,就需要我们将时间拨回到很久之前,来深入了解一下这该死的混乱历法。
1 计时
要搞清楚历法,先得从计时开始。时间的流逝一直是人类所关注的问题,比如啥时候吃饭啥时候睡眠,比如季节对迁徙和农业的重要性,因此人们很早就知道了计时的重要性和必要性。
古代人们最直观的感受就是气候变化和昼夜交替,人们发现这两种现象貌似和天空中最显眼的两个天体——太阳和月亮——的运行规律有关系。
人们观察到了三个自然周期:
https://knb.im/mp" style="margin-top: 0px; margin-left: 0px; padding-left: 2.2em; outline: 0px; max-width: 100%; font-size: 15px; letter-spacing: 0.544px; text-align: justify; background-color: rgb(255, 255, 255); width: 515.844px; color: rgb(77, 124, 207); line-height: 25.6px; font-family: PingfangSC-LIGHT, sans-serif; overflow-wrap: break-word !important;">https://knb.im/mp" style="margin: 5px; outline: 0px; max-width: 100%; clear: both; min-height: 1em; white-space: pre-wrap; overflow-wrap: break-word !important;">1、太阳带来的四季变换
https://knb.im/mp" style="margin: 5px; outline: 0px; max-width: 100%; clear: both; min-height: 1em; white-space: pre-wrap; overflow-wrap: break-word !important;">2、太阳东升西落带来的昼夜交替
https://knb.im/mp" style="margin: 5px; outline: 0px; max-width: 100%; clear: both; min-height: 1em; white-space: pre-wrap; overflow-wrap: break-word !important;">3、月亮的阴晴圆缺
这正是老天爷赏的计时方法啊!
人们发现每隔一段时间,月亮进行一次周期往复(历经一个完整月相),这段时间就记为一个月(Month 显然来自于 Moon),目睹了新月的出现就开始一个新的月,这一天在我国叫做初一。
人们发现太阳东升西落很有规律,昼夜交替的周期貌似也可以用来计时,于是人们把太阳相邻两次燃烧的这段时间(日出到日出)叫做一天(day 一词来源于原始印欧语的燃烧一词),也有一些文明将日落到日落这段时间叫做一天。
然后人们慢慢发现这样一天的长度会变来变去的,因为每天日出和日落的时间会变的。冬天白天短,夏天白天长;而且我们现在还知道,日出和日落时间还取决于纬度,不同纬度地区的人感受到的一天的长短是不一样的。
而日出日落的中点也就是正午则比较有规律,相邻的间隔很稳定。而正午又有个特点就是太阳的位置最高,借助日晷这种神奇的道具,人们可以很方便的判断太阳的位置变化,很轻易就可以知道什么时候太阳最高(影子最短)。虽然每天正午是影子长短也是不一样的,但是在一个昼夜范围内,总会有一个影子最短的时刻。
于是人们改良了天的计算方式,把太阳位置最高到最高这段时间当做一天,这也就是我们现在所说的太阳日(solar day),这就很巴适了。
人们还发现了季节和气候的交替,而且这个规律和太阳在天空中运行规律可以拟合,太阳在天空中运行回到同一个位置的这段时间差不多就经历一个春夏秋冬,体现在日晷上就是正午时长度变化的一个周期。
于是人们把这段时间叫做一年(year 一词来自于古语表示季节的词汇),我们现在把这叫做一个回归年(tropical year),大概是 265.24xxx 天。
据记载,早在古埃及已经有了年的概念,而且古埃及人已经搞清楚了一年有大概 365 天,这很了不起。
细心的朋友会发现,计时单位除了年月日,还有一个很重要的,就是周,周的概念确实很重要,后文会看到这一点。
古巴比伦的苏美尔人开始有了“7天为一周”的雏形,源于他们发现的 7 天的星象意义。后来这种想法被犹太人发扬光大,犹太教的《圣经旧约》第一章开篇就提到上帝 6 天造万物、第 7 天休息(安息日)。慢慢地人们把 7 天定为一周。
2 历法
对于天文学还不是很发达古代人,显然月亮更好观测一些,月亮周期短,且月相区别明显。而且人们也更喜欢晚上吃完饭没事干的时候仰望头顶的星空。
于是人们开始用月亮来计时,并把这一套计时系统称为历法(calandar),calendar 一词最初源于古罗马的单词 calare(庄严地宣布,呼唤),表示古罗马的天文学祭司呼唤新月的到来,并庄严的宣布新的月份。此后的几个世纪里,罗马人把每个新月的第一天称为 Kalends(也来自于 calare),类似于我国的初一。
所以几乎所有文明早期都是按照月亮的运行规律创造历法,也就是我们说的阴历(lunar calendar)。比如两河文明、伊斯兰文明和古希腊等。
但是人们很快发现了阴历不太好用,原因是多方面的,最主要的两个原因是
1、它无法指导农业。民以食为天,对农民来说,种粮食最重要,种粮食受气候变化影响很大,但是阴历并不能反映出气候变化来,因为我们知道气候变化、四季交替等现象都是太阳带来的。
2、阴历有个致命的缺点,就是如果新月的时候赶上阴天或者雾霾,那么人们是看不到新月的,于是就会继续旧的月份,直到看见下一个新月才会开始新的月份。
所以逐渐的这些地区的人开始拥抱太阳,按照太阳运行规律创建了历法,叫做阳历(solar calendar)。
3 阴阳结合
书接上文,在全世界范围从大尺度上看,各文明历法始于月亮主导的阴历,然后人们发现阳历真香啊,就慢慢向阳历靠拢。
然鹅,使用阳历的人们逐渐发现一天和一年差距太大,以至于当老爹教儿子种地时告诉儿子你要在一年的第 100~120 天这段时间收庄稼,儿子还得一天一天数,很不方便。
于是人们就想要在天和年之间再来一个新的时间过渡单位。正好阴历的月满足这个条件。但是一个月 29 or 30 天,而一年有 365 天,介于 12-13 个月之间,很不整齐,阴历和阳历对不上。
很多文明就遇到这个棘手的问题,大家的做法是先让一年有 12 个月再说,但是如果照搬阴历月,那么12 个阴历月通常就只有 345 天,剩下还差 11 天。
但是这 11 天怎么补,每个地方的人就不一样了。无外乎就两种方法,一是修修补补、二是推倒重建。要么在阴历月的基础上修正、要么破旧立新削足适履。
修修补补的典型代表就是古代中国 & 古巴比伦 颁布了汉莫拉比法典,刻在黑色的玄武……
两个国家都是在阴历的基础上,试图补上差的天数,来向阳历靠拢。但是补的方法不一样。
拿我国古代举例子,我们的做法每隔几年加一个闰月,只要长期平均下来大差不差就可以了。就这样我们将阴历和阳历两者结合,强行通过闰月的方法让阴历向阳历爸爸靠拢,毕竟人家有 24 节气这么牛叉的存在。
具体采取的方法是“19 年 7 润”法,即每 19 年(一个周期)内加 7 个(闰)月,同时保证让每个阴历月必须包含两个节气(准确的说是一个节气一个中气)。如果某个月比如六月只包含了一个节气,那么就再加一个润六月。
(1984年闰十月出生的朋友,到现在还没过第二个农历生日……)
这样便形成了我们现在的农历。农历是通过阴历和阳历结合而生的,所以是一种阴阳历(Lunisolar calendar)。生活中,许多老百姓口中总说阳历和阴历,他们将农历误称为阴历,这其是不对的。我国现行的两种历法准确的说是公历和农历。
感谢农历爸爸让我们每年多了好多假期,没有农历就没有春节、端午、中秋等法定节假日。
而古巴比伦的做法是 8 年 3 闰,国王会在一个 8 年内自行决定增加 3 个月,来向阳历靠拢。
破旧立新直接上阳历的文明最典型的就是古埃及。
由于埃及的地理位置离近赤道,因此四季不分明,气候变化小。从这个角度讲阳历用处也不大。
人家埃及逐阳弃阴也不是因为农业对气候变化的依赖。
那到底是什么原因让埃及官方嫌弃阴历呢?因为阴历无法预测一件对他们的农业来说最重要的事情——尼罗河的泛滥。
聪明的埃及人盯上了夜空中最亮的星——天狼星,他们发现天狼星在日出前与太阳在同一地方升起(偕日升)的这一天很特别,这一天总是发生在尼罗河泛洪的那几天。于是埃及官方就规定尼罗河泛滥和天狼星偕日升同时发生的那一天作为新年伊始。直接抛弃了阴历,强行自己定义了新的月。你不是要 365 天嘛,那我就简单粗暴点,令一年 12 个月,每月 30 天,再加上 5 天分配给 5 个神。
这样埃及版本的阳历就诞生了,埃及也是第一个使用阳历的文明。(准确的说,埃及使用的是天狼星历,一天狼星年和一太阳年之间差着大概几分钟这个数量级)
但是这样一年固定为 365 天,而一个回归年的时间要比 365 天多一丢丢,所以时间长了历法就会偏离太阳运行轨迹,4 年就会偏出 1 天。不过貌似古埃及人并不 care 这个,跑偏就跑偏了。
甚至到后来,亚历山大大帝治下的希腊在埃及亚历山大港建立了托勒密王朝,历法也改叫做亚历山大历后,君主托勒密三世试图修正这一偏差都没能成功,被他们的“议会”否决了。所以跑偏在埃及人看来都不叫事儿。或许正是因为他们没有这种精益求精的精神,所以才没有演化出我们今天最科学的历法吧。
我们看看别人是怎么做的,怎么就演化出今天的历法了。我们的重点是儒略历和格里高利历,看看这俩历法如何演化而来。
我们可以说,接下来历法的进化就是一部修正史,尽可能地去和至高无上的太阳神保持同步修正史。
一切要从古罗马说起
4 罗马历
公元前 8 世纪,罗马城的建立,开启了罗马王政时期。这时的罗马人也是看月亮过日子的,天文学祭司来观察天空。当他第一次看到新月时,宣布下一个月已经开始。正如前文说的,罗马人把这一天称为 Kalends。
古罗马的文化基本都是照抄古希腊的,历法也是大体沿用古希腊的雅典城邦的阴阳历法,历法主体是阴历,在此基础上通过加闰月的方法来使阴历和阳历相协调。
但罗马人没有遵循希腊人的通常做法,即月份交替 29 天和 30 天。公元前 5 世纪,罗马人将月份与月球周期分开,月不再以月相为参考。
他们采取 31 天和 29 天的混合,其中 4 个月为 31 天,7 个月为 29 天,还有可怜的 2 月是 28 天,因为 2 月是执行死刑的月份,所以人们都希望它快点过去,所以2月就要短一些。
这样一年又 355 天,然后靠往年末怼一个闰月来补齐剩下的天数,具体的做法是每两年在二月中间插入一个 27 天或 28 天的润 2 月。
注意,这里说的2月就是年末,罗马延续了新年的第一个月为 3 月的传统,因为 3 月是春暖花开,万物复苏的季节。
(注:本文中所说的 X 月完全是按照如今的叫法,并不代表当时这个月是第几个月。比如这里说的二月,指的是翻译成英语后叫做 February 的月份,并不代表它是每年的第二个月。)
好战的罗马人用战神 Mars 的名字命名了 3 月 March,这也解释了为什么 9~12 月英文分别叫做 September(第 7 月) October(第 8 月) November(第 9 月) December(第 10 月),sept, oct, nov, dec 分别是 7、8、9、10 的词根。
那我们不禁要问,为什么我们现在从 January 开始新的一年呢?这其中的历程蜿蜒曲折,但是第一推动力源自于偶然的历史事件。
到公元前 154 年,西班牙叛乱爆发,罗马人和西班牙人的民族战争打响。当时正值冬天 January 月,罗马赶上了领导人准备换届的季节。
按照法律新的执政官要在新年 March 才能上任,但是战争不等人。为了平定叛军,罗马元老院决定临时将 January 定为一年的第 1 月,这样就新任执政官就可以提前上台来带领军队干西班牙人。
就这样,顺带着 February 成为了第 2 个月,之后这个顺序便一直延续下来。
但是我们要明确一点,在后来动荡不安的罗马共和国,历法从来都是为统治阶级服务的。随着罗马共和国内政治斗争的白热化,历法越来越多的成为宗教制约政权的工具。
所以后期的罗马历就变成了有 12 个固定月份和 1 个不固定的第 13 个闰月,这第 13 个月有多长完全是由大祭司决定,由于罗马共和国执政官的任期和日历年对应,因此大祭司作为宗教领袖,可以人为地减少与他不和的执政官在任年的长度,增加其政治盟友的执政年限,因此存在着极大的滥用权力空间。
这越来越乱的历法最终在恺撒时期画上了句点,公元前 46 年,凯撒以大祭司的身份,下令改革历法,并颁布了以自己名字 Julius 命名的新立法——儒略历(Jurian Calendar),意为尤利西斯的历法,从而结束了此前长时间的历法混乱。
5 儒略历
儒略历的诞生,简单来说就俩原因:
1、老历法乱套了
2、出现了一个权力足够大的人来新修历法
上文说到,在以前的罗马历中,每隔一年就加一个润月,这就造成了第一年 355 天,第二年 377 或 378 天。这样四年平均下来的每年的天数为 366.25 天,每年要比正常回归年多 1 天。这是个很大的误差,30 年下来就多出一个月,罗马历法势必会混乱。
上文还说到,罗马共和国建立后,将闰年的控制权授予教皇,教皇最终滥用权力,延长其政治盟友在位的年份,缩短对其手任期的年份。罗马共和国混乱时期,罗马历被当作统治权力维护工具,导致每年长短不一,极其混乱。
再后来,闰月的设定公布的越来越晚,以至于好多住在偏远地区的老百姓根本不知道日期,这还了得,老百姓不知道哪天是双 11,还怎么剁手?
后来连负责传达历法的官员们也都不干了,为啥呢?因为罗马人内讧了,军队拥兵自重,和元老院干起来了。
恺撒就是其中一位拥兵自重的军官,最终恺撒击败庞培。脱颖而出,征服了意大利,制服了养老院,强迫元老院授予他终身独裁官。自此,恺撒成为罗马共和国唯一的扛把子。
这也给了恺撒修改历法的权限,恺撒能改历法,跟他手握大权是分不开的。凯撒的改革旨在永久性地解决立法混乱问题,他想要创造了一个与太阳保持一致的历法。
口号喊得响没用,这件事情难就难在如何处理月份上。于是恺撒在和埃及艳后泛舟尼罗河后,召集了当时一大批数学家和天文学家来计算如何处理月份,这些人想出的办法我们之前也提到过,抛弃月亮拥抱太阳,将抛弃阴历拥抱阳历。
早在公元前 2 世纪,上古天文学大佬喜帕恰斯就已经可以很精确地测算出一回归年的长度大概不到 365.25 天。要凑这个数的办法就是让有些年份 365 天,有些 366 天,这样长期一平均就差不多了。365 天的年叫做平年,366 的叫做闰年。
如何分配这 365 或 366 天呢?既然已经抛弃阴历了,也就不需要看月亮了,也就意味着可以随意规定一个月的天数。因此最简单的分配方式就是将这个数除以 12,尽可能平均地分配给 12 个月,这样每个月就是 30 或 31 天。但是 2 月由于不吉利仍然维持旧罗马历的 28 天。在闰年的时候加的那一天给 2 月。
恺撒听完觉得不错,可以和天文现象对得上。这一年是公元前 46 年,恺撒决定让之前所有的混乱都在这一年有个了断吧,下一年开始使用统一的新历法,颇有秦始皇车同轨书同文的赶脚。
恺撒计划儒略历在次年(公元前 45 年)正式生效,因此他等 1 月 1 日到来再开始新的一年,这样才能和季节同步。
这样做的代价就是前一年(公元前 46 年)多出了 60 多天,创下了史上最长年份记录,BC46 共有 455 天!老百姓也洋溢着笑容拍手称快,因为他们觉得恺撒大帝让他们每个人都多活了 60 多天,LOL……
恺撒将这一年称为最后的混乱年,之后在罗马世界便会有真正统一的历法,这就是最初的儒略历,也是儒略历的 beta 版本。
为什么说是 beta 版本,还不是最终版吗?不是,因为计算出错了……出在了平闰年分配上。
应该给 365 和 366 分别赋予怎样的权重,就可以使得期望值为 365.24 或 365.25?这个问题中学生都会算,解一元一次方程嘛,每四年闰一次。可偏偏当时的人计算错了,搞成了每三年一个闰年。当然还有一些历史性原因,总之就是算错了。
这个错误在公元 8 年由恺撒的下一任屋大维改正,最终形成了大名鼎鼎的儒略历的最终版本:
1、继续沿用 1 月 1 日为新年伊始。
2、在原来的一普通年 355 天的基础上加上 10 天,其中 1、8、12 月份各加 2 天;4、6、9、11 月各加 1 天,每四年设一个闰年,润年的话 2 月再加 1 天。
因此儒略历下平均每年就是 365.25 天,很接近于一个回归年(365.24xxxx),也就是太阳绕一圈的时间,即恺撒想要尽量对上的那个基于天文的标准时间。
罗马元老院为了赞颂恺撒和屋大维爷叔侄,于是分别用恺撒的名字尤里乌斯和屋大维的称号“奥古斯都”命名了 7 月(July)和 8 月(August)。并且为了俩人平起平坐,让 8 月从 2 月那里借来一天变成大月(31天),然后 9 月 11 月的大月身份也平移到了 10 月和 12 月。
至此,儒略历的一年就和我们现在的一年几乎一样了,仅仅是闰月和现在不一样。
1、为什么 7 月命名为恺撒,据说是因为恺撒出生在 7 月
2、为什么从 2 月借一天,是因为在 2 月处理死囚
儒略历的颁布还有一个作用,就是基本上在整个罗马版图覆盖的地方都统一了 7 天的一周。随后又将一周的日子与太阳、月亮和肉眼可见的五颗行星联系在一起。
这为之后的基督教和一周七天紧密联系铺平了道路。君士坦丁大帝承认基督教后,正式采取一周 7 天制。
基督教合法了,随之带来了一个问题,基督教徒们继承了犹太教的传统,上帝在安息日休息,所以教徒们在安息日也要休息。而安息日是每周的周六。
但是当时的罗马公民们的习惯是每周日休息,因此教廷就将安息日从周六挪到了周日,并改名为“主日”。从此,星期日对于基督教有了特殊的意义。
300 多年后,随着基督教的合法化和国教化,儒略历作为基督教礼仪历法,传播到罗马帝国以外的地区。当一个民族或一个国家皈依基督教时,他们一般也采用负责皈依的教会的基督教历法。
就这样,儒略历在基督世界中流传了上千年,直到一个人的出现……
6 格里高利历
格里高利历是在 1582 年,时任教皇格里高利 13 世颁布的历法,也就是我们今天使用的公历,是全世界统一使用的官方历法。
我们知道,随着基督教在罗马帝国被奉为国教之后,教皇就是基督世界的精神领袖,教皇自然也负责颁布历法来指导教众。历任教皇通常选择沿用儒略历,因为儒略历还挺好用的。
直到格里高利十三世,对儒略历做了个轻微的修改,改成了我们今天所用的这样。
为啥儒略了使用了 1500 多年后,教皇给改了呢?原因有二:(1)旧的儒略历跑偏了;(2)宗教因素。
第一个原因不难想到,因为儒略历跑偏了。儒略历平均每年是 365.25 天,但一回归年是 365.24xxx,两者存在着微小的差异,这个差异在大时间尺度下也会被放大成为无法忽略的偏差,日历年每 400 年就要和回归年差出 3 天。
儒略历到格里高利时期已经用了 1500 多年,比回归年多出了 10 天左右。所以在 1582 年,教皇格里高利就颁发了命令,直接凭空消失 10 天(10.5-10.14)。
我们大致可以估算一下,时至今日,如果继续使用儒略历的话,会和格里高利历相差约 13 天。
旧历法的跑偏问题并不是到格里高利十三世时才被认识到,之前的教皇有些也意识到了这个问题,但由于种种原因,未能实施修订历法。15 世纪末,天文知识的增加和观测的精确性使得这个问题变得更加紧迫。在随后的几十年里,许多出版物呼吁改革历法,终于在格里高利十三世时实现了历法改革。
光把过去的误差填补上还不行,还得保证以后不跑偏。所以负责给教皇老哥编写历法的天文学家,提出了改变闰年的设法,凡是年数能被 4 整除的是闰年,但是年数后边是带两个“0”的“世纪年”时,必须能被 400 整除的年才是闰年,所以 1900 年不是闰年。
现在历法周期变成了 400 年,这 400 年共有 146097 天。这样平均下来一年有 365.2425 天,这一数值仅比回归年多了 26 秒,这样过 3000 年左右才会有 1 天的误差。
对于这个精度教皇大哥很满意,于是发布诏书颁布新立法。这个新历法就被叫做格里高利历,也就是我们现在用的公历。
所以简单来说,格里高利历就是恢复奥古斯都时期儒略历的版本(1 月 1 日为元旦),并且做了一点点小的闰月修正,仅此而已。
当然,教皇大哥也不是心血来潮拍脑袋的决定,而是由于某些宗教上的动机。儒略历的跑偏没错,但教皇大哥真正关心的是这种跑偏造成了春分点提前到来了,而春分本应该在 3 月 21 日出现。为什么教皇大哥这么纠结春分点呢?这就涉及到下面要说的宗教因素了。
7 宗教因素
虽然罗马天主教会曾经对科学和天文学进行了长期而激烈的斗争,但总的来说,中世纪后半期教会也给予了天文学研究大量的资金和社会支持,包括在各地大教堂的塔楼改造作为太阳观测站。
教会这么做不一定是为了知识而寻求知识,相反,它希望通过投资得到一些实际的回报,最重要的回报就是改进日历。
回到刚才的问题,教皇为什么纠结春分,因为春分对基督教会很重要。
1、春分是万物复苏的时间
2、春分是儒略历的新年伊始
3、春分传说是耶稣受孕日(所以推定 9 个月后的 12 月 25 日是圣诞节)
4、它是计算复活节日期的基础
第四点最重要。教皇为了使当前的复活节日期与早期教会引入复活节时的日期相一致。
当然基督教教皇和官员们也并非完全就是要虔诚地庆祝他们的上帝复活,更多的也是出于统治的需要,以及加强教会的权力和团结。
于是教皇和教会官员将希望寄托在天文学家上,希望天文学家可以依照科学来确定日期,改进日历。
想要完全理解上述前因后果,我们要补充必要的基督教背景知识。时间回到一千多年前。
我们知道,在恺撒屋大维颁布儒略历的时代,基督教还是异教。直到 313 年君士坦丁皇帝颁布《米兰赦令》,第一次承认基督教的合法性,才结束了基督教在罗马近 300 年的苦难历程。到了公元 525 年,人们第一次使用公元纪年法,将耶稣降生的那年计作公元元年。
但是没过几年,基督教内部在耶稣的神性上出现了教义之争。君士坦丁非常恼火,哥承认了你们,你们自己居然为了芝麻大点的事内讧了。于是他决定要召开一次基督教全体会议,以便统一思想。
这就是著名的“基督教一大”——尼西亚大公会议,发生在公元 325 年。这次会议对我们接下来要说的内容很重要。这次会议没有调和双方的矛盾,而是直接简单粗暴的捧一踩一。这也为后面基督教分裂埋下了最直接的伏笔。到了 380 年,另一位著名的罗马皇帝狄奥多西宣布取缔了罗马信奉了一千多年的多神教,要求罗马全体公民信仰基督教。392 年基督教正式成为罗马国教,从一个备受歧视的异教变成一个一家独大的宗教信仰和意识形态。
尼西亚大公会议对格里高利历的重要意义在于,在这次会议上,基督教高层领导们明确规定全世界所有基督徒都应在同一天庆祝复活节,并且明确确定了这一天是哪天,即颁布了“法定”的复活节日期:
春分之后的第一个满月后的第一个星期日
教皇认为应该以尼西亚大会召开的 325 年为基准,所以将 1582 年完全复刻了 325 年。正如前文所说,这么做就需要凭空抹去多出来的 10 天。(选择抹去 10.5-10.14 是因为这 10 天内没有基督教的重要日子)
其中网上传的神乎其神的“惊!历史上竟消失了10天!”其实也没啥大不了的,其实这10天根本就没有消失,只是人们因为特殊的原因改了计时的历法,就像人们为了方便随意选取参考系一样,正如物体的客观存在并不依赖于参考系的选择,历史上的10天不因历法的切换而消失。
复活节对基督徒们意义可就大了,是和圣诞节并称的基督教两大节日。根据《圣经》中记载,耶稣受难后的第三天复活,告诉他的门徒们离开犹太人的大本营——以色列,世界那么大,你们去罗马看看。基督徒们认为耶稣受难日是公元 33 年 4 月 3 日(星期五),三天后(星期日)复活。
有趣的是本文主角牛顿也曾指出受难日并不是这一天,但结果表明牛顿自己把历法搞错了,就像后人搞错他生日一样。
试想一下,复活节日期的精确规定这件事情,就很考验历法的精确程度了,历法要不准了,全世界基督徒们就可能有不同的复活节了。
我们知道,复活节是基督教最重要的节日之一,但是彼时的庆祝耶稣基督复活的盛典已经成为教会的一个官僚危机。到了 12 世纪,复活节的误差已经不能忍了。
儒略历被抛弃就是因为出了这样的问题,前文说到,儒略历跑偏了,春分点跑偏了,复活节就不准确了,准确的说是历法层面的复活节和天文学层面的复活节对不上了,因为日期已经到 3 月 21 日了,但是天文学上还没有到春分。
我们就拿今年 2021 年举例子,按照天文学,今年春分是 3 月 20 日,下一个满月是 3 月 28 日,这天正好是周日,所以复活节就得是再下一个周日 4 月 4 号。但是如果按照儒略历,今年的复活节是 5 月 2 日(换算成公历)。
8 格里高利历的普及
各个国家采用 "新 "历法的时间也参差不齐,格里高利历最初是由欧洲天主教国家及其海外属地采用的,传统天主教国家如法国、西班牙、水果牙、意大利等都在 1582 年当年就改用新历法。
新教和东正教国家不受天主教皇的管辖,因此一开始并没有赏脸,直到一个多世纪以后才陆续慢慢开始使用新历,特别是在英国(以及其美洲殖民地的国家)在 1752 年 9 月 14 日才采用新历法,这时牛顿早已去世了。
插曲:也就是说,包括美国在内的这些国家在1752年才发生“消失的10天”
这就解释了为什么牛顿有俩生日,牛顿在英国出生时英国使用的还是儒略历,所以牛顿的出生仍被记录为 1642 年的圣诞节,尽管意大利的这一年已经是 1643 年。而伽利略去世时(1642 年),其祖国意大利以及开始使用格里高利历 60 年了,自然用新历记录,所以在网上查伽利略就只有一个祭日。
还有一件与牛顿伽利略情况类似的事件
莎士比亚和塞万提斯这两位大文豪,似乎正好在同一天去世(1616 年 4 月 23 日),但其实不是。各位小伙伴不妨算一下,谁先死的,早了几天?
然而这一历法差异带来的巧合被联合国教科文组织拿来做文章,也就有了我们现在每年 4 月 23 日的 "世界图书和版权日"。
荷兰国王兼英国国王威廉三世要从荷兰出发前往英国加冕,荷兰这边说我们威廉大大 11 月 11 日出发,英国这边则说俺们陛下 11 月 5 日就到了……
By the way, 新历在明清时期由西方传教士传入我国,我国明确使用格里高利历是在辛亥革命之后,满清灭亡,没有皇帝也就没有年号纪年法了,于是中华民国政府宣布 1912 年开始使用新历。当然还有比我过更晚使用新历的国家,最墨迹的是沙特,沙特 2016 年才使用新历。
9 变来变去的新年伊始日
在回归主题之前,我们还需要最后搞清楚一个问题,那就是新年从哪一天开始?搞清楚这个问题,我们才好说究竟两件事情是否发生在同一年。
这个问题从最开始阴历流行的时候就存在了。我们知道,每月的开始时间是确定的,只要看到新月就是新的一月。但是每年从哪天开始呢?太阳在哪个位置才算新的一年?这就给统治者留下了空间,他们可以任意将某个月当作第一个月。
比如陈胜吴广起义,在秦二世元年 7 月爆发,次年 12 月结束。乍一看好像起义持续了一年多。但其实不是这么回事,因为秦始皇登基后规定以 10 月为新年第一个月,所以起义也就持续了 5 个多月。
再比如法国大革命后,建立共和国,同时建立共和历,并以建国的当月定为第一个月,同时出现了雾月、热月等称谓。对应的雾月政变和热月政变也是在法兰西第一共和国期间爆发的。
从两河文明开始,人们就偏爱春天,春暖花开万物复苏在人们看来是神的恩泽,因此大多数文明都将春天作为新年伊始,尤其是春分日,昼夜平分的特点似乎也象征着某种神谕。
因此最早期的元旦都定在三月,由于当时以阴历为主,也就是看月亮定日子。所以新月和满月就成为最特殊的两天,分别对应着 1 日和 15 日(我国的初一和十五)。最初人们将元旦定为 1 号,后来发现 15 号更接近春分,就改成 15 号。
元旦:我真的是躲得过初一躲不过十五惹……
好战的罗马人更是用战神 Mars 的名字命名了三月 March。
然后我们前文提到了,由于西班牙战争的原因,公元前 153 年罗马元老院将第一个月从 3 月改到了 1 月,儒略历更是将元旦钉死在了 1 月 1 日。
然而,在中世纪的欧洲,基督教(这里我们特指天主教)开始豪横起来。教皇认为 1 月 1 日这个日子很不基督教,既不是基督教的传统节日,也不是一个良辰吉日。
毕竟当时元旦改为 1 月 1 日时还没有基督教什么事,是世俗皇帝规定的。上帝的归上帝、恺撒的归恺撒。而中世纪教俗之争狂热,双方水火不容。
教皇为了彰显自己的厉害,宣布在 1 月 1 日庆祝新年是异教行为,并在公元 567 年废除了 1 月 1 日作为一年的开始。但是并没有规定一个新的元旦。这导致在整个中世纪基督教欧洲的不同时期和不同地方,有着不同的元旦,大都是和基督教有关的日期:12 月 25 日(圣诞)、3 月 1 日(传统春天良辰吉日)、3 月 25 日(耶稣受孕日——报喜节)和复活节庆祝新年。
到了中世纪后期(14、15 世纪),整个欧洲的新年伊始开始逐渐向报喜节统一。因为报喜节不仅是耶稣受孕日,还是古罗马时期的春分日,双厨狂喜,其中就包括我们要说的英国。
这就是为什么上文我们说,格里高利将元旦重新定为 1 月 1 日。
10 再论牛顿生日
在一般情况下,消失的 10 天作为历法记录选择的分界点,1582 年 10 月 15 日之前发生的事件的日期一般按照 1 月 1 日开始的儒略历,不需要转换为格里高利历的对应日期。而在这之后的就要用格里高利历来记录了。
但是,并不是所有国家都同时开始使用格里高利历,在历史上相当一段时间内,在欧洲有些国家已经投入了新历的大怀抱,有些国家还在使用着旧历。
因此在这段时间内,人们为了明确地指明一个日期,往往要同时使用旧历和新历,尤其是英国喜欢在旧历前面标上 O.S.代表 “旧式”(Old Style)。
我们已经知道,牛顿出生的时候,英国用的还是儒略历。所以我们看维基百科的牛顿生日的描述为:
前面的 O.S.就表示在旧历表示下牛顿的生日是 1642.12.25。
值得注意的是,我们知道新旧两历的元旦时间不一样,因此如果某人生日特别巧处在两者之间,就会有一些麻烦了,可能会连年份都不一样。
我举个例子,假如英国人 Three Zhang 出生于新历的 1700 年 3 月 1 日,那么他在写自己生日时,要加上「O.S. 1699.3.1」。旧历中新年伊始是 3 月 25 日,所以张三的生日在旧历中还处在 1699 年。
另一方面,说霍金出生(1942 年 1 月 8 日)比伽利略逝世(1642 年 1 月 8 日)整整晚了 300 年,这么说没毛病,因为这两件事都记录在格里高利历上。
11 历法的未来
著名天文学家威廉·赫歇尔的儿子约翰·赫歇尔眼光长远,他觉得人类还能生存千秋万代,因此试图将历法周期从 400 改成 4000(即 5000 这种年份也不润)来进一步减少每年的平均天数,增加精度。
但是这一建议一直未被采纳。不过未来减少每年天数似乎是势在必行的事情,因为地球自转越来越慢,每一天时间越来越长。
不过,随着科学的发展和技术的进步,今天我们人类已经有了很精确的计时工具。时间也从原来的度量方式变为理论上定死的数值。
之后我们的时间刻度和历法要怎样再修改以拟合天文现象,小伙伴们可以大开脑洞想象一下。
规范场论发展简史
规范场论发展简史
作者 | yubr
规范场论起源于20世纪20年代Weyl关于电磁场规范对称性的基本思想,1954年杨振宁和Mills将规范对称性推广到了非阿贝尔场的情形。从Yang-Mills理论1954年被提出,一直到1971年非阿贝尔规范理论的可重整性被证明从而基于Yang-Mills理论的电弱标准模型开始被人们广泛接受,在这近20年间,人们主要专注于解决两大困难:如何在不破坏规范对称性的前提下赋予规范玻色子质量,如何证明规范理论的可重整性。规范场论最核心的是以下三个要素:规范对称性,自发对称性破缺和可重整性。
本文主要遵循规范场论发展的历史顺序和逻辑顺序,介绍规范场论发展过程中的重要物理概念以及提出这些概念的物理动机,并尽量给出所有的原始参考文献,看看那些20世纪后半叶的英雄们是如何谱写一曲不亚于20世纪早期量子力学发展史的壮丽诗篇,如何一步步建立起人类历史上最精妙的理论——电弱标准模型。
1. 萌芽
20世纪20年代,规范理论的思想萌芽。1929年,Hermann Weyl最早考察了电磁相互作用中的 规范对称性,并指出所有的规范相互作用必须通过规范粒子来传递 。1941年,Wolfgang Pauli在他的论文里证明了整体的 对称性对应电荷守恒,而规范的 对称性必然会引入电磁相互作用,从而可以由这种相互作用直接推导出Maxwell方程组 。
2. 神来之笔:Yang-Mills理论的诞生
1954年,杨振宁和 Robert Mills将规范对称性从阿贝尔群情形推广到非阿贝尔群情形,他们提出在强相互作用中应该满足局域的同位旋守恒,质子和中子组成一个群的同位旋二重态 。
3. 补天之作:自发对称性破缺和Nambu-Goldstone定理
在Yang- Mills 理论被提出后的很长的时间里,主流物理学界对此无人问津,主要原因在于Yang-Mills 理论面临一个巨大的困难:弱相互作用是短程力,所以传递弱相互作用的规范玻色子一定是有质量的,但是质量项会很明显地破坏Yang-Mills理论中提出的的规范对称性 。1960年,受到超导中Bardeen-Cooper-Schrieffer理论(即BCS理论,1972年诺贝尔物理学奖)的启发,Yoichiro Nambu率先把自发对称性破缺 (spontaneous symmetry breaking) 的概念从凝聚态物理引入到了粒子物理中(Nambu因此获得2008年的诺贝尔物理学奖)。之后,Jeffrey Goldstone,Abdus Salam和Steven Weinberg严格证明了,连续对称性的自发破缺会产生无质量的标量粒子,即Nambu-Goldstone粒子 ,这被称为Nambu-Goldstone定理。
4. 基石:Higgs 机制
1964年, Peter Higgs,François Englert,Robert Brout等人把自发对称性破缺机制运用到规范理论中,他们发现规范理论通过自发对称性破缺所产生的Nambu-Goldstone粒子的自由度正好可以被原本无质量的规范玻色子吸收从而转化为规范玻色子的质量,这样就成功地在不破坏规范对称性的前提下赋予了规范玻色子质量,这就是著名的Higgs机制(在2012年Higgs粒子被发现后,Higgs和Englert获得了2013年的诺贝尔物理学奖,但是Brout当时已经去世)。
5. 高潮:电弱标准模型的建立
1961年,Sheldon Glashow提出了的规范对称性。在Glashow的基础上,借助Higgs机制,在1967年和1968年, Steven Weinberg和Abdus Salam建立了电弱统一理论,并成功地预言了弱中性流的存在 (也称为GSW模型,Glashow, Salam, Weinberg为此获得了1979年的诺贝尔物理学奖)。
6. 终章:标准模型的可重整性
GSW模型建立后,一开始并没有被人们广泛接受,因为大家不知道这个理论是不是可以被重整化,也不知道自发对称性破缺会不会破坏理论的可重整性。非阿贝尔规范理论的可重整性的证明是非常困难的,一个首先面临的困难就是非阿贝尔规范场的量子化。因为规范粒子具有非物理的极化自由度,这会对量子化带来很大的困难,传统的正则量子化将很难进行。1967年,Ludvig Faddeev和Victor Popov在路径积分的框架下,引入鬼场粒子(ghost particle,一种非物理的标量粒子,但是服从Fermi-Dirac统计),利用鬼场自由度正好消去了规范粒子的非物理极化自由度,从而使得规范对称性(Ward-Takahashi恒等式)得以保持 ,这一套程序称为Faddeev-Popov量子化程序,现在成为了非阿贝尔规范场量子化的标准方法。1971年, Gerardus ’t Hooft 率先完整地证明了非阿贝尔规范理论的可重整性 。在可重整性得到证明以后,GSW模型开始为人们所广泛接受,并逐渐成为了电弱统一理论的标准模型。
7. 尾声:胜利只是新的开始
和爱因斯坦单枪匹马创造了整个广义相对论不同,粒子物理标准模型的建立更像是20世纪后半叶一群天才们的接力长跑,一如半个世纪前的另一群天才们接力建立了量子力学。从Weyl规范对称性思想的萌芽,到Yang-Mills理论将规范对称性从阿贝尔群推广到非阿贝尔群的神来之笔,再到自发对称性破缺和Higgs机制对Yang-Mills理论致命弱点的惊天补救,再到集大成者的GSW模型,最后由计算大师’t Hooft补上了可重整性的证明,天才们经过半个世纪的努力,终于建立起了人类历史上最伟大的杰作——粒子物理标准模型,它成功地在相对论性量子场论的框架下,通过规范对称性来统一描述电磁、弱和强三种相互作用,并且它是可重整的。2012年Higgs粒子被发现后,标准模型的所有预言都已经被实验验证,它看起来是如此得完美和精确。但这并不是故事的结尾,恰恰相反,这仅仅是开端。上帝并不想被人类这么轻易地发现自己的秘密,20世纪初的两朵乌云经过一个世纪的努力成功变成了满天的乌云——标准模型的光也无法刺透的乌云:中微子的质量,规范等级问题,规范耦合常数的统一,真空稳定性问题,强CP相位,宇宙正物质-反物质不对称之谜,真空能问题,暗物质,暗能量,引力的量子化......这让人沮丧,却也更让人激动,因为这无可辩驳地表明了标准模型只是一个不完整的有效理论,一定存在着超出标准模型的新物理。我们,还有很长的路要走。
原始文献
[1] Weyl, H., 1929, Z. Phys. 56, 330.
[2] Pauli, W., 1941, Rev. Mod. Phys. 13, 203.
[3] Yang, C.N., and Mills, R., 1954, Phys. Rev. 96, 191.
[4] Nambu, Y., 1960, Phys. Rev. Lett.4, 380.
[5] Nambu, Y., and Jona-Lasinio, G., 1961, Phys. Rev. 122, 345.
[6] Nambu, Y., and Jona-Lasinio, G., 1961, Phys. Rev. 124, 246.
[7] Goldstone, J., 1961, Nuove Cim. 19, 154.
[8] Goldstone, J., Salam, A., and Weinberg, S., 1962, Phys. Rev. 127, 965.
[9] Higgs, P. W., 1964, Phys. Lett. 12, 132.
[10] Higgs, P. W., 1964, Phys. Rev. Lett. 13, 508.
[11] Higgs, P. W., 1966, Phys. Rev. 145, 1156.
[12] Englert, F., and Brout, R., 1964, Phys. Rev. Lett. 13, 321.
[13] Guralnik, G.S., Hagen, C.R., and Kibble, T. W. B, 1964, Phys. Rev. Lett. 13, 585.
[14] Glashow, S.L., 1961, Nucl. Phys. 22, 579.
[15] Weinberg, S., 1967, Phys. Rev. Lett. 19, 1264.
[16] Salam, A., 1968, Conf.Proc. C680519 (1968) 367.
[17] Fadeev, L.D., and Popov, V.N., 1967, Phys. Lett. B 25, 29.
[18] ‘t Hooft, G., 1971, Nucl. Phys. B 33, 173.
[19] ‘t Hooft, G., 1971, Nucl. Phys. B 35, 167.
[20] Lee, B. W., and Zinn-Justin, J., 1972, Phys. Rev. D 5, 3121.
[21] Lee, B. W., and Zinn-Justin, J., 1972, Phys. Rev. D 5, 3137.
[22] Lee, B. W., and Zinn-Justin, J., 1972, Phys. Rev. D 5, 3155.
所有的原始文献都可以在https://inspirehep.net/网站上下载。
感谢 @长尾科技 将其整理在了百度网盘中,方便大家下载,网盘地址:
https://pan.baidu.com/wap/init?surl=4MdwCr0wJb52XElNur7YlA
提取码:9pyw
深度:宇称不守恒到底说了啥?杨振宁和李政道的发现究竟有多大意义?
宇称不守恒,这是一个让许多中国人既熟悉又陌生的词语!
熟悉,是因为这是全球华人的第一个诺贝尔奖,我们的教科书和媒体会经常提到这个也是很自然的事情;陌生,是因为大多人除了知道杨振宁和李政道发现了它以外,完全不知道这个宇称不守恒到底在说啥。
另外,跟前沿理论物理的一大堆让人懵圈的专业术语相比,“宇称不守恒”这五个字看起来还是很亲民的。毕竟我们中学时代就学过能量守恒、动量守恒,对守恒的概念还是很熟悉的,而“宇称”听起来应该和宇宙的某种对称性有关。然而,宇称到底是什么呢?为什么它不守恒?为什么宇称的不守恒会让科学界如此震动,以至于杨振宁和李政道在1956年6月提出了宇称不守恒,1957年的诺贝尔物理学奖立刻颁给了他们?
没错,宇称确实是指一种对称性,要想理解宇称不守恒为什么这么重要,就要先理解为什么对称性这么重要。
那么,对称性到底有多重要呢?这么说吧,如果没有对称性作指导,爱因斯坦不可能发现相对论,当代的理论物理学家们会像失去了灯塔一样集体在黑暗里抓瞎。物理学大师费曼曾经说过,如果让他选择一句话来概括现代科学最重要的发现,他会选“世界是原子组成的”。许多当代最著名的物理学家们认为,如果有机会再选一句,那么所选的将是“对称性是宇宙规律的基础”这句话。
01什么是对称?
一提到对称,许多人脑海里会浮现类似天安门这种严格左右对称的建筑,或者六个瓣的雪花,镜子里帅帅的自己,亦或者是纯粹的圆形、正方形、正六边形这样的几何图形。
没错,这种几何里的对称是我们最容易想到的。仔细想一下这些对称,我们会发现它们有的是以中间一根轴对称(天安门),有的是围着一个点旋转对称(雪花、圆形、正方形),还有的是相对镜子里的镜像对称。当然,天安门的那种轴对称你也可以认为它是在天安门中间插了一面镜子,不过这个不是重点,我的重点是:对称的标准可以是多样的。
对称性的精确数学定义涉及到不变性的概念:如果一个几何图形在某些操作下保持不变,我们就说这个图形在这些操作之下具有某种不变性。
一个圆无论你旋转多少度,这个圆看起来还是那个圆,它没有任何变化,我们就说圆这个图形在旋转这个操作下具有不变性,简单的说就叫圆具有旋转不变性。同样的,我们用镜子去照一个圆,镜子里的图形依然是一个圆形,通过镜子照的这个过程我们可以称之为反射,那么,圆也具有反射不变性。可以想象,三角形、正方形乃至任何几何图形在镜子里依然是这样的图像,所以它们都具有反射不变性。
这是我们辨别对称常用的思维,但是物理学家们却更喜欢另一种思维。
以旋转不变为例,我们判断一个图形是否具有旋转不变性,是去尝试着把这个图形给转一下,看看他跟以前还是不是一样的。这是观察者不动而图形动,但是物理学家们更喜欢使用另外一种方法:图形不动,观察者动。
什么意思呢?比如物理学家们判断一个圆形是否具有旋转不变性,他不是去旋转这个圆看他变没变,而是去旋转观察者,让观察者从不同的角度去看这个圆,看他们看到的是不是同样的圆,如果是一样的就说圆具有旋转不变性。因为运动具有相对性,所以观察者不动旋转圆和圆不动旋转观察者本质上并没有什么区别。物理学家们的这种处理方法会使在处理复杂问题的时候变得简单很多,后面你就能体会到了。
上面我们说的对称都是只几何图形的对称,但是物理学家们并不关心几何图形,他们关心的是物理定律,也就是是物理定律的对称性。初次听到这个词很多人可能会感觉到奇怪,几何图形对称好理解,什么叫物理定律的对称性呢?物理定律不是一堆公式么,为什么会去考虑他们是否对称的问题?
02物理定律的对称
要理解物理定律的对称性,我们就要把脑袋里几何图形对称的那个图景忘掉,回到对称更一般的数学定义上来。我们上面也说了,对称性的精确数学定义会涉及到不变性这个概念:如果一个几何图形在某些操作下保持不变,我们就说这个图形在这些操作之下具有某种不变性。
我们把上面的几何图形换成物理定律,就可以很自然的得到一个物理定律是否对称的判断标准:如果一个物理定律在某些操作下保持不变,我们就说这个物理定律在这些操作下具有某种不变性。
还是以旋转操作为例,我们来看看牛顿运动定律在旋转这个操作下是否保持不变,也就是说看看牛顿运动定律是否具有旋转不变性。答案是很明显的,比如一个苹果从树上落下,我们不管是从树下仰视,从树上俯视,还是从远方平视,甚至是从飞机上看,我们都会看到苹果的下落过程符合牛顿的运动定律:苹果朝着地心的方向加速飞去。一个俯视苹果下落的牛顿和一个仰视苹果下落的牛顿不可能总结出两个运动定律出来,这就是说牛顿定律符合旋转不变性,也就是说牛顿定律在旋转这个操作下具有对称性。
我们想想,不止是牛顿定律,我们现在发现的任何定律都符合旋转不变性,也就是旋转下的对称性。麦克斯韦的电磁学也好,爱因斯坦的相对论也好,量子力学也好,如果我们从不同的角度去看他们就会得到不同的电磁学规律、相对论那还得了?
我们再往深层想一下,旋转不变性的本质其实是空间的各向同性。也就是说,只要空间在各个方向上都是均匀的,都是一样的,不存在空间这边密度大一点那边密度小一点,那么观察者从不同方向看到的物理定律就肯定是一样的,即这些定律肯定具有旋转不变性。
在这里,我们看到了物理定律的旋转对称性居然和空间本身的性质联系起来了,有没有隐隐约约感觉对称性不只是看起来好看,好像还挺有用呢?别急,这才看到对称性威力的冰山一角,对称性的威力还大着呢~
03诺特定理
物理学家研究对称性绝不是图好玩,是因为对称性里蕴含了巨大的能量。要充分理解对称性的威力,我们必须先了解一个核弹级别的定理:诺特定理。
诺特定理,顾名思义是一个叫诺特的科学家发现的定理,这个科学家叫埃米·诺特,是位著名的女科学家,被爱因斯坦形容为数学史上最重要的女人,还被称为现代数学之母。诺特在数学上的成就我这里不多说,她在物理学上最重要的成就就是发现了现代物理学灯塔,让现代物理学家们不再抓瞎的诺特定理。
诺特定理的表述非常简单,就一句话,但是内容非常深刻,它说:物理学里的连续对称性和守恒定律一一对应。
我先不做过多的说明,让大家先把思路捋一捋,这句话里的每一个字我们都懂,它要表达的意思也非常清楚,但是这到底意味着什么?
对称性和守恒定律一一对应,那就是说每一个对称性都有一个守恒定律跟它对应,每一个守恒定律也有一个对称性跟它对应么?那岂不是说我熟悉的能量守恒定律,动量守恒定律也都对应了某个对称性?那上面的旋转对称,反射对称又对应了什么守恒定律呢?如果它们之间真的是这样一一对应的,那么以后我只要在实验里发现了新的守恒量,就等于发现了一个新的对称性么?这太不可思议了……
没错,上面想的都没错,诺特定理说的清清楚楚明明白白,没有任何歧义,就是这样!
另外,关于诺特定理里连续对称性的连续,我稍微说明一下:在经典力学里,像旋转对称,我们可以旋转任意的角度,这显然是个连续的对称,而镜像对称则要么是镜里要么是镜外,只能取两个值,这是不连续的。在经典力学里,守恒定律是跟连续对称性一一对应的。但是到了量子力学这里,许多东西都是量子化的,所以这种差异就没有了。因此,在量子力学里,即便是镜像这种不连续的对称也有相应的守恒定律。
为了让大家对诺特定理有更深刻的理解,我们先来看看几个常见的例子。
04能量守恒定律的对称性
诺特定理说对称性和守恒定律一一对应,那么就先从我们最熟悉的能量守恒定律开始。既然能量守恒,那么按照诺特定理就有一种对称性与之对应,是什么对称性呢?
这里我不卖关子了,直接告诉大家,跟能量守恒对应的这种对称性叫时间平移不变性。什么叫时间平移不变性,平移就是时间流逝移动的意思,说得再通俗一点就是:我今天做实验跟明天做实验遵循同样的物理定律。
噢,这下子秒懂了!有人说这不是废话么,一个物理定律如果他今天成立明天不成立,那还叫什么定律,那我们要这样的定律还有个锤子用?没错,吐槽的一点没错,物理学家们千辛万苦的寻找各种物理定律,为的就是利用这些定律预测物体未来的运动情况,你如果跑来告诉我这个定律只有这一刻有效,下一刻就失效了,也就是没有时间平移不变性,那我们还预测个啥啊?
所以,显而易见的,我们目前所有的物理定律都是符合时间平移不变性的,明白了这一点,你就知道为什么能量守恒定律的适用范围这么广了吧?因为诺特定理告诉我们,只要物理定律是时间平移不变的,那么他就肯定能量守恒,而时间平移不变看起来这么强,所以能量守恒也就这么强了。
现在这个关系是对应起来了,但是大部分人脑袋里肯定还是懵的:为什么能量守恒定律就是跟时间平移不变性对应,而不是跟其他的对称性对应呢?具体的证明过程比较复杂,这里就不说了,有兴趣的自己去查资料,我这里提供一个简单的思路让大家直观的感受一下为什么如果没有时间平移不变性,能量就不守恒了。
假设物理定律不遵守时间平移不变性,这一秒的定律跟下一秒的定律不一样。那我把一块石头往上抛,让它刚好一秒钟达到最高点然后它开始下落,我假设下落时的定律让同样大小的引力能够产生两倍于上抛时候的加速度,那时候下落到出发点的时候它的速度肯定比上抛的时的初候速度更大,也就具有更大的能量。那么,在抛一个石头的过程中它就凭空创造了能量,所以能量显然就不守恒了。
理解了能量守恒对应时间平移不变性之后,后面两个熟悉的守恒我就直接说结果了:动量守恒对应空间平移不变性(空间平移不变就是说物理定律在北京和在上海都一样,在不同的空间物理定律相同),角动量守恒对应于我们上面说的旋转不变性。有了这种概念以后,知道了能量、动量、角动量守恒定律不过是一种对称性的体现之后,我相信你不会再怀疑对称性在物理学的重要性了。
那么,镜面的反射对称呢?物理定律是否遵循反射对称呢?如果遵循反射,那么它对应的守恒定律又叫什么呢?
05宇称不变性
做了这么多铺垫,我们文章的主角——宇称,也该出场了。没错,跟镜像反射对称,也就是左右对称相对应的这个守恒量,就是宇称。宇称也跟物体的质量、电荷一样,是描述基本粒子性质的一个物理量。
所以,我们说物理定律的宇称不变性,其实就是说物理定律在经过镜面反射对称处理之后依然保持不变,简单的说就是镜子里的世界跟外面的世界遵循同样的物理定律。
怎么通俗的理解这个事?举个例子,我们每个人都有照镜子的体验,因为人体的特殊对称性,镜子里的人看起来跟镜子外面的人一模一样,但是左右颠倒了。也就是说,镜子外面的人动一下左腿,你会感觉到镜子里面的人动了一下右腿。如果这时候外面还有一个足球,镜子外面的人用左腿提了一下足球,这个足球会按照牛顿运动定律被踢开,同时我们会看到镜子里面的人会用右腿把把这个足球朝另一个方向踢开,现在问题的关键是:镜子里面的人踢足球这个过程是否满足牛顿运动定律?
如果也满足牛顿运动定律,那我们按照定义就可以说牛顿运动定律在镜面反射对称下具有不变性,也就是具有宇称不变性,那这个过程就宇称守恒。
可以想象一下,如果现实生活中你真的有一个一模一样的双胞胎,这个双胞胎完全按照你镜子里的样子站立,按照你镜子里的样子用右腿踢那个球,双胞胎的球和镜子里的球会按照一样的轨迹运动么?
答案是肯定的,镜子里的世界跟你一样遵循牛顿运动定律,根据牛顿运动定律根本无法区分镜子里面和外面的世界。如果你有魔力把镜子里的人和球都抠到现实世界里来,你会发现他跟你除了左右相反之外,他踢球的过程跟你平常的感觉是一模一样的,踢出去的球依然是一条优美的抛物线。
这也就是说,牛顿运动定律具有严格的宇称不变性,按照牛顿运动定律发生的过程严格宇称守恒。其实,不止是牛顿运动定律,在四大基本相互作用力里,电磁力、引力、强力的物理规律都具有宇称不变性,由它们支配的过程都宇称守恒。
但是,剩下的那个弱力呢?
06从宇称守恒到宇称不守恒
宇称,也就是镜面反射对称,在我们日常生活里实在是太常见太熟悉了。镜子里的世界跟镜子外的世界比也就是左右互换了一下,镜子外顺时针旋转的东西在镜子里面在逆时针旋转而已。我们的直觉告诉我们上帝应该是公平的,他没有任何理由偏爱左边或者右边,相对论的成功更是极大地加深了这种思想。
所以,宇称不变性,也就和其它几个最基本的不变性(比如时间平移不变、空间平移不变、旋转不变等等)一样,被物理学家们视为最基本的规律。视为最基本的意思就是说,如果科学家们发现了有什么现象似乎违反了这个规律的时候,大家首先的反应不是这个规律有问题,而是还有其他没有考虑进来的因素。这里最明显的就是时间平移不变性对应的能量守恒了,有很多次物理学家们发现某个物理过程不满足能量守恒,他们不会怀疑能量守恒出了问题,而是去找有什么新粒子或者新现象没有被发现,然后后来他们就真的找到了这样的新粒子新现象,然后顺便去斯德哥尔摩旅了个游,这一招屡试不爽。
宇称不变性跟他的几个兄弟一样,一路帮助物理学家们过关斩将,所向披靡,没有人怀疑宇称守恒的“忠心”。直到有一天,从战火中的中国走出来了两个天才物理学家:杨振宁和李政道。
首先我们要清楚,向物理世界中这些最基本最基础最“显而易见”的东西开炮是需要极大的勇气和极高的洞察力的,这种最底层的根基一旦被动摇了,物理学的世界接下来肯定就要地动山摇、天翻地覆。粗算一下,上一次对如此基础的概念开炮还是爱因斯坦对牛顿绝对时间和绝对空间的抨击,以及量子力学的革命。
两朵乌云引发相对论和量子力学革命的故事我们已经很熟悉了,那么,杨振宁和李政道为什么要向宇称守恒这么基本的东西开炮呢?这个原因还得从弱相互作用,也就是常说的弱力开始说起。
07弱相互作用
我们在自然界发现的所有作用力最终都可以归结为这四种:引力、电磁力、强力、弱力。引力和电磁力我们很熟悉,强力和弱力都发生在原子核里面,我们平常接触不到。强力简单的说就是粘着质子、中子、夸克不让原子核分崩离析的那种力(不然的话,质子都带正电,它们之间同性电荷产生的排斥力早就把原子核给拆了),弱力是造成放射性原子核衰变的那种力,就是中子变成质子,质子变成中子那个过程中的力。
弱力出现最典型的一个场景就是β衰变。
我们都知道原子核是由质子和中子组成的,元素周期表里的那个元素的排序(所谓的原子序数)就是按照质子数来排的。然而,原子核内的质子和中子并不是一直固定不变的,在一定条件下,质子可以变成中子,中子也可以变成质子,这个相互变化的过程就β衰变,而在这个过程中发挥作用的就是弱相互作用力,即弱力。
最早描述弱力的是费米的理论,而这个费米,正是杨振宁和李政道的导师。
08θ-τ之谜
在20世纪四五十年代,科学家们在宇宙射线里探测到了许多新的粒子,这些粒子并没有在理论中被预言,因此被称为“奇异粒子”。由于宇宙射线有许多人为不可控的因素,为了更好的研究,人们开始自己制造粒子加速器。粒子加速器听起来很高大上,但是大家的使用方法其实很简单粗暴:就是把一些粒子加速到很高的速度(因此具有很高的能量),然后把它们当枪使,让这些高能粒子去撞各种东西,看看能不能撞出一些新东西出来。
不过,虽然手法简单,但是效果却非常显著:科学家们撞出了一堆稀奇古怪的“奇异粒子”,而在这些粒子当中,物理学家们最感兴趣的就是θ和τ粒子。它们有一些非常奇特难解的特性,被当时的物理学家们成为“θ-τ之谜”。
θ和τ这两种粒子的生命非常短,很快会衰变成其他的粒子,物理学家们也是通过观察衰变之后东西才推测它们的存在。它们奇怪的地方就在于:θ粒子在衰变的时候会产生两个π介子,而τ粒子在衰变的时候会产生三个π介子。
有人会说这有什么奇怪的?一个粒子衰变产生两个那个叫啥π介子的东西,另一个产生三个,这不是很稀松平常的事么,难道粒子衰变生成几个介子还要受法律约束不成?
没错,单纯这有看,确实没什么奇怪的。但是,随后人们就发现,θ和τ这两种粒子无论是电荷、自旋还是质量都一模一样,这哥俩无论怎么看都像是同样一个粒子,但是它们的衰变结果却不一样,这就尴尬了。
更为尴尬的是,澳大利亚的物理学家达利兹仔细的研究了这两个粒子,利用当时普遍被接受的物理定律去做了一个计算分析,结果表明θ和τ的宇称数不一样,因此不可能是同一种粒子。
当时的局面是,有人认为θ和τ是不同的粒子,有人认为他们是相同的粒子,但是认为它们是相同粒子的人也无法解释为什么它们的衰变结果和宇称数不一样(也就是宇称不守恒)。其实,当时一些科学已经注意到宇称守恒的成立与否是一个重要的方向,但是由于对称性在理论物理里实在太重要了,要去质疑它们要不是极聪明就是极蠢。另外,关于宇称的定律在之前的粒子物理里一直都用的很好,因此只要提出宇称不守恒的想法,很快就会碰到互相抵触的地方。
如果杨振宁和李政道认为宇称不守恒是解开θ-τ之谜的关键点,那就得先得把那些相互抵触的问题都解决掉,并且还要解释为什么之前的各种相关现象并不违反宇称守恒。
当然,他们做到了!
09弱相互作用下的宇称不守恒
在前面我们就提到了,基本相互作用力里的强力和弱力都是在原子核发生的,因此,这两种力很容易搅和在一起。有些物理学家即便感觉宇称可能不守恒,但是一旦他们认为宇称在强力和弱力下都不守恒,接下来肯定会碰到满头包。
杨振宁和李政道敏锐的发现了这一点:把原子核黏在一起的是强力,原子核发生衰变是弱力,如果我们把这两个过程的对称性分开来看,也就是说,假如我只认定宇称在强相互用力中守恒,而在弱相互作用力中不守恒,那θ-τ之谜看起来就容易多了。
把强、弱相互作用力区分讨论宇称性,这是一个很美妙的想法。如果弱相互作用下宇称不守恒,那么θ和τ粒子就可以看做同一个粒子不同衰变方式,于是杨振宁和李政道就把目光锁定到弱相互作用去了。因此,虽然θ和τ粒子的衰变过程也是弱相互作用,但是这种奇异粒子的弱相互作用我们了解有限,既然要研究弱相互作用,那当然是研究我们最熟悉的弱相互作用了。那么,我们最熟悉的弱相互作用是什么呢?大声说出来:
β衰变!β衰变!β衰变!
答案当然是β衰变,所以,杨、李二人立马就对过去已有的各种β衰变进行计算考查,结果他们发现:在过去所有的β衰变实验里,实验结果跟β衰变中宇称是否守恒完全没有关系。这是一个令人震惊的结果,也就是说,在过去的那些有弱相互作用力参与的β衰变实验里,宇称守恒与否并不会影响他们的实验结果,所以杨振宁和李政道的想法并没有被过去的实验证伪。
当然,也没有被证实。
后来,杨振宁这样描述他们对这个结果的反应:长久以来,在毫无实验根据的情况下,人们都相信弱相互作用下宇称守恒,这是十分令人惊愕的。但是,更令人惊愕的是,物理学如此熟知的一条时空对称定律面临破产,我们不喜欢这种前景,只是因为试图理解θ-τ之谜的其他各种努力都归于失败,我们才不得不考虑这样一种情景。
现在新的问题来了:既然β衰变是典型的弱相互作用,那么为什么我们之前做的那么多β衰变的实验都刚好跟宇称守恒无关呢?经过一番苦思冥想之后,杨、李发现了问题的关键:要想用实验检验弱相互作用中宇称是否守恒,必须测量赝标量(这是跟核的自旋和电子的动量相关的一个物理量,有个印象就行),而之前的β衰变实验都没有测量这个,所以实验结果就跟宇称是否守恒完全无关。
认识到这一点之后,杨振宁和李政道就重新设计了几个可以检验宇称是否守恒的实验,并把具体的实验方法和之前的分析都写进那篇非常著名的论文《在弱相互作用中,宇称是否守恒?》中去了,然后投给了《物理评论》。但是,等论文发表的时候,论文题目却被杂志的编辑改成了《对于弱相互作用中宇称守恒的质疑》,原因是编辑认为一篇论文的标题不应该是一个问句,虽然杨振宁认为前者要好得多。
上图便是这篇经典论文的截图,论文我已经给大家找到了。想要亲眼目睹杨振宁、李政道这两位物理学大师的这篇论文的,可以在我的公众号(长尾科技)里回复“宇称不守恒论文”获取论文的中文版和英文版。
论文发表之后,虽然他们在文章里对“弱相互作用力下宇称不守恒”的问题做了很详尽的讨论,还提出了一些可以检验的实验办法。但是,由于宇称守恒过去在各个方面表现得实在是太好了,而且这些实验也都不是那么简单的,所以他们的论文一开始并没有引起什么热烈的反应。
10实验女王吴健雄
当时想请一位实验物理学家来做验证宇称是否守恒的时候可不是那么简单的事,实验物理学家考虑的是:是否值得去做一个实验来验证宇称是否守恒?杨振宁和李政道虽然提出了几个具体的实验方案,但是这些实验都非常困难,并且,当时物理学家的眼里,宇称守恒是绝对可靠的,做这样的实验几乎就等于白费精力。
这种想法在当时是极为主流的。
有一个叫拉姆齐的实验物理学家后来也想做验证宇称是否守恒的实验,费曼告诉他“那是一个疯狂的实验,不要再上面浪费时间”,他还以10000:1来赌这个实验不会成功,后来改成了50:1,但是由于橡树岭实验室不支持,所以拉姆齐只得作罢。当宇称不守恒被实验证明之后,费曼倒是很守信的开了一张50美元的支票给拉姆齐,算是给拉姆齐的一个安慰奖。以眼光毒辣,被称为“上帝之鞭”“物理学的良心”的泡利听说吴健雄在做这个实验之后,他说他愿意下任何赌注来赌宇称一定是是守恒的,后来他自己也开玩笑说幸好没有人跟他赌,不然他就得破产了(不知道这些物理学家怎么这么喜欢赌博,应该打110和911叫警察全抓起来~)。最严重的是朗道,朗道不仅自己公平批评质疑宇称守恒的想法,他有个叫沙皮罗的学生在研究介子衰变的时候也觉得宇称应该不守恒,写了篇论文给朗道审阅,朗道直接给他丢一边去了。几个月后杨振宁和李政道发表了宇称不守恒的论文,接着吴健雄用实验做了证明,第二年还去斯德哥尔摩捧回了炸药奖,朗道这才追悔莫及。
当然,我们也不能说如果朗道没有无视沙皮罗的论文,苏联就会先发现宇称不守恒,然后先得到一个诺贝尔奖。因为当时质疑宇称守恒的人很多,但是光质疑没用,原因我们上面也说了,你从宇称不守恒出发,一出门就得到处碰壁。杨振宁和李政道是极为敏锐的意识到在宇称守恒这个问题上要把强相互作用和弱相互作用分开,把目光锁定在弱相互作用之后他们去全面审查所有的β衰变实验,然后发现过去的β衰变实验跟宇称是否守恒无关,再接着他们发现了这个无关跟所谓的赝标量有关,于是他们设计包含测量赝标量的实验,并得到了吴健雄的鼎力支持(想想拉姆齐的实验,橡树岭实验中心都不支持它,你就知道吴健雄的支持是哪种粒度的支持了)才得以完成。这所有的环节缺一不可,并不是简单你以为宇称不守恒就能去斯德哥尔摩一游的,炸药奖不是这么好拿的。
吴健雄的天才在这里不是表现在设计了多么巧妙的实验,而是表现在大环境对验证宇称是否守恒如此不利的情况下(想想费曼、泡利、朗道都是什么级别的人物),她全力支持杨振宁和李政道的想法。她不仅要做实验,还要迅速做赶快做,要赶在其他的实验物理学家意识到这个实验的重要性之前做出来。为此,她把取消了去日内瓦的高能物理会议,取消了准备去东南亚的演讲旅行,她和她丈夫已经预订了“伊丽莎白王后号”的船票,结果她公然放了她丈夫的鸽子,让他一个人去日内瓦,吴健雄自己留下来做实验。
吴健雄于满清王朝覆灭那年(1912年)在江苏苏州出生,被称为“实验核物理的执政女王”,“东方的居里夫人”,她参与了曼哈顿计划,并成为美国物理学会第一个妇女主席,是世界上最杰出的实验物理学家之一。
有如此优秀的吴健雄的鼎力支持,实验当然就没什么好担心的了。但这里我并不打算给大家讲吴健雄的实验,我给大家看一个更简单直观的图像。下图就是一个旋转的原子核衰变的时候放出一个电子的图像,中间是一面镜子,我们从上往下看的时候,镜子外的原子核是顺时针方向旋转,而镜子里面的原子核是逆时针旋转。也就是说,一个旋转的原子核的镜像旋转的方向跟它本身旋转方向是相反的。物理学家们约定,左手顺着旋转的方向,大拇指的方向就是原子核旋转的方向,所以,如箭头所示,静止外面的原子核旋转方向向上,而镜子里面的向下。
我们也很容易想象,镜子里外的原子核旋转方向虽然相反,但是如果外面的电子往上飞,镜子里面的电子也往上飞,这很符合常识,没什么奇怪的,这就是宇称守恒时候的样子。但是,如果哪天你看到镜子里电子居然是朝下发射的,你会不会觉得见鬼了?
当然,物理学家说的镜像并不是真的去看镜子,镜子无论怎么照肯定都是这样。他们的意思是:如果我再找来一个原子核,让这个原子核跟镜子里的原子核一模一样(也即是大小质量啥的都相等,但是旋转方向不一样),我们就说这两个原子核互为镜像。
然后我再去观察这个镜像原子核,如果它跟镜子里一样也是向上发射电子,那就不奇怪,是宇称守恒;如果它跟镜子里发射电子的方向相反,也就是向下发射电子,那么宇称就不守恒了。
当然,上面只是理论分析,真正要做实验的话,有两个难点:第一,分子、原子、原子核都在杂乱无章的做热运动,你怎么让它跟上图一样安静下来旋转?答案是给它降温。温度就是微观粒子热运动的一个表现,温度降下来了它们自然就不闹腾了,所以吴健雄做实验的时候把温度降到了只比绝对零度(-273.15℃,粒子不动的时候的温度,无法达到)高0.01K;第二,因为微观粒子具有不确定性,我不可能去观察一个原子核发射电子的方向,我只能观察一堆原子核衰变然后统计他们发射电子方向的概率。于是,我得让原子核都按照一定的方向旋转,这个技术叫原子核的极化,这在当时是妥妥的高科技。
这下子知道为什么说实验的难度巨大了吧,不过不管怎样,吴健雄完成了实验,她测量了一束钴60衰变放出电子的方向,证明宇称在弱相互作用下是不守恒的。实验结果出来的时候,吴健雄自己都不相信这个结果,她生怕这是哪里的实验误差导致的,于是小心谨慎的再回去检验。她也只把初步的实验结果跟杨振宁和李政道说了,并且让他们暂时不要对外公布,但是,显然杨、李二人对这个实验结果并没有那么吃惊,于是迫不及待的就告诉别人了。
消息一出,整个物理学界都震惊了!他们立刻去做其他验证宇称守恒的实验,结果实验准确无误的显示:在弱相互作用下,宇称原来真TM的不守恒!
11宇称不守恒的影响
诺贝尔奖只是宇称不守恒一个很小的注脚。杨振宁和李政道在1956年10月发表了《对于弱相互作用中宇称守恒的质疑》的论文,吴健雄随后给了实验验证,诺组委立马把1957年的诺贝尔奖颁给了35岁的杨振宁和31岁的李政道。要知道爱因斯坦在1905年提出来光量子说和狭义相对论,1915年完成广义相对论,然后诺组委一直拖拖拉拉到1921年,也就是爱因斯坦42岁的时候才给颁奖。
因为宇称不守恒(即便只是在弱相互作用下)并不是一个局部性的理论发展,它影响了整个物理学界的方方面面,是囊括了分子、原子和基本粒子物理的一个基本革命。我在前面花了很大的篇幅给大家介绍了为什么对称性在20世纪物理学里这么重要(对称性对应守恒律),特别是爱因斯坦的相对论在时空对称方面取得的巨大成就,还有量子力学里对对称性的极度重视,使得那时候人们对对称性的信仰和依赖丝毫不比20世纪之前人们对牛顿绝对时空观的依赖弱。
20世纪初,洛伦兹、彭加莱这些人都已经走到狭义相对论的门口了,但是就是不愿意放弃牛顿绝对时空的概念,因此被年轻的爱因斯坦后来居上。20世纪50年代的时候,全世界都在为θ-τ之谜绞尽脑汁,但是费曼、泡利、朗道这样的物理学大师都不愿意假设宇称不守恒,从而让年轻的杨振宁和李政道后来居上。他们不愿意放弃宇称守恒,因为这些大师们太清楚对称性在物理学的重要程度了,而且基于他们的审美观念,他们绝不愿意相信上帝会是一个左撇子。
宇称不守恒的发现震碎了人们对上帝绝对对称的信念,迫使人们重新思考对称的问题,这一转向导致了后来许多深刻的发现。人们慢慢发现,上帝虽然喜欢对称,但是并不喜欢绝对对称,因为绝对对称必然导致大家都一样,从而缺乏生机(你想想如果全世界的人都长一个样,那将是多么恐怖的一件事)。假设宇宙在初期都是绝对对称的,那么所有的粒子和相互作用都一样,那么怎么会有后来引力、电磁力、强力、弱力的区分呢?所以,最开始的对称在一定条件下是会慢慢变成不对称的,这样对称就破缺了,对称破缺之后就出现了不同的东西。
比如现在已经知道了的:电磁力和弱力在早期就是完全同一种力,叫电弱力,后来随着宇宙的环境温度慢慢变化,发生了对称性破缺,电弱力就分成了现在的电磁力和弱力两种。电磁力和弱力的统一是二战后物理学的一个巨大成就,统一他们的是一种被称为杨-米尔斯的理论,而这个杨-米尔斯里的这个杨,正是我们这篇文章的主人公之一的杨振宁。其实,除了已经完全统一了的电弱相互作用,现在用来描述强相互作用的量子色动力学也是一种杨-米尔斯理论。正因如此,杨-米尔斯方程在现代物理学里极为重要,这是继麦克斯韦方程组和爱因斯坦引力场方程之后最为重要的一组方程。相比给杨振宁先生了带来诺贝尔奖的宇称不守恒,杨-米尔斯方程才是杨振宁先生的最高成就,也是东方人在物理学上的最高成就。
关于杨-米尔斯方程的事情,我在后面会用更大的篇幅给大家做更详尽的介绍。虽然杨米尔斯-方程和规范场很复杂,但是我会尽力用极通俗的语言和清晰的逻辑给大家理清楚,怕错过的盯住我的公众号就行了,公众号里都是我自己写的文章。其实大家也不要有畏惧心理,不要被一堆公式吓住了,宇称不守恒一样很麻烦很复杂,可是,一路看到这里来的朋友,我相信对宇称不守恒的事情基也基本上搞清楚了。看,现代物理也没想象的那么可怕~
12结语
在文章的最后,我想跟大家聊点科学以外的事情。
宇称不守恒震惊了全世界以后,人们开始想到,为什么偏偏是两个中国人(宇称不守恒的论文发表于1956年,杨振宁和李政道加入美国国籍的时间分别为1964年和1962年,所以那会儿他们还都是中国国籍)引导物理学界跨过了这道坎,解决了一个“物理学理论根本结构”的问题?而坚持要做验证宇称是否守恒实验的,也是一个刚刚加入美国国籍的华裔科学家吴健雄。
美国一位杂志编辑坎佩尔推测,也许东西方的某些文化差异促使中国科学家去研究自然法则的不对称性。《科学美国人》的编辑,著名的科学作家马丁·加德纳更是认为,中国文化素来就重视不对称性,在中国文化里极为重要的太极图就是一个非对称分割的圆,这里的黑白两色代表阴和阳。阴阳表示了自然界、社会以及人的一切对偶关系,如善恶、美丑、雌雄、左右、正负、天地、奇偶、生死……无穷无尽。而且最美妙的是每一种颜色重都有另一种颜色的一个小圆点,这意思是指出阴中有阳,阳中有阴;美中有丑,丑中有美;生中有死,死中有生;对称中有不对称,不对称中有对称……这种不对称性的思想传统也许早就使杨振宁和李政道受到了潜移默化、耳濡目染的影响,从而使他们比重视对称性的西方科学家更容易打破西方科学传统中保守的一面。
太极图我们再熟悉不过了,阴阳相生相克的道理我也明白。马丁·加德纳的说法到底有没有道理,长尾科技就不在这里妄下结论了,留给大家自己思考吧。
最后,经过后来几十年的研究,人们对弱相互作用下宇称如何不守恒已经基本弄清楚了,但是对宇称为什么会不守恒仍然是一头雾水,特别是为什么宇称在其它三种相互作用下守恒,偏偏在弱相互作用下不守恒。
这个接力棒,就交给你了~
收起阅读 »深度:杨-米尔斯理论说了啥?为什么说这是杨振宁超越他诺奖的贡献?
在上一篇文章《深度:宇称不守恒到底说了啥?杨振宁和李政道的发现究竟有多大意义?》里,长尾君用了很长的篇幅跟大家聊了聊宇称不守恒的事。大家也知道杨振宁和李政道先生因此斩获了全球华人的第一个诺贝尔奖,然而,对杨振宁关注多一点的人就会经常听到这样一个说法,说宇称不守恒虽然为杨振宁赢得了物理学界至高无上的诺贝尔奖,但这并不是他的最高成就,杨先生最大的贡献是杨-米尔斯理论。
这下子很多人就懵圈了。杨-米尔斯理论是啥?上学的时候老师肯定没讲过,去百度上搜,搜出来结果更是一头雾水,那都是只有懂的人才能看得懂的东西。隐隐约约能感觉到杨振宁先生好像做了什么非常了不起的工作,但是要具体说他做了啥,在科学上有啥意义,就迷糊了。
那杨-米尔斯理论到底重不重要?重要,当然重要,绝对的重要,这是现代规范场论和粒子物理标准模型的基础。在讲宇称不守恒的时候我就说过,杨-米尔斯理论是一个背景更加宏大的故事。宇称不守恒虽然也影响了物理学的方方面面,但是我们把它单独拎出来还是马马虎虎能讲清楚的,而杨-米尔斯理论就不一样了,想要把它搞清楚,我们得把视角上升到整个物理学发展的高度上来,因为这是一个跟物理学主线密切相关的故事。
01物理学的主线
物理学家到底在研究什么?
大自然中有各种各样的现象,有跟物体运动相关的,有跟声音、光、热相关的,有跟闪电、磁铁相关的,也有跟放射性相关的等等。物理学家们就去研究各种现象背后的规律,然后他们得到了一堆关于运动啊,声学、光学、热学之类的定律,然后物理学家们就满意了么?
当然不满意,为啥?定律太多了!
你想想,如果每一种自然现象都用一种专门的定律来描述它,那得有多少“各自为政”的定律啊。于是物理学家们就想:我能不能用更少的定律来描述更多的现象呢?有没有可能有两种现象表面上看起来毫不相关,但是在更深层次上却可以用同一种理论去描述?有没有可能最终用一套理论来描述所有的已知的事情?
这个事情,本质上就跟秦始皇要统一六国一样,我决不允许还有其他六个各自为政的国家存在,必须让所有人遵守同样的法律,服从同一个政令,用同样的语言和文字,这样才和谐。物理学家的统一之路,也是这样浩浩荡荡地开始的。
牛顿统一了天上和地上的力,麦克斯韦统一了电、磁、光。到了19世纪,随着人们对微观世界研究的深入,许多在宏观上风牛马不相及的东西,在微观层面上却很好的统一了起来。比如我们熟悉的支持力、弹力、摩擦力之类的东西,在宏观上它们确实是不同的东西,但是到了微观一看:这些杂七杂八的力全都是分子间作用力造成的,而分子间作用力本质上就是电磁力。并且,这些分子、原子运动的快慢,在宏观层面上居然体现为温度,然后热现象就变成了一种力学现象。
于是,到了19世纪末,人类所有已知现象背后的力就都归结为引力和电磁力,其中引力由牛顿的万有引力定律描述,电磁力由麦克斯韦方程组描述。但尴尬的是,麦克斯韦方程组和牛顿力学这套框架居然是矛盾的,那么到底是麦克斯韦方程组有问题还是牛顿力学的这套框架有问题呢?
爱因斯坦说麦克斯韦方程组没毛病,牛顿的框架有问题。于是爱因斯坦升级了一下牛顿的这套框架,在新框架下继续跟麦克斯韦方程组愉快的玩耍,这套升级后的新框架就叫狭义相对论。
在狭义相对论这个新框架里,麦克斯韦方程组不用做任何修改就能直接入驻,这是一等公民。另外,牛顿力学里有些东西无法直接搬过来,但是稍微修改一下就可以很愉快的搬到这个新框架里来,比如动量守恒定律(直接用牛顿力学里动量的定义,在狭义相对论里动量是不守恒的,需要修改一下就守恒了),这是二等公民。还有一类东西,无论怎么改都无法让它适应这个新框架,这是刁民。
刁民让人很头痛啊,不过还好,虽然有刁民,但是刁民的数量不多,就一个:引力。牛顿的万有引力定律在牛顿力学那个框架里玩得很愉快,但是它骨头很硬,不管怎么改,它就是宁死不服狭义相对论这个新框架,那要怎么办呢?当然,我们可以继续改,我们相信虽然现在引力它不服,但是以后总能找到让它服气的改法。但是爱因斯坦另辟蹊径,他说引力这小子不服改我就不改了,然后他另外提出了一套新理论来描述引力,相当于单独给引力盖了一栋别墅。结果这套新引力理论极其成功,而且爱因斯坦提出这套新理论的方式跟以往的物理学家们提出新理论的方式完全不一样,这种新手法带来梦幻般的成功惊呆了全世界的物理学家,然后爱因斯坦就被捧上天了,这套新理论就叫广义相对论。
爱因斯坦用广义相对论驯服了引力,用狭义相对论安置好了电磁力之后,接下来的路就很明显了:统一引力和电磁力,就像当年麦克斯韦统一电、磁、光那样,毕竟用一套理论解释所以的物理现象是物理学家们的终极梦想。但是,爱因斯坦穷尽他的后半生都没能统一引力和电磁力。不仅如此,随着实验仪器的进步,人们撬开了原子核,在原子核内部又发现了两种新的力:强力和弱力。
这下可好,不但没能统一引力和电磁力,居然又冒出来两种新的力。所以,我们现在的局面变成了有四种力:引力、电磁力、强力和弱力。其中,引力用广义相对论描述,电磁力用麦克斯韦方程组(量子化之后用量子电动力学QED)描述,强力和弱力都还不知道怎么描述,统一就更别谈了。
到了这里,我们这篇文章的主角杨-米尔斯理论终于要登场了,我先把结论告诉大家:现在强力就是用杨-米尔斯理论描述的,弱力和电磁力现在已经实现了完全的统一,统一之后的电弱力也是用杨-尔斯理论描述的。也就是说,在四种基本力里,除了引力,其它三种力都是用杨-米尔斯理论描述的,所以你说杨-米尔斯理论有多重要?
同时,我们也要知道,杨-米尔斯理论是一套非常基础的理论,它提供了一个非常精妙的模型,但是理论本身并不会告诉你强力和电弱力具体该怎样怎样。盖尔曼他们把杨-米尔斯理论用在强力身上,结合强力各种具体的情况,最后得到的量子色动力学(QCD)才是完整描述强力的理论。格拉肖、温伯格和萨拉姆等人用来统一弱力和电磁力的弱电统一理论跟杨-米尔斯理论之间也是这种关系。他们之间的具体关系我们后面再说,这里先了解这些。
以上就是一部极简的物理学统一史,只有站在这样的高度,我们才能对杨-米尔斯理论有个比较清晰的定位。统一是物理学的主线,是无数物理学家们孜孜以求的目标,杨-米尔斯能在这条主线里占有一席之地,其重要性不言而喻。有了这样的认知,我们才能继续我们下面的故事。
在物理学的统一史里,有一个人的工作至关重要,这个重要倒不是说他提出了多重要的理论(虽然他的理论也极其重要),而是他颠倒了物理学的研究方式。以他为分水岭,物理学家探索世界的方式发生了根本的改变。正是这种改变,让20世纪的物理学家们能够游刃有余的处理比之前复杂得多得多的物理世界,让他们能够大胆的预言各种以前想都不敢想的东西。这种思想也极其深刻的影响了杨振宁先生,杨振宁先生反过来又把这种思想发扬光大,最后产生了精妙绝伦的杨-米尔斯理论。
那么这个人是谁呢?没错,他就是爱因斯坦。那么,爱因斯坦究发现了什么,以至于颠倒了物理学的研究方式呢?
02被颠倒的物理学
大家先想一想,爱因斯坦之前的物理学家是怎么做研究的?
他们去做各种实验,去测量各种数据,然后去研究这些数据里的规律,最后用一组数学公式来“解释”这些数据,如果解释得非常好,他们就认为得到了描述这种现象的物理定律,然后顺带着发现了隐藏在理论里的某些性质,比如某种对称性。在这里我们能清晰的看到实验-理论-对称性这样一条线,这也符合我们通常的理解。
但是,爱因斯坦把这个过程给颠倒了,他发现上面的过程在处理比较简单的问题的时候还行,但是当问题变得比较复杂,当实验不再能提供足够多的数据的时候,按照上面的方式处理问题简直是一种灾难。
比如,牛顿发现万有引力定律的时候,开普勒从第谷观测的海量天文数据里归纳出了行星运动的三大定律,然后牛顿从这里面慢慢猜出了引力和距离的平方反比关系,这个还马马虎虎可以猜出来。我们再来看看牛顿引力理论的升级版-广义相对论的情况:
上图是广义相对论的引力场方程,你告诉我这种复杂的方程要怎样从实验数据里去凑出公式来?况且,广义相对论在我们日常生活里跟牛顿引力的结果几乎一样,第谷观测了那么多天文数据可以让开普勒和牛顿去猜公式,但是在20世纪初有啥数据让你去猜广义相对论?水星近日点进动问题是极少数不符合牛顿引力理论的,但是人们面对这种问题,普遍第一反应是在水星里面还有一颗尚未发现的小行星,而不是用了几百年的牛顿引力有问题。退一万步说,就算你当时认为那是因为牛顿引力不够精确造成的,但是就这样一个数据,你怎么可能从中归纳出广义相对论的场方程?
经过一连串的深度碰壁之后,爱因斯坦意识到当理论变得复杂的时候,试图从实验去归纳出理论的方式是行不通的,洛伦兹不就是被迈克尔逊-莫雷实验牵着鼻子走,最终才错失发现狭义相对论的么?实验不可靠,那么爱因斯坦就要找更加可靠的东西,这个更加可靠的东西就是对称性!
于是爱因斯坦在物理学的研究方式上来了一场哥白尼式的革命:他先通过观察分析找到一个十分可靠的对称性,然后要求新的理论具有这种对称性,从而直接从数学上推导出它的方程,再用实验数据来验证他的理论是否正确。在这里,原来的实验-理论-对称性变成了对称性-理论-实验,对称性从原来理论的副产品变成了决定理论的核心,实验则从原来的归纳理论的基础变成了验证理论的工具。理解这一转变非常的重要,后面的物理学家都是这么干的,我们要先把思路调对,不然到时候就容易出现各种不适应。
爱因斯坦利用这样思路,先确定了广义坐标不变性,然后从这个对称性出发得到了一套新的引力理论,这就是广义相对论。这也是为什么其他科学家看到广义相对论之后一脸懵逼,而且说如果不是爱因斯坦,恐怕50年之内都不会有人发现这套理论的原因。爱因斯坦是第一个这么反过来干的,广义相对论大获成功之后人们才发现原来理论研究还可以这么干,这种思想后来被杨振宁先生发扬光大,并形成了“对称决定相互作用”这样的共识。
爱因斯坦完成广义相对论之后,继续朝着更伟大的目标“统一场论(统一引力和电磁力)”进军,在强力和弱力还没有被发现的年代,能够统一引力和电磁力的理论似乎就是终极理论了。我们现在都知道爱因斯坦终其后半生都未能完成统一场论,但是统一场论的巨大光环和爱因斯坦自带的超级偶像的磁场还是吸引了一些物理学家,也带来了一些有意思的新想法。
03规范不变性
我们再来理一理爱因斯坦的思路:爱因斯坦把对称性放在更加基础的位置,然后从对称性导出新的理论。他从洛伦兹不变性导出了狭义相对论,从广义坐标不变性导出了广义相对论,现在我们试图统一引力和电磁力,那么,有一个问题就会很自然地被提上日程:究竟什么样的一种对称性会导出电磁理论呢?
这个问题很自然吧,但是它的答案却不是那么好找的,这么容易就让你找到导致电磁理论的不变性,上帝岂不是太没面子了?麦克斯韦方程组是从前人的实验经验定律总结出来的,并没有指定什么具体的对称性,那要怎么办呢?
不着急,诺特定理告诉我们对称性跟守恒定律是一一对应的,我现在不是要找导出电磁理论的对称性么?那么我就去看看电磁理论里有什么守恒定律呗,最好还是电磁理论里特有的。
说到电磁理论里特有的守恒定律,那肯定就是电荷守恒啊。电荷肯定是只有电磁学才有的东西,而且电荷守恒定律又是这么明显,不管是不是它,它肯定是嫌疑最大的那个,必须抓起来严刑拷问,看看跟它私通的对称性到底是什么。
在外尔的严刑逼供下,电荷守恒招了:跟电荷守恒相对应的对称性是波函数的相位不变性,(在量子力学里粒子的状态是用波函数来描述的,既然波那肯定就有相位),但是由于历史原因,这个相位不变性我们一直称为规范不变性,也叫规范对称性。
这个相位不变性,或者说规范不变性,我们怎么理解呢?为什么麦克斯韦的电磁理论里会有规范不变性呢?如果从公式里看就非常的简单,就是我给它这里做了一个相位变换,它另一个地方就产生了一个相反的相位,总体上刚好给抵消了;如果从直觉上去感觉,你可以想想,在量子力学里,波函数的模的平方代表在这里发现该粒子的概率,你一个波函数的相位不论怎么变,它的模的平方是不会变的啊。如果你还想继续深挖,我推荐你去看一看格里菲斯的《粒子物理导论》(在公众号回复“粒子物理导论”可以获取这本书的电子版),他在第十章里专门用了一章来讨论规范理论,而且很通俗。
总的来说就是:规范不变性导致电荷守恒。
但是事情还没完,外尔接着发现了一件真正让人吃惊的事:我们上面说规范不变性导致电荷守恒,这里说的规范不变性指的是整体规范不变性,但是外尔发现如果我们要求这个规范不变性是局域的,那么我们就不得不包括电磁场。
泡利针对这个做了进一步的研究,1941年,泡利发表了一篇论文,他在论文里严格的证明了:U(1)群整体规范对称性对应电荷守恒,它的局域规范对称性产生电磁理论,甚至可以直接从它推导出麦克斯韦方程组。U(1)群是群论里的一种群的名字,叫酉群(unitary group),或者幺正群,数字1表示这是1阶酉群,我们现在只需要知道对称性在数学上就是用群论来描述,而且通常不同的理论对应不同的群(这里电磁理论就对应U(1)群)就行了。
也就是说,我们现在终于找到了决定电磁理论的对称性,它就是U(1)群的局域规范对称性。U(1)群和规范对称我前面都解释了,那么问题的关键就落在对称性的整体和局域的区别上了。
04整体对称和局域对称
整体对称,顾名思义,如果一个物体所有的部分都按照一个步调变换,那么这种变换就是整体的。打个比方,舞台上所有的演员都同步地向前、向后走,或者全都做同样的动作,观众看着演员都整整齐齐的,觉得所有人都像是一个人的复制品一样,这样的变换就是整体的。如果经过这样一种整体的变换之后,它还能保持某种不变性,我们就说它具有整体对称性。
有了整体对称的概念,局域对称就好理解了,类比一下,如果一个物体不同的部分按照不同的步调变换,那么这种变换就是局域的。还是以舞台为例,导演为了使表演更具有个性,他想让演员表现出波浪的样子,或者是千手观音那样,再或者是形成各种不断变化的图案,这种时候每个人的动作变换就不一样了吧,也不会说所有人都像一个人的复制品一样了,这时候这种变换就是局域的。因为它不再是所有的人按照一个规则变换,而是局部的每个人都有他局域特有的变换规则。同样的,如果经过这样一种局域的变换之后,它还能保持某种不变性,我们就说它具有局域对称性。
从上面的情况我们看出来,整体变换要简单一些,所有的地方都按照同样的规则变换,而局域变换就复杂多了,不同的地方按照不同的规则变换。所以,很明显,如果你要求一套理论具有某种局域对称,这比要求它具有整体对称复杂得多,局域变换对物理定律形式的要求就更加严格一些。但是,你一旦让它满足局域对称了,它能给你的回报也会多得多。
还是电磁理论的例子:整体规范对称性下我们只能得到电荷守恒,但是一旦要求它具有局域规范对称性,整个电磁理论,甚至麦克斯韦方程组都直接得到了。电荷守恒和麦克斯韦方程组,这就是整体对称和局域对称给的不同回报,孰轻孰重差别很明显吧?电荷守恒是可以直接从麦克斯韦方程组里推导出来的。
以上是偏科普的解释,从数学的角度来说,整体变换就是你所有的变换跟时空坐标无关,局域变换就是你的变换是一个跟时空坐标相关的函数。跟时空坐标相关的函数,其实就是说不同的时空点,这个函数值是不一样的,也就是说变换不一样。
不管从哪种解释(从数学更容易),我们其实都可以看出:整体变换其实只是局域变换的一种特例。局域变换里变的是一个跟时空坐标相关的函数,但是这个函数的值也可以是一个定值啊,这时候局域变换就退化成整体变换了。
那么,一个大胆的想法就产生了:在电磁理论里,整体规范对称性对应着电荷守恒,但是我一旦要求这个整体规范对称性在局域下也成立,我立马就得到了整个电磁理论。那么我可不可以把这种思想推广到其他领域呢?比如强力、弱力,有没有可能同样要求某种整体对称性在局域成立,然后可以直接产生强力、弱力的相关理论呢?
这是一个十分诱人的想法,杨振宁从他读研究生的时候就在开始琢磨这个事,但是一直到十几年后的1954年,也就是他32岁的时候才有结果,这个结果就是大名鼎鼎的非阿贝尔规范场论,也叫杨-米尔斯理论。
05杨振宁的“品位”
在我们正式讲杨-米尔斯理论之前,我们先来聊一聊杨振宁先生的品位。
有一个曾经跟爱因斯坦共事过的物理学家这样回忆:我记得最清楚的是,当我提出一个自认为有道理的设想时,爱因斯坦并不与我争辩,而只是说:“啊,多丑!”。只要他觉得一个方程是丑的,他就对之完全失去了兴趣,并且不能理解为什么还会有人愿意在上面花这么多时间。他深信,美是探索理论物理中重要结果的一个指导原则。
爱因斯坦自己也说:“我想知道上帝是如何创造这个世界的。对这个或那个现象、这个或那个元素的谱我并不感兴趣。我想知道的是他的思想,其他的都只是细节问题。”
爱因斯坦对一个理论的美学要求达到了一种不可思议的地步。从麦克斯韦电磁学里发现的洛伦兹不变性成了狭义相对论的核心,但是爱因斯坦觉得狭义相对论偏爱惯性系,这点让他很不满。他觉得洛伦兹不变性的范围太窄了,上帝不应该让这么美的思想之局限在惯性系里,所以他要以一个在所有参考系里都成立的不变性为前提,重新构造一个新的理论,这就是广义坐标不变性和广义相对论的来源。
说白了,爱因斯坦就是觉得:这么好的对称性,这么美的想法,如果上帝你不选用它作为构造世界的理论,那上帝简直就是瞎子。爱因斯坦深信上帝一定是用简单和美来构造这个世界的,所以我从如此简单和美的对称出发构造的理论一定是有意义的。
杨振宁先生的品位,跟爱因斯坦几乎是一模一样的,这也是一位对理论的美学要求达到了不可思议地步的人。杨振宁先生最为崇敬的物理学家就是爱因斯坦,他对爱因斯坦颠倒物理学的研究方式,把对称性放在极为重要的位置,以及对科学理论简单和美的追求都有非常深刻的领悟。除此之外,杨振宁还有一个一般物理学家不具备的优势:他有一个非常厉害的数学家老爹,这就使得杨振宁的数学水平比同时代的物理学家高出很多。数学在现代物理中有多重要不用我多说,这就叫凭实力拼爹~
杨振宁先生是父亲杨武之是著名的数学家和数学教育家,是数学教育家就意味着他会以一种非常恰当的方式让杨振宁接触并喜欢数学。杨振宁还是中学生的时候,他就从父亲那里接触到了群论的基础原理。诺特定理的发现让物理学家们重视对称性,但是他们对群论这种对称性的数学语言却没有足够的重视。当时很多物理学家都反对把群论这种过于抽象的数学语言引入到物理学里来,怼神泡利直接把群论嘲讽为“群祸”,薛定谔表示附议,爱因斯坦也只是把群论当做一个细枝末节的工作。
幸运的是,杨武之恰好是擅长群论的数学家,他在清华大学开过群论的课程,当时华罗庚、陈省身这些未来的数学大师都来听过课。有这样的父亲,杨振宁对群论肯定不陌生,而杨振宁在西南联大学士论文的题目选的就是《群论和多原子分子的振动》,他的老师吴大猷就借此引导他从群论开始关注物理学的对称性问题。
所以,年纪轻轻的杨振宁就已经非常重视物理学的对称性问题,并且在那个其他物理学家还在普遍怀疑群论的年代,他已经很好的掌握了群论这种研究对称性的重要工具,这无疑是非常幸运的。有这样的杨振宁,他会对泡利在1941年发表的那篇论文感兴趣是很自然的。
06对称性的推广
我们把眼光再拉回20世纪四五十年代,这时候人们已经知道自然界除了电磁力和引力之外还有强力和弱力,强力把质子和中子黏在一起(不然质子都带正电,同性相斥早就把原子核拆了),弱力在原子核衰变的时候发挥作用(比如中子衰变变成质子、电子和反中微子的β衰变)。但是那时候对强力和弱力的认识都还非常的肤浅,汤川秀树的介子理论、费米的四费米子理论都能只能解释强力、弱力的一些现象,还有大把的问题他们没法解决,谁都知道这些理论只是关于强力、弱力的一个过渡理论,最后肯定要被更加精确的理论取代,但是该怎样去寻找更加精确的理论,大家心里也都没谱,没有一个十分清晰的思路。
但是杨振宁先生那时候的思路确是很清晰的:他对理论的美学要求是跟爱因斯坦一样苛刻的,因此,任何只是试图粗糙、唯象的模拟强力、弱力的理论他都懒得搭理(就跟爱因斯坦嫌弃它们长得丑一样)。然后,加上数学大牛的父亲和恩师吴大猷的悉心栽培,杨振宁那先生对数学的群论、物理学的对称性都有非常深刻的理解,所以他就特别理解外尔那种想法的重要性。所以,他要不惜一切代价的扩展它。
外尔发现U(1)群整体规范对称性对应电荷守恒,但是,一旦我把这个整体对称性推广到局域,我就可以直接得到整个电磁理论。这种想法对物理学上有“洁癖”的杨振宁来说,吸引力实在是太大了,因为它实在是太美太简洁,给出的回报也太丰厚。如果我在强力、弱力里通过把某种规范对称性从整体推广到局域,是不是也可以得到关于强力、弱力的理论呢?
我们从事后诸葛亮的角度看,好像这一切都显得很自然,好像只要是物理学家都应该想到这个。但其实不然,且不说当爱因斯坦在搞统一场论的时候,他就已经被所谓的主流物理学界给边缘化了,外尔跟着爱因斯坦搞统一场论时提出的这种想法跟着被边缘化是很正常的事情。物理学家们每天都要产生各种各样的想法,这些想法哪些可靠,哪些值得考虑,哪些值得自己深入研究,哪些东西值得自己不顾一切的去守护,这原本就是一个极困难的问题,也是非常考验物理学家水平的事情。
在当时更多物理学家的眼里,外尔这样的手法可能确实很漂亮,但有点“绣花枕头”的嫌疑:麦克斯韦方程组我们早就知道了,狄拉克、费曼等人也已经成功的把电磁场量子化了(就是所谓的量子电动力学),你在电磁领域这样颠来倒去好像确实很漂亮,但是没有增加任何知识啊?好吧,就算你的这个东西可能更普适,可能在强力、弱力里也有用武之地,但是在当时主流的描述强力和弱力的理论(也就是汤川秀树的介子理论和费米的四费米子理论)里,也看不到合适的用武的地方。而且,一般物理学家对“对称决定相互作用”的认识还远远没有达到爱因斯坦和杨振宁的水平,所以他们不怎么关注这个也是自然的。
所以,当时除了杨振宁、泡利、外尔等寥寥几人关注这个以外,其他人对此根本就不关心。而在这些关注的人里,杨振宁又无疑是其中对此关注度最高的一个,毕竟本科论文就是做的这个,后来给他带来诺贝尔奖的宇称不守恒也是关于对称性的,他一直对对称性在物理学里的作用保持极高的关注度。
既然想推广外尔的思想,试图通过找到某种新的局域规范对称性来找到强力、弱力的理论,那么关键就是要找到这种对称性。但是怎么找这种对称性呢?当然还是按照诺特定理,去看看强力、弱力里有什么守恒定律呗,最好还是像电荷守恒那样,在那种相互作用力特有的。
07同位旋
杨振宁通过一番审查,发现弱相互作用里暂时没有什么特殊的守恒定律,但是强相互作用力里却有一个现成的:同位旋守恒。而且这个同位旋守恒还只在强相互作用下守恒,在其它作用下不一定守恒,这不刚好么。
同位旋是啥呢?大家只要看一下质子(1.6726231 × 10^-27千克)和中子(1.6749286 ×10^-27千克)的质量,就会发现它们的质量实在是太接近了(差别在千分之一)。而且,人们还发现2个质子、1个质子1个中子、2个中子之间的强相互作用几乎是相同的,也就是说,如果我们不考虑电磁作用,在强相互作用的眼里,质子和中子完全是相同的。
于是,海森堡就来了提出了一个大胆的想法:他认为质子和中子压根就是同一种粒子-核子的两种不同的状态,它们共同组成了一个同位旋二重态。在抽象的同位旋空间里,质子可以“旋转”成为中子,中子也可以“旋转”成为质子,因为质子和中子在强相互作用下是一样的,所以,我们就可以说:强相互作用具有同位旋空间下的旋转不变性。
大家可能注意到我上面的“旋转”打了一个引号,因为我们这里说的旋转并不是在我们常说的真实空间里,而是在核子内部抽象出来的同位旋空间,因此这种对称性又叫内部对称性,而之前我们谈的各种跟时空有关的对称性就叫外部对称性。内部对称性咋一看好像不那么真实,但其实它跟外部对称是一样真实自然的,它们一样对应着守恒定律,强相互作用下同位旋空间里的这种旋转不变性就对应同位旋守恒。
关于同位旋的事情这里就不再多说了,大家只要知道在强相互作用里同位旋是守恒的,并且同位旋空间下质子和中子可以相互旋转得到就行了。
因为描述对称性的数学语言是群论,与同位旋这种对称相对应的群叫SU(2)(特殊幺正群),里面的数字2提醒我们这是两个物体(如质子和中子)相互变换来确定的。我们也先甭管这个SU(2)群到底是什么意思(这是群论的基础知识,感兴趣的自己看群论),只需要知道这个群可以描述两个物体相互变换的这种对称性,跟电磁理论里用U(1)群来描述电磁理论里的对称性一样的就行了。
外尔和泡利发现,只要我们要求系统具有U(1)群的局域规范不变性,我们就能从中推导出全部的电磁理论。那么,杨振宁如果认为强力的本质由质子和中子相互作用产生,那么推广前面的思想,我们就应该要求系统具有SU(2)群的局域规范不变性。
好吧,要推广那就推广吧,不就是把局域规范不变性从U(1)群推广到SU(2)群么,有些人认为科学家们风风雨雨什么没见过,把一个东西从U(1)群推广到SU(2)群应该没什么难度吧?那你就错了,这玩意还真不是这么简单的,广义相对论也不过是把狭义相对论里的洛伦兹不变性推广到了广义坐标不变性,你觉得这个简单么?
U(1)群的问题之所以比较简单,是因为跟U(1)群对应的电磁理论它本身就具有局域规范对称性。也就是说,当我们的麦克斯韦同学写下麦克斯韦方程组的时候,他就已经把U(1)群的局域规范对称性写到这方程里去了,虽然他自己没有意识到。熟悉电磁理论的人都知道其实我们有两套表述电磁场的体系,一套就是我们初中就开始学习的场强体系,还有一套势体系,也就是电磁势这些东西,从这个角度很容易就能看出它的规范不变性。
但是SU(2)这里一切都是空白,没有电磁势这样的东西。杨振宁先生想做的就是要找到类似电磁势这种具有局域规范不变性的东西,然后利用他们来描述强力,所谓的推广是这个样子的一种推广。在这种推广里,最困难的地方就在这四个字:非阿贝尔。
08非阿贝尔群
在前面我跟大家提过,杨-米尔斯理论又叫非阿贝尔规范场论,这个阿贝尔指的是阿贝尔群(以挪威的天才数学家阿贝尔命名),它又叫交换群,通俗的讲就是这个群里的运算是满足交换律的。
最简单的例子就是整数的加法,小学生都知道加法满足交换律:3+5=5+3,不论你加数的顺序怎么交换,最后的结果都不变。于是,我们就说整数和整数的加法构成了一个整数加法群,这个群的运算(加法)是满足交换律的,所以这个整数加法群就是阿贝尔群。
那么,非阿贝尔群自然就是指群的运算不满足交换律的群。那么,不满足交换律的运算有没有呢?当然有了,最常见的就是矩阵的乘法。稍微有点线性代数基础的人都知道:两个矩阵相乘,交换两个矩阵的位置之后得到的结果是不一样的。而矩阵这种东西在数学、物理学里是非常基础的东西,比如你对一个物体进行旋转操作,最后都可以转化为物体跟一个旋转矩阵的运算,这样非阿贝尔其实就没啥奇怪的了。
这里我借用一下徐一鸿在《可畏的对称》(强烈安利这本书,需要的在公众号里回复“可畏的对称”即可)里的一个例子让大家感受一下这种不可交换的次序,也就是非阿贝尔的感觉。
上图是一个新兵,他现在要执行两个操作,一个是顺时针旋转90°(从上往下看),一个是向右倒(其实就是从外往里看顺时针旋转90°)。上面的a图是先旋转再右倒,而下面的b图则是先右倒再旋转,我们可以清楚的看到,最后这两个人的状态是完全不一样的(一个左侧对着你,一个头对着你)。
状态不一样说明什么呢?说明这两个旋转操作如果改变先后次序的话,得到的结果是不一样的,而这两个旋转操作都可以通过跟两个矩阵相乘得到,这说矩阵的乘法是不能随意交换顺序的。
好了,有了这些概念,我们再回到杨振宁先生的问题上来。
09杨-米尔斯理论
外尔把U(1)群的整体规范对称性推广到了局域,因为U(1)群(1×1矩阵)是阿贝尔群,所以这个过程很简单;杨振宁试图把SU(2)群的整体规范对称也推广到局域,但SU(2)群(2×2矩阵)是非阿贝尔群,这个就麻烦了。
我们知道杨振宁先生的数学水平在物理学家群体里是非常高的,他的父亲杨武之就是群论大师,他自己也很早就进入了对称性领域。饶是如此,他从泡利1941年的论文开始,前前后后过了十几年,一直到1954年,他才和米尔斯(当时和杨振宁先生在同一间办公室,是克劳尔教授的博士研究生)一起写出了划时代的论文《同位旋守恒和同位旋规范不变性》和《同位旋守恒和一个推广的规范不变性》。
上图便是1954年杨振宁和米尔斯在《物理评论》上发表的第一篇论文截图。按照惯例,这种经典论文长尾科技会提前给大家找好,想亲眼目睹一下杨振宁先生这篇划时代论文的,在公众号回复“杨米尔斯理论论文”就行。
这两篇论文正式宣告了杨-米尔斯理论的诞生,杨振宁先生终于把局域规范对称的思想从阿贝尔群推广到了更一般的非阿贝尔群(阿贝尔群的电磁理论成了它的一个特例),从而使得这种精妙的规范对称可以在电磁理论之外的天地大展拳脚,也使得他一直坚持的“对称决定相互作用”有了落脚之地。为了区别起见,我们把外尔的那一套理论成为阿贝尔规范场论,把杨振宁和米尔斯提出来的称为非阿贝尔规范场论,或者直接叫杨-米尔斯理论。
杨-米尔斯理论给我们提供了一个精确的数学框架,在这个框架里,只要选择了某种对称性(对应数学上的一个群),或者说你只要确定了某个群,后面的相互作用几乎就被完全确定了,它的规范玻色子的数目也完全被确定了。这就是为什么后来大家能直接从强力和弱电理论里预言那么多还未被发现的粒子的原因。
什么是规范玻色子?科学家们按照自旋把基本粒子分成了费米子(自旋为半整数)和玻色子(自旋为整数),其中费米子是组成我们基本物质的粒子,比如电子、夸克,而玻色子是传递作用力的粒子,比如光子、胶子。有些人可能是第一次听说传递作用力的粒子这种说法,会感觉非常奇怪,怎么作用力还用粒子传递?
没错,在量子场论里,每一种作用力都有专门传递作用力的粒子。比如传递电磁力的是光子,传递强力的是胶子,传递弱力的是W和Z玻色子,传递引力的是引力子(不过引力子还没有找到)。两个同性电子之间为什么会相互排斥呢?因为这两个电子之间在不停的发射交换光子,然后看起来就像在相互排斥,这就跟两个人在溜冰场上互相抛篮球然后都向后退一样的道理。那么相互吸引就是朝相反的方向发射光子了,其他的力也都是一样,这些传递相互作用的玻色子在规范场里都统统被称为规范玻色子。
也就是说,在杨-米尔斯理论里,那些传递相互作用的粒子都叫规范玻色子,每一个群都有跟他对应的规范玻色子,只要你把这个群确定了,这些规范玻色子的性质就完全确定了。比如在U(1)群里,规范玻色子就只有一个,那就是光子;在SU(3)群里,理论计算它的规范玻色子不多不少就是8个,然后实验物理学家就根据这个去找,然后真的就找到了8种胶子。以前是实验物理学家发现了新粒子,理论物理学家要琢磨着怎么去解释,现在是理论物理学家预测粒子,实验物理学家再去找,爱因斯坦颠倒研究物理的方法现在终于从蹊径成了主流。
10从杨-米尔斯理论到标准模型
杨-米尔斯理论从数学上确定了“对称决定相互作用”,那么我们接下来的问题就是“什么样的对称决定什么样的相互作用”了。比如,我现在要描述强力,那么强力到底是由什么对称决定的呢?
有些人可能觉得奇怪,你上面不是说了一大片同位旋守恒么,杨振宁先生不就是看到同位旋守恒和电荷守恒的相似性才最终提出了杨-米尔斯理论么,为什么现在还要来问强力是什么对称决定的,难道不是同位旋么?
没错,还真不是同位旋!
海森堡从质子和中子的质量相近提出了同位旋的概念,同位旋守恒确实也只在强力中成立,但是大家不要忘了质子和中子的质量只是接近,并不是相等。杨-米尔斯理论里的对称是一种精确对称,不是你质子和中子的这种近似相等,当时的科学家们把质子和中子的微小质量差别寄希望于电磁污染,但事实并非如此。所以,当杨振宁试图用质子中子同位旋对称对应的SU(2)群作为强力的对称群的时候,得到的结果肯定跟实际情况不会相符的。
但是,我们要注意到当时才1954年,人们对强力的认识还太少了,后来我们知道真正决定强力的精确对称是夸克的色对称,与之对应的群是SU(3)群,所以我们把最终描述强力的理论称之为量子色动力学(QCD)。但是,夸克这个概念要到1964年才由盖尔曼、茨威格提出来,所以杨振宁在1954年就算想破脑袋也不可能想到强力是由夸克的色对称决定的。
夸克有六种(上夸克、下夸克、奇夸克、粲夸克、底夸克、顶夸克),每一种夸克也称为一味,质子和中子之间的微小质量差异是就是因为上夸克和下夸克的质量不同。另外,每一味夸克都有三种色(红、绿、蓝),比如上夸克就有红上夸克、绿上夸克和蓝上夸克,这不同色的同种夸克之间质量是完全相等的,这是一种完全精确的对称,这种色对称最后决定了强相互作用。
一旦建立了这种夸克模型,并且意识到夸克色对称这种精确对称对应SU(3)群,那么接下来利用杨-米尔斯理论去构造描述强力的理论就是非常简单的事情,基本上就是带公式套现成的事。所以,成功描述强力的量子色动力学的核心就是夸克模型+杨-米尔斯理论。
在弱力这边情况也是类似的,你要想找到描述弱力的理论,那就先去找到决定弱力的精确对称和相应的群,然后直接按照杨-米尔斯理论来就行了。但是,弱力这边的情况稍微复杂一点,科学家们没找到什么弱力里特有的精确对称,但是他们发现,如果我把弱力和电磁力统一起来考虑,考虑统一的电弱力,我倒是能发现这种精确对称。于是,他们索性不去单独建立描述弱力的理论了,转而直接去建立统一弱力和电磁力的弱电统一理论。而最后在弱电相互作用中真正起作用的是(弱)同位旋——超荷这个东西,他们对应的群是SU(2)×U(1)(×表示两个群的直积)。
描述强力的量子色动力学和描述电磁力和弱力的弱电统一理论一起构成了所谓的粒子物理标准模型,于是我们可以在杨-米尔斯理论这同一个框架下描述电磁力、强力和弱力,这是物理学的伟大胜利。同时,我们也要清楚的知道,杨-米尔斯理论不等于标准模型(没有夸克模型你拿着理论也不知道怎么用),它是一个数学框架,是一把神兵利器,它本身并不产生具体的理论知识,但是一旦你把它用在合适的地方,它就能给你带来超出想象的回报(想想我们50年代末还对强力弱力束手无策,但是70年代末就完全驯服了它们)。
11不得不说的质量问题
标准模型的建立是另一个非常宏大的故事,这里就不多说了,这里谈一个不得不说的问题:质量问题。
在上面我们知道了费米子是组成物质的粒子,玻色子是传递相互作用力的粒子。比如两个电子之间通过交换光子来传递电磁力,两个夸克通过交换胶子来传递强力,那么光子和胶子就分别是传递电磁力和强力的规范玻色子。但是,大家有没有考虑过玻色子的质量问题?如果传递相互作用力的玻色子质量过大或者过小会咋样?
还是以溜冰场传球为例,假设两个人站在溜冰场上相互传篮球,那么一开始他们会因为篮球的冲力而后退(这就是斥力的表现),从而把距离拉开,但是他们会一直这样慢慢后退下去么?当然不会!当两人之间的距离足够远的时候,你投篮球根本就投不到我这里来了,那我就不会后退了。再想一下,如果你投的不是篮球而是铅球那会怎样?那可能我们还在很近的时候,你的铅球就投不到我这里来了。
在溜冰场的模型里,球就是传递作用力的玻色子,你无法接到球就意味着这个力无法传到你这里来,就是说它的力程是有限的。从篮球和铅球的对比中我们也能清楚的知道:玻色子的质量越大,力程越短,质量越小,力程越长,如果玻色子的质量为零,那么这个力程就是无限远的。
所以,为什么电磁力是长程力,能传播很远呢?因为传递电磁力的光子没有质量。但是我们也清楚的知道,强力和弱力都仅仅局限在原子核里,也就是说强力、弱力都是短程力,所以,按照我们上面的分析,那么传递强力和弱力的玻色子似乎应该是有质量的,有质量才能对应短程力嘛。
但是,杨振宁在研究规范场的时候,他发现要使得系统具有局域规范不变性,那么传递作用力的规范玻色子的质量就必须为零。也就是说,规范玻色子如果有质量,它就会破坏局域规范对称性。
为什么局域规范对称性要求玻色子的质量必须为零呢?你可以这样想,什么叫局域规范对称?那就是不同的地方在做着不同的变换,既然不同的地方变换是不一样的,那么肯定就必须有个中间的信使来传递这种状态,这样大家才能协调工作,不然你跳你的我跳我的岂不是乱了套?好,既然这个信使要在不同地方(也可能是两个非常远的地方)传递状态,按照上面的分析,它是不是应该零质量?只有质量为零才能跑的远嘛~
所以,这样分析之后,我们就会发现局域规范对称性和规范玻色子零质量之间的对应关系是非常自然的。但是,这样就造成了现在的困境:局域规范对称性要求规范玻色子是零质量的,但是强力、弱力的短程力事实似乎要求对应的规范玻色子必须是有质量的,怎么办?
这个问题不仅困扰着杨振宁,它也同样困扰着泡利(其实当时对规范场感兴趣的也就他们寥寥几个)。泡利开始对规范场的事情也很感兴趣(杨振宁就是读了泡利1941年的那篇论文才开始对规范场感兴趣的),但是当泡利发现了这个似乎无解的质量问题之后,他就慢慢对规范场失去了兴趣,也就没能得出最后的方程。
杨振宁的情况稍微不一样,他的数学功底非常好,对群论的深入理解能够让他更深刻的理解对称性的问题(想想那会儿物理学家都不待见群论,泡利还带头把群论称为群祸)。另外,在美学思想上,杨振宁是爱因斯坦的铁杆粉丝,他们都是“对称决定相互作用”坚定支持者,这使得杨振宁对规范场产生了谜之喜爱。而且,杨振宁那会儿才30岁左右,是科学家精力和创造力的巅峰时期,自然无所畏惧。
所以,杨振宁一直在疯狂地寻找杨-米尔斯方程,找到方程之后,即便知道有尚未解决的质量问题,他依然决定发表他的论文。在他眼里,这个方程,这套理论是他心里“对称决定相互作用”的完美代表,他跟爱因斯坦一样深信上帝喜欢简洁和美,深信上帝的简单和美是由精确对称决定的。如果是这样,那么还有什么比基于规范不变性这种深刻对称的杨-米尔斯理论更能描绘上帝的思想呢?
杨振宁对对称性的深刻理解使得他对杨-米尔斯理论有非常强的信心,至于强力、弱力上表现出来的质量问题,那不过是这个理论在应用层面出现了一些问题。强力、弱力比电磁力复杂很多,因此用杨-米尔斯理论来解释强力、弱力自然就不会像处理电磁力那样简单。为什么电磁力这么简单?你想想,电子有电效应,电子的运动产生磁效应,电子之间的相互作用是通过光子这个规范玻色子传递的,所以电磁力的本质就是电子和光子的相互作用。这里只有一个粒子电子,和一个规范玻色子光子,而且光子还是没有质量的,你再看看强力里面,三种色夸克,八种不同的胶子,这铁定比电磁力复杂多了啊!
所以,杨振宁想的是:杨-米尔斯理论没问题,现在它应用在强力弱力上出现了一些问题(质量问题就是初期最大的一个),这也是自然的。这些是问题,而非错误,以后随着人们研究的深入,这些问题应该可以慢慢得到解决的。
历史的发展确实是这样,质量问题后来都通过一些其他的手段得到了解决,那么质量问题最终是怎么解决的呢?
在描述强力的量子色动力学里,我们注意到传递夸克间作用力的胶子本来就是零质量的,零质量跟规范对称性是相容的。那但是,如果这样的话,零质量的玻色子应该对应长程力啊,为什么强力是短程力(只在原子核里有效)呢?这就涉及到了强力里特有的一种性质:渐近自由。渐近自由说夸克之间的距离很远的时候,它们之间的作用力非常大,一副谁也不能把它们分开的架势,但是一旦真的让它们在一起了,距离很近了,它们之间的相互作用力就变得非常弱了,好像对面这个夸克跟它没任何关系似的,活脱脱的一对夸克小情侣。这样在量子色动力学里,零质量的规范玻色子就和强力的短程力没有冲突了。
渐近自由解释了为什么胶子是零质量但是强力确是短程力,那么传递弱力的W和Z玻色子可是有质量的。有质量的话短程力是好解释了,但是我们上面说有质量的规范玻色子会破坏规范对称性,这规范对称性可是杨-米尔斯理论的根基啊,它被破坏了那还怎么玩?
最后解决这个问题的是希格斯机制。希格斯机制是来打圆场的:你杨-米尔斯理论要求规范玻色子是零质量的,但是最后我们测量到W和Z玻色子是有质量的,怎么办呢?简单,我认为W和Z这些传递弱力的规范玻色子一出生的时候是零质量的,但是它来到这个世界之后慢慢由于某种原因获得了质量,也就是说它们的质量不是天生的而是后天赋予的,这样就既不与杨-米尔斯理论相冲突,也不跟实际测量相冲突了。
所以,希格斯机制其实就是赋予粒子质量的机制。它认为我们的宇宙中到处都充满了希格斯场,粒子如果不跟希格斯场发生作用,它的质量就是零(比如光子、胶子),如果粒子跟希格斯场发生作用,那么它就有质量,发生的作用越强,得到的质量就越大(需要说明的是,并不是所有的质量都来自于粒子和希格斯场的相互作用,还有一部分来自粒子间的相互作用)。2012年7月,科学家终于在大型强子对撞机(LHC)中找到了希格斯粒子,为这段故事画上了一个圆满的句号,也理所当然地预约了2013年的诺贝尔物理学奖。
这样杨-米尔斯理论就可以完整的描述强力、弱力和电磁力了,在霍夫特完成了非阿贝尔规范场的重整化(重整化简单的说就是让理论能算出有意义的数值,而不是无穷大这种没意义的结果,这是点粒子模型经常会出现的问题。举个最简单的例子,我们都知道电荷越近,它们之间的电磁力越大,那么当电荷的距离趋近于零的时候,难道电磁力要变成无穷大么?这个当做思考题~)之后,粒子物理标准模型就正式投产商用。
12结语
至此,我们关于杨-米尔斯理论的故事就告一段落了,相信能坚持看到这里的人对杨-米尔斯理论应该都有了个大致的了解,对它的作用和意义也会有自己的判断。
这篇文章是我有史以来耗费心血最多的科普文,为此我的公众号都有好长一段时间没更新了,在公众号后台和社群里也都理所当然地收获了一大波粉丝的催更~不过,相信大家看完这篇文章之后应该就能理解了:杨-米尔斯理论涉及的东西实在是太多了,对称性、规范场、非阿贝尔群、标准模型,这些东西对于许多非物理专业的同学来说实在是太陌生了,甚至从来都没听说过。即便对于物理系的学生,杨-米尔斯理论也是要到研究生阶段才接触的东西。因此,要把这么复杂,牵扯面这么广的东西用中学生能懂的语言科普出来,其中难度可想而知。许多公式和术语跑到嘴边又被我逼回去了,特别要在不涉及分析力学和作用量的前提下讲杨-米尔斯理论,差点没给我逼出内伤~
之所以执意用这么通俗的语言讲杨-米尔斯理论,主要就是想让更多人更加客观的理解杨振宁先生的工作,很多事情如果彻底搞清楚了,就会省去很多无意义的争论。现在网上关于杨振宁先生的新闻很多,但是很不幸,大部分新闻上的却是娱乐版,即便除去那些娱乐八卦,关于杨先生科学方面的话题大部分最后都演变成了诸如“杨振宁真的很伟大么?”“杨振宁跟霍金谁厉害?”“杨振宁跟爱因斯坦一样伟大吗?”“杨振宁没有你想象的那么伟大!”等极容易引起撕逼骂战却又很空洞没营养的问题。并且,论战中的双方要么就把杨振宁先生往天上捧,要么就把他使劲往地上踩,这还算是科学讨论么?这是讨论科学问题该有的态度么?
物理学家并不是擂台上的拳击手,他们一起通力合作构建我们现在恢弘的物理大厦。没有开普特和伽利略的奠基,不可能有牛顿的力学体系;没有法拉第工作,不可能有麦克斯韦的电磁大厦;狭义相对论在20世纪初已经是水到渠成呼之欲出了,爱因斯坦也只不过是捷足先登了而已。而且,除了广义相对论确实是爱因斯坦的独门独创,好像还真没有哪个东西说是非谁不可的。没有牛顿,我估计胡克和哈雷也快找到万有引力定律了,洛伦兹和彭加莱已经一只脚跨入狭义相对论的大门了,有没有爱因斯坦狭义相对论差不多都该出现了。
我这么说并不是要否定牛顿和爱因斯坦他们的功绩,能抢在同时代最杰出的头脑之前发现那些理论,这本身就是科学家的能力体现。我只是想建议大家不要总把注意力放在“谁或者谁更伟大,谁比谁更厉害”这种很虚的东西上面,而更多的把注意力放在这些科学家工作本身上去,这些才是全人类共同的宝贵财富。大家的时间都很宝贵,我们就尽量把时间都花在刀刃上去,科学家最宝贵是他们的科学思想,而中国比任何一个国家都不缺少娱乐八卦。
杨振宁先生是我们国宝级的科学家,杨-米尔斯理论是他工作里目前已知的最为璀璨的明珠(鉴于杨振宁先生工作的基础性和前瞻性,他有很多理论刚提出来的时候不被重视,过了几十年之后却发现它极为重要,所以我不确定以后是否会出现比杨-米尔斯理论更重要的东西)。
诺特发现了对称性和守恒律之间的关系,打开了现代物理对称性的大门。
爱因斯坦敏锐而深刻的意识到了这点,然后以雷霆之势将它应用在相对论上,取得的巨大成功把当时其他的科学家惊得目瞪口呆。但是这个套路爱因斯坦熟悉,其他人不熟啊,况且在量子革命的时代,爱因斯坦是那帮量子革命家的“反面教材”,波尔才是他们的教皇,所以人家也不屑于跟你玩。
杨振宁可以说是爱因斯坦的嫡系弟子,如果说爱因斯坦对对称性是偏爱的话,那么杨振宁对对称性就是情有独钟了。他充分吸收了爱因斯坦的对称思想,并且把它发扬光大,再吸收了外尔的规范对称的思想,最后创造了集大成的杨-米尔斯理论。杨-米尔斯理论出来以后,对称性就不再是一个人的玩具了,杨振宁通过这个理论把对称性这种高大上的精英产品一下子变成了谁都可以玩的平民玩具,他把如何释放对称性里蕴藏能量的方式给标准化、工具化、流水化了。从此,“对称决定相互作用”就不再是一句标语,而成了物理学家们的共识和最基本的指导思想,这极大的释放了物理学家的生产力,为后来快速构建标准模型奠定了基础。
这一块是大家在谈论杨振宁先生的工作,谈论杨-米尔斯理论的时候最容易忽略的一块,如果你不能认识到对称性在现代物理里的重要性,不能认识到杨振宁先生和杨-米尔斯理论在对称性问题上的作用,那么你对杨先生工作的理解是非常片面的,甚至错失了他最精华的部分。希格斯机制、渐近自由、夸克禁闭、自发对称破缺、规范场的重整化,这些从杨-米尔斯理论到标准模型之间众多精彩纷呈的故事似乎更适合说书,但是,大家要记住对称性才是现代物理的核心。
杨振宁先生是非常伟大的物理学家,除了在学术上取得的巨大成就以外,他的治学态度一样十分值得大家去深入学习。深入了解之后你能非常明显的感觉到杨先生身上同时闪烁着中国教育和西方教育的优点,他非常有效的把东西方教育里的糟粕都给规避了,所以杨先生总是能很超前的看到一些关键问题。学术上的问题我们无法复制,但是科学教育中一些问题我们是可以复制的,这些问题我后面在公众号和知识星球里会慢慢跟大家谈。
杨振宁先生在八九十岁的时候还亲自给清华大学的本科生上课(羡慕嫉妒恨~),想必也是想把自己做学问一些心得尽可能的交给更多人,这点跟我们这些做科普的想法是一样的。考虑到杨先生的年龄,长尾君不得不写个大大的“服”,不知道以后自己七老八十了,还有没有给年轻人做科普的动力~
最后,祝杨先生身体健康~
相关文章:《深度:宇称不守恒到底说了啥?杨振宁和李政道的发现究竟有多大意义?》
收起阅读 »闵氏几何是什么?它是如何统一时空并极大简化狭义相对论的?
1905年,爱因斯坦正式提出了狭义相对论;1908年,闵可夫斯基给出了狭义相对论的几何表述,也就是我们这里说的闵氏几何。爱因斯坦一开始对这套几何语言很反感,认为这些纯数学上的“花架子”没什么用,还增加了相对论的复杂度。但是,他很快就发现闵氏几何非常重要,发现这绝不是什么纯数学技巧,而是有着深刻物理内涵的洞见。而且,如果要建立广义相对论,少了它根本不行。
几何语言清晰直观,在处理许多问题时有很大的优势,这在双生子佯谬里体现得非常明显:使用代数语言,使用洛伦兹变换去处理双生子佯谬,其中难度之大思维之绕,绝对是对智商极大的考验;而使用几何语言,这个问题就简单得不像是个问题。然而,目前绝大部分介绍相对论的书籍文章还是使用的代数语言,所以你还是能经常看到许多人在一些非常简单的问题上纠缠不清,争论不休。
梁灿彬老师说他上世纪80年代从“言必称几何”的芝加哥大学回来以后,就一直在国内大力推广相对论的几何语言,但是不明白为啥过了三十多年大众对它还是很排斥。长尾科技就在这篇文章里跟大家好好聊一聊,希望能够解开大家跟闵氏几何之间的心结。
因为这是从零开始的一篇文章,所以我暂时就只谈相对论里最简单的几何语言,也就是狭义相对论里的闵氏几何。至于广义相对论里涉及的黎曼几何,我们后面再说。
01为什么很多人觉得几何语言难?
了解相对论的人大多知道一点闵氏几何,知道我们可以通过画时空图的方式来解决一些很复杂的问题,但是他会觉得闵氏几何很难:把时空图画出来很难,画出来之后去解释时空图更难。当看到别人对着时空图“轻而易举”地把问题解决了,他心里没底。他无法理解为什么你说时空图里的这个代表了相对论的里的那个,为什么你对时空图里的一些点、线、面做这样的处理就对应着相对论里的那个问题。所以,他觉得你在时空图里做的那些几何操作非常“虚”,他不理解这些几何背后的实质,自然会觉得很难。
然而,这不该是几何该给我们留下的印象啊。我们平常接触的几何,一个点、一条线、一个正方形、一个圆,这些都是我们日常生活里一些形状的完美投射,它们非常的实在,一点都不虚。很多在代数上不好理解的东西,我们把它画到几何图形上一下子就理解了。几何原本就应该比代数更加简单直观,但是为什么到了相对论这里,大家反而觉得几何语言更加难以接受了呢?原因就是狭义相对论里使用的几何并不是我们熟知的欧式几何,而是一种全新的闵氏几何,当我们把欧式几何里的一些习惯和常识代入进来的时候,自然会引起各种水土不服。
所以,这里我们先不谈闵氏几何和欧式几何的具体区别,我们先来看看狭义相对论是怎么和闵氏几何对上眼了的。为什么狭义相对论不用欧式几何来描述,而非得使用一个我们不熟悉的闵氏几何呢?这个问题不清楚,讲再多闵氏几何的性质也是白搭。
02两个基本假设
为什么狭义相对论要使用我们不熟悉的闵氏几何,原因当然还是得从自身来找。大家都知道狭义相对论有两条基本假设:相对性原理和光速不变。从这两个假设出发我们可以很自然的推导出狭义相对论里各种奇奇怪怪的结论,这里我们先来审查一下这两个假设。
相对性原理说物理定律在所有的惯性参考系里都是平等的,不存在一个特殊的惯性系。这一点很自然,伽利略很早就发现这点了,他意识到一个人在一个匀速移动(惯性系)的密闭船舱里根本无法区分这艘船到底是静止的还是以某个速度匀速运动。无法区分的意思就是这两个参考系(静止和匀速运动)是平等平权的,否则,你就应该有办法把它们区分开。
不同的是:伽利略只敢给力学定律打包票,他只敢说我们无法用力学实验区分两个惯性系,其他定律(比如电磁学实验)能不能区分惯性系他就不敢说了。爱因斯坦说你不敢打包票我来,我打赌所有的物理定律(力学的也好,电磁学或者其他的也好)都无法区分惯性系,你在船舱里做什么实验都也无法区分这艘船是静止的还是匀速运动的。
从这里我们可以感觉到,相对性原理好像并没有那么反常识,它只是把伽利略的那套相对性原理的适用范围给扩大了。那么,狭义相对论里那么多结论的“诡异”似乎就应该来自另外一个假设,也就是光速不变。
光速不变说真空中的光速在所有的惯性系里都是一样的。不论你在哪个惯性系(注意一定要是惯性系,非惯性系里光速就没人管它了)里测量光速,在静止的地面也好,飞速的火车飞船里测也好,测得的光速都是一个定值c。
这就太反常识了,怎么能够在不同的参考系里测量同一个物体的速度都相同呢?比如,在一辆速度为300km/h的高铁上,有一个人以5km/h的速度朝车头走去。那么,高铁上的人会觉得他的速度是5km/h,而地面的人会觉得他的速度是300+5=305km/h,这两个速度肯定是不一样的。但是,如果我把这个人换成一束光,让这束光射向车头,光速不变就是说不管你是在高铁上测量,还是在地面上测量,这束光的速度都是c。你以为在地面上测量的光速应该是c+300km/h么?对不起,并不是这样。
你觉得这个事诡异么?诡异!为什么会这样呢?不知道,光速不变是狭义相对论的一个基本假设,这个类似数学里的公理,我们只能假设它是对的,但是却无法证明它是对的,它的可靠性由实验保证。其实,这个事情很多人还是知道的,但是,大多数人并不知道如果我们再深挖一下光速不变原理的秘密,我们就能找到一条通向闵氏几何的隐秘通道。
03光速不变的秘密
光速不变说你在任何惯性系中测量光速,得到的结果都是c,我们来定量的分析一下这个原理。
假设我们在K系里测量一束光,假设这束光在Δt的时间内走了Δl的距离,那么显然就有Δl=Δt×c。如果我们把这束光在x,y,z三个坐标轴方向移动距离的分量记为Δx,Δy,Δz,那么根据勾股定理就有:Δl²=Δx²+Δy²+Δz²,再把这两个式子合起来就能得到:Δx²+Δy²+Δz²-(Δt×c)²=0。如果这时候我们用一个新的量Δs²表示左边的东西,那么就有Δs²=Δx²+Δy²+Δz²-(Δt×c)²=0。
好,事情发展到这里,一切都非常容易理解,上面的事情倒腾来倒腾去就是一束光在空间里走了一段距离,然后套用了小学生都知道的距离等于速度乘以时间而已。而且,大家也会发现这个事跟光速不变也没有什么关系,你就是把上面的光换成一颗子弹,把光速c换成子弹的速度,那么上面的一切推理都还是那样的。没错,因为光速不变说的是光速在不同的惯性系里都一样,那么我们还得再考察一个惯性系。
还是上面那束光,我们这次在另一个参考系K’里对它进行测量。假设我们测量的结果是它在Δt’的时间内走了Δl’,我们同样对这个距离做一个分解,假设它在x,y,z三个坐标轴方向移动距离的分量记为Δx’,Δy’,Δz’。根据光速不变原理,光在这个参考系里的速度还是c,那么,按照上面的逻辑,我们依然可以得到Δs’²=Δx’²+Δy’²+Δz’²-(Δt’×c)²=0。
当我们把K和K’这两个参考系了的结果拿来对比的时候,光速不变原理带来的反常效应就出现了:大家有没有发现Δs和Δs’的表达式的形式完全一致,而且值还相等(都等于0)?
我们只是把K系里测量的时间和距离全都换成了K’系里测量的时间和距离,其它的东西我们一概没动。而在牛顿力学里,Δs和Δs’的表达式形式是不一样的,因为牛顿力学里另一个惯性系的测量速度会加上两个参考系之间的相对速度。也就是说在牛顿体系里,在K’系里测量的光速应该是c加上两个参考系的相对速度,这样Δs’的形式就Δs跟不完全一样了,而相对论是用光速不变强制保证了它们的形式一致。
这一点大家好好想一想,它并不难理解,但是却是后面的关键。我们现在等于说是定义了一个Δs,对于光来说,这个Δs的值在不同的参考系里是相等的,刚好都是0。
那么,重点来了:如果我把这个Δs从光推广到所有物体,我仍然从两个不同的惯性系K和K’去测量这个物体在空间上运动的距离Δx、Δy、Δz和时间上经过的间隔Δt,然后一样把它们组合成Δs和Δs’。那么,这个物体的Δs和Δs’之间有没有什么关系呢?它们是不是还跟光的Δs和Δs’一样相等并且都等于0呢?
是否等于0很好回答,一看就知道肯定不等于0。假设博尔特1秒钟跑10米,那么Δt=1、Δx=10,不考虑另外两个维度(Δy=Δz=0),看看Δs²的表达式:Δs²=Δx²+Δy²+Δz²-(Δt×c)²=100+0+0-(1×3×10^8)²,这显然是个非常大的负数。那么问题的关键就落在在惯性系K和K’里测量的这两个值Δs和Δs’是否相等,也就是说,如果博尔特在跑步,我们从地面和火车上测量得到的 Δs和Δs’是否相等?
这个答案我直接告诉大家:一样!
这个证明过程其实也非常简单,这不就是同一个事件看它在不同的惯性系里是否满足某个式子么?同一个事件在不同惯性系下变换关系,在相对论里这不就是洛伦兹变换的内容么?所以,你直接用洛伦兹变换去套一下Δs和Δs’,你很简单就能发现它们是相等的,这里我就不做具体计算了,当作课后习题。
所以,我们通过分析就得到了这样一个结论:在相对论里,不同惯性系里测量一个物体的位移、时间等信息可能不一样,但是它们组合起来的Δs²=Δx²+Δy²+Δz²-(Δt×c)²确是相等的,而这个值对光来说还刚好就是0。
注意了,这个结论极其重要,正是它决定了为什么我们要使用闵氏几何来描述狭义相对论,甚至,从某种角度来说,它几乎包含了闵氏几何里的全部奥秘。为了让大家更好地了解这个结论背后的意义,我们先去看一看欧式几何里的类似情况。
04欧式几何不变量
在欧式几何里也有一些量是不随坐标系的变化而变化的,比如最简单的线段的长度。
在二维的欧式几何里,我们假设在一个直角坐标系里有两点A(x1,y1)、B(x2,y2),令Δx=x2-x1,Δy=y2-y1,那么,利用勾股定理就能非常容易的算出AB之间的距离Δl²=Δx²+Δy²。这时候我们如果在建一个新的直角坐标系,在这个新的坐标系里原来A、B两点的坐标变成了A(x1’,y1’)、B(x2’,y2’),同样令Δx’=x2’-x1’,Δy’=y2’-y1’,AB之间新的距离Δl’²=Δx’²+Δy’²。这时候我们可以很轻松的验证Δl=Δl’,也就是说Δx²+Δy²=Δx’²+Δy’²。
这个结论一点都不奇怪,我们都可以很直观的感觉到,为什么呢?因为欧式几何就是我们日常熟悉的空间啊,我们现在就假设有一跟2米长的尺子AB,我在一个直角坐标系里计算它的长度的平方Δl²=Δx²+Δy²=2²=4,难不成我在另一个坐标系里算得它的长度的平方Δl’²=Δx’²+Δy’²还能不等于4么?我这把尺子的长度是一定的,如果我在不同坐标系下得到尺子的长度却不一样了,那还了得,那这几何就有问题了。
因此,在欧式几何里,Δl²=Δx²+Δy²也是一个坐标系不变量,这个值不随你取坐标系的变化而变化。很显然的,如果把欧式空间从二维推广到三维,那么这个不变量自然就可以写成Δl²=Δx²+Δy²+Δz²;推广到四维,我们用t表示第四个维度,那么Δl²=Δx²+Δy²+Δz²+Δt²,再往上推广几维,我就加几个分量就行了。
大家肯定注意到了:在欧式几何里,不随坐标系变化的是Δl²=Δx²+Δy²+Δz²+Δt²,而我们上面在讲狭义相对论的时候,不随惯性系变化的量Δs²=Δx²+Δy²+Δz²-(Δt×c)²。这两者非常的相似,这个光速c是个常数,可以不用考虑,为了方便计算我们甚至可以直接约定c=1,这样的话Δl²和Δs²的差别就仅仅只差一个Δt前面的负号而已。
那么,这种形式上的相似和那个负号的差别到底意味着什么呢?毕竟它们一个代表的是不随惯性系的变化而变化的量(Δs²),一个代表的是欧式几何里不随坐标系的变化而变化的量(Δl²),一个是物理量,一个是几何量,好像并没有直接的关系。但是,我们这样想想:如果我想用一种几何来描述狭义相对论里Δs²=Δx²+Δy²+Δz²-(Δt×c)²不随惯性系的变化而变化的这种性质,我们肯定就不能选欧式几何了(因为欧式几何里不随坐标系变化的量是Δl²=Δx²+Δy²+Δz²+Δt²)。所以我们需要一种新的几何,在这种新几何里,不随坐标系变换而变化的量是类似Δs²这样带有一个负号的量,这种全新的几何自然就是闵氏几何。
你这时候心里可能有点疑惑:我们真的可以只凭借不随参考系变化的量是Δs²和Δl²,就断定这是两种不同的几何么?Δs²和Δl²这些东西到底意味着什么?或者说,到底是什么决定了一种几何?
05线元决定几何
我们从小就在学习欧式几何,我们学习直线、三角形、圆等很多几何图形,我们关心它们的各种性质,比如两点的距离、曲线的长度、两条线的夹角、一个图形的面积。但是,大家有没有想过:在欧式几何的各种各样的性质里,有没有哪个是最基本的?也就是说,我们能不能只定义这个最基本的量,其他的各种量都可以从这个量里衍生出来?这样的话,我们就只需要抓住这一个最基本量的性质,就可以抓住这种几何的性质了。
答案是:有,这个最基本的量就是弧长,准确地说是组成任意曲线、弧线的基本元段长。
要把这个说清楚,我们这里得稍微引入一丢丢微积分的思想,别慌,这个很容易理解的~在欧式几何里,我们很容易求一根线段的长度(直角坐标系里利用勾股定理就行了),但是,如果要你求一条任意曲线的长度呢?
比如上图的曲线AB,这是随手画的很一般的一条曲线,不是什么特殊的圆弧,你要怎么求它的长度呢?数学家们是这么考虑的:我在曲线AB之间取一些点,比如P1、P2、P3,然后这三个点就把这段圆弧的分成了四个部分。我们用线段把这几个点连起来,这样我们就得到了一条折线,这时候我们就用折线的长度(也就是这四条线段的和AP1+P1P2+P2P3+P3B)来近似代替曲线AB的长度。当然,你肯定会说,曲线的长度明显比这四条线段加起来更长啊,你怎么能用折线的长度来代替曲线呢?
是的,如果你只在AB之间取三个点,那么曲线AB的长度肯定要比折线的长度多很多,这样近似的误差很大。但是,如果我再多取一些点呢?我在AB之间取十个、一百个甚至一千一万个点,那么,这成千上万条线段组成的折线的总长度跟曲线AB比呢?当然,还是会短一些,但是,你可以想象,这时候这些折线已经跟曲线AB非常接近了。如果一根1米长的曲线被你分成了1万条线段,这时候你用肉眼根本分辨不出来这是原来的曲线还是折线。但是你内心还是知道折线要短一些,那么接下来就是重点了:如果我在曲线AB之间放无穷多个点呢?
无穷是一个很迷人,同时也很迷惑人的词汇。从上面的分析我们知道:当我们在曲线AB里放越多的点,这些小线段连起来的折线就越接近曲线AB本身。那么,当我们放了无穷多个点的时候,这无穷多个线段组成的折线是不是就应该等于曲线AB的长度了?答案是肯定的,而这,就是微积分最朴素也是最核心的思想。
在这种思想的指导下,我们要求任意曲线的距离,最终还是要求小线段的距离,因为无穷多个小线段累加起来的长度就是曲线的长度。因此,我们只要知道如何求无穷小的线段的长度,我们就能用微积分的思想求出任意曲线的长度,我们把这个最基本小线段称为曲线的一个元段长,记做dl。
在欧式几何里,我们把基本元段dl在坐标系里分解一下,用dx和dy表示dl在x轴和y轴上的分量,那么根据勾股定理就有dl²=dx²+dy²,我们就把dl²称之为线元。
提炼出了线元这个概念以后,我们就可以开始反推了。在任何一种几何里,如果我们确定了线元,就等于知道了元段dl的长度,然后就可以利用上面微积分的思想求任意一段曲线的长度。那么,接下来,我们会发现几何里的其他性质都可以按照这些定义。比如,我们就可以把两点之间的距离定义为这两点之间所有可能的曲线里最短的一条,把两条直线的夹角定义为弧长和半径的比值(想象在一个圆里,半径固定,弧长越大角度越大),其他什么面积、体积之类的几何性质就都可以根据这些基本性质来定义。
最后,你会发现只要给定了一个线元,我们就能把它所有的几何性质都确定下来,也就是说:线元决定几何。
那么,什么是欧式几何呢?欧式几何就是由欧式线元(dl²=dx²+dy²)决定的几何。非欧几何呢?只要你的线元不是欧式线元,那么这个线元决定的几何就是非欧几何。用这种新线元,我们一样可以定义出在这种新几何里的曲线长度、两点的距离、线的夹角等等几何性质。
那么,闵氏几何是什么?闵氏几何的线元又是什么呢?
答:很显然,闵氏几何就是由闵氏线元决定的几何。闵氏线元是这样的ds²=-dt²+dx²+dy²+dz²,如果只考虑二维闵氏几何的话,那么ds²=-dt²+dx²。
闵氏线元(ds²=-dt²+dx²)跟欧式线元(dl²=dx²+dy²)十分相像,它们之间唯一的差别就在于闵氏线元的第一个分量dt²的前面是负号,而欧式线元全部都是正号。也因为如此,闵氏几何跟欧式几何也非常像,所以闵氏几何还有一个称呼,叫伪欧几何。但是,我们也要特别注意这个负号,正是这个负号,决定了闵氏几何和我们熟悉的欧式几何里所有不一样的地方,而这些不一样,恰恰是我们通过闵氏几何来理解狭义相对论的关键。
06闵氏几何与狭义相对论
我们现在知道了,所谓的闵氏几何,不过是由闵氏线元ds²=-dt²+dx²+dy²+dz²决定的几何。在这种几何里面,曲线的长度、两点的距离、线的夹角等一切性质都有这个第一项带了一个负号的闵氏线元决定。
看看这个闵氏线元ds²=-dt²+dx²+dy²+dz²,再看看我们最开始提到的那个在狭义相对论里不随惯性系的变化而变化的量Δs²=Δx²+Δy²+Δz²-(Δt×c)²,是不是非常像?在相对论里有两种单位制:国际单位制和几何单位制。国际单位制就是我们平常熟悉的那一套单位制,几何单位制就是选择光速c=1,这样可以大大简化在用几何处理相对论问题的难度。采用几何单位制的话,不随惯性系变化的Δs²=Δx²+Δy²+Δz²-Δt²,这就真的跟闵氏线元ds²=-dt²+dx²+dy²+dz²一模一样了。
这就是为什么我们要用闵氏几何,而不是欧式几何来描述狭义相对论的根本原因。
在牛顿的世界里,时间是绝对的,三维的空间也是绝对的,一根木棒在三维空间里随便怎么变换,随便怎么变换参考系,它在三维空间里的长度是一定的,这个是跟三维的欧式线元对应的(因为三维的欧式线元dt²+dx²+dy²也不随坐标系的变化而变化)。
但是,在狭义相对论里,空间不再是绝对的,不再是一成不变的,我们熟悉的尺缩效应不就是说从不同的惯性系里观测同一把尺子,这个尺子的长度是不一样的么?这就是说空间上的“长度”在狭义相对论的不同惯性系里不再是不变量。但是,我们发现如果把时间也考虑进来,把三维空间和一维时间一起组合成四维时空,那么这个四维时空里的间隔Δs²=Δx²+Δy²+Δz²-Δt²就是不随惯性系的变化而变化的量(这个在前面说过,用洛伦兹变换可以非常方便的证明)。
所以,在牛顿的世界里,三维空间是绝对的,他必须保证同一把尺子在不同的三维空间的坐标系里长度是一样的,也就是说在度量三维空间里长度的方式(这个有个更专业的概念叫度规,这里我们知道就行)必须跟坐标系无关,而欧式几何正好有这样的特性,所以牛顿力学的背景是欧式几何。
而在狭义相对论里,三维空间并不是绝对的,三维空间里一把尺子的长度在不同惯性系里是不一样的。但是,三维空间和一维时间组成的四维时空是绝对的。四维时空里如果也有这样一把“尺子”,那么这把“尺子”无论从哪个惯性系来看,它的四维“长度”都是一样的。而狭义相对论的这种四维“长度”,或者说我们在四维时空里度量长度的方式,它跟闵氏线元表达式的形式是一样的。也就是说只有在闵氏几何里,狭义相对论的时空间隔才对应于他们几何里的“长度”的概念,所以我们要使用闵氏几何来描述狭义相对论。
理解这一段非常的重要,因为只有理解了这个,你才能从根本上把闵氏几何和狭义相对论对应起来。有很多闵氏几何的科普文章里上来就是直接给你画时空图,然后告诉你闵氏几何里的这种图形这个几何性质对应着狭义相对论里的这种概念,这样很多人就感觉难以接受,然后对几何语言产生抵触的心理。
好,既然我们打算用闵氏几何来描述狭义相对论,那么肯定就要把狭义相对论里的物理语言翻译成闵氏几何里的几何语言。几何肯定是离不开画图的,在欧式几何里我们经常会画出一个几何图形在空间上的样子,这是空间图。而狭义相对论把时间和空间看作一个整体, 它要求我们以同等的地位来看待时间和空间,所以我们需要画出一个事件同时在时间和空间里的样子,这种图就叫时空图。
07时空图
在时空图里,你能非常自然地感觉到时间和空间被统一起来了,因为时空图里的时间轴和空间轴有着完全的平等的地位。
在时空图里,一个粒子现在在哪,你找到它的空间坐标(x,y,z),记下现在的时间t,那么你就得到了它的时空信息(x,y,z,t),那这个时空信息就对应时空图里的一个点,这就叫时空点。
同样的,你再记下它下一个时刻t1的位置(x1,y1,z1),那么它又对应了坐标系的另一个点(x1,y1,z1,t1)。所以,一个粒子在任一时刻的时间、空间信息就都对应了时空图里的一个点。那么,如果考察这个粒子的全部历史,你就可以得到一系列的这种时空点,这些点在时空图里就会形成一条线,这条能代表粒子全部历史的线就叫粒子的世界线。
现实生活里一个粒子有四个维度(三维空间+一维时间),那么对应的坐标轴应该也是四维的,但是我们在二维平面里勉强可以画出三维图形,对四维图形实在无能为力。为了方便起见,我们假设粒子只沿x轴方向运动,这样我们就可以不考虑y轴和z轴的情况,从而把四维的问题简化为二维,然后我们就可以很愉快的在一张二维的纸上画这二维时空图了。
我们先建立一个坐标系,横轴x代表粒子的空间信息,纵轴t代表粒子的时间信息。为了再次简化问题,我们采用几何单位制,也就是取光速c=1,然后我们再来看一些具体问题。
问题1:一个静止不动的粒子在时空图里是什么样的?或者说它的世界线是什么样的?
这个答案很容易想到,一个粒子静止不动,就是在空间上没动,那么它的x坐标一直为零,但是时间依然在流逝,也就是粒子的时间坐标在一直变大。所以,静止不动的粒子是世界线是一条跟t轴重合,垂直于x轴的直线。
问题2:一个匀速向右运动的粒子的世界线是什么样的?
这个也不难想象,一个匀速向右运动的粒子,它在时间轴不停往上走的同时,空间轴上也在不停地往右走,那么这个粒子的世界线应该是一条斜直线。问题是,斜多少?是所有的坐标空间它都可以斜,还是有什么限制?这个问题我们先放着,先看看第三个问题。
问题3:一条朝右上方45°的斜直线(如下图的L1)代表了什么粒子的世界线?
我们先来算一算这个粒子的速度:我们在粒子的世界线L1上取两个点,也就是假设粒子在t1时刻在位置x1,在t2时刻在位置x2。因为这条直线是45°的,所以很显然x2-x1=t2-t1,.那么粒子的速度v=(x2-x1)/(t2-t1)=1。
速度等于1是什么意思?我们在画图的时候采用的是几何单位制,也就是取光速c=1(如果我们不采用几何单位制,那么竖轴的单位就不是t,而是ct,本质并没有什么不同)。现在这个粒子的速度等于1,其实就是代表这个粒子的速度是光速,速度是光速那自然就是光子了,那么这条45°斜直线就代表了光子的世界线。
从这里我们可以看到,在时空图里,光子的世界线是45°的斜直线。我们也知道在相对论里任何有质量粒子的速度都是小于光速的,那么一个有质量的粒子做匀速直线运动的世界线该是一条什么样的斜直线呢?是在区域1还是区域2?
我们可以这样想一下:如果粒子的速度比光速小,那么假设粒子在t1时刻在x1处,那么到了t2时刻它肯定到不了x2地方,那么这两点的连线肯定就在L1的上方,也就是区域1。其实我们也可以想一个极端的粒子,假设这个粒子在原点不动,那么粒子的世界线就是跟t轴重合,粒子速度到达光速就是45°的那条直线,那么速度在静止和光速之间的粒子世界线自然就是在区域1的斜直线了。
现在我们知道了这样一个结论:在时空图里,45°的斜直线代表了光子的世界线(如L1),比光子世界线更陡,更加靠近t轴的斜直线(如L2)是有质量粒子匀速直线运动,或者说惯性运动(速度小于光速)的世界线。
有了这样的基本认识,我们来用几何语言分析一下狭义相对论里入门教材里必定会碰到的问题:火车闪光问题。这个问题之所以重要,是因为它揭示了同时的相对性,也就是说在一个惯性系看来是同时发生的事件,在另一个参考系里不一定是同时发生的。爱因斯坦敏锐地发现了这点,然后借此从看似牢不可破的牛顿力学里撕开了一道口子。
08同时的相对性
在牛顿力学里,时间是绝对的,所以同时必然也是一个绝对的词汇。在一个参考系看来是同时发生的事件,不管谁来看都绝对是同时发生的,这也是一个非常符合常识的论述。
但是,爱因斯坦用一个简单的火车实验就让人们的这个信念坍塌了,这个实验是这样的:假设地面上有一辆匀速运动的火车,在某一个时刻,地面上的观察者发现这个火车的车头和车尾同时被闪电击中。也就是说,对于地面参考系而言,闪电击中车头和车尾这两个事件是同时发生的。但是,爱因斯坦认为在火车参考系里,这两个事件就不是同时发生的。
原因也很简单,我们假设在闪电击中火车头尾的时候,在地面这两点的中点有一个观察者。因为两个事件在地面系看起来是同时发生的,所以,站在地面中间的那个观察者肯定会同时看到车头和车尾发过来的闪光,所以这两个事件是同时的。
但是,站在火车中间的观察者就不是这样了,因为车头车尾的闪光在向中间传播的时候,火车本身也在前进,所以火车中间的人就会先看到车头发过来的闪光,后看到车尾发过来的闪光。所以,火车上的观察者就会觉得这闪电击中车头和车尾这两个事件不是同时发生的,而是击中车头的先,击中车尾的后。
爱因斯坦从这个火车闪光实验出发,发现了同时的相对性,进而打开了狭义相对论的大门。这个实验比较简单,整个逻辑过程也不复杂,但是这样讲不够直观,不够具有普遍性。因为很多人会把这个实验当做一个特例来处理,也就是只有当他们意识到要讲同时的相对性的时候才会想起这个实验,平常就会把这个实验带来的同时的相对性给忘了,然后带来一系列的“相对论诡异疑难”。下面我们从几何语言来看看这个问题,看看如何让这个重要问题更直观,更具有普遍性。
我们假设闪电同时击中车头车尾(从地面系观测)的时候,火车的车尾M’、车头N’刚好经过地面的M和N点,P点为地面MN的中点,P’为火车上的中点,我们来看看怎么在时空图上描述这个闪电击中火车的问题。
我们先来看看地面上M和N点的世界线,因为M、N在地面上没有动,所以M和N点的世界线都是一条沿着时间轴t竖直向上的直线(空间位置没动,只有时间t在动)。同样的,在MN中间的P点也没动,它的世界线也是一条竖直向上的直线。这三条线好画,那么在火车上的M’、N’和P’,它们都在做匀速直线运动,那它们的世界线是什么样的呢?这个我们上一节刚好说了,做匀速运动的粒子的世界线是一条比45°线更陡的斜直线。那我们把这六个点的世界线都画出来,不难理解应该就是下面这样(横轴为空间x,纵轴为时间t,这里省略了)。
下面是关键的了,怎么画车头、车尾的闪光向中点传播的过程?我们知道,闪电击中车头车尾之后,这个事件就会向四面八方发射光信号(所以四面八方的人都能看到火车被闪电击中了),但是,其他的信号我们都不关心,我们只关心被地面中点P和火车中点P’所接收到的那一束光信号。那么,这个光信号要怎么画呢?它们的出发点肯定在m和n,那接下来呢?这次我们再次想起了上一节中提到的:光子的世界线是45°的斜直线。那么我们就加上这两条45°的世界线,最后的图就是下面这样的。
这两根世界线跟两个中点P、P’的世界线产生了三个交点A、B、C,这是三个很有意思的点,我们来分析一下它们的物理含义。
首先是A点,A点是闪光世界线跟地面中点P点的世界线交点,它们相交了是什么意思?纵轴代表时间,横轴代表空间,相交了就代表这两个粒子此时时间和空间信息都一样,都一样那就是相遇了啊,具体到我们这个问题就是闪光传播到了地面上的中点。因为地面没有动,M和N点到P点的距离又是一样的,那么车头车尾的闪光肯定同时到达地面中点,所以它们都相交于A点是正确的。
再来看B点和C点。B点是车尾的闪光的世界线和火车里面的中点P’世界线的交点,那B点代表的意思自然就是火车中间的观察者观察到车尾的闪光这个事件。同理,C点是车头闪光世界线跟P’世界线的交点,那C点就是火车中间的观察者观察到车头闪光的这个事件。这样看就非常明显了,纵坐标是时间轴,那么B事件明显就是在C事件之后发生的啊。
这正是同时的相对性的表现:对于地面系,它们都交于A点,所以是同时的;对于火车系,它们分别交于B点C点,所以是不同时的,这在时空图里极为直观。
这里有一个事要强调一下:我们在这个火车闪光问题里虽然涉及到了地面系和火车系,但是我们是一直在地面系来分析问题的。我们画的时空图,不管是地面上的点还是火车上的点,我们都是在地面系画,因为毕竟一张图只有一个坐标系嘛。那么,我们能不能在一张图里同时把地面系和火车系两个惯性系都画上呢?
答案当然是可以的。
09两个坐标系
我们来具体看看这个问题:假设我们现在已经画了一个地面系的直角坐标系x-t,那么我们要如何把火车系的坐标系x’-t’画出来?
第一次遇到这个问题的同学可能有点懵,不着急我们一步步来,我们先看看火车系的纵轴t’要怎么画。要画火车系的纵轴,我们先想想一个坐标系的纵轴的是什么意思?我们知道如果我们让一个点的横坐标为零,那么这个点的轨迹就是跟纵轴重合的。还记得我们上面说的静止粒子的世界线么?静止粒子的空间坐标x为0,所以它的世界线就是垂直于x轴,与t轴重合的一条直线。那么,火车系的t’轴自然也是在火车系里静止在原点处粒子的世界线。
这一点很重要,大家好好理解一下,也就是说我们只要把火车系处于原点处粒子的世界线画出来,我们就能得到火车系的t’轴。那么,一个在火车系静止的点,在地面系看来它是在做匀速直线运动,而匀速直线运动的点的世界线,我们上面也说了,就是一条比45°更陡的斜直线。所以,火车系的t’轴就是这样一条更陡的斜直线,如下图所示:
火车系的t’轴画好了,那火车系的x’轴呢?大家可以看到我在图上用虚线画了一根与t’垂直的轴,并且特意标明了“错误的x’轴”。为什么要这样标呢?因为这是相对论初学者极容易犯的错误。我们已经习惯了欧式几何,欧式几何里直角坐标系都是相互垂直的,所以到了这里很多人看到我们已经画出了t’轴,就立马条件反射地画一根和t’轴垂直的当做x’轴,但是这是错误的,为什么呢?
这里我们第一次感受到了闵氏几何的异样。我在最开始花了那么大的篇幅告诉大家为什么狭义相对论要使用闵氏几何,我们也知道了闵氏几何的线元跟欧式几何不一样(时间项前面多了一个负号),所以,我们在画时空图处理狭义相对论问题的时候,一定要意识到自己虽然是在欧式平面里画图,但是我们画的是闵氏几何里的图形。
有人可能会有点疑问,我们前面不是已经用时空图解决了同时的相对性问题么?我们不是已经把爱因斯坦火车闪光问题用时空图画出来了么,我没感觉啥异样啊?那只是因为那个问题比较简单:它只有一个坐标系,而且也不涉及到线长相关的问题,所以我即便在一个欧式直角坐标系里把它画出来了,它也暂时没什么冲突。如果我们生活在一个闵氏空间里,那么我们画出的闵氏直角坐标系肯定都是相互垂直的,但是我们生活在欧式空间里,我已经用一个欧式空间里的直角坐标系画了一个闵氏坐标系,那么另一个就肯定不可能再是垂直的了。
这里的逻辑有点绕,大家可以细细品味,搞得不是很懂也不要紧,我接下来会把另一个坐标系画出来,大家能看懂再回去看上面的一段话就明白了。
好,回到正题,我们再来看看火车系正确的x’轴该怎么画。我们再来整体回顾一下这个事情:我们现在是已经画好了地面系x-t,要画火车系x’-t’,火车系和地面系它有没有什么关系呢?有啊,洛伦兹变换说的不就是地面系和火车系的关系么?什么是洛伦兹变换?比如我在地面系观测到了一个粒子的位置和速度,现在我想知道它在火车系里是什么情况,我并不需要重新再到火车系里测量一遍这个粒子的位置和速度,我只需要根据洛伦兹变换就可以直接得到火车系里那个粒子的运动情况。所以,洛伦兹变换就是两个惯性系之间的联系,我只要知道了一个惯性系里粒子的运动情况,立马我就可以知道其他惯性系里粒子运动的情况。
所以,我们可以根据洛伦兹变换来找到两个惯性系之间的联系。我现在不是根据地面系的坐标轴来找火车系的坐标轴么?我们对着洛伦兹变换改就是了。洛伦兹变换是下面这样的:
其中,x,y,z,t代表地面系里观测到的,x’,y’,z’,t’是火车系里观测到的。v是火车系相对地面系的速度,火车的速度一旦给定了,这个v就是一个定值,c是光速,所以右边的γ都是一个常数。如果我们再根据几何单位制来,取c=1,那么洛伦兹变换就可以简化成下面的样子:
因为我们只考虑火车系相对地面系在x轴方向上的运动,所以在y和z方向上还跟原来一样,我们可以不考虑。我们现在画图也是来画x-t图,所以我们重点关注这两个式子:
这是什么呢?这不就是火车系了的x’和t’么?我现在要画的就是x’的坐标轴,也就是火车系的空间坐标轴,那怎么找到这个坐标轴呢?这个我们前面也提过:纵坐标的那条线就是横坐标为0的所有点的集合,反过来也是,横坐标就是纵坐标为0的点的集合。所以,我们令火车系的时间等于0,也就是纵坐标t’=0就能找到横坐标x’轴了。
那我们令t’=γ(t-vx)=0,因为γ是一个不为零的常数,所以就只有t-vx=0了,也就是t=vx。
这在x-t坐标系里就是一条过原点的直线,斜率为火车的速度v(斜率就是这条直线的倾斜程度,你可以理解为一个坡越陡斜率越大。当直线与横轴重合的时候,斜率为0;当直线跟横轴成45°的时候,斜率为1;当直线跟纵轴重合的时候,斜率为无穷大)。因为我们这里是几何单位制,光速为1,在狭义相对论里任何有质量的物体它的运动速度都是小于光速的,所以火车的速度v肯定是小于1的,也就是说这条直线的斜率比45°的直线(刚好是光的世界线)小。
再者,我们可以用同样的方法令x’=γ(x-vt)=0,就能得到火车系的纵轴是这样一条直线:t=x/v。它的斜率是1/v,因为v小于1,所以1/v是个大于1的数,所以这条斜直线的斜率比45°要大(我们前面画的也正是这样)。这里我给一个初中数学的结论:斜率互为倒数(比如v和1/v)的两条直线它们是关于y=x,也就是45°的直线对称的。所以,我们的x’轴是跟t’轴关于45°的直线对称的。这样我们就能精确地把它画出来了,如下图:
第一次看到这样一个坐标系的同学可能会感觉非常别扭,为什么火车系x’-t’的坐标系不是正交的,不是一个直角呢?我们得这样看:它们是正交的,只不过它们是在闵氏几何里正交,我们现在强行把它画在欧式几何里,那么肯定就看起来不正交了。
还有同学也会有疑惑,你不是说狭义相对论里惯性系都是平权的么?那么为什么这里把地面系画成直角的,而把火车系画成了一个小于直角的坐标系?我要是人就在火车里,我非要把火车系画成直角的,不行么?行,当然行。你可以按照上面的思路把火车系画成直角的基准系,再反推过去画地面系,最终的两个图虽然形状不一样,但是实质上还是等价的。
理解这个双坐标系非常关键,它第一次向我们展示了闵氏几何不一样的地方。有了它,我们就可以很方便的处理不同惯性系里的一些事情,比如,我们喜闻乐见的尺缩效应。
10尺缩效应
尺缩效应是狭义相对论里比较有趣的一个效应,它简单说来就是一句话:运动的物体长度会收缩,也就是动尺收缩。但是这样描述会让许多初学者心生疑惑,你动尺收缩是真的收缩了还是只是看起来收缩了?这是一种观测效应还是一种由于光速有限造成的传播误差?你相对尺子没动,觉得尺子没缩,我觉得缩了,那么它到底缩了没有(这是个很常见的错误的问题)?
其实,用非几何语言初学相对论的人不可避免地会遇到很多类似这样的问题。因为大家在牛顿的那一套环境里浸润久了,想一下子把思维切换过来很麻烦。而且学相对论的人最容易载到“相对”两个字里来,该相对的东西不相对,不该相对的东西又跑去相对,最后把自己绕进去了。但是用几何语言却没有这样的烦恼,因为有很多物理量在3维的时候是相对的,在4维里就都是绝对的了。而且,几何图形清晰直白,会大大降低这类问题的难度和迷惑性。
好,现在我们来看看怎么用几何语言处理尺缩效应。
一个粒子的世界线是一条线,而一把尺子是由许多粒子组成的,所以一把尺子在时空图里留下的轨迹就应该是一个面,我们称之为尺子的世界面。我们还是以地面系为基准系,假设尺子相对地面系静止,那么尺子每个粒子的世界线都是一条平行于t轴的线,合起来它的世界面应该是一个有一定宽度的面。上一节我们已经学会了如何把运动的惯性系也画出来,我们再把相对尺子运动的参考系x’-t’(假设为火车系)画出来,总的时空图就是这样:
如上图所示,阴影部分就是在地面系静止的尺子的世界面,它跟x轴的交点为a,跟x’轴的交点为b。那么我们很容易就能知道oa就是尺子在静止地面系的长度,ob就是尺子在运动的火车系x’-t’的长度。
为什么呢?你想想oa代表什么意思?oa就是当地面系的时间为零的时候尺子在空间x轴的投影,那这显然就是尺子的长度了。那么,同样的道理,因为运动的火车系的坐标是x’-t’,ob也是当t’都为0的时候尺子在x’轴的投影,所以ob就是运动的火车系测得的尺子长度。
所以,尺缩效应就变成了比较oa和ob的长度。很显然,oa和ob的长度肯定不一样,那么到底是oa长还是ob长呢?
没错,你的眼睛没有看错,我就是在问到底是oa长还是ob长?可能这个时候你的脑袋是懵的,明明oab组成了一个直角三角形,ob是斜边,斜边肯定比直角边更长啊,这是初中生都知道的,ob比oa长难道还有什么疑问么?
没错,搁在欧式几何里,斜边大于直角边这绝对毫无疑问。但是,我们始终要记住我们处理狭义相对论问题用的是闵氏几何(否则也不会出现x’-t’这样看起来不正交的坐标系),那闵氏几何里要怎么样比较两条线段的长短呢?
这个时候你可能意识到了:我们在闵氏几何里连怎么定义线段的长度都不知道,更别提比较两条线段的长短了。那么,闵氏几何里一条线段的长度是怎么定义,怎么计算的呢?
11闵氏几何的线长
在讨论怎么定义,计算闵氏几何一条线段的线长之前,许多人可能对为什么这个问题会是一个问题都心存疑惑:线段的长度不就是用尺子去量一下线段么,为什么还需要什么定义?即便我不用尺子去量,一条线段我在直角坐标系里把它投影到x和y轴,假设它在x轴和y轴的投影长度分别是Δx和Δy,那么我就可以利用勾股定理很简单的算出这条线段的长度L²=Δx²+Δy²。
但是,我还是得再强调一次:你能这样做,是因为你已经假设了你是在欧式几何里。只有在欧式几何里,一条线段的长度才可以这样用勾股定理去计算,但是狭义相对论的几何背景是闵氏几何。为了让大家能更直观的了解,我们先不谈闵氏几何,我们就来看看球面几何。
球面几何顾名思义就是在在一个球面上的几何。你可以想象在一个篮球的表面,或者地球的表面上有两个点,那么,这两个点之间的距离应该是一段圆弧长,而不再是欧式几何里的直线。你想想,在这种情况下,你还能用勾股定理去计算这两点之间的距离么?你要硬用勾股定理去计算,那么算出来的是这两点之间的直线距离,并非在球面上的圆弧长,这显然是不对的。就好比你在地球表面计算北京到深圳的距离,你用勾股定理算出来的距离是在北京地底下打一个直线隧道通到深圳的距离,这显然不是你在地球表面从北京直线开车去深圳的距离。
从这里我们能直观地感觉到:在不同的几何里,长度的计算方式是不一样,每一种几何都有自己度量长度的规则(这就是度规),一旦这种规则确定了,这种几何也就确定了。其实,这一点我在「线元决定几何」这一节里已经说得非常明确了,不光是线长,所有的几何性质都是由线元决定的,不同的几何拥有不同的线元,自然就拥有不同的计算线长的方式。
二维欧式几何的线元是dl²=dx²+dy²,二维闵氏几何的线元是ds²=-dt²+dx²。二维欧式几何里线段长度的计算公式是这样的:
那么,二维闵氏几何里线段长度的计算公式自然就是这样的:
因为闵氏几何的线元的时间项前面有个负号,所以,为了避免根号里面的值出现负数从而让式子无意义,我们套了一个绝对值(它保证所有值都是非负的,比如-5的绝对值为5,记做|-5|=5)的符号。
也就是说,我们在闵氏几何里是根据这个式子来计算一条线段的长度的,Δt和Δx分别代表这条线在t轴和x轴的投影。这个式子跟欧式几何的距离计算公式很类似,唯一的不同还是时间项前面的那个负号。也正因为这个负号,闵氏几何里的线长问题才会变得更我们平常想的不一样。为了让大家熟悉一下这种新的线长计算方式,我先来举个简单的例子。
问题4:大家还记得光子的世界线是一条45°的斜直线把,我们现在随便在光子的世界线里取A、B两点,那么线段OA、OB的长度分别是多少呢?如下图所示:
我们先来看看OA的长度,因为这条直线是45°,所以A点在x轴和t轴上投影得到的距离就是一样长的,也就是Δt和Δx的大小是一样的。但是,闵氏几何里线段长度的计算公式是它们两个相减再开根号,现在这两个值是相等的,那么相减的结果不就是0了么?再开根号结果自然还是0。
也就是说,OA在闵氏几何里的长度为0。
你没有看错,它的长度就是0。OA你看着有这么长的一段,但是它在闵氏几何里的长度却是0,这就是那个负号带来的效果。同样的,你可以接着去算OB的长度,或者直接算AB的长度,你会发现它的长度一样全部都是0。
所以,我们有这样的结论:光子的世界线长度恒为0。这很反直觉吧?我们再来看个例子。
问题5:还是上面的图,我过B点做一条垂直于t轴的线,然后随便在BC之间取一条点D。那么OC就是静止不动的粒子的世界线,OD就是一条匀速直线运动的粒子的世界线,OB是光子的世界线,那么它们三个的长短怎么比呢?
乍一看,好像的OB>OD>OC。但是我们刚刚算过了光子世界线OB的长度为0;OC是静止不动的粒子的世界线,那么它在空间上的位移Δx就为0,那么OC的长度就是粒子在时间轴里走的长度;OD在时间轴上的投影跟OC一样,但是它的Δx不等于0,那么它们相减(-Δt²+Δx²)之后的数值肯定就变小了,那么OD是小于OC的。于是,我们得到的结论确实跟之前的感觉截然相反的,三者的长度是OC>OD>OB=0。
所以,当我们在说时空图了某一条曲线的长度的时候,我们都要意识到我们是用闵氏几何那把尺子(时间项前面有负号)来度量曲线的长度,这跟我们平常生活里感受的(欧式几何度量长度)是不一样的。一开始大家会觉得这种方式非常不习惯,但是一旦习惯了就会觉得这个非常自然。
好了,这里我们介绍了闵氏几何里线长的定义和计算方法,理论上我们就可以计算任意一条线段的长度了,也能比较两条线谁长谁短了。我们上一节不就是最后把尺缩效应归结比较两条线段oa和ob的线长么?那现在可以直接比了啊。
我们看到ob在x轴的投影跟oa是一样长的,但是oa在t轴的投影为0,ob在t轴的投影却大于零。但是,根据闵氏几何的线长公式,线长是这个线段在时间轴t和空间轴x投影长度平方相减再开根号。既然两条线段oa和ob在空间轴x上的投影都一样,那么在时间轴t上投影长度越大的,相减之后得到的值就越小,那么最后的线长就越小。
所以,我们能直接就这样感觉到,在闵氏几何下,ob是比oa更短的。而ob代表的是运动参考系下尺子的长度,oa是静止参考系下尺子的长度,既然ob比oa更短,那么就是说在运动参考系里尺子的长度更短,这就是我们常说的尺缩效应。
这里我们是直接用线长的计算公式算出oa和ob的长度然后再来做比较,虽然算出来了,但是可能不是很直观。在许多教材和文章里都会提到另外一种看起来更直观的比较方式,那就是使用校准曲线,很多人也经常看到这个但是不是很明白,我这里就一起再讲一下。
12校准曲线
校准曲线其实是回答了这样一个问题:闵氏几何里,到原点距离相等的点组成的轨迹是什么?
老规矩,我们先看看欧式几何的情况。在欧式几何里,到原点距离相等(比如说都等于2)的点组成的轨迹是什么呢?这个我们都知道,这就是一个圆,到定点的距离等于定长的点的集合就是圆,这个点就是圆心,这个定长就是半径。
在欧式几何里,如果一个点(x,y)到原点的距离为2,那么,根据勾股定理我们就可以很容易写出下面的关系:x²+y²=4。而学过一点解析几何的人就都知道,这就是圆的坐标方程。
那么,再回到闵氏几何,在闵氏几何里到原点的距离为2的点组成的轨迹是什么呢?其实也简单,我们不是已经有闵氏几何的距离公式了么?代入进去就行了,因为是求到原点的距离,所以Δx和Δt就分别是点的坐标x和t,如下图:
我们把两边平方展开就得到了:
大家对比一下,这个x²-t²=4跟我们在欧式几何里圆的方程只有一个符号的差别(因为坐标轴不同,作为纵轴t和y是完全等价的)。这个式子,学过高中数学的同学一眼就能看出来这是一条双曲线,没学过或者忘了的可以自己去找一些具体的点描上去(自己找一些x的值,然后去算t的值,最后把(x,t)组成的点画到坐标系上去,看看轨迹是什么)。我这里用GeoGebra(这是一个免费的在线数学绘图工具,你输入函数或者方程,它就会自动把对应的图像画出来,有兴趣大家自己也可以去画一画)给大家画了一个图,大家可以看看,双曲线大致就是这么一个形状:
我们先甭管双曲线在欧式几何里的各种几何意义,我们是怎么得到这个图的?我们是在闵氏几何里找距离原点距离相等(这里等于2)的点的集合,也就是说,你别看这个曲线是弯弯曲曲的,但是在闵氏几何里,这个曲线里所有的点到原点的距离都是相等的,都等于2。
因为这种曲线上所有点到原点的距离都相等(闵氏几何下),所以我们就可以用这种曲线当作一个标准来校准,这就是把它叫校准曲线的原因。还是那个尺缩效应的图,这次我们用校准曲线来看一下。
大家看到,我加了一条过a点的校准曲线,我们假设它跟x’轴交于c点。这样就非常清楚了,什么是校准曲线?校准曲线就是闵氏几何里到原点的距离都相等的点,因为a和c都在曲线上,所以,在闵氏几何里oa和oc的长度是相等的,也就是oa=oc。而b、c两点都在x’轴上,很显然的ob<oc,合起来就是ob<oc=oa,那我们就很自然地得到了ob的长度比oa更短的结论。
而oa就是在静止的地面系观测得尺子的长度,ob是在相对尺子运动的火车系上观测到尺子的长度。我们得到的结论是ob<oa,这不就是说在运动的参考系里观测到的尺子的长度更短么?完美符合尺缩效应的结论。
在狭义相对论里经常跟尺缩效应一起出现的还有一个钟慢效应,它说相对钟运动的参考系观测钟会觉得它走地更慢一些,也就是动钟变慢(这个不同于广义相对论里引力钟慢效应说的引力越大,时间越慢)。但是钟慢效应和尺缩效应在时空图的处理上是类似的,所以我这里就不说了,大家可以自己去画一下,想知道答案的可以参考梁灿彬老师《从零学相对论》的4.2节(没有资料的可以在公众号后台回复“梁灿彬”或“梁老师”,获取《从零学相对论》+《微分几何入门与广义相对论》以及梁老师配套的的教学视频)。
接下来,我们来看一个狭义相对论里让无数新人头痛不已,也让无数科普者无比心烦的一个问题。这个问题用几何语言处理极为简单,但是读者不认,他们不太了解闵氏几何,更无法理解几何图形里代表的物理实质,你凭什么用这个这个就代表了那个那个?但是,这个问题如果用传统的代数语言讲就极为复杂,而且逻辑非常绕,一不小心就在各种相对里面把自己都绕进去了,分析它简直是对智商极大的挑战。没错,这就是大名鼎鼎的“双生子佯谬”问题。
13双生子佯谬
双生子佯谬的描述倒是非常简单:假设地球上有一对双胞胎,有一天哥哥驾着宇宙飞船去太空里里飞了一大圈再返回地球。那么按照狭义相对论,我们就会发现哥哥再次回到地球的时候他会比弟弟更年轻。比如说,哥哥从地球出发的时候,这对双胞胎都是20岁,现在哥哥在太空飞了一圈再回来之后,有可能弟弟已经30岁了,哥哥才25岁。当然,这个具体的数字依赖于特定的飞行情况,但是哥哥肯定会比弟弟年轻这是一定的。
这个问题的争议点在哪呢?它争议就争议在:狭义相对论里有钟慢效应,也就是说运动的物体他的时间会变慢。那么似乎可以说哥哥离开地球在太空里运动了一圈,所以哥哥是运动的,那么哥哥的时间会变慢,回到地球更年轻好像说得通。但是,运动不是相对的么?你站在地球上觉得是哥哥在动,那么我站在飞船的角度来看,我也可以觉得是弟弟(包括整个地球)在远离我然后靠近我,那么运动的那个人就是弟弟,因此弟弟的时间更慢,兄弟见面的时候应该弟弟更年轻。这样不就前后矛盾了么?
双生子问题是一个佯谬,佯谬就是说它看起来是错的,是矛盾的,其实是正确的。也就是说,如果我们真的有这样一对双胞胎,哥哥去外面浪了一圈再回到地球,他是真的会更年轻。但是,这样的话,我们要如何解释后面那种矛盾的说法呢?也就是,站在飞船上哥哥的角度看来,运动的是弟弟和地球,为什么不可以认为弟弟和地球才是那个时间变慢的呢?
有人意识到是加速减速这个过程在作怪,但是加速减速他一样可以说,我在飞船上看,地球也是加速离我远去,再加速再回来。然后甚至有人说这里有加速度,就应该把广义相对论搬进来解释,在这条邪路上走地更远的甚至说:哥哥不是加速运动么?等效原理说加速度等效于引力,所以哥哥在加速的过程产生了引力,而广义相对论又说引力是时空弯曲,那么哥哥加速使得时空弯曲了。
其实,双生子佯谬不仅是让许多初学者疑惑,在相对论的几何语言普及之前,许多物理学家对它也是头疼不已。他们到了20世纪50年代还在吵这个,物理学家们吵就不是像我们这样在群里或者论坛里发表一下意见看法,他们是发文章到《自然》、《科学》这样的顶级学术杂志里吵,所以你可以想象一下那时的情况。但是,当几何语言普及之后,物理学界几乎就没人再因为这个争论了,因为在几何语言下,这个问题简直简单得不像话,它就跟2+2=4一样清晰简单,那还有什么好吵的。
为什么几何语言可以如此大幅度的降低双生子佯谬的难度呢?这里就涉及到了学习相对论里最重要的一个事:学习相对论最重要的就是要分清楚相对论里哪些东西是相对的,哪些是绝对的。你要是看这个理论的名字叫相对论,就认为什么都是相对的,那就完了。其实相反,狭义相对论的两个根基“光速不变”和“相对性原理”都是绝对的:前者说光速是绝对的,后者说物理定律的形式是绝对的,这其实是一个不折不扣的“绝对论”。
我们再回过来想一想,双生子佯谬到底为什么这么麻烦?不就是因为滥用相对,认为什么都可以相对,所以站在哥哥的立场和弟弟的立场应该都一样从而导致了佯谬么?那为什么我们用几何语言可以轻松把这个问题理清楚呢?因为我们在使用几何语言的时候,我们是把时3维空间和1维时间看做一个整体的4维时空。用3维眼光看世界,3维空间和时间都是相对的,但是4维时空确是绝对的。当我们站在更高的维度(4维时空)里看问题的时候,那些因为相对产生的各种问题就自然消失了。所以,使用几何语言思考相对论,是站在更高的维度上看问题,这是一种思维方式上的降维打击。看过刘慈欣《三体》的同学,想必都对降维打击产生的效果印象深刻,学习相对论,我们也要尽快提高自己的维度~
如果想体会一下3维语言处理双生子问题的复杂度,可以看看我之前写过的一篇《双生子佯谬过程全分析》,其处理问题之麻烦,逻辑之烧脑简直灭绝人性。虽然我已经尽量清晰通俗的语言来说这个问题了,但是读者的问题还是跟雪花一样飞过来。最开始我还比耐心的一个个在群里解释,后来就实在受不了了。要跟人把这个问题彻底解释清楚,少则一两个小时,多则一下午,太费时费精力了。而且,后面要理解许多人的问题都非常困难,因为要提出一个正确的相对论的问题也需要一定基础,有些同学相对论的基础知识不牢,提的问题都是问题,那还怎么去理解双生子佯谬呢?
这就像是游戏里刚出来就要去打终极BOSS,下场自然可想而知,这也是我为什么现在就这么着急的来讲几何语言的一个原因:我实在不想再回答3维语言的双生子问题了。而且,把自己局限在这几个效应佯谬里,也不是什么好事,因为讲相对论的人虽然经常讲这个几个东西,但是这些东西绝非相对论的精髓,大家早点从这些框框里跳出去,去感受一下相对论里更精妙的东西才是好事。
14双生子佯谬的几何解释
好,我们下面来看看从几何语言是如何降维解决双生子佯谬的问题的。我们先假设地球做惯性运动(忽略地球自转和引力场什么的),以地面系为基准系,我们在时空图里画一画哥哥和弟弟的世界线。
弟弟的世界线简单,因为他一直待在地球没动,所以他在空间坐标里没动,流逝的只有时间。那么,弟弟的世界线就是一条跟t轴平行的直线。
哥哥的世界线稍微复杂一点,但是也很容易。哥哥从地球出发,去太空浪了一圈再返回地球,这其中的过程无非是先加速远离地球(加速之后有没有匀速我们都不管了),太空里飞了一段时间要掉头返回地球,那么其中必定先减速,再反向加速驶向地球,最后还要减速降落在地球上。因为匀速运动的世界线是一条斜直线,那么加速运动的世界线就是曲线了,这曲线大致就是下面这个样子。
我们用a表示哥哥离开地球这个事件,b表示哥哥返回地球跟弟弟见面这个事件,那么这个时空图就大致是下面这样的:
问题来了,时空图在这里,哥哥弟弟的世界线也都画出来了,那么如何从图中判断哥哥弟弟谁更年轻呢?时空图里纵轴是时间轴,单从时间轴来看,哥哥和弟弟的世界线在时间轴的投影刚好是一样长的,那么是不是这样就代表哥哥弟弟经历的时间是一样长的呢?如果他们经历的时间一样,那么重逢时哥哥弟弟的年龄就应该一样大啊,那怎么还会有双生子佯谬呢?这显然跟事实不符。
那么这个时间到底要怎么看呢?我们先来想一想,我们要判断地球重逢时谁更年轻,其实就是判断在事件a和事件b之间哥哥弟弟谁自己经历的时间更长,我这里特别强调是自己经历的时间,为什么要这样强调?在牛顿力学里,时间是绝对的,全世界的人都共用一个时间,因此这么说是多余的。但是在相对论里时间是相对的,不同参考系对时间的测量也是不一样的(正因如此洛伦兹变换里两个系的时间t和t’是不相等的),那么在哪个参考系测量的时间可以表征一个人的真实年龄变化呢?或者换句话说,哪个时钟可以表征一个人年龄的真实变化呢?
答案显而易见:只有一直跟自己处于同一个参考系的时钟测量的时间才是自己年龄变化的真实时间。也就是说,只有我口袋里那块表的走时才是真正跟我的年龄增长对应的,我们把这个自己随身携带的时钟测量的时间称为固有时。相对论里时间是相对的,伦敦的那口大笨钟跟我不在一个参考系,凭什么说它的走时测量的是我的时间?
想通了这点,上面的事情就好理解了:我们把哥哥和弟弟的世界线都投影到时间轴,这其实得到的是地面系的时钟测量哥哥弟弟经历的时间,这钟相等没有任何意义。我们得用地面系的时钟测量弟弟的时间,再用飞船系的时钟(也就是哥哥随身带的时钟)测量哥哥经历的时间,也就是哥哥的固有时,这样对比才行。
那么问题来了:根据时空图和世界线,我们要如何得到哥哥的固有时呢?
15世界线和固有时
在这里,我先给出这个极为重要的结论:世界线的线长等于固有时。
这句话很短,意思却很明确,他就是告诉我们时空图里那个粒子的世界线的线长就表征了粒子的固有时,也就是跟粒子一直保持相对静止的时钟测量的时间。在上面的双生子佯谬的时空图里,哥哥和弟弟的世界线都画出来了,那么我们可以求出他们的线长。现在你说世界线线长等于固有时,那我们要比较哥哥弟弟的固有时,直接比较他们的世界线线长就完了。
所以,如果我们知道上述结论,那么双生子佯谬这个问题就简化为比较哥哥和弟弟世界线的线长,谁的长一些谁经历的时间就多一些,那谁就更老,那问题就相当简单了。因此,现在问题的关键就是如何理解上面的结论:为什么在闵氏时空里世界线的线长会等于固有时呢?
这个事情我们可以这样理解:固有时是什么?固有时就是自己随身带的时钟测量的时间,说得再准确一点,那就是跟自己一直处在同一个参考系里的时钟测量的时间。因此,如果一个时钟始终跟你处在同一个参考系里,它自然觉得你一直是静止不动的。比如,在飞船里的哥哥虽然要经历加速减速运动,还可能在宇宙里各种浪,但是在飞船里的人和时钟看来,哥哥一直坐在那里没动。
那么,重点来了:时钟觉得你不动,其实是觉得你在空间里没动,也就是说觉得你在空间上的位移为零。那么,你在时空(时间+空间)里移动的间隔就将全部由你在时间上的间隔贡献(因为空间没动,间隔为0)。
什么意思?我们再来理一下时空间隔这个概念:狭义相对论统一了时间和空间,用时空图上的一个点表示发生在某个时间某个空间上的一个事件,那么两个事件肯定就表示为时空图上的两个点,那么这两个点之间的距离(闵氏距离)就是这两个事件的时空间隔。而且,我们还反复强调了,闵氏几何里的时空间隔,就跟欧式几何里的空间间隔一样,它是不会随着参考系的变化而变化的。也就是说,只要发生了两个事件,那么不管我是在地面系看,还是在飞船系看,这两个事件信息虽然不一样,但是它们的时空间隔一定是一样的。
在欧式几何里,欧式线元是dl²=dx²+dy²,所有在x轴上相隔dx,y轴上相隔dy的两个点的空间间隔,或者说空间距离也就是dl²=dx²+dy²。同样的道理,在闵氏几何里,闵氏线元是ds²=-dt²+dx²,所以,在时间上和空间上分别相差dt、dx的两个事件,它们之间的时空间隔也就是 ds²=-dt²+dx²。
我们现在想知道固有时,也就是想知道跟自己处在同一个参考系里的时钟的走时。上面我们已经分析了,在自己所处的参考系里,肯定觉得自己是静止的,也就是空间间隔dx=0。因为时空间隔是ds²=-dt²+dx²,把dx=0代入进去我们就能得到ds²=-dt²。这就是在上面说的,自己参考系里的时空间隔全部由时间间隔贡献的意思。
有了ds²=-dt²,事情就明朗了:dt就是在自己所在参考系里的时间流逝,而ds是时空间隔,也就是时空图上两点的距离。这个微分符号d就是在告诉我们这是两个间隔无穷小的事件,如果我们把许多无穷小的这种事件累积起来(也就是对ds²=-dt²做积分运算),那么dt累积起来就是时钟流逝的时间,也就是固有时;而把ds累积起来,也就是把所有相邻时空点之间的距离累积起来,那得到的就是时空图里这条世界线的长度。
这就无可辩驳的向我们证明了:世界线的长度等于固有时。
其实,只要我们理解自己相对于自己所在的参考系肯定在空间上是静止的,所以时空间隔全部由时间间隔贡献。而时空间隔就是时空图里两点的距离,这个距离累积起来就是世界线的长度,而时间间隔累积起来自然就是这个参考系里流逝的时间就行了。上面做的各种简单的计算,无非就是从数学上更加严格地证明了这一点而已。
想通了这点就会觉得其实“世界线长等于固有时”是很正常的事情,在一些相对论的教材里,他们甚至直接拿这个来定义标准钟的。也就是说,他们在教材不会向你解释为什么“世界线长等于固有时”,而是直接告诉你“只有世界线的线长等于固有时的钟才是标准钟”,才是准确的钟,否则你的钟是有问题的。可见,在大家眼里,这个结论实在是非常自然的。
16双生子佯谬之完结篇
好了,如果我们能够理解“世界线的线长等于固有时”,那么困扰大家多年的双生子佯谬就瞬间变成了一个极其简单的问题。我们再来看看双生子佯谬的时空图:
比较哥哥弟弟重逢时谁的年龄更大,就是比较他们两个的固有时,就是比较哥哥和弟弟世界线的线长。那么,他们两个的世界线谁的更长一些呢?
其实这根本都不用定量的去计算,一眼就能看出弟弟的世界线更长,因为闵氏几何里线段长度是时间和空间项的平方相减之后再开方得到的。这个求线段距离的公式我们前面也说了,其实就是闵氏线元稍微处理一下,如下图:
所以,如果两条线在时间轴上长度一样(比如哥哥和弟弟的时间都是从a到b),那么在空间上走的越多的它的总线长就越短。弟弟静止没动,他的世界线是完全平行于t轴的,在x轴上都没有任何分量,也就是Δx=0,所以他的世界线肯定是最长的。哥哥因为去太空飞了一圈,所以空间上的分量Δx>0,那最终得到的S的值肯定就比弟弟更小了。
我们可以想象一个最极端的情况,我们假设哥哥以光速运动,那么它在空间上走的距离就最大。而我们知道光子的世界线长度为0,所以这时候哥哥的世界线长度就是最小值0了,0肯定比弟弟的世界线长度更小吧。
如果大家对这种粗略的讨论不放心,我们可以换种更精确的方式讨论。如下图,我们把弟弟和哥哥的世界线用很多平行于x轴的虚线分隔开,如果我们的分割线足够多,那么在每一个小段里哥哥的世界线就可以近似看做一条斜直线,而它的线长是显然比弟弟世界线里的那一小段短的(这我们在上面已经给过结论了)。由于每一小段里哥哥的世界线都更短,那么累加起来的总世界线肯定还是更短了。
总之,大家如果理解闵氏时空的线长计算公式,我相信理解哥哥的世界线更短是非常容易的,而世界线更短就意味着自己经历的时间(固有时)更短,那么重逢时哥哥就更年轻。这样,双生子佯谬就是很明显的事情了。
于是乎,我们发现让我们头疼不已的双生子佯谬就这样被解决了。在几何语言里,复杂的双生子问题被简化到仅仅比较一下哥哥弟弟两条世界线的线长就行了,而只要我们理解在闵氏几何里计算线长要用闵氏几何的方式(ds²=-dt²+dx²)去度量就没什么问题了。其实,你也不用觉得奇怪,把代数问题几何化之后带来问题难度的大幅度降低并不是什么奇怪的事情,我们在初中高中的数学里,不也经常借助画图去理解函数、方程的性质么?
这样处理问题简单是简单了,但是细心的人还是会有疑虑,他觉得:虽然你在这个以地面为基准系的时空图里确实严格地证明了哥哥的世界线更短,所以回来的时候更年轻。但是我如果不以地面系为基准系呢?我在其他的参考系里来看,来画时空图,比如我要是站在哥哥飞船的视角来画时空图,那结果会不会又不一样呢?因为说到底,大家觉得双生子佯谬难以理解,就是因为你可以站在弟弟的角度,也可以站在哥哥的角度,这样一相对就没完没了了。
这在以前的思维里确实是大问题,但是,在几何语言里这确不是问题。为什么呢?因为线长是一个几何量,这种几何量是不会随着坐标系的变化而变化的(因为它们是根据线元定义的,而线元在不同的坐标系里都是一样的),也就是跟坐标系的选择无关。这一点我们在二维欧式几何里也可以非常清楚地感觉到:你在二维欧式平面里有一条线段,那么这条线段的长度就是固定的。不管你是上下左右的移动这个直角坐标系,还是顺时针逆时针旋转这个直角坐标系,线段的长度始终都是一样的,这一点相信大家不难理解。
那么,同样的,在闵氏几何里,不论你选择哪个惯性系作为基准系,一条世界线的线长都是一样的。也就是说只要哥哥的世界线在一个参考系里比弟弟的世界线短,那么再所有的惯性参考系里都比弟弟的世界线短。这就跟在欧式几何里一根木棒只要在一个直角坐标系里比另一根木棒长,它在所有的直角坐标系里都比那根木棒长一样的道理。
其实,我们再仔细想一下,当初我们为什么选择闵氏几何来描述狭义相对论?不就是因为我们发现了在洛伦兹变换下,也就是在惯性参考系之间不论怎么相互转换,ds²=-dt²+dx²作为一个整体它的值是不变的么?然后我们以ds²=-dt²+dx²为线元建立了闵氏几何,而在闵氏几何里曲线的长度就是根据这个线元来定义的。所以,世界线的长度在闵氏几何不同的参考系里肯定就是一样的,我们也压根没必要舍近求远,去选择更复杂的参考系给自己找不痛快。
这样,我们就能消除那个疑惑,放心大胆的说哥哥的世界线更短了。于是,用闵氏几何讨论双生子佯谬的问题就全部结束了。其实,只要把几个关键的弯转过来,你就会发现双生子佯谬其实是非常简单的一个问题,它完全不值得我们花费那么多的时间精力在这里绕来绕去(这个问题跟薛定谔的猫在社群里并称两大月经问题),但是不使用几何语言,这好像也是没办法的事,太复杂了。相对论还有非常多精彩的东西等着我们去探索发现,在双生子这棵小树上把自己吊死了岂不可惜?闵氏几何虽然看上去有点怪异,但是当我们顺着思路慢慢看的时候,就会发现它其实也没那么奇怪,它不过就是在欧式线元的前面加了一个负号而已,其他的逻辑跟欧式几何都几乎是一模一样的。
17结语
文章到这就先告一段落,能够坚持看到这里的那妥妥的都是真爱了。我写这篇文章主要是想让更多人了解闵氏几何,了解闵氏几何是如何处理狭义相对论里的问题的,最好是让读者能开始习惯用几何语言讨论相对论问题。
所以我不能直接给你下定义,然后告诉你如何用闵氏几何处理这个那个问题,因为这样很多人会不服气,凭什么相对论的问题可以转化成这样的几何问题?为什么闵氏几何里的这个就对应了相对论里的那个问题?因为闵氏几何并没有那么直观,你把狭义相对论翻译到闵氏几何并不像我们把一个图形画到黑板上那么显而易见,所以我必须先把自己的知识清空,从头从零一点点的开始讲,让大家自然的切换到闵氏几何中来。于是,文章就不可避免的长了起来。
另一方面,我这只是科普性质的文章,重点是想让大家了解闵氏几何处理狭义相对论问题的核心思想,因此,我不会像教科书一样把各个概念和术语都写出来。相反,为了降低大家理解的难度,能不用术语的地方我尽量不用术语,能不写公式的地方尽量不写公式,我这真的只是一个闵氏几何的入门篇。大家如果想更全面深入的了解相关内容,可以去找专业的闵氏几何和相对论的教材,这里我还是推荐北京师范大学梁灿彬老师的《从零学相对论》(入门篇)和《微分几何入门与广义相对论》(高级篇),需要这两本书的电子版和配套教学视频的,可以在后台回复“梁灿彬”或者“梁老师”。把我这篇文章看懂了,再去看《从零学相对论》应该会很容易,更深入的问题我们后面再说。
相关文章:双生子佯谬的分析全过程
收起阅读 »你也能懂的质能方程E=mc²
提到爱因斯坦,很多人的第一反应就是E=mc²。
没办法,质能方程看起来“太简单”了:左边的E代表能量,右边的m代表质量,c是光速,都是中学生就能看懂的物理量。而且,这个方程看起来太神奇了,它告诉我们一般物体都蕴含了巨大的能量,原子弹那毁天灭地的力量就是最好的证明。
又简单又神奇,不传播你传播谁?
但是,很多人容易忘记一件事:质能方程是狭义相对论的结论,需要站在狭义相对论的立场上才能精准地把握它。否则就容易望文生义,再类比、推广一下,后果就很可怕了。
比如,有人认为质能方程的意思是“质量可以转化成能量”,或者说“物质可以转化成能量”。延伸一下,物质代表“有”,能量代表“无”,质能方程暗示着“有无相生”,接下来欢迎进入太极物理频道……
也有人认为质能方程是在说“质量是能量的一种形式”。延伸一下,我们的物质本质上都是能量,一切都是能量,一切都是虚无,色即是空,接下来欢迎进入相对论佛学频道……
这种误解以及可怕的延伸,我还可以列很多。要不是建了那么多社群,见识了各种各样的人,我真难以想象质能方程会有如此丰富的“内涵和外延”。
不过,想想也不奇怪。毕竟谁都可以谈一下质能方程,谈的人多了,想法自然就多了。而且,质量亏损这个名字也很容易把大家往歪路上引。
那么,我们就来好好看一看质能方程,看看E=mc²到底是怎么回事,看看它是如何从狭义相对论推导出来的,以及如何正确地对待质能方程。
01从狭义相对论出发
因为质能方程是狭义相对论的产物,所以,想搞清楚质能方程就得先搞清楚狭义相对论。
什么是狭义相对论呢?
我在《相对论诞生:爱因斯坦是如何创立狭义相对论的?| 主线》里详细描述了狭义相对论的诞生过程,看完文章的朋友肯定都知道:狭义相对论的核心是洛伦兹协变性。
它跟牛顿力学的核心区别是:狭义相对论的物理定律在洛伦兹变换下保持数学形式不变,而牛顿力学的物理定律在伽利略变换下保持数学形式不变。至于尺缩、钟慢、双生子之类的效应,都是狭义相对论的一些简单结论。
质能方程E=mc²也是这样。
也就是说,只要我们认为物理定律应该在洛伦兹变换下保持数学形式不变(狭义相对论精神),我们就能推出质能方程E=mc²,而不需要其它的假设和限制。
因此,只要狭义相对论成立,质能方程就成立,它的适用范围是极广的。有些朋友认为质能方程只在核反应里才有效,这显然不对,因为狭义相对论并不是只在核反应里才有效。
那狭义相对论在哪些地方成立呢?是不是像有些人认为的,狭义相对论只在高速(近光速)情况下成立,在低速情况下就必须使用牛顿力学?
不不不,也不是这样的逻辑。
狭义相对论跟牛顿力学并不是互补的关系。牛顿力学只在低速时适用没错,但狭义相对论不仅在高速时适用,在低速时也同样适用。而且,在低速时它的精度比牛顿力学还要高。
也就是说,狭义相对论不管在低速、高速时都成立,牛顿力学只是狭义相对论在低速情况下一个还算不错的近似。既然狭义相对论的适用范围那么广,质能方程的适用范围自然也很广,而不是只局限在核反应里。
但是,爱因斯坦并不需要知道核反应里质量和能量的关系,他直接从狭义相对论的基本原理出发,就无可辩驳地得到了E=mc²。这是最让人震惊的地方,也是理性的巨大胜利。
接下来,我们就来看一看,看看为什么只要坚持狭义相对论的基本原理,只要坚持物理定律在洛伦兹变换下保持数学形式不变(洛伦兹协变性),我们就能得到质能方程E=mc²。
02动量守恒定律
再来看看E=mc²,公式的左边出现了能量E,看到能量我们就会想起能量守恒定律。既然是定律,那我们就要问了:你可不可以在洛伦兹变换下保持数学形式不变啊?如果可以,那就欢迎进入狭义相对论的世界;如果不行,那就从哪来回哪去,一边玩去。
不过,考虑到能量的种类太多太杂,我们先来看看更简单的动量守恒定律。
在牛顿力学里,动量的定义是mv(质量乘以速度),在不受外力或合外力为0时,两物体碰撞时动量守恒。
比如,两个质量都为m的小球以相等的速度v迎面撞上,碰撞后两个小球黏在了一起。如果以某个小球的运动方向为正(假设为向右),那这个小球的动量就是mv,另一个小球的动量就是-mv,碰撞前动量之和就是mv+(-mv)=0。
根据动量守恒定律,碰撞后小球的总动量也应该为0。而碰撞后它们又黏在了一起,变成了一个质量为2m的大球,所以碰撞后的速度就必然为0(不然总动量就不为0了)。
两个质量相等、速度相反的小球迎面相撞,碰撞后两个小球黏在一起并保持静止。这个事情很容易理解,不管是用牛顿力学的动量守恒定律来计算,还是根据常识来判断都没错。
但是,我们关注的并不是碰撞本身,而是:动量守恒定律是定律么?
这个问题好像很奇怪,动量守恒定律当然是定律了,不然这名字是瞎叫的么?
但是,我希望来到这里的读者,对定律要有更深层的理解。前面说了,狭义相对论和牛顿力学的核心区别,就是前者的物理定律在洛伦兹变换下保持数学形式不变,后者的物理定律在伽利略变换下保持数学形式不变。
那么,当你把动量定义为mv,当你在说动量守恒定律的时候,这个定律是在洛伦兹变换下保持数学形式不变呢,还是在伽利略变换下保持数学形式不变?如果是前者,那这条动量守恒定律就是狭义相对论下的定律;如果是后者,它就是牛顿力学下的定律。
当然,我们很清楚,把动量定义为mv是牛顿力学里的做法。所以,这样的动量守恒定律必然是牛顿力学下的定律,它必然能在伽利略变换下保持数学形式不变。
下面我们来简单地验证一下。
03伽利略变换
要验证动量守恒定律是否可以在伽利略变换下保持数学形式不变,我们就要先搞清楚什么是伽利略变换?搞清楚当我们在说一个定律在伽利略变换下保持数学形式不变时,我们到底在说什么?
其实,伽利略变换也好,洛伦兹变换也罢,都是联系两个参考系的东西。变换嘛,就是把一个参考系的物理量变到另一个参考系里去。
比如,我在300km/h的高铁上,觉得前面的椅子速度为0,列车员正以5km/h的速度往车头走,这是高铁系的测量结果。
那么,如果我站在地面,地面系测量椅子和列车员的速度又会是多少呢?有同学立马会说:“我知道,从地面上看,高铁上椅子的速度是300km/h,列车员的速度是300+5=305km/h。"
如果我问他这样算的依据是什么,他会觉得这还要什么依据,这不是天经地义的事情么?当然要有依据,物理学是一门非常严密的科学,做什么都要有理有据。
我们现在讨论的是同一个东西(椅子、列车员)在不同参考系里的速度,这就涉及两个参考系之间的变换,是一件很严肃的事情。如何把这两个参考系里的物理量联系起来?答案就是前面说的伽利略变换、洛伦兹变换。
在牛顿力学里,我们用伽利略变换联系两个惯性系,那伽利略变换到底长啥样呢?
假设我们在地面系S建立了一个坐标系(x,y,z,t),现在有一辆火车以速度v沿x轴正方向匀速运动。我们在火车系S’里也建一个坐标系(x’,y’,z’,t’),为了简化问题,我们让这两个坐标系一开始是重合的。
坐标系建好后,空间中发生了任何事件,地面系和火车系都会记录下这个事件的时空信息(x,y,z记录空间信息,t记录时间信息)。我们想知道的就是:地面系和火车系记录的时空信息之间有什么联系?
不同的变换会给出不同的答案,伽利略变换的答案是:
我们知道,牛顿力学里的时间是绝对的,所有参考系的时间都一样,所以伽利略变换里有t'=t。因为t‘代表火车系的时间,t代表地面系的时间,t'=t不就是说大家的时间都相等,时间是绝对的么?
再看空间,因为火车只沿x轴正方向移动,所以火车系和地面系在y轴和z轴的坐标都一样,x坐标的关系x'=x-vt也不难理解,琢磨一下就明白了。
有了坐标和时间的关系,我们很容易就能求出火车系的速度u'和地面系的速度u之间的关系:u‘=u-v。这个就不推了,不清楚的可以看看《相对论前夜:牛顿和麦克斯韦的战争》,里面有更加详细的推导。
伽利略变换的速度关系是u‘=u-v,这就意味着:火车系测量的速度等于地面系测量的速度减去火车相对地面的速度。
比如,在速度v=300km/h的高铁上,如果高铁系测量列车员的速度u'=5km/h,地面系测量列车员的速度u就应该满足:5=u-300,u确实等于5+300=305km/h,跟我们的直觉一样。
但是,我们要清楚地认识到:这些推理都是建立在伽利略变换的基础上的。
因为我们采用了伽利略变换,所以两个惯性系之间的速度才可以这样叠加。火车系测量的速度是5km/h,地面系的结果是300+5=305km/h,这不是什么天经地义的事情,而是伽利略变换的结果。
04牛顿力学的定律
有了这个认识,我们再思考一下:当我们说动量守恒定律是牛顿力学里的定律时,我们到底在说什么?
在牛顿力学里,动量的定义是质量乘以速度,也就是mv。我想看动量守恒定律是不是定律,就是要看在一个惯性系(比如火车系)里成立的动量守恒定律,用伽利略变换把它变到另一个参考系以后,它是否依然成立。
因为质量是一个不变量,不管在哪里都不变。所以,不同惯性系之间动量的差别就体现在速度v上了。
还是以小球的碰撞为例,假设两个质量都为m的小球以速度v迎面相撞,碰撞后两个小球黏在一起并保持静止。取向右的方向为正,从地面系看,碰撞前两个小球的动量分别为mv和-mv,碰撞前总动量为0。碰撞后,两个小球黏在一起并保持静止,所以碰撞后的动量2m×0=0,也是0。
因为碰撞前的总动量等于碰撞后的总动量(都是0),所以,地面系确实认为存在动量守恒定律。
但是,我们看动量守恒定律是不是牛顿力学下的定律,并不是只看这个定律在地面系是否成立,还要看用伽利略变换把它变到另一个惯性系之后,它是否依然成立。
因此,我们要换一个参考系,看看新参考系里的碰撞过程是否依然满足动量守恒定律。为了计算方便,我们就把新参考系选在从左往右运动的小球身上,也就是站在速度为v的小球上再来看这个问题。
在地面系,两个小球碰撞前的速度分别为v和-v,碰撞后两个小球黏在一起,速度为0。那么,在新参考系里,碰撞前后小球的速度又分别是多少呢?
在牛顿力学里,我们使用伽利略变换的速度叠加公式u‘=u-v联系两个惯性系之间的速度。也就是说,在原参考系里速度为u的物体,在新参考系里速度就是u‘=u-v。
因此,对于碰撞前速度为v的小球,在新参考里速度为v-v=0;碰撞前速度为-v的小球,在新参考系里速度为-v-v=-2v;碰撞后速度为0的小球,在新参考系里的速度为0-v=-v。
也就是说,同样的碰撞,新参考系看到的是:两个质量为m的小球,一个速度为0(以它为参考系,速度当然为0),一个速度为-2v(对面的小球),它们碰撞之后黏在一起,变成了质量为2m,速度为-v的大球。
那么,在新参考系里动量守恒定律还成立么?我们再来验算一下:碰撞前两个小球的动量分别为m×0=0和m×(-2v)=-2mv,碰撞后黏在一起的大球的动量为2m×(-v)=-2mv。
看到没有,新参考系里碰撞前后的动量都是-2mv,依然相等。所以,在新参考系里动量守恒定律依然成立。
当然,这里我们只验证了一个新参考系。但是,你完全可以根据伽利略变换的速度叠加公式,证明只要把动量定义为mv,动量守恒定律在一般情况下都成立。
这样,我们才敢理直气壮地说:如果把动量定义为mv,动量守恒定律的确是牛顿力学里的定律。因为你用伽利略变换把动量守恒定律变到任何惯性系,它都成立。
那么,到了狭义相对论里呢?
05洛伦兹变换
在狭义相对论里,联系两个惯性系的不再是伽利略变换,而是全新的洛伦兹变换:
变换的细节我们先不细究,不过你可以看到:在洛伦兹变换里,火车系的时间t'和地面系的时间t不再一样(t'≠t),它们之间有个巨复杂的关系。
也就是说,在狭义相对论里,时间不再是绝对的,不同惯性系的时间并不一样,每个惯性系都有自己的时间。
再看看火车系和地面系的x坐标之间的关系,也是一个非常复杂的式子。所以,不难想象,从洛伦兹变换推出的速度叠加公式肯定就没有伽利略变换的那么简单。
中间的推导过程我就省了,洛伦兹变换下的速度叠加公式是这样的:
怎么样,比伽利略变换下的u'=u-v复杂多了吧?
但是,仔细观察一下就会发现,如果v远小于光速c,分母的v/c²就约等于0,分母就变成了1,于是这个速度叠加公式就回到了伽利略变换下的u'=u-v。因为牛顿力学是狭义相对论的低速近似,所以伽利略变换自然也是洛伦兹变换的低速近似。
在牛顿力学里,我们使用伽利略变换导出的速度叠加公式,所以可以用300+5=305km/h表示地面系测量的列车员速度。但是,我们在狭义相对论里使用的是洛伦兹变换导出的新速度叠加公式,那结果肯定就不再是305km/h了。
也就是说,如果火车系测量列车员的速度为5km/h,我问地面系的结果是多少?牛顿力学给出的结果是305km/h,这是用伽利略变换算出来的;狭义相对论认为这个结果不等于305km/h(当然也极为接近这个数字),因为它是用洛伦兹变换算出来的。
如果你问谁算得更准确,那当然是狭义相对论的结果更准确,但牛顿力学的结果也跟它极为接近。因为火车的速度v和列车员的速度u都太小了(相对光速c),所以洛伦兹变换的速度叠加公式的分母1-vu/c²基本上等于1,于是基本上就等于伽利略变换的结果。
但是,如果火车的速度接近光速,分母1-vu/c²就会远小于1,那得到的结果就跟伽利略变换完全不一样了,所以牛顿力学就不能用了。
通过这个例子,相信大家对伽利略变换和洛伦兹变换都有了一定的了解,也明白不同变换下的速度叠加公式是不一样的。具体的计算过程可以不用搞得太清楚(亲自推一遍当然更好),但道理一定要明白。
06狭义相对论的定律
知道了洛伦兹变换,我们再来看这个问题:在狭义相对论里,动量守恒定律还是定律吗?
当我们在说这句话的时候,我们的意思是:如果把动量仍然定义为mv,那动量守恒定律在洛伦兹变换下还能保持数学形式不变么?如果动量守恒定律在一个惯性系里成立,我用洛伦兹变换把它变到另一个惯性系以后,它还成立吗?
具体的计算我就不做了,稍微想一下就知道答案肯定是否定的。
因为我们已经证明了:如果把动量定义为mv,动量守恒定律在伽利略变换下是可以保持数学形式不变的,这样动量守恒定律才步入了牛顿力学的殿堂。
然而,现在动量的定义(mv)没变,联系两个惯性系之间的变换却从伽利略变换变成了洛伦兹变换。既然伽利略变换能让动量守恒定律保持数学形式不变,那换了变换以后肯定就不一样了啊。
也就是说,如果我们依然把动量定义为mv,在洛伦兹变换下,新参考系的动量守恒定律必然不再成立。
要验算也很简单,洛伦兹变换下的速度叠加公式是这样的:
还是刚才的小球碰撞问题,我们可以用同样的方法把新旧惯性系碰撞前后的速度都算出来,再看看动量是否相等。
谁算谁知道,答案必然不相等。
于是,我们就面临一个非常棘手的问题:如果我们在狭义相对论里依然把动量定义为mv,那么,经过洛伦兹变换以后,新参考系里的动量守恒定律就不再成立。如果动量守恒定律无法在洛伦兹变换下保持数学形式不变,那它就没有资格成为狭义相对论里的定律。
也就是说,如果我们继续沿用牛顿力学的动量定义(mv),那狭义相对论里动量守恒定律就不再成立。
怎么办?
解决方案也很明显:要么,我们放弃动量守恒定律,认为狭义相对论里动量守恒定律不再成立;要么,我们修改一下动量的定义,让新定义下的动量守恒定律在洛伦兹变换下依然可以保持数学形式不变,从而保住它在狭义相对论里的定律地位。
很显然,闭着眼睛我们都知道要选后者。
动量守恒定律这么重要的东西,你说放弃就放弃了?为了坚持动量的定义(mv)而放弃动量守恒定律,这种行为太愚蠢了。如果动量守恒定律不再成立,我要动量有何用?
07新的动量
所以,为了保住狭义相对论里的动量守恒定律,我们需要重新定义动量。重新定义的目的,就是让新的动量守恒定律具有洛伦兹协变性,让它在狭义相对论里能继续以定律自居。
那么,我们要把新动量定义成啥样,才能让它具有洛伦兹协变性呢?这个倒不难,因为洛伦兹变换是明确给出了的,我们只要凑出一个新动量,让动量守恒定律在洛伦兹变换下依然可以保持数学形式不变,而且在速度远小于光速时能够回到牛顿力学的定义就行了。
这个过程我略了,感兴趣的自己去试一下。最后,为了保住狭义相对论里的动量守恒定律,我们必须把动量定义成这样:
可以看到,当v远小于光速c时,分母就会变成1,此时的动量就回到了牛顿力学的定义mv。而且,你试一试,这样定义动量,确实可以让动量守恒定律在洛伦兹变换下保持数学形式不变,皆大欢喜。
到这里,我们就完成了从牛顿力学到相对论力学升级的第一步。为了让动量守恒定律具有洛伦兹协变性,我们修改了动量的定义。
但是,力学量又不止动量一个,物理定律也不止动量守恒定律一个。你考虑了动量守恒定律,那能量守恒定律要不要考虑?你改了动量的定义,那动能的定义要不要改?
改,当然要改,一个个排队慢慢来!
为了让动能不跟新的动量发生矛盾,为了让能量守恒定律也能顺利入驻狭义相对论,我们需要同步修改动能的定义。
而接下来,就是见证奇迹的时刻:一旦开始修改动能的定义,你会发现质能方程E=mc²竟然神奇地冒出来了。
08新的动能
狭义相对论里的动能要怎么改呢?当然是照着牛顿力学慢慢改。
在牛顿力学里,动能的定义是mv²/2。一个质量为m的木块静止在地面,它的动能为0,我用一个恒力F推这个木块,木块移动了距离S,速度均匀加速到了v。
我在《什么是高中物理?》的第25节跟大家算过:一个物体在恒力F的作用下会以一定的加速度做匀加速运动。根据牛顿第二定律,这个力F和物体的质量m以及加速度a之间的关系是:F=ma。而一个物体以加速度a从0加速到v,运动的距离S可以表示成:S=v²/2a。
如果我们算一下力F在空间上的累积(也就是力F做的功)F·S,会发现它刚好就等于物体增加的动能mv²/2:
也就是说,合外力对物体做的功等于动能的改变量,这就是中学的动能定理。也因如此,我们在牛顿力学里可以用合外力F和位移S的乘积F·S来表示动能增加的大小,如果物体一开始动能为0,那F·S就是物体最终的动能。
那么,牛顿力学里这个关于动能的计算方式可不可以搬到狭义相对论里来呢?
大抵还是可以的,毕竟狭义相对论在低速情况下还要回到牛顿力学,所以许多东西都会保持一定的一致性。比如,狭义相对论里的动量虽然不再是mv,但是基本形式上还是质量m乘以速度v,只不过加了一个相对论特有的系数。
因此,我们在狭义相对论里就暂时用F·S计算动能好了。位移S好说,但问题是:这个力F要如何表示?
在牛顿力学里,力F的常见表示有两种:一种是根据牛顿第二定律F=ma来算;另一种是对F=ma做一个微小的变形,把加速度a按照定义表示成Δv/Δt,然后把m和Δv组合成动量的改变量Δp(p=mv),然后F=ma=mΔv/Δt=Δp/Δt。
也就是说,对于力F,我们既可以把它表示成质量m和加速度a的乘积,也可以把它表示成单位时间内动量的变化量,也就是动量的变化率Δp/Δt。然而,狭义相对论里的新动量我们已经找到了,那就直接用动量的变化率Δp/Δt表示F,再用F·S计算物体的动能吧,省时省力。
然后,我们要意识到一件事:前面我们都假设力F是恒力,认为物体在做匀加速运动,这是一种特例。
我们要计算物体的动能,要推导质能方程,当然不希望它只在这种特殊情况下才成立。所以,我们要考虑更一般的情况:如果力F和位移S都在变,我们应该如何计算它们的乘积?
地球的表面是弯的,但在小范围内我们可以认为它是平的。同理,在足够小的范围内,我一样可以认为力F和位移S的大小不变。如果用ds表示这个微小的位移变化,用F·ds表示力F在这个微小位移里做的功,那么,把0到S所有的功累加起来就能得到总动能E。
写成数学表达式就是这样:
很显然,为了保证结果的一般性,我们这里动用了微积分。这个具体的计算过程我不想多讲,因为但凡学了微积分,会分部积分的同学都知道怎么算。如果你不会微积分,这个计算过程我也没法在这里给你科普,我只能建议你先看看我的《你也能懂的微积分》,再找本微积分教材看看。
更为重要的是:这个计算过程并不会影响你对质能方程的理解。
因为这只是一个纯数学计算手段。人们之所以误解质能方程,并不是因为不知道这个公式的形式是E=mc²,而是无法理解这个方程背后的物理意义和物理背景。
如果你跟着我的思路来到这里,知道为了让动量守恒定律满足洛伦兹协变性,我们不得不重新定义了动量,进而需要重新定义动能。你就会知道质能方程到底是怎么来的,就算看不懂中间的计算过程,也不会影响你对质能方程的理解。
这里,我就放一张新动能的推导图片,你能看懂就看,看不懂也没事。当然,如果你暂时看不懂,但是为了能看懂而去学习微积分,那自然是极好的。这里也没多少微积分的知识,关键就是一个分部积分。计算思路也非常简单,就是用狭义相对论里新动量的变化率代替力F:
我把结果放到倒数第二步:
也就是说,一个物体的动能E在狭义相对论里可以表示成这样:括号外面是mc²,括号里面是相对论因子减去1。
我们把中间那一大串东西称为相对论因子(也叫洛伦兹因子),因为相对论里经常会用到它,所以我们就用一个特殊符号γ来表示这个相对论因子:
这样,你再看看狭义相对论里的新动量,是不是就相当于在牛顿力学的动量mv上乘了一个相对论因子γ?也就是说,狭义相对论里的新动量可以简写成p=γmv。
同样,上面的动能表达式一样可以通过相对论因子γ简写为:
在这个式子里,m依然是我们熟知的质量,是一个不随速度和参考系变化而变化的物理量。而这个E,就是因为有力F作用在物体身上,物体因为运动而具有的动能。
这个动能的形式很有意思。
在牛顿力学里,动能的表达式是mv²/2,只有一项;到了狭义相对论,动能的表达式竟然有两项。而且,后一项mc²竟然跟物体的速度v没有关系,只跟物体的质量m有关,只有前一项γmc²才会随着速度的增大而增大(因为γ会随着速度的变大而变大)。
这有点拔出萝卜带出泥的味道,原本我们只是在正正经经地计算狭义相对论的新动能。现在你倒好,你算出的新动能里竟然还有一项跟速度无关的mc²,单位还跟能量一样。
仔细看看这个新动能,如果物体的速度v为0,相对论因子γ就等于1,那动能就变成了E=mc²-mc²=0。静止物体的动能为0,很符合我们对动能的认知。
如果物体的速度开始增大,相对论因子γ就开始大于1,第一项γmc²就在增大,它跟mc²的差值也会不断增大,结果就是动能不断增大。
这给人的感觉,就好像是物体静止时具有mc²的能量,当物体开始运动时,我们用γmc²减去物体静止时具有的能量mc²就得到了物体的动能。所以,爱因斯坦面对这个式子时,创造性地把mc²解释为质量为m的物体静止时具有的能量,简称静能。
如果我们把mc²解释为物体的静能,而E是物体的动能,那静能+动能自然就是物体具有的总能量。于是,γmc²就成了物体具有的总能量(动能+静能)。
这样解释的话,是不是一切都合情合理了呢?
09质能方程
复盘整个过程,我们到底做了什么?
我们只是坚持狭义相对论的基本原理,认为物理定律在洛伦兹变换下应该保持数学形式不变,也就是认为物理定律应该具有洛伦兹协变性。
然后,为了让动量守恒定律具有洛伦兹协变性,我们修改了动量的定义。动量修改了以后,动能自然也得跟着改。然而,令谁也没有想到的是:当我们把这种符合狭义相对论精神的新动能(E=γmc²-mc²)计算出来以后,发现它竟然带了一个尾巴mc²。
接着,爱因斯坦认为mc²应该是物体静止时具有的能量,也就是静能,γmc²是物体的静能和动能之和,也就是物体的总能量。
整个过程,我们唯一引入的就是狭义相对论的基本原理,也就是认为物理定律应该具有洛伦兹协变性,然后就发现狭义相对论的新动能把静能mc²带出来了,这太意外了!
于是,我们就从狭义相对论里自然而然地推出了质能方程:E=mc²。
不知道爱因斯坦看到这个结论后是什么反应,这只是牛顿力学向相对论力学升级过程中的一个小步骤,结果却发现能量和质量之间竟然有E=mc²这样一种神奇的关系。
这个结论看起来是如此的不可思议,因为真空光速c是一个非常大的数字(3×10^8m/s),平方一下就更大了。根据质能方程,一个半斤重的苹果蕴含的能量将高达525万吨TNT当量,大致相当于350颗广岛原子弹爆炸释放的能量,这太夸张了。
但是,E=mc²又是直接从狭义相对论的基本原理直接推出来的,如果质能方程错了,那就是狭义相对论错了。而爱因斯坦对狭义相对论的信心是极强的,所以,他在写完《论动体的电动力学》的三个月后,就完成了质能方程的论文。
10回到牛顿
习惯了将动能视为mv²/2的人可能不太习惯E=γmc²-mc²这种新动能表达式。但是,因为牛顿力学是狭义相对论的低速近似,所以它在低速条件下依然可以回到大家熟悉的mv²/2,不信我们来试一试。
把相对论因子γ进行泰勒展开,就得到了这样的结果:
泰勒展开就是看你想近似到什么程度,你不是说牛顿力学是相对论力学的低速近似么?那相对论力学要低速近似到什么程度才会变成牛顿力学呢?泰勒展开会告诉我们答案。
如上图,我们对一张真实照片进行了“泰勒展开”。一阶近似下就是随便描了一个轮廓,我们可能看了个寂寞;二阶近似下可以看清楚一些细节,图片变清楚了一些;三阶近似下,细节就更清楚了,更接近原图……
只要你开心,你可以无限阶近似下去,近似的阶数越高,图片就越接近原始图片。同理,我们对相对论因子γ进行泰勒展开,它就被分成了无穷多项的叠加,你可以按照自己的需求采取相应的近似水平。
我们说牛顿力学是相对论力学的低速近似,这个低速是相对于光速而言的。当速度v远小于光速c时,v/c就是一项很小的项,(v/c)²以及更高次项就是更小的项了,可以选择性忽略。
那么,如果我们只取前两项,也就是取γ=1+(v/c)²/2,再把γ代入狭义相对论的新动能:E=γmc²-mc²=mc²(γ-1)=mv²/2。不多不少,刚好就回到了牛顿力学的mv²/2。
也就是说,牛顿力学的动能只是狭义相对论动能的一个二阶近似。
因为mv²/2只是一个近似值,所以它必然会丢失一些信息。只是,万万没想到,它丢失的信息里居然包含了物体静止时具有的能量mc²。一旦我们通过更加精确的狭义相对论把这个丢失的信息找了回来,就会发现任何质量为m的物体都含有mc²如此巨大的能量。
其实,静止的物体具有能量一点也不奇怪。
一堆火药放在那里,你肯定知道它有能量,甚至能算出这堆火药爆炸时会释放出多少能量。与此同时,你也知道火药爆炸释放的只是部分化学能,并不是它的全部能量。现在,我们第一次有办法把它的全部能量算出来了,途径就是质能方程E=mc²。
质能方程把质量和能量联系起来了。那么,在这种新视角下,我们应该如何看待质量和能量的关系呢?
11质量与能量
再次回到狭义相对论的动能表达式:
回想一下,爱因斯坦是如何解释这个式子的?爱因斯坦想:既然E是物体的动能,那么γmc²就是物体的总能量,mc²是物体静止时具有的能量,简称静能。
注意,我们是先得到了动能E,是先有能量,先有总能量γmc²和静能mc²,然后再考虑如何衡量能量的大小。因为c是常数,所以就只能用质量m来衡量静能的大小,这个次序不能乱。
于是乎,质量就成了能量的量度。
因此,如果物体吸收了一点能量,它静止时的能量增加了,质量也会增加;如果物体释放了一点能量,它静止时的能量减少了,质量也会减小。
所以,把质能方程写成m=E/c²反而更容易理解它的含义(爱因斯坦一开始就是这么写的):你想知道一个物体的质量是多少吗?那就用它静止时的能量除以c²吧,于是我们才说质量是能量的量度。
一个物体静止时的能量是多种多样的,可以有内能、化学能、核能以及各种势能。但是我不关心种类,你把它们都加起来,除以c²就能得到物体的质量m。
为什么我要如此小心翼翼地描述这一段呢?因为只有极少数人在看到质能方程E=mc²后会认为它是在说“质量是能量的量度”,许多人的第一反应是:质能方程意味着“质量可以转化成能量”。核反应里出现了质量亏损,就是一块“实实在在”的物质丢失了一块质量,然后它们转化成了“虚无缥缈”的能量。
这是一种非常常见,但危害极大的误解。顺着这种误解,稍微发散一下就能搞出太极相对论、佛学相对论之类的东西。你以为原子弹释放了能量,是因为原子弹爆炸时丢失了一块东西,然后这部分质量转化成了能量?
不不不,原子弹爆炸释放能量的过程,跟一般的火药爆炸没什么不同,只不过前者释放的能量比较多,后者释放的能量比较少而已。原子弹爆炸释放了能量,所以度量原子弹能量的质量会减少;火药爆炸释放了能量,所以度量火药能量的质量也会减少。
这就是一个普通的能量转化过程,体系的一部分能量(原子弹的核能,火药的化学能等)通过爆炸转化成了动能和其它能量。于是,原子弹和火药的能量E减少了,度量这个能量的质量m也相应减少了,并且遵守E=mc²,仅此而已。
这也是我比较讨厌“质量亏损”这个词的原因,它太容易让人误解了,太容易让人误以为质量只在核反应中才会减少,让人误以为核反应就是“质量转化成了能量”。
没有什么质量转化成了能量,只有质量是能量的量度,质量就是度量一个物体静止时具有多少能量的。
我知道,不管我在这里说什么,你都难以接受为什么我们不能说“质量转化成了能量”,你不认为这样有什么不妥,甚至觉得它理所当然。而且,就算我让你强行记住这个结论,你后面还是会忘的,毕竟大家都习惯用自己习惯的方式思考。
所以,我们就来深入地扒一扒,看看你在说“质量转化成能量”时,你到底在说什么?看看为什么很多人会这样想,以及最重要的:为什么质能方程E=mc²不能这么理解?
12牛顿的质量
在牛顿时代,大家认为宇宙万物都是由微小的实物粒子(原子)组成,认为宇宙就是一堆粒子的集合,各种物理现象只是粒子间的排列组合和运动变化,而粒子的运动规律则由牛顿力学给出。
在这样的语境下,人们认为组成物质的基本微粒是不可摧毁的,自然界的各种变化只是它们的排列组合,并不会摧毁粒子本身。到了18世纪,化学家们在一定精度内发现化学反应前后物质的总质量不变,也就是大名鼎鼎的质量守恒定律,这就更加佐证了这种观点。
因为化学反应只是原子间的排列组合,如果原子的种类和数目都没变,那原子的总质量就不变,质量自然就守恒了。
一旦我们认为“一个物体的质量等于组成这个物体的所有微粒质量之和”,质量基本上就被当成了物质的代名词。因为,你潜意识里会觉得:只要是物质,肯定就由一些实物微粒组成,它的质量自然就等于所有微粒的质量之和。
那能量呢,能量在这种语境下又扮演了什么角色?
还是看化学反应,我们认为化学反应就是原子间的排列组合。比如木炭燃烧,在化学家眼里就是木炭里的碳原子和空气中的氧原子重新组成了二氧化碳分子,这个过程释放了能量,但燃烧前后原子的种类和数量都没变,所以质量不变。
也就是说,化学家认为虽然木炭燃烧释放了能量,但它们的质量不会变。在这种语境下,质量和能量明显是不同的东西:质量是组成物质的所有原子质量之和,能量不过是原子在重组过程中释放出来的副产品。
正因为牛顿语境下的质量和能量是如此的不同,我们在第一次看到质能方程E=mc²,第一次听说在核反应里会发生违反质量守恒定律的“质量亏损”时,才会认为这是“质量转化成了能量”,是组成物质的实物粒子实实在在地被摧毁了(质量减小),然后神奇地转化成了能量。
但问题是,质能方程E=mc²并不是牛顿力学的东西,而是狭义相对论的天之骄子啊。
相对论和量子力学是20世纪物理学的两大革命,它们颠覆了牛顿力学的许多观念。物质不能再简单地看作一堆实物粒子的集合,质量不再是组成物体粒子的质量之和,化学家发现的质量守恒定律也不再成立……
总之就是,时代变了,世界变了,一切都变了,原来的“质量转化成能量”自然也得跟着变。所以,如果我们想搞清楚为什么不能再那样思考,就得先搞清楚牛顿的观念是如何被打破的?
13电磁场的挑战
狭义相对论是爱因斯坦在协调电磁理论和牛顿力学的过程中建立起来的,所以它的论文就叫《论动体的电动力学》(公众号后台回复“狭义相对论论文”获取原论文)。
我们也知道,在19世纪建立电磁大厦的过程中,有两个人的作用至关重要,他们是法拉第和麦克斯韦。
法拉第创造性地提出了“场”,用电磁场来描述电磁现象。麦克斯韦则用优美的数学语言把法拉第的思想表现了出来,得到了能够描述一切经典电磁现象的麦克斯韦方程组。
这些历史大家都很熟悉,但是很多人没有注意到:法拉第提出的电磁场,其实是一个超出牛顿物理图景的概念。
什么意思?在牛顿的观念里,物质是由基本微粒组成的,那电磁场是由什么微粒组成的呢?很显然,电磁场并不由什么微粒组成,这看起来就跟牛顿的物质观发生了冲突。
于是,有些人就主张电磁场只是描述物质的一种数学手段,不具有物理上的意义,也就是不认为电磁场是真实的物质,这样牛顿的物质观就不用对它负责了。但是,很快人们就发现不能这么干,因为电磁场具有能量。
为什么电磁场具有能量呢?
举个例子,我从北京向武汉发射一束电磁波,因为电磁波的速度有限(光速),它从北京到武汉需要一段时间。那么,当电磁波离开了北京,却又还没到武汉时,能量去哪了?此时的能量既不在北京,也不在武汉,那就只能在电磁场里。
于是乎,电磁场就理所当然具有了能量。一个东西具有能量,那它肯定就有物理上的意义,也就是说它是真实存在的物质。如果电磁场是物质,而它又不由实物微粒构成,那就真的跟牛顿的观念冲突了。
但人们还不死心,虽然电磁场是真实存在的物质,但我们还是可以把电磁场和电磁波看作某种实物粒子衍生出来的现象,这样它们的基础就还是牛顿的实物粒子。
比如水波,虽然它是真实存在的,但水波其实是许多水分子有规律的运动衍生出来的现象,它的基础还是水分子这种“微粒”。那么,如果我们认为电磁波跟水波一样,也是由于某种微粒的振动引起的,这不就符合牛顿的观念了么?
按理说,这种想法是非常自然的,毕竟水波、电磁波都是波。但问题是,当我们说水波是由水分子的振动引起时,我们的确看见了水,所以说“水是水波的介质”没什么问题。
但如果你说电磁波也是由某种介质的振动引起的,那这种介质是什么?光就一种电磁波,光可以在太空、真空中传播,而这里似乎什么都没有,不存在什么介质。你总不能说电磁波是由某种介质的振动引起的,但又说不出这种介质是什么吧?
是,电磁波的确有可能存在介质,只是我们还没发现,没发现并不代表它不存在。但是,你也要明白这么做的巨大风险:这是在假设一种看不见、摸不着,目前任何实验都观测不到,却又在太空、真空中广泛存在的介质。
虽然一听就不怎么靠谱,但想到只有这样才能不违背牛顿的观念,人们(包括麦克斯韦、赫兹)就纷纷接受了,并将这种介质命名为以太。也就是说,如果我们把电磁波看作以太的振动,就像把水波看作水的振动那样,它就可以与牛顿的观念和平共处了。
然而,我们都知道爱因斯坦在狭义相对论里把以太仍了,也就是把作为电磁波介质的以太仍了。他认为并不能把电磁波看作以太的振动,电磁波不需要介质,它跟水波有本质的区别。
那有人就要问了:如果电磁波没有介质,它是怎么传播出去的呢?
我反倒想问一句:你凭什么觉得只要是波,就一定要有介质呢?你觉得水波、声波都是通过介质传出去的,所以电磁波也要有介质?
没道理啊,没理由说张三李四是这样,就要求王五也这样。更重要的是,你认为波都有介质,其实就是认为所有的波都跟水波一样,都是通过相邻介质点的力学作用传出去的。但我们已经说了电磁波跟水波不一样,那就不能套这个逻辑了,更多细节可以看看我的《相对论诞生:爱因斯坦是如何创立狭义相对论的?| 主线》。
因此,到了狭义相对论,我们是彻底无法再把电磁波当作某种介质(以太)的振动了,无法再把它还原为某种微粒的衍生现象了,这就跟牛顿的物理图景彻底冲突了。
于是,我们现在就有两种东西:一种是实物微粒,比如分子、原子、质子、中子等,它们看上去可以由更基本的微粒组成;另一种就是无法看成实物微粒的电磁场。
如何把它们统一起来呢?
很显然,牛顿力学是办不到的,我们需要狭义相对论和量子力学才能统一它们。这种包含了狭义相对论、量子力学以及场论思想的全新理论,就叫量子场论。这是一种全新的物理图景,大家熟悉的粒子物理标准模型就是在这上面建立起来的。
怎么统一实物粒子和场呢?无非就是两种思路:要么认为粒子更基本,场是粒子的某种衍生物(牛顿物理干不了这事,现代物理学里倒是有人这么考虑,比如温伯格);要么就认为场更基本,粒子是场的某种衍生物。
量子场论的主流思想是后一种,也就是认为场更加基本,粒子只是场的激发态。比如,电磁场是更基本的,电磁场的激发态就是光子;质子场是更基本的,质子场的激发态就是质子,以此类推。
量子场论认为万物皆场,场是更加基本的东西。粒子只是这种量子化场的激发态,场与场之间的相互作用决定了要发生的一切。具体细节这里就不多说了,后面科普量子力学时再细说。
总之,到这里大家就应该清楚了:牛顿的物理图景已经崩塌了,物质并不是由坚不可摧的实物粒子组成的。在更现代的量子场论里,场反而是更加基本的东西,粒子只是场的激发态。
如果你记住了这一点,质能方程E=mc²就非常容易理解了。因为质能方程最难以理解的地方,就是你非要用牛顿的观念,来理解这个已经完全超出了牛顿物理学的东西。
量子场论是狭义相对论和量子力学联姻的产物,因此必然能跟质能方程相容。我这里并不要求你理解量子场论,只要你能意识到不能再用牛顿的观念来思考质能方程,后面的一切就都好说了
打了这样的预防针,我们再来看看经常跟质能方程同时出现的质量亏损。
14质量亏损
进入20世纪,人们发现了一件“奇怪”的事情:组成原子核的核子质量之和,竟然比原子核本身的质量要大。
什么意思?我们知道原子核是由质子和中子组成的,比如氘核就是由一个质子和一个中子组成。按照原来的观念,我们肯定认为氘核的质量等于一个质子的质量加上一个中子的质量。但实验结果却是:一个质子和一个中子的质量之和比氘核的质量要大。
为什么?
我们对这个结果表示惊奇,是因为它跟牛顿的观念不一样。我们认为一个物体的质量应该等于所有组成物体的微粒质量之和,认为一个氘核的质量应该等于一个质子加上一个中子的质量。但结果却是一个质子(1.6726×10^-27kg)和一个中子(1.6749×10^-27kg)的质量之和(3.3475×10^-27kg)比一个氘核(3.3436×10^-27kg)的质量要大。
而且,我们还知道:质子和中子结合成氘核释放的能量E,跟减少的质量m之间刚好满足E=mc²。
于是,很多地方就用质量亏损来解释这个事,说质子和中子组合成氘核时发生了质量亏损,亏损的质量就按质能方程释放能量。
从牛顿的观念来看,这样考虑是非常自然的。因为质量减小了,肯定就意味着损失了一部分组成物质的“真材实料”,而它刚好又按照质能方程释放了一定的能量,这可不就是损失的质量转化成了能量么?
但问题是,质能方程是狭义相对论的产物,我们不能再用牛顿的观念去思考,因而不能说是“质量转化成了能量”。
那问题到底出在哪?我们应该如何看待质子和中子结合成氘核这个现象?如果不是核原料损失了一部分质量并转化成了能量,那又是什么呢?
问题的关键就在于:单独的质子是质子,跟中子一起组成氘核的质子还是质子,它们并没有什么不同。既然质子的成分都是一样的(两个上夸克和一个下夸克组成),并没有在跟中子组合成氘核的过程中损失什么,你说它质量亏损到底是亏损了什么?
是原来的质子由三个夸克组成,组成氘核之后的质子就损失了一个夸克,只由两个夸克组成了?或者是,你觉得原来的质子是由100个什么微粒组成的,组成氘核的质子就损失了1个微粒,只有99个微粒了?
显然,不可能是这样。质子有质子的内部结构,如果它的内部结构发生了变化,那就不是质子了。就像一个质子和一个中子组成了氘核,但如果增加了一个中子,那就不叫氘核,而是氚核。
既然单独的质子叫质子,氘核里的质子也叫质子,那它们就应该是一样的,质子并没有缺胳膊少腿,中子也一样。既然质子和中子都没有损失什么成分,那它们质量亏损到底是亏损了什么呢?它又能亏损什么呢?
出问题了吧?仔细一推敲,你就会发现这个逻辑是行不通的。
但是,在核反应里确实发生了质量亏损啊。质子、中子和氘核的质量都能查到,确实是前两者加起来比后者大,质量确实损失了一部分啊,这到底是怎么回事呢?
大家认为化学反应前后质量守恒,认为两块砖头一起称的质量应该等于单独称的质量之和,为什么质子和中子组成氘核之后质量就减少了呢?难道核反应比较特殊,有它独特的规律?
15核反应特殊吗?
核反应它一点也不特殊!
质子和中子组合成氘核,它是核子(组成原子核的粒子,包括质子、中子以及它们的反粒子)的重新组合,化学反应是原子的重新组合。一个是核子的重组,一个是原子的重组,有什么本质的区别?
核子间的相互作用主要是强力,原子间的相互作用主要是电磁力,除了强力比电磁力要强一些以外,核反应和化学反应没什么太大的不同。
甚至,两块磁铁在磁力作用下吸在了一起,这个过程跟核反应、化学反应也没什么本质的区别,无非就是把核子、原子换成了磁铁,是不是这个道理?
如果核反应没什么特殊,那质子和中子组成氘核释放出能量,碳原子和氧原子组成二氧化碳分子(木炭燃烧)释放出能量,两块磁铁吸在一起释放出能量(没错,的确释放了能量,不然磁铁碰撞时的声音是哪来的?)的过程就应该是类似的。
如果质子和中子组成氘核的核反应会发生质量亏损,那木炭燃烧会不会发生质量亏损?两个磁铁吸在一起会不会发生质量亏损?
有些人可能有点懵,因为他印象里的“质量亏损”是一个非常高级的名词,是一个违背了质量守恒定律的东西。这种反直觉的新玩意,只有全新的相对论与核反应才能与之相配,一般的化学反应怎配享有如此待遇?把两个磁铁放到这里来就更过分了。
而且,中学化学也讲过,化学反应前后物质的总质量是不变的。两个磁铁吸在一起,根据直觉,前后的质量就更加不可能变了。所以,根据直觉和常识,他绝不相信化学反应、磁铁吸在一起也会发生质量亏损。
但是,我上面的推理也很有道理啊,核反应也好,化学反应、磁铁吸在一起也好,都是两个小东西组成了一个大东西,并且都释放了能量。区别无非就是核反应释放的能量大,化学反应释放的能量中等,磁铁吸在一起释放的能量少,并没有什么本质的不同。
还有,质能方程E=mc²是爱因斯坦从狭义相对论的基本原理推出来的,所以,狭义相对论成立的地方质能方程也应该成立。那么,狭义相对论就只在核反应里成立?化学反应和磁铁相吸就不遵守狭义相对论了么?显然不是啊。
因此,从直觉和常识出发,我们觉得只有核反应才会发生质量亏损,亏损的质量和释放的能量满足质能方程。从逻辑和推理出发,又似乎是核反应、化学反应、磁铁吸在一起的过程都会出现质量亏损,亏损的质量跟释放的能量之间都满足质能方程。
直觉和逻辑发生了冲突,我听谁的?
当然是逻辑,科学从来就不是为了符合你的直觉而建立的。你要说直觉,亚里士多德的理论最符合直觉了,牛顿的都很反直觉,更别说相对论了。
所以,我们应该相信核反应、化学反应、磁铁吸在一起的过程中都发生了质量亏损。
如果化学反应也有质量亏损,那亏损的质量m跟化学反应(比如木炭燃烧)释放的能量E之间也会满足E=mc²。只不过,化学反应释放的能量E比较少,而光速c又很大,所以根据E/c²算出来的亏损质量m就非常小,小到平常根本察觉不出来,于是化学家们才总结出了质量守恒定律。
至于磁铁,它们吸在一起时释放的能量就更少了,亏损的质量也就更小。所以,我们就更加不会察觉分开的磁铁与吸在一起的磁铁在质量上会有什么不同了。
这样,我们就能以一种统一的逻辑解释所有的事情,既不与理论相冲突(从狭义相对论推出的E=mc²是普适的,核反应、化学反应、磁铁都应该遵守),也不跟实验相冲突(核反应容易观测到,化学反应、磁铁不太容易观测到)。
那问题的关键就来了:如果这种逻辑是对的,如果核反应、化学反应甚至磁铁吸在一起释放能量时都发生了质量亏损,而我们又不能像牛顿那样认为是组成物质的“材料”少了一块,那它到底亏损了什么?为什么它的质量会减少?
这就涉及到一个非常关键问题:在狭义相对论里,我们应该如何看待质量?
16质量是能量的量度
木炭燃烧时,碳原子和氧原子结合成二氧化碳分子,这个过程释放了能量,相应的质量也亏损了一点。这个结论已经不奇怪了,我们奇怪的是:它的质量为什么会减小?
如果我们还用牛顿的观念思考这个问题,你就会发现怎么也想不通。你觉得一个物体的质量是组成这个物体的所有粒子质量之和,然而碳原子、氧原子组成二氧化碳分子时,原子的种类和数量都没有变,但总质量却减小了。整个过程除了释放了一定的能量之外,并没有发生其它的事情。
似乎是能量减少了一点,质量就会减少一点,就好像质量不是用来衡量组成物质的微粒,而是用来衡量能量的多少似的。
没错,这正是问题的关键:在狭义相对论里,质量确实变成了一个衡量体系能量多少的量。你静止时有多少能量,对应的质量就是多少,它们的关系由质能方程E=mc²给出。质量不是别的什么东西,它就是能量的量度,这才是一切问题的关键。
以前,我们老觉得质量是物质的代名词,觉得一卡车砖头的质量等于每一块砖头的质量之和,所以每一个分子的质量就应该等于所有组成它原子的质量之和。我们是如此地相信还原论,相信所有的物质都可以还原为一个个基本粒子,相信物质的质量等于所有组成物质粒子的质量之和。
而这,正是我们理解质能方程的最大障碍。
现在我们要改变观念,物质的质量不再是组成它基本粒子的质量之和,而是用来度量能量的。物质的能量固然包含了组成物质的基本粒子的能量,但它还包含了基本粒子之间因为相互作用而具有的能量,比如各种势能。
比如,什么叫重力势能?我搬起一块石头,石头就增加了一定的重力势能。因为石头和地球之间存在引力,当石头离开地面后,石头和地球之间就存在这样一种能量。石头落地后,重力势能减少了,度量能量的质量自然也跟着减小了,减少的能量E和质量m之间满足E=mc²。
质子和中子组成氘核的情况也一样,无非就是把质子和中子换成了地球和石头,把质子和中子之间的强力换成了地球和石头之间的引力,一个释放了重力势能,一个释放了核能。
因此,只有我们认为“质量是能量的量度”,而不再是牛顿观念里物质的代名词,不再是衡量物质所包含基本粒子的质量之和时,我们才能逻辑一致地看待上述所有问题,才能非常自然地解释质量亏损。
为什么质子和中子组成氘核之后,它们的质量会减小?因为独立的质子和中子具有一定的能量,而质量是能量的量度,所以质子和中子组成的系统就具有一定的质量。质子和中子组成氘核后释放了一定的能量E,系统的总能量减少了,度量能量的质量m自然也减小了,它们之间满足E=mc²。
木炭燃烧变成了二氧化碳,碳原子和氧原子组合成二氧化碳分子时释放了能量E,于是度量能量的质量m自然也减小了,它们之间依然满足质能方程E=mc²。
我用力拉开两个磁铁,其实是往磁铁组成的系统里注入了能量,磁铁的能量增加了,度量能量的质量自然也跟着增加了。所以,分开的磁铁会比吸在一起的磁铁更重,你用多大能量把磁铁拉开,它们的质量就增加了这个能量除以光速c的平方。
我们用力压缩一个弹簧,弹簧的能量增加了,度量弹簧能量的质量自然也增加了。所以,压缩的弹簧比松开的弹簧更重。
一个手电筒发出了一束光,因为光带走了一部分能量,所以手电筒的能量减少了,度量手电筒能量的质量自然也减小了。于是,发光手电筒的质量会一直慢慢减小。
但是,如果我们把手电筒放在一个铁箱子里,虽然发光手电筒的质量在不断减小,但手电筒发出的光并没有逃出箱子,所以手电筒和箱子的总能量并没有减少。于是,手电筒和箱子的总质量也不会发生变化。
为什么要举这么多例子?当然是帮你快速洗脑。
我们在牛顿的世界里浸泡了太久,已经形成了极大的思维惯性。当我们在谈论物理,谈论自然界的各种现象时,潜意识里就会从牛顿的角度来思考问题,所以我们会觉得相对论和量子力学很奇怪。所谓奇怪,无非就是跟固有的观念不一样,在这里就是跟牛顿的观念不一样。
17新的图景
我们要不断提醒自己:现在的物理图景已经不再是牛顿那样了,宇宙并不是一堆微粒的集合,一个物体的质量也不是组成物体实物微粒的质量之和。
如果你觉得“让人不这样思考”比较难,那可以接触一下量子场论,试着从量子场的角度来看待这个世界。毕竟,让人忘掉熟悉的旧观念很难,但是,一旦接受了新的观念,旧观念自然就忘了。
量子场论首先是一种场论,它的核心思想是:宇宙并不是由什么“实物粒子”构成的,而仅仅是由场构成,一切都是场。所谓粒子,不过是这些量子化场的激发态。
然后,量子场论是量子力学和狭义相对论联姻的产物。为什么我们要让量子力学和狭义相对论联姻呢?因为处理微观粒子要用量子力学,处理高速(近光速)运动的物体要用狭义相对论。那么,如果你想处理高速的微观粒子,就必须同时使用量子力学和狭义相对论,也就是它们联姻后的量子场论。
也因如此,当我们用量子场论看问题时,我们其实也是在用狭义相对论看问题。而质能方程又是狭义相对论的结论,所以量子场论的图景跟质能方程是相容的。
毕竟,如果一切都是场,没有什么“实物粒子”,那自然就不存在什么“实物粒子被摧毁了变成能量”的说法。如果一切都是场,各种物理现象就只是场与场之间的相互作用,不存在谁被摧毁了,自然也不存在什么代表物质的“质量”转化成了能量。
这样,“质量转化成能量”就完全站不住脚了。
而前面我们也说了,场是有能量的,场和场之间的相互作用自然会涉及能量的变化。能量在不断变化,度量能量的质量自然也会不断变化,它们的桥梁就是质能方程。
这样,我们就可以非常自然地接受“质量是能量的量度”这个观念了,而这,才是打开质能方程E=mc²的正确方式。
18不动的质量
不过,需要注意的是,我上面说的"质量是能量的量度",指的都是物体静止时的能量,并不涉及物体的动能。
我们知道动能是跟参考系有关的,在一个参考系里是静止的物体(动能为0),在另一个参考系里可能就是运动的(动能不为0),动能并不一样。
因此,如果把动能考虑进去,速度的增加就会导致动能的增加,能量增加了对应的质量也会增加。这样,物体的质量就会随着速度的增加而增加,也就是所谓的动质量。
但是,我非常不希望引入动质量。物理学要把握变化世界里不变的东西,质量原本是跟物体的运动状态无关的,你现在让它随着速度的变化而变化,何必呢?动质量又不是非用不可,我的文章从头到尾都没有动质量,不一样可以讲质能方程么?
我知道,有些地方是从动质量开始讲质能方程的。他们先定义动质量,再把狭义相对论的新动量定义为动质量和速度的乘积,然后去算新动能。
这样读者就会很困惑,你凭什么把新动量定义为动质量和速度的乘积?难道狭义相对论就是用动质量替换掉原来的质量,剩下的照搬?然后各种脑洞大开,胡思乱想。
在这篇文章里,我只是坚持狭义相对论的基本原理,要求动量守恒定律在洛伦兹变换下保持数学形式不变,然后自然就得到了新动量:
这样逻辑上就非常自然。在这个新动量里,质量m依然是不随物体的运动状态而改变的质量,动量是一个速度的函数,而不是动质量和速度的乘积。
另外,我们再看一看狭义相对论的新动能:
爱因斯坦认为mc²是物体静止时的能量,E是物体的动能,所以γmc²就是物体的总能量(动能+静能):γmc²=E+mc²。
现在我们说“质量是能量的量度”,如果这个能量指的是物体静止时的能量mc²,那质量就是(静)质量;如果我们把动能E也加进来,认为能量是总能量γmc², 那得到的就是动质量。
也就是说,动质量和总能量在某种程度上是在描述相同的东西。然而,总能量是一直都存在的,并且是个非常重要的守恒量。如果已经存在一个守恒的总能量,为什么还要引入会导致混乱的动质量呢?
因此,我在文章里提到的质量通通都是(静)质量,完全不用动质量这种东西,也省得大家胡思乱想,最后把自己带沟里去了。
当然,虽然学界的主流是舍弃动质量,但也有少数学者认为动质量依然有存在的必要,这个我就不多说了,感兴趣的自己去查。
19结语
写到这里,文章差不多就可以收尾了。
通观全文,大家会发现质能方程的推导还是很简单的,只要遵守狭义相对论的基本原理,E=mc²就会自动地从动能表达式里冒出来。
真正困难的,还是理解质能方程背后世界观和物质观的转变,理解从牛顿到狭义相对论的转变,理解从“质量转化成能量”到“质量是能量的量度”的转变。
虽然相对论和量子力学革命已经过去了百年,但牛顿的观念还是深深地烙在许多人的心里。毕竟,我们在中学都要学习牛顿力学,只有少数人会系统地学习相对论和量子力学,而这方面的科普又比较少。
所以,习惯于用牛顿的观念去理解质能方程并不奇怪。
但话又说回来,毕竟如今已经是21世纪了,相对论和量子力学已经极大地改变了牛顿的世界观和物质观。如果你对后牛顿时代的物理学不感兴趣也就罢了,如果感兴趣(比如质能方程),就一定要注意牛顿观念的局限性。
我们不能总是从牛顿的角度来考虑这些后牛顿时代的物理学,否则,我们不仅无法掌握这些内容,还会误入歧途。
如果你能很好地理解质能方程,就能很好地理解狭义相对论,也能很好地理解从牛顿到现代物理的转变,这是一块非常好的试金石。
所以,现在你明白质能方程E=mc²了么?
收起阅读 »相对论诞生:爱因斯坦是如何创立狭义相对论的? | 主线