圆环上的粒子

???环上的粒子我们考虑一个周期性的一维空间,在其中走过一定距离$L$的整数倍后便会回到出发点,我们称其为周期性边界条件,或者说,我们是在处理一个半径为$R=\frac{L}{2\pi}$的圆环。在这样条件下的量子系统会有什么行为?自由粒子首先考虑自由粒子,哈...
继续阅读 »

???


环上的粒子


我们考虑一个周期性的一维空间,在其中走过一定距离$L$的整数倍后便会回到出发点,我们称其为周期性边界条件,或者说,我们是在处理一个半径为$R=\frac{L}{2\pi}$的圆环。在这样条件下的量子系统会有什么行为?

自由粒子


首先考虑自由粒子,哈密顿量为

$$H=-\frac{\hbar^2}{2m}\frac{d^2}{dx^2}.$$

换成圆环坐标,即令$x=R\theta$,有

$$H=-\frac{\hbar^2}{2mR^2}\frac{d^2}{d\theta^2}.$$

此时其可以解释为以$I=mR^2$为转动惯量的平面转子,$L_z=-i\hbar\frac{d}{d\theta}$为垂直转动平面方向的角动量算符。(一个平移对称的问题转化成了一个旋转对称的问题)

本征能量$E$对应的解为:

$$\psi(\theta)=Ae^{in\theta}+Be^{-in\theta},$$

其中$n=\frac{2IE}{\hbar^2}$。由周期性边界条件$\psi(0)=\psi(2\pi)$,$n$必须为整数,这给出离散的能量谱:

$$E=\frac{n^2\hbar^2}{2I},\quad n\in\mathbb{Z}.$$

而归一化要求

$$|A|^2+|B|^2=\frac{1}{2\pi},$$

除此之外对系数没有更多的限制条件,这意味着任意满足上式的波函数$\psi_{(A,B)}$都是本征能量$E$对应的解,能量存在二重简并,这显然来自于一对动量大小相等左行/右行波(顺时针/逆时针转动)。$L_z$与哈密顿量对易,由于系统不存在其它对称性,它和哈密顿量的共同本征态是唯一确定的。

$L_z$的本征值和本征态容易求得,得到共同本征态和相应本征值:

$$
\begin{aligned}
\psi_n(\theta)&=\frac{1}{\sqrt{2\pi}}e^{in\theta},\\
E_n&=\frac{n^2\hbar^2}{2mR^2},\\
L_{z,n}&=n\hbar,
\end{aligned}
n=0,\pm 1,\pm 2,\ldots
$$

上述所有波函数的模方都是常函数$\frac{1}{\sqrt{2\pi}}$,这意味着(角)位置完全不确定,这正是(角)动量本征态应当具有的性质。

值得注意的是$n=0$的解$\psi_0(\theta)=\frac{1}{\sqrt{2\pi}}$是一个合法的归一化解,尽管它对应的能量为$0$。在如无限深势阱的问题中之所以要舍去零能解,是因为在那里零能波函数处处为零,而此处是一个可归一化的非零函数(得益于周期性边界条件)。物理上看,圆环零能解不仅位置概率密度是常函数,本身也是常函数,“不包含运动”(动量本征值为零),能量自然应该是零。

周期性的正则坐标,量子化的正则动量


注意到,虽然位置仍是连续变化的,但对应的动量却是离散的。做(离散)傅里叶变换,得到动量表象下的本征函数为:

$$
\begin{aligned}
\phi_n(l)&=\frac{1}{\sqrt{2\pi}}\int_0^{2\pi}\frac{1}{\sqrt{2\pi}}e^{in\theta}e^{-il\theta}d\theta\\
&=\delta_{nl}.
\end{aligned}
$$

即是说周期性的角位置,必然对应量子化的角动量。


环上粒子的能量本征值形式上和无限深势阱中的粒子很像,但性质大不相同。考虑如下叠加态:

$$\psi_1-\psi_{-1}\propto\sin(\theta),$$

其对应的动量波函数是两个尖峰的叠加$\delta_{1,l}-\delta_{-1,l}$,而无限深势阱的基态$\sin(\frac{n\pi x}{L})$对应的动量波函数是一个连续的分布(自行验证,连泡利也曾在这个问题上犯错)。

能量本征态的完备性


要证明能量本征态的完备性,即证明

$$\sum_{n=0,\pm 1,\ldots}|n\rangle\langle n|=\mathbb{1},$$

坐标表象下即

$$
\begin{aligned}
\sum_{n=0,\pm 1,\ldots}\langle\theta|n\rangle\langle n|\theta^{'}\rangle &=\delta(\theta-\theta^{'}),\\
\frac{1}{2\pi}\sum_{n=0,\pm 1,\ldots}e^{in(\theta-\theta^{'})}&=\delta(\theta-\theta^{'}),
\end{aligned}
$$

可以从复平面的几何图像上看出上式的成立性。


环上的$\delta$势


假设在$\theta=\pi$处存在一$\delta$势,$V(\theta)=\gamma\delta(\theta-\pi)$,我们沿用之前的方法求解该问题。

我们已经知道一维$\delta$势的通解为

$$
\begin{cases}
\psi(\theta)=Ae^{ik\theta}+Ce^{-ik\theta} & \theta < \pi,\\
\psi(\theta)=Be^{ik\theta}+De^{-ik\theta} & \theta > \pi,\\
\end{cases}
$$

由周期性边界条件,

$$
\begin{aligned}
A+C&=Be^{ik2\pi}+De^{-ik2\pi},\\
A-C&=Be^{ik2\pi}-De^{-ik2\pi},
\end{aligned}
$$

有$A=Be^{ik2\pi}$,$C=De^{-ik2\pi}$。由$\theta=\pi$处的连接条件,

$$
\begin{aligned}
Ae^{ik\pi}+Ce^{-ik\pi}&=Be^{ik\pi}+De^{-ik\pi},\\
Be^{ik\pi}-De^{-ik\pi}-Ae^{ik\pi}+Ce^{-ik\pi}&=\frac{2I\gamma}{\hbar^2}\left(Ae^{ik\pi}+Ce^{-ik\pi}\right),
\end{aligned}
$$



$$
\begin{aligned}
Be^{ik3\pi}+De^{-ik3\pi}&=Be^{ik\pi}+De^{-ik\pi},\\
Be^{ik\pi}-De^{-ik\pi}-Be^{ik3\pi}+De^{-ik3\pi}&=\frac{2I\gamma}{\hbar^2}\left(Be^{ik3\pi}+De^{-ik3\pi}\right),
\end{aligned}
$$



$$
\begin{aligned}
Be^{ik3\pi}+De^{-ik3\pi}&=Be^{ik\pi}+De^{-ik\pi},\\
De^{-ik3\pi}-De^{-ik\pi}&=\frac{I\gamma}{\hbar^2}\left(Be^{ik3\pi}+De^{-ik3\pi}\right),
\end{aligned}
$$

若$k\in\mathbb{Z}$,有$A=B=-C=-D$。得到全域上的归一化解

$$
\begin{aligned}
\psi_k(\theta)&=\frac{1}{2\sqrt{\pi}}\left(e^{ik\theta}-e^{-ik\theta}\right)\\
&=\frac{1}{\sqrt{\pi}}\sin(k\theta),
\end{aligned}
$$

其中忽略了一个整体相位因子$i$。由于$-k$和$k$对应的解只差一个整体相位因子(线性相关),以及解非零的要求,此处$k=1,2,\ldots$,不同于自由粒子。这组解对应的本征能量为

$$E_k=\frac{\hbar^2k^2}{2I},\quad k=1,2,\ldots$$

陈鄂生的《量子力学习题与解答》在求解初期就直接假设了$k$为整数,得到了上述的本征态。并且这组解的性质与$\delta$势的强度$\gamma$无关。然而,还存在其它的解。

若$k\notin\mathbb{Z}$,则

$$B=D\frac{e^{-ik\pi}-e^{-ik3\pi}}{e^{ik3\pi}-e^{ik\pi}},$$

耐心整理得到

$$\tan(k\pi)=\frac{iI\gamma}{\hbar^2},$$

上式要成立则左端为纯虚数,即$k$为纯虚数,令$k=i\kappa$,有

$$\tanh(\kappa\pi)=\frac{I\gamma}{\hbar^2},$$

$\tanh$函数的值域为$(-1,1)$,只要适当选取$\delta$势的强度$\gamma$就有对应$E < 0$的解

$$E_\kappa=-\frac{\hbar^2\kappa^2}{2I} < 0,\quad \gamma\in(-\frac{\hbar^2}{I},\frac{\hbar^2}{I}).$$

尽管并没有无穷远可供其波函数衰减至零,我们仍称其为束缚态,对应归一化波函数为

$$
\psi_\kappa(\theta)=\sqrt{\frac{2\kappa}{2\kappa\pi+\sinh(2\kappa\pi)}}
\begin{cases}
\cosh(\kappa\theta), & 0\leq\theta\leq\pi,\\
\cosh[\kappa(\theta-2\pi)], & \pi < \theta\leq 2\pi,
\end{cases}
$$

                

束缚态波函数图像如上图所示。

注意到该束缚态的存在与$\kappa$,进而与$\gamma$的正负无关,而只与$\gamma$的绝对值有关。这意味着在圆环上,即便是$\delta$势垒也可以存在束缚态!

束缚态的力学量分布

平均角位置为

$$
\begin{aligned}
\langle\theta\rangle&=\int_0^{2\pi}\theta\left|\psi(\theta)\right|^2d\theta\\
&=\frac{2\kappa}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\theta\cosh^2(\kappa\theta)d\theta+\int_\pi^{2\pi}\theta\cosh^2[\kappa(\theta-2\pi)]d\theta\right)\\
&=\pi,
\end{aligned}
$$

这一结果是显然的。而平均角动量为

$$
\begin{aligned}
\langle p_\theta\rangle&=\int_0^{2\pi}\psi^*(\theta)(-i\hbar\frac{d}{d\theta})\psi(\theta)d\theta\\
&=-\frac{i\hbar\kappa^2}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\sinh(2\kappa\theta)d\theta+\int_\pi^{2\pi}\sinh[2\kappa(\theta-2\pi)]d\theta\right)\\
&=0,
\end{aligned}
$$

可见,其确实具有束缚态的特征。

角位置不确定性为

$$
\begin{aligned}
\sigma_\theta&=\sqrt{\langle\theta^2\rangle-\pi^2}\\
&=\sqrt{\frac{1}{2\kappa^2}+\frac{2\pi(\kappa^2\pi^2-3)}{3\kappa[2\kappa\pi+\sinh(2\kappa\pi)]}}
\end{aligned}
$$

角动量不确定性为

$$
\begin{aligned}
\sigma_{p_\theta}&=\sqrt{\langle p_\theta^2\rangle-0}\\
&=\sqrt{-\frac{2\hbar^2\kappa^3}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\cosh^2(\kappa\theta)d\theta+\int_\pi^{2\pi}\cosh^2[\kappa(\theta-2\pi)]d\theta\right)}\\
&=\sqrt{-\hbar^2\kappa^2}???
\end{aligned}
$$

像普通的一维$\delta$势中一样,我们又一次遭遇了二阶导数发散带来的问题。补充$\theta=\pi$处发散项的贡献,有

$$
\begin{aligned}
\sigma_{p_\theta}^2&=\langle p_\theta^2\rangle-0\\
&=-\frac{2\hbar^2\kappa^3}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\cosh^2(\kappa\theta)d\theta+\int_\pi^{2\pi}\cosh^2[\kappa(\theta-2\pi)]d\theta\right)\\
&+\frac{4\hbar^2\kappa^2}{2\kappa\pi+\sinh(2\kappa\pi)}\int_{\pi^-}^{\pi^+}\cosh(\kappa\theta)\sinh(\kappa\theta)\delta(\theta-\pi)d\theta\\
&=\hbar^2\kappa^2\left(1-\frac{4\kappa\pi}{2\kappa\pi+\sinh(2\kappa\pi)}\right)\geq 0
\end{aligned}
$$



$\sigma_\theta\sigma_{p_\theta}=$

收起阅读 »

一维$\delta$势问题

近日,一位长尾科技社群群友提出了一个关于$\delta$势中粒子能量的问题,细想之下我感到还是有些微妙的。故整理出此文。我们首先来求解势的薛定谔方程。定态薛定谔方程一维单$\delta$势的哈密顿量为$$H=-\frac{\hbar^2}{2m}\frac{d...
继续阅读 »

近日,一位长尾科技社群群友提出了一个关于$\delta$势中粒子能量的问题,细想之下我感到还是有些微妙的。故整理出此文。我们首先来求解势的薛定谔方程。

定态薛定谔方程


一维单$\delta$势的哈密顿量为

$$H=-\frac{\hbar^2}{2m}\frac{d^2}{dx^2}+\gamma\delta(x),$$

它描述了一个在$x=0$处趋于无穷的势,发散的方向取决于“强度”$\gamma$的正负:正即为

$\delta$势垒,负即为$\delta$势阱。它的奇异性是显而易见的,定态薛定谔方程为

$$-\frac{\hbar^2}{2m}\frac{d^2\psi(x)}{dx^2}+\gamma\delta(x)\psi(x)=E\psi(x),$$

等式右边的能量本征值$E$是个有限的数,而左边却包含发散的$\delta$函数。为了让等式成立,必须有一个相反的发散来“抵消”——能量本征函数的一阶导数必须在势阱处突变,使二阶导数发散。

$\delta$函数的准确含义只能在积分下理解

$$\int_{a}^{b}f(x)\delta(x-x_0)dx=f(x_0),\quad a< x_{0},b> x_0.$$

这也正是我们将用来求解$\delta$势问题的方法。对定态薛定谔方程两边同时积分,积分区域包含$\delta$势所在的$x=0$,并取积分上下限趋于$0$的极限:

$$\lim_{\epsilon\to 0}-\frac{\hbar^2}{2m}\left(\frac{d\psi}{dx}|_{x=\epsilon}-\frac{d\psi}{dx}|_{x=-\epsilon}\right)+\gamma\psi(0)=\lim_{\epsilon\to 0}E\int_{-\epsilon}^{\epsilon}\psi(x)dx,$$

右边极限为零,而左边包括能量本征函数在$x=0$处的右导数与左导数之差,正如预期的那样,一阶导数发生了突变:

$$\psi'(0^+)-\psi'(0^-)=\frac{2m\gamma}{\hbar^2}\psi(0).$$

结合波函数连续的条件

$$\psi(0^+)=\psi(0^-),$$

我们已经清楚了波函数在$\delta$势处的行为,接下来需要求解$\delta$势外的“自由区域”的行为。

在$x\neq 0$区域,定态薛定谔方程变成

$$\frac{d^2\psi(x)}{dx^2}=-\frac{2mE}{\hbar^2}\psi(x),$$

容易求得其通解为:

$$\psi(x)=\begin{cases}Ae^{ikx}+Ce^{-ikx} & x<0, \\ Be^{ikx}+De^{-ikx} & x>0,\end{cases}$$

其中“角波数”$k=\sqrt{\frac{2mE}{\hbar^2}}$。上文的分析告诉我们在连接处$x=0$有:

$$\psi'(0^+)-\psi'(0^-)=ik(B-D)-ik(A-C)=\frac{2m\gamma}{\hbar^2}\psi(0)=\frac{2m\gamma}{\hbar^2}(A+C)$$



$$ik(B-A)=\frac{m\gamma}{\hbar^2}(A+C),$$

散射态


若$k$是实数,即$E>0$,则上述波函数在无穷远处非零,问题转化为散射问题。在散射问题中,我们考虑一个平面波会怎样被散射,要得到一般波函数的散射则只需将平面波叠加起来。设平面波从左边入射,其伴随有反射波和透射波,即令$A=1$,$B=t$(transmission),$C=r$(reflection),$D=0$(仅在一边入射):

$$\psi_k(x)=\begin{cases}e^{ikx}+re^{-ikx} & x<0 \\ te^{ikx} & x>0\end{cases}$$

解得满足$x=0$处连接条件的系数为:

$$t=\frac{1}{1-\frac{m\gamma}{i\hbar^2k}},\quad r=\frac{1}{\frac{i\hbar^2k}{m\gamma}-1}.$$

注意到$t-r=1$,分段波函数可统一写为

$$\psi_k(x)=e^{ikx}+re^{ik|x|}$$
                

可以验证其关于波数满足狄拉克正交归一关系:

$$\int_{-\infty}^{\infty}\psi_{k_1}^*(x)\psi_{k_2}(x)dx=2\pi\delta(k_1-k_2).$$

由于不可正常归一化,此时$\left|\psi(x)\right|^2$已失去位置概率密度的意义,我们转而考察概率流密度。概率流密度定义为

$$\begin{aligned}j&=\frac{1}{2m}\left(\psi^*p\psi-\psi p\psi^*\right)\\&=-\frac{i\hbar}{2m}\left(\psi^*\frac{\partial\psi}{\partial x}-\psi\frac{\partial\psi^*}{\partial x}\right)\end{aligned}$$

我们分别计算入射波、反射波和透射波对应的概率流密度:

$$\begin{aligned}j_\text{入射}&=-\frac{i\hbar}{2m}\left[e^{-ikx}(ik)e^{ikx}-e^{ikx}(-ik)e^{-ikx}\right]\\&=\frac{\hbar k}{2m}\end{aligned}$$
$$\begin{aligned}j_\text{透射}&=-\frac{i\hbar}{2m}\left[t^*e^{-ikx}(ikt)e^{ikx}-te^{ikx}(-ikt^*)e^{-ikx}\right]\\&=\frac{\hbar k}{2m}|t|^2\end{aligned}$$
$$\begin{aligned}j_\text{反射}&=-\frac{i\hbar}{2m}\left[r^*e^{ikx}(-ikr)e^{-ikx}-re^{-ikx}(ikr^*)e^{ikx}\right]\\&=-\frac{\hbar k}{2m}|r|^2\end{aligned}$$

满足概率守恒:$j_\text{入射}+j_\text{反射}=j_\text{透射}$。概率流密度是常函数,散度(一维情况就是$\frac{\partial j}{\partial x}$)为零,则概率密度不随时间变化,这正是定态的特征。

透射概率为

$$\begin{aligned}T&=\frac{\left|j_\text{透射}\right|}{\left|j_\text{入射}\right|}=\left|t\right|^2\\&=\frac{1}{1-\frac{m\gamma}{i\hbar^2k}}\frac{1}{1+\frac{m\gamma}{i\hbar^2k}}\\&=\frac{1}{1+\frac{m^2\gamma^2}{\hbar^4k^2}}\end{aligned},$$

反射概率为

$$\begin{aligned}R&=\frac{\left|j_\text{反射}\right|}{\left|j_\text{入射}\right|}=\left|t\right|^2\\&=-\frac{1}{\frac{i\hbar^2k}{m\gamma}-1}\frac{1}{\frac{i\hbar^2k}{m\gamma}+1}\\&=\frac{1}{1+\frac{\hbar^4k^2}{m^2\gamma^2}}\end{aligned},$$
满足$T+R=1$。

我们再来求解束缚态。

束缚态


束缚态的条件是波函数在无穷远处要趋于零,由通解

$$\psi(x)=\begin{cases}Ae^{ikx}+Ce^{-ikx} & x<0, \\ Be^{ikx}+De^{-ikx} & x>0,\end{cases}$$

即要求$k$有虚部,才能有在无穷远趋于零的实指数函数。由于能量本征值$E$是实数,$k=\sqrt{\frac{2mE}{\hbar^2}}\notin\mathbb{R}$只能当$E<0$时取纯虚数。令$\kappa=-ik>0$,由无穷远边界条件,束缚态通解为

$$\psi_\kappa(x)=\begin{cases}Ce^{\kappa x} & x<0, \\ Be^{-\kappa x} & x>0,\end{cases}$$

由$x=0$处连续条件和归一化有

$$\psi_\kappa(x)=\begin{cases}\sqrt{\kappa}e^{\kappa x} & x\leq0, \\ \sqrt{\kappa}e^{-\kappa x} & x>0,\end{cases}$$

且其对应的能量$E$不再像散射态中为任意正数,而是由

$$ik(B-A)=\frac{m\gamma}{\hbar^2}(A+C),\quad A=0,B=C=\sqrt{\kappa}$$



$$\kappa=-\frac{m\gamma}{\hbar^2}$$
$$E=\frac{\hbar^2 k^2}{2m}=-\frac{m\gamma^2}{2\hbar^2}$$

$\kappa>0$要求$\gamma<0$,即仅在$\delta$势阱,而非势垒中存在束缚态,这符合直觉。解得的本征能量和能量本征函数中都没有标志着能级的变量$n$,即$\delta$势阱中只存在一个束缚态。

尝试从物理上理解这一点:更高的能级意味着更短的波长、更强的振荡(波函数有更多节点),而$\delta$势阱中经典允许区仅有$x=0$一点,波函数几乎完全处于$E< V$的经典禁区,其中波函数只能指数衰减而无法振荡,无法容许更高激发态的存在。

能量问题


束缚态能量为负是什么意思呢?其实重要的是和无穷远处势能的大小关系,而势能的零点是可以任意选取的,上面只是把零点选为无穷远处而已。若平移一个量$V_0$,

$$-\frac{\hbar^2}{2m}\frac{d^2\psi(x)}{dx^2}+\gamma\delta(x)\psi(x)+V_0\psi(x)=E\psi(x),$$

移项,相当于在上面求解的$\delta$势中,把$E$代换成$E-V_0$,解得

$$E-V_0=-\frac{m\gamma^2}{2\hbar^2},$$

$$E=V_0-\frac{m\gamma^2}{2\hbar^2},$$

可见“负能量”只意味着
$$E< V(\pm\infty)=\gamma\delta(\pm\infty)+V_0=V_0.$$

经典地看,就是束缚态粒子运动到有限远处就会耗尽动能,被吸引势拉回去(虽然$\delta$势中几乎处处是经典禁区,根本没有经典可言!)。

另一方面,由$\delta$函数的积分性质,简单的计算给出势能期望值为:

$$\langle V\rangle=\gamma\kappa=-\frac{m\gamma^2}{\hbar^2}.$$

进而可以求出动能期望值

$$\langle T\rangle=E-\langle V\rangle=\frac{m\gamma^2}{2\hbar^2}$$

如果直接计算动能期望值呢?以束缚态为例,不难发现波函数和其二阶导数都是正的,故动能期望值为……负?

$$\begin{aligned}\langle T\rangle&=\frac{1}{2m}\int_{-\infty}^{\infty}\psi^*(x)p^2\psi(x)dx\\&=-\frac{\hbar^2}{2m}\int_{-\infty}^{\infty}\psi^*(x)\frac{\partial^2\psi(x)}{\partial x^2}dx\\&=-\frac{\hbar^2\kappa^3}{m}\int_{-\infty}^{0}e^{2\kappa x}dx\\&=-\frac{\hbar^2\kappa^2}{2m}=-\frac{m\gamma^2}{2\hbar^2}< 0???\end{aligned}$$


要得到正确结果,我们必须把$x=0$处一阶导数的突变考虑进来

$$\psi'(0^+)-\psi'(0^-)=-2\kappa^{3/2}$$

$$\begin{aligned}\frac{\partial^2\psi(x)}{\partial x^2}&=\kappa^{5/2}e^{-\kappa|x|}\\&\to\kappa^{5/2}e^{-\kappa|x|}-2\kappa^{3/2}\delta(x),\end{aligned}$$

则有

$$\begin{aligned}\langle T\rangle&=-\frac{\hbar^2}{2m}\int_{-\infty}^{\infty}\psi^*(x)\frac{\partial^2\psi(x)}{\partial x^2}dx\\&=-\frac{\hbar^2\kappa^3}{m}\int_{-\infty}^{0}e^{2\kappa x}dx+\frac{\hbar^2\kappa^2}{m}\\&=\frac{\hbar^2\kappa^2}{2m}=\frac{m\gamma^2}{2\hbar^2}.\end{aligned}$$

其它力学量


显然,对这样一个束缚态,有$\langle x\rangle=0$,$\langle p\rangle=0$。而不确定度

$$\begin{aligned}
\sigma_x^2&=\langle x^2\rangle-\langle x\rangle^2
\\&=\int_{-\infty}^{\infty}x^2\left|\psi(x)\right|^2dx\\
&=\kappa\int_{-\infty}^{0}x^2e^{2\kappa x}dx\\
&=\frac{1}{4\kappa^2}\\\\

\sigma_p^2&=\langle p^2\rangle-\langle p\rangle^2\\
&=-\hbar^2\int_{-\infty}^{\infty}\psi^*(x)\frac{\partial^2\psi(x)}{\partial x^2}dx\\
&=2m\langle T\rangle\\
&=\hbar^2\kappa^2\\\\
\sigma_x\sigma_p&=\frac{\hbar}{2}
\end{aligned}$$

可见,束缚在$\delta$势阱中的粒子处于位置和动量具有最小不确定性的状态。增大$\delta$势阱的强度$\gamma$可以减小位置不确定性,但动量不确定性将随之增大。

收起阅读 »

普朗克尺度和普朗克时间

1. 引言1899年,德国物理学家、量子理论的开山鼻祖马克斯·普朗克 (Max Planck) 提出了一套特殊的单位制。他试图通过三个我们宇宙中的基本物理学常数:光速 ,约化普朗克常数  和牛顿引力常数  来构建长度、时间、质量、能量等基本物理量的基本单位,这...
继续阅读 »

1. 引言

1899年,德国物理学家、量子理论的开山鼻祖马克斯·普朗克 (Max Planck) 提出了一套特殊的单位制。


他试图通过三个我们宇宙中的基本物理学常数:光速 ,约化普朗克常数  和牛顿引力常数  来构建长度、时间、质量、能量等基本物理量的基本单位,这些基本单位统称为普朗克量

通过量纲分析,普朗克发现唯一可能的具有对应量纲的物理量为

  • 普朗克时间 
  • 普朗克尺度 
  • 普朗克质量 
  • 普朗克能标 

等等。单纯从数值上来看,这些普朗克量很“极端”,它们对应了极短的时间尺度,极短的空间尺度,极高的能量标度。

一种常见于科普文中的说法是它们都表征了我们这个宇宙中的某种“极限”数值。

例如普朗克时间和普朗克尺度是我们宇宙中时间和空间的最小不可分割单元,普朗克能标是我们宇宙中所能达到的最高能标,等等。

然而,这种说法其实是不正确的,或者至少是不严谨的。

我们接下来将从一些(至少看起来)更深刻的方面去考察普朗克量的真正含义

一颗定心丸:本文仍然是科普文,为了通俗我们将放弃一些不必要的严格性并略去所有的公式推导,所以读者可以放心地看下去。

2. 普朗克量中的基本常数

首先我们来考察组成这些普朗克量的三个基本物理学常数:光速 ,约化普朗克常数 和牛顿引力常数 ,在国际单位制下它们的数值分别为

这三个常数在物理学中极其基本和重要,因为它们分别是相对论量子力学引力理论的代盐人。

2.1 光速

1905 年爱因斯坦建立了狭义相对论,完全地解决了麦克斯韦方程组和伽利略世界观之间的矛盾:时间和空间应该是平权的,它们随着惯性系的改变而一起 “协同地变换”。

狭义相对论最重要的一个假设就是光速大小不随观者变化,在所有的惯性系中光速都是一个常数

从这个假设出发,我们能推出惯性系之间的时空坐标变换必须保持如下的四维时空间隔不变

进一步我们能推出惯性系之间时空坐标变换的定量关系,也就是洛伦兹变换

狭义相对论的一个重要推论就是它统一了质量和能量的概念。对于一个质量为  的静止的物体,其能量  由质量和光速平方的乘积给出

容易看出,上面定义的普朗克能标和普朗克质量之间也满足这样的关系

因为光速  是一个对所有惯性观者都不变的常数,所以谈到某个物体的质量和能量时我们完全可以将其视为一回事。

或者等价地,对能量的单位做一个重新标度 (rescale),我们可以将光速设为1,这就是所谓的自然单位制

自然单位制的好处是所有的物理量的量纲都可以化为能量量纲的幂次,这对于标度估算极其方便。在自然单位制下,普朗克能标和普朗克质量就完全是一回事了,

同时,普朗克尺度和普朗克时间也完全是一回事了,因为普朗克尺度就是光在普朗克时间内走过的距离

2.2 普朗克常数

上面通过将光速设为 1,我们统一了普朗克能标和普朗克质量,也统一了普朗克时间和普朗克尺度,那么普朗克能标 (质量) 和普朗克时间 (尺度) 之间有什么关系呢?


这将不得不涉及到统治微观世界的量子理论

1900年,为了解释黑体辐射的实验,普朗克假设黑体不能像经典物理中那样连续地辐射和吸收能量,对于角频率为  的电磁波,其辐射和吸收的最小能量单元为

其中  是一个和频率无关的极小常数,被称为约化普朗克常数

普朗克的这种 “能量以  为基本单位进行量子化“ 的假设非常完美地解释了黑体辐射的实验曲线,并在之后成为了量子理论的开端。

1924年,德布罗意 (de Broglie) 提出实物粒子也具有波动性,其动量  和波长 之间的关系为

对于一个质量为  的实物粒子,我们总可以定义一个特征波长,被称为粒子的**康普顿波长 **(Compton wavelength)

康普顿波长的含义是:

如果我们将一个粒子的位置确定到它的康普顿波长以内,那么具有的能量涨落将大到足以再产生一个这样的粒子

这是因为根据海森堡的不确定性关系,我们没法同时确定一个粒子的位置和动量 (能量),它的位置确定得越精确,其动量 (能量) 的不确定度就越大,它们不确定度的乘积大概是  的量级。

如果我们将一个粒子的位置准确到其康普顿波长以内,那么由此带来的能量不确定度将大于这个粒子的静止能量 ,这么大的能量足以从真空中再产生一个这样的粒子。

从康普顿波长的定义我们容易发现

普朗克尺度正是一个具有普朗克质量的粒子所具有的康普顿波长

或者从不确定关系的角度出发

当我们把时间确定到普朗克时间以内,其能量具有的不确定度将达到普朗克能标

出于和把光速设为 1 一样的原因,在自然单位制下我们也把约化普朗克常数设为1,这样普朗克能标 (质量) 和普朗克时间 (尺度)之间就成了简单的倒数关系


2.3 牛顿引力常数

在经典物理时代,人们最引以为豪的成就就是能用同一个公式来计算天地万物之间的引力。

对于两个质量分别为  和 ,相距为  的质点,它们之间的引力由牛顿万有引力公式描述

其中的负号代表了吸引力, 是一个和物体性质无关的常数,被称为牛顿引力常数,它描述了物体间万有引力的强弱

牛顿的引力理论在遇到强引力场时会失效,它被爱因斯坦的广义相对论所替代,在广义相对论中,引力被描述为时空的弯曲。

和牛顿时空观不同的是,广义相对论中的时空不再是物质演化的背景舞台,而是会影响物质的分布,反过来物质的分布也会影响时空的几何。

物质和时空交织耦合在了一起,“物质告诉时空如何弯曲,时空告诉物质如何运动,物质和时空之间的这种 “爱恨情仇” 在定量上由爱因斯坦场方程描述

其中方程左边的 是爱因斯坦张量,它刻画了时空的几何性质,而方程右边的  是能动张量,它对应了物质的分布。

我们可以看到,在广义相对论中又一次出现了牛顿引力常数的身影,它现在刻画了物质和时空之间耦合的强度

牛顿引力常数的再次出现是很自然的结果,因为在弱引力极限下,广义相对论必须要退化为牛顿的引力理论。所以有引力出现的地方,就必然有 

我们在后面可以看到,这个描述引力的常数,究竟是如何同我们宇宙中的“极限”量——普朗克量联系起来的。

2.4 WHY?

上面我们通过分析组成普朗克量的三个基本常数,讨论了不同普朗克量之间的关系,我们发现它们其实都是互相等价的,知道了其中一个,也就知道了其他几个。

特别地,在自然单位制下,它们之间就是简单的相等或者倒数关系。

那么接下来,我们要问一个基本的问题:

Why?

为何通过  和  的幂次组合就能得到我们宇宙中的“极限”数值呢

一种常见的 argument 是光速  ,约化普朗克常数  和牛顿引力常数  都是很基本的物理学常数,它们分别描述了相对论、量子力学和引力的基本性质,而这三个基本常数通过量纲分析能组合出的唯一具有正确量纲的量就是上面列出的这些普朗克量。

这样的解释充其量只能说明普朗克量也应该是很基本的物理量,并且很有可能同时蕴含了量子理论和引力的信息,但并没有回答问题的本质

它们为何是我们宇宙中的“极限"量

在接下来的两节中,我们将分别从引力和量子场论的角度,来考察普朗克量的“极限”之处。

3. 黑洞:对不起我不能再轻了

广义相对论最大的成就之一就是预言了黑洞 —— 一种引力极大、极其致密以至于连光都没法逃脱其束缚的奇特天体的存在。

在爱因斯坦1915年发表他的广义相对论后的短短一年,就由德国物理学家史瓦西 (Schwarzschild) 解出了场方程的第一个解析解——史瓦西解。

这个解预言了球对称、不带电、不自转的黑洞的存在,这类最简单的黑洞被称为史瓦西黑洞。

对于一个质量为  的史瓦西黑洞,它的 “半径” (视界) 由下式给出

这被称为史瓦西半径,它恰巧就等于当年拉普拉斯所预言的“暗星” 的半径。将一个物体保持质量不变并压缩到它的史瓦西半径以下,那它就成了一个黑洞。

我们现在考察一个质量为  的史瓦西黑洞,并令它的半径等于它的康普顿波长

我们发现其对应的质量正好就是普朗克质量

这意味着

普朗克质量是最小的能稳定存在的黑洞的质量

因为如果黑洞的质量小于普朗克质量,其对应的史瓦西半径将小于它的康普顿波长,按照上面一节的论述,这将产生足够大的能量涨落来从真空中生成另一个黑洞,从而这个黑洞不能稳定存在


4. 有效理论——基本物理理论的失效

我们知道以量子场论为框架的标准模型相当成功地描述了电磁力、弱力和强力,并且标准模型被证明是可以重整化的。

但是引力并没有被包括进来,一个很重要的原因就是引力没法重整化,根源在于引力的耦合常数,即牛顿引力常数  的量纲是能量量纲的  次而一个理论的耦合常数如果是负的,那么这个理论就不可重整

不可重整的含义是没办法引入有限多的抵消项来消除圈图计算中的所有无穷大。

一个不可重整的理论称为有效理论,意思是这个理论只在某个特定的能标以下有用,一旦超过这个能标,这个理论就失效了。

这种能标的截断称为 cut off,cut off 的具体位置就由这个有效理论决定,其实就是由它的耦合常数决定。

例如早期的弱相互作用理论中的四费米子相互作用,其耦合常数:费米常数  的量纲也是 ,所以四费米子相互作用也是一个有效理论,一旦能标达到 的时候,四费米子相互作用就失效了,必须要被更加完整的理论替代,后来我们知道这就是电弱统一理论

回到引力的问题来,在尝试把经典引力进行重整化的时候,因为引力的耦合常数  的量纲是 ,不可避免也要进行能标截断,截断的具体位置正是由牛顿引力常数决定  。

在自然单位制下,代入牛顿引力常数的值,你会发现这其实就是普朗克能标 

==所以,普朗克能标的真正含义是:经典引力理论失效的地方==

而我们目前并没有一个成功的量子引力理论,所以对于普朗克能标以上的物理,我们没有任何理论可以进行描述。所以

==普朗克能标也是我们目前的所有物理理论能描述的最高的能标。==

有了普朗克能标的值,通过简单的换算就可以得到普朗克时间的值  。

在宇宙大爆炸发生后的普朗克时间内,即  秒内,根据不确定关系,宇宙的温度要高于普朗克能标。上面已经分析过,在这个阶段我们没有任何有效的物理理论去描述它,所有现有的物理规律全部失效,所以在这个意义上,普朗克时间才被称为是我们宇宙中最小的时间尺度。


5. 总结

本文的主要目的是想纠正很多人关于“普朗克时间和普朗克尺度是我们宇宙中的最小时空单元"的误解,以及由此产生的“我们的世界是离散化”的谬论。

量子化绝不是时空的离散化

主流的物理理论仍然坚持认为我们的时空是连续分布的离散化的时空会破坏最基本洛伦兹对称性

最后,重要的事情只说一遍

普朗克能标并不意味着宇宙中的最高能标,它只是我们目前已知的物理理论所能描述的最高能标;普朗克尺度也不是宇宙中的最小尺度,它只是我们目前已知的物理理论所能描述的最小尺度


附注:

[1]   是微观世界中常用的能量标度,它等于十亿电子伏特。1电子伏特定义为一个电子通过1伏特的电场所获得的能量,它等于  焦耳。对于微观世界,焦耳是一个过大的能量标度,所以我们更多采用电子伏特。(打个比方:我们用光年衡量星系之间的距离,用公里衡量地球上两地之间的距离,用米衡量一个房间里两个人之间的距离,用是否点击关注衡量我和你之间的距离。)

[2] 原文为 “Matter tells spacetime how to curve, spacetime tells matter how to move”,by John Wheeler

[3] 严格来说会差一个因子,但这是无关紧要的。

[4] 重整化是一种消除无穷大的技术。因为物理可观测量一定是有限大的,物理学家无法容忍一个“无穷大”的可观测量,但是量子场论的计算中会出现大量的无穷大,所以他们需要一个系统的方案来从这些无穷大中提取出和实验观测相符的有限量。可以重整化是一个理论“完备性”的基本要求。

[5] 回忆一下,在自然单位制中,所有物理量的量纲都可以转化为能量量纲的幂次——也许你现在能体会到自然单位制的优越性了。

[6] 有效理论的广泛性甚至远远超出量子场论和重整化的范畴,它的存在体现了物理规律随着能量标度分层表现的特点,即处于不同能标处的物理系统有其自身的规律,它们独立演化、互不干扰。固然,从原则上讲低能标处的物理规律可以由高能标处更基本的规律所决定,但当我们不知道高能标处规律的时候一样也可以通过有效理论来描述低能标时候的物理规律并和实验符合得很好。正如在发射火箭时只需要牛顿力学而不用考虑广义相对论,在煮咖啡时只需要热力学而不用考虑组成咖啡分子的夸克之间的量子色动力学一样,很多时候我们只需要考虑有效理论就足够了——它不完备,但是很有效。

[7] 凡事都有例外,作为量子引力的一个热门候选者,圈量子引力理论在一开始就放弃了空间连续性和平滑性的假定,通过保守性地整合量子理论和广义相对论,它能够建立了一套自洽的理论——当然,那是另外一个故事了。在圈量子引力理论中,时空确实是离散化的,时空的最小基本单元大概就是普朗克时间和普朗克尺度。抛弃时空连续性的圈量子引力看起来像是一个怪胎,但,也许它是对的呢?


收起阅读 »

规范场论发展简史

规范场论发展简史 作者 | yubr 规范场论起源于20世纪20年代Weyl关于电磁场规范对称性的基本思想,1954年杨振宁和Mills将规范对称性推广到了非阿贝尔场的情形。从Yang-Mills理论1954年被提出,一直到1971年非阿贝尔规范理论的可重整性...
继续阅读 »

8662c1d49e5e8e81777ce08428a53938.jpg?9306

规范场论发展简史


作者 | yubr


规范场论起源于20世纪20年代Weyl关于电磁场规范对称性的基本思想,1954年杨振宁和Mills将规范对称性推广到了非阿贝尔场的情形。从Yang-Mills理论1954年被提出,一直到1971年非阿贝尔规范理论的可重整性被证明从而基于Yang-Mills理论的电弱标准模型开始被人们广泛接受,在这近20年间,人们主要专注于解决两大困难:如何在不破坏规范对称性的前提下赋予规范玻色子质量,如何证明规范理论的可重整性。规范场论最核心的是以下三个要素:规范对称性,自发对称性破缺和可重整性


本文主要遵循规范场论发展的历史顺序和逻辑顺序,介绍规范场论发展过程中的重要物理概念以及提出这些概念的物理动机,并尽量给出所有的原始参考文献,看看那些20世纪后半叶的英雄们是如何谱写一曲不亚于20世纪早期量子力学发展史的壮丽诗篇,如何一步步建立起人类历史上最精妙的理论——电弱标准模型。


1. 萌芽


20世纪20年代,规范理论的思想萌芽。1929年,Hermann Weyl最早考察了电磁相互作用中的 规范对称性,并指出所有的规范相互作用必须通过规范粒子来传递 。1941年,Wolfgang Pauli在他的论文里证明了整体的 对称性对应电荷守恒,而规范的 对称性必然会引入电磁相互作用,从而可以由这种相互作用直接推导出Maxwell方程组


2. 神来之笔:Yang-Mills理论的诞生


1954年,杨振宁和 Robert Mills将规范对称性从阿贝尔群情形推广到非阿贝尔群情形,他们提出在强相互作用中应该满足局域的同位旋守恒,质子和中子组成一个群的同位旋二重态


3. 补天之作:自发对称性破缺和Nambu-Goldstone定理


在Yang- Mills 理论被提出后的很长的时间里,主流物理学界对此无人问津,主要原因在于Yang-Mills 理论面临一个巨大的困难:弱相互作用是短程力,所以传递弱相互作用的规范玻色子一定是有质量的,但是质量项会很明显地破坏Yang-Mills理论中提出的的规范对称性 。1960年,受到超导中Bardeen-Cooper-Schrieffer理论(即BCS理论,1972年诺贝尔物理学奖)的启发,Yoichiro Nambu率先把自发对称性破缺 (spontaneous symmetry breaking) 的概念从凝聚态物理引入到了粒子物理中(Nambu因此获得2008年的诺贝尔物理学奖)。之后,Jeffrey Goldstone,Abdus Salam和Steven Weinberg严格证明了,连续对称性的自发破缺会产生无质量的标量粒子,即Nambu-Goldstone粒子 ,这被称为Nambu-Goldstone定理。


4. 基石:Higgs 机制


1964年, Peter Higgs,François Englert,Robert Brout等人把自发对称性破缺机制运用到规范理论中,他们发现规范理论通过自发对称性破缺所产生的Nambu-Goldstone粒子的自由度正好可以被原本无质量的规范玻色子吸收从而转化为规范玻色子的质量,这样就成功地在不破坏规范对称性的前提下赋予了规范玻色子质量,这就是著名的Higgs机制(在2012年Higgs粒子被发现后,Higgs和Englert获得了2013年的诺贝尔物理学奖,但是Brout当时已经去世)。


5. 高潮:电弱标准模型的建立


1961年,Sheldon Glashow提出了的规范对称性。在Glashow的基础上,借助Higgs机制,在1967年和1968年, Steven Weinberg和Abdus Salam建立了电弱统一理论,并成功地预言了弱中性流的存在 (也称为GSW模型,Glashow, Salam, Weinberg为此获得了1979年的诺贝尔物理学奖)。


6. 终章:标准模型的可重整性


GSW模型建立后,一开始并没有被人们广泛接受,因为大家不知道这个理论是不是可以被重整化,也不知道自发对称性破缺会不会破坏理论的可重整性。非阿贝尔规范理论的可重整性的证明是非常困难的,一个首先面临的困难就是非阿贝尔规范场的量子化。因为规范粒子具有非物理的极化自由度,这会对量子化带来很大的困难,传统的正则量子化将很难进行。1967年,Ludvig Faddeev和Victor Popov在路径积分的框架下,引入鬼场粒子(ghost particle,一种非物理的标量粒子,但是服从Fermi-Dirac统计),利用鬼场自由度正好消去了规范粒子的非物理极化自由度,从而使得规范对称性(Ward-Takahashi恒等式)得以保持 ,这一套程序称为Faddeev-Popov量子化程序,现在成为了非阿贝尔规范场量子化的标准方法。1971年, Gerardus ’t Hooft 率先完整地证明了非阿贝尔规范理论的可重整性 。在可重整性得到证明以后,GSW模型开始为人们所广泛接受,并逐渐成为了电弱统一理论的标准模型。


7. 尾声:胜利只是新的开始


和爱因斯坦单枪匹马创造了整个广义相对论不同,粒子物理标准模型的建立更像是20世纪后半叶一群天才们的接力长跑,一如半个世纪前的另一群天才们接力建立了量子力学。从Weyl规范对称性思想的萌芽,到Yang-Mills理论将规范对称性从阿贝尔群推广到非阿贝尔群的神来之笔,再到自发对称性破缺和Higgs机制对Yang-Mills理论致命弱点的惊天补救,再到集大成者的GSW模型,最后由计算大师’t Hooft补上了可重整性的证明,天才们经过半个世纪的努力,终于建立起了人类历史上最伟大的杰作——粒子物理标准模型,它成功地在相对论性量子场论的框架下,通过规范对称性来统一描述电磁、弱和强三种相互作用,并且它是可重整的。2012年Higgs粒子被发现后,标准模型的所有预言都已经被实验验证,它看起来是如此得完美和精确。但这并不是故事的结尾,恰恰相反,这仅仅是开端。上帝并不想被人类这么轻易地发现自己的秘密,20世纪初的两朵乌云经过一个世纪的努力成功变成了满天的乌云——标准模型的光也无法刺透的乌云:中微子的质量,规范等级问题,规范耦合常数的统一,真空稳定性问题,强CP相位,宇宙正物质-反物质不对称之谜,真空能问题,暗物质,暗能量,引力的量子化......这让人沮丧,却也更让人激动,因为这无可辩驳地表明了标准模型只是一个不完整的有效理论,一定存在着超出标准模型的新物理。我们,还有很长的路要走。


原始文献


[1] Weyl, H., 1929, Z. Phys. 56, 330.


[2] Pauli, W., 1941, Rev. Mod. Phys. 13, 203.


[3] Yang, C.N., and Mills, R., 1954, Phys. Rev. 96, 191.


[4] Nambu, Y., 1960, Phys. Rev. Lett.4, 380.


[5] Nambu, Y., and Jona-Lasinio, G., 1961, Phys. Rev. 122, 345.


[6] Nambu, Y., and Jona-Lasinio, G., 1961, Phys. Rev. 124, 246.


[7] Goldstone, J., 1961, Nuove Cim. 19, 154.


[8] Goldstone, J., Salam, A., and Weinberg, S., 1962, Phys. Rev. 127, 965.


[9] Higgs, P. W., 1964, Phys. Lett. 12, 132.


[10] Higgs, P. W., 1964, Phys. Rev. Lett. 13, 508.


[11] Higgs, P. W., 1966, Phys. Rev. 145, 1156.


[12] Englert, F., and Brout, R., 1964, Phys. Rev. Lett. 13, 321.


[13] Guralnik, G.S., Hagen, C.R., and Kibble, T. W. B, 1964, Phys. Rev. Lett. 13, 585.


[14] Glashow, S.L., 1961, Nucl. Phys. 22, 579.


[15] Weinberg, S., 1967, Phys. Rev. Lett. 19, 1264.


[16] Salam, A., 1968, Conf.Proc. C680519 (1968) 367.


[17] Fadeev, L.D., and Popov, V.N., 1967, Phys. Lett. B 25, 29.


[18] ‘t Hooft, G., 1971, Nucl. Phys. B 33, 173.


[19] ‘t Hooft, G., 1971, Nucl. Phys. B 35, 167.


[20] Lee, B. W., and Zinn-Justin, J., 1972, Phys. Rev. D 5, 3121.


[21] Lee, B. W., and Zinn-Justin, J., 1972, Phys. Rev. D 5, 3137.


[22] Lee, B. W., and Zinn-Justin, J., 1972, Phys. Rev. D 5, 3155.




所有的原始文献都可以在https://inspirehep.net/网站上下载。


感谢 @长尾科技 将其整理在了百度网盘中,方便大家下载,网盘地址:


https://pan.baidu.com/wap/init?surl=4MdwCr0wJb52XElNur7YlA


提取码:9pyw



收起阅读 »

深度:宇称不守恒到底说了啥?杨振宁和李政道的发现究竟有多大意义?

宇称不守恒,这是一个让许多中国人既熟悉又陌生的词语! 熟悉,是因为这是全球华人的第一个诺贝尔奖,我们的教科书和媒体会经常提到这个也是很自然的事情;陌生,是因为大多人除了知道杨振宁和李政道发现了它以外,完全不知道这个宇称不守恒到底在说啥。 另外,跟前沿理论物理的...
继续阅读 »

宇称不守恒,这是一个让许多中国人既熟悉又陌生的词语!

 

熟悉,是因为这是全球华人的第一个诺贝尔奖,我们的教科书和媒体会经常提到这个也是很自然的事情;陌生,是因为大多人除了知道杨振宁和李政道发现了它以外,完全不知道这个宇称不守恒到底在说啥。

 

另外,跟前沿理论物理的一大堆让人懵圈的专业术语相比,“宇称不守恒”这五个字看起来还是很亲民的。毕竟我们中学时代就学过能量守恒动量守恒,对守恒的概念还是很熟悉的,而“宇称”听起来应该和宇宙的某种对称性有关。然而,宇称到底是什么呢?为什么它不守恒?为什么宇称的不守恒会让科学界如此震动,以至于杨振宁和李政道在1956年6月提出了宇称不守恒,1957年的诺贝尔物理学奖立刻颁给了他们?

 

没错,宇称确实是指一种对称性,要想理解宇称不守恒为什么这么重要,就要先理解为什么对称性这么重要

 

那么,对称性到底有多重要呢?这么说吧,如果没有对称性作指导,爱因斯坦不可能发现相对论,当代的理论物理学家们会像失去了灯塔一样集体在黑暗里抓瞎。物理学大师费曼曾经说过,如果让他选择一句话来概括现代科学最重要的发现,他会选“世界是原子组成的”。许多当代最著名的物理学家们认为,如果有机会再选一句,那么所选的将是“对称性是宇宙规律的基础”这句话。

 


01什么是对称?


一提到对称,许多人脑海里会浮现类似天安门这种严格左右对称的建筑,或者六个瓣的雪花,镜子里帅帅的自己,亦或者是纯粹的圆形、正方形、正六边形这样的几何图形。

图片

 没错,这种几何里的对称是我们最容易想到的。仔细想一下这些对称,我们会发现它们有的是以中间一根轴对称(天安门),有的是围着一个点旋转对称(雪花、圆形、正方形),还有的是相对镜子里的镜像对称。当然,天安门的那种轴对称你也可以认为它是在天安门中间插了一面镜子,不过这个不是重点,我的重点是:对称的标准可以是多样的

 

对称性的精确数学定义涉及到不变性的概念:如果一个几何图形在某些操作下保持不变,我们就说这个图形在这些操作之下具有某种不变性

 

一个圆无论你旋转多少度,这个圆看起来还是那个圆,它没有任何变化,我们就说圆这个图形在旋转这个操作下具有不变性,简单的说就叫圆具有旋转不变性。同样的,我们用镜子去照一个圆,镜子里的图形依然是一个圆形,通过镜子照的这个过程我们可以称之为反射,那么,圆也具有反射不变性。可以想象,三角形、正方形乃至任何几何图形在镜子里依然是这样的图像,所以它们都具有反射不变性。

 

这是我们辨别对称常用的思维,但是物理学家们却更喜欢另一种思维。

 

以旋转不变为例,我们判断一个图形是否具有旋转不变性,是去尝试着把这个图形给转一下,看看他跟以前还是不是一样的。这是观察者不动而图形动,但是物理学家们更喜欢使用另外一种方法:图形不动,观察者动

 

什么意思呢?比如物理学家们判断一个圆形是否具有旋转不变性,他不是去旋转这个圆看他变没变,而是去旋转观察者,让观察者从不同的角度去看这个圆,看他们看到的是不是同样的圆,如果是一样的就说圆具有旋转不变性。因为运动具有相对性,所以观察者不动旋转圆和圆不动旋转观察者本质上并没有什么区别。物理学家们的这种处理方法会使在处理复杂问题的时候变得简单很多,后面你就能体会到了。

 

上面我们说的对称都是只几何图形的对称,但是物理学家们并不关心几何图形,他们关心的是物理定律,也就是是物理定律的对称性。初次听到这个词很多人可能会感觉到奇怪,几何图形对称好理解,什么叫物理定律的对称性呢?物理定律不是一堆公式么,为什么会去考虑他们是否对称的问题?

 


02物理定律的对称


要理解物理定律的对称性,我们就要把脑袋里几何图形对称的那个图景忘掉,回到对称更一般的数学定义上来。我们上面也说了,对称性的精确数学定义会涉及到不变性这个概念:如果一个几何图形在某些操作下保持不变,我们就说这个图形在这些操作之下具有某种不变性

 

我们把上面的几何图形换成物理定律,就可以很自然的得到一个物理定律是否对称的判断标准:如果一个物理定律在某些操作下保持不变,我们就说这个物理定律在这些操作下具有某种不变性

 

还是以旋转操作为例,我们来看看牛顿运动定律在旋转这个操作下是否保持不变,也就是说看看牛顿运动定律是否具有旋转不变性。答案是很明显的,比如一个苹果从树上落下,我们不管是从树下仰视,从树上俯视,还是从远方平视,甚至是从飞机上看,我们都会看到苹果的下落过程符合牛顿的运动定律:苹果朝着地心的方向加速飞去。一个俯视苹果下落的牛顿和一个仰视苹果下落的牛顿不可能总结出两个运动定律出来,这就是说牛顿定律符合旋转不变性,也就是说牛顿定律在旋转这个操作下具有对称性

 

我们想想,不止是牛顿定律,我们现在发现的任何定律都符合旋转不变性,也就是旋转下的对称性。麦克斯韦的电磁学也好,爱因斯坦的相对论也好,量子力学也好,如果我们从不同的角度去看他们就会得到不同的电磁学规律、相对论那还得了?

 

我们再往深层想一下,旋转不变性的本质其实是空间的各向同性。也就是说,只要空间在各个方向上都是均匀的,都是一样的,不存在空间这边密度大一点那边密度小一点,那么观察者从不同方向看到的物理定律就肯定是一样的,即这些定律肯定具有旋转不变性。

 

在这里,我们看到了物理定律的旋转对称性居然和空间本身的性质联系起来了,有没有隐隐约约感觉对称性不只是看起来好看,好像还挺有用呢?别急,这才看到对称性威力的冰山一角,对称性的威力还大着呢~

 


03诺特定理


物理学家研究对称性绝不是图好玩,是因为对称性里蕴含了巨大的能量。要充分理解对称性的威力,我们必须先了解一个核弹级别的定理:诺特定理

 

诺特定理,顾名思义是一个叫诺特的科学家发现的定理,这个科学家叫埃米·诺特,是位著名的女科学家,被爱因斯坦形容为数学史上最重要的女人,还被称为现代数学之母。诺特在数学上的成就我这里不多说,她在物理学上最重要的成就就是发现了现代物理学灯塔,让现代物理学家们不再抓瞎的诺特定理。

 

图片

诺特定理的表述非常简单,就一句话,但是内容非常深刻,它说:物理学里的连续对称性和守恒定律一一对应

 

我先不做过多的说明,让大家先把思路捋一捋,这句话里的每一个字我们都懂,它要表达的意思也非常清楚,但是这到底意味着什么?

 

对称性和守恒定律一一对应,那就是说每一个对称性都有一个守恒定律跟它对应,每一个守恒定律也有一个对称性跟它对应么?那岂不是说我熟悉的能量守恒定律,动量守恒定律也都对应了某个对称性?那上面的旋转对称,反射对称又对应了什么守恒定律呢?如果它们之间真的是这样一一对应的,那么以后我只要在实验里发现了新的守恒量,就等于发现了一个新的对称性么?这太不可思议了……

 

没错,上面想的都没错,诺特定理说的清清楚楚明明白白,没有任何歧义,就是这样!

 

另外,关于诺特定理里连续对称性的连续,我稍微说明一下:在经典力学里,像旋转对称,我们可以旋转任意的角度,这显然是个连续的对称,而镜像对称则要么是镜里要么是镜外,只能取两个值,这是不连续的。在经典力学里,守恒定律是跟连续对称性一一对应的。但是到了量子力学这里,许多东西都是量子化的,所以这种差异就没有了。因此,在量子力学里,即便是镜像这种不连续的对称也有相应的守恒定律。

 

为了让大家对诺特定理有更深刻的理解,我们先来看看几个常见的例子。

 


04能量守恒定律的对称性


诺特定理说对称性和守恒定律一一对应,那么就先从我们最熟悉的能量守恒定律开始。既然能量守恒,那么按照诺特定理就有一种对称性与之对应,是什么对称性呢?

 

这里我不卖关子了,直接告诉大家,跟能量守恒对应的这种对称性叫时间平移不变性。什么叫时间平移不变性,平移就是时间流逝移动的意思,说得再通俗一点就是:我今天做实验跟明天做实验遵循同样的物理定律

 

噢,这下子秒懂了!有人说这不是废话么,一个物理定律如果他今天成立明天不成立,那还叫什么定律,那我们要这样的定律还有个锤子用?没错,吐槽的一点没错,物理学家们千辛万苦的寻找各种物理定律,为的就是利用这些定律预测物体未来的运动情况,你如果跑来告诉我这个定律只有这一刻有效,下一刻就失效了,也就是没有时间平移不变性,那我们还预测个啥啊?


所以,显而易见的,我们目前所有的物理定律都是符合时间平移不变性的,明白了这一点,你就知道为什么能量守恒定律的适用范围这么广了吧?因为诺特定理告诉我们,只要物理定律是时间平移不变的,那么他就肯定能量守恒,而时间平移不变看起来这么强,所以能量守恒也就这么强了。

 

现在这个关系是对应起来了,但是大部分人脑袋里肯定还是懵的:为什么能量守恒定律就是跟时间平移不变性对应,而不是跟其他的对称性对应呢?具体的证明过程比较复杂,这里就不说了,有兴趣的自己去查资料,我这里提供一个简单的思路让大家直观的感受一下为什么如果没有时间平移不变性,能量就不守恒了

 

假设物理定律不遵守时间平移不变性,这一秒的定律跟下一秒的定律不一样。那我把一块石头往上抛,让它刚好一秒钟达到最高点然后它开始下落,我假设下落时的定律让同样大小的引力能够产生两倍于上抛时候的加速度,那时候下落到出发点的时候它的速度肯定比上抛的时的初候速度更大,也就具有更大的能量。那么,在抛一个石头的过程中它就凭空创造了能量,所以能量显然就不守恒了。

 

理解了能量守恒对应时间平移不变性之后,后面两个熟悉的守恒我就直接说结果了:动量守恒对应空间平移不变性(空间平移不变就是说物理定律在北京和在上海都一样,在不同的空间物理定律相同),角动量守恒对应于我们上面说的旋转不变性。有了这种概念以后,知道了能量、动量、角动量守恒定律不过是一种对称性的体现之后,我相信你不会再怀疑对称性在物理学的重要性了。

 

那么,镜面的反射对称呢?物理定律是否遵循反射对称呢?如果遵循反射,那么它对应的守恒定律又叫什么呢?

 


05宇称不变性


做了这么多铺垫,我们文章的主角——宇称,也该出场了。没错,跟镜像反射对称,也就是左右对称相对应的这个守恒量,就是宇称。宇称也跟物体的质量、电荷一样,是描述基本粒子性质的一个物理量。

 

所以,我们说物理定律的宇称不变性,其实就是说物理定律在经过镜面反射对称处理之后依然保持不变,简单的说就是镜子里的世界跟外面的世界遵循同样的物理定律

 

图片

怎么通俗的理解这个事?举个例子,我们每个人都有照镜子的体验,因为人体的特殊对称性,镜子里的人看起来跟镜子外面的人一模一样,但是左右颠倒了。也就是说,镜子外面的人动一下左腿,你会感觉到镜子里面的人动了一下右腿。如果这时候外面还有一个足球,镜子外面的人用左腿提了一下足球,这个足球会按照牛顿运动定律被踢开,同时我们会看到镜子里面的人会用右腿把把这个足球朝另一个方向踢开,现在问题的关键是:镜子里面的人踢足球这个过程是否满足牛顿运动定律?

 

如果也满足牛顿运动定律,那我们按照定义就可以说牛顿运动定律在镜面反射对称下具有不变性,也就是具有宇称不变性,那这个过程就宇称守恒

 

可以想象一下,如果现实生活中你真的有一个一模一样的双胞胎,这个双胞胎完全按照你镜子里的样子站立,按照你镜子里的样子用右腿踢那个球,双胞胎的球和镜子里的球会按照一样的轨迹运动么?

 

答案是肯定的,镜子里的世界跟你一样遵循牛顿运动定律,根据牛顿运动定律根本无法区分镜子里面和外面的世界。如果你有魔力把镜子里的人和球都抠到现实世界里来,你会发现他跟你除了左右相反之外,他踢球的过程跟你平常的感觉是一模一样的,踢出去的球依然是一条优美的抛物线。

 

这也就是说,牛顿运动定律具有严格的宇称不变性,按照牛顿运动定律发生的过程严格宇称守恒。其实,不止是牛顿运动定律,在四大基本相互作用力里,电磁力、引力、强力的物理规律都具有宇称不变性,由它们支配的过程都宇称守恒

 

但是,剩下的那个弱力呢?

 


06从宇称守恒到宇称不守恒


宇称,也就是镜面反射对称,在我们日常生活里实在是太常见太熟悉了。镜子里的世界跟镜子外的世界比也就是左右互换了一下,镜子外顺时针旋转的东西在镜子里面在逆时针旋转而已。我们的直觉告诉我们上帝应该是公平的,他没有任何理由偏爱左边或者右边,相对论的成功更是极大地加深了这种思想。

 

所以,宇称不变性,也就和其它几个最基本的不变性(比如时间平移不变、空间平移不变、旋转不变等等)一样,被物理学家们视为最基本的规律。视为最基本的意思就是说,如果科学家们发现了有什么现象似乎违反了这个规律的时候,大家首先的反应不是这个规律有问题,而是还有其他没有考虑进来的因素。这里最明显的就是时间平移不变性对应的能量守恒了,有很多次物理学家们发现某个物理过程不满足能量守恒,他们不会怀疑能量守恒出了问题,而是去找有什么新粒子或者新现象没有被发现,然后后来他们就真的找到了这样的新粒子新现象,然后顺便去斯德哥尔摩旅了个游,这一招屡试不爽。

 

宇称不变性跟他的几个兄弟一样,一路帮助物理学家们过关斩将,所向披靡,没有人怀疑宇称守恒的“忠心”。直到有一天,从战火中的中国走出来了两个天才物理学家:杨振宁李政道

图片

首先我们要清楚,向物理世界中这些最基本最基础最“显而易见”的东西开炮是需要极大的勇气和极高的洞察力的,这种最底层的根基一旦被动摇了,物理学的世界接下来肯定就要地动山摇、天翻地覆。粗算一下,上一次对如此基础的概念开炮还是爱因斯坦对牛顿绝对时间和绝对空间的抨击,以及量子力学的革命。

 

两朵乌云引发相对论和量子力学革命的故事我们已经很熟悉了,那么,杨振宁和李政道为什么要向宇称守恒这么基本的东西开炮呢?这个原因还得从弱相互作用,也就是常说的弱力开始说起。

 


07弱相互作用


我们在自然界发现的所有作用力最终都可以归结为这四种:引力、电磁力、强力、弱力。引力和电磁力我们很熟悉,强力和弱力都发生在原子核里面,我们平常接触不到。强力简单的说就是粘着质子、中子、夸克不让原子核分崩离析的那种力(不然的话,质子都带正电,它们之间同性电荷产生的排斥力早就把原子核给拆了),弱力是造成放射性原子核衰变的那种力,就是中子变成质子,质子变成中子那个过程中的力。

图片

弱力出现最典型的一个场景就是β衰变

 

我们都知道原子核是由质子和中子组成的,元素周期表里的那个元素的排序(所谓的原子序数)就是按照质子数来排的。然而,原子核内的质子和中子并不是一直固定不变的,在一定条件下,质子可以变成中子,中子也可以变成质子,这个相互变化的过程就β衰变,而在这个过程中发挥作用的就是弱相互作用力,即弱力

 

最早描述弱力的是费米的理论,而这个费米,正是杨振宁和李政道的导师。

 


08θ-τ之谜


在20世纪四五十年代,科学家们在宇宙射线里探测到了许多新的粒子,这些粒子并没有在理论中被预言,因此被称为“奇异粒子”。由于宇宙射线有许多人为不可控的因素,为了更好的研究,人们开始自己制造粒子加速器。粒子加速器听起来很高大上,但是大家的使用方法其实很简单粗暴:就是把一些粒子加速到很高的速度(因此具有很高的能量),然后把它们当枪使,让这些高能粒子去撞各种东西,看看能不能撞出一些新东西出来。

 

不过,虽然手法简单,但是效果却非常显著:科学家们撞出了一堆稀奇古怪的“奇异粒子”,而在这些粒子当中,物理学家们最感兴趣的就是θ和τ粒子。它们有一些非常奇特难解的特性,被当时的物理学家们成为“θ-τ之谜”。

 

θ和τ这两种粒子的生命非常短,很快会衰变成其他的粒子,物理学家们也是通过观察衰变之后东西才推测它们的存在。它们奇怪的地方就在于:θ粒子在衰变的时候会产生两个π介子,而τ粒子在衰变的时候会产生三个π介子

 

有人会说这有什么奇怪的?一个粒子衰变产生两个那个叫啥π介子的东西,另一个产生三个,这不是很稀松平常的事么,难道粒子衰变生成几个介子还要受法律约束不成?

 

没错,单纯这有看,确实没什么奇怪的。但是,随后人们就发现,θ和τ这两种粒子无论是电荷、自旋还是质量都一模一样,这哥俩无论怎么看都像是同样一个粒子,但是它们的衰变结果却不一样,这就尴尬了。

 

更为尴尬的是,澳大利亚的物理学家达利兹仔细的研究了这两个粒子,利用当时普遍被接受的物理定律去做了一个计算分析,结果表明θ和τ的宇称数不一样,因此不可能是同一种粒子。

 

当时的局面是,有人认为θ和τ是不同的粒子,有人认为他们是相同的粒子,但是认为它们是相同粒子的人也无法解释为什么它们的衰变结果和宇称数不一样(也就是宇称不守恒)。其实,当时一些科学已经注意到宇称守恒的成立与否是一个重要的方向,但是由于对称性在理论物理里实在太重要了,要去质疑它们要不是极聪明就是极蠢。另外,关于宇称的定律在之前的粒子物理里一直都用的很好,因此只要提出宇称不守恒的想法,很快就会碰到互相抵触的地方。

 

如果杨振宁和李政道认为宇称不守恒是解开θ-τ之谜的关键点,那就得先得把那些相互抵触的问题都解决掉,并且还要解释为什么之前的各种相关现象并不违反宇称守恒。

 

当然,他们做到了!

 


09弱相互作用下的宇称不守恒


在前面我们就提到了,基本相互作用力里的强力和弱力都是在原子核发生的,因此,这两种力很容易搅和在一起。有些物理学家即便感觉宇称可能不守恒,但是一旦他们认为宇称在强力和弱力下都不守恒,接下来肯定会碰到满头包。

 

杨振宁和李政道敏锐的发现了这一点:把原子核黏在一起的是强力,原子核发生衰变是弱力,如果我们把这两个过程的对称性分开来看,也就是说,假如我只认定宇称在强相互用力中守恒,而在弱相互作用力中不守恒,那θ-τ之谜看起来就容易多了

 

把强、弱相互作用力区分讨论宇称性,这是一个很美妙的想法。如果弱相互作用下宇称不守恒,那么θ和τ粒子就可以看做同一个粒子不同衰变方式,于是杨振宁和李政道就把目光锁定到弱相互作用去了。因此,虽然θ和τ粒子的衰变过程也是弱相互作用,但是这种奇异粒子的弱相互作用我们了解有限,既然要研究弱相互作用,那当然是研究我们最熟悉的弱相互作用了。那么,我们最熟悉的弱相互作用是什么呢?大声说出来:

 

β衰变!β衰变!β衰变!

图片

答案当然是β衰变,所以,杨、李二人立马就对过去已有的各种β衰变进行计算考查,结果他们发现:在过去所有的β衰变实验里,实验结果跟β衰变中宇称是否守恒完全没有关系。这是一个令人震惊的结果,也就是说,在过去的那些有弱相互作用力参与的β衰变实验里,宇称守恒与否并不会影响他们的实验结果,所以杨振宁和李政道的想法并没有被过去的实验证伪

 

当然,也没有被证实

 

后来,杨振宁这样描述他们对这个结果的反应:长久以来,在毫无实验根据的情况下,人们都相信弱相互作用下宇称守恒,这是十分令人惊愕的。但是,更令人惊愕的是,物理学如此熟知的一条时空对称定律面临破产,我们不喜欢这种前景,只是因为试图理解θ-τ之谜的其他各种努力都归于失败,我们才不得不考虑这样一种情景。

 

现在新的问题来了:既然β衰变是典型的弱相互作用,那么为什么我们之前做的那么多β衰变的实验都刚好跟宇称守恒无关呢?经过一番苦思冥想之后,杨、李发现了问题的关键:要想用实验检验弱相互作用中宇称是否守恒,必须测量赝标量(这是跟核的自旋和电子的动量相关的一个物理量,有个印象就行),而之前的β衰变实验都没有测量这个,所以实验结果就跟宇称是否守恒完全无关。

 

认识到这一点之后,杨振宁和李政道就重新设计了几个可以检验宇称是否守恒的实验,并把具体的实验方法和之前的分析都写进那篇非常著名的论文《在弱相互作用中,宇称是否守恒?》中去了,然后投给了《物理评论》。但是,等论文发表的时候,论文题目却被杂志的编辑改成了《对于弱相互作用中宇称守恒的质疑》,原因是编辑认为一篇论文的标题不应该是一个问句,虽然杨振宁认为前者要好得多。

图片

上图便是这篇经典论文的截图,论文我已经给大家找到了。想要亲眼目睹杨振宁、李政道这两位物理学大师的这篇论文的,可以在我的公众号(长尾科技)里回复“宇称不守恒论文”获取论文的中文版和英文版。

 

论文发表之后,虽然他们在文章里对“弱相互作用力下宇称不守恒”的问题做了很详尽的讨论,还提出了一些可以检验的实验办法。但是,由于宇称守恒过去在各个方面表现得实在是太好了,而且这些实验也都不是那么简单的,所以他们的论文一开始并没有引起什么热烈的反应。

 


10实验女王吴健雄


当时想请一位实验物理学家来做验证宇称是否守恒的时候可不是那么简单的事,实验物理学家考虑的是:是否值得去做一个实验来验证宇称是否守恒?杨振宁和李政道虽然提出了几个具体的实验方案,但是这些实验都非常困难,并且,当时物理学家的眼里,宇称守恒是绝对可靠的,做这样的实验几乎就等于白费精力。

 

这种想法在当时是极为主流的。

 

有一个叫拉姆齐的实验物理学家后来也想做验证宇称是否守恒的实验,费曼告诉他“那是一个疯狂的实验,不要再上面浪费时间”,他还以10000:1来赌这个实验不会成功,后来改成了50:1,但是由于橡树岭实验室不支持,所以拉姆齐只得作罢。当宇称不守恒被实验证明之后,费曼倒是很守信的开了一张50美元的支票给拉姆齐,算是给拉姆齐的一个安慰奖。以眼光毒辣,被称为“上帝之鞭”“物理学的良心”的泡利听说吴健雄在做这个实验之后,他说他愿意下任何赌注来赌宇称一定是是守恒的,后来他自己也开玩笑说幸好没有人跟他赌,不然他就得破产了(不知道这些物理学家怎么这么喜欢赌博,应该打110和911叫警察全抓起来~)。最严重的是朗道,朗道不仅自己公平批评质疑宇称守恒的想法,他有个叫沙皮罗的学生在研究介子衰变的时候也觉得宇称应该不守恒,写了篇论文给朗道审阅,朗道直接给他丢一边去了。几个月后杨振宁和李政道发表了宇称不守恒的论文,接着吴健雄用实验做了证明,第二年还去斯德哥尔摩捧回了炸药奖,朗道这才追悔莫及。

 

当然,我们也不能说如果朗道没有无视沙皮罗的论文,苏联就会先发现宇称不守恒,然后先得到一个诺贝尔奖。因为当时质疑宇称守恒的人很多,但是光质疑没用,原因我们上面也说了,你从宇称不守恒出发,一出门就得到处碰壁。杨振宁和李政道是极为敏锐的意识到在宇称守恒这个问题上要把强相互作用和弱相互作用分开,把目光锁定在弱相互作用之后他们去全面审查所有的β衰变实验,然后发现过去的β衰变实验跟宇称是否守恒无关,再接着他们发现了这个无关跟所谓的赝标量有关,于是他们设计包含测量赝标量的实验,并得到了吴健雄的鼎力支持(想想拉姆齐的实验,橡树岭实验中心都不支持它,你就知道吴健雄的支持是哪种粒度的支持了)才得以完成。这所有的环节缺一不可,并不是简单你以为宇称不守恒就能去斯德哥尔摩一游的,炸药奖不是这么好拿的。

 

吴健雄的天才在这里不是表现在设计了多么巧妙的实验,而是表现在大环境对验证宇称是否守恒如此不利的情况下(想想费曼、泡利、朗道都是什么级别的人物),她全力支持杨振宁和李政道的想法。她不仅要做实验,还要迅速做赶快做,要赶在其他的实验物理学家意识到这个实验的重要性之前做出来。为此,她把取消了去日内瓦的高能物理会议,取消了准备去东南亚的演讲旅行,她和她丈夫已经预订了“伊丽莎白王后号”的船票,结果她公然放了她丈夫的鸽子,让他一个人去日内瓦,吴健雄自己留下来做实验。

 

吴健雄于满清王朝覆灭那年(1912年)在江苏苏州出生,被称为“实验核物理的执政女王”,“东方的居里夫人”,她参与了曼哈顿计划,并成为美国物理学会第一个妇女主席,是世界上最杰出的实验物理学家之一。

 

图片

有如此优秀的吴健雄的鼎力支持,实验当然就没什么好担心的了。但这里我并不打算给大家讲吴健雄的实验,我给大家看一个更简单直观的图像。下图就是一个旋转的原子核衰变的时候放出一个电子的图像,中间是一面镜子,我们从上往下看的时候,镜子外的原子核是顺时针方向旋转,而镜子里面的原子核是逆时针旋转。也就是说,一个旋转的原子核的镜像旋转的方向跟它本身旋转方向是相反的。物理学家们约定,左手顺着旋转的方向,大拇指的方向就是原子核旋转的方向,所以,如箭头所示,静止外面的原子核旋转方向向上,而镜子里面的向下。

图片

我们也很容易想象,镜子里外的原子核旋转方向虽然相反,但是如果外面的电子往上飞,镜子里面的电子也往上飞,这很符合常识,没什么奇怪的,这就是宇称守恒时候的样子。但是,如果哪天你看到镜子里电子居然是朝下发射的,你会不会觉得见鬼了?

 

当然,物理学家说的镜像并不是真的去看镜子,镜子无论怎么照肯定都是这样。他们的意思是:如果我再找来一个原子核,让这个原子核跟镜子里的原子核一模一样(也即是大小质量啥的都相等,但是旋转方向不一样),我们就说这两个原子核互为镜像

 

然后我再去观察这个镜像原子核,如果它跟镜子里一样也是向上发射电子,那就不奇怪,是宇称守恒;如果它跟镜子里发射电子的方向相反,也就是向下发射电子,那么宇称就不守恒了。

 

当然,上面只是理论分析,真正要做实验的话,有两个难点:第一,分子、原子、原子核都在杂乱无章的做热运动,你怎么让它跟上图一样安静下来旋转?答案是给它降温。温度就是微观粒子热运动的一个表现,温度降下来了它们自然就不闹腾了,所以吴健雄做实验的时候把温度降到了只比绝对零度(-273.15℃,粒子不动的时候的温度,无法达到)高0.01K;第二,因为微观粒子具有不确定性,我不可能去观察一个原子核发射电子的方向,我只能观察一堆原子核衰变然后统计他们发射电子方向的概率。于是,我得让原子核都按照一定的方向旋转,这个技术叫原子核的极化,这在当时是妥妥的高科技。

 

这下子知道为什么说实验的难度巨大了吧,不过不管怎样,吴健雄完成了实验,她测量了一束钴60衰变放出电子的方向,证明宇称在弱相互作用下是不守恒的。实验结果出来的时候,吴健雄自己都不相信这个结果,她生怕这是哪里的实验误差导致的,于是小心谨慎的再回去检验。她也只把初步的实验结果跟杨振宁和李政道说了,并且让他们暂时不要对外公布,但是,显然杨、李二人对这个实验结果并没有那么吃惊,于是迫不及待的就告诉别人了。

 

消息一出,整个物理学界都震惊了!他们立刻去做其他验证宇称守恒的实验,结果实验准确无误的显示:在弱相互作用下,宇称原来真TM的不守恒

图片



11宇称不守恒的影响


诺贝尔奖只是宇称不守恒一个很小的注脚。杨振宁和李政道在1956年10月发表了《对于弱相互作用中宇称守恒的质疑》的论文,吴健雄随后给了实验验证,诺组委立马把1957年的诺贝尔奖颁给了35岁的杨振宁和31岁的李政道。要知道爱因斯坦在1905年提出来光量子说和狭义相对论,1915年完成广义相对论,然后诺组委一直拖拖拉拉到1921年,也就是爱因斯坦42岁的时候才给颁奖。

 

因为宇称不守恒(即便只是在弱相互作用下)并不是一个局部性的理论发展,它影响了整个物理学界的方方面面,是囊括了分子、原子和基本粒子物理的一个基本革命。我在前面花了很大的篇幅给大家介绍了为什么对称性在20世纪物理学里这么重要(对称性对应守恒律),特别是爱因斯坦的相对论在时空对称方面取得的巨大成就,还有量子力学里对对称性的极度重视,使得那时候人们对对称性的信仰和依赖丝毫不比20世纪之前人们对牛顿绝对时空观的依赖弱。

 

20世纪初,洛伦兹、彭加莱这些人都已经走到狭义相对论的门口了,但是就是不愿意放弃牛顿绝对时空的概念,因此被年轻的爱因斯坦后来居上。20世纪50年代的时候,全世界都在为θ-τ之谜绞尽脑汁,但是费曼、泡利、朗道这样的物理学大师都不愿意假设宇称不守恒,从而让年轻的杨振宁和李政道后来居上。他们不愿意放弃宇称守恒,因为这些大师们太清楚对称性在物理学的重要程度了,而且基于他们的审美观念,他们绝不愿意相信上帝会是一个左撇子

 

宇称不守恒的发现震碎了人们对上帝绝对对称的信念,迫使人们重新思考对称的问题,这一转向导致了后来许多深刻的发现。人们慢慢发现,上帝虽然喜欢对称,但是并不喜欢绝对对称,因为绝对对称必然导致大家都一样,从而缺乏生机(你想想如果全世界的人都长一个样,那将是多么恐怖的一件事)。假设宇宙在初期都是绝对对称的,那么所有的粒子和相互作用都一样,那么怎么会有后来引力、电磁力、强力、弱力的区分呢?所以,最开始的对称在一定条件下是会慢慢变成不对称的,这样对称就破缺了,对称破缺之后就出现了不同的东西。

 

比如现在已经知道了的:电磁力弱力在早期就是完全同一种力,叫电弱力,后来随着宇宙的环境温度慢慢变化,发生了对称性破缺,电弱力就分成了现在的电磁力和弱力两种。电磁力和弱力的统一是二战后物理学的一个巨大成就,统一他们的是一种被称为杨-米尔斯的理论,而这个杨-米尔斯里的这个杨,正是我们这篇文章的主人公之一的杨振宁。其实,除了已经完全统一了的电弱相互作用,现在用来描述强相互作用的量子色动力学也是一种杨-米尔斯理论。正因如此,杨-米尔斯方程在现代物理学里极为重要,这是继麦克斯韦方程组和爱因斯坦引力场方程之后最为重要的一组方程。相比给杨振宁先生了带来诺贝尔奖的宇称不守恒,杨-米尔斯方程才是杨振宁先生的最高成就,也是东方人在物理学上的最高成就。

 

图片

关于杨-米尔斯方程的事情,我在后面会用更大的篇幅给大家做更详尽的介绍。虽然杨米尔斯-方程和规范场很复杂,但是我会尽力用极通俗的语言和清晰的逻辑给大家理清楚,怕错过的盯住我的公众号就行了,公众号里都是我自己写的文章。其实大家也不要有畏惧心理,不要被一堆公式吓住了,宇称不守恒一样很麻烦很复杂,可是,一路看到这里来的朋友,我相信对宇称不守恒的事情基也基本上搞清楚了。看,现代物理也没想象的那么可怕~

 


12结语


在文章的最后,我想跟大家聊点科学以外的事情。

 

宇称不守恒震惊了全世界以后,人们开始想到,为什么偏偏是两个中国人(宇称不守恒的论文发表于1956年,杨振宁和李政道加入美国国籍的时间分别为1964年1962年,所以那会儿他们还都是中国国籍)引导物理学界跨过了这道坎,解决了一个“物理学理论根本结构”的问题?而坚持要做验证宇称是否守恒实验的,也是一个刚刚加入美国国籍的华裔科学家吴健雄。

 

美国一位杂志编辑坎佩尔推测,也许东西方的某些文化差异促使中国科学家去研究自然法则的不对称性。《科学美国人》的编辑,著名的科学作家马丁·加德纳更是认为,中国文化素来就重视不对称性,在中国文化里极为重要的太极图就是一个非对称分割的圆,这里的黑白两色代表阴和阳。阴阳表示了自然界、社会以及人的一切对偶关系,如善恶、美丑、雌雄、左右、正负、天地、奇偶、生死……无穷无尽。而且最美妙的是每一种颜色重都有另一种颜色的一个小圆点,这意思是指出阴中有阳,阳中有阴;美中有丑,丑中有美;生中有死,死中有生;对称中有不对称,不对称中有对称……这种不对称性的思想传统也许早就使杨振宁和李政道受到了潜移默化、耳濡目染的影响,从而使他们比重视对称性的西方科学家更容易打破西方科学传统中保守的一面。

图片

太极图我们再熟悉不过了,阴阳相生相克的道理我也明白。马丁·加德纳的说法到底有没有道理,长尾科技就不在这里妄下结论了,留给大家自己思考吧。

 

最后,经过后来几十年的研究,人们对弱相互作用下宇称如何不守恒已经基本弄清楚了,但是对宇称为什么会不守恒仍然是一头雾,特别是为什么宇称在其它三种相互作用下守恒,偏偏在弱相互作用下不守恒

 

这个接力棒,就交给你了~

收起阅读 »

深度:杨-米尔斯理论说了啥?为什么说这是杨振宁超越他诺奖的贡献?

在上一篇文章《深度:宇称不守恒到底说了啥?杨振宁和李政道的发现究竟有多大意义?》里,长尾君用了很长的篇幅跟大家聊了聊宇称不守恒的事。大家也知道杨振宁和李政道先生因此斩获了全球华人的第一个诺贝尔奖,然而,对杨振宁关注多一点的人就会经常听到这样一个说法,说宇称不守...
继续阅读 »

在上一篇文章《深度:宇称不守恒到底说了啥?杨振宁和李政道的发现究竟有多大意义?》里,长尾君用了很长的篇幅跟大家聊了聊宇称不守恒的事。大家也知道杨振宁和李政道先生因此斩获了全球华人的第一个诺贝尔奖,然而,对杨振宁关注多一点的人就会经常听到这样一个说法,说宇称不守恒虽然为杨振宁赢得了物理学界至高无上的诺贝尔奖,但这并不是他的最高成就,杨先生最大的贡献是杨-米尔斯理论

 

这下子很多人就懵圈了。杨-米尔斯理论是啥?上学的时候老师肯定没讲过,去百度上搜,搜出来结果更是一头雾水,那都是只有懂的人才能看得懂的东西。隐隐约约能感觉到杨振宁先生好像做了什么非常了不起的工作,但是要具体说他做了啥,在科学上有啥意义,就迷糊了。

图片

杨-米尔斯理论到底重不重要?重要,当然重要,绝对的重要,这是现代规范场论粒子物理标准模型的基础。在讲宇称不守恒的时候我就说过,杨-米尔斯理论是一个背景更加宏大的故事。宇称不守恒虽然也影响了物理学的方方面面,但是我们把它单独拎出来还是马马虎虎能讲清楚的,而杨-米尔斯理论就不一样了,想要把它搞清楚,我们得把视角上升到整个物理学发展的高度上来,因为这是一个跟物理学主线密切相关的故事。

 


01物理学的主线


物理学家到底在研究什么?

 

大自然中有各种各样的现象,有跟物体运动相关的,有跟声音、光、热相关的,有跟闪电、磁铁相关的,也有跟放射性相关的等等。物理学家们就去研究各种现象背后的规律,然后他们得到了一堆关于运动啊,声学、光学、热学之类的定律,然后物理学家们就满意了么?

 

当然不满意,为啥?定律太多了

 

你想想,如果每一种自然现象都用一种专门的定律来描述它,那得有多少“各自为政”的定律啊。于是物理学家们就想:我能不能用更少的定律来描述更多的现象呢?有没有可能有两种现象表面上看起来毫不相关,但是在更深层次上却可以用同一种理论去描述?有没有可能最终用一套理论来描述所有的已知的事情

 

这个事情,本质上就跟秦始皇要统一六国一样,我决不允许还有其他六个各自为政的国家存在,必须让所有人遵守同样的法律,服从同一个政令,用同样的语言和文字,这样才和谐。物理学家的统一之路,也是这样浩浩荡荡地开始的。

 

牛顿统一了天上和地上的力,麦克斯韦统一了电、磁、光。到了19世纪,随着人们对微观世界研究的深入,许多在宏观上风牛马不相及的东西,在微观层面上却很好的统一了起来。比如我们熟悉的支持力、弹力、摩擦力之类的东西,在宏观上它们确实是不同的东西,但是到了微观一看:这些杂七杂八的力全都是分子间作用力造成的,而分子间作用力本质上就是电磁力。并且,这些分子、原子运动的快慢,在宏观层面上居然体现为温度,然后热现象就变成了一种力学现象。

图片

于是,到了19世纪末,人类所有已知现象背后的力就都归结为引力和电磁力,其中引力由牛顿的万有引力定律描述,电磁力由麦克斯韦方程组描述。但尴尬的是,麦克斯韦方程组和牛顿力学这套框架居然是矛盾的,那么到底是麦克斯韦方程组有问题还是牛顿力学的这套框架有问题呢?

 

爱因斯坦说麦克斯韦方程组没毛病,牛顿的框架有问题。于是爱因斯坦升级了一下牛顿的这套框架,在新框架下继续跟麦克斯韦方程组愉快的玩耍,这套升级后的新框架就叫狭义相对论


在狭义相对论这个新框架里,麦克斯韦方程组不用做任何修改就能直接入驻,这是一等公民。另外,牛顿力学里有些东西无法直接搬过来,但是稍微修改一下就可以很愉快的搬到这个新框架里来,比如动量守恒定律(直接用牛顿力学里动量的定义,在狭义相对论里动量是不守恒的,需要修改一下就守恒了),这是二等公民。还有一类东西,无论怎么改都无法让它适应这个新框架,这是刁民

 

刁民让人很头痛啊,不过还好,虽然有刁民,但是刁民的数量不多,就一个:引力。牛顿的万有引力定律在牛顿力学那个框架里玩得很愉快,但是它骨头很硬,不管怎么改,它就是宁死不服狭义相对论这个新框架,那要怎么办呢?当然,我们可以继续改,我们相信虽然现在引力它不服,但是以后总能找到让它服气的改法。但是爱因斯坦另辟蹊径,他说引力这小子不服改我就不改了,然后他另外提出了一套新理论来描述引力,相当于单独给引力盖了一栋别墅。结果这套新引力理论极其成功,而且爱因斯坦提出这套新理论的方式跟以往的物理学家们提出新理论的方式完全不一样,这种新手法带来梦幻般的成功惊呆了全世界的物理学家,然后爱因斯坦就被捧上天了,这套新理论就叫广义相对论

 

爱因斯坦用广义相对论驯服了引力,用狭义相对论安置好了电磁力之后,接下来的路就很明显了:统一引力和电磁力,就像当年麦克斯韦统一电、磁、光那样,毕竟用一套理论解释所以的物理现象是物理学家们的终极梦想。但是,爱因斯坦穷尽他的后半生都没能统一引力和电磁力。不仅如此,随着实验仪器的进步,人们撬开了原子核,在原子核内部又发现了两种新的力:强力弱力

 

这下可好,不但没能统一引力和电磁力,居然又冒出来两种新的力。所以,我们现在的局面变成了有四种力:引力、电磁力、强力和弱力。其中,引力用广义相对论描述,电磁力用麦克斯韦方程组(量子化之后用量子电动力学QED)描述,强力和弱力都还不知道怎么描述,统一就更别谈了

 

到了这里,我们这篇文章的主角杨-米尔斯理论终于要登场了,我先把结论告诉大家:现在强力就是用杨-米尔斯理论描述的,弱力和电磁力现在已经实现了完全的统一,统一之后的电弱力也是用杨-尔斯理论描述的。也就是说,在四种基本力里,除了引力,其它三种力都是用杨-米尔斯理论描述的,所以你说杨-米尔斯理论有多重要?

 

同时,我们也要知道,杨-米尔斯理论是一套非常基础的理论,它提供了一个非常精妙的模型,但是理论本身并不会告诉你强力和电弱力具体该怎样怎样。盖尔曼他们把杨-米尔斯理论用在强力身上,结合强力各种具体的情况,最后得到的量子色动力学(QCD)才是完整描述强力的理论。格拉肖、温伯格和萨拉姆等人用来统一弱力和电磁力的弱电统一理论跟杨-米尔斯理论之间也是这种关系。他们之间的具体关系我们后面再说,这里先了解这些。

 

以上就是一部极简的物理学统一史,只有站在这样的高度,我们才能对杨-米尔斯理论有个比较清晰的定位。统一是物理学的主线,是无数物理学家们孜孜以求的目标,杨-米尔斯能在这条主线里占有一席之地,其重要性不言而喻。有了这样的认知,我们才能继续我们下面的故事。

 

在物理学的统一史里,有一个人的工作至关重要,这个重要倒不是说他提出了多重要的理论(虽然他的理论也极其重要),而是他颠倒了物理学的研究方式。以他为分水岭,物理学家探索世界的方式发生了根本的改变。正是这种改变,让20世纪的物理学家们能够游刃有余的处理比之前复杂得多得多的物理世界,让他们能够大胆的预言各种以前想都不敢想的东西。这种思想也极其深刻的影响了杨振宁先生,杨振宁先生反过来又把这种思想发扬光大,最后产生了精妙绝伦的杨-米尔斯理论

 

那么这个人是谁呢?没错,他就是爱因斯坦。那么,爱因斯坦究发现了什么,以至于颠倒了物理学的研究方式呢?

图片

 


02被颠倒的物理学


大家先想一想,爱因斯坦之前的物理学家是怎么做研究的?

 

他们去做各种实验,去测量各种数据,然后去研究这些数据里的规律,最后用一组数学公式来“解释”这些数据,如果解释得非常好,他们就认为得到了描述这种现象的物理定律,然后顺带着发现了隐藏在理论里的某些性质,比如某种对称性。在这里我们能清晰的看到实验-理论-对称性这样一条线,这也符合我们通常的理解。

 

但是,爱因斯坦把这个过程给颠倒了,他发现上面的过程在处理比较简单的问题的时候还行,但是当问题变得比较复杂,当实验不再能提供足够多的数据的时候,按照上面的方式处理问题简直是一种灾难。

 

比如,牛顿发现万有引力定律的时候,开普勒从第谷观测的海量天文数据里归纳出了行星运动的三大定律,然后牛顿从这里面慢慢猜出了引力和距离的平方反比关系,这个还马马虎虎可以猜出来。我们再来看看牛顿引力理论的升级版-广义相对论的情况:

图片


上图是广义相对论的引力场方程,你告诉我这种复杂的方程要怎样从实验数据里去凑出公式来?况且,广义相对论在我们日常生活里跟牛顿引力的结果几乎一样,第谷观测了那么多天文数据可以让开普勒和牛顿去猜公式,但是在20世纪初有啥数据让你去猜广义相对论?水星近日点进动问题是极少数不符合牛顿引力理论的,但是人们面对这种问题,普遍第一反应是在水星里面还有一颗尚未发现的小行星,而不是用了几百年的牛顿引力有问题。退一万步说,就算你当时认为那是因为牛顿引力不够精确造成的,但是就这样一个数据,你怎么可能从中归纳出广义相对论的场方程?

 

经过一连串的深度碰壁之后,爱因斯坦意识到当理论变得复杂的时候,试图从实验去归纳出理论的方式是行不通的,洛伦兹不就是被迈克尔逊-莫雷实验牵着鼻子走,最终才错失发现狭义相对论的么?实验不可靠,那么爱因斯坦就要找更加可靠的东西,这个更加可靠的东西就是对称性

 

于是爱因斯坦在物理学的研究方式上来了一场哥白尼式的革命:他先通过观察分析找到一个十分可靠的对称性,然后要求新的理论具有这种对称性,从而直接从数学上推导出它的方程,再用实验数据来验证他的理论是否正确。在这里,原来的实验-理论-对称性变成了对称性-理论-实验对称性从原来理论的副产品变成了决定理论的核心,实验则从原来的归纳理论的基础变成了验证理论的工具。理解这一转变非常的重要,后面的物理学家都是这么干的,我们要先把思路调对,不然到时候就容易出现各种不适应。

 

爱因斯坦利用这样思路,先确定了广义坐标不变性,然后从这个对称性出发得到了一套新的引力理论,这就是广义相对论。这也是为什么其他科学家看到广义相对论之后一脸懵逼,而且说如果不是爱因斯坦,恐怕50年之内都不会有人发现这套理论的原因。爱因斯坦是第一个这么反过来干的,广义相对论大获成功之后人们才发现原来理论研究还可以这么干,这种思想后来被杨振宁先生发扬光大,并形成了“对称决定相互作用”这样的共识。

 

爱因斯坦完成广义相对论之后,继续朝着更伟大的目标“统一场论(统一引力和电磁力)”进军,在强力和弱力还没有被发现的年代,能够统一引力和电磁力的理论似乎就是终极理论了。我们现在都知道爱因斯坦终其后半生都未能完成统一场论,但是统一场论的巨大光环和爱因斯坦自带的超级偶像的磁场还是吸引了一些物理学家,也带来了一些有意思的新想法。

 


03规范不变性


我们再来理一理爱因斯坦的思路:爱因斯坦把对称性放在更加基础的位置,然后从对称性导出新的理论。他从洛伦兹不变性导出了狭义相对论,从广义坐标不变性导出了广义相对论,现在我们试图统一引力和电磁力,那么,有一个问题就会很自然地被提上日程:究竟什么样的一种对称性会导出电磁理论呢

 

这个问题很自然吧,但是它的答案却不是那么好找的,这么容易就让你找到导致电磁理论的不变性,上帝岂不是太没面子了?麦克斯韦方程组是从前人的实验经验定律总结出来的,并没有指定什么具体的对称性,那要怎么办呢?

 

不着急,诺特定理告诉我们对称性跟守恒定律是一一对应的,我现在不是要找导出电磁理论的对称性么?那么我就去看看电磁理论里有什么守恒定律呗,最好还是电磁理论里特有的。


说到电磁理论里特有的守恒定律,那肯定就是电荷守恒啊。电荷肯定是只有电磁学才有的东西,而且电荷守恒定律又是这么明显,不管是不是它,它肯定是嫌疑最大的那个,必须抓起来严刑拷问,看看跟它私通的对称性到底是什么。

 

图片

外尔的严刑逼供下,电荷守恒招了:跟电荷守恒相对应的对称性是波函数的相位不变性,(在量子力学里粒子的状态是用波函数来描述的,既然波那肯定就有相位),但是由于历史原因,这个相位不变性我们一直称为规范不变性,也叫规范对称性

 

这个相位不变性,或者说规范不变性,我们怎么理解呢?为什么麦克斯韦的电磁理论里会有规范不变性呢?如果从公式里看就非常的简单,就是我给它这里做了一个相位变换,它另一个地方就产生了一个相反的相位,总体上刚好给抵消了;如果从直觉上去感觉,你可以想想,在量子力学里,波函数的模的平方代表在这里发现该粒子的概率,你一个波函数的相位不论怎么变,它的模的平方是不会变的啊。如果你还想继续深挖,我推荐你去看一看格里菲斯的《粒子物理导论》(在公众号回复“粒子物理导论”可以获取这本书的电子版),他在第十章里专门用了一章来讨论规范理论,而且很通俗。

 

总的来说就是:规范不变性导致电荷守恒

 

但是事情还没完,外尔接着发现了一件真正让人吃惊的事:我们上面说规范不变性导致电荷守恒,这里说的规范不变性指的是整体规范不变性,但是外尔发现如果我们要求这个规范不变性是局域的,那么我们就不得不包括电磁场

 

泡利针对这个做了进一步的研究,1941年,泡利发表了一篇论文,他在论文里严格的证明了:U(1)群整体规范对称性对应电荷守恒,它的局域规范对称性产生电磁理论,甚至可以直接从它推导出麦克斯韦方程组。U(1)群是群论里的一种群的名字,叫酉群(unitary group),或者幺正群,数字1表示这是1阶酉群,我们现在只需要知道对称性在数学上就是用群论来描述,而且通常不同的理论对应不同的群(这里电磁理论就对应U(1)群)就行了。

图片

也就是说,我们现在终于找到了决定电磁理论的对称性,它就是U(1)群的局域规范对称性。U(1)群和规范对称我前面都解释了,那么问题的关键就落在对称性的整体局域的区别上了。

 


04整体对称和局域对称


整体对称,顾名思义,如果一个物体所有的部分都按照一个步调变换,那么这种变换就是整体的。打个比方,舞台上所有的演员都同步地向前、向后走,或者全都做同样的动作,观众看着演员都整整齐齐的,觉得所有人都像是一个人的复制品一样,这样的变换就是整体的。如果经过这样一种整体的变换之后,它还能保持某种不变性,我们就说它具有整体对称性

 

有了整体对称的概念,局域对称就好理解了,类比一下,如果一个物体不同的部分按照不同的步调变换,那么这种变换就是局域的。还是以舞台为例,导演为了使表演更具有个性,他想让演员表现出波浪的样子,或者是千手观音那样,再或者是形成各种不断变化的图案,这种时候每个人的动作变换就不一样了吧,也不会说所有人都像一个人的复制品一样了,这时候这种变换就是局域的。因为它不再是所有的人按照一个规则变换,而是局部的每个人都有他局域特有的变换规则。同样的,如果经过这样一种局域的变换之后,它还能保持某种不变性,我们就说它具有局域对称性

 

从上面的情况我们看出来,整体变换要简单一些,所有的地方都按照同样的规则变换,而局域变换就复杂多了,不同的地方按照不同的规则变换。所以,很明显,如果你要求一套理论具有某种局域对称,这比要求它具有整体对称复杂得多,局域变换对物理定律形式的要求就更加严格一些。但是,你一旦让它满足局域对称了,它能给你的回报也会多得多。

 

还是电磁理论的例子:整体规范对称性下我们只能得到电荷守恒,但是一旦要求它具有局域规范对称性,整个电磁理论,甚至麦克斯韦方程组都直接得到了。电荷守恒和麦克斯韦方程组,这就是整体对称和局域对称给的不同回报,孰轻孰重差别很明显吧?电荷守恒是可以直接从麦克斯韦方程组里推导出来的。

 

以上是偏科普的解释,从数学的角度来说,整体变换就是你所有的变换跟时空坐标无关,局域变换就是你的变换是一个跟时空坐标相关的函数。跟时空坐标相关的函数,其实就是说不同的时空点,这个函数值是不一样的,也就是说变换不一样。

 

不管从哪种解释(从数学更容易),我们其实都可以看出:整体变换其实只是局域变换的一种特例。局域变换里变的是一个跟时空坐标相关的函数,但是这个函数的值也可以是一个定值啊,这时候局域变换就退化成整体变换了。

 

那么,一个大胆的想法就产生了:在电磁理论里,整体规范对称性对应着电荷守恒,但是我一旦要求这个整体规范对称性在局域下也成立,我立马就得到了整个电磁理论。那么我可不可以把这种思想推广到其他领域呢?比如强力、弱力,有没有可能同样要求某种整体对称性在局域成立,然后可以直接产生强力、弱力的相关理论呢

 

这是一个十分诱人的想法,杨振宁从他读研究生的时候就在开始琢磨这个事,但是一直到十几年后的1954年,也就是他32岁的时候才有结果,这个结果就是大名鼎鼎的非阿贝尔规范场论,也叫杨-米尔斯理论

 


05杨振宁的“品位”


在我们正式讲杨-米尔斯理论之前,我们先来聊一聊杨振宁先生的品位。

 

有一个曾经跟爱因斯坦共事过的物理学家这样回忆:我记得最清楚的是,当我提出一个自认为有道理的设想时,爱因斯坦并不与我争辩,而只是说:“啊,多丑!”。只要他觉得一个方程是丑的,他就对之完全失去了兴趣,并且不能理解为什么还会有人愿意在上面花这么多时间。他深信,美是探索理论物理中重要结果的一个指导原则

 

爱因斯坦自己也说:“我想知道上帝是如何创造这个世界的。对这个或那个现象、这个或那个元素的谱我并不感兴趣。我想知道的是他的思想,其他的都只是细节问题。

 

爱因斯坦对一个理论的美学要求达到了一种不可思议的地步。从麦克斯韦电磁学里发现的洛伦兹不变性成了狭义相对论的核心,但是爱因斯坦觉得狭义相对论偏爱惯性系,这点让他很不满。他觉得洛伦兹不变性的范围太窄了,上帝不应该让这么美的思想之局限在惯性系里,所以他要以一个在所有参考系里都成立的不变性为前提,重新构造一个新的理论,这就是广义坐标不变性和广义相对论的来源。

 

说白了,爱因斯坦就是觉得:这么好的对称性,这么美的想法,如果上帝你不选用它作为构造世界的理论,那上帝简直就是瞎子。爱因斯坦深信上帝一定是用简单和美来构造这个世界的,所以我从如此简单和美的对称出发构造的理论一定是有意义的。

 

杨振宁先生的品位,跟爱因斯坦几乎是一模一样的,这也是一位对理论的美学要求达到了不可思议地步的人。杨振宁先生最为崇敬的物理学家就是爱因斯坦,他对爱因斯坦颠倒物理学的研究方式,把对称性放在极为重要的位置,以及对科学理论简单和美的追求都有非常深刻的领悟。除此之外,杨振宁还有一个一般物理学家不具备的优势:他有一个非常厉害的数学家老爹,这就使得杨振宁的数学水平比同时代的物理学家高出很多。数学在现代物理中有多重要不用我多说,这就叫凭实力拼爹~

 

杨振宁先生是父亲杨武之是著名的数学家和数学教育家,是数学教育家就意味着他会以一种非常恰当的方式让杨振宁接触并喜欢数学。杨振宁还是中学生的时候,他就从父亲那里接触到了群论的基础原理。诺特定理的发现让物理学家们重视对称性,但是他们对群论这种对称性的数学语言却没有足够的重视。当时很多物理学家都反对把群论这种过于抽象的数学语言引入到物理学里来,怼神泡利直接把群论嘲讽为“群祸”,薛定谔表示附议,爱因斯坦也只是把群论当做一个细枝末节的工作。

 

幸运的是,杨武之恰好是擅长群论的数学家,他在清华大学开过群论的课程,当时华罗庚、陈省身这些未来的数学大师都来听过课。有这样的父亲,杨振宁对群论肯定不陌生,而杨振宁在西南联大学士论文的题目选的就是《群论和多原子分子的振动》,他的老师吴大猷就借此引导他从群论开始关注物理学的对称性问题

图片

所以,年纪轻轻的杨振宁就已经非常重视物理学的对称性问题,并且在那个其他物理学家还在普遍怀疑群论的年代,他已经很好的掌握了群论这种研究对称性的重要工具,这无疑是非常幸运的。有这样的杨振宁,他会对泡利在1941年发表的那篇论文感兴趣是很自然的。

 


06对称性的推广     


我们把眼光再拉回20世纪四五十年代,这时候人们已经知道自然界除了电磁力和引力之外还有强力弱力强力把质子和中子黏在一起(不然质子都带正电,同性相斥早就把原子核拆了),弱力在原子核衰变的时候发挥作用(比如中子衰变变成质子、电子和反中微子的β衰变)。但是那时候对强力和弱力的认识都还非常的肤浅,汤川秀树的介子理论、费米的四费米子理论都能只能解释强力、弱力的一些现象,还有大把的问题他们没法解决,谁都知道这些理论只是关于强力、弱力的一个过渡理论,最后肯定要被更加精确的理论取代,但是该怎样去寻找更加精确的理论,大家心里也都没谱,没有一个十分清晰的思路。

 

图片

但是杨振宁先生那时候的思路确是很清晰的:他对理论的美学要求是跟爱因斯坦一样苛刻的,因此,任何只是试图粗糙、唯象的模拟强力、弱力的理论他都懒得搭理(就跟爱因斯坦嫌弃它们长得丑一样)。然后,加上数学大牛的父亲和恩师吴大猷的悉心栽培,杨振宁那先生对数学的群论、物理学的对称性都有非常深刻的理解,所以他就特别理解外尔那种想法的重要性。所以,他要不惜一切代价的扩展它

 

外尔发现U(1)群整体规范对称性对应电荷守恒,但是,一旦我把这个整体对称性推广到局域,我就可以直接得到整个电磁理论。这种想法对物理学上有“洁癖”的杨振宁来说,吸引力实在是太大了,因为它实在是太美太简洁,给出的回报也太丰厚。如果我在强力、弱力里通过把某种规范对称性从整体推广到局域,是不是也可以得到关于强力、弱力的理论呢?

 

我们从事后诸葛亮的角度看,好像这一切都显得很自然,好像只要是物理学家都应该想到这个。但其实不然,且不说当爱因斯坦在搞统一场论的时候,他就已经被所谓的主流物理学界给边缘化了,外尔跟着爱因斯坦搞统一场论时提出的这种想法跟着被边缘化是很正常的事情。物理学家们每天都要产生各种各样的想法,这些想法哪些可靠,哪些值得考虑,哪些值得自己深入研究,哪些东西值得自己不顾一切的去守护,这原本就是一个极困难的问题,也是非常考验物理学家水平的事情。

 

在当时更多物理学家的眼里,外尔这样的手法可能确实很漂亮,但有点“绣花枕头”的嫌疑:麦克斯韦方程组我们早就知道了,狄拉克、费曼等人也已经成功的把电磁场量子化了(就是所谓的量子电动力学),你在电磁领域这样颠来倒去好像确实很漂亮,但是没有增加任何知识啊?好吧,就算你的这个东西可能更普适,可能在强力、弱力里也有用武之地,但是在当时主流的描述强力和弱力的理论(也就是汤川秀树的介子理论和费米的四费米子理论)里,也看不到合适的用武的地方。而且,一般物理学家对“对称决定相互作用”的认识还远远没有达到爱因斯坦和杨振宁的水平,所以他们不怎么关注这个也是自然的。

 

所以,当时除了杨振宁、泡利、外尔等寥寥几人关注这个以外,其他人对此根本就不关心。而在这些关注的人里,杨振宁又无疑是其中对此关注度最高的一个,毕竟本科论文就是做的这个,后来给他带来诺贝尔奖的宇称不守恒也是关于对称性的,他一直对对称性在物理学里的作用保持极高的关注度。

 

既然想推广外尔的思想,试图通过找到某种新的局域规范对称性来找到强力、弱力的理论,那么关键就是要找到这种对称性。但是怎么找这种对称性呢?当然还是按照诺特定理,去看看强力、弱力里有什么守恒定律呗,最好还是像电荷守恒那样,在那种相互作用力特有的。

 


07同位旋


杨振宁通过一番审查,发现弱相互作用里暂时没有什么特殊的守恒定律,但是强相互作用力里却有一个现成的:同位旋守恒。而且这个同位旋守恒还只在强相互作用下守恒,在其它作用下不一定守恒,这不刚好么。

 

同位旋是啥呢?大家只要看一下质子(1.6726231 × 10^-27千克)和中子(1.6749286 ×10^-27千克)的质量,就会发现它们的质量实在是太接近了(差别在千分之一)。而且,人们还发现2个质子、1个质子1个中子、2个中子之间的强相互作用几乎是相同的,也就是说,如果我们不考虑电磁作用,在强相互作用的眼里,质子和中子完全是相同的。

 

图片

于是,海森堡就来了提出了一个大胆的想法:他认为质子和中子压根就是同一种粒子-核子的两种不同的状态,它们共同组成了一个同位旋二重态。在抽象的同位旋空间里,质子可以“旋转”成为中子,中子也可以“旋转”成为质子,因为质子和中子在强相互作用下是一样的,所以,我们就可以说:强相互作用具有同位旋空间下的旋转不变性。

 

大家可能注意到我上面的“旋转”打了一个引号,因为我们这里说的旋转并不是在我们常说的真实空间里,而是在核子内部抽象出来的同位旋空间,因此这种对称性又叫内部对称性,而之前我们谈的各种跟时空有关的对称性就叫外部对称性。内部对称性咋一看好像不那么真实,但其实它跟外部对称是一样真实自然的,它们一样对应着守恒定律,强相互作用下同位旋空间里的这种旋转不变性就对应同位旋守恒

 

关于同位旋的事情这里就不再多说了,大家只要知道在强相互作用里同位旋是守恒的,并且同位旋空间下质子和中子可以相互旋转得到就行了。

 

因为描述对称性的数学语言是群论,与同位旋这种对称相对应的群叫SU(2)(特殊幺正群),里面的数字2提醒我们这是两个物体(如质子和中子)相互变换来确定的。我们也先甭管这个SU(2)群到底是什么意思(这是群论的基础知识,感兴趣的自己看群论),只需要知道这个群可以描述两个物体相互变换的这种对称性,跟电磁理论里用U(1)群来描述电磁理论里的对称性一样的就行了。

 

外尔和泡利发现,只要我们要求系统具有U(1)群的局域规范不变性,我们就能从中推导出全部的电磁理论。那么,杨振宁如果认为强力的本质由质子和中子相互作用产生,那么推广前面的思想,我们就应该要求系统具有SU(2)群的局域规范不变性

 

好吧,要推广那就推广吧,不就是把局域规范不变性从U(1)群推广到SU(2)群么,有些人认为科学家们风风雨雨什么没见过,把一个东西从U(1)群推广到SU(2)群应该没什么难度吧?那你就错了,这玩意还真不是这么简单的,广义相对论也不过是把狭义相对论里的洛伦兹不变性推广到了广义坐标不变性,你觉得这个简单么?

 

U(1)群的问题之所以比较简单,是因为跟U(1)群对应的电磁理论它本身就具有局域规范对称性。也就是说,当我们的麦克斯韦同学写下麦克斯韦方程组的时候,他就已经把U(1)群的局域规范对称性写到这方程里去了,虽然他自己没有意识到。熟悉电磁理论的人都知道其实我们有两套表述电磁场的体系,一套就是我们初中就开始学习的场强体系,还有一套势体系,也就是电磁势这些东西,从这个角度很容易就能看出它的规范不变性。

 

但是SU(2)这里一切都是空白,没有电磁势这样的东西。杨振宁先生想做的就是要找到类似电磁势这种具有局域规范不变性的东西,然后利用他们来描述强力,所谓的推广是这个样子的一种推广。在这种推广里,最困难的地方就在这四个字:非阿贝尔

 


08非阿贝尔群


在前面我跟大家提过,杨-米尔斯理论又叫非阿贝尔规范场论,这个阿贝尔指的是阿贝尔群(以挪威的天才数学家阿贝尔命名),它又叫交换群,通俗的讲就是这个群里的运算是满足交换律的。

 

图片

最简单的例子就是整数的加法,小学生都知道加法满足交换律:3+5=5+3,不论你加数的顺序怎么交换,最后的结果都不变。于是,我们就说整数和整数的加法构成了一个整数加法群,这个群的运算(加法)是满足交换律的,所以这个整数加法群就是阿贝尔群

 

那么,非阿贝尔群自然就是指群的运算不满足交换律的群。那么,不满足交换律的运算有没有呢?当然有了,最常见的就是矩阵的乘法。稍微有点线性代数基础的人都知道:两个矩阵相乘,交换两个矩阵的位置之后得到的结果是不一样的。而矩阵这种东西在数学、物理学里是非常基础的东西,比如你对一个物体进行旋转操作,最后都可以转化为物体跟一个旋转矩阵的运算,这样非阿贝尔其实就没啥奇怪的了。

 

这里我借用一下徐一鸿在《可畏的对称》(强烈安利这本书,需要的在公众号里回复“可畏的对称”即可)里的一个例子让大家感受一下这种不可交换的次序,也就是非阿贝尔的感觉。

图片


上图是一个新兵,他现在要执行两个操作,一个是顺时针旋转90°(从上往下看),一个是向右倒(其实就是从外往里看顺时针旋转90°)。上面的a图是先旋转再右倒,而下面的b图则是先右倒再旋转,我们可以清楚的看到,最后这两个人的状态是完全不一样的(一个左侧对着你,一个头对着你)

 

状态不一样说明什么呢?说明这两个旋转操作如果改变先后次序的话,得到的结果是不一样的,而这两个旋转操作都可以通过跟两个矩阵相乘得到,这说矩阵的乘法是不能随意交换顺序的。

 

好了,有了这些概念,我们再回到杨振宁先生的问题上来。

 


09杨-米尔斯理论


外尔把U(1)群的整体规范对称性推广到了局域,因为U(1)群(1×1矩阵)是阿贝尔群,所以这个过程很简单;杨振宁试图把SU(2)群的整体规范对称也推广到局域,但SU(2)群(2×2矩阵)是非阿贝尔群,这个就麻烦了。

 

我们知道杨振宁先生的数学水平在物理学家群体里是非常高的,他的父亲杨武之就是群论大师,他自己也很早就进入了对称性领域。饶是如此,他从泡利1941年的论文开始,前前后后过了十几年,一直到1954年,他才和米尔斯(当时和杨振宁先生在同一间办公室,是克劳尔教授的博士研究生)一起写出了划时代的论文《同位旋守恒和同位旋规范不变性》《同位旋守恒和一个推广的规范不变性》

图片


上图便是1954年杨振宁和米尔斯在《物理评论》上发表的第一篇论文截图。按照惯例,这种经典论文长尾科技会提前给大家找好,想亲眼目睹一下杨振宁先生这篇划时代论文的,在公众号回复“杨米尔斯理论论文”就行。

 

这两篇论文正式宣告了杨-米尔斯理论的诞生,杨振宁先生终于把局域规范对称的思想从阿贝尔群推广到了更一般的非阿贝尔群(阿贝尔群的电磁理论成了它的一个特例),从而使得这种精妙的规范对称可以在电磁理论之外的天地大展拳脚,也使得他一直坚持的“对称决定相互作用”有了落脚之地。为了区别起见,我们把外尔的那一套理论成为阿贝尔规范场论,把杨振宁和米尔斯提出来的称为非阿贝尔规范场论,或者直接叫杨-米尔斯理论

 

杨-米尔斯理论给我们提供了一个精确的数学框架,在这个框架里,只要选择了某种对称性(对应数学上的一个群),或者说你只要确定了某个群,后面的相互作用几乎就被完全确定了,它的规范玻色子的数目也完全被确定了。这就是为什么后来大家能直接从强力和弱电理论里预言那么多还未被发现的粒子的原因。

图片

什么是规范玻色子?科学家们按照自旋把基本粒子分成了费米子(自旋为半整数)和玻色子(自旋为整数),其中费米子是组成我们基本物质的粒子,比如电子、夸克,而玻色子是传递作用力的粒子,比如光子、胶子。有些人可能是第一次听说传递作用力的粒子这种说法,会感觉非常奇怪,怎么作用力还用粒子传递?

 

没错,在量子场论里,每一种作用力都有专门传递作用力的粒子。比如传递电磁力的是光子,传递强力的是胶子,传递弱力的是W和Z玻色子,传递引力的是引力子(不过引力子还没有找到)。两个同性电子之间为什么会相互排斥呢?因为这两个电子之间在不停的发射交换光子,然后看起来就像在相互排斥,这就跟两个人在溜冰场上互相抛篮球然后都向后退一样的道理。那么相互吸引就是朝相反的方向发射光子了,其他的力也都是一样,这些传递相互作用的玻色子在规范场里都统统被称为规范玻色子

 

也就是说,在杨-米尔斯理论里,那些传递相互作用的粒子都叫规范玻色子,每一个群都有跟他对应的规范玻色子,只要你把这个群确定了,这些规范玻色子的性质就完全确定了。比如在U(1)群里,规范玻色子就只有一个,那就是光子;在SU(3)群里,理论计算它的规范玻色子不多不少就是8个,然后实验物理学家就根据这个去找,然后真的就找到了8种胶子。以前是实验物理学家发现了新粒子,理论物理学家要琢磨着怎么去解释,现在是理论物理学家预测粒子,实验物理学家再去找,爱因斯坦颠倒研究物理的方法现在终于从蹊径成了主流。

 


10从杨-米尔斯理论到标准模型


杨-米尔斯理论从数学上确定了“对称决定相互作用”,那么我们接下来的问题就是“什么样的对称决定什么样的相互作用”了。比如,我现在要描述强力,那么强力到底是由什么对称决定的呢

 

有些人可能觉得奇怪,你上面不是说了一大片同位旋守恒么,杨振宁先生不就是看到同位旋守恒和电荷守恒的相似性才最终提出了杨-米尔斯理论么,为什么现在还要来问强力是什么对称决定的,难道不是同位旋么?

 

没错,还真不是同位旋!

 

海森堡从质子和中子的质量相近提出了同位旋的概念,同位旋守恒确实也只在强力中成立,但是大家不要忘了质子和中子的质量只是接近,并不是相等。杨-米尔斯理论里的对称是一种精确对称,不是你质子和中子的这种近似相等,当时的科学家们把质子和中子的微小质量差别寄希望于电磁污染,但事实并非如此。所以,当杨振宁试图用质子中子同位旋对称对应的SU(2)群作为强力的对称群的时候,得到的结果肯定跟实际情况不会相符的。

 

但是,我们要注意到当时才1954年,人们对强力的认识还太少了,后来我们知道真正决定强力的精确对称是夸克的色对称,与之对应的群是SU(3)群,所以我们把最终描述强力的理论称之为量子色动力学(QCD)。但是,夸克这个概念要到1964年才由盖尔曼、茨威格提出来,所以杨振宁在1954年就算想破脑袋也不可能想到强力是由夸克的色对称决定的。

 

夸克有六种(上夸克、下夸克、奇夸克、粲夸克、底夸克、顶夸克),每一种夸克也称为一味,质子和中子之间的微小质量差异是就是因为上夸克和下夸克的质量不同。另外,每一味夸克都有三种色(红、绿、蓝),比如上夸克就有红上夸克、绿上夸克和蓝上夸克,这不同色的同种夸克之间质量是完全相等的,这是一种完全精确的对称,这种色对称最后决定了强相互作用。

图片

一旦建立了这种夸克模型,并且意识到夸克色对称这种精确对称对应SU(3)群,那么接下来利用杨-米尔斯理论去构造描述强力的理论就是非常简单的事情,基本上就是带公式套现成的事。所以,成功描述强力的量子色动力学的核心就是夸克模型+杨-米尔斯理论

 

在弱力这边情况也是类似的,你要想找到描述弱力的理论,那就先去找到决定弱力的精确对称和相应的群,然后直接按照杨-米尔斯理论来就行了。但是,弱力这边的情况稍微复杂一点,科学家们没找到什么弱力里特有的精确对称,但是他们发现,如果我把弱力和电磁力统一起来考虑,考虑统一的电弱力,我倒是能发现这种精确对称。于是,他们索性不去单独建立描述弱力的理论了,转而直接去建立统一弱力和电磁力的弱电统一理论。而最后在弱电相互作用中真正起作用的是(弱)同位旋——超荷这个东西,他们对应的群是SU(2)×U(1)(×表示两个群的直积)

 

描述强力的量子色动力学和描述电磁力和弱力的弱电统一理论一起构成了所谓的粒子物理标准模型,于是我们可以在杨-米尔斯理论这同一个框架下描述电磁力、强力和弱力,这是物理学的伟大胜利。同时,我们也要清楚的知道,杨-米尔斯理论不等于标准模型(没有夸克模型你拿着理论也不知道怎么用),它是一个数学框架,是一把神兵利器,它本身并不产生具体的理论知识,但是一旦你把它用在合适的地方,它就能给你带来超出想象的回报(想想我们50年代末还对强力弱力束手无策,但是70年代末就完全驯服了它们)

 


11不得不说的质量问题


标准模型的建立是另一个非常宏大的故事,这里就不多说了,这里谈一个不得不说的问题:质量问题

 

在上面我们知道了费米子是组成物质的粒子,玻色子是传递相互作用力的粒子。比如两个电子之间通过交换光子来传递电磁力,两个夸克通过交换胶子来传递强力,那么光子和胶子就分别是传递电磁力和强力的规范玻色子。但是,大家有没有考虑过玻色子的质量问题?如果传递相互作用力的玻色子质量过大或者过小会咋样?

图片

还是以溜冰场传球为例,假设两个人站在溜冰场上相互传篮球,那么一开始他们会因为篮球的冲力而后退(这就是斥力的表现),从而把距离拉开,但是他们会一直这样慢慢后退下去么?当然不会!当两人之间的距离足够远的时候,你投篮球根本就投不到我这里来了,那我就不会后退了。再想一下,如果你投的不是篮球而是铅球那会怎样?那可能我们还在很近的时候,你的铅球就投不到我这里来了。

 

在溜冰场的模型里,球就是传递作用力的玻色子,你无法接到球就意味着这个力无法传到你这里来,就是说它的力程是有限的。从篮球和铅球的对比中我们也能清楚的知道:玻色子的质量越大,力程越短,质量越小,力程越长,如果玻色子的质量为零,那么这个力程就是无限远的

 

所以,为什么电磁力是长程力,能传播很远呢?因为传递电磁力的光子没有质量。但是我们也清楚的知道,强力和弱力都仅仅局限在原子核里,也就是说强力、弱力都是短程力,所以,按照我们上面的分析,那么传递强力和弱力的玻色子似乎应该是有质量的,有质量才能对应短程力嘛

 

但是,杨振宁在研究规范场的时候,他发现要使得系统具有局域规范不变性,那么传递作用力的规范玻色子的质量就必须为零。也就是说,规范玻色子如果有质量,它就会破坏局域规范对称性。


为什么局域规范对称性要求玻色子的质量必须为零呢?你可以这样想,什么叫局域规范对称?那就是不同的地方在做着不同的变换,既然不同的地方变换是不一样的,那么肯定就必须有个中间的信使来传递这种状态,这样大家才能协调工作,不然你跳你的我跳我的岂不是乱了套?好,既然这个信使要在不同地方(也可能是两个非常远的地方)传递状态,按照上面的分析,它是不是应该零质量?只有质量为零才能跑的远嘛~

 

所以,这样分析之后,我们就会发现局域规范对称性规范玻色子零质量之间的对应关系是非常自然的。但是,这样就造成了现在的困境:局域规范对称性要求规范玻色子是零质量的,但是强力、弱力的短程力事实似乎要求对应的规范玻色子必须是有质量的,怎么办

 

这个问题不仅困扰着杨振宁,它也同样困扰着泡利(其实当时对规范场感兴趣的也就他们寥寥几个)。泡利开始对规范场的事情也很感兴趣(杨振宁就是读了泡利1941年的那篇论文才开始对规范场感兴趣的),但是当泡利发现了这个似乎无解的质量问题之后,他就慢慢对规范场失去了兴趣,也就没能得出最后的方程。

 

杨振宁的情况稍微不一样,他的数学功底非常好,对群论的深入理解能够让他更深刻的理解对称性的问题(想想那会儿物理学家都不待见群论,泡利还带头把群论称为群祸)。另外,在美学思想上,杨振宁是爱因斯坦的铁杆粉丝,他们都是“对称决定相互作用”坚定支持者,这使得杨振宁对规范场产生了谜之喜爱。而且,杨振宁那会儿才30岁左右,是科学家精力和创造力的巅峰时期,自然无所畏惧。

 

所以,杨振宁一直在疯狂地寻找杨-米尔斯方程,找到方程之后,即便知道有尚未解决的质量问题,他依然决定发表他的论文。在他眼里,这个方程,这套理论是他心里“对称决定相互作用”的完美代表,他跟爱因斯坦一样深信上帝喜欢简洁和美,深信上帝的简单和美是由精确对称决定的。如果是这样,那么还有什么比基于规范不变性这种深刻对称的杨-米尔斯理论更能描绘上帝的思想呢?

 

杨振宁对对称性的深刻理解使得他对杨-米尔斯理论有非常强的信心,至于强力、弱力上表现出来的质量问题,那不过是这个理论在应用层面出现了一些问题。强力、弱力比电磁力复杂很多,因此用杨-米尔斯理论来解释强力、弱力自然就不会像处理电磁力那样简单。为什么电磁力这么简单?你想想,电子有电效应,电子的运动产生磁效应,电子之间的相互作用是通过光子这个规范玻色子传递的,所以电磁力的本质就是电子光子的相互作用。这里只有一个粒子电子,和一个规范玻色子光子,而且光子还是没有质量的,你再看看强力里面,三种色夸克八种不同的胶子,这铁定比电磁力复杂多了啊!

 

图片

所以,杨振宁想的是:杨-米尔斯理论没问题,现在它应用在强力弱力上出现了一些问题(质量问题就是初期最大的一个),这也是自然的。这些是问题,而非错误,以后随着人们研究的深入,这些问题应该可以慢慢得到解决的

 

历史的发展确实是这样,质量问题后来都通过一些其他的手段得到了解决,那么质量问题最终是怎么解决的呢?

 

在描述强力的量子色动力学里,我们注意到传递夸克间作用力的胶子本来就是零质量的,零质量跟规范对称性是相容的。那但是,如果这样的话,零质量的玻色子应该对应长程力啊,为什么强力是短程力(只在原子核里有效)呢?这就涉及到了强力里特有的一种性质:渐近自由。渐近自由说夸克之间的距离很远的时候,它们之间的作用力非常大,一副谁也不能把它们分开的架势,但是一旦真的让它们在一起了,距离很近了,它们之间的相互作用力就变得非常弱了,好像对面这个夸克跟它没任何关系似的,活脱脱的一对夸克小情侣。这样在量子色动力学里,零质量的规范玻色子就和强力的短程力没有冲突了。

 

渐近自由解释了为什么胶子是零质量但是强力确是短程力,那么传递弱力W和Z玻色子可是有质量的。有质量的话短程力是好解释了,但是我们上面说有质量的规范玻色子会破坏规范对称性,这规范对称性可是杨-米尔斯理论的根基啊,它被破坏了那还怎么玩?

 

最后解决这个问题的是希格斯机制。希格斯机制是来打圆场的:你杨-米尔斯理论要求规范玻色子是零质量的,但是最后我们测量到W和Z玻色子是有质量的,怎么办呢?简单,我认为W和Z这些传递弱力的规范玻色子一出生的时候是零质量的,但是它来到这个世界之后慢慢由于某种原因获得了质量,也就是说它们的质量不是天生的而是后天赋予的,这样就既不与杨-米尔斯理论相冲突,也不跟实际测量相冲突了

 

所以,希格斯机制其实就是赋予粒子质量的机制。它认为我们的宇宙中到处都充满了希格斯场,粒子如果不跟希格斯场发生作用,它的质量就是零(比如光子、胶子),如果粒子跟希格斯场发生作用,那么它就有质量,发生的作用越强,得到的质量就越大(需要说明的是,并不是所有的质量都来自于粒子和希格斯场的相互作用,还有一部分来自粒子间的相互作用)。2012年7月,科学家终于在大型强子对撞机(LHC)中找到了希格斯粒子,为这段故事画上了一个圆满的句号,也理所当然地预约了2013年的诺贝尔物理学奖。

图片

这样杨-米尔斯理论就可以完整的描述强力、弱力和电磁力了,在霍夫特完成了非阿贝尔规范场的重整化(重整化简单的说就是让理论能算出有意义的数值,而不是无穷大这种没意义的结果,这是点粒子模型经常会出现的问题。举个最简单的例子,我们都知道电荷越近,它们之间的电磁力越大,那么当电荷的距离趋近于零的时候,难道电磁力要变成无穷大么?这个当做思考题~)之后,粒子物理标准模型就正式投产商用。

 


12结语


至此,我们关于杨-米尔斯理论的故事就告一段落了,相信能坚持看到这里的人对杨-米尔斯理论应该都有了个大致的了解,对它的作用和意义也会有自己的判断。

 

这篇文章是我有史以来耗费心血最多的科普文,为此我的公众号都有好长一段时间没更新了,在公众号后台社群里也都理所当然地收获了一大波粉丝的催更~不过,相信大家看完这篇文章之后应该就能理解了:杨-米尔斯理论涉及的东西实在是太多了,对称性、规范场、非阿贝尔群、标准模型,这些东西对于许多非物理专业的同学来说实在是太陌生了,甚至从来都没听说过。即便对于物理系的学生,杨-米尔斯理论也是要到研究生阶段才接触的东西。因此,要把这么复杂,牵扯面这么广的东西用中学生能懂的语言科普出来,其中难度可想而知。许多公式和术语跑到嘴边又被我逼回去了,特别要在不涉及分析力学作用量的前提下讲杨-米尔斯理论,差点没给我逼出内伤~

 

之所以执意用这么通俗的语言讲杨-米尔斯理论,主要就是想让更多人更加客观的理解杨振宁先生的工作,很多事情如果彻底搞清楚了,就会省去很多无意义的争论。现在网上关于杨振宁先生的新闻很多,但是很不幸,大部分新闻上的却是娱乐版,即便除去那些娱乐八卦,关于杨先生科学方面的话题大部分最后都演变成了诸如“杨振宁真的很伟大么?”“杨振宁跟霍金谁厉害?”“杨振宁跟爱因斯坦一样伟大吗?”“杨振宁没有你想象的那么伟大!”等极容易引起撕逼骂战却又很空洞没营养的问题。并且,论战中的双方要么就把杨振宁先生往天上捧,要么就把他使劲往地上踩,这还算是科学讨论么?这是讨论科学问题该有的态度么?

 

物理学家并不是擂台上的拳击手,他们一起通力合作构建我们现在恢弘的物理大厦。没有开普特和伽利略的奠基,不可能有牛顿的力学体系;没有法拉第工作,不可能有麦克斯韦的电磁大厦;狭义相对论在20世纪初已经是水到渠成呼之欲出了,爱因斯坦也只不过是捷足先登了而已。而且,除了广义相对论确实是爱因斯坦的独门独创,好像还真没有哪个东西说是非谁不可的。没有牛顿,我估计胡克哈雷也快找到万有引力定律了,洛伦兹彭加莱已经一只脚跨入狭义相对论的大门了,有没有爱因斯坦狭义相对论差不多都该出现了。

 

我这么说并不是要否定牛顿和爱因斯坦他们的功绩,能抢在同时代最杰出的头脑之前发现那些理论,这本身就是科学家的能力体现。我只是想建议大家不要总把注意力放在“谁或者谁更伟大,谁比谁更厉害”这种很虚的东西上面,而更多的把注意力放在这些科学家工作本身上去,这些才是全人类共同的宝贵财富。大家的时间都很宝贵,我们就尽量把时间都花在刀刃上去,科学家最宝贵是他们的科学思想,而中国比任何一个国家都不缺少娱乐八卦

 

杨振宁先生是我们国宝级的科学家,杨-米尔斯理论是他工作里目前已知的最为璀璨的明珠(鉴于杨振宁先生工作的基础性和前瞻性,他有很多理论刚提出来的时候不被重视,过了几十年之后却发现它极为重要,所以我不确定以后是否会出现比杨-米尔斯理论更重要的东西)。

 

诺特发现了对称性和守恒律之间的关系,打开了现代物理对称性的大门。

 

爱因斯坦敏锐而深刻的意识到了这点,然后以雷霆之势将它应用在相对论上,取得的巨大成功把当时其他的科学家惊得目瞪口呆。但是这个套路爱因斯坦熟悉,其他人不熟啊,况且在量子革命的时代,爱因斯坦是那帮量子革命家的“反面教材”,波尔才是他们的教皇,所以人家也不屑于跟你玩。

 

杨振宁可以说是爱因斯坦的嫡系弟子,如果说爱因斯坦对对称性是偏爱的话,那么杨振宁对对称性就是情有独钟了。他充分吸收了爱因斯坦的对称思想,并且把它发扬光大,再吸收了外尔的规范对称的思想,最后创造了集大成的杨-米尔斯理论。杨-米尔斯理论出来以后,对称性就不再是一个人的玩具了,杨振宁通过这个理论把对称性这种高大上的精英产品一下子变成了谁都可以玩的平民玩具,他把如何释放对称性里蕴藏能量的方式给标准化、工具化、流水化了。从此,“对称决定相互作用”就不再是一句标语,而成了物理学家们的共识和最基本的指导思想,这极大的释放了物理学家的生产力,为后来快速构建标准模型奠定了基础。

 

这一块是大家在谈论杨振宁先生的工作,谈论杨-米尔斯理论的时候最容易忽略的一块,如果你不能认识到对称性在现代物理里的重要性,不能认识到杨振宁先生和杨-米尔斯理论在对称性问题上的作用,那么你对杨先生工作的理解是非常片面的,甚至错失了他最精华的部分。希格斯机制、渐近自由、夸克禁闭、自发对称破缺、规范场的重整化,这些从杨-米尔斯理论到标准模型之间众多精彩纷呈的故事似乎更适合说书,但是,大家要记住对称性才是现代物理的核心

图片

杨振宁先生是非常伟大的物理学家,除了在学术上取得的巨大成就以外,他的治学态度一样十分值得大家去深入学习。深入了解之后你能非常明显的感觉到杨先生身上同时闪烁着中国教育和西方教育的优点,他非常有效的把东西方教育里的糟粕都给规避了,所以杨先生总是能很超前的看到一些关键问题。学术上的问题我们无法复制,但是科学教育中一些问题我们是可以复制的,这些问题我后面在公众号知识星球里会慢慢跟大家谈。

 

杨振宁先生在八九十岁的时候还亲自给清华大学的本科生上课(羡慕嫉妒恨~),想必也是想把自己做学问一些心得尽可能的交给更多人,这点跟我们这些做科普的想法是一样的。考虑到杨先生的年龄,长尾君不得不写个大大的“”,不知道以后自己七老八十了,还有没有给年轻人做科普的动力~

 

最后,祝杨先生身体健康~


相关文章:《深度:宇称不守恒到底说了啥?杨振宁和李政道的发现究竟有多大意义?》

收起阅读 »

不确定性原理到底在说什么?

提到量子力学,不确定性原理就是一个绕不开的话题。不确定性原理非常直观地体现了量子力学和经典力学之间的差异,而且表述还非常简单。它既不像薛定谔方程那样需要微积分和分析力学的基础,也不像算符、矩阵那样需要线性代数的基础,基本上谁都能谈几句。但是,要想真正理解不确定...
继续阅读 »
提到量子力学,不确定性原理就是一个绕不开的话题。

不确定性原理非常直观地体现了量子力学经典力学之间的差异,而且表述还非常简单。它既不像薛定谔方程那样需要微积分分析力学的基础,也不像算符、矩阵那样需要线性代数的基础,基本上谁都能谈几句。但是,要想真正理解不确定性原理,就远没有看上去的那么简单了。

这种情况跟狭义相对论里的质能方程E=mc²很像,质能方程也是咋一看非常简单,似乎谁都能谈几句。但是,如果想真正理解质能方程,就必须深入狭义相对论语境,如果只是站在牛顿力学的角度,直接从字面意思来理解质能方程,那不可避免地就会带来各种误解(这些我在《你也能懂的质能方程E=mc²》里已经详细说了)。

不确定性原理是量子力学的产物,我们也只有深入量子语境才能真正理解它,如果只是从牛顿力学的视角,单从字面意思去理解它,一样会产生各种稀奇古怪的误解


01常见的误解

不确定性原理的一个常见表述是“我们无法同时确定粒子的位置和动量”,有的地方还喜欢把“确定”替换为“测准”,说“我们无法同时测准粒子的位置和动量,你把粒子的位置测得越准,它的动量就越不准确,反之亦然”。

这就很容易让人这样理解不确定性原理:为什么我们无法同时测准位置动量呢?因为如果这里有一个电子,你想测量它的位置就得用光子或者其它粒子去撞击它。你想把电子的位置测得越准就得使用波长越短的光(波长太长就直接绕过去了),而光的波长越短能量就越高,你用越高能量的光子去撞击电子,就会把电子撞飞得越快,这样电子的动量就更加不确定了。

于是,你觉得越想测准电子的位置,就会对它的动量产生越大的干扰,进而让它的动量更加不确定,反之也一样。许多人认为这就是无法同时确定电子的位置动量的原因,并认为这就是不确定性原理想说的。

这种说法很流行,很多科普文都这样介绍不确定性原理,他们告诉你:正是因为你用光子测量电子位置的操作干扰了电子的动量,所以无法同时确定电子的位置和动量

为什么这种说法会很流行呢?

第一,它看起来好像也没啥问题,而且通俗易懂,中学生都能理解;第二,不确定性原理的发现者——海森堡一开始也是这么理解的。也就是说,海森堡在一开始也认为是测量过程中不可避免的干扰导致了我们无法同时确定粒子的位置和动量。

图片

我在《什么是量子力学?》里也讲过,许多量子力学的科普文其实都是在讲量子力学前25年的历史,既然是讲历史,那到了不确定性原理这里,自然就要讲一讲海森堡那些通俗易懂的思想实验。但是,如果你顺着历史再往后走几步,就会发现玻尔很快就批评了海森堡的这种思想,而海森堡自己也接受了。

也就是说,海森堡也只是在一开始是这样想的,他也只是在刚发现不确定性原理的时候觉得电子动量的不确定性是由于“测量电子位置带来的干扰”导致的,玻尔的批评很快就让他意识到这么想是不对的。

图片

时至今日,随便翻开一本量子力学教材,里面大概率都会清清楚楚地告诉你:不确定性原理并不是由于测量导致的,它是粒子的固有性质,并不依赖于任何测量

其实,测量是仪器和被测物体之间的一种相互作用,仪器在测量过程中肯定会对被测物体产生一定干扰,这在任何情况下都存在,并非量子力学特有的。这种仪器对被测物体的影响,在物理学上有另一个名字,叫观察者效应(Observer effect),它跟不确定性原理(Uncertainty principle)有本质的区别。

经典力学里,物体的位置和动量在理论上是确定的,但测量过程多多少少会对被测物体产生一定影响,所以实际的测量总会存在一定误差。

量子力学却是在理论上就认为物体在一般情况下不存在确定的位置和动量,而且无论处于什么状态(本征态也好,叠加态也好),你都没法同时确定物体的位置和动量。这跟测量的精度或者测量过程产生的扰动都无关,而这,才是不确定性原理想告诉我们的。

也就是说,对不确定性原理那种广为流传的解释其实是错的。他们把不确定性原理当成了观察者效应,认为是测量过程中的扰动造成了我们无法同时测准粒子的位置和动量,而没有意识到这种不确定性是理论上的,是粒子的固有性质,跟你测不测量无关。

那么,这种理论上的不确定性是怎么来的呢?


02力学量的平均值

在《什么是量子力学?》里我们就讲过,经典力学里的力学量在任何时候都有确定值,一个物体在任何时候都有确定的位置和速度,跟你测不测量,如何测量都无关。

但到了量子力学,力学量是否有确定取值却跟系统状态有关:如果系统处于本征态,那测量这个力学量时就有确定值;如果系统处于叠加态,那测量这个力学量时就没有确定值。因此,如果你里想讨论力学量的取值,就得先确定系统的状态,看看它是本征态还是叠加态

图片

位置为例,如果电子处于位置本征态,那测量位置时就有确定值(该本征态对应的本征值);如果电子处于位置叠加态,那测量位置时就没有确定值,而是有一定概率处于各个位置本征态对应的本征值。

然后,有一点我们要特别注意:当系统状态确定以后,虽然电子的位置在一般情况下不确定,但它的平均值却是确定的

比如,电子处于某个位置叠加态,测量时有70%的概率处于x=1处,有30%的概率处于x=2处,虽然我们不知道测量结果到底会是x=1还是x=2,但我们知道电子的位置平均值一定是x=1×0.7+2×0.3=1.3。

这就是说,只要系统状态确定了(不管是本征态还是叠加态),虽然力学量的具体取值一般不确定,但它的概率分布却确定了(详见《什么是量子力学?》里的玻恩规则部分),任意力学量的平均值也就随之确定了。平均值是个非常重要的概念,从这里我们也能看到量子力学的统计性质

提到平均值,大家都非常熟悉。学校举行考试时,如果想对比两个班级的成绩,我们最常见的做法就是计算两个班级的平均分。计算方法也很简单,把一个班里所有人的成绩都加起来,再除以总人数就得到了这个班级的平均分。如果一班的平均分比二班高,那我们大体上就认为一班比二班考得好。

当然,平均分很有用,但它的局限性也很大。特别是,当一个样本的数据波动过大时,平均值往往就很难反映真实情况了。就像大家经常调侃的,如果把我的收入跟马云、马化腾平均一下,那大家也都是身价百亿的人了,这样的平均显然没什么意义。

同理,如果二班的平均分要低一些,但我们仔细一看,却发现二班有大量同学考了95分以上,但因为某些原因也有些人只考了几分,甚至0分,这少数超低分就把班级的平均分拉了下来。而一班绝大多数人都考了70多分,既没有考得很高的,也没有考得特别低的。这样一算平均分,一班确实比二班高了一点,但你觉得这种情况下还仅凭平均分来判断两个班的成绩,还合适么?

图片

为什么平均分在这种情况下好像并不好用了呢?原因很简单,因为二班的成绩波动太大了,接近满分和接近0分的人都有很多,而平均分会把这些波动给抹掉。因此,如果我们想更好地描述二班的情况,那就得想办法描述这种波动,如何描述呢?

这时候,我们就要引入两个新的量:方差标准差


03方差和标准差

方差是怎样体现班级的成绩波动的呢?

思路也很简单,一班的分数大多在70到80分之间,假设它们的平均分是75分吧。当我们说一班的成绩波动很小时,我们其实是在说一班的大部分成绩都在75这个平均分附近,它们相对平均分的波动很小。当我们二班的成绩波动很大时,也是在二班大部分成绩距离它们的平均分(假设是74分)比较远,大家相对平均分的波动很大。

所以,如果想计算一个班级的整体波动,那你就先把这个班级的平均分算出来,再把每个人相对平均分的波动算出来,最后把所有波动加起来再除以总人数,这样得到的结果就能大致反映一个班级的整体波动了,这也是计算方差的大致思想。

比如,一班的平均分是75分,有个同学考了70分,跟平均分差5分;有个同学考了80分,跟平均分也差了5分。我们把所有人跟75这个平均分的差值都算出来,把它们加起来再除以总人数,得到的结果就能大致反映一班成绩的波动情况了。

但大家很快就会注意到:直接用每个人的分数减去平均分的差来度量这个波动是不行的。因为考了80分的同学减去平均分75等于5,考了70分的同学减去平均分75等于-5,你把它们直接加起来,那总的波动就是5+(-5)=0了,这肯定不对。

要解决这个问题,很多人的第一反应是给它套个绝对值。没错,套了绝对值以后,负数就变成了正数(|5|+|-5|=5+5=10),这样就不会再出现“正负相消”的情况了。这样处理在理论上没啥问题,但绝对值在具体计算时会比较麻烦,为了方便计算,我们采用了另一种方式:给它套个平方

大家知道,负数的平方也是正数,这样它也能达到绝对值的效果,但计算起来会更方便。

比如,对于考了70分的同学,我们用70减去平均分75,再套个平方(70-75)²=25来表示这个波动;对于考了80分的同学,我们就用(80-75)²=25来表示这个波动,其他人以此类推。把所有人相对平均分的差的平方都加起来,再除以总人数就得到了衡量班级整体波动水平的方差

图片

有了方差,我们就能看清各个班级的波动情况了,也能清楚地看到二班的成绩波动确实比一班大。

一班的平均分是75分,大量考了70分的同学产生的波动只有(70-75)²=25;假设二班的平均分是74分,那考了100分的同学立马就会产生(100-74)²=676的波动,考了0分的同学更是以一己之力就能贡献(0-74)²=5476的波动值。闭着眼睛都知道,二班的方差肯定会远远大于一班,这也反映了二班成绩的波动远远大于一班。

所以,通过方差,我们确实能够判断样本的波动情况。不过,从上面的例子大家也能看到,方差虽然好用,但它的数值还是有点偏大(考了0分的同学对应的值竟然高达5476,这让我们很难直观地作判断)。为了方便判断,我们对方差再开个根号(方差是9,标准差就为3),这样就得到了标准差(一般用σ来表示),后面我们使用的也都是标准差σ

平均值方差标准差都是概率统计里最基础的东西,大家在中学数学里也学过了,这里我就不再细说了。在这里,我们只要知道方差和标准差可以衡量一个样本的波动情况,方差、标准差大,就说明它们偏离平均水平越厉害就行了。


04不确定性原理

好,再回到主题。我们刚刚不是在讲不确定性原理的么,为什么这里突然讲起了方差和标准差?

那是因为,大家经常看到的不确定性原理的表达式ΔxΔp≥ℏ/2(ℏ=h/2π),这里的ΔxΔp指的就是标准差,而不是大家先入为主地以为的测量误差

图片

什么意思?

意思就是,你经常看到的不确定性原理ΔxΔp≥ℏ/2,它说的是位置x和动量p的标准差的乘积最小只能为ℏ/2,它说的是统计意义上的标准差的乘积不能无限小,而不是说测量时的干扰误差。

很多人一看到Δx,潜意识里就会认为这是一个微小的位置变化。到了不确定性原理ΔxΔp≥ℏ/2这里,就很容易把Δx当成测量位置时由于干扰带来的误差,这样就很容易陷入一开始说的那种对不确定性原理的错误理解中去,让我们误以为粒子的不确定性是由测量的扰动引起的。

如果这里不是用的ΔxΔp,而是σxσp,那不确定性原理是不是就没那么容易引起误解了呢?

在很多教材里,位置-动量不确定关系确实写作σxσp≥ℏ/2 (ℏ=h/2π),这里的σxσp并不是测量位置、动量时的干扰误差,而是从统计意义上来说的位置和动量的标准差

图片

那问题就来了:一个粒子的位置和动量,怎么会有统计意义上的标准差呢

经典力学里,这个概念当然是毫无意义的。经典力学的粒子在任何时候都有确定的位置和动量,它们没有任何波动,谈论单个粒子的位置和动量在统计意义上的平均值和标准差也显得相当搞笑。

但到了量子力学,情况就完全不一样了。在量子力学里,只有当系统处于位置本征态时,粒子的位置才是确定的;当系统处于位置叠加态时,粒子的位置就是不确定的。测量时有一定的概率处于这个位置,有一定的概率处于那个位置,我们还能算出具体的概率值。

当粒子有一定概率在这,也有一定概率在那时,我们不就可以计算粒子的位置平均值了么(假设有许多跟它一模一样的粒子,我们一个个去测量,再统计它们的平均值)?有了平均值,每个可能的位置相对平均值的波动也能算出来,于是,我们就能计算出粒子的位置标准差σx,动量标准差σp也一样。

这样一来,我们就能从统计意义上谈单个粒子的各种力学量的平均值、方差和标准差了,因为粒子的力学量在一般状态下并没有确定值。

图片

再回到前面的例子,我们假设电子处于某个位置叠加态,测量时有70%的概率处于x=1处,有30%的概率处于x=2处。虽然我们不知道测量时电子到底会在x=1还是x=2处,但我们还知道它的平均值一定是x=1×0.7+2×0.3=1.3。

而且,我们知道这个平均值跟你测不测量无关,只要系统状态确定了,概率分布确定了(70%的概率x=1,30%的概率x=2),我们就能在测量之前把平均值x=1.3算出来。算出了位置平均值,我们一样可以仿照班级考试的例子,算出电子在这个状态下位置的标准差σx,并用它来衡量电子位置的波动情况。

因为这个σx也是在测量之前算出来的,所以我们不需要等测量结束,也不需要知道测量过程中到底有多大扰动就能算出电子的位置标准差σx,它跟你测不测量完全无关

假如粒子处在状态一的时候,它有50%的概率处于x=4.9处,有50%的概率处于x=5.1处,此时的平均值为x=5;子处于状态二的时候,它有50%的概率处于x=1处,有50%的概率处于x=9处,此时的平均值还是x=5。这两个状态下粒子的位置平均值都一样,但我们闭着眼睛都知道状态二的波动更大,所以它的位置标准差σx也更大。类似的,我们也能算出子在各个状态下的动量标准差σp

也就是说,只要系统状态确定了,不管你有没有测量,我们都能算出粒子的位置和动量的标准差σxσp。那么,这个σx和σp有没有什么关系呢?

经过一番数学推导,我们发现粒子在不同状态下虽然会有不同的位置标准差σx和动量标准差σp,但不论系统状态如何变化,也不论σxσp跟着如何变化,它们的乘积σxσp都不可能小于ℏ/2。这就是大家最为熟知的位置和动量的不确定关系σxσp≥ℏ/2

这个推导过程我们后面再说,在这里,我们起码能清晰地看到:粒子的位置平均值是在测量之前就能算出来的,位置和动量的标准差σx、σp也是在测量之前就能算出来的,所以,经过数学推导得到的位置-动量不确定关系σxσp≥ℏ/2也是在测量之前就能得到的

如果我们在测量之前就能得到这个关系式σxσp≥ℏ/2,那你还能说不确定性原理是由于测量的扰动引起的么?你都还没有开始测量,那还谈什么测量带来的干扰误差?

这样的话,大家能理解为什么我们之前一直说“不确定性原理并不是由于测量造成的,它是粒子的固有性质,跟你测不测量无关”了么?


05一般的不确定关系

大的基调定下来之后,我们再来看看具体的推导过程。

在这里,我们先不盯着位置和动量,而是先考虑更一般的情况。假设有两个任意的力学量A和B,系统状态确定以后,概率分布就确定了,我们就能算出力学量A、B的平均值,进而算出这两个力学量的标准差σA和σB。

那么,不同力学量的标准差之间又有什么关系呢?

利用施瓦茨不等式,经过一番纯数学推导,我们就得到了这样一个关系式:

图片

具体的推导过程比较无趣,我这里就不写了,感兴趣的可以自己去翻一翻量子力学教材。但大家要清楚,我们这里没有引入任何额外的假设,我们只是用了标准差的基本定义,然后利用施瓦茨不等式就得到了上面的不等式。所以,这是一个普适的关系式,是最一般的不确定关系。

它告诉我们:任意两个力学量的标准差的乘积σAσB必须大于等于这两个力学量的对易式[A,B]的平均值(<>代表求平均值)的绝对值的一半

说起来有点拗口,但平均值和绝对值大家都很熟悉,这里真正起决定作用的是A、B的对易式[A,B],只要对易式确定了,这个不等式就确定了。而算符A、B的对易式是这样定义的:[A,B]=AB-BA,也就是把两个算符的作用顺序交换一下,再相减。

很多人看到这个对易式之后心里就在犯嘀咕:AB-BA不应该恒等于0么?就像3×5-5×3=0一样,任何两个交换相乘的顺序,得到的乘积应该都一样,它们相减之后的结果肯定就是0啊。

如果[A,B]恒等于0,那你定义这个又有什么意义?

图片

没错,我们从小就学了乘法的交换律:如果A、B都是,两个数交换顺序,最后的乘积肯定不变。所以AB一定等于BA,[A,B]=AB-BA就一定恒等于0。

但是,我们这里的A、B并不是啊,它们是描述力学量的算符。我们确实从小就学了数的乘法交换律,但你有学过算符的乘法交换律么?

没有吧!也不可能学过,因为算符之间压根就没有普适的乘法交换律。有的算符之间可以交换乘法顺序,有的则不能,这跟数的情况完全不一样。

那么,算符的乘法是什么意思呢?两个算符之间可以交换乘法顺序又是什么意思?


06对易式

在《什么是量子力学?》里我们讲过了,量子力学里用矢量描述系统状态,用算符描述力学量。算符可以作用在一个矢量上,把一个矢量变成另一个矢量。比如,我们对一个矢量进行平移、旋转、投影操作,就会对应有平移算符、旋转算符、投影算符。我们把平移算符作用在一个矢量上,就会把一个矢量平移到另一个地方,其它算符也类似。

在A、B的对易式[A,B]=AB-BA里,A、B都是算符,而系统状态ψ是矢量,所以我们就可以把算符B作用在态矢量ψ上,这样就得到了新的矢量。而Bψ也是一个矢量,那我们又可以把算符A作用在矢量Bψ上,这样得到的新矢量就是ABψ

也就是说,算符是从右往左依次作用在矢量上的,ABψ就代表态矢量ψ先被算符B作用了一次,然后又被算符A作用了一次。如果A代表平移算符,B代表旋转算符,那ABψ就代表先把态矢量ψ旋转(B)了一下,再把这个矢量平移(A)了一下;而BAψ就代表先把态矢量ψ平移(A)了一下,再把这个矢量旋转(B)了一下。 

这样一来,算符A、B的对易式[A,B]=AB-BA就很好理解了:因为A、B都是算符,AB和BA表示两个算符的连续作用,那就还是一个算符,所以它们相减的结果AB-BA仍然是一个算符。

既然是算符,那我们自然就可以把算符[A,B]作用在矢量ψ上,这就相当于一方面先用算符B后用算符A作用在矢量ψ上(得到了ABψ),另一方面先用算符A后用算符B作用在矢量ψ上(得到了BAψ),最后再把这两种方式得到的矢量相减ABψ-BAψ

如果先A后B作用在矢量ψ上,与先B后A作用在矢量ψ得到的结果是完全一样的,也就是说[A,B]ψ=ABψ-BAψ=0,那就说明算符A、B之间的乘法是可以交换顺序的,这时候我们说算符A和算符B是对易的。比如,同一平面内两个旋转算符就是对易的,你想想,把一个矢量先旋转一定角度α,再旋转一定的角度β,跟你先把矢量旋转一定的角度β,再旋转一定角度α得到的结果是不是一样的?

当然,并不是所有的ABψ-BAψ都等于0。当[A,B]≠0的时候,那就说明算符A、B之间的乘法顺序不可交换,我们就说算符A和算符B不对易。比如,平移算符空间反射算符就不对易,你想想,把一个矢量先向右平移一段,再以原点为中心翻转一下,跟你先把矢量翻转一下,再向右平移的结果一样么?

再比如,同样一本书,你先围绕x轴旋转,再围绕y轴旋转,得到的结果跟你先围绕y轴旋转,再围绕x轴旋转的结果还一样么?

图片

这些例子都非常简单,大家仔细琢磨一下,就会发现两个算符之间对易或者不对易都是有可的。


07对易的力学量

理解了算符乘法数乘之间的不一样之后,我们再回头看看那个最一般的不确定关系:

图片

如果力学量A和力学量B对应的算符是对易的,也就是说[A,B]=0,那不等式的右边就变成了0。于是,这个不等式就变成了“力学量A和B的标准差的乘积σAσB≥0”。

有人说这不是废话么?标准差σ肯定是大于等于0的啊!我们在求方差的时候就是先套了个平方,确保所有的数都非负,标准差不过是对方差再开个根号,那结果肯定还是非负啊。所以,当力学量A、B对应的算符对易时,这个式子相当于在说“它们标准差的乘积大于等于0”,这是一句废话。

话不能这么说,当力学量A、B对易,也就是[A,B]=0的时候,最一般的不确定关系给出的限制是σAσB≥0。虽然标准差确实都大于等于0,但如果不确定关系给出的限制是σ≥0,这起码说明σ可以取0。因为如果限制是σ≥3,那σ就不能取0、1、2了。

所以,如果力学量A、B对易,最一般的不确定关系给出了限制σAσB≥0,这起码说明:它允许力学量A、B的标准差同时为0,也就是允许σA=σB=0

那么,允许力学量A、B 的标准差同时为0,这又意味着什么呢?

前面我们讲过了,标准差是反映样本的波动情况的。在量子力学里,如果系统状态ψ确定了,概率分布也就随之确定了,我们就可以算出这个状态下任意力学量的平均值,进而求出它们的标准差σ。我们还知道标准差是非负的,这就意味着力学量可以取的值只要有一个不等于平均值,它就会让力学量的标准差σ>0

比如,还是假设粒子有70%的概率位于x=1处,有30%的概率位于x=2处,在这个状态里,子的位置平均值x=1×0.7+2×0.3=1.3。又因为子可以取的两个值x=1和x=2都不等于平均值1.3,那它们在计算方差时肯定会产生大于零的(1-1.3)²=0.09和(2-1.3)²=0.49,最终的方差和标准差都大于0。

如果你想让这个子的位置标准差σx=0,那就必须让子所有可能取的位置都等于它的平均值。因为只有这样,每个位置减去平均值的结果才是0,一堆0加起来还是0,于是标准差才能为0。

那么,“子所有可以取的位置都等于平均值”又意味着什么呢?我们知道,系统状态确定后,平均值就是一个定值。你想让子所有可以取的值都等于这个平均值这个定值,那就只能让子的位置只能这取一个值,并且就等于它的平均值。

那么,子的位置在什么情况下只能取一个值呢?这个答案我们就非常熟悉了:子处于位置本征态的时候

绕了一圈,我们发现果想让粒子的位置标准差σx=0,那就必须让粒子处于位置本征,这样我们就在标准差系统状态之间搭起了一座桥梁。

图片

其实,只要稍微想一下,你就会觉得这是非常自然的事情:当电子处于位置本征态时,它的位置就只能取这一个值,那自然就没有波动,标准差σx也为0;当电子处于位置叠加态时,它的位置可以取多个值,那平均值自然就不可能再跟所有的值一样,这样就有了波动,标准差σx也不再为0。

总而言之,我们发现如果两个力学量A、B对易,那最一般的不对易关系就变成了σAσB≥0,它允许A、B的标准差同时为0。而标准差为0就意味着系统必须处于该力学量的本征态如果σA=σB=0,那就意味着子必须处于力学量A的本征态,同时也必须处于力学量B的本征态。

换句话说,如果力学量A、B对易,那它们就可以拥有共同的本征态。当系统处于它们的共同本征态时,力学量A、B的标准差σA和σB同时等于0,而这个结果并不违反σAσB≥0


08不对易力学量

如果力学量A、B不对易,那情况就完全不一样了。

相信大家也知道,位置动量就是一对不对易的力学量。为什么位置和动量不对易呢?我们可以来算一下。

在《什么是量子力学?》里我们就讲过,动量算符p在位置表象下可以写成-iℏ∂/∂x位置在它本身的表象里自然就是x。我们想看看它们对不对易,那把它们代入对易关系[x,p]=xp-px算一算就行了。

如果[x,p]=0,那就说明位置和动量对易;如果[x,p]≠0,那就说明位置和动量不对易

算符可以作用在矢量和函数上,把它变成另一个矢量和函数。既然位置算符x和动量算符p都是算符,它们的对易关系[x,p]=xp-px也是算符,那我们就让[x,p]作用在函数f(x)上:

图片

计算过程都非常简单,因为[x,p]是作用在一元函数f(x)身上,因此动量算符里的偏导数∂/∂x就可以直接改成d/dx,我们在分子分母上同时乘以一个虚数单位i,就成了上面的样子。

计算的第一步就是把[x,p]f(x)展开为xpf(x)-pxf(x),再把动量算符代入进去。xpf(x)表示我们先用动量算符p作用在函数f(x)上,再用位置算符x去作用;pxf(x)只是调换了下顺序,表示先用位置算符x作用在函数f(x)上,再用动量算符p去作用。

第二步就是套了一个乘积的求导公式,然后发现前两项可以消去,最后就得到了结果iℏf(x)

从这个结果我们可以看到:[x,p]f(x)并不等于0,而是等于iℏf(x)。我们把f(x)都去掉,就得到了位置算符x动量算符p的对易关系:

图片

因为[x,p]≠0,所以位置和动量不对易这个式子非常重要,它被称为正则对易关系

经典力学里,任何力学量都可以写成位置x和动量p的函数,所以,量子力学里任何有经典对应的力学量之间的对易关系,都可以从位置-动量这个最基本的正则对易关系里导出来。

从更深的意义上来说,量子力学里各种神奇的特性最终都可以追溯到这个最基本的对易关系上来。因此,有的教材是把正则对易关系[x,p]=iℏ当作基本假设提出来的。

大家再看看下这个对易式[x,p]=xp-px=iℏ,它告诉我们:对于同一个函数f(x),先用动量算符p作用再用位置算符x作用的结果xpf(x),跟先用位置算符x作用再用动量算符p作用的结果pxf(x)竟然不一样,它们的差并不等于0,而是等于iℏf(x)


09位置-动量不确定关系

有了位置算符x和动量算符p之间的对易关系[x,p]=iℏ,我们把它代入最一般的不确定关系:

图片

立马就能得到位置算符x和动量算符p的不确定关系(ℏ=h/2π):

图片

这就是位置和动量之间的不确定性关系,也是大家最常见的不确定性原理

只不过,大家平常看到的大多是用ΔxΔp来表述的,我们这里用了更加不容易引起误解的标准差σxσp,这样大家一看就知道我们这是从统计意义上来说不确定性原理了。

图片

位置-动量不确定关系告诉我们:位置算符x和动量算符p的标准差的乘积σxσp有一个最小值ℏ/2,它不能无限小,更不能等于0。因此,σx和σp不能同时为0。

而我们又知道,只有当系统处于力学量的本征态时,对应力学量的标准差σ才为0。你现在说σx和σp不能同时为0,那就意味着系统不能同时处于位置和动量的本征态。否则,位置的标准差σx=0,动量的标准差σp=0,这就违背了它们之间的不确定关系σxσp≥ℏ/2

因此,当我们测量一个粒子的位置时,系统会从原来的状态变成某个位置本征态。当系统处于位置本征态时,粒子的位置就只可能取一个值,位置的标准差σx=0,此时动量的标准差σp就变成了无穷大(这里0和无穷大相乘并不等于0,这里不细谈)。看上去就是位置和动量之间会相互影响,这样它们的标准差σx、σp才不会同时为0。

这样的话,两个力学量是否对易,就决定了它们的标准差能否同时为0,进而决定了它们能否拥有共同的本征态,决定了它们是否独立。大家要好好理一理这一串逻辑链条,它对理解量子力学是很有帮助的。

明白了这些,再想想一开始的问题,你还会觉得位置动量的这种不确定关系是由于测量时的扰动造成的么?我们没有测量时,系统状态随着薛定谔方程演化,位置和动量的标准差σx、σp也会随之变化,但不论σx和σp怎么变,它们之间都遵守σxσp≥ℏ/2

所以,即便你没有测量,位置和动量的不确定关系σxσp≥ℏ/2一样存在。造成这种现象的根源,是位置算符和动量算符之间的不对易[x,p]=iℏ,而不是你测量时有没有扰动


10傅里叶变换

为了让大家更好地理解这种不对易关系,我们再来看一个更加形象的例子。

假如这里有一头大象,从前面看,你能非常清楚地看到大象的眼睛,但却看不清楚大象的身体;从侧面看,你能非常清楚地看到大象墙壁般的身体,但大象的眼睛我们又看不清楚了。当然,你还可以更换角度,从不同角度看,大象的眼睛和身体的清晰度会不一样,但你找不到一个角度让你既能看清楚大象的眼睛,又能看清楚大象的身体。

图片

这跟位置动量的不确定关系就有点像了:我们可以找到一个角度“看清”粒子的位置,让测量时粒子的位置有确定值,这时候位置的标准差σx最小(位置本征态);也可以找一个角度“看清”粒子的动量,让测量时粒子的动量有确定值,这时候动量的标准差σp最小(动量本征态)。但是,你找不到一个角度能同时“看清”粒子的位置和动量,让位置的标准差σx和动量的标准差σp同时达到最小值(无法同时处于位置和动量的本征态),它们之间有σxσp≥ℏ/2这样一个绕不过去的门槛。

这样一来,我们更能清晰地看到:我们之所以无法同时看清楚大象的眼睛和身体,并不是因为测量仪器不够精确,也不是因为测量时有什么扰动。而是因为大象的眼睛和身体一个在正面,一个在侧面,大象的身体结构决定了我们无法同时看清楚这两者,这是大象的“固有性质”,跟你测不测量无关。

同理,我们无法同时确定粒子的位置动量,也不是因为测量仪器不够准确,不是因为测量时有什么扰动。而是因为粒子的位置和动量是不对易的,是位置和动量的这种关系[x,p]=iℏ决定了我们无法同时确定这两者,这也是粒子的固有性质,跟你测不测量无关。

学过《信号与系统》的朋友肯定一眼就能看出来,我们处理信号既可以从时域看,也可以从频域看,不同角度看到的样子并不一样,它们之间就差了一个傅里叶变换


图片

在量子力学里,同一个波函数从位置表象切换到动量表象,它们之间也是差了一个傅里叶变换。也就是说,对于同一个波函数,在位置表象里长这样,你想看看它在动量表象里长啥样,进行一个傅里叶变换就行了。

如上图所示,同样两个正弦波,当我们从正面看的时候,它是一些波叠在一起的;当你从侧面看时,它就变成了两个尖尖,只在两个地方有取值。你从正面看到的是波,从侧面看到的是点,但你无法找到一个角度让你既看到波又看到点,波和点之间就差了一个傅里叶变换

粒子的位置动量之间的不确定性也是这么回事。当粒子处于位置本征态时,你能完全确定粒子的位置,粒子在位置上只能取一个值,在图像上就是只在一个点上有取值。这时候,我们通过傅里叶变换切换到动量视角,就会发现对应的图像是一个平面波,它说明粒子取任何动量值的概率都一样,这样动量就完全不确定了。

于是,粒子的位置完全确定了,动量就完全不确定了,这是傅里叶变换的自然结果。因此,当我们从不同角度审视同一个东西时,会出现那种不确定关系其实是非常自然的一件事。

另外,虽然我们没法同时看清楚一头大象的眼睛和身体,但如果这里有两头大象,你想同时看清楚一头大象的眼睛和另一头大象的身体,那就轻而易举了。所以,不同粒子间的所有力学量都是对易的,你想同时确定一个粒子的位置和另一个粒子的动量显然是没有任何问题的。

这样一来,大家对粒子的位置动量之间的不确定关系有一个比较直观的认识了么?你还会觉得不确定性原理由于测量的扰动导致的么?


11能量-时间不确定关系

除了位置和动量,常见的不确定关系还有另一组,那就是能量E时间t的不确定关系:

图片

从形式上来看,它跟位置和动量的不确定关系式σxσp≥ℏ/2几乎一模一样。

回想一下位置-动量不确定关系的推导过程,我们先是得到了最一般的不确定关系:

图片

然后把位置和动量的对易关系[x,p]=iℏ代入上式,就得到了位置和动量的不确定关系σxσp≥ℏ/2

于是,有些人就会想:能量时间的不确定关系是不是也是这样,也是把能量和时间的对易关系(如果有的话)代入之后就能得到?

细心的朋友可能注意到了,在前面讲位置-动量的不确定关系时,为了让大家意识到我们谈论的是位置和动量的标准差σ,而不是测量时的扰动,我特地用σxσp替换了更常见的Δx和Δp。但到了这里,我并没有使用σtσE,而是直接使用ΔtΔE来表示能量和时间的不确定关系,为什么?

难道到了这里,我就不再怕大家把Δt、ΔE理解为测量时间和能量时的扰动了么?怕,当然怕,特别是能量的标准差ΔE

我们确实可以像谈论位置、动量的标准差σ那样谈论能量的标准差,我们这里的ΔE,也确确实实指的是能量的标准差σE。但是,这个式子里还有一个非常特殊的量——时间Δt,它指的是时间的标准差σt么?慢着,你先告诉我:时间的标准差是什么鬼?

图片

位置、动量、能量等力学量的标准差好理解,系统状态确定以后,概率分布也随之确定了,我们就可以求出各个力学量的平均值,进而求出它们相对平均值波动的标准差。但是,时间的平均值是什么鬼?你又要如何计算相对“时间平均值”波动的方差和标准差?

相信大家已经看到问题的关键了:在量子力学里,时间并不是一个力学量,而只是一个参数,它跟位置、动量、能量这些力学量有本质的区别

你可以在任何时刻测量粒子的位置、动量、能量这些力学量,但是,你能测量粒子的“时间”么?当你说粒子的“时间”时,你是不是自己都觉得有点搞笑?哪里有什么粒子的“时间”,时间在量子力学里是一个参数,各个力学量都是时间的函数,它们随时间变化,粒子并没有一个叫“时间”的力学量在随着时间变化。

所以,当系统状态确定后,我们可以计算位置的平均值,可以计算动量、能量的平均值,但你没法从统计意义上计算时间的平均值,于是也没有什么时间的标准差。所以,我们写一个σt出来是没有意义的。

当然,在狭义相对论里,时间和空间获得了平等的地位,你确实可以平等的处理时间t和空间x。但我们现在讨论的是非相对论性量子力学,薛定谔方程也是非相对论性的,所以,我们不能像位置-动量不确定关系那样理解能量-时间的不确定关系。

那么,我们要如何考虑ΔtΔE≥ℏ/2呢?特别是,我们要如何看待这里的Δt


12时间的意义

在《什么是量子力学?》里我们讲过一个结论:定态就是系统的能量本征态

从表面上看,能量本征态只是系统具有确定能量的状态,似乎并没有不随时间变化的意思,那为什么还要说它“定”呢?那是因为,虽然此时的波函数依然跟时间有关,但概率分布却不随时间变化,于是,任何力学量的平均值也不随时间变化。这是概率分布力学量平均值都不随时间变化的状态,所以我们称之为“定态”。

当系统处于能量本征态的时候,能量的取值是确定的,因此能量的标准差ΔE=0。根据能量-时间的不确定关系ΔtΔE≥ℏ/2,当ΔE=0的时候,Δt必然就要变成无穷大,这跟位置-动量的不确定关系是一样的。这就暗示我们:当系统处于能量本征态时,由于ΔE=0,所以某个跟时间相关的Δt会变成无穷大。那么,这时候有什么跟时间相关的量会变成无穷大呢

我们已经知道能量本征态是定态,是力学量的平均值不随时间变化的状态,位置、动量这些力学量的平均值这一刻是这样,下一刻还是这样,永远都不会变化。换句话说,此时各个力学量的平均值的变化周期T变成了无穷大

大家想想是不是这么一回事?一个东西不动了,我们也可以说是它的变化周期变成了无穷大。摆钟每秒摆动一次,它的摆动周期是一秒;如果它十秒摆动一次,那周期就变成了十秒,我们就会觉得这个钟摆变慢了许多;如果摆动一次需要无穷大的时间,那它的摆动周期就会变成无穷大,我们就会觉得这个摆钟不动了,也就是说不再随时间变化

所以,当系统处于能量本征态时,它的标准差ΔE=0。与此同时,各个力学量的平均值也不随时间变化(定态),我们也可以说力学量平均值的变化周期T变成了无穷大,而这个跟时间相关的变化周期T,正是ΔtΔE≥ℏ/2里的Δt

也就是说,能量-时间不确定关系里的Δt不是什么时间的标准差,也不是测量时间的扰动,而是各个力学量的平均值的变化周期T

于是,当位置、动量这些力学量的平均值变化很快时(Δt很小),能量的不确定度就越大,标准差ΔE就越大;当任意力学量的平均值变化很慢时(Δt很大),能量的不确定度就越小,标准差ΔE就越小;当任意力学量的平均值不变时(Δt无穷大),能量的不确定度ΔE就等于0,也就是说能量完全确定了,那这就是能量本征态(定态)

图片

如果这样还不好理解,那我们再换个角度。你想想,如果系统不是处于能量本征态,而是处于两个能量本征态的叠加态,那系统的能量就不是确定值了,测量时就会有一定概率处于这个能量的本征值,有一定概率处于那个能量的本征值,能量的标准差ΔE也不再为0。

又因为系统处于两个能量本征态的叠加态,这不是定态,所以各个力学量的平均值也不会是定值,而会随着时间t变化,那力学量平均值的变化周期T(Δt)自然也不再是无穷大。

所以,当系统不是能量本征态(定态)的时候,能量的标准差ΔE>0(变大了),力学量平均值的变化周期Δt就不再是无穷大(变小了),此消彼长,它们的乘积仍然满足ΔtΔE≥ℏ/2

能量-时间的不确定关系比动量-位置不确定关系要难理解一些,因为时间在量子力学里只是一个参数,跟位置、动量、能量这些力学量有本质的区别。它的推导过程也更加复杂,需要大家有一定分析力学的基础,我这里就不细讲了,以后有机会再说(怕错过的盯着我的公众号长尾科技就行)。

在这里,大家只要知道ΔtΔE≥ℏ/2里的Δt不是时间的标准差,而是力学量平均值的变化周期T就行了。


13结语

再回过头看看,不确定性原理的表述和公式看起来都很简单,似乎谁都能看懂。但是,想要真正理解这些内容,还是得先建立量子力学的基本框架,学会从量子视角看问题,否则就会造成各种误解。

这种误解在量子力学里非常普遍:很多人一听到量子力学里说能量不连续,立马就觉得能量在任何情况下都是不连续的,并且脑补时间、空间也都是不连续的;一听到不确定性原理说无法同时测准位置和动量,就以为这是测量带来的干扰;看到量子力学都是在描述微观粒子,就觉得量子力学只在微观世界有效;一听到量子力学里谈概率,就觉得在量子力学里任何事情都是概率性的……

只要你还没有建立量子力学的基本框架,只要你还是从经典力学的视角看待量子世界的各种现象,这样的误解几乎是不可避免的。

你想想这篇文章,看看为了把一个看似简单明了的不确定性原理说清楚,我们依赖了多少《什么是量子力学?》里的内容?

图片

如果我们不知道量子力学的基本框架,不知道叠加态、本征态以及统计诠释,我们很难想象不确定性原理里的Δx、Δp竟然指的是统计意义上的标准差σx、σp,那各种误解就在所难免了。正因为我们知道Δx、Δp指的是标准差,我们才能清楚的看到:测量之前的位置和动量一样有标准差σx、σp,一样满足σxσp≥ℏ/2,它的根源是位置和动量之间的不对易[x,p]=iℏ,而不是测量带来的扰动。

至于能量-时间不确定关系,这里不仅需要我们理解能量本征态定态,还要理解时间t在量子力学里不是力学量,而只是一个参数。所以我们不能把ΔtΔE≥ℏ/2里的Δt理解为时间的标准差,而只能理解为力学量平均值的变化周期,这对量子力学的基础要求就更高了。

因此,我要先花大力气写《什么是量子力学?》,先帮大家把量子力学的基本框架搭起来,让大家养成从量子视角看问题的习惯,然后才能谈后面的。虽然搭框架的过程比较枯燥,不能一上来就讨论那些精彩的量子话题,但只有这样,我们才能打牢基础,才能在以后真正有机会深入讨论那些精彩的话题。否则,就只能在量子力学的世界里收获无穷无尽的“误解”。

关于不确定性原理,就先讲这么多吧~



必读前置文章:《什么是量子力学?》(这篇文章假定大家已经看过量子力学的这篇主线,许多结论都是直接用的)

更多主线(后台回复“主线”可获取全部主线文章):
收起阅读 »

什么是量子力学?

提到量子力学,很多人的第一反应是微观、不连续、不确定,然后就是玄乎、奇怪、诡异,乃至恐怖。有这样的想法并不奇怪,毕竟,它跟经典物理的确不太一样,大家也乐于相信玻尔说的:“如果谁不为量子力学感到困惑,他就还没理解它。”许多文章、视频也喜欢把量子力学往这个方向上引...
继续阅读 »
提到量子力学,很多人的第一反应是微观、不连续、不确定,然后就是玄乎、奇怪、诡异,乃至恐怖。

有这样的想法并不奇怪,毕竟,它跟经典物理的确不太一样,大家也乐于相信玻尔说的:“如果谁不为量子力学感到困惑,他就还没理解它。”

许多文章、视频也喜欢把量子力学往这个方向上引,大肆宣扬“看一眼”决定猫的生死,告诉你双缝实验有多“恐怖”,把意识和量子力学扯在一起等等。于是,量子力学在大众眼里就越来越玄乎,越来越诡异,越来越恐怖了。

图片

其实,量子力学并不奇怪,你觉得它奇怪,主要是因为你老是从经典力学的视角看量子力学,就像古人眼里闪电也很奇怪一样。

我们从小就浸泡在经典世界里,很多经典观念已经成了潜意识的一部分,你这样去看量子世界,自然会觉得它很奇怪。但是,如果你转换一下视角,尝试从量子的视角去看量子世界,就会发现一切都很自然。

那么,如何从量子视角看待量子世界呢?

想了解量子力学看待世界的方式,我们就得先搞清楚经典力学看待世界的方式。只有清楚经典力学是如何看待世界的,我们才能知道哪些观念是经典力学特有的,哪些观念进入量子力学之后需要修改,才能知道如何建立全新的量子世界观

那么,经典力学的世界又是什么样的呢?


01经典的世界

大家在中学都学过牛顿力学,我在《什么是高中物理?》里也介绍过。

牛顿力学里,想知道一个物体会如何运动,就要看它受到了什么力F,然后利用牛顿第二定律F=ma计算它的加速度a。算出了加速度,我们就能知道物体的运动状态会如何变化,就能根据物体此刻的状态(比如物体在哪,速度是多少)算出它下一刻的状态。

也就是说,在牛顿力学里,只要我们掌握了物体的受力情况,就能根据物体的初始状态知道它任意时刻的状态。比如,我们知道苹果下落是因为受到了地球的引力,知道引力就能知道苹果下落的加速度,然后知道苹果在任意时刻的速度位置

图片

这是一个非常典型的例子,大家也习惯于这样去处理物体的运动。但是,在这种非常自然的处理方式里,却暗含了一个极为重要的假设:我们知道苹果在某个时刻肯定在空间中的某个地方,也肯定有一个确定的速度,不管我们有没有去测量

什么意思?

你去测量苹果的位置和速度,肯定会得到一个数值。而且,你知道无论谁去测,测量多少次都不会改变这个结果。不可能说张三测量苹果在树上,李四去测,苹果就跑到了地上,顶多就是测量仪器会带来一点误差。

也就是说,经典力学认为:苹果的力学量在任何时刻都有确定的取值,它的位置和速度都是确定的,跟你测不测量,如何测量没有关系。不管谁去测,也不管怎么测,测多少次,测量结果在误差范围内应该都一样。因为,我们都确信苹果肯定有一个确定的位置和速度,测量只不过是想知道这个确定的值是多少而已,这是我们常识中的常识。

如果有个人跑来跟你说:不对,苹果没有确定的位置和速度,想知道苹果在哪就得去测量,测量结果是哪就在哪。而且,不同人测量的结果完全可以不一样,张三测得苹果在树上,李四可以测得苹果在地面,你肯定认为这个人疯了。

是的,任何力学量在任何时刻都有确定的取值,而且跟测量无关,这是经典力学刻在我们灵魂深处的信念。

但是,这种信念真的绝对可靠么?有没有可能它并没有想象中的那么天经地义?

带着这样的疑问,我们来看一看大名鼎鼎的斯特恩-盖拉赫实验


02斯特恩-盖拉赫实验

既然你觉得力学量在任何时刻都有确定取值,而且跟测量无关。那我们就来做个实验测一下,测什么呢?测量银原子的自旋

我们先甭管自旋是什么,只要知道这是粒子的一个固有属性,像质量电荷一样就行了。

图片

然后,大家要知道银原子的自旋在任意方向上都只能取两个值,我们记为向上向下。也就是说,你在任何方向测量银原子的自旋,结果都只可能是两个:要么向上,要么向下,没有其它值了。

知道了自旋以及它的取值,我们就可以开始测量了,用什么测呢?用磁场,准确的说是不均匀磁场

我们让银原子通过不均匀磁场,银原子就会发生偏转,不同自旋会有不同的偏转方向。我们约定,如果银原子向上偏转,就说它自旋向上;如果银原子向下偏转,就说它自旋向下。当然,这个对应关系并不重要,我们只要知道不同的自旋会有不同的偏转就行了。

之所以选择自旋,并不是因为自旋有多特殊,而是因为它足够简单,把自旋换成位置、动量也是一样的。

图片

然后,我们就可以开始实验了。

首先,我们在z方向加一个磁场(以后没有特别声明,文中的磁场均指不均匀磁场),然后让一束银原子通过这个磁场。

由于银原子有很多,有的自旋向上,有的自旋向下,不同自旋的银原子在磁场中的受力不一样,所以偏转方向也不一样。于是,这束银原子在z方向上就分裂成了两束,这没什么好说的(实验图片来自庄鹏飞老师的《现代量子力学》)。

图片

接下来,就是精彩的级联斯特恩-盖拉赫实验了。


03级联斯特恩-盖拉赫实验

所谓级联斯特恩-盖拉赫实验,顾名思义,就是在原实验的后面再加上磁场,继续做实验。而后面加的磁场,可能与原磁场方向相同,也可能不同

这些级联斯特恩-盖拉赫实验一共有三组,我们来分别看一下。

第一组实验:我们先让银原子通过z方向磁场,银原子分裂成了两束(原实验)。然后,我们把下面那束银原子挡住,让上面那束再次通过z方向磁场(如图一)。

图片

大家猜结果会怎样?

这个结果很好猜,因为银原子通过了一次z方向磁场,并分裂成了两束。那么,上面那束银原子在z方向的自旋就应该都一样(都自旋向上),你让它们再次通过z方向磁场,它们应该都向上偏转,因而不会分裂。

没错,实验结果也的确是这样:z方向分裂的银原子的其中一束再次通过z方向的磁场后,它们没有再次分裂

接下来,我们再看第二组实验。

第二组实验:还是让银原子先通过z方向磁场,分裂成两束后,继续让上面那束银原子再次通过一个磁场。不同的是,这次通过的不是z方向磁场,而是x方向磁场。

结果,我们看到银原子又分裂成了两束(如图二)。

图片

也就是说,被z方向磁场“筛选”过一次的银原子,虽然在z方向的自旋一样,但在x方向的自旋好像并不一样。

这个结果虽然有点意外,但多多少少也可以接受。因为,你可能会认为所有的银原子在z方向和x方向上都有一定的取值。第一个磁场把所有z方向自旋向上的银原子筛选了出来,第二个磁场则把所有x方向自旋向上的银原子筛选了出来。

这就好比选秀节目,每次从不同的维度筛选一批人。第一轮只有品行好的能通过,第二轮只有学习好的能通过,那么,通过两轮筛选的就都是品学兼优的精英了。

同理,你现在可能会认为:通过了z方向x方向两轮筛选的银原子,肯定都是在z方向自旋向上,在x方向也自旋向上的银原子。这些银原子都是历经两轮筛选的精英,它们都很纯了,以后不管是经过z方向磁场还是x方向磁场,它们都自旋向上,肯定不会再分裂了。

带着这样的想法,我们进入了第三组实验

第三组实验就是在第二组实验的后面再加了一个z方向磁场。也就是说,银原子经过z方向磁场后分裂成了两束,我们让其中一束经过x方向磁场(第二组实验)。再次分裂后,我们又让其中的一束银原子再次经过z方向磁场。

原本,我们以为银原子经过两轮筛选之后,在z方向和x方向上都自旋向上,再次通过z方向磁场时肯定不会再分裂。

但是,实验结果却让所有人震惊了:它-居-然-再-次-分-裂-了(如图三)!

图片

这是一次让人震惊的分裂,这是一次让人百思不得其解的分裂,这是一次彻底与经典力学划清界限的分裂,这是宣告量子力学来临的分裂。

你尽可以去思考它再次分裂的原因,但是,只要你还在用经典力学的思维思考问题,你是找不到出路的。或者说,只要你能意识到这个分裂的核心原因,你就已经站在了量子力学的大门口。

为什么?


04实验初分析

你仔细想想第三组实验,还是用选秀节目做类比。我们第一轮挑选出了品行好的(z方向自旋向上),第二轮挑选出了学习好的(x方向自旋向上),那么,通过两轮筛选的就应该都是品学兼优的人。

这时候,你再对这群品学兼优的人进行测试,按理说,不管是测品行(z方向)还是测学习(x方向),他们都应该是优秀(自旋向上)。但测试结果却显示:当我们对这群品学兼优的人再次测品行(z方向)时,他们竟然又分成了品行优秀和品行卑劣的两拨人(在z方向上分裂成两束),这如何不让人震惊?

但震惊归震惊,实验的的确确发生了,不管你愿不愿意相信,现实就摆在眼前。

那么,问题到底出在哪?到底是哪一个环节出了问题?一群已经通过两轮测试而品学兼优的人,再次测品行时,为什么又会分成品行优秀和品行卑劣的两拨人?

图片

有人说,是不是第一轮测试和第二轮测试的标准不一样?比如,第一轮测试品行时标准低一些,第二轮测试品行时标准高一些,于是,那些通过了第一轮测试的人的确有可能无法通过第二轮测试,进而导致第二轮测试时再次发生分裂(z方向上的再次分裂)。

听起来很有道理,但在实验里是不可能的。原因很简单,我们在实验里是用磁场测量银原子的自旋,而磁场都是一样的。你可以怀疑选秀节目的裁判不公正,但你总不能说磁场不公正吧?

所以,如果你打算在测试环节找问题,那对不起,此路不通!测试环节没问题,那就只能在被测人身上找原因了。

如果两轮测试环境完全一样,而一个人在第一轮测试时品行优秀,在第二轮测试时却品行卑劣,那就只能说明:这个人在第一轮测试时确实品行优秀,但到第二轮测试时就变成品行卑劣的了。测试标准没有变,那变的就只可能是这个人了,是他自己从品行优秀变成了品行卑劣的人

我知道很多人难以接受这样的结论,同样的人,只不过先后经历了两轮测试,怎么就变了呢?当然,我们可以说人心隔肚皮,他在两轮测试中的确变了也未可知。但是,人心可以变,银原子的自旋状态是由物理定律支配的,它怎么能说变就变呢?

同样是测量银原子在z方向的自旋,第一次测量时还是自旋向上,为什么第二次测量时就自旋向下了?

如果我们把自旋换成位置,那这个事情就变成了:第一次测量银原子的位置时,它在北京;第二次测量银原子的位置时,它变成了武汉,这太荒谬了!

在我们的潜意识里,一个物体在哪就在哪,它的位置是确定的,无论谁去测量,测量几次的结果应该都一样。在误差范围内,不可能一个人测得它在A位置,另一个人却测得它在B位置。

但是,喜欢看侦探小说的朋友肯定听过福尔摩斯的一句话:当你排除了一切不可能的情况,剩下的,不管多难以置信,那都是事实

图片

因为外部测试环境一模一样,z方向的磁场也一模一样,所以,造成前后两次测量结果不一样的原因,就不可能是来自外部环境,而必须是来自内部。必须认为是被测人的状态发生了改变(从品行优秀变成了品行卑劣),必须认为是银原子的状态发生了改变(从z方向自旋向上变成了自旋向下),我们才能解释上面的实验现象。

也就是说,不管你愿不愿意相信,你都必须接受“银原子在z方向上的自旋状态确实发生了改变”这一事实,这样两次测量结果才会不一样。而这,是经典力学打死也不相信的,所以,经典力学无法解释斯特恩-盖拉赫实验


05新的力学

那么,银原子在z方向的自旋状态为什么会改变呢?状态改变了,当然是受到了其它因素的影响,受什么影响呢?

我们再看看第一组级联斯特恩-盖拉赫实验:如果银原子通过z方向磁场后发生了分裂,我们让其中一束再次通过z方向磁场,它是不会分裂的。

但是,到了第三组实验,我们只不过在第一组实验的两个z方向磁场之间再加了一个x方向磁场,然后,第二次通过z方向磁场的银原子就分裂了。第一组没分裂,中间加了一个x方向磁场(第三组)以后就分裂了,这样一对比就会发现:能够影响银原子z方向自旋状态的,就只可能是中间测量银原子在x方向自旋这个操作了

也就是说,测量银原子在x方向的自旋竟然影响了银原子在z方向的自旋状态。测量会影响系统状态,这可新鲜了。

经典力学里,系统状态一旦确定,所有力学量的取值就都确定了,测量只不过是把这些值读取出来,并不会影响它们一个苹果在那里,它的位置和动量都是确定的,不论谁去测量,测量几次,都不会改变苹果的位置和动量。你去测量苹果的位置,当然也不会影响苹果的动量。

但是,第三组级联斯特恩-盖拉赫实验却告诉我们:通过第一个z方向磁场后,上面那束银原子都自旋向上。通过第二个z方向磁场后,原来自旋向上的银原子竟然有一部分变成自旋向下(所以才会分裂)。中间测量x方向自旋的操作的的确确改变了银原子在z方向上的自旋状态,这在经典力学里是不敢想象的。

到了这里,相信大家也看出来了:如果我们想描述斯特恩-盖拉赫实验,就必须发展一套全新的力学体系,因为这个实验展现出来的特性已经跟经典力学的根本观念发生了冲突。在这种全新的力学体系里,“测量”将具有完全不同于它在经典力学里的含义,它不再是简简单单地把某个确定的值读出来,而是会改变系统的状态,会参与到系统的演化中去

这种全新的力学,自然就是大名鼎鼎的量子力学

图片


06测量与状态

意识到“测量会改变系统状态”是一个关键点,但仅仅知道这些还不够。你知道测量可以改变系统状态,那测量是如何改变系统状态的呢?系统原来处于这个状态,测量之后又会变成什么状态呢?你得把这些都搞清楚了才行。

怎么搞清楚呢?当然还是回到斯特恩-盖拉赫实验

我们再走一遍第三组实验。一开始,银原子杂乱无序,什么状态都有,它们经过第一个z方向磁场后分裂成了两束。这时候,我们可以保守地下一个结论:向上偏转的那束银原子都自旋向上,向下偏转的那束都自旋向下

这个结论看起来很有道理,但对不对呢?我们刚刚踏进量子力学大门,下任何结论都要万分谨慎,因为以前的直觉到现在还不一定有效。我们想判断向上偏转的银原子是否都自旋向上,不能凭感觉,得去测量

怎么测量呢?你想知道银原子在z方向的自旋状态,让它通过z方向的磁场就好了。如果向上偏转的那束银原子在z方向的确都自旋向上,那它们再次通过z方向磁场时就不会分裂。

这个实验其实我们已经做过了,它就是第一组级联斯特恩-盖拉赫实验(让通过z方向磁场的银原子再次通过z方向磁场)。实验结果也很清楚:它的确没有分裂

图片

这样,我们才能下结论:在第三组实验里,银原子通过第一个z方向磁场之后,向上偏转的那一束的确都自旋向上

但是,这束银原子通过x方向磁场后,再次通过z方向磁场时,竟然又分裂了(最后那个惊天大分裂)。也就是说,经过第一个z方向磁场后,银原子们都自旋向上。但是,在经过第二个z方向磁场前,它们又变成了自旋向上和自旋向下都有的状态,为什么会这样?

很明显,夹在这两个z方向磁场之间的只有一个x方向磁场,那这种变化就只可能是这个x方向磁场导致的。

所以,第三组级联斯特恩-盖拉赫实验逼得我们不得不承认这样一个事实:银原子通过x方向的磁场后,它们就从z方向自旋向上的状态,变成了z方向自旋向上和自旋向下都有的状态


07死结

这个结论虽然有点奇怪,但接受起来似乎也没那么困难。因为我们已经接受了“测量会改变系统状态”,那么,测量x方向自旋会稍微影响一部分银原子在z方向的自旋状态也不足为怪。

但是,事情有这么简单么?我们继续往下挖。

你觉得测量x方向的自旋会影响一部分银原子在z方向的自旋,让原来都是自旋向上的银原子变成一部分自旋向上,一部分自旋向下,然后就有了后面的分裂。但问题是:它会让哪一部分银原子的状态发生变化呢

大家都是平等的银原子,现在有人说你们挑一部分出来变成自旋向下,那我挑哪一部分?你挑哪一部分大家都会不服气,凭什么?大家都一样,凭什么选中它而不是我?

图片

为了把这个矛盾更加尖锐地暴露出来,我们再做一个假设:假设通过x方向磁场的银原子不是一束,而是一个,你猜结果会怎么样?通过x方向的磁场后,它在z方向的自旋会是向上还是向下?

你敢肯定一定是自旋向上么?不,你不敢!

因为我是随机取的一个银原子,如果你敢肯定这个银原子在通过x方向磁场后在z方向的自旋一定是向上,那其它银原子是不是也都可以同理可得?如果所有的银原子通过x方向磁场后,在z方向的自旋都变成了向上,那第二次通过z方向磁场后就不会有那个惊天大分裂了。

同理,你也不敢肯定这个银原子在通过x方向磁场后,它在z方向的自旋一定向下

但是,这束银原子在通过x方向磁场后,的的确确变成了在z方向自旋向上和自旋向下都有的状态,否则,它们第二次通过z方向磁场时就不会再分裂。

也就是说,面对完全相同的一束银原子,通过同样的磁场之后,你既不能肯定某个银原子一定自旋向上,也不能肯定它一定自旋向下。但是,这束银原子又必须包含了自旋向上和自旋向下两种状态,这样才会有后面的分裂

这看上去是一个死结,是一个无解的题目。因为这些银原子的状态都一样,但是,对其中的每一个银原子来说,它既不能是自旋向上,也不能是自旋向下。而实验结果又要求这束银原子里必须包含了自旋向上和自旋向下两种状态,否则,第二次通过z方向磁场后就不会有那个惊天大分裂,这怎么看都自相矛盾!

怎么办?

看起来确实是身处绝境,但绝缝中还有一丝可能性,虽然这种可能性看起来太过石破天惊,太过不可能,但除此之外似乎也别无他法。这种可能性就是:我们只能假设每个银原子本身就具有自旋向上和自旋向下的状态,它本身就处在自旋向上和自旋向下的叠加态

什么意思?


08叠加态

意思就是,我们不能再非黑即白地看待银原子的自旋。你不能认为一个银原子要么自旋向上,要么自旋向下,它也可以同时具备这两种状态,处于它们的叠加态。你去测量银原子的自旋,结果就既可能自旋向上,也可能自旋向下,一人分饰二角。

只有这样,我们才能既满足“所有银原子的状态都一样”(都是自旋向上和自旋向下的叠加态),又满足“包含自旋向上和自旋向下两种状态”,从而解开上面的死结。

以前,你以为一个人要么是步兵,要么是炮兵。现在,你发现他还可以是特种兵,可以既是步兵又是炮兵。一群完全一样的特种兵,一样可以根据战场需求立马“分裂”成步兵队和炮兵队,就像银原子第二次通过z方向磁场后分裂一样。

图片

如果银原子既可以处于自旋向上的状态,也可以处于自旋向下的状态,还可以处于自旋向上和自旋向下的叠加态,那我们就可以认为通过x方向磁场后的每个银原子都是处于z方向自旋向上和自旋向下的叠加态。于是,第二次通过z方向磁场时,每个银原子都既可能向上偏转,也可能向下偏转,这样就分裂成了两束。

这里的核心要点是:第二次通过z方向磁场前,并不是说有一半的银原子自旋向上,一半的银原子自旋向下,通过磁场后自旋向上的那一半向上偏,自旋向下的那一半向下偏。而是,每一个银原子都处于自旋向上和自旋向下的叠加态(状态都一样),每一个银原子在通过z方向磁场前都不知道自己将会向上偏还是向下偏,只有通过磁场以后才知道

虽然这两种情况都会让银原子分裂成两束,但本质却完全不同:前者并非每个银原子的状态都一样,而且每个银原子的自旋都是确定的,这在经典力学里也能出现;后者是每个银原子的状态都一样,都处于叠加态,是量子力学才有的情况。

这样,我们就通过引入叠加态解开了那个死结,用一种比较合理的方式解释了第三组级联斯特恩-盖拉赫实验。

叠加态相对,我们把银原子处于确定的自旋向上或自旋向下的状态称为本征态。也就是说,现在的银原子可以处于自旋向上本征态、自旋向下本征态以及自旋向上和自旋向下的叠加态。


09重走实验

引入了叠加态本征态,我们再来走一遍第三组级联斯特恩-盖拉赫实验。

图片

银原子第一次经过z方向磁场后分裂成了两束,上面那束银原子自旋向上(因为第一组实验告诉我们,这束银原子再次通过z方向磁场后不会分裂),也就是都处于z方向自旋向上的本征态

我一再强调,“测量”在量子力学里具有完全不同于它在经典力学里的意义,它不再是一个单纯的显示器,而是要参与到系统演化中来。

我们让银原子通过z方向磁场,这就是一次测量,测量什么呢?测量银原子在z方向的自旋。通过第一个z方向磁场前,银原子处于什么状态我们不知道,但经过磁场的测量后,向上偏转的那束银原子就处于z方向自旋向上的本征态,向下偏转的那束银原子处于z方向自旋向下的本征态

于是,我们发现:测量银原子z方向的自旋,会让银原子从原来的状态变成z方向的自旋本征态,测量会这样改变系统的状态。

通过了第一个z方向磁场,上面那束银原子接下来要通过x方向磁场。同样,我们有理由相信,让银原子通过x方向磁场也会让它从原来的状态变成x方向的自旋本征态。

通过x方向磁场后,银原子又分裂成了两束,很显然,向上偏转的处于x方向自旋向上本征态,向下偏转的处于x方向自旋向下本征态。而这束银原子能分裂,就说明它们在通过x方向磁场必然是处于x方向自旋向上和向下的叠加态

于是,我们就把银原子通过x方向磁场前后的状态都搞清楚了:通过x方向磁场前,银原子处于x方向的自旋叠加态,同时还处于z方向自旋向上的本征态(因为刚通过第一个z方向磁场);通过x方向磁场后,银原子处于x方向自旋本征态

也就是说,通过x方向的磁场后,银原子在x方向的自旋确实从叠加态变成了本征态,那z方向的自旋呢?通过x方向磁场前,银原子在z方向处于自旋本征态,那么,通过x方向磁场后,它在z方向的自旋会不会发生改变呢?


10不对易

咋一看,这个问题有些奇怪:我们让银原子通过x方向磁场,测量的是银原子在x方向的自旋,影响x方向的自旋就罢了,你z方向上的自旋来凑什么热闹?z方向的自旋还是哪凉快哪呆着去,你通过x方向磁场前在z方向是自旋本征态,那通过后就继续保持本征态好了,别瞎凑热闹。

但是,仔细一想我们就发现不对劲了:在第三组实验里,通过x方向磁场的银原子接下来会第二次通过z方向磁场,并且发生分裂(就是最后的那个惊天大分裂)。银原子通过第二个z方向磁场后分裂了,就说明银原子在通过第二个z方向磁场前必然是处于z方向的自旋叠加态

通过第二个z方向磁场前跟通过x方向磁场后是同一时刻,于是,在通过x方向磁场前后,银原子在z方向的自旋状态也都清楚了:通过x方向磁场前,银原子处于z方向自旋向上本征态;通过x方向磁场后(第二个z方向磁场前),银原子处于z方向的自旋叠加态

也就是说,测量银原子x方向的自旋(通过x方向磁场),不仅让银原子在x方向上从叠加态变成了本征态,也让银原子在z方向上从自旋向上本征态变成了叠加态

这是一个在经典力学看起来完全不可理喻的结论,你测量银原子x方向上的自旋,影响x方向的自旋就罢了,为什么还要影响z方向的自旋呢?这不是狗拿耗子多管闲事么?

而且,如果测量x方向的自旋会影响z方向的自旋,那它还会影响其它力学量么?y方向的自旋会不会被影响?动量、位置、能量会不会被影响?如果测量一个力学量,所有的力学量都要被影响,那岂不天下大乱了?

还好,事情并没有乱到如此不可收拾的地步,测量x方向的自旋虽然会影响z方向的自旋,但它并不是谁都招惹,它只招惹跟它不对易的力学量。

如果两个力学量是对易的,它们就互相独立,先测量谁后测量谁不影响结果,它们可以有共同的本征态,可以同时测准;如果两个力学量不对易,它们就不独立,一般来说先测量谁后测量谁结果就不一样,它们没有共同的本征态,无法同时测准。

很显然,x方向自旋和z方向自旋就不对易,所以测量x方向自旋会影响z方向自旋。测量x方向自旋后,银原子就处于x方向自旋本征态,同时也处于z方向的自旋叠加态。这时候,测量x方向自旋有确定值,测量z方向自旋就没有确定值了。

因此,如果两个力学量不对易(比如x方向和z方向自旋,位置和动量),它们就没法同时处于本征态。系统处于一个力学量的本征态,测量这个力学量时能测准,另一个力学量就会因为处于叠加态而测不准。于是,你就没法同时测准它们,这就是所谓的不确定性原理

图片

当然,关于不确定性原理,这里只顺便提一嘴。现在我们只要知道测量x方向的自旋不仅会让银原子处于x方向本征态,也会影响z方向自旋,让银原子在z方向上从自旋向上本征态变成叠加态就行了。

这样,第三组斯特恩-盖拉赫实验就可以完全走通了:银原子通过第一个z方向磁场后变成了z方向自旋本征态,向上偏转的银原子通过x方向磁场后变成了x方向自旋本征态。与此同时,由于z方向和x方向的自旋不对易,它们无法同时处于本征态。所以,当银原子处于x方向自旋本征态的同时,在z方向就会从自旋向上本征态变成叠加态

于是,处于z方向自旋叠加态的银原子通过第二个z方向磁场后自然就分裂了,这就是最后的那个惊天大分裂,就是那个让经典力学百思不得其解的分裂。

至此,斯特恩-盖拉赫实验就全部走通了


11量子力学

可以看到,为了解释斯特恩-盖拉赫实验,我们引入了许多全新的假设。我们假设银原子可以处于自旋向上和自旋向下的叠加态,假设测量会影响系统的状态,假设如果两个力学量不对易,测量一个力学量会影响另一个的情况……

这些假设已经完全超出了经典力学的范畴,但顺着斯特恩-盖拉赫实验,你又会发现非如此不可。物理学家其实是很保守的,但凡经典物理修修补补还能用,大家也不至于掀桌子,量子力学是被逼出来的。

图片

有了这些全新的假设,我们就能定性地分析斯特恩-盖拉赫实验了。但是,光有定性的分析还不够,我们还要用数学语言定量地描述它们。

比如,你说银原子可以处于自旋向上和自旋向下的叠加态,那如何描述这种状态?系统处于叠加态还是本征态,测量自旋的结果会完全不同,那自旋这种力学量要如何描述?系统状态发生了变化,又要如何描述?等等。

我们知道,系统处于不同的状态,测量力学量会有不同的结果:处于本征态,测量结果是确定的;处于叠加态,测量结果不确定。如果系统状态发生了变化,各个力学量的测量结果也会随之发生变化。

在这样的语境下,系统状态就处在了一个非常核心的位置。所以,我们要先描述系统状态,那么,如何描述系统的状态呢?老办法,想知道量子力学里的情况,我们就先去经典力学看看。在经典力学里,我们是如何描述系统状态的呢?

假设有两个苹果,一个在北京,一个在武汉,我们会觉得它们的状态不一样,因为位置不同。当然,就算它们的位置一样,但如果一个静止,另一个却在运动,我们还是会觉得它们的状态不一样,除非它们的位置速度都相同。

也就是说,在经典力学里,我们可以用物体的位置和速度(或动量)这样的力学量来描述系统的状态

如果两个质点的位置和动量(速度)都一样,它们在时空中的状态就被唯一确定了。在和牛顿力学等价的哈密顿力学里,我们会以位置和动量为横、纵轴构建一个叫相空间的东西,相空间里的一个点(有个确定的位置和动量)就代表了一个运动状态。

与此同时,由于位置动量都可以直接观测,我们又用这些可观测量来描述系统状态,那系统状态可观测量之间就没啥区别了。另外,在经典力学里,无论系统处于什么状态,测量结果都是确定的,所以,测量结果可观测量之间也没啥区别了。

于是,在经典力学里,系统状态可观测量观测结果就都没啥区别了,都可以用位置动量来描述。你想确定一个粒子的状态,确定它的位置和动量就好了;粒子的可观测量也是位置、动量;最后的观测结果,无非就是把位置和动量的值读出来。

但是,量子力学里的观测结果却是跟系统状态有关的,系统处于本征态还是叠加态,观测结果会很不一样。自旋、位置这样的可观测量跟系统状态也不是一回事。这样的话,你再想用位置动量打发它们三个就不可能了。

那么,到了量子力学,我们要如何描述系统的状态呢?


12系统状态

能否还像经典力学那样,直接用可观测量来描述系统状态?比如,银原子的自旋可以取向上和向下,那我们就用S=0表示自旋向上的状态,用S=1表示自旋向下的状态,用这样的变量S来描述系统状态行不行?

不行!

如果银原子只处于本征态,我们确实可以用S=0描述自旋向上本征态,用S=1描述自旋向下本征态。但是,如果银原子处于叠加态呢?

有人说,那我用S=0.5描述银原子处于自旋向上和向下的叠加态,用S=0.7表示测量时有更大概率自旋向下,用S=0.3表示有更大概率自旋向上,行不行呢?

在这个特例里是可行的,但它无法推广。我们这里是碰巧自旋只能取S=0、S=1这样的分立值,如果现在讨论的不是自旋,而是位置呢?银原子的位置x本身就可以连续取值,x=0.3也只能表示某个位置本征态,那你要如何表示位置的叠加态?

所以,想用一个变量S描述银原子的自旋状态是不行的,变量不够用。不够用怎么办?简单,一个不够用那就再加一个呗,反正又不费电。

比如,我们可以用S0表示自旋向上本征态,用S1表示自旋向下本征态,如果银原子处于叠加态,我们就把它们加起来,用S=S0+S1描述叠加态不就行了么?

如果想改变叠加的权重,调节S0、S1前面的系数就行了。比如,我们可以用S=0.6S0+0.8S1表示测量时有(0.6)²=0.36的概率自旋向上,有(0.8)²=0.64的概率自旋向下(为什么是平方大家后面会明白)。

这样,不管力学量是取分立值(自旋)还是连续值(位置),我们都能描述叠加态了。你取几个值,我就弄几个变量,你处于什么样的叠加态,我就相应调节变量前的系数,再把它们加起来就完了。

而且,当你把银原子的叠加态写成S=S0+S1这样时,如果S0前面的系数为0,那就是S=0×S0+S1=S1,这不就是自旋向下的本征态么?同理,让S1的系数为0也可以表示自旋向上的本征态。这样,叠加态本征态就都可以用S=S0+S1的形式来描述,调节S0、S1的系数就可以表示不同权重的叠加态,本征态就可以看成一种特殊的(除它以外系数都为0)叠加态。

所以,用S=S0+S1描述银原子的自旋状态是一个不错的选择。

那么,当我们把系统状态写成S=S0+S1的时候,我们这是整了一个啥玩意出来了呢?有没有觉得有点眼熟?如果不够眼熟,那我把S0换成x,把S1换成y,这样S就可以写成S=x+y,这样总眼熟了吧?

没错,这就是一个矢量啊!

图片

你看,如果我们把S0和S1看成横坐标纵坐标,那它们就构成了一个平面,S=S0+S1就代表这个二维平面里的一个矢量。因为S0、S1的系数都是1,所以S=S0+S1就代表了从坐标原点(0,0)到(1,1)的一个矢量,记作S=(1,1)

也就是说,如果我们想在量子力学里描述系统的状态,用一个数是不行的,得用一个矢量。这个用来描述系统状态的矢量,就被称为态矢量

态矢量确定了,每个基矢的系数(坐标)就确定了,我们就能知道银原子是处于本征态还是叠加态,知道测量时有多大概率自旋向上,多大概率自旋向下。虽然不知道结果到底是自旋向上还是向下,但概率知道了,我们还能算出它的平均值

也就是说,态矢量确定了,虽然自旋的具体取值不确定,但它的平均值却是确定的。我们正是在这个意义上说态矢量完全描述了系统的状态,这跟经典力学完全不一样。

但大家也清楚,自旋是粒子的内禀性质,就像质量、电荷一样,跟粒子在时空中的位置、速度无关。所以,当我们只考虑自旋时,粒子的自旋态空间其实是一种内部空间。如果我们不考虑自旋,而是考虑粒子在外部时空中的运动情况,那就要看它的位置和动量了。

银原子的自旋可以取两个值,我们用S=S0+S1表示它的状态,这是一个二维的态矢量,对应的自旋态空间是一个二维空间。而位置可以取无穷多个值,我们就要用S=S0+S1+S2+……表示它的状态,这是一个无穷维的态矢量,对应的态空间一个无穷维空间

如果你既想描述粒子的自旋,又想描述它在外部时空的情况,那就得把这两个态空间“加”起来,在数学上就是对它们做一个张量积

由此可见,大家常见的矢量都在二维、三维欧式空间里,而态矢量却可以在无穷维空间。另外,量子力学里的态矢量不再局限于实数,而把范围扩大到了复数。这部分数学内容我不打算多讲,大家只要知道态矢量所在的空间并不是欧式空间,而是一个范围更大的空间就行了。这个空间,我们称之为希尔伯特空间,态矢量是希尔伯特空间中的矢量。

也就是说,在量子力学里,我们用希尔伯特空间中的矢量描述系统状态,这是我们第一个非常重要的结论。


13力学量

知道如何描述系统状是一个巨大的进步,但这里有个问题:描述系统状态的是希尔伯特空间中的矢量,而它是无法直接观测的。你想想,态矢量是二维、三维、N维,甚至无穷维空间中的一个矢量,你能直接观测么?

不能!

经典力学里,我们用位置动量描述系统的状态,而位置和动量本身就可以直接观测。到了量子力学,描述系统状态的是希尔伯特空间中的态矢量,而它无法直接观测,可以直接观测的是自旋、位置、动量这些力学量。

所以,如果你的理论不想跟实际脱节,那就得想办法描述这些力学量。我们用态矢量描述系统状态,那自旋、位置、动量这些力学量要如何描述呢?

我们知道,测量自旋的结果跟系统状态有关:银原子处于本征态,测量结果是对应的本征值;银原子处于叠加态,测量结果就有可能是自旋向上,也有可能自旋向下。如果态矢量确定了,每个基矢前面的系数(坐标)就确定了。系数确定了,测量时是各个结果的概率也就确定了。

如果概率分布确定了,力学量的平均值也就确定了。而平均值,是可以直接观测的,这一点很重要。

也就是说,虽然态矢量无法直接观测,力学量在一般情况下也没有确定值。但是,如果态矢量确定了,力学量的平均值就确定了。态矢量无法直接观测,但力学量的平均值可以直接观测啊,我们可以从这里入手。

由于自旋没有经典对应,不方便理解,我们来看看大家更熟悉的位置

图片

假设电子只能处于x=1和x=2两个位置,跟自旋类似,如果电子处于位置叠加态,测量位置时就有一定概率发现电子处于x=1处,有一定概率发现电子处于x=2处。如果两种概率都是50%,那位置的平均值就是x=1×0.5+2×0.5=1.5;如果处于x=1的概率是70%,处于x=2的概率是30%,那位置的平均值就是x=1×0.7+2×0.3=1.3。

可见,态矢量确定后,概率分布也就确定了,虽然每个电子的位置依然不确定(可能在x=1,也可能在x=2),但位置的平均值却确定了(两个态矢量分别对应x=1.5和x=1.3)。

这里要说明一下,经典力学里测量平均值的方法,通常是测一次记下一个数,再测一次,再记下一个数,最后求平均。但在量子力学里却不能这么干,因为量子力学里的测量会改变系统的状态

电子处于某个叠加态,你测一下位置,它就会变成某个位置本征态,你再去测量这个处于位置本征态的电子,测量结果就会一直是这个本征值,这显然就不对了。

所以,如果你想测量处于叠加态电子的位置平均值,就得提前准备许多它状态完全相同的电子,然后分别测量每一个电子的位置。测量一个就记一个位置(注意,每个电子只测一次),然后测下一个电子,最后对所有的位置求平均,这样才能测出这个状态下的位置平均值。

于是,我们就清楚了:如果系统状态确定了,虽然力学量不一定有确定值,但力学量的平均值却一定是确定的。而平均值又可以直接观测,这样,我们就在系统状态和可观测量之间架起了一座桥梁。

在量子力学里,系统状态是用希尔伯特空间中的矢量来描述的。现在我们想求这个状态下的力学量平均值,就必然要对这个矢量进行一些操作,让它产生一个实数(平均值)。那么,能对矢量进行操作、变换的东西是什么呢?

算符

算符可以作用在一个矢量上,把它变成另一个矢量。比如,我们把一个矢量平移到另一个地方,完成这个操作的就叫平移算符;把一个矢量旋转一下变成另一个矢量,就叫旋转算符;把一个矢量投影到某个坐标轴,就叫投影算符

图片

也就是说,如果我们测出了电子在某个状态的位置平均值,现在你要用算符对描述这个状态的态矢量进行一番操作,让态矢量“吐”一个实数出来(当然,算符直接作用在矢量上只能得到另一个矢量,想得到一个数还得借助它的对偶矢量,这里我们不细说),并且让这个实数就等于我们测量得到的位置平均值。

这样的话,看起来就是有一个算符作用在态矢量上,经过一番操作后得到了位置的平均值。在这个意义上,我们说这个算符描述了位置这个力学量,叫它一声位置算符不为过吧?

在数学上,算符可以用矩阵来表示,一个矢量跟一个矩阵相乘,其结果还可以是一个矢量,这就相当于对矢量进行了一个变换。在各种变换里,有一种变换很特殊:它对某个矢量进行变换的结果,就好像是把原矢量拉长或缩短了一定倍数

当然,矩阵的这种变换只对一些特殊的矢量成立,我们把这些特殊矢量叫做这个矩阵本征矢量(特征矢量),这个拉长或缩短的倍数就叫本征值(特征值)。

名字都取成这样了,相信大家不难看出它跟量子力学的关系。在量子力学里,我们用矢量描述系统状态,用算符描述力学量。而算符又可以用矩阵来描述,于是,对算符A来说,也可以出现当它作用在某个态矢量|Ψ>上时,就好像把这个态矢量|Ψ>拉长了a倍。

写成方程就是:A|Ψ>=a|Ψ>,这就叫算符A的本征方程,|Ψ>是本征态,a就是对应的本征值。

需要注意的是,这个方程左边的A是一个算符,用矩阵来描述,右边的a是一个数。所以,你可千万别把方程左右两边的|Ψ>给约去了,然后得到A=a(很多初学者容易闹这样的笑话)。

于是,数学物理就对上了:我们用矢量描述系统状态,用算符描述力学量。算符可以写成矩阵的形式,而矩阵有对应的本征矢量和本征值,它们就对应了本征态以及测量力学量时可能出现的结果

这样的话,你想知道力学量可以取哪些值,解对应算符A的本征方程A|Ψ>=a|Ψ>就行了。你想知道力学量在某个状态下的平均值是多少,用算符A作用在对应的态矢量上,经过一些操作也能算出来。

而且,不同算符之间一般不能交换次序,也就是我们前面说的不对易,这是量子力学非常重要的一个特点。

这样,只要知道了算符的情况,就能知道对应力学量的情况。于是,我们就得到了第二个极为重要的结论:在量子力学里,我们用算符描述力学量,而且不同算符之间一般不能交换次序

由于力学量和测量密切相关,因此,第三个极为重要的结论是关于测量的:我们测量一个力学量,测量结果只可能是对应力学量算符的本征值之一

这个结论几乎不用作过多说明,因为我们一直就是这么干的。我们早就知道测量银原子的自旋会让系统从叠加态变成某个本征态,测量结果就是对应的本征值。现在,我们只不过是知道了,原来这些本征态和本征值是跟一个算符对应起来的。

在斯特恩-盖拉赫实验里,自旋对应的算符是泡利矩阵,解泡利矩阵的本征方程就能得到两个本征矢量和两个本征值,分别对应自旋向上和自旋向下。去测量银原子的自旋,结果也只能是泡利矩阵的两个本征值之一。

当然,由于测量结果必须是实数,这对算符会有一定的要求(必须是厄米算符),具体概率也都可以算,这些就不细说了。

这样,力学量问题就圆满解决了。


14静态的图像

此时,如果这里有个电子,我们就能知道如何描述电子的状态,知道如何描述它的力学量,也知道力学量可以取哪些值,对应的概率是多少,平均值又是多少,我们知道了电子此刻的一切。

如果你是一位画师,你可以把电子此刻的物理图像画下来,但是,也仅仅是画下此刻的一帧图像。因为你并不知道电子在下一刻的状态,于是就不知道下一刻的概率分布,不知道下一刻的力学量平均值,也就没法画出下一刻的物理图像。

所以,我们现在描绘的是一幅静态量子图像,它不能动。如果我们想让静态的量子图像动起来,想描绘运动变化的量子世界,就得知道系统下一刻会处于什么状态。

也就是说,我们必须知道系统状态是如何随时间变化的,知道如何根据系统此刻的状态求出它下一刻的状态,这就是量子动力学的问题。

那么,如何找出系统状态随时间的变化规律呢?能从上面的结论推出来么?不能,因为我们现在只知道要用矢量描述系统状态,并不知道它如何随时间变化。

还是老规矩,想知道量子力学里的情况,我们先去经典力学里看看。

在牛顿力学里,知道了物体的位置速度,就知道了物体的状态。如果你还想知道物体下一刻的状态,也就是想知道物体下一刻的位置和速度,要怎么做呢?

很简单,学过中学物理的朋友都清楚(不清楚的可以先看看《什么是高中物理?》):想知道物体在下一刻的位置和速度,就得先找到物体受到的合外力F,然后利用牛顿第二定律F=ma算出物体的加速度a。有了加速度,我们就能根据物体此刻的速度算出它下一刻的速度,进而求出下一刻的位置。于是,我们就知道了物体在下一刻的状态。

也就是说,我们之所以能求出物体下一刻的状态,关键就在于牛顿第二定律F=ma。正是因为有了F=ma,我们才能根据物体此刻的位置和速度求出它下一刻的位置和速度,才能知道系统的状态会如何随时间变化,才能描绘出物体的运动图像。

同理,如果我们想让量子图像也动起来,想知道量子力学里的系统状态如何随时间变化,我们也要找一个类似牛顿第二定律F=ma这样的方程。

图片

牛顿第二定律是怎么来的?它是从牛顿力学的其它结论推出来的么?

当然不是!每个理论都有一些最基本的假设,它们是这个体系里最底层的东西,是推不出来的(当然,如果以后发现了更深刻的理论,有了更基本的假设,能从那里把这些假设推出来,那就是另外一回事了),它们的正确性只能由实验来保证。很显然,牛顿第二定律F=ma就是牛顿力学的一个基本假设。

同样的,量子力学里描述系统状态随时间变化的方程也应该是一个基本假设,它也没法从量子力学的其它结论里推出来,它的正确性也只能由实验来保证。

1925年,在白雪皑皑的阿尔卑斯山,在各种新思想的刺激下,在一位神秘女子的陪伴下,有个人得到了这个描述系统状态随时间变化的方程,得到了这个相当于牛顿力学里F=ma的方程,这就是大名鼎鼎的薛定谔方程。写出这个方程的大佬,自然就是薛定谔

图片


15薛定谔的工作

相信大家都听过薛定谔方程,各种科普书也会提到它。但是,大部分人都只知道薛定谔方程很重要,却不知道它为什么重要,也不知道它到底在讲什么。

现在大家心里有数了:薛定谔方程是描述系统状态随时间变化,它能让静态的量子图像动起来,就像牛顿力学里的F=ma一样,重要性不言而喻。

那么,薛定谔方程是如何描述系统状态随时间的变化的呢?

我们知道系统状态用矢量来描述的(第一个结论),我们采用狄拉克的记号,把态矢量记作|Ψ>。这样,你想知道系统状态如何随时间变化,就是想知道态矢量|Ψ>在不同时间t会取什么样的值,这就是一个关于时间t的函数,我们记作|Ψ(t)>

t取不同的时间,|Ψ(t)>就会有不同的取值,这不就是态矢量|Ψ>随时间变化的规律么?所以,薛定谔方程想描述系统状态随时间的变化,就是要说明|Ψ(t)>应该遵守什么样的规律。那么,它会遵守什么样的规律呢?

由于薛定谔方程是量子力学的基本假设,无法从其它结论里推出来,那就只能靠“猜”了。当然,这不是乱猜,而是要基于事实分析,利用缜密的逻辑和合理的想象提出一些假设,然后用实验来验证。

薛定谔当年主要是看到了“光学和力学之间的相似性”,进而把光学的一些结论推广到了力学,最终得到了薛定谔方程

他是怎么做的呢?

首先,薛定谔注意到几何光学波动光学的短波长极限。这个好理解,当光的波长越来越短时,光波看起来就越来越像光线,波动光学自然就慢慢趋近于几何光学。

图片

然后,薛定谔注意到,作为几何光学基本方程的程函方程跟分析力学里的哈密顿-雅克比方程非常相似。于是,薛定谔就想:如果几何光学是波动光学的短波长极限,那么,跟几何光学相似的分析力学会不会也是某种波动力学的极限?

也就是说,有没有可能说我们现在的力学只是“几何力学”,它只是某种波动力学的极限(就像几何光学只是波动光学的极限那样)?并且,这种波动力学里某个方程的短波长极限,刚好就是“几何力学”里的哈密顿-雅克比方程

答案我们都知道,这种波动力学就是量子力学,薛定谔方程的短波长极限就是哈密顿-雅克比方程。

当然,这不是什么巧合,并不是说薛定谔无意中发现了一个方程,然后这个方程的极限刚好就是哈密顿-雅克比方程。而是反过来:薛定谔就是要找一个极限是哈密顿-雅克比方程的东西,然后才找到了薛定谔方程,而这种波动的力学就是量子力学。

按理说,这种想法是非常自然的。物理学家只要注意到了程函方程哈密顿-雅克比方程的相似性,知道几何光学和波动光学的关系,考虑是否存在一种波动力学就是很自然的一件事。那么,为什么直到薛定谔才开始认真考虑这个事呢?

其实,哈密顿本人就注意到了光学和力学之间的这种相似性,因此也有人说哈密顿距离发现薛定谔方程只差临门一脚。

图片

但是吧,物理毕竟不是数学,它是要对现实负责的,并不是说逻辑上成立东西现实中就一定存在。在当时,光的波动性已经取得了广泛的共识,但谁会认为力学,认为石头、苹果也具有波动性?而且,当时经典力学也运行得非常好,人们对它信心十足,谁会跑去倒腾什么波动的力学?

然而,到了薛定谔这会儿,情况就完全不一样了。经典力学已经受到了严重的挑战,量子革命正在如火如荼的进行着,德布罗意也提出了革命性的物质波思想。这时候,考虑一般物体的波动性,考虑是否存在一种波动力学,使得现有的力学只是波动力学的极限就有了非常现实的基础。

于是,薛定谔就开始思考,如果现在的力学只是某种波动力学的极限,那现在的哈密顿-雅克比方程会是哪个波动方程的极限呢?

答案大家都知道,它就是大名鼎鼎的薛定谔方程。也就是说,如果我们让薛定谔方程取短波长极限,也就是让普朗克常数h趋近于0,它就会回到分析力学里的哈密顿-雅克比方程

所以,如果你想了解薛定谔方程,最好先了解一下分析力学


16薛定谔方程

当然,这篇文章是科普量子力学的,这里也只能非常简单地讲一点分析力学,让大家知道为什么薛定谔方程会写成这样就行了。至于分析力学的具体内容,以后再说,怕错过的盯着我的公众号就行。

简单来说,分析力学是一套跟牛顿力学完全等价的力学体系,它并没有什么新东西,只是描述方式跟牛顿力学不太一样。

牛顿力学的核心是,我们分析物体的运动时要先受力分析,然后利用牛顿第二定律F=ma计算物体的运动情况;分析力学的核心是能量,我们不需要对物体进行复杂的受力分析,只要选择合适的广义坐标,找到系统的拉格朗日量L哈密顿量H(这俩知道一个就能求出另一个),代入拉格朗日方程哈密顿方程就能求出物体的运动情况。

因为力是矢量,分析时要考虑大小方向,而能量是标量,只考虑大小就行了。所以,在环境比较复杂,约束条件比较多的时候,从能量入手的分析力学往往会简单很多。

当然,如果分析力学仅仅是一个更好用的牛顿力学,一个处理复杂问题更加简单的牛顿力学,我们似乎也没必要花很大精力去研究它。分析力学最大的优点,是它处理问题的这套方法可以很方便地推广到经典力学以外,不管是电磁场还是量子力学都可以这么处理,而牛顿力学却不行。这是拉格朗日、哈密顿等分析力学创始人们始料未及的。

也就是说,牛顿力学处理问题的那一套方法没法直接搬到量子力学,我们在量子力学里也不会对物体进行受力分析,而是要用分析力学的那一套。在分析力学里,只要知道了系统的哈密顿量H,把它代入哈密顿方程就能求出系统的运动情况,量子力学也是这样。

也就是说,在量子力学里,如果我们知道了系统的哈密顿量,把它代入一个方程,就能知道系统的状态会如何变化。

在一般情况下,系统的哈密顿量H在数值上等于动能势能,也就是系统的总能量。因为能量也是一个力学量,量子力学用算符描述力学量,所以,哈密顿量H进入量子力学之后也要入乡随俗地变成哈密顿算符H

而我们又知道,在量子力学里描述系统状态随时间变化|Ψ(t)>的正是薛定谔方程。因此,如果把哈密顿算符H代入某个方程就能知道系统状态随时间的变化情况,那这个方程自然就是薛定谔方程。

所以,薛定谔方程就是这么一个东西:你给出系统的哈密顿算符H(t),把它代入薛定谔方程,求解方程就能得到系统状态随时间的变化|Ψ(t)>

具体形式如下:


可以看到,薛定谔方程的主体就是哈密顿算符H(t)和系统状态随时间变化|Ψ(t)>的一个关系,i是虚数单位,ℏ是约化普朗克常数(ℏ=h/2π),读作h bar。这是一个微分方程,因为它不仅包含了|Ψ(t)>,还包含了|Ψ(t)>对时间t的求导(d/dt)。

知道了系统的哈密顿算符H(t),我们就能通过求解薛定谔方程把描述系统状态随时间变化的|Ψ(t)>求出来。知道了系统的状态,就知道了概率分布,知道了各种力学量的平均值,也知道了测量时会发生的情况,然后啥都知道了,这是分析许多量子力学问题的一个大致思路。

于是,我们就有了第四个极为重要的结论:系统状态随时间的变化|Ψ(t)>遵守薛定谔方程。有了它,静态的量子图像就能动起来了。


17基本框架

至此,我们前前后后总结了四条非常重要的结论:
第一,用态矢量描述系统状态;
第二,用算符描述力学量,而且不同算符之间一般不能交换次序
第三,测量一个力学量,其结果是该力学量算符的本征值之一;
第四,系统状态随时间的变化遵守薛定谔方程

有了这些结论,量子力学的大致框架就搭建起来了。

我们知道如何描述系统状态,也知道系统状态如何随时间变化,就等于知道了系统在任意时刻的状态。于是,我们就能知道系统在任意时刻的概率分布、力学量平均值以及测量结果,也就知道了系统的一切。

很显然,这四个结论并不是我随便乱找的,它们是量子力学五大基本假设中的前四个,其重要性不言而喻。最后一个基本假设是所谓的全同性原理,这里先不管,以后涉及多粒子时再说。

这样,我们就从斯特恩-盖拉赫实验出发,一步步把量子力学的基本框架搭起来了。

图片

看到这里,估计很多人心里在犯嘀咕:这怎么好像跟我预想中的量子力学不太一样?在我的印象里,量子力学不应该是谈不连续、不确定,谈黑体辐射、双缝实验、薛定谔的猫的么?你一直在这里谈系统状态,谈态矢量和算符,这还是我印象中的量子力学么?

当然是!

量子力学就是量子力学,我不可能编个其它东西来骗你。我们现在做的,就是把量子力学的基本框架搭了起来,至于你熟悉的那些东西,都能从这里推出来。学习量子力学不能只图看个热闹,我们不仅要知道这些现象是怎么回事,还要知道它们是怎么来的。

接下来,我们就来看看它们是怎么从量子力学的基本框架里冒出来的。


18一个电子

先来看个最简单的例子:一个电子。

经典力学里,一个电子就像一个小球,你可以说它在哪,速度是多少,它在任何时候都有确定的位置和动量。你它一下,它的运动状态就会改变,如何变的,接下来的位置和速度是多少都能计算出来。如果让一堆电子通过双缝,经典力学会觉得这就像是一堆子弹射过双缝,是断然不会出现干涉条纹的。

图片

到了量子力学,情况就不一样了。你不能再说这个电子在哪,因为,当你说“电子在哪”的时候,就暗含了此时的电子具有确定的位置。毕竟,只有位置是确定的,你才能说它在哪嘛。

而我们又知道,电子是否有确定的位置取决于它的状态:处于位置本征态时,电子的位置是确定的,测量时有确定值,你可以说电子在哪;处于位置叠加态时,电子的位置不确定,测量时有一定概率处于各个位置的本征值,这时候你说“电子在哪”就没什么意义了。

图片

所以,我们不能把一些观念想当然地搬进量子力学,有些观念在经典力学里没问题,但到量子力学就不对了。我们要慢慢养成从量子框架思考问题的习惯,建立系统的量子观念,逐步形成量子力学的思维方式。

在量子力学的基本假设里,我们用态矢量描述系统状态,用算符描述力学量。电子的位置是否确定取决于它的状态,那怎么看它的状态呢?

斯特恩-盖拉赫实验里,银原子的自旋可以取两个值,对应的状态就有自旋向上本征态、自旋向下本征态以及它们的叠加态。而电子的位置可以取无穷多个值,那对应就有无穷多个位置本征态以及它们的叠加态,我们就要用无穷维空间中的态矢量来描述它。

态矢量确定了,电子处于位置本征态还是位置叠加态就确定了,测量位置时有没有确定值也就知道了。我们只能这样谈论电子的位置,而不能像经典力学那样直接说电子在哪。

位置谈完了,如果你还关心动量,想知道电子的动量有没有确定值,怎么办?一样的,想知道动量是否有确定值,我们就看系统是处于动量本征态还是动量叠加态,还是看态矢量

但这样就有了一个问题:我们想看电子的位置是否确定,需要看态矢量是不是位置本征态;想看电子的动量是否确定,要看态矢量是不是动量本征态。这里出现了两个态矢量,它们是什么关系?是同一个态矢量,还是两个不同的态矢量?

稍微想一下就知道:它们必须是同一个

态矢量是描述系统状态的,如果系统已经处于某个状态了,态矢量就应该确定了。这时候,分析位置还是动量是你的自由,并没有影响系统,那描述系统状态的态矢量自然就不会改变。

而且你看,薛定谔方程里用|Ψ(t)>描述系统状态,时间t确定了,|Ψ(t)>就确定了。也就是说,态矢量只跟时间t有关,跟你分析位置还是动量无关。

再说了,电子的力学量可不止动量和位置,难道多一个力学量就要多一个态矢量出来?没这道理。

因此,它们必须是同一个态矢量!也就是说,你想看电子的位置是否确定,要看这个态矢量是否处于位置本征态;你想看电子的动量是否确定,还是要看这同一个态矢量是否处于动量本征态。

那问题就来了:如果它们是同一个态矢量,那分析位置动量时的这种差别又是怎么来的呢?


19表象

如果电子处于某个状态,位置说态矢量处于本征态,测量位置时有确定值;动量说不对,态矢量明明处于叠加态,测量动量时没有确定值。位置说态矢量处于本征态,动量说态矢量处于叠加态,它们谁也不服谁,都认为自己是对的,对方是错的。

这让我想起了盲人摸象的故事:一群盲人在摸一头大象,有人摸到了大象的身体,说大象像一堵墙;有人摸到了大象的鼻子,说大象像一条蟒蛇;有人摸到了大象的尾巴,说大象像一根绳子。盲人们争吵了起来,谁也不服谁,都觉得自己是对的,其他人是错的。

图片

类似的,这里只有一个态矢量,从位置角度看,态矢量处于位置本征态;从动量角度看,态矢量处于动量叠加态。他们都对,只是看待态矢量的角度不同罢了。

什么意思?

提到矢量,很多人的第一反应是一个箭头,这是一个很抽象的形象。

图片

如果想把这个抽象的矢量具体化,想用一组具体的数字描述它,就得先做一件事:建立一个坐标系

坐标系建好了,比如建了一个笛卡尔坐标系,我们就可以把抽象的矢量投影到坐标系,投影到各个坐标轴的系数就是对应的坐标。然后,我们就可以用诸如(1,2)这样的具体数字表示原来的矢量,抽象的矢量就被具体化了。

当然,你可以建立笛卡尔坐标系,自然也可以建立球坐标系或其它坐标系。坐标系不同,同一个矢量在坐标轴的投影就不同,对应的坐标也就不一样。

态矢量也是矢量,它当然也可以被分解到不同的坐标系里。

斯特恩-盖拉赫实验里,我们用S0表示自旋向上本征态,用S1表示自旋向下本征态,然后用S=S0+S1表示它们的叠加态,调节S0和S1的系数就代表不同权重的叠加态。然后,我们发现如果把S0当作横坐标,把S1当纵坐标,银原子的状态就可以用二维空间中的一个矢量来表示。

同理,如果不考虑自旋,而是考虑粒子在时空中的位置,我们一样可以用一个态矢量来描述它的状态。

跟自旋不同,粒子的位置一般可以取无穷多个值,这样它就有无穷多个位置本征态,我们就要用无穷多个本征矢量|a1>,|a2>,… ,|an>,…来描述(本征态也是一种状态,自然也要用矢量来描述)。

自旋那里,我们用代表自旋本征态的S0、S1为坐标轴构建了一个二维坐标系;到了位置这,我们就要用代表位置本征态的无穷多个本征矢量|a1>,|a2>,… ,|an>,…构建一个无穷维坐标系,粒子的状态就用这无穷维空间中的态矢量来描述。

也就是说,虽然粒子只在三维空间中运动,但描述粒子状态的态矢量却不在三维空间,而是在无穷维空间,这是很多初学者容易混淆的。

那么,我们如何才能得到位置的本征矢量呢?

前面讲过了,在量子力学里,我们用算符描述力学量(假设二),所以要用位置算符描述位置。知道了位置算符A,求解它的本征方程A|Ψ>=a|Ψ>就能得到描述位置本征态的本征矢量|Ψ>。我们再以这些本征矢量为基矢,就能构建一个位置相关的坐标系。

态矢量分解到这个坐标系里,如果态矢量跟坐标轴重合,也就是跟位置的某个本征矢量重合,那就代表了位置本征态;如果态矢量不跟坐标轴重合,那就代表了位置叠加态,相信这个不难理解。

同理,我们也可以以动量算符的本征矢量为基矢构建一个坐标系,然后把态矢量分解到这个动量相关的坐标系里。如果态矢量跟坐标轴重合,也就是跟某个动量的本征矢量重合,那就代表了动量本征态;如果态矢量跟坐标轴不重合,那就代表了动量叠加态。

很显然,我们用位置算符动量算符构建的是两个不同的坐标系。当态矢量在一个坐标系里跟某个坐标轴重合时,它在另一个坐标系里完全可以跟坐标轴不重合。这样,一个态矢量就完全可以在位置那里是本征态,在动量这里是叠加态,并不矛盾。

当然,这里还有个小问题:在N维空间里,一个力学量算符的本征矢量能否组成基矢,从而构建一个坐标系?

一组矢量在N维空间里能否构成基矢,关键就要看它们是否有N个独立的矢量。比如,在三维空间里,我们就要看是否存在三个独立的矢量,直观地看就是这三个矢量是否共面。如果共面,那不在这个面上的矢量就没法由它们表示出来,它们就不能被称为基矢了。

对于这个问题,虽然数学上有点麻烦,但结果却很简单:那些有不同本征值的本征矢量都是相互正交的,就算有多个本征矢量对应了同一个本征值(简并),我们也总能找到一组基矢。总之一句话:力学量算符对应的本征矢量总能构成空间中的一组基矢,你可以放心地用它们去构建坐标系

在量子力学里,选取这样一组基矢就叫选取了一个表象。因为我们选取的基矢是位置算符的本征矢量,建立起来的表象就叫位置表象,或者叫坐标表象。如果选取的基矢是动量算符的本征矢量,那建立起来的就是动量表象

这样的话,之前的问题变成了:面对同一个态矢量,我们既可以在位置表象里分解,从位置角度看,系统处于位置本征态;也可以在动量表象里分解,从动量角度看,系统处于动量叠加态,两者并不矛盾。


20玻恩规则

表象选好了,我们就可以把抽象的态矢量投影到具体坐标系里了,然后用具体的坐标来表示态矢量。而我们又知道,态矢量是描述系统状态的(假设一),那进入具体表象后,态矢量的各个坐标又有什么物理意义呢?

斯特恩-盖拉赫实验里,为了描述银原子的叠加态,我们用S0表示自旋向上本征态,用S1表示自旋向下本征态,然后用S=S0+S1表示叠加态。如果把S0看成横轴,把S1看成纵轴,那矢量S的坐标就是(1,1)。这时候,如果我们去测量银原子的自旋,就会有50%的概率自旋向上,50%的概率自旋向下,概率一样大。

如果我们修改一下系数,把叠加态写成S=0.6S0+0.8S1,对应的坐标就变成了(0.6,0.8)。这时候,测量得到自旋向上的概率是(0.6)²=0.36,得到自旋向下的概率是(0.8)²=0.64,两个概率就不一样了。

也就是说,当我们以一个力学量算符的本征矢量为基矢构建了一个坐标系时,每个坐标轴就对应了一个本征态,态矢量投影到各个坐标轴的系数(坐标)的平方就代表了测量结果是这个本征态对应本征值的概率

图片

说起来有点绕,其实想想也很简单。我们的坐标系就是以力学量的本征矢量为基矢构建的,态矢量在某个坐标轴的投影越长(坐标越大),自然就代表了它“含有”这个本征态的比例越高,测量结果是这个本征态对应本征值的概率自然就越大。如果态矢量全都投影在某个坐标轴上,在其它坐标轴的投影为0,那测量结果是这个本征态对应本征值的概率自然就是100%。

态矢量的这种概率性解释是玻恩最先提出来的,因而也叫玻恩规则,玻恩也因此获得了1954年的诺贝尔奖。

图片

通过玻恩规则,我们就把态矢量的坐标跟测量时得到对应本征值的概率联系起来了。


21波函数

有了这些认识,我们就能在具体表象下讨论问题了。

还是那个电子,当我们在位置表象下考虑问题时,我们其实是以电子的位置算符的本征矢量为基矢构建了一个坐标系,再把描述电子状态的态矢量投影到这个坐标系里了。

现在只考虑一维情况,也就是假设电子只在x方向运动。如果电子处于x=1的位置本征态,测量时就会在x=1这个位置发现它。因为这是一个本征态,我们要用一个本征矢量来描述它,而本征矢量又是坐标系的基矢,会对应一根坐标轴。所以,x=1这个位置本征态就会对应坐标系里的一根坐标轴。

当然,除了x=1,电子的位置还可以在x=2,x=2.5等无穷多个地方,同样,每个位置本征态都会对应坐标系里的一根坐标轴。这样一来,这个坐标系里就会有无穷多个坐标轴。

现在,我们把态矢量投影到这个拥有无穷多个坐标轴的坐标系里去,它在每一个坐标轴上就会有一个投影系数,也就是态矢量在这个坐标轴上的坐标

比如,x=1是一根坐标轴,代表了x=1的位置本征态。态矢量在这个坐标轴上有一个投影系数,也就是它在这个轴上的坐标,我们记作Ψ(1)。同理,态矢量在x=2、x=2.5上也会有一个投影系数(坐标),我们分别记作Ψ(2)、Ψ(2.5),以此类推。

玻恩规则又告诉我们:态矢量在x=1这个坐标轴上的投影系数的模的平方|Ψ(1)|²,就代表了测量时在x=1处发现电子的概率。同理,|Ψ(2)|²就代表了测量时在x=2处发现电子的概率。电子的位置x还可以取3、3.5、4.1等无穷多个地方,每个地方都有一个对应的投影系数Ψ(x),它的模的平方|Ψ(x)|²就代表了在这里发现电子的概率。

也就是说,给定一个电子可以取的位置x,我们都能找到一个与之对应的投影系数Ψ(x),使得|Ψ(x)|²就代表了在x处发现电子的概率

给定一个位置x,就有一个数Ψ(x)与之对应,这种从数到数的映射是什么?

函数啊!是我们初中就学了的函数。

图片

所以,进入位置表象以后,态矢量在各个坐标轴的投影系数(坐标)就是一个关于位置x的函数,我们把它记作Ψ(x)。而这个函数的名字,就是大名鼎鼎的波函数

很多朋友对态矢量波函数感到很迷糊,因为有的地方说“用态矢量描述系统状态”,有的地方又说“用波函数描述系统状态”,这样他就晕了。明明一个是矢量,一个是函数,看起来八竿子打不着,为什么系统状态好像既可以用态矢量来描述,又可以用波函数来描述呢?

原因就在这了,因为波函数是跟具体表象绑定在一起的。我们只有选定了具体的表象,建立了具体的坐标系,把态矢量投影到具体坐标系的系数才是波函数

所以,我们说“用态矢量描述系统状态”没错,说“用波函数描述系统状态”也没错。就好像我们既可以说矢量a,也可以把它分解到一个坐标系,说这是矢量(1,2)一样。

建立了位置表象,态矢量在这个具体坐标系里的投影系数就是波函数Ψ(x),波函数的模的平方|Ψ(x)|²就代表了在位置x发现这个电子的概率。比如,Ψ(1)=0.1就代表在x=1这个地方发现电子的概率是0.1²=0.01,Ψ(2)=0.2就代表在x=2这个地方发现电子的概率是0.2²=0.04等等,这样问题就具体化了。

当然,你能建立位置表象,自然也能建立动量表象。我们一样可以以动量算符的本征矢量为基矢构建一个坐标系,然后把态矢量分解到这个坐标系里。这样,态矢量的投影系数就是动量表象下的波函数,它的模的平方就代表了测量时发现电子具有这个动量的概率

很显然,不同表象之间是等价的。你既可以在位置表象下讨论问题,也可以在动量表象下讨论问题,就像你既可以选择笛卡尔坐标系,也可以选择球坐标系一样。同一个态矢量,它既可以对应位置表象下的波函数,也可以对应动量表象下的波函数,它们就差了一个傅里叶变换

图片

因为大家平常对位置表象接触得比较多,所以有些人就误以为量子力学就是位置表象下的量子力学。他不太清楚位置表象动量表象的关系,也不太清楚波函数态矢量的区别,这样就始终云里雾里的。

好,现在我们进入位置表象


22位置表象

进入位置表象以后,我们就可以用波函数代替原来的态矢量了。而我们又知道,系统状态随时间的变化是遵守薛定谔方程的(假设四),而原来的薛定谔方程是用态矢量|Ψ(t)>来描述系统状态的:


所以,现在我们可以用波函数代替原方程里的态矢量。

因为薛定谔方程描述的是系统状态随时间的变化,我们用波函数Ψ(x)描述系统状态,那波函数随时间t的变化自然就是Ψ(x,t)。因此,在位置表象下,我们就可以用波函数Ψ(x,t)代替原来的态矢量|Ψ(t)>

但这样还不够,为了让薛定谔方程更加具体,我们把哈密顿算符H(t)也一并展开。

关于哈密顿算符,我们前面讲过一点。在这里,大家只要知道:一般情况下,如果我们知道了系统的哈密顿算符,就知道了系统本身的情况(比如粒子的数量、质量以及它们之间的相互作用)以及系统所处的外部情况(比如粒子所在的外部电磁场)。基本上,知道了系统的哈密顿算符,我们就知道了系统的一切。

经典力学里,如果系统与外界不存在能量交换,系统的哈密顿量H一般可以写成动能(P²/2m)加上势能V,在数值上就等于系统的总能量


到了量子力学,力学量要用算符来描述。那么,跟能量紧密相连的哈密顿量自然也要算符化,算符化的结果就是薛定谔方程里的哈密顿算符H

很显然,如果系统的哈密顿量H可以写成动能(P²/2m)势能V,我们想把它算符化,就要把里面的力学量,也就是动量P算符化。在位置表象下,动量P算符化的结果是-iℏ∂/∂x。为什么长这样我们先不管,但大家要记住,这只是动量算符在位置表象下的形式,它在其它表象下就不长这样了。

于是,我们就集齐了在位置表象下写出薛定谔方程的全部条件:用波函数Ψ(x,t)代替态矢量|Ψ(t)>,把哈密顿算符H展开成最常见的一种形式(P²/2m+V),并找到了位置表象下的动量算符(-iℏ∂/∂x)。

然后,我们就可以在位置表象下重新写出薛定谔方程了(只考虑一维情况):


这个方程比原来的长一些,看起来也复杂了一些。但是,它只是用Ψ(x,t)代替了|Ψ(t)>,并把哈密顿算符H(t)展开了而已。它们的核心区别是:原来的方程是一般的薛定谔方程,没有指定表象,现在这个是位置表象下的薛定谔方程


大家看看这个方程,i、ℏ是常数,m是质量,如果势能函数(一般简称为势函数)V(x,t)确定了,那未知量不就只剩下波函数Ψ(x,t)了么?一个方程一个未知量,求解方程就能得到波函数Ψ(x,t)了。

也就是说,对位置表象下的薛定谔方程来说,只要给定了势函数V(x,t),我们就能解出一个与之对应的波函数Ψ(x,t)(能否求出精确解就是另外一回事了)。

知道了粒子的波函数Ψ(x,t),我们就能知道在任何时间t,任何位置x发现粒子的概率|Ψ(x,t)|²(玻恩规则)。概率分布确定了,力学量平均值也就确定了,我们正是在这个意义上说波函数完全描述了系统状态。

牛顿力学里,给物体一个外力,物体就会有一个加速度,它的状态也会随之变化。到了量子力学,我们不再用“力”来描述外界的影响,而用势(能)函数。比如,牛顿力学谈重力,我们这里就谈重力势能;牛顿力学谈弹力,我们就谈弹性势能。

分析力学是一套以能量为核心的体系,它跟以为核心的牛顿力学不一样。量子力学沿用了分析力学的逻辑,所以,在薛定谔方程里出现的是势(能)函数,而不再是力。

因此,只要我们确定了势函数,就能通过求解薛定谔方程得到描述粒子状态的波函数,进而知道粒子的各种情况。事实上,大家一开始学习量子力学时,很大一部分工作就是求解各种势函数下的薛定谔方程。

比如,对于自由落体的粒子,它的势能就是重力势能-mgx,所以势函数V(x,t)就是-mgx(不含时间t)。我们把-mgx代入薛定谔方程,求解方程就能得到描述粒子状态的波函数Ψ(x,t)。然后,我们就能知道1秒、2秒、n秒在某个地方发现这个粒子的概率以及各种力学量的平均值。

类似的,对于一个简谐振子,它的势函数是V(x)=mω²x²/2(也不含时间t)。我们把它代入薛定谔方程,解出波函数Ψ(x,t)以后,一样可以得到它的各种信息。

也就是说,如果我们想了解一个量子系统,通常要先做两件事情:第一,找出系统的势函数V(x,t);第二,把势函数代入薛定谔方程,解方程求出描述系统状态的波函数Ψ(x,t)

一般来说,找势函数是比较容易的,但是,薛定谔方程是一个偏微分方程,求解起来就没那么容易了。事实上,我们只在极少数情况下能精确求解薛定谔方程,在更多时候,我们只能采取一些近似方法。

这样,相信大家对量子力学的基本框架,以及量子力学处理问题的一般方法就有了个大致了解。然后,我们就可以这样去分析具体问题了,得到的结论是什么样就是什么样,大家平常熟悉的那些反常识、不可思议的量子力学特性都是这么来的。不信的话,我们来看一看。


23不连续的问题

首先,我们来看一个大家都喜闻乐见的话题:不连续性

很多量子力学科普都是从黑体辐射开始的,并告诉你正是普朗克创造性地把能量的传播看成一份一份,而不是连续的,这才解决了黑体辐射难题,从而开创了量子力学。

图片

当然,普朗克当时只是把这当作一个数学技巧,并不真的认为能量的传播就是不连续的,后面到了爱因斯坦才把这当作物理现实。再往后,玻尔通过假设电子的轨道是分立的,无法连续吸收、释放能量,初步解决了氢原子问题。

总之,如果单独看量子力学的初期发展史,会让很多人会误以为量子力学就是让一切都分立化,让一切都不连续。似乎只要我们让一些东西离散化,那些经典力学无法解释的问题就会迎刃而解,似乎不连续性就是量子力学的核心。

有的同学还会觉得,想要建立量子力学,是不是只要让经典力学的东西都离散化,让经典力学全都变成不连续的就行了?

但是,你看看我们这里讲的量子力学,通篇都在讲什么用矢量描述系统状态,用算符描述力学量,用薛定谔方程描述态矢量随时间的变化等等,压根都没提什么连续不连续。

有的同学走得更远,他觉得量子力学里到处都是不连续,那么,量子力学里的时间空间肯定也是不连续的。刚好,他又知道普朗克时间普朗克长度的概念,于是,他就在脑海里把时间和空间切成了一块一块,并认为这就是量子力学,然后说自己轻而易举地解决了芝诺悖论

不得不说,如果只是看了一点量子力学科普书,然后基于它们做了一些自以为合理的延伸,再加上点脑洞,得出这样的结论是非常正常的。但是,如果稍微系统地学了一点量子力学知识,就会知道这样的推论是错得离谱的。

最简单的证据,你看看薛定谔方程,里面出现的是对时间t和空间x的求偏导∂/∂t、∂/∂x。求导意味着什么?求导意味着一定连续啊,相信大家多多少少还记得“可导一定连续,连续不一定可导”。

图片

薛定谔方程里有对时间空间的求偏导操作,这明摆着就是在告诉我们:量子力学里,我们假设时间和空间是连续的,否则,薛定谔方程就没有意义了

确实,在有些量子引力理论,比如圈量子引力里就认为时间和空间是不连续的,但这并不是我们常说的量子力学。它属于量子引力的前沿探索领域,理论本身都还存在许多问题,也还没得到人们的共识。

而大家常说的量子力学,它在理论上是非常成熟了的,也经历了无数实验的考验,它假定时间和空间是连续的。

也就是说,虽然量子力学里可以有不连续的东西(比如能量),但时间、空间这个背景舞台却依然是连续的。而且,我们说能量可以不连续,而不是一定不连续,它在有的情况下依然可以连续。所以,像“量子力学里一切都是不连续的”这种简单粗暴的念头,趁早打消了吧~

那么,既然量子力学里的时间空间都是连续的,而能量却可以不连续,那这种不连续是怎么产生的呢?


24直觉和反直觉

到了这里,我要跟大家强调一件非常重要的事:学习量子力学时,我们要以量子的眼光看待世界,而不是以经典的眼光看世界。我们不要老觉得量子世界很奇怪,于是非要用自己更加熟悉的经典图像去类比。量子力学是更加底层的东西,需要被解释的不是量子力学,而是经典力学。

我们真正应该问的,不是量子力学为什么奇怪,而是经典力学的种种现象是如何从量子力学涌现出来的?我们真正该奇怪的,不是量子世界为什么是这样,而是经典世界为什么可以这样?

量子力学已经诞生百年了,面对这个极其成功并且已经深刻改变了我们的思想和生活的理论,按理说,我们应该觉得它已经很自然了。但事实却与此截然相反:很多人一提到量子力学,第一反应依然是反直觉、反常识,觉得这个理论稀奇古怪,难以琢磨,不可理喻!

但是,你想过没有,当你在说量子力学反直觉的时候,你到底在说什么?你能够反直觉,说明你之前已经有了一个直觉。你有了一套看待世界的直觉以后,又发现了某些不符合这些直觉的现象,然后才会反直觉。

对大部分人来说,这个直觉就是中学阶段学习牛顿力学所形成的直觉。

图片

所以,当他们试图把量子世界的种种现象纳入原先的版图,试图用牛顿力学的思维和习惯理解量子现象时,发现理解不了,于是就觉得反直觉了。

这种事说来也正常,如果一个人已经积累了很多经验,在遇到新事物以后,他自然会希望原来的经验还能派上用场。所以,在量子力学初期,那些物理大师一样希望能在经典框架内解决问题,他们有意无意地保留了许多经典物理的思维和概念,经历了大约四分之一个世纪艰苦卓绝的探索后,才形成了比较系统的量子力学。

大概是量子力学前25年的历史太过精彩,各种人物轮番登场,各种思想对经典物理发起了一轮又一轮的冲击。量子力学内部又有矩阵力学和波动力学两股力量,后面还有玻尔爱因斯坦的论战,拿来说书再合适不过了。

这就引发了一个比较严重的问题:现在市面上关于量子力学的科普书,绝大部分都是在讲量子力学这前25年的历史

他们从普朗克与黑体辐射开始,讲爱因斯坦和光电效应,讲玻尔和氢原子,讲海森堡和神秘的矩阵,讲德布罗意和物质波,讲薛定谔的神秘女郎和薛定谔方程,再配合矩阵力学和波动力学的小论战,以及玻尔和爱因斯坦的大论战,一本精彩纷呈的量子力学科普书就完成了。

这样写的书,当成量子力学史来看是不错的。但是,如果你把它当成量子力学科普书,希望从这里学习量子力学的思维,了解量子力学的基本框架和处理问题的一般方法,那就非常容易出问题了。

原因也说了,量子力学前25年的历史本身就充斥着各种混乱,那些大师们在思考问题时也掺杂了各种经典的东西。从经典视角看待量子力学,自然会各种反直觉,奇怪,乃至诡异。如果你想学习量子力学,没有学到如何从量子视角看待世界,反而学来了一堆反直觉诡异,这可不是什么好事。

比如这里的不连续性,很多人看完量子力学前25年的历史后,对这个不连续性的印象极其深刻。于是,他很容易认为量子力学就是在说一切都不连续,时间不连续,空间也不连续,认为把经典力学全部离散化之后就能得到量子力学,然后开始各种胡思乱想。


25波粒二象性

类似的还有波粒二象性,这也是一个很典型的试图用经典思维来解释量子现象的东西。我们在经典力学里谈到波,就会想到类似水波这样的东西;谈到粒子,就会想到类似豌豆那样的东西。

但是,在量子力学里,如果你还说粒子性,那也只是说它具有一定的质量、电荷这种属性,一个电子的行为一点也不像一粒豌豆,它根本没有确定的轨道;你在量子力学里说波动性,那也只是说它具有相干叠加性,并不是说空间中真的有一个类似水波这样的东西。

图片

这样导致的结果就是,你看啊,我们先是千方百计地让读者接受任何粒子都具有波粒二象性:一个电子既是波又是粒子,它有时候像波,有时候像粒子。当我们用波动的方式去测量时,它表现得像;当我们用粒子的方式去测量时,它表现得像粒子

等大家被这个搅得一团乱,却只记住了“电子既是波又是粒子”之后,你又跑来告诉读者:不好意思,我们量子力学里说的这个波啊,它不是经典的波;量子力学里说的粒子,它也不是经典的粒子

读者:……

你完全可以想象,经过这样一轮科普之后,读者能不迷糊么?他能不觉得量子力学玄之又玄,既反直觉又诡异么?如果脑洞再大一点,借着波粒二象性继续发挥一下:电子既是波也是粒子,既有阴也有阳,阴阳五行相生相克……这就很容易形成拳打薛定谔,脚踩海森堡,一记左勾拳撂倒玻尔爱因斯坦的局面。

归根结底,波粒二象性是在量子力学发展初期,在那个混沌阶段,人们试图用尽量多经典概念描述量子力学的产物。在量子力学还没建立起来之前,人们的确需要这样一根拐杖,但是,在量子力学已经建立起来的一百多年后,我们还有必要拄着一百年前的拐杖一步一拐吗?

我们在文章里讲用态矢量描述系统状态,用算符描述力学量,用薛定谔方程描述系统状态随时间的变化,通篇都没提什么波粒二象性,也没必要。

经典力学里,波和粒子是两种不能并存的实体,区分它们是很自然的。但到了量子力学,我们只要从量子力学的基本框架出发,就会发现粒子具有确定的质量、电荷,描述粒子状态的波函数具有相干叠加性都是非常自然的事情,没有必要刻意提让人容易混淆的波粒二象性。以后学了量子场论,大家会觉得这更加自然。

当然,如果你执意要用波粒二象性,也不是不可以。但是,你一定要清楚当你在说波粒二象性时,你到底在说什么,你要清楚量子力学里的波动性粒子性跟经典力学里的有什么区别。

我们都知道量子力学是比经典力学更加深刻的理论,经典力学能描述的东西量子力学能描述,经典力学不能描述的东西量子力学也能描述。既然这样,为什么我们学习量子力学的时候还要管经典力学怎么看?为什么我们还要做着“从经典力学的视角去理解量子力学”这种既荒诞又无用还容易制造各种混乱的事情呢?

图片

我们就不能堂堂正正地学习量子力学,用量子的方式思考量子问题么?我们要做的不是“如何从经典视角理解量子力学”,而是应该反过来:如果我们更加底层的世界是量子的,那经典世界的种种现象是如何涌现出来的

如果量子力学的基本假设里没有不连续性,那我们常说的能量不连续是怎么冒出来的?如果不用波粒二象性这种半经典半量子的东西,我们要如何解释单电子双缝干涉实验?量子世界充满了各种概率和不确定性,为什么宏观世界好像没有?如何从量子力学出发,给物理世界一个完整而又自洽的描述?等等。

这是一系列非常宏大的话题,我们留到后面慢慢谈。在这篇文章里,我们就先把量子力学的基本框架搭起来,学习量子力学处理问题的一般方法,把这些都搞清楚了,我们的头脑就完成了一次从经典到量子的格式化。然后,你就会觉得量子力学很自然,而不再反什么直觉,因为现在的量子力学才是你的直觉

所以,我们要逐步尝试用量子的方式思考量子力学问题。我们不是已经找到了量子力学的基本假设么?从这里出发就好了。

那么,我们就从这里出发,看看能量为什么可以是不连续的?再次提醒,这里说的是“可以”,而不是“一定”。


26能量是否连续?

假设这里有个粒子,我们想看它的能量是否连续。首先,我们要意识到:当我们在说这句话的时候,我们到底在说什么?

经典力学里,一个粒子的动能跟它的速度有关,而粒子的速度可以连续取值,它可以是1,可以是1.6,也可以是其它任何一个实数,于是,粒子的动能也可以连续取值。同样的,粒子的势能也可以连续取值,因为势能依赖位置,而位置可以连续取值。

图片

所以,在经典力学里,粒子的动能和势能都可以连续取值,那粒子的总能量当然可以连续取值,这没什么好说的。

到了量子力学,如果你还想通过粒子的速度去寻找动能,就会发现此路不通。原因也很简单,经典力学的速度是指单位时间内的位移变化量。粒子此刻在A点,一秒后到了B点,我们用AB两点间的距离除以时间,就能得到速度的大小,进而得到动能。

但是,我们在量子力学里还能说粒子此刻在A点么?

不能啊!只有当粒子处于位置A的本征态时,我们才能说粒子一定在A点。如果粒子处于位置叠加态,那测量时就有一定的概率在A点,有一定的概率在B点、C点等等。因此,粒子在一般情况下并没有确定的位置,那你就不能说它此刻在A点。同理,你也没理由说它下一秒就一定在B点。

位置都不确定,那如何确定粒子的速度呢?

所以,我们不能像经典力学那样谈论粒子的动能,也没法像经典力学那样谈论能量的连续性。我们必须丢掉经典力学的经验,直接从量子力学的框架出发考虑问题。

我们知道,量子力学里是用算符描述力学量的(假设二)。能量也是力学量,那自然也要用算符来描述,用什么算符呢?前面说了,用哈密顿算符。在经典力学里,粒子的能量一般就等于哈密顿量,我们把它算符化以后,就得到了薛定谔方程里的哈密顿算符H。而我们又知道,测量一个力学量的结果是对应算符的本征值之一(假设三)。

因此,如果我们想判断粒子的能量是否连续,就不是像经典力学那样看它的速度是否连续,而是要看哈密顿算符的本征值是否连续

前面讲过了,经典力学里的哈密顿量H一般写成动能(P²/2m)势能V

图片

在位置表象下,动量P对应的算符长这样-iℏ∂/∂x(为啥长这样先不管了),把它代进去,就得到了位置表象下的哈密顿算符H

图片

也就是说,想看能量是否连续,我们就要看这个哈密顿算符H的本征值是否连续。

想看一个算符的本征值是否连续,前面也讲过了,解这个算符的本征方程A|Ψ>=a|Ψ>,这里的a就是算符A的本征值,|Ψ>是对应的本征态)就行了。

所以,我们现在的问题变成了:哪找哈密顿算符H的本征方程


27定态薛定谔方程

想找哈密顿算符的本征方程,你得先找一个含有哈密顿算符的方程吧?大家看看位置表象下的薛定谔方程:

图片

哈密顿算符H跟薛定谔方程的右边是不是有点像(废话,没进入表象的薛定谔方程的右边就是哈密顿算符,能不像么~)?

如果我们可以像代数乘法那样把Ψ提出来,那这个方程的右边是不是就只剩下哈密顿算符H了?也就是说,如果可以把Ψ提出来,那位置表象的薛定谔方程的右边就可以写成,我们就能看到哈密顿算符H了。

但是很可惜,这个方程的右边并不是代数乘法,位置表象下的波函数Ψ(x,t)势函数V(x,t)也都是既跟时间t有关,又跟空间x有关的多元函数,不是随随便便就能提出来的。

因此,如果想把Ψ提出来,你就得先想办法把波函数Ψ(x,t)和势函数V(x,t)的时间和空间部分分开,怎么做呢?

先看势函数,现在的势函数V(x,t)是既跟时间t有关,也跟空间x有关,那怎么才能把它们分开呢?简单,我们就直接假设势函数不依赖时间t好了。也就是说,我们就只考虑不依赖时间t,只考虑跟空间x有关的势函数V(x)。

大家想想我们平常遇到的情况:一个物体的重力势能只跟高度有关(跟时间无关),一个弹簧的弹性势能只跟位置有关(跟时间无关),我们做电磁学题目,一般也是先给定一个电磁场(不随时间变化)。可见,不依赖时间t的势函数V(x)是非常常见的,我们先考虑这种简单情况,以后再考虑更加复杂的也不迟。

图片

势函数解决了,那波函数呢?

为了把波函数的时间和空间部分也分开,我们把波函数Ψ(x,t)写成只包含位置的ψ(x)和只包含时间的φ(t)的乘积:

图片

当然,你可能会说凭什么把波函数写成这种形式?的确,可以写成这种形式的波函数只是很少的一部分。但后面大家会看到,更一般的解都可以通过这少部分的解构造出来。所以,我们先寻找这一小部分解集还是非常有意义的。

于是,我们就通过假定势函数V不依赖时间,并把波函数Ψ(x,t)写成ψ(x)φ(t)这样的形式,把薛定谔方程的时间空间部分分开了。

然后,我们就把波函数的新形式ψ(x)φ(t)代入位置表象下的薛定谔方程,经过一个简单地懂的都懂,不懂也没关系的求导、替换工作,原来的薛定谔方程就变成了这样:

图片

为了方便区分,我们把既包含时间,又包含空间的波函数用大写的Ψ(x,t)表示,把只包含空间的部分用小写的ψ(x)表示,把只包含时间的部分用φ(t)表示。

可以看到,由于Ψ(x,t)被拆成了ψ(x)和φ(t)相乘的形式,原来方程里的求偏导∂/∂x,∂/∂t都变成了普通的求导d/dx,d/dt,这样形式就简单了。这么一来,方程的左边就真的只跟时间t有关,方程的右边就只跟空间x有关了(因为右边的势函数V不依赖时间,ψ(x)也不含时间)。

一个跟时间相关的东西(方程左边)等于一个跟空间相关的东西(方程右边),看起来好像不太可能,两个互不相关的函数怎么会相等呢?

但是,它们还是有相等的可能性的,那就是:它们都恒等于一个常数

你想啊,左边的东西是随时间变化的,可能8点一个值,9点一个值;右边的东西是随位置变化的,可能北京一个值,武汉一个值。左右两边没有任何关系,你现在让它们强行相等,那它们就只能都等于一个常数了,我们姑且把这个常数记为E

于是,上面的方程就可以拆成这样两个:

图片

第一个方程非常简单, 求解也很容易,这里先不管,我们重点看第二个方程。如果把方程二的左右两边都乘以ψ,它就可以写成这样:

图片

这个方程有个很响亮的名字,叫定态薛定谔方程

为什么叫定态呢?从表面上来看,“定”应该是不动,不随时间变化的意思。但是,我们这里只是假设势函数V不依赖时间,波函数Ψ(x,t)虽然写成了ψ(x)φ(t)的形式,但依然是跟时间φ(t)相关的,似乎谈不上“定”。

但是,我们想一下玻恩规则:|Ψ(x,t)|²表示在时间t,在位置x发现粒子的概率。也就是说,虽然波函数Ψ(x,t)跟时间t相关,但波函数本身却不对应什么物理现实,真正有物理意义的是波函数的模的平方|Ψ(x,t)|²,它代表我们在某时某地发现粒子的概率。

但是,当我们计算|Ψ(x,t)|²的时候,却发现时间因子在计算过程中竟然相互抵消了,最后的结果反而跟时间无关。更具体的说,|Ψ(x,t)|²就等于|ψ(x)|²,它只跟空间部分有关。

于是,当势函数V不依赖时间时,虽然波函数Ψ(x,t)本身跟时间相关,但概率分布|Ψ(x,t)|²=|ψ(x)|²却跟时间无关。这样,任何力学量的平均值就也跟时间无关,所以我们才说这是“定态”,是概率分布和力学量平均值都不随时间变化的状态。


28能量本征态

明白了定态的意义,我们再来追问那个常数E的意义,那个让时间和空间部分相等的常数E是什么?

大家都知道,在物理学里,我们一般用E表示表示能量(Energy),那这个常数E跟能量有没有什么关系呢?

有关系!这个E,正是系统的能量

为什么?我们再来看看定态薛定谔方程

图片

这里的ψ只跟空间x有关,是个一元函数ψ(x)。这样的话,我们就可以把方程左边的ψ提出来,那剩下的部分就是哈密顿算符H了。

于是,我们就可以把定态薛定谔方程写成Hψ=Eψ这种非常精简的形式了。温馨提示,这里的H是哈密顿算符,是一个算符,而E是一个数。大家可不要大笔一挥把ψ约掉了,闹出一个H=E的笑话来~

很多人应该还记得,我们在讲“用算符描述力学量(假设二)”时讲过算符的本征方程:如果力学量用算符A描述,那当系统处于力学量的本征态ψ时,力学量的取值就是确定的。无论你测量多少次,测量结果都会是本征值a,对应的本征方程就是Aψ=aψ

我们再看看定态薛定谔方程Hψ=Eψ,跟算符的本征方程(Aψ=aψ)是不是很像?一般情况下,能量对应的算符就是哈密顿算符H,如果ψ又是能量本征态,那Hψ=Eψ不就是能量的本征方程了么?

但问题是:这个ψ是能量的本征态么

如果ψ不是能量本征态,那定态薛定谔方程Hψ=Eψ就不能看作能量本征方程。因此,如何判断这个ψ是不是能量本征态呢?

首先,我们回想一下这个ψ是怎么来的:我们假设势函数V不依赖时间,然后把波函数Ψ(x,t)拆成了时间和空间部分的乘积ψ(x)φ(t),而这个ψ就是空间部分。

咋一看,这个ψ似乎跟能量本征态没啥关系,但光看不行,我们还得计算。

如果ψ真的是能量本征态,那E就是对应的能量本征值。这时候,你去测量系统的能量,测量结果就一定是本征值E,平均值也一定是E。

因此,如果你想证明ψ是能量本征态,就得先证明哈密顿算符H在状态ψ的平均值等于E。如果平均值都不等于E,那这肯定就不是本征态了。通过计算,我们发现哈密顿算符H在状态ψ的平均值确实等于E

当然,光平均值等于E还不够,因为能量本征态的意思是:无论你测量多少次,结果都是E。现在你只说哈密顿算符H在状态ψ的平均值是E,万一这个E是由0.5E和1.5E平均出来的呢?也就是说,如果我们测量粒子的能量,它有50%的概率是0.5E,有50%的概率是1.5E,这样平均值依然是E。但是很显然,这并不是能量的本征态。

所以,除了平均值等于E,我们还要保证它没有弥散,没有波动,用统计语言说就是方差和标准差都必须为0。通过计算,哈密顿算符H在状态ψ的标准差也确实为0(计算过程都略了,我这只讲思路,大家最好自己去算一算)。

平均值等于E,标准差为0,这样我们才能保证每次测量的结果都是E,才能确定ψ是本征态。于是,我们才能光明正大的说:当势函数V不依赖时间时,定态薛定谔方程Hψ=Eψ描述的状态,正是能量的本征态,定态薛定谔方程就是能量的本征方程。而这个常数E,不是别的,它正是本征态ψ下系统的能量,大功告成!

也就是说,如果势函数V不依赖时间,系统就处于定态,也就是能量本征态。在这种状态下,测量系统的总能量,总会得到确定值E

图片

为什么势函数不依赖时间,总能量就是确定的呢?我举个简单的例子大家就明白了。

一个苹果往下落,苹果下落时重力势能转化成了动能。但大家都知道,这个过程中苹果的总能量(动能+重力势能)并没有改变,它是守恒的,有一个确定值E。为什么苹果下落时能量守恒呢?因为苹果的重力势能mgh不依赖时间,它只跟苹果的高度h有关。也就是说,让苹果的势能函数mgh不依赖时间,结果就导致了能量守恒,导致了苹果的总能量一直是定值E。

如果苹果的势函数V依赖时间,那它的动能和势能之和就不再是一个定值(最简单的,苹果静止不动时,动能不变,但势能随时间变化,所以总能量必然也随时间变化,就不再守恒),总能量也就不再是定值E了。

这里的言外之意是:苹果这个系统还跟外界系统存在能量交换。比如,我们拿根绳子上下拉苹果,那苹果的动能和重力势能的和就肯定不是定值。因为我们的手会对苹果做功,苹果跟我们之间存在能量交换。

这样,大家明白定态薛定谔方程Hψ=Eψ的意义了吧?


29势函数

我们前面不是在讲能量的连续性么,为什么这里要花这么大篇幅讲定态薛定谔方程呢?

因为能量也是力学量,而力学量要用算符来描述,力学量的取值就是算符对应的本征值之一。所以,你想知道能量可以取哪些值,就得知道对应的哈密顿算符有哪些本征值;想知道哈密顿算符有哪些本征值,就得知道它的本征方程是什么。

现在,我们找到了哈密顿算符H的本征方程,发现它竟然就是定态薛定谔方程Hψ=Eψ。于是,我们才能继续讨论能量的连续性问题。

大家再来看看定态薛定谔方程,也就是能量本征方程

图片

从方程上看,系统的一个状态ψ(能量本征态)就对应了一个能量E(能量本征值)。你想知道能量E的情况,就得先知道系统状态ψ的情况。

那么,如何知道描述系统状态的波函数ψ呢?

这个前面讲过了:解薛定谔方程就行了!顺便提一句,虽然一开始说的波函数是指跟时间t相关的Ψ(x,t),但习惯上,我们把定态薛定谔方程里这个只跟空间x相关的ψ(x)也称为波函数,大家知道就行。

也就是说,如果我们想知道粒子的能量是如何取值的,是连续的还是离散的,就得知道描述粒子状态的波函数ψ可以如何取值。想知道波函数ψ如何取值,就得解定态薛定谔方程

在定态薛定谔方程里,除了能量E和波函数ψ,还有一个未定的势函数V。也就是说,不同的势函数(比如不同的电磁场)会有不同的解,进而得到不同的波函数ψ,以及不同的能量取值

所以,我们不能笼统地说量子力学里的能量是连续的还是离散的,而是要根据不同的势函数区别对待。


30自由粒子

一如既往,我们还是由易入难,从最简单的入手。那什么样的势函数最简单呢?当然是势函数V=0,也就是没有任何外界约束的时候。

在牛顿力学里,如果合外力为0,粒子就会做最简单的静止或者匀速直线运动。到了量子力学,如果势函数为0,粒子会如何运动呢?

很显然,当势函数V恒等于0时,它依然是不依赖时间的。那么,我们就可以继续使用定态薛定谔方程来处理问题。

在定态薛定谔方程里,如果V=0,方程就变成了这样:


这是个非常简单的微分方程,我们可以轻而易举地写出它的一般解,此时的波函数ψ长这样(不会解的自己去翻书,我就不在这里科普如何解微分方程了~):


这个解是什么意思呢?大家中学都学过三角函数,像Asinkx这样的是一个正弦波。A越大,正弦波震荡得越高,波峰跟波谷的距离越大;k越大,正弦波就越密,两个波峰之间的距离就越小。

图片

很显然,如果A和k不受任何限制,可以随意取值的话,那这个正弦波的图像就也可以随意变化。它可以随意的高,也可以随意的密,余弦波Bcoskx类似。

因此,我们解势函数V=0的定态薛定谔方程,得到的波函数ψ(x)是一个正弦波Asinkx和余弦波Bcoskx的叠加,即ψ(x)=Asinkx+Bcoskx。由于势函数V处处为0,对粒子没有其它约束,所以,我们就没有其它条件来约束A、B、k的取值。换句话说,A、B、k可以随意取值

A、B我们可以先不管,但这个k是跟能量E紧密相连的:

图片

k越大,波越密,对应的能量E就越大。

现在,我们说这个k可以随意取值,那这个E自然也可以随意取值。也就是说,当势函数V=0时,这个自由粒子的能量E可以取任意的正实数,它显然是连续的

于是,我们就得到了第一个结论:自由粒子(势函数V=0)的能量取值是连续的,它可以取任何正的能量值

是不是有点吃惊?可能在你的印象里,量子力学里的能量肯定都是不连续的。却没想到我们的第一个结论,最简单的自由粒子的能量竟然就是连续的

大家要记住,“能量是否连续”并不是量子力学的基本假设,基本假设就是前面说的态矢量、算符、测量、薛定谔方程那些。我们从这些假设出发,算出能量是连续的就是连续的,算出能量是离散的就是离散的,仅此而已。

那问题来了,大家熟悉的那种不连续的能量,那种一份一份的能量是怎么来的呢?


31一维无限深方势阱

你想想,自由粒子的能量E之所以连续,是因为它对波函数ψ(x)=Asinkx+Bcoskx没有任何约束,于是A、B、k可以随意取值。如果我们再加上一些限制条件呢?如果我不让k随意取值,那对应的能量E是不是也就不能随意取值了?它是否会因此变成不连续的呢?

空想是没有用的,我们还得用计算来说话。我们给自由粒子加上一个非常简单的限制:把粒子关在一个“地牢”里,不让它出去。

什么意思?自由粒子不是任何地方的势函数都为0,在任何地方都没人管么?现在我在左右两边加两块铜墙铁壁,把它关起来。

图片

如上图,在0到a这个范围内,势函数V依然等于0,粒子在这个范围内依然是自由的。但是,在这个范围以外,也就是小于0以及大于a的地方,势函数V都是无限大,粒子别想过去。

这个东西很像一个陷阱,因为是一维的,又是方形的,而陷阱外的势函数又是无限大,所以就叫它一维无限深方势阱

那么,这样一个势阱会对波函数做出什么样的限制呢?在势阱内,也就是0到a的范围内,势函数还是0,跟自由粒子的情况没啥区别。但是,到了势阱外,势函数就是无限大,粒子无法“出去”,这就不一样了。

经典力学里,我们说一个粒子无法出去,是说它的位置坐标不可能离开那个范围。但到了量子力学,粒子在一般情况下压根就没有确定位置,只有在某个位置发现粒子的概率|ψ(x)|²。现在势阱外的势函数无限大,我们说粒子无法出去,意思是在势阱外发现粒子的概率为0,也就是|ψ(x)|²=0,即ψ(x)=0

由于x=0和x=a是势阱的左右边界,所以这两个地方的波函数也必须为0:ψ(0)=0,ψ(a)=0。于是,我们就得到了两个约束条件。

那么,这两个约束条件会给系统带来什么变化呢?它又会使粒子的能量E发生什么变化呢?我们来一个个的看。

先看第一个ψ(0)=0,因为ψ(x)=Asinkx+Bcoskx,所以ψ(0)=Asin0+Bcos0=B(因为sin0=0,cos0=1)。如果ψ(0)=0,那我们就得到了B=0。这样,波函数ψ(x)就只剩下了第一项ψ(x)=Asinkx

如果波函数ψ(x)=Asinkx,而第二个条件又告诉我们ψ(a)=0,代进去就得到了Asinka=0,这又是什么意思呢?

前面讲过了,正弦波sinx的图像是这样的:

图片

所以,Asinka=0就有两种可能:A=0或者sinka=0

A=0是一种非常无趣的情况,因为B已经等于0了,如果你再A=0,那就直接是整个波函数ψ(x)=0了。翻译一下就是:在任何地方发现粒子的概率都为0,这就是说没有粒子嘛。所以,这是一个平庸的解,也不符合现在的情况。

真正有意思的是后面那个解,也就是sinka=0的情况。我们看一下正弦函数sinx的图像,它的取值是可以为0的,你看它跟x轴不是有很多交点么?这些交点就是sinka等于0的地方。

也就是说,如果我们想让sinka=0,我们只需让ka取正弦函数跟x轴相交的那些地方就行了。学过中学三角函数的朋友都知道,正弦函数跟x轴相交的地方,只考虑正半轴,正好就是π,2π,3π,…

这么一来,ka就不能随意取值了,而是只能取π,2π,3π等等,写成更加紧凑的形式就是:

图片

而我们又知道,这个k是跟粒子的能量E直接相关的。解势函数V=0的定态薛定谔方程时,为了让形式更加简单,我们给能量E做了一个简单的替换:

图片

现在k的取值知道了,能量E的取值简单替换一下就行了:

图片

于是,这个能量E就真的是离散的了,因为这里的n只能取1、2、3等自然数。现在,大家看明白这个离散的能量是怎么来了的么?


32不连续性

自由粒子时,势函数V处处为0,它对波函数ψ(x)没有任何限制,所以k能随意取值,对应的能量E也能连续取值。但是,当粒子不再自由,而是被束缚在一个有限宽的势阱时,它就不能乱跑了,k也不能随意取值了。于是,对应的能量E也不能随意取值了,也就是不连续了。

一维无限深方势阱里,我们要求波函数ψ在势阱两边的取值都为0,即ψ(0)=ψ(a)=0,这相当于固定住了一根绳子的两端。于是,在0到a之间,这根绳子可以弯成一个波形,也可以弯成两个波形、三个波形,就像下图这样:
图片

因为ψ(x)代表了系统状态(能量本征态),所以,这每一种可能的波形,就代表了系统可能的一种状态,对应了一个确定的能量E

经典力学里,我们用一个粒子的位置动量描述它的状态。就算我们把粒子关在一个牢房里,限制它的活动范围,它在牢房里的位置和动量依然可以连续变化,能量也可以连续变化,它在牢房里依然可以连续走动,没人管它。

但到了量子力学,这个牢房不仅限制了它的活动范围,还限制了它的状态,限制了它的能量,让它不能再随意取值。

在一维无限深方势阱里,求解定态薛定谔方程得到的波函数是一个正弦波。作为一个波,它有自己的傲气和傲骨,即便身陷囹圄,活动范围受到了限制,它还是要保持波的样子。所以,粒子的状态和能量就出现了离散化

这样,大家对量子力学里的不连续性是否有了更深刻的认识?


33氢原子

在量子力学的基本假设里,我们没有对能量是否连续做出任何假设,我们只说用态矢量描述系统状态,用薛定谔方程描述系统状态随时间的变化。

当势函数V不依赖时间时,系统就处于定态(能量本征态),这时候测量能量就有确定值。能量有确定值,我们才能谈论能量的取值是连续的还是离散的。如果系统处于能量叠加态,都没有确定的能量值,那这问题就没啥意义了。

势函数确定后,我们求解定态薛定谔方程就能得到描述系统状态的波函数,进而得到能量的情况,然后就知道了能量的取值是连续的还是离散的。

势函数V=0时,粒子完全自由,它的能量是连续的;当势函数不为0,而是一维无限深方势阱时,粒子的能量就变成离散了。如果我们再换一种环境,再换一个势函数,这个操作流程还是一样的,都是把对应的势函数代入薛定谔方程求解,再根据波函数分析能量的取值情况。

比如,我们知道氢原子是由一个质子和一个核外电子组成。那么,这个电子的能量可以取哪些值呢?是连续的还是离散的?

同样的,要分析电子的行为,我们就要知道它的势函数。而我们很清楚,电子和质子会互相吸引,根据库仑定律,这个势函数V可以写成:

图片

然后,我们把这个势函数代入定态薛定谔方程,经过一系列我们觉得非常复杂,但在量子力学里还算简单的计算,就能得到氢原子里电子可以取的能量:

图片

这就是著名的玻尔公式,玻尔从他的模型里得到了这个公式,进而名扬天下。现在,我们可以从薛定谔方程里把它非常自然地推出来。

图片

这个求解过程我就不说了,任何一本量子力学教材都会写。但结果很明显,跟一维无限深方势阱一样,库伦势下的电子可以取的能量值一样是离散的,它只能取一些特定的值。n=1是能量的最低状态,也叫基态,其它情况被称为激发态


34原子模型

在量子力学历史上,氢原子问题一直都很重要。现在我们知道了量子力学里处理氢原子的方式,那不妨再回过头,看看经典力学是如何处理氢原子的,看看它遇到了什么困难,这对我们深入理解量子力学也很有好处。

在量子革命前夜,困扰经典力学的有四大难题:包括大家很熟悉的黑体辐射光电效应,以及大家不太熟悉的原子光谱原子稳定性问题。后两个问题都跟原子模型有关,而氢原子又是最简单的原子,所以它非常重要。

说到原子模型,首先出场的是汤姆生。他认为原子是个球体,带正电的物质均匀分布在球内,带负电的电子一颗一颗镶嵌在球内,这个模型被称为“枣糕模型”。

图片

但是很快,汤姆生的模型就被他的学生卢瑟福打脸了。卢瑟福用α粒子轰击金箔时,发现绝大部分α粒子都会通过金箔,但有极少数α粒子竟然会反弹回来。

这是什么意思呢?如果原子里带正电的物质都均匀分布,那用α粒子轰击原子,就会像用子弹轰击蛋糕一样,是绝不可能被反弹回来的。现在有极少量α粒子被反弹回来了,那就说明原子内部有极少量非常坚硬的东西。

卢瑟福经过反复的实验和思考,认为带正电的物质只能集中在一个非常小的范围内,原子的质量也主要集中在这里,这就是我们说的原子核。这样,带正电的原子核就像太阳,带负电的电子就像围绕太阳转的行星,卢瑟福的原子模型就被称为“行星模型”。
图片
行星模型虽然跟实验符合得很好,但却存在一个巨大的理论问题:如果电子真的在绕核转动,那根据经典电磁理论,电子转动时就会不断释放能量。这样的话,当电子的能量消耗殆尽以后,它就应该坠入原子核,原子也就随之毁灭了。

但我们都知道,世界很稳定,原子并没有毁灭,电子也没有坠入原子核。那问题就来了:原子为什么能保持稳定?电子为什么没有因为不断释放能量而坠入原子核

这就是原子的稳定性问题,它是经典物理无法回答的。

卢瑟福无法解决这个问题,就把它丢给他的学生玻尔。玻尔捣鼓了一段时间,在充分吸收了普朗克、爱因斯坦的量子化思想后,提出了一套全新的原子模型。

玻尔认为,电子的轨道并不能随意选,它只能处在一些特定的轨道上。当电子处在这些特定轨道上时,电子并不发射、吸收能量(所以不会坠毁),只有当电子从一个轨道跃迁到另一个轨道时,才会发射和吸收能量。

图片

玻尔的模型是一个经典量子的混合体,里面既有量子化轨道这样的概念,也有电子绕核转动这种经典模型。从理论上来说,这样一个“缝合怪”必然槽点满满(当时也确实没人相信它),这个模型也确实无法解释更复杂的原子。

但是,相比理论,物理学家更看中你的模型能否解释实验现象。当越来越多的实验站在玻尔这边时,大家就慢慢接受了玻尔模型的主要思想,承认这里面确实有部分正确的东西。同时,大家也在期待一个更完美的理论,希望能从那里导出玻尔模型,并解释玻尔模型无法解释的东西。

大概十年后,随着量子力学的全面建立,一切都清晰了。那么,现在的量子力学是如何看待玻尔模型的呢?

首先,我们要明确:在量子力学里,电子是没有轨道概念的。什么是轨道?电子这一秒在这,下一秒在那,它每个时刻的位置都能精准算出来,这是轨道。但是,量子力学里电子在一般状态下并没有确定的位置,我们只能计算在各个地方发现电子的概率,所以根本谈不上轨道。

但我们也知道,玻尔模型是符合实验的,它肯定也包含了一些正确的东西。那么,如果量子力学里并没有确定的轨道,那玻尔说的轨道又是什么?

在前面,我们已经解了库伦势下的薛定谔方程,并得到了玻尔公式

图片

这里每一个可能的E,都代表了电子可能的一种状态。没错,这其实就是玻尔说的“轨道”。

每一个“轨道”,其实就是一种定态,是一种能量本征态。因为库伦势下电子可以取的状态和能量都是离散的,所以玻尔才会觉得电子只能待在一些特定而离散“轨道”上。

为什么电子没有坠入原子核呢?因为在这些允许的能量E里,有一个最小值,即n=1时的基态能量(这里能量取负值,负号代表电子受到了原子核的束缚,E1=-13.6eV,E2=-3.4eV…),电子的能量无法比它再小,所以无法坠入原子核。

这样,大家对原子问题有更深刻的认识了么?


35双缝实验

我写这篇文章,主要是想帮大家把量子力学的基本框架搭起来,让大家知道如何从量子力学的视角看问题。

很多人觉得量子力学奇怪、诡异,甚至恐怖,根本原因就是:他们并不是从量子的角度看待量子问题的。他们有意无意地保留了许多经典的概念和思维,用半经典半量子的眼光看待量子世界,这样不觉得奇怪才怪了

在量子革命初期,在量子大厦还没建起来之前,那些大师们用更加熟悉的经典思维思考问题无可厚非。他们四处碰壁,经过各种艰苦卓绝的探索才建立起了成熟的量子力学框架。一百多年后的今天,难道我们还要用半经典半量子的视角看问题,还要在量子初期的那些泥潭里一直摸爬打滚么?

很多人觉得量子力学很奇怪,觉得没人能懂量子力学,并引以为傲地说许多物理大师也是这么说的。但请相信我,绝大部分人觉得量子力学奇怪,仅仅是因为他们对量子力学的基本概念、基本框架缺乏最基本的认识,他们陷在半经典半量子的泥潭里出不来,跟物理大师眼中的奇怪根本不是一回事。

就像同样是数学,有人说解一元二次方程太难了,有人说黎曼猜想太难了,都说数学难,但这能是一码事么?如果大家把量子力学的框架搭起来了,学会了从量子视角看问题,那原先很多看起来非常反直觉,非常不可思议的东西都会变得非常自然。

比如,被无数科普文扣上恐怖、细思恐极、颠覆三观帽子的单电子双缝干涉实验,如果从量子力学的角度看,它就是一个平平无奇的实验。

图片

为什么那么多人觉得双缝实验恐怖呢?因为他们是从经典视角看这个实验的。

经典视角看,单电子双缝干涉实验比较“诡异”的地方有两个:第一,大家熟悉的干涉实验都是有大量粒子参与的,不同粒子之间产生干涉容易理解。但是,现在我们每次只发射一个电子,时间一长,屏幕上居然还能出现干涉图案,这就难以理解了。

每次只发射一个电子,你跟谁干涉?没有干涉对象怎么会有干涉图案呢?这就好像每个电子都有意识,知道自己前后的电子要往哪走似的,这种氛围再配上点恐怖音乐,就显得很诡异了。

更加“诡异”的是第二个:我们一个个放出电子时,屏幕上会慢慢出现干涉图案。但是,一旦我们在缝隙后加了一个探测器,想看看电子到底通过了哪条缝隙,干涉条纹就消失了。

从经典视角来看,这里原本有个干涉图案,我“看”一眼电子要从哪经过,干涉图案就消失了。仿佛意识可以影响实验,或者电子能读懂我的心灵似的,这里再渲染一下气氛,那就不是诡异,而是恐怖了。

我去网上搜了一下“双缝实验”,大家看看这些热搜词:

图片


都是些什么恐怖、骗局、真相,更夸张的连“双缝实验看见鬼”都冒出来了。一个科学实验搜出一堆这样的东西,也是没谁了。

当然,从经典视角看,双缝实验的确非常诡异,非常恐怖。但是,从量子视角看,你会发现这是一个非常自然的实验,它所体现的,无非就是量子力学最基本的一些特性。

首先,为什么每次发射一个电子也会出现干涉图案呢?

在量子力学里,我们用波函数(态矢量)描述电子的状态,而这个状态是可以叠加的。也就是说,如果ψ1是电子的一个可能状态,ψ2也是电子的一个可能状态,那么,它们的线性叠加ψ=ψ1+ψ2就也是电子的一个可能状态(ψ1、ψ2前面可以有不同的系数),这叫态叠加原理

这个大家应该觉得很自然。在斯特恩-盖拉赫实验里,银原子可以处于自旋向上的本征态ψ1,也可以处于自旋向下的本征态ψ2,那么,它就也可以处于自旋向上和自旋向下的叠加态ψ=ψ1+ψ2,这再正常不过了。

而且,我们还知道测量力学量的概率是跟波函数的模的平方|ψ|²挂钩的。

然后,我们就会发现:叠加态对应的概率|ψ|²=|ψ1+ψ2|²并不等于原来各个状态的概率之和|ψ1|²+|ψ2|²,它们之间还差了一个交叉项,小学数学老师也会经常强调“和的平方不等于平方的和”。而这个交叉项,就是干涉出现的原因。

其实,经典力学里波的干涉也是因为交叉项。因为波的强度也是平方相关的,所以,两个光波叠加的强度就不等于每个光波的强度之和(强度跟平方相关,会多出交叉项),而我们看到的明暗程度又跟光的强度有关,于是就出现了干涉条纹。

在量子力学里,两个波函数叠加的概率并不等于每个波函数的概率之和(|ψ1+ψ2|²≠|ψ1|²+|ψ2|²),所以叠加态的概率分布图像就不是原来两个概率图像的简单叠加,这样就出现了一种概率上的干涉。时间一长,概率大的地方就会积聚更多的粒子,于是,概率上的干涉图像就变成了真正的干涉图像。

也就是说,量子力学里的单电子双缝干涉跟经典干涉没啥区别,都是因为叠加性。经典力学里两个波可以叠加,量子力学里描述系统状态的两个波函数(态矢量)也可以叠加,而它们的可观测量(强度和概率)又都是平方相关的,所以叠加后就会多出一个交叉项,然后就出现了干涉图案。

图片

至于“看一眼干涉图案就消失了”那就更简单了。不管你用什么看,人眼、仪器或者一只狗,只要我们知道了电子是从哪个缝隙通过的,本质上就是通过跟系统的相互作用完成了一次测量。而量子力学里的测量是会改变系统状态的,它会让系统从原来的状态变成被测力学量的某个本征态,这我们太熟悉了。

所以,当你测量电子会通过哪个缝隙时,这个操作就改变了电子的状态,让电子从原来的状态变成了某个本征态。状态变了,概率分布也就变了,于是干涉图案自然就消失了。有的书上说单电子的双缝干涉是电子自己跟自己干涉,其实是说这是电子的两个状态(通过缝隙1的状态和通过缝隙2的状态)之间的干涉。而测量过程会改变电子的状态,于是就破坏了干涉图案。

可见,如果我们建立起了量子力学框架,从量子视角看,双缝实验就是非常简单而且自然的。它无非就是在说“系统状态可以叠加,测量会改变系统状态”,这些基本结论有什么好奇怪的?又哪里有半分恐怖?你非要用经典视角看问题,然后自己吓自己,说哎呀妈呀好恐怖,三观震裂,那我还能说什么呢?

当然,这里只是对双缝实验做了一个非常简单的介绍(后面再单独写文章详细谈),目的就是让大家知道:如果我们学会了从量子视角看问题,很多你之前觉得奇怪、诡异、恐怖的问题都会变得非常自然。你觉得双缝实验恐怖,跟古人觉得闪电恐怖没啥区别,一旦掌握了看待这些问题的正确视角,它们都是非常自然的现象。


36不确定性原理

此外,很多人觉得不确定性原理也很神秘,其实它也很自然。大家看一张格里菲斯的《量子力学概论》里的插图很快就明白了:

图片

上面那个图,你很难说这个波在哪,但却很容易说两个波峰之间距离(也就是波长)是多少;下面那个图,你很容易说这个波在哪,却说不出它的波长是多少。

也就是说,如果波长越精确(上图),波的位置就越不精确;如果波的位置越精确,波长就越不精确(下图)。

在量子力学里,我们用波函数描述系统的状态,而波长λ动量p之间有一个简单的关系:p=h/λ。用动量代替上图的波长,于是就有:动量越精确,位置就越不精确;位置越精确,动量就越不精确。

此外,我们也能看到,一个波的位置越确定,它的波长就越不确定,这是系统的内在属性,跟你测量不测量无关。海森堡一开始以为是测量干扰了其它物理量,进而导致测不准,后来才知道并不是这样。

图片

关于不确定性原理,这里就先简单地聊这些,因为这篇文章让我意外地发现:原来公众号的文章最多只能写5万字,再多就发不了了!我这已经是在极限边缘疯狂试探了,更详细的以后再聊吧~


37量子力学诠释

量子世界还有许多激动人心的话题,比如薛定谔的猫、玻尔和爱因斯坦的论战、贝尔不等式、多世界理论、狄拉克方程、量子场论、量子纠缠、量子通信和量子计算等等,这里就先不说了。但大家要清楚,我们能愉快讨论这些话题的前提,是你已经掌握了量子力学的基本框架,知道如何从量子视角思考问题,否则就只是看个热闹。

例如,很多人都知道玻尔爱因斯坦的论战,但很少有人知道他们到底在争什么。有些人只是给爱因斯坦贴了一个“反量子力学”的标签,认为爱因斯坦先是参与了量子力学的建立,成为权威后变保守了,又开始反对量子力学,那也太肤浅了。

为了搞清楚玻尔和爱因斯坦到底在争什么,我们要先搞清楚一件事,一件很重要,但又很容易被忽略的事:量子力学的形式理论(或者说对量子力学的数学描述,也叫裸量子力学)和对量子力学的诠释是不一样的,我们一定要区分两者

什么意思?我们观察自然界的各种现象,发现物理规律,然后用数学语言描述它。一开始,我们只要理论能给出正确的预言,计算结果能跟实验符合就行了,不追问这些数学语言背后代表了什么样的物理现实

比如,德布罗意提出了物质波假说以后,薛定谔就找到了对应的波动方程,也就是大名鼎鼎的薛定谔方程。通过薛定谔方程,我们能很好描述各种量子现象。但是,对于薛定谔方程的解,也就是波函数到底是什么?大家却莫衷一是。

图片

也就是说,虽然我们用波函数描述系统的状态,而且这样工作得非常好。但是,这个波函数到底是个什么东西?它是描述了粒子的真实状态(实在的),还是说只是我们认识粒子的工具,描述的仅仅是我们对粒子的认识状态(非实在的)?这其实是一个哲学上的本体论问题,我在文章里对此类问题只字未提。

我在这里介绍的量子力学框架,实际上只是一套量子力学的数学描述,我们可以说它是量子力学的形式理论裸量子力学。如果我们想追问这套数学语言背后的物理图像,就涉及量子力学诠释了。

所谓诠释,就是对一套数学语言背后的物理图像进行解读。我们用态矢量描述系统状态,用算符描述力学量,用薛定谔方程描述系统状态随时间的变化,这些都是对量子现象的数学描述,是量子力学的形式理论。对于这些,是所有人都承认的,不管爱因斯坦还是玻尔。

但是,如果我们想知道这套数学语言的背后对应了一个什么样的物理世界,想知道波函数到底是什么,诠释就出现了。面对同样一套形式理论,诠释可以是多种多样的,于是,玻尔爱因斯坦的分歧就出现了。

图片

玻尔为首的哥本哈根诠释认为:波函数并不描述粒子的真实状态,它只是我们认识量子世界的工具,波函数只有认识论上的意义。当我们测量时,波函数会瞬间坍缩。而且,虽然系统状态的演化遵守薛定谔方程,但测量导致波函数坍缩的过程却不遵守薛定谔方程……

哥本哈根诠释还有很多观点,这里就不一一列举了。玻尔他们通过这样一种诠释,构建了一幅相对完整的量子图像。这样,大家在处理量子力学问题时脑袋里就会有一个具体的画面。

当然,虽然哥本哈根的量子图像跟实验对得上,但它理论上的问题也很多:波函数在测量过程中瞬间坍缩,而且这个过程不满足薛定谔方程,那坍缩过程是如何发生的?测量在这里如此重要,那什么样的行为可以算是测量?为什么会有两类演化过程,一类遵守薛定谔方程,另一类不遵守?量子世界和经典世界如此不一样,你给它们划了一条界线,那这条界线到底在哪?

更加重要的是,哥本哈根诠释说波函数并不描述电子的真实状态,它只是一个认识工具。他们认为根本就不存在什么真实的电子状态,只有当我们测量时发现了电子,才能说电子存在。因此,站在哥本哈根的角度,是我们的测量过程创造了电子,你不测量时电子就不存在。

这种说法彻底激怒了爱因斯坦,他说:“难道我们不看月亮时,月亮就不存在了么?”。大家更熟悉爱因斯坦的另一句“上帝不投骰子”,但其实,相比投不投骰子,爱因斯坦更在意月亮存不存在。大家经常在科普书里看到玻尔和爱因斯坦的论战,爱因斯坦反对的不是量子力学(没人反对量子力学的形式理论),他反对的是量子力学的哥本哈根诠释

爱因斯坦非常讨厌哥本哈根诠释(薛定谔、德布罗意也是),于是,他就一边挑哥本哈根诠释的漏洞,一边找一些新诠释。但是,虽然哥本哈根诠释的问题很多,但它跟实验也都对得上,而它的竞争对手们当时又太弱,爱因斯坦的超一流挑刺功力也在不断帮哥本哈根诠释打补丁。再加上玻尔、海森堡、玻恩这帮人在量子领域的权威,爱因斯坦到死也只能一边看它不爽,一边拿它也没什么好办法。

爱因斯坦去世两年后,一个叫埃弗雷特的人提出了一种了全新的量子力学诠释:多世界诠释

图片

这是一个在理论上极其简洁,但在推论上似乎极其“荒诞”的诠释。多世界甚至可以说是不要诠释的诠释,因为它的基本假设就两条:第一,系统状态由态矢量描述;第二,态矢量随时间的演化遵守薛定谔方程(可见,它跟我们这里讲的形式理论并不太一样,所以,多世界也不只是一个诠释,它还是一个独立的理论)。

哥本哈根诠释的那些额外假设(测量导致的坍缩,量子和经典的边界问题等等)它通通不要,玻恩规则也不要,这些东西在多世界这里不是假设,而是结论。它一样能跟所有实验符合,也不存在什么“不看月亮,月亮就不存在”的问题。

多世界诠释(理论)里,波函数描述的是粒子的真实状态(实在的),测量只不过是仪器跟系统的相互作用,测量过程也遵守薛定谔方程,并没有什么波函数坍缩。它还有很多其它观点,这些观点一起也构成了一幅完整的量子力学图像,但是很明显,这是一幅完全不同于哥本哈根诠释的图像。

细节这里先不讲,以后再说。不过,从这里我们起码能看到:哥本哈根诠释里有波函数坍缩,多世界诠释里没有波函数坍缩;哥本哈根诠释里波函数不描述粒子的真实状态,多世界诠释里波函数描述粒子的真实状态;哥本哈根诠释里有量子-经典边界问题,多世界诠释里没有……

这两个诠释有很多不一样的地方,但它们都跟实验符合,你说我听谁的?

哥本哈根诠释有时也被称为正统诠释,很多教材也都是以哥本哈根形式写的。时至今日,多世界诠释也有了非常多的支持者。然而,不管是哥本哈根、多世界,还是其它什么诠释,支持者的比例都很低,更多物理学家的选择是:不要诠释!不要诠释!不要诠释!

他们就拿量子力学的形式理论来做计算,能算、有用就行!至于它背后的物理图像,去你的玻尔和爱因斯坦,我谁都不信,他们是闭嘴计算派。当然,闭嘴计算并不代表他们不关心诠释,没有哪个物理学家会真的不关心量子理论背后的图像。只不过,现有诠释的说服力实在都不太够,没有哪个诠释能让人特别信服,所以他们就干脆不管了。

因此,很多量子力学教材也会有意识地避免诠释问题,它们就只介绍量子力学的形式理论,只介绍我们是如何运用数学语言描述量子现象的,只介绍这套所有人都承认的东西。

形式理论压根就不谈波函数有没有坍缩,它只说测量结果是对应算符的本征值之一。至于测量过程中到底发生了什么,是波函数坍缩了,还是世界分裂了,它不管。 

图片

有些朋友可能会感到很困惑:我学物理这么久了,为什么好像只在量子力学这里有诠释问题,学习其他理论时好像压根就没这事?比如,我们学习牛顿力学时,哪有什么诠释啊。

牛顿力学当然也有诠释,只不过,我们在牛顿力学里是采用三维空间中的实数和函数来描述质点和场的,这种描述具有很直接的空间意义。所以,大家对牛顿力学里什么概念代表什么物理意义,都能取得广泛的共识。一个石头往下落,描述这个过程的数学公式是这样的,大家脑中的物理图像也都是这样的,没人有异议。

但是,在量子力学里,我们是用希尔伯特空间中的矢量和算符来描述系统状态和力学量的,这是很抽象的数学结构。希尔伯特空间并不是我们日常接触的三维空间,这样一来,如何把数学概念和物理现实对应起来就比较麻烦了。于是,有人认为波函数描述了现实,有人认为并没有;有人认为测量时波函数坍缩了,有人认为没有坍缩等等。

不存在共识,也说明我们对量子世界的认识还不够深刻。随着理论和实验的进步,我们以后或许能区分不同的诠释,能搞清楚许多现在还不懂的事情,形成一幅所有人都同意的量子力学图像。到那时,自然就没人再提什么量子力学诠释了。

量子力学诠释是一个非常宏大而且深刻的话题,它不仅跟物理学有关,也跟哲学有关,可以说爱因斯坦的后半辈子一直都在思考它。

图片

在这篇文章里,我们只要知道有量子力学诠释这么回事,知道形式理论和诠释的关系,知道我们这里介绍的只是量子力学的形式理论就行了。关于量子力学的诠释更多问题,我们以后再慢慢聊。

这样,文章就接近尾声了。


38结语

在经典力学里,系统状态可观测量观测结果都是一样的,我们没必要刻意区分它们。到了量子力学,为了描述斯特恩-盖拉赫实验以及其它量子现象,我们必须区分三者。

我们用态矢量描述系统状态,用算符描述力学量,测量结果是对应算符的本征值之一,系统状态随时间的变化遵守薛定谔方程。

为了把抽象的态矢量具体化,我们要建立坐标系。然后,我们发现以力学量算符的本征矢量为基矢建立的坐标系是极好的,选取这样一组基矢就叫选取了一个表象。以位置算符的本征矢量为基矢建立的就叫位置表象,以动量算符的本征矢量为基矢建立的就叫动量表象,它们之间可以通过傅里叶变换相互转换。

选定了表象,我们就可以把态矢量投影到具体的坐标系里了,投影系数(坐标)就是波函数。于是,除了态矢量,波函数也可以用来描述系统的状态。

然后,我们也写出了位置表象下的薛定谔方程,求解方程就能得到波函数。要解薛定谔方程,就得先确定势函数

如果势函数不依赖时间,概率分布就不随时间变化,力学量的平均值也就不随时间变化,这样的状态我们称之为定态。因为定态下的能量具有确定值,所以定态也就是能量本征态。能量有确定值,求解定态薛定谔方程就能得到系统可以取的能量,这样能量是连续的还是离散的一看便知。

于是,我们就知道了量子力学里能量不连续的原因,也知道了量子力学处理问题的一般方法。掌握了量子力学的思考方式,你会发现很多大家熟悉的量子力学性质(比如能量可以不连续)都能推出来,很多大家觉得奇怪、诡异,甚至恐怖的问题(比如双缝干涉实验)都会变得非常自然。

建立了量子力学的基本框架以及处理量子力学问题的一般方法,这篇文章的目的就达到了。限于篇幅,很多大家非常感兴趣的话题这里只能一笔带过,我们以后再讲,怕错过的盯着我的公众号“长尾科技”就行。

最后,我们还区分了量子力学的形式理论诠释,这些东西后面会引申出非常多超级精彩的话题。但是,理解它们的前提,是已经把量子力学的形式理论搞清楚了。

量子大戏已经开幕,各位看官坐稳了~

相关文章
收起阅读 »