迈出量子力学的第一步:矩阵的运算
长文预警,可以按需分次看完。
公式显示不完整的可以尝试划动公式。
本文会涉及上一篇文章小学毕业就可以学的线性代数知识:从线性方程组到行列式的内容,建议略作浏览。
上一篇文章我们引入了非常重要的东西——矩阵,但是由于篇幅原因并没有展开讲,所以今天我们来补上它。
Part1矩阵的加法和数量乘法
回忆一下上一篇文章关于矩阵的定义:
首先,我们把 个数排成的 行、 列的一张表
称为一个 矩阵,其中 个数称为该矩阵的元素。
另外,矩阵 的第 行与第 列交叉位置的元素 称为 的 元,记作 。
还有,元素全为0的矩阵称为零矩阵;行数和列数相等的矩阵叫做方阵; 元线性方程组的系数组成的矩阵叫做系数矩阵,加上等号右侧的一列之后便是增广矩阵。
最后,我们把行数,列数都相等,且对应位置的元素相等的矩阵看作是相同的。
矩阵的加法
这个问题看起来无法操作,所以我们不妨考虑一下我们比较熟悉的矩阵——增广矩阵。如果两个增广矩阵相加,其实我们就是在把两个线性方程组相加,所以显然应该是对应系数相加。
所以我们引出了矩阵的加法的定义
对于数域 上的两个 矩阵 和 ,令矩阵 也是 矩阵,且 ,其中 ,则
矩阵的数量乘法
所谓数量乘法,就是一个数和矩阵相乘,也就是一个数和一个线性方程组乘起来。所以我们得到定义
对于数域 上的 矩阵 和数 ,令 也是 矩阵,且 ,其中 ,则
Part2 维向量空间
看完了矩阵的加法和数量乘法,你是不是有一种熟悉的感觉。没错,这和我们高中学过的向量一模一样。而且数学家给他们的符号又是如此相似(都是几个数加括号),好像单行的向量就是矩阵的一部分一样。所以我们不难想到,研究向量一定会对矩阵的研究有帮助。那么我们就来看看这个我们熟悉的向量。
维向量空间
高中我们学过的向量是几何空间的元素,每个向量有两个或三个分量。为了描述矩阵,我们就不能只局限于这样的向量,我们仿照几何空间上的向量的概念,提出 维向量的概念。
为了更好的和矩阵适配,我们还区分行向量和列向量。顾名思义,类似
这种排成一行的叫行向量,类似
的叫列向量。其中 是数域 上的元素(本文所有数都是数域 的元素,用小写英文字母表示,下文不再赘述)。本篇文章中的性质不涉及行向量与列向量之间的区别,所以我们可以只研究列向量(用大写字母,表示)。
仿照几何空间,我们把所有 维列向量组成的集合叫作 维向量空间,如果向量的分量都来自
数域 ,我们就把这个集合记作 。在 中,加法和数量乘法与高中所学的一致。
线性相关和线性无关的向量组
我们在高中学习过几何空间中向量的合成与分解,那么在运算完全相同的 维向量空间,理论上也可以进行向量的合成与分解。
为了方便交流,我们称 由 线性表出。
到了这里,我们必然会想到,对于一组向量 ,向量 由它们表出的方式是否唯一。
我们假设
即
(黑体0区分于普通的零表示分量全为零的向量,简称零向量)
所谓表出方式唯一就是(1)(2)完全相同,用数学语言,换言之,(3)中的系数全为零。
所以我们引出线性无关的定义
对于 中的向量组 ,如果满足只有当 全等于0时才能使
成立,则称向量组 线性无关
与之相对的概念是线性相关
对于 中的向量组 ,如果有一组不全为零的数 使
成立,则称向量组 线性相关
综上,我们知道了如果可以线性表出,想要表出方式唯一,就要线性无关。
向量组的秩
线性无关的向量组可以唯一的线性表出一个向量,可见线性无关这个概念的重要性。但是我们遇到的向量组很可能是线性相关的,所以我们就需要找到其中线性无关的部分。不过仔细想想,向量组中任一非零向量都可以看作是线性无关的,只是找线性无关的向量就没什么意思了,我们应该找到尽可能多的线性无关的向量,直到再多一个就会线性相关。也就是找到向量组的极大线性无关组。
极大线性无关组就是一个向量组中的一个含有最多线性无关向量的部分组,这个最多的意思是再原向量组再额外挑一个向量加入这个部分组,都会是这个部分组线性相关。
极大线性无关组的寻找方法就是先找一个向量,再一个一个添加向量,时刻保证新向量组线性无关,直到一个向量也填不进去为止。
现在对于一个向量组和它的一个极大线性无关组,如果我们从不属于这个极大线性无关组的向量挑起,就可以生成一个不同的极大线性无关组。看来对于一个向量组,可以有不同的极大线性无关组,那么这些极大线性无关组有什么关系呢?
为了方便接下来的交流,我先引入一个概念
如果一个向量组 的所有元素都可以由另一个向量组 线性表出,就称向量组 可以由向量组 线性表出。如果两个向量组可以互相线性表出,则称两个向量组等价
首先我们可以证明向量组和它的极大线性无关组等价。不妨设向量组 的一个极大线性无关组是 。很显然向量组 的前 个向量都可以由它的极大线性无关组线性表出,我们来看其余的向量。根据极大线性无关组的定义,我们把 中任意一个向量 添入极大线性无关组得到 ,这个向量组肯定是线性相关的,即有一组不全为零的数 ,使得
这个式子里,如果 ,则 不全为零,且(1)式变为
不符合 线性无关。所以 ,那么有
即 中任意一个向量 可以由 线性表出。综上,向量组可以由它的极大线性无关组线性表出,又因为显然有极大线性无关组可以由原向量组线性表出。所以向量组和它的极大线性无关组等价。
第二步,我们证明一个向量组的所有极大线性无关组等价。由于我们已经证明了极大线性无关组和原向量组等价,所以我们只需要证明向量组等价的传递性,即线性表出的传递性,也就是给定条件: 可由 线性表出, 可由 线性表出。求证 可由 线性表出。这很简单,只需要把 线性表出 的式子代入 线性表出 的式子,就能得到 线性表出 的式子。所以向量组的所有极大线性无关组等价。
现在我们只需要知道等价的线性无关向量组有什么关系,就是我们问题的答案。
这里我们首先要证明:若 可 线性表出,且 线性无关,则 。
用反证法,假设 。
然后把 可 线性表出这个条件翻译成数学语言
则有
接下来看如下方程组
首先,
是该线性方程组的一组解。又因为我们假设 ,即方程组的增广矩阵经过初等行变换得到的简化行阶梯形矩阵主元数大于行数。所以方程组有除了的另一组不同的解,即一组不全为0的数
又因为刚才我们得到
把
(不全为0)代入,得
所以 线性相关,与假设矛盾。即若 可 线性表出,且 线性无关,则 。
利用这个结论,我们可以轻松的知道一个向量组的两个极大线性无关组 和 之间的的关系。
前两步我们证明了它们是等价的,即他们可以互相线性表出。所以有 且 ,所以只能是 ,即向量组的所有极大线性无关组个数相等。
既然极大线性无关组的概念如此重要,我们就把一个向量组的极大线性无关组的个数叫做向量组的秩。
Part3矩阵的秩
嗯,向量的性质我们已经研究的差不多了,该回归我们的主线了。
矩阵的行秩和列秩
我们之前说过,向量可以看作矩阵的一部分,接下来让我们看看这么做的好处。
对于一个矩阵
我们把它的 行看作 个向量,叫做行向量,它们构成的向量组叫做行向量组;它的 列看作 个向量,叫做列向量,它们构成的向量组叫做列向量组。
行向量组和列向量组的秩分别叫作行秩和列秩。
阶梯形矩阵的行秩和列秩
这是一个 矩阵,有 个非零行,也就是有 个主元,分别位于第 ,第 ,,第 列。(前三列和后三行是为了严谨加上的零行,用黑体区分,阅读时可忽略。)
把这个矩阵的行向量组记为 ,其中 是非零向量,也是主元所在行的行向量;列向量组记为 ,其中 是非零向量, 是主元所在列的列向量。
首先我们我们来看所有主元所在行的行向量
给出判定线性无关的式子
根据向量的加法和数量乘法,以及向量相等的定义,可得
首先有作为主元的数。那么根据(1)式,有;接下来根据(2)式,有;依此类推,全部为零,所以线性无关。
接下来想证是的极大线性无关组,就是要证明再添进来任何一个向量,都会使新向量组线性相关。
由于我们只剩下零向量没有添进来,所以当我们添进来一个零向量,有
说明新向量组线性相关。所以是的极大线性无关组,阶梯形矩阵的行秩为。
接下来看阶梯形矩阵的主元所在列的列向量
再次构造一个判定线性无关的式子
根据向量的加法和数量乘法,以及向量相等的定义,可得
仿照刚才的过程,不过这次我们从式开始,不难得到全部为零,所以线性无关。
接下来想证是的极大线性无关组,就是要证明再添进来任何一个向量,都会使新向量组线性相关。
首先前列都是零向量,添入后显然会线性相关。
接下来是第列到第列
例如,我们把添入。这时我们有
这正是线性相关的表达式。第列到第列的其它向量同理。
然后我们看第列到列
例如,我们把添入。这时我们有
这正是线性相关的表达式。第列到列的其它向量同理。
依此类推,我们可以证明是的极大线性无关组,也就是阶梯形矩阵的列秩是。
综上,我们得到了阶梯形矩阵的行秩和列秩相等,对于阶梯形矩阵的非零行个数。
矩阵的秩
我们知道了阶梯形矩阵的行秩等于列秩,又知道任何一个矩阵可以通过初等行变换变换变成阶梯形矩阵。那么我们不妨猜测,矩阵的初等行变换不会改变矩阵的行秩和列秩,这样所有矩阵的行秩和列秩就相等了。
首先证明矩阵的初等行变换不改变矩阵的行秩,也就是证明初等行变换前后的行向量组等价。
证明行秩相等需要我们回忆一下之前的知识,任给两个等价的向量组,根据等价的传递性可以知道这两个向量组的极大线性无关组是等价的,所以这两个极大线性无关组所含向量个数相等。换言之,等价的向量组有相等的秩。
我们设矩阵的行向量组为,它经过初等行变换可能会变成以下三种可能。
而证明等价就是要证明互相线性表出,这很简单,读者不妨自行尝试。
证明矩阵的初等行变换不改变矩阵的列秩。这个问题比上一个复杂了不少,你可千万不要以为二者是相同的,如果我们设矩阵的列向量组为,它经过初等行变换可不会变成
要想解决这个问题,我们首先要证明和秩的概念关系密切的相关性的概念,也就是证明矩阵的初等行变换不改变矩阵列向量组的相关性。我们假设矩阵列向量组是,变换后是
先写出判定相关性的式子
根据分量相等可以写出两个方程组,一个以为系数矩阵,一个以初等行变换后的矩阵为系数矩阵,它们两个的增广矩阵也是相差了一个初等行变换(因为两个增广矩阵最后一列都是零),所以两个方程同解,即
所以两个向量组相关性完全一致。
如果我们只取出其中几个向量,比如,由于,所以和相关性相同。
也就是说两个向量组的部分组(向量组的子集)相关性完全一致,进而不难得到两个向量组秩相同。
综上,对一个矩阵进行初等行变换,矩阵的行秩和列秩不会改变。又由于对于一个矩阵进行初等行变换总可以变为阶梯形矩阵,所以矩阵的行秩和列秩与它的阶梯形矩阵一样,都相等且等于非零行个数。我们把这个数叫做矩阵的秩。
Part4矩阵的乘法
刚才我们知道
这种式子可以看作一个方程组,还有增广矩阵可以看作一个线性方程组,这些是简化线性方程组写法的方法。其实还有一种简化线性方程组写法的方法,我们可以把线性方程组
写成
矩阵的乘法的定义
要想(2)式展开后等于(1)式,我们可以定义矩阵的乘法如下
一个矩阵(记为)和矩阵(记为)的乘积为一个矩阵(记为)。其中的元是的第行(有个元素)和的第列(有个元素)对应相乘再相加的结果。
例如,计算如下两个矩阵的乘法
先是是左矩阵第一行和右矩阵第一列对应相乘再相加,即
作为矩阵的第一行和第一列交叉位置的元素。
依次类推,可得积矩阵为
不难看出矩阵的乘法必须满足左矩阵列数与右矩阵行数相等,本文接下来的所有矩阵乘法如果不特殊说明均满足此条件。
另外,上述例子也可以说明矩阵乘法没有交换律,不信你可以自己算一下。
矩阵的分块
矩阵的乘法可以简单概括为左矩阵的第行和右矩阵的第列对应相乘再相加作为结果的元,那如果我把左矩阵的每一行看作一个整体,写成行向量;右矩阵的每一列写成列向量,再相乘,会得到
其中
正是我们结果矩阵的元。所以(3)式是
的一个很好的简化。
那么,我们可以类比这个化简方法,看看能不能把矩阵化成一个个矩阵块,然后对由矩阵块构成的矩阵作乘法。由于加法和数量乘法都能在分块的过程中保留,所以如果矩阵的乘法也能在分块的过程中得以保留,那将会是一个很好的结果,所以让我们来看一下下式是否成立。
式中,每一个大写字母都是一个矩阵。而且除了大矩阵相乘时左矩阵列数与右矩阵行数相等,作为元素的小矩阵相乘时也要满足左矩阵列数与右矩阵行数相等。
先来验证一种简单的情况,就是我们把大矩阵分成几个横着排或竖着排的小矩阵。类似这样
它的一般形式是
(5)式中的每一个元素
正好是(4)式中的矩阵块。所以这种化简是合理的。
现在来看最一般的情形,也就是
一方面,这个式子的左边可以按(3)式化简,变成
不知道你有没有注意到式中的问号,你可以想一下为什么要有这个问号。
我来揭晓答案,因为这个式子中的和虽然都是向量,但是这些向量的分量不再是数,而是矩阵。
所以你应该知道为什么我证明了一下(4)到(5)的成立,因为这正好补充了这个问题。
分块矩阵的应用
分块矩阵的一个重要应用是可以可以简化有关矩阵的证明过程,例如我们可以用它证明一下矩阵的乘法的结合律,即。
我们把三个矩阵分别写成
所以有
所以矩阵的乘法具有结合律。
倘若我们不用分块矩阵,过程会比现在复杂的多。
圆环上的粒子
???
环上的粒子
我们考虑一个周期性的一维空间,在其中走过一定距离$L$的整数倍后便会回到出发点,我们称其为周期性边界条件,或者说,我们是在处理一个半径为$R=\frac{L}{2\pi}$的圆环。在这样条件下的量子系统会有什么行为?
自由粒子
首先考虑自由粒子,哈密顿量为
$$H=-\frac{\hbar^2}{2m}\frac{d^2}{dx^2}.$$
换成圆环坐标,即令$x=R\theta$,有
$$H=-\frac{\hbar^2}{2mR^2}\frac{d^2}{d\theta^2}.$$
此时其可以解释为以$I=mR^2$为转动惯量的平面转子,$L_z=-i\hbar\frac{d}{d\theta}$为垂直转动平面方向的角动量算符。(一个平移对称的问题转化成了一个旋转对称的问题)
本征能量$E$对应的解为:
$$\psi(\theta)=Ae^{in\theta}+Be^{-in\theta},$$
其中$n=\frac{2IE}{\hbar^2}$。由周期性边界条件$\psi(0)=\psi(2\pi)$,$n$必须为整数,这给出离散的能量谱:
$$E=\frac{n^2\hbar^2}{2I},\quad n\in\mathbb{Z}.$$
而归一化要求
$$|A|^2+|B|^2=\frac{1}{2\pi},$$
除此之外对系数没有更多的限制条件,这意味着任意满足上式的波函数$\psi_{(A,B)}$都是本征能量$E$对应的解,能量存在二重简并,这显然来自于一对动量大小相等左行/右行波(顺时针/逆时针转动)。$L_z$与哈密顿量对易,由于系统不存在其它对称性,它和哈密顿量的共同本征态是唯一确定的。
$L_z$的本征值和本征态容易求得,得到共同本征态和相应本征值:
$$
\begin{aligned}
\psi_n(\theta)&=\frac{1}{\sqrt{2\pi}}e^{in\theta},\\
E_n&=\frac{n^2\hbar^2}{2mR^2},\\
L_{z,n}&=n\hbar,
\end{aligned}
n=0,\pm 1,\pm 2,\ldots
$$
上述所有波函数的模方都是常函数$\frac{1}{\sqrt{2\pi}}$,这意味着(角)位置完全不确定,这正是(角)动量本征态应当具有的性质。
值得注意的是$n=0$的解$\psi_0(\theta)=\frac{1}{\sqrt{2\pi}}$是一个合法的归一化解,尽管它对应的能量为$0$。在如无限深势阱的问题中之所以要舍去零能解,是因为在那里零能波函数处处为零,而此处是一个可归一化的非零函数(得益于周期性边界条件)。物理上看,圆环零能解不仅位置概率密度是常函数,本身也是常函数,“不包含运动”(动量本征值为零),能量自然应该是零。
周期性的正则坐标,量子化的正则动量
注意到,虽然位置仍是连续变化的,但对应的动量却是离散的。做(离散)傅里叶变换,得到动量表象下的本征函数为:
$$
\begin{aligned}
\phi_n(l)&=\frac{1}{\sqrt{2\pi}}\int_0^{2\pi}\frac{1}{\sqrt{2\pi}}e^{in\theta}e^{-il\theta}d\theta\\
&=\delta_{nl}.
\end{aligned}
$$
即是说周期性的角位置,必然对应量子化的角动量。
环上粒子的能量本征值形式上和无限深势阱中的粒子很像,但性质大不相同。考虑如下叠加态:
$$\psi_1-\psi_{-1}\propto\sin(\theta),$$
其对应的动量波函数是两个尖峰的叠加$\delta_{1,l}-\delta_{-1,l}$,而无限深势阱的基态$\sin(\frac{n\pi x}{L})$对应的动量波函数是一个连续的分布(自行验证,连泡利也曾在这个问题上犯错)。
能量本征态的完备性
要证明能量本征态的完备性,即证明
$$\sum_{n=0,\pm 1,\ldots}|n\rangle\langle n|=\mathbb{1},$$
坐标表象下即
$$
\begin{aligned}
\sum_{n=0,\pm 1,\ldots}\langle\theta|n\rangle\langle n|\theta^{'}\rangle &=\delta(\theta-\theta^{'}),\\
\frac{1}{2\pi}\sum_{n=0,\pm 1,\ldots}e^{in(\theta-\theta^{'})}&=\delta(\theta-\theta^{'}),
\end{aligned}
$$
可以从复平面的几何图像上看出上式的成立性。
环上的$\delta$势
假设在$\theta=\pi$处存在一$\delta$势,$V(\theta)=\gamma\delta(\theta-\pi)$,我们沿用之前的方法求解该问题。
我们已经知道一维$\delta$势的通解为
$$
\begin{cases}
\psi(\theta)=Ae^{ik\theta}+Ce^{-ik\theta} & \theta < \pi,\\
\psi(\theta)=Be^{ik\theta}+De^{-ik\theta} & \theta > \pi,\\
\end{cases}
$$
由周期性边界条件,
$$
\begin{aligned}
A+C&=Be^{ik2\pi}+De^{-ik2\pi},\\
A-C&=Be^{ik2\pi}-De^{-ik2\pi},
\end{aligned}
$$
有$A=Be^{ik2\pi}$,$C=De^{-ik2\pi}$。由$\theta=\pi$处的连接条件,
$$
\begin{aligned}
Ae^{ik\pi}+Ce^{-ik\pi}&=Be^{ik\pi}+De^{-ik\pi},\\
Be^{ik\pi}-De^{-ik\pi}-Ae^{ik\pi}+Ce^{-ik\pi}&=\frac{2I\gamma}{\hbar^2}\left(Ae^{ik\pi}+Ce^{-ik\pi}\right),
\end{aligned}
$$
即
$$
\begin{aligned}
Be^{ik3\pi}+De^{-ik3\pi}&=Be^{ik\pi}+De^{-ik\pi},\\
Be^{ik\pi}-De^{-ik\pi}-Be^{ik3\pi}+De^{-ik3\pi}&=\frac{2I\gamma}{\hbar^2}\left(Be^{ik3\pi}+De^{-ik3\pi}\right),
\end{aligned}
$$
有
$$
\begin{aligned}
Be^{ik3\pi}+De^{-ik3\pi}&=Be^{ik\pi}+De^{-ik\pi},\\
De^{-ik3\pi}-De^{-ik\pi}&=\frac{I\gamma}{\hbar^2}\left(Be^{ik3\pi}+De^{-ik3\pi}\right),
\end{aligned}
$$
若$k\in\mathbb{Z}$,有$A=B=-C=-D$。得到全域上的归一化解
$$
\begin{aligned}
\psi_k(\theta)&=\frac{1}{2\sqrt{\pi}}\left(e^{ik\theta}-e^{-ik\theta}\right)\\
&=\frac{1}{\sqrt{\pi}}\sin(k\theta),
\end{aligned}
$$
其中忽略了一个整体相位因子$i$。由于$-k$和$k$对应的解只差一个整体相位因子(线性相关),以及解非零的要求,此处$k=1,2,\ldots$,不同于自由粒子。这组解对应的本征能量为
$$E_k=\frac{\hbar^2k^2}{2I},\quad k=1,2,\ldots$$
陈鄂生的《量子力学习题与解答》在求解初期就直接假设了$k$为整数,得到了上述的本征态。并且这组解的性质与$\delta$势的强度$\gamma$无关。然而,还存在其它的解。
若$k\notin\mathbb{Z}$,则
$$B=D\frac{e^{-ik\pi}-e^{-ik3\pi}}{e^{ik3\pi}-e^{ik\pi}},$$
耐心整理得到
$$\tan(k\pi)=\frac{iI\gamma}{\hbar^2},$$
上式要成立则左端为纯虚数,即$k$为纯虚数,令$k=i\kappa$,有
$$\tanh(\kappa\pi)=\frac{I\gamma}{\hbar^2},$$
$\tanh$函数的值域为$(-1,1)$,只要适当选取$\delta$势的强度$\gamma$就有对应$E < 0$的解
$$E_\kappa=-\frac{\hbar^2\kappa^2}{2I} < 0,\quad \gamma\in(-\frac{\hbar^2}{I},\frac{\hbar^2}{I}).$$
尽管并没有无穷远可供其波函数衰减至零,我们仍称其为束缚态,对应归一化波函数为
$$
\psi_\kappa(\theta)=\sqrt{\frac{2\kappa}{2\kappa\pi+\sinh(2\kappa\pi)}}
\begin{cases}
\cosh(\kappa\theta), & 0\leq\theta\leq\pi,\\
\cosh[\kappa(\theta-2\pi)], & \pi < \theta\leq 2\pi,
\end{cases}
$$
束缚态波函数图像如上图所示。
注意到该束缚态的存在与$\kappa$,进而与$\gamma$的正负无关,而只与$\gamma$的绝对值有关。这意味着在圆环上,即便是$\delta$势垒也可以存在束缚态!
束缚态的力学量分布
平均角位置为
$$
\begin{aligned}
\langle\theta\rangle&=\int_0^{2\pi}\theta\left|\psi(\theta)\right|^2d\theta\\
&=\frac{2\kappa}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\theta\cosh^2(\kappa\theta)d\theta+\int_\pi^{2\pi}\theta\cosh^2[\kappa(\theta-2\pi)]d\theta\right)\\
&=\pi,
\end{aligned}
$$
这一结果是显然的。而平均角动量为
$$
\begin{aligned}
\langle p_\theta\rangle&=\int_0^{2\pi}\psi^*(\theta)(-i\hbar\frac{d}{d\theta})\psi(\theta)d\theta\\
&=-\frac{i\hbar\kappa^2}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\sinh(2\kappa\theta)d\theta+\int_\pi^{2\pi}\sinh[2\kappa(\theta-2\pi)]d\theta\right)\\
&=0,
\end{aligned}
$$
可见,其确实具有束缚态的特征。
角位置不确定性为
$$
\begin{aligned}
\sigma_\theta&=\sqrt{\langle\theta^2\rangle-\pi^2}\\
&=\sqrt{\frac{1}{2\kappa^2}+\frac{2\pi(\kappa^2\pi^2-3)}{3\kappa[2\kappa\pi+\sinh(2\kappa\pi)]}}
\end{aligned}
$$
角动量不确定性为
$$
\begin{aligned}
\sigma_{p_\theta}&=\sqrt{\langle p_\theta^2\rangle-0}\\
&=\sqrt{-\frac{2\hbar^2\kappa^3}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\cosh^2(\kappa\theta)d\theta+\int_\pi^{2\pi}\cosh^2[\kappa(\theta-2\pi)]d\theta\right)}\\
&=\sqrt{-\hbar^2\kappa^2}???
\end{aligned}
$$
像普通的一维$\delta$势中一样,我们又一次遭遇了二阶导数发散带来的问题。补充$\theta=\pi$处发散项的贡献,有
$$
\begin{aligned}
\sigma_{p_\theta}^2&=\langle p_\theta^2\rangle-0\\
&=-\frac{2\hbar^2\kappa^3}{2\kappa\pi+\sinh(2\kappa\pi)}\left(\int_0^\pi\cosh^2(\kappa\theta)d\theta+\int_\pi^{2\pi}\cosh^2[\kappa(\theta-2\pi)]d\theta\right)\\
&+\frac{4\hbar^2\kappa^2}{2\kappa\pi+\sinh(2\kappa\pi)}\int_{\pi^-}^{\pi^+}\cosh(\kappa\theta)\sinh(\kappa\theta)\delta(\theta-\pi)d\theta\\
&=\hbar^2\kappa^2\left(1-\frac{4\kappa\pi}{2\kappa\pi+\sinh(2\kappa\pi)}\right)\geq 0
\end{aligned}
$$
$\sigma_\theta\sigma_{p_\theta}=$
学习心得:分析力学的一些重要概念的关系梳理
分析力学的一些重要概念的关系梳理
由牛顿力学进入分析力学时,会遇到非常多的奇特概念:作用量,最小作用量原理,哈密顿量、哈密顿正则方程;拉格朗日量、欧拉-拉格朗日方程,相空间、坐标空间。这些概念初见时常摸不着头脑,细品时内涵极其深刻,它们之间有什么联系呢?最近在学习陈童老师的《经典力学新讲》时,对它们的联系有了一个整体的感觉,写下来做个记录。
由牛顿力学进入分析力学时,会遇到非常多的奇特概念:作用量,最小作用量原理,哈密顿量、哈密顿正则方程;拉格朗日量、欧拉-拉格朗日方程,相空间、坐标空间。这些概念初见时常摸不着头脑,细品时内涵极其深刻,它们之间有什么联系呢?最近在学习陈童老师的《经典力学新讲》时,对它们的联系有了一个整体的感觉,写下来做个记录。
1. 从数学出发
在数学上,从费马原理出发,发展出了研究一类特殊的函数,叫做泛函,它的特殊性在于它的自变量本身也是一个函数。其表达式为
我们常常关心的是对这个泛函取极值的问题。也就是令,这被称为“最小作用量原理”,在令泛函取极值时,一定能推出下面这个表达式,即
这被称为一般形式的欧拉-拉格朗日方程”,它是一个二阶微分方程。
另外要注意的是,在对泛函取极值时,所有的的两端都是固定的。
在数学上,从费马原理出发,发展出了研究一类特殊的函数,叫做泛函,它的特殊性在于它的自变量本身也是一个函数。其表达式为
我们常常关心的是对这个泛函取极值的问题。也就是令,这被称为“最小作用量原理”,在令泛函取极值时,一定能推出下面这个表达式,即
这被称为一般形式的欧拉-拉格朗日方程”,它是一个二阶微分方程。
另外要注意的是,在对泛函取极值时,所有的的两端都是固定的。
2.进入到物理中的相空间
转到物理上,在研究单个粒子(或多粒子体系)时,我们可以取坐标,和动量作为泛函的自变量,此时的泛函被称为作用量。而由和构成的空间称为“相空间”。这时候的作用量就被写成,具体表达为
在表达式里面会包含一项,这被称为哈密顿量。
这样,数学上的泛函取极值问题,就被转化为相空间中的作用量取极值的问题,也就是“相空间中的最小作用量原理”,由此还可以得到如下表达式,即
这被称为“哈密顿正则方程”,可以看到,这是一组一阶微分方程。
要注意的是,在对相空间的作用量取极值时,相空间中可能的路径在两端并不固定,采取的做法是固定的两端。
转到物理上,在研究单个粒子(或多粒子体系)时,我们可以取坐标,和动量作为泛函的自变量,此时的泛函被称为作用量。而由和构成的空间称为“相空间”。这时候的作用量就被写成,具体表达为
在表达式里面会包含一项,这被称为哈密顿量。
这样,数学上的泛函取极值问题,就被转化为相空间中的作用量取极值的问题,也就是“相空间中的最小作用量原理”,由此还可以得到如下表达式,即
这被称为“哈密顿正则方程”,可以看到,这是一组一阶微分方程。
要注意的是,在对相空间的作用量取极值时,相空间中可能的路径在两端并不固定,采取的做法是固定的两端。
3. 进入物理中的坐标空间
进一步,如果我们直接取坐标作为作用量泛函的自变量,由此构成的空间称为“坐标空间”,这时候的作用量就变成了,即
在表达式里包含一项,这被称为拉格朗日量。
由坐标空间中的最小作用量原理可以推出“拉格朗日方程”,即
要说明的是:
可以证明,坐标空间中的最小作用量原理可以由相空间中的最小作用量原理推导出来;
在推导的过程中,由哈密顿量到拉格朗日量的变换过程叫做勒让德变换。反之,通过勒让德变换,也可以由拉格朗日量得到哈密顿量。
进一步,如果我们直接取坐标作为作用量泛函的自变量,由此构成的空间称为“坐标空间”,这时候的作用量就变成了,即
在表达式里包含一项,这被称为拉格朗日量。
由坐标空间中的最小作用量原理可以推出“拉格朗日方程”,即
要说明的是:
可以证明,坐标空间中的最小作用量原理可以由相空间中的最小作用量原理推导出来;
在推导的过程中,由哈密顿量到拉格朗日量的变换过程叫做勒让德变换。反之,通过勒让德变换,也可以由拉格朗日量得到哈密顿量。
小学毕业就可以学的线性代数知识:从线性方程组到行列式
长文预警,可以按需分次看完。
公式显示不完整的可以尝试划动公式。
另外:如果你真的是小学生,那我先向你致以崇高的敬意。但是我要提醒你,你可能会遇到一些还没学的概念,不过放心,这些概念都很基础,在网上搜索一下便可以了解这些概念,不会影响你的阅读(排列组合的知识可以看我的上一篇文章排列组合到底是什么)。
Part1n阶矩阵的引入
生活中总会遇到许许多多需要用数学来解决的问题,在解决这些问题的过程中我们得出了许多有用的数学工具,其中一种就是方程。从小到大我们遇到过各种各样的方程,不过这次我们要讨论的主要是n元一次方程组,也叫n元线性方程组。
首先我们通过一个例子来概括一下解方程组的一般方法
解这个方程组并不难,这里直接给出答案
为了方便,我们把它简写成
详细过程由读者自行补充。观察可知(1)到(2)的过程对方程组反复施行了三种变换
1 把一个方程的倍数加到另一个方程上
2 互换两个方程的位置
3 用一个非零数乘以某一个方程
这三种变换称为线性方程组的初等变换。
接下来考虑一般的方程组
对于方程组(3),它的系数全部由字母表示,为了保证初等变换的使用不被影响,我们需要引入数域的概念,这样就能保证加减乘除的随意使用了。
如果复数集的一个子集满足:
1 0,1
2 若,则
3 对于中的每个非零数,有
那么称是一个数域
方程组(3)的所有系数和常数项都要属于某个数域。
接下来我们要证明我们概括出来的初等变换可以帮助我们解方程组,即初等变换后的方程组与原方程同解。
先考虑原方程组有解的情况,设(3)的一个解是
对(3)式和(4)式使用初等变换1得到(3')和(4'),因为初等变换的过程只有系数和常数项有关,所以(3')和(4')只有和的区别,也就是说,对于(3')这个变换后的方程组,把
代入后依然得到了一组恒等式(4'),仔细想想,这不就是在告诉我们
是(3')的解。也就是说,
既是(3)也是(3')的解。即,初等变换后的方程组与原方程组同解。
再考虑原方程组没有解的情况,用反证法。如果不同解,那么变换后的方程组有解,把它代入后用初等变化反变回原方程组(比如原来×3,现在就÷3),很显然这依然经历了一组初等变换,根据刚才得到的初等变换前后的方程同解,原方程组也有解了,这与假设矛盾,所以变换后的方程组只能没有解。即,这种情况下初等变换后的方程组与原方程组同解。
刚才我们说到,解方程组的过程只对系数和常数做了运算,所以为了简单起见,我们把(3)的系数和常数项单拿出来写成一张表
称为线性方程组(3)的增广矩阵。
这样,线性方程组的初等变换就变成了矩阵的初等行变换。
1 把一行的倍数加到另一行上
2 互换两行的位置
3 用一个非零数乘以某一行
同样我们还能得到矩阵的初等列变换
1 把一列的倍数加到另一列上
2 互换两列的位置
3 用一个非零数乘以某一列
这样,我们要解方程组只需要对它的增广矩阵作初等行变换就可以了。
为了方便以后的研究,我们引入一些概念(简单浏览一下,有个印象就行)。
首先,我们把个数排成的行、列的一张表
称为一个矩阵,其中个数称为该矩阵的元素。
另外,矩阵的第行与第列交叉位置的元素称为的元,记作。
还有,元素全为0的矩阵称为零矩阵;行数和列数相等的矩阵叫做方阵。
最后,我们把行数,列数都相等,且对应位置的元素相等的矩阵看作是相同的。
接下来引入本文的重要角色,阶梯形矩阵。它满足:
(1)的零行(即元素全为零的行,如果有的话)在下方。
(2) 的每个非零行的第一个不为零的元素称为的主元,主元的列指标(即在第几列)随着行指标(即在第几行)的递增而严格增大。(主元呈阶梯形)
例如
但是它不是方程组的解的形式,所以我们还要引入一个更特殊的矩阵,满足:
(1) 是阶梯形矩阵
(2)的主元都是1
(3) 的每个主元所在的列的其余元素都是0
例如
这时称是简化行阶梯形矩阵。
别晕,概念虽然多,但都是为了简化解方程组的过程。现在,我们可以把之前复杂的解方程组的过程简化为努力利用初等行变换把方程组的增广矩阵化为简化行阶梯形矩阵的过程,这便是大名鼎鼎的高斯(Gauss)消元法。但是,我们还要发问,高斯消元法可以解所有方程组吗?换言之,任一矩阵都可以经过一系列初等行变换化成简化行阶梯形矩阵吗?(接下来的证明可以跳过,不影响接下来的阅读。)
首先证明任一矩阵都可以经过一系列初等行变换化成阶梯形矩阵。
首先,零矩阵符合阶梯形矩阵的定义,不需要变换。
下面考虑非零矩阵,对矩阵的行数用数学归纳法。
当时,该非零矩阵符合阶梯形矩阵的定义。
假设行的非零矩阵都能经过初等行变换化成阶梯形矩阵,现在来看行的情况。首先划掉所有元素全为零的列。然后通过初等行变换2使这第一列的第一行不为零,然后用初等行变换1使这列除了第一行的元素不为零以外全部为零。这样我们得到了如下矩阵
接着划去第一行和第一列,得到一个行的矩阵,根据归纳假设,这个行的矩阵一定可以化成阶梯形矩阵。再把刚才划掉的部分添回来,把所有元素全为零的列添到矩阵的最前端。得到一个行的阶梯形矩阵
(当然,这个矩阵最左面的三列表示的便是那些元素全为零的列,你在学习的时候可以选择性忽略,我加上它只是为了严谨)
据数学归纳法原理,对于一切的正整数,行的非零矩阵一定可以化成阶梯形矩阵。
接下来证明任一阶梯形矩阵都可以经过一系列初等行变换化成简化行阶梯形矩阵。
首先,零矩阵是简化行阶梯形矩阵。
下面对非零矩阵的行数作数学归纳法。
时,矩阵就是简化行阶梯形矩阵。
假设行的非零阶梯形矩阵可以经过一系列初等行变换化成简化行阶梯形矩阵。现在来看行的情况。首先用初等行变换3把阶梯形矩阵的主元变成1,然后用初等行变换1把除第一行的主元外所有主元所在列与第一行交叉位置的元素变成0.然后划去第一行和第一行主元所在列及之前的列,得到一个行的阶梯形矩阵,根据归纳假设,这个行阶梯形矩阵可化成简化行阶梯形矩阵。然后把之前划去的元素添回来。得到一个行简化行阶梯形矩阵。
根据数学归纳法原理,对于任意正整数,行的非零阶梯形矩阵都可以经过一系列初等行变换化成简化行阶梯形矩阵。
综上所述,任一矩阵都可以经过一系列初等行变换化成简化行阶梯形矩阵。即高斯消元法一定可以解所有方程。
Part2元线性方程组解的情况及其判定
二元线性方程组告诉我们,方程组不一定有解。接下来我们就来看看,到底什么情况下元线性方程组一定有解。
元线性方程组解的情况
这个问题比较大,我们一层一层的来解决它。
之前我们举了一个方程组有解的例子,那么,是不是所有方程组都一定有解呢?显然不是,随便举个例子,如果一个方程组里有这样一个方程,那么这个方程组一定是无解的,因为我们找不到一个满足上述方程的值。
把上述方程写成增广矩阵应该是一个除了最后一个元素不为零,其他元素都是零的矩阵。也就是说,如果方程组的增广矩阵化成的简化行阶梯形矩阵有
(其中)这样一行,那么方程组一定无解,因为我们找不到任何一组数满足这一行。
现在来看中没有
(其中)这样一行的情况。假设有个非零行,个未知元,根据增广矩阵的定义显然它有列(每个未知元一列,常数项一列)。现在来看方程组的第行,由于没有
若,那么有个主元,而且的第个主元不在第列,因此的个主元分别在第1,2,,列。从而必形如
所以,线性方程组有唯一解
若,可以写成如下形式
这个矩阵有点复杂,我先来解释一下。首先,这是一个简化行阶梯形矩阵,它的主元系数全为1,是它的非主元的未知元的系数。接下来我们来解释一下的下角标的含义,下角标分为三部分,第一部分代表所在的行数(其实最后一列的的下角标也是这个意思);第二部分代表它是处于哪个主元到下一个主元之间的非主元的未知元的系数;第三部分是第二部分的补充,为了区分同在某两个主元之间的非主元的未知元的系数。最后3行代表的是矩阵的所有零行。
当然,即使你没看懂上一段也无妨,你只需要知道这是一个简化行阶梯形矩阵,它的主元系数全为1,是它的非主元的未知元的系数,而下角标只是为了告诉你们它们不一定相等而已。
看懂了这个矩阵,我们来分析它的解的情况。注意到主元只在某一行出现,我们把矩阵变换回方程组,并把主元单独放在等号的一侧,就得到
为了方便交流,我引入两个名词,等号右边的叫做自由未知量,等号左边的叫做主变量,不难看出,自由未知量每取一组值,自变量都能对应一组值,把它们合到一起就是原方程组的一个解,综上,这种情况下的方程组有无穷多解。
综上,我们通过“二分法”讨论了所有情况的方程组,发现方程组的解的情况有且只有三种,当增广矩阵化为的简化行阶梯形矩阵出现
最后强调一点,讨论简化行阶梯形矩阵是因为一般的增广矩阵化为简化行阶梯形矩阵之后可能出现
知道了线性方程组解的情况,我们来考虑能否找到一个方法,不用解方程就可以判定它解的情况。
二阶行列式
古语有云,麻雀虽小,五脏俱全。我们首先来看二元线性方程组的情况。
考虑线性方程组
其中,不全为零
用Gauss消元法解方程。首先把原方程的增广矩阵化成
不难看出,时,方程组有唯一解;时,方程组无解或有无穷多解。
总之,或者说是否为0决定了方程组是否有唯一解。而且,这个式子是由方程组的系数决定的,那我们不妨仿照系数矩阵的写法,把这个表达式记为
称为方程组的行列式。
这样,我们只需要找到二阶行列式的展开方法,然后推广到阶,虽然说阶行列式是否为能符合我们的期待还有待证明,但是我们至少知道了一条道路,至于通不通我们再走走看。
先来看二阶行列式是怎么展开的。
首先,展开式有两项。再来看角标,第一项的角标是11,22;第二项是12,21。另外,第一项的符号为正,第二项为负。
整个二阶行列式的展开是被这三个条件限制的,所以我们只要找到阶行列式的这三个条件,就可以写出阶行列式的展开式了。
项数你可能会猜几阶行列式就有几项,可以,没什么问题。接下来看看角标,仔细观察会发现,每一项的角标的第一个数都是1、2,区别在第二个数,第一项是1、2,第二项是2、1,也就是排列顺序不一样。这样,我们发现了一个漏洞,就是我们对项数的猜想有问题,项数应该是角标的全排列的个数,即项。至于符号,我们发现,当角标第二项正着排时,符号为正;反着排时符号为负。所以我们猜想当一串数有奇数对反着排的数对时,符号为负,反之为正。
阶行列式
总结一下,我们从二阶行列式猜测出的阶行列式的展开的规则是
1 有项
2 每一项的行指标(角标的第一个数)呈自然序,列指标(角标的第二个数)是元排列(1~的全排列)中的一个。
3 元排列的逆序数(反着排的数对的个数,记作)是奇数时,符号为负(奇排列),反之为正(偶排列)。
写成数学表达式是
很复杂对吧,不过没关系,这个数学表达式意义不大,当你真的需要展开一个行列式时,你的思路应该是利用之前小方框里的方法,然后根据下角标找到对应的数参与运算便可以了。
为了引出下面的内容,我换一种说法描述小方框里的方法。首先确定是项数,项,对吧。这项每项都有个数相乘,那么这个数怎么找呢?首先你要保证每行只挑一个,然后还要保证每列只挑一个。这怎么办呢?我们先从第一行挑起,第一行自然可以随便挑,有种,然后我们挑第二行,这时我们只要小心不在第一行挑过那列挑就可以了,有种挑法,依次类推。按理说,挑到第行时应该只剩一个可供选择的位置了。而且这种挑法一共有种,正好是对应项。最后确定符号,把你挑的元素的列指标排成一列,是奇排列的加一个负号,反之加一个正号。
你可能已经注意到了,保证每行只挑一个,每列只挑一个,还可以从列挑起,就是从第一列开始,每列挑的元素在不同行就可以了。写成式子就是
其实还有一种既不按行也不按列的混排法,不太实用,这里就不讲了。
行列式的性质
从刚才的例子展开方式就可以看出,按列展开和按行展开有很大相似性。所以,如果我们对行列式进行如下操作(叫做转置)
如果我们对第一个行列式按行指标成自然序展开(按行挑),第二个行列式按列列指标成自然序展开(按列挑),结果是一样的,因为我们进行的操作就是把原来的行指标当成列指标。也就是说,行列式转置前后数值相等。这个性质可是非常重要,它意味这转置前后的行列式我们只需要研究一个就可以了。
如此看来,研究行列式的性质可以减少计算行列式的过程,那我们何不再找一些性质来进一步简化计算。
还记得我们研究行列式的性质的目的是什么吗?为了研究方程组解的情况。那么我们应该研究一下用来解方程的初等行变换作用到行列式上会发生什么。
先把行列式的第行乘一个常数
按定义展开(看不懂公式的跳转到文字叙述部分)
提出公因数,得
即
用非公式语言来说就是,由于行列式展开需要保证每一项中的个元素分别取自不同行,所以每一项有且仅有一个行的元素,即每一项都有且仅有一个因子,把它提出来就得到了乘原行列式。
如果我们把行列式的两行互换
这里直接文字叙述。首先,两个行列式展开都有项,且这些项是对应相等的,所以我们只需要看符号的变化就可以了。先来看原行列式展开式中的一项,我们从第一列挑起,一直挑到第列,我们假设,在挑到第列时我们挑的是第行的元素,在挑到第列时我们挑的是第行的元素。
接下来看变换后的行列式,我们需要找出与刚才那项相同的项。从第一列挑起,不过挑到第 列时,我们要找到元素变成了第行的元素;第列时同理。这样就导致了这项的行指标的排序和原来不同。那么是哪里不同呢?是和换了位置。
接下来我们探究一下,一串数中的两个互换位置会对逆序数产生什么影响。先看两个数相邻的情况
这种操作记为。这种情况下,不管前面的数还是后面的数,与和与构成的逆序都没有变,只一数对会由顺序变为逆序或逆序变为顺序,所以逆序数会加一或减一。
然后我们来看一般的情况
这个过程需要经过
共次相邻的对换,逆序数也会加上或减去一个奇数。
综上,对换会导致逆序数加上或减去一个奇数。带到行列式里,这样会导致这项符号改变。而行列式展开的所有项都会有这样的问题,合起来就是两行互换,行列式值变为原来的相反数。
那么我们很容易想到一种情形,如果行列式有两行相同,那么我们对换这两行。就会得到变换前和变换后的行列式互为相反数。另外,变换前后的行列式是相同的。也就是说,这个行列式的值等于它的相反数,这样的数只有0。总结一下,有两行相同的行列式的值等于0。
结合之前的性质,不难证明如果一个行列式有一行是另一行的常数倍,那么这个行列式等于0。
接下来看最后一种初等行变换,把一行的倍数加到另一行。
为了研究这种情况,我们首先要知道
等于什么。
先用公式证明(看不懂的去后面看文字叙述)
这里我假定在第行
接下来是文字叙述的证明。由于行列式展开时要保证每行取而且只取一个,所以每一项都会有一个第行的元素,根据乘法分配律,可以把每一项都展开,然后含的放一起,含的放一起,可以想象,这正是我们刚才用公式推导出的两个行列式。
现在我们来解决之前提出的问题
用我们之前证过的性质可以推出,行列式值不变。
对行列式应用初等行变换会发生什么你已经知道了,不过不要忘了最开始我们的性质,对我们得到的性质求转置,我们得到对行成立的性质对列也成立。
克拉默(Cramer)法则
准备工作做完了,我们来探究一下元线性方程组的解的情况是不是真的和阶行列式有关。
首先考虑数域上的元线性方程组
把它的增广矩阵记为,系数矩阵(增广矩阵去掉最后一列)记为,增广矩阵化为简化行阶梯形矩阵记为,对应的系数矩阵记为。它们对应的行列式就是在矩阵边上加两道小竖线。
我们之前讨论过线性方程组解的三种情况和对应的增广矩阵化为简化行阶梯形矩阵的情况,现在我们以此为基础进行讨论。
如果线性方程组有唯一解,那么
所以
展开这个行列式,首先在第一行取一个,因为只要有一个乘数为零积就为零,所以第一行只有取第一个数才能使这项不为零。同样的第二行只能取第二个数。最后第行只能取第个数。判断一下符号,为正,所以行列式值等于1。
根据行列式的性质,对行列式做初等行变换只会使行列式的值变成常数倍。所以如果一个线性方程组有唯一解,那么它系数矩阵的行列式不等于零。
考虑另外两种情形,方程组无解,那么有行,所以有行。那么我们在展开时,每一项都要取这一行的元素,所以行列式值等于0。
方程组有无穷多解,方程数少于未知元数。我们需要用不影响解的零行把系数矩阵填成方阵。这样行列式有零行,值等于0。
所以行列式值等于零,方程组无解或有无穷多解。
综上,方程组有唯一解当且仅当方程组的系数矩阵的行列式值不为0。这就是克拉默法则。
Part3再探行列式
你以为行列式的内容结束了吗?当然不可能,行列式还有很多我们没有发现的美丽性质等着我们去挖掘。
行列式按一行(列)展开
观察行列式的展开过程就会发现,如果我们在第一行取一个元素,那么剩下的元素只能在划掉这个元素所在的行和列剩下的个元素中取,而且取法就是行列式的取法。于是,我们猜测,行列式可不可以写成元素和行列式乘积的和的形式。进一步的,想要凑齐行列式展开的所有项,必须是某一行的个元素分别乘上除了自己所在行和列的其他所有元素组成的新行列式。我们把除了自己所在行和列的其他所有元素组成的新行列式叫做该元素的余子式。
想法有了,我们来实操一下。我们把一个阶行列式按第行展开,第一项应该是
接下来判断一下这一项的符号,也就是我们要知道余子式每项的符号和这些项正常展开时的区别。想一想我们正常展开行列式时,符号是怎么判定的,当行指标呈自然序时求列指标序列的逆序数。我们先把的余子式按行指标呈自然序展开,求整个单项式列指标的逆序数。由于在最前面,所以列指标序列的逆序数相比于余子式没有变(毕竟1最小,放在前面和谁也不构成逆序),但是行指标不是自然序,想要行指标变成自然序,就要把第一个数对换成第个数。
这需要经过次对换(对换到1后面需要一次,类比可知对换到后面需要次)。同时,列指标也对换了次,这意味着正常展开时的符号是余子式符号变换次的结果。写成数学公式的完整形式是
OK,接下来我们研究一般的情况。行列式按一行展开的第项是
接下来判定一下符号。先打开的余子式,由于在最前面,所以这时列指标构成序列的逆序数是在余子式的逆序数上增加(因为有个数比小)。接下来把行指标变成自然序,需要对换次,这样列指标就对换了次。总之逆序数相比于余子式改变了。另外,所以第项的完整形式是
这时第一项的符号应该是,好像与我们之前讨论的特殊情况不太一样,但你仔细想想,这其实是相等的。
综上,行列式按一行展开的公式应该是(不喜欢看公式可以跳过,不影响阅读)
其中
叫做的代数余子式。
应用行列式转置的性质,不难得出行列式按一列展开的公式。
克拉默公式
还记得我们解过的二元线性方程组吗
用Gauss消元法解方程。得到
所以我们猜测,元线性方程组的唯一解是,其中是系数矩阵,是把系数矩阵第列替换成增广矩阵的最后一列的系数矩阵。
这里需要补充一个定理。行列式按一行展开时是某一行元素乘对应的代数余子式。如果我们不乘对应的会怎么样呢?
考虑一个行列式
我们用第行的元素乘第行的代数余子式。这样就和
的展开式一样了(可以自己试试)。而这个行列式值等于0,所以行列式某一行的元素乘另外一行的元素的代数余子式的和等于0。对列也有同样的性质。
回归主题,把我们猜的解代入方程组
提公因式得到
把按第列(之前我们替换掉那列)展开
这里的代表的是代数余子式(区分于行列式,所以没加竖线),角标代表是哪个元素的代数余子式。
打开后重新提取公因式
这时,注意到从里面的括号里的是第行的元素乘各行的代数余子式,因为只有乘第行的代数余子式才不等于0.所以从外面的括号里的变成了
所以
得证。
行列式还有很多应用,比如求三棱柱的体积,等等。这里不详述了。
拉普拉斯(Laplace)定理
之前我们把行列式的一行单独提出来,这次我们考虑能不能把行列式的行提出来。
例如,我们先看行列式的第这行。从第行开始取,有种取法;第行有种取法;一直到第行,有种取法,一共种取法。这里包括了个列的组合和每个列的组合中的种取法。这时你应该能看出来,种种取法就对应了一个阶行列式,这个阶行列式我们把它叫做阶子式。
接下来考虑在剩下的行中取,我们把这行命名为第行。首先,当我们取定一个阶子式后,子式占用的行和列就不能再取元素了,这样我们只剩下了个元素可以取。另外,在这个元素的取法也和行列式一样。我们把这个行列式叫做阶子式的余子式。
这样,阶子式和余子式就把1~行和1~列取遍了,所以行列式的展开应该具有阶子式和余子式相乘的形式。
接下来就是判断符号,我们先任取一个阶子式和它的余子式相乘
我们先把两个行列式分别按行指标成自然序展开,并任取一项进行研究
~是~的一种排列方式,~是~的一种排列方式。
现在他的符号是
我们要看看它和正常展开时,即行指标成自然序时列指标的逆序数差了多少,即
中的(是行列式正常展开的符号,即行指标成自然序时列指标的逆序数)
可以通过对换来实现(类比行列式按一行展开)。但是对换是针对一个序列进行的,所以对换之前,我们要把两个序列合并。
把和合并为,这时逆序数增加了在中比小的部分,由于是的一种排列方式,所以我们可以看中比小的部分。中比小的有个(因为1~都在中)。中比小的有个(因为1~只有不在中)。同理,中比小的有个。
所以合并使逆序数改变了
化简得到。
所以我们要求的变成了。现在来求
接下来把阶子式和余子式的乘积的展开式的行指标变成自然序。即
这里会比较烧脑,读者不妨拿起笔和纸和我一起操作。
首先回忆一下,和是把抽出行后得到的,也就是说,和是两组从小到大排列的序列。
所以,把移到(中的一个数)后面需要先跨过(对换了次),然后再对换次到后面。以此类推,把对换到目标位置需要先对换次,再对换次。最后,把对换到后面需要对换次。一共对换了
同时列指标也对换了次。
综上,我们得到在子式和余子式相乘的结果的符号先变化
次,再变化
次便可得到了该项实际上的符号。
相加并化简得到
略去不影响系数的便得到行列式按行展开的一项的完整形式应该是
另外,我们可以把阶子式记为
是原行列式的符号(没有竖线),括号里是子式在原行列式的行指标和列指标。
所以行列式按行展开的公式就是
如果你看不懂公式,他的文字叙述就是在行列式中任取行,这个行列式的值等于它的所有由这行生成的阶子式和它的代数余子式(带符号的余子式)乘积之和。这就是拉普拉斯定理。
应用转置的性质,还可以得到行列式按列展开的公式。
排列组合到底是什么
从早上起床开始,我们的大脑就需要不停的决策,穿什么衣服,配什么裤子。有一天,无聊的数学家开始思考,到底我们是在多少情况中选择了一种呢?
Part1两种原理
假想一下,准备出门的你有三件衣服,两条裤子,那么你出门前最多有多少种搭配方式呢?
加法原理
首先,先找一条裤子,有几种情况?你可能脱口而出,两种。但是,我们不妨先慢一点,想一想这个数字你是怎么得到的。其实,我们的思考过程应该是这样的,我们可以穿第一条或第二条。
接下来再问你选择衣服的可能,你一定会毫不费力地说出三这个数字。
这便是加法原理,它告诉我们如果解决一个问题有若干种方法,那么我们只需要把每种方法的方案数相加。
乘法原理
衣服有三种可能,裤子有两种可能。你能知道一共多少种可能吗?
先别着急,仔细想一想,衣服的三种可能是对应每条裤子有三种可能。所以按照刚才我们得出的结论,所有的可能应该是种。现在,我们用乘法来简化这个加法,即我们把第一次得到的2与第二次得到的3相乘即可得到结果。
这便是乘法原理,它告诉我们当解决一个问题需要分步时,就要把每步的方案数相乘。
总结一下,如果我们完成一个问题有若干步,我们就要把每步的方案数乘起来。而每步的方案数,我们是把所有可能相加得到的。
Part2排列问题
我们接下来研究一个复杂一点的问题:排序问题。或者用数学家的话说:排列问题。
全排列
我们先来看一个简单一点的问题:个不同的人站成一排,有多少种站法。
用我们刚才得到的两个原理来思考。这个问题有步,即排第一个人,第二个人第个人。排第一个人有种选择,排第二个人有种选择,以此类推,排第个人就只有一种可能。所以一共应该有种可能。
如果我们引入一个新的运算:的阶乘=。我们就可以把这个问题的答案写作。
一般的排列问题
我们来进一步思考,如果有个人,我们要从中挑出个人排成一列,有多少种排法?
仿照刚才的过程,我们不难想到这个问题有步,即排第一个人,第二个人第个人。排第一个人有种选择,排第二个人有种选择。以此类推,排第个人就有种可能,这个结果可能有些难想,这里我交给大家一种方法,叫难题不会,做简单的,通过观察我们发现,排第一个人有种选择,排第二个人有种选择,每个人的序号加上对应的选择数应该等于,所以第个人就有种可能。
综上,一共应该有种可能。应用刚才的符号可以简写为
最后,我们将从个元素种选种再排序这类问题总结成一个公式
特别地,全排列公式
Part3组合问题
推导完一般情况的排列数公式,我们不禁想问:如果我们不需要知道顺序,只需要知道个元素种选个应该有多少种选法?
想解决这个问题我们不妨重新思考一下全排列公式。从个元素种选种再排序这个描述中就有一个分步过程,其中前半段正是我们要的结果,换言之,可以写成组合数公式与种元素的全排列相乘的结果,即
还记得我开头说的话吗?这些都是“无聊”的数学家搞出来的东西。是啊,这些东西有什么用呢?但正是这种无聊,为更美丽的风景铺平了道路。
一维$\delta$势问题
近日,一位长尾科技社群群友提出了一个关于$\delta$势中粒子能量的问题,细想之下我感到还是有些微妙的。故整理出此文。我们首先来求解势的薛定谔方程。
定态薛定谔方程
一维单$\delta$势的哈密顿量为
$$H=-\frac{\hbar^2}{2m}\frac{d^2}{dx^2}+\gamma\delta(x),$$
它描述了一个在$x=0$处趋于无穷的势,发散的方向取决于“强度”$\gamma$的正负:正即为
$\delta$势垒,负即为$\delta$势阱。它的奇异性是显而易见的,定态薛定谔方程为
$$-\frac{\hbar^2}{2m}\frac{d^2\psi(x)}{dx^2}+\gamma\delta(x)\psi(x)=E\psi(x),$$
等式右边的能量本征值$E$是个有限的数,而左边却包含发散的$\delta$函数。为了让等式成立,必须有一个相反的发散来“抵消”——能量本征函数的一阶导数必须在势阱处突变,使二阶导数发散。
$\delta$函数的准确含义只能在积分下理解
$$\int_{a}^{b}f(x)\delta(x-x_0)dx=f(x_0),\quad a< x_{0},b> x_0.$$
这也正是我们将用来求解$\delta$势问题的方法。对定态薛定谔方程两边同时积分,积分区域包含$\delta$势所在的$x=0$,并取积分上下限趋于$0$的极限:
$$\lim_{\epsilon\to 0}-\frac{\hbar^2}{2m}\left(\frac{d\psi}{dx}|_{x=\epsilon}-\frac{d\psi}{dx}|_{x=-\epsilon}\right)+\gamma\psi(0)=\lim_{\epsilon\to 0}E\int_{-\epsilon}^{\epsilon}\psi(x)dx,$$
右边极限为零,而左边包括能量本征函数在$x=0$处的右导数与左导数之差,正如预期的那样,一阶导数发生了突变:
$$\psi'(0^+)-\psi'(0^-)=\frac{2m\gamma}{\hbar^2}\psi(0).$$
结合波函数连续的条件
$$\psi(0^+)=\psi(0^-),$$
我们已经清楚了波函数在$\delta$势处的行为,接下来需要求解$\delta$势外的“自由区域”的行为。
在$x\neq 0$区域,定态薛定谔方程变成
$$\frac{d^2\psi(x)}{dx^2}=-\frac{2mE}{\hbar^2}\psi(x),$$
容易求得其通解为:
$$\psi(x)=\begin{cases}Ae^{ikx}+Ce^{-ikx} & x<0, \\ Be^{ikx}+De^{-ikx} & x>0,\end{cases}$$
其中“角波数”$k=\sqrt{\frac{2mE}{\hbar^2}}$。上文的分析告诉我们在连接处$x=0$有:
$$\psi'(0^+)-\psi'(0^-)=ik(B-D)-ik(A-C)=\frac{2m\gamma}{\hbar^2}\psi(0)=\frac{2m\gamma}{\hbar^2}(A+C)$$
即
$$ik(B-A)=\frac{m\gamma}{\hbar^2}(A+C),$$
散射态
若$k$是实数,即$E>0$,则上述波函数在无穷远处非零,问题转化为散射问题。在散射问题中,我们考虑一个平面波会怎样被散射,要得到一般波函数的散射则只需将平面波叠加起来。设平面波从左边入射,其伴随有反射波和透射波,即令$A=1$,$B=t$(transmission),$C=r$(reflection),$D=0$(仅在一边入射):
$$\psi_k(x)=\begin{cases}e^{ikx}+re^{-ikx} & x<0 \\ te^{ikx} & x>0\end{cases}$$
解得满足$x=0$处连接条件的系数为:
$$t=\frac{1}{1-\frac{m\gamma}{i\hbar^2k}},\quad r=\frac{1}{\frac{i\hbar^2k}{m\gamma}-1}.$$
注意到$t-r=1$,分段波函数可统一写为
$$\psi_k(x)=e^{ikx}+re^{ik|x|}$$
可以验证其关于波数满足狄拉克正交归一关系:
$$\int_{-\infty}^{\infty}\psi_{k_1}^*(x)\psi_{k_2}(x)dx=2\pi\delta(k_1-k_2).$$
由于不可正常归一化,此时$\left|\psi(x)\right|^2$已失去位置概率密度的意义,我们转而考察概率流密度。概率流密度定义为
$$\begin{aligned}j&=\frac{1}{2m}\left(\psi^*p\psi-\psi p\psi^*\right)\\&=-\frac{i\hbar}{2m}\left(\psi^*\frac{\partial\psi}{\partial x}-\psi\frac{\partial\psi^*}{\partial x}\right)\end{aligned}$$
我们分别计算入射波、反射波和透射波对应的概率流密度:
$$\begin{aligned}j_\text{入射}&=-\frac{i\hbar}{2m}\left[e^{-ikx}(ik)e^{ikx}-e^{ikx}(-ik)e^{-ikx}\right]\\&=\frac{\hbar k}{2m}\end{aligned}$$
$$\begin{aligned}j_\text{透射}&=-\frac{i\hbar}{2m}\left[t^*e^{-ikx}(ikt)e^{ikx}-te^{ikx}(-ikt^*)e^{-ikx}\right]\\&=\frac{\hbar k}{2m}|t|^2\end{aligned}$$
$$\begin{aligned}j_\text{反射}&=-\frac{i\hbar}{2m}\left[r^*e^{ikx}(-ikr)e^{-ikx}-re^{-ikx}(ikr^*)e^{ikx}\right]\\&=-\frac{\hbar k}{2m}|r|^2\end{aligned}$$
满足概率守恒:$j_\text{入射}+j_\text{反射}=j_\text{透射}$。概率流密度是常函数,散度(一维情况就是$\frac{\partial j}{\partial x}$)为零,则概率密度不随时间变化,这正是定态的特征。
透射概率为
$$\begin{aligned}T&=\frac{\left|j_\text{透射}\right|}{\left|j_\text{入射}\right|}=\left|t\right|^2\\&=\frac{1}{1-\frac{m\gamma}{i\hbar^2k}}\frac{1}{1+\frac{m\gamma}{i\hbar^2k}}\\&=\frac{1}{1+\frac{m^2\gamma^2}{\hbar^4k^2}}\end{aligned},$$
反射概率为
$$\begin{aligned}R&=\frac{\left|j_\text{反射}\right|}{\left|j_\text{入射}\right|}=\left|t\right|^2\\&=-\frac{1}{\frac{i\hbar^2k}{m\gamma}-1}\frac{1}{\frac{i\hbar^2k}{m\gamma}+1}\\&=\frac{1}{1+\frac{\hbar^4k^2}{m^2\gamma^2}}\end{aligned},$$
满足$T+R=1$。
我们再来求解束缚态。
束缚态
束缚态的条件是波函数在无穷远处要趋于零,由通解
$$\psi(x)=\begin{cases}Ae^{ikx}+Ce^{-ikx} & x<0, \\ Be^{ikx}+De^{-ikx} & x>0,\end{cases}$$
即要求$k$有虚部,才能有在无穷远趋于零的实指数函数。由于能量本征值$E$是实数,$k=\sqrt{\frac{2mE}{\hbar^2}}\notin\mathbb{R}$只能当$E<0$时取纯虚数。令$\kappa=-ik>0$,由无穷远边界条件,束缚态通解为
$$\psi_\kappa(x)=\begin{cases}Ce^{\kappa x} & x<0, \\ Be^{-\kappa x} & x>0,\end{cases}$$
由$x=0$处连续条件和归一化有
$$\psi_\kappa(x)=\begin{cases}\sqrt{\kappa}e^{\kappa x} & x\leq0, \\ \sqrt{\kappa}e^{-\kappa x} & x>0,\end{cases}$$
且其对应的能量$E$不再像散射态中为任意正数,而是由
$$ik(B-A)=\frac{m\gamma}{\hbar^2}(A+C),\quad A=0,B=C=\sqrt{\kappa}$$
得
$$\kappa=-\frac{m\gamma}{\hbar^2}$$
$$E=\frac{\hbar^2 k^2}{2m}=-\frac{m\gamma^2}{2\hbar^2}$$
$\kappa>0$要求$\gamma<0$,即仅在$\delta$势阱,而非势垒中存在束缚态,这符合直觉。解得的本征能量和能量本征函数中都没有标志着能级的变量$n$,即$\delta$势阱中只存在一个束缚态。
尝试从物理上理解这一点:更高的能级意味着更短的波长、更强的振荡(波函数有更多节点),而$\delta$势阱中经典允许区仅有$x=0$一点,波函数几乎完全处于$E< V$的经典禁区,其中波函数只能指数衰减而无法振荡,无法容许更高激发态的存在。
能量问题
束缚态能量为负是什么意思呢?其实重要的是和无穷远处势能的大小关系,而势能的零点是可以任意选取的,上面只是把零点选为无穷远处而已。若平移一个量$V_0$,
$$-\frac{\hbar^2}{2m}\frac{d^2\psi(x)}{dx^2}+\gamma\delta(x)\psi(x)+V_0\psi(x)=E\psi(x),$$
移项,相当于在上面求解的$\delta$势中,把$E$代换成$E-V_0$,解得
$$E-V_0=-\frac{m\gamma^2}{2\hbar^2},$$
$$E=V_0-\frac{m\gamma^2}{2\hbar^2},$$
可见“负能量”只意味着
$$E< V(\pm\infty)=\gamma\delta(\pm\infty)+V_0=V_0.$$
经典地看,就是束缚态粒子运动到有限远处就会耗尽动能,被吸引势拉回去(虽然$\delta$势中几乎处处是经典禁区,根本没有经典可言!)。
另一方面,由$\delta$函数的积分性质,简单的计算给出势能期望值为:
$$\langle V\rangle=\gamma\kappa=-\frac{m\gamma^2}{\hbar^2}.$$
进而可以求出动能期望值
$$\begin{aligned}\langle T\rangle&=\frac{1}{2m}\int_{-\infty}^{\infty}\psi^*(x)p^2\psi(x)dx\\&=-\frac{\hbar^2}{2m}\int_{-\infty}^{\infty}\psi^*(x)\frac{\partial^2\psi(x)}{\partial x^2}dx\\&=-\frac{\hbar^2\kappa^3}{m}\int_{-\infty}^{0}e^{2\kappa x}dx\\&=-\frac{\hbar^2\kappa^2}{2m}=-\frac{m\gamma^2}{2\hbar^2}< 0???\end{aligned}$$
要得到正确结果,我们必须把$x=0$处一阶导数的突变考虑进来
$$\psi'(0^+)-\psi'(0^-)=-2\kappa^{3/2}$$
$$\begin{aligned}\frac{\partial^2\psi(x)}{\partial x^2}&=\kappa^{5/2}e^{-\kappa|x|}\\&\to\kappa^{5/2}e^{-\kappa|x|}-2\kappa^{3/2}\delta(x),\end{aligned}$$
则有
$$\begin{aligned}\langle T\rangle&=-\frac{\hbar^2}{2m}\int_{-\infty}^{\infty}\psi^*(x)\frac{\partial^2\psi(x)}{\partial x^2}dx\\&=-\frac{\hbar^2\kappa^3}{m}\int_{-\infty}^{0}e^{2\kappa x}dx+\frac{\hbar^2\kappa^2}{m}\\&=\frac{\hbar^2\kappa^2}{2m}=\frac{m\gamma^2}{2\hbar^2}.\end{aligned}$$
其它力学量
显然,对这样一个束缚态,有$\langle x\rangle=0$,$\langle p\rangle=0$。而不确定度
$$\begin{aligned}
\sigma_x^2&=\langle x^2\rangle-\langle x\rangle^2
\\&=\int_{-\infty}^{\infty}x^2\left|\psi(x)\right|^2dx\\
&=\kappa\int_{-\infty}^{0}x^2e^{2\kappa x}dx\\
&=\frac{1}{4\kappa^2}\\\\
\sigma_p^2&=\langle p^2\rangle-\langle p\rangle^2\\
&=-\hbar^2\int_{-\infty}^{\infty}\psi^*(x)\frac{\partial^2\psi(x)}{\partial x^2}dx\\
&=2m\langle T\rangle\\
&=\hbar^2\kappa^2\\\\
\sigma_x\sigma_p&=\frac{\hbar}{2}
\end{aligned}$$
可见,束缚在$\delta$势阱中的粒子处于位置和动量具有最小不确定性的状态。增大$\delta$势阱的强度$\gamma$可以减小位置不确定性,但动量不确定性将随之增大。 收起阅读 »
一道数列极限的例题
数列极限的定义是
对于任意正数(无论它多小),总可以找到序号,使得当时,恒成立。这时称数列的极限为。记作
要点
直觉上看,极限是无限接近的意思,换言之,就是要多接近有多接近。而这个定义就是给这句话翻译成了数学语言。
首先要明白一点,这个定义只能证明极限,而不能求解。这意味着我们需要先猜出一个,再证明。
假设我们已经猜出一个,我们保证在序号变大时的值越来越接近,并且满足要多接近有多接近,我们需要用(表示和的距离)来衡量。
要多小有多小就是在一定条件下可以小于任意给定的正常数。
那么这个一定条件是什么呢?由于我们要找的是序号趋近无穷大时的极限,我们就应该让序号在比一个数大的情况下都能满足恒成立。
也就是说我们每给出一个都得找到一个,而我们怎么才能使任给的一个都能找到呢?是无穷无尽的,穷举是不可能的,我们应该考虑能不能找到一个关于的式子,每出现一个时,代入便可找到。
接下来我通过一道例题来说明这些要点。
例题
求证:数列极限是0
首先,求出,即
想让它小于任给的正数,就是先解一下这个方程
(注意此时已给定)
解出来的可能不是一个整数,我们只需要它的整数部分(用进一法取),比如1.12我们取2作为的值。由于这个数列是递减的,所以这个一定是满足时,恒成立。
这样我们就得到了给定一个求的方法,这样就满足了对所有都找到一个。
即证。
光学笔记
\section{光的干涉}
\subsection{单色光波}
\subsubsection{单色光波的描述}
单色光波的波函数是
\begin{align}
\vec E(p,t)=\vec E_0(p)\cos[\omega t-\varphi(p)]
.\end{align}
理论上单色光波必须满足:
\begin{enumerate}
\item 电磁场频率\(\omega\)不变;
\item 空间各点的光波振幅\(\vec E_0(p)\)、初始相位\(\varphi_0(p)\)不随时间变化;
\item 光波波列无限长。
\end{enumerate}
第三点是因为根据Fourier分析,对有限长的一列光波进行Fourier变换后可以发现,这列光波可以看成是由不同频率的无限长单色平面波线性叠加而成的。这一点将在本节的最后予以简单的说明。\\
\phantom{awd}\par
单色平面波的波函数
\begin{align}
\vec E(p,t)=\vec E_0\cos(\omega t-\vec K\cdot\vec r+\varphi_0)
.\end{align}
\phantom{awd}\par
单色球面波的标量波函数
\begin{align}
E(p,t)=\frac{A_0}{r}\cos(\omega t-kr+\varphi_0)
.\end{align}
其振幅正比于\(1/r\),这来自于能量守恒定律,等下讲了光强便会证明。\\
\phantom{awd}\par
现在将波函数改写为复指数函数的形式,则单色光波的波函数为
\begin{align}
\tilde E(p,t)=E_0(p)\mathrm e^{-\mathrm i[\omega t-\varphi(p)]}
=E_0(p)\mathrm e^{\mathrm i\varphi(p)}\mathrm e^{-\mathrm i\omega t}
=\tilde E_0(p)\mathrm e^{-\mathrm i\omega t}
.\end{align}
对于单色光场的波函数,时间振荡因子\(\mathrm e^{-\mathrm i\omega t}\)都是相同的,所以常常略去不写,剩下的空间分布因子是光场的复振幅\(\tilde E_0(p)\)。\\
光强是光的平均能流密度,可以方便地写成复振幅的形式:
\begin{align}
I=\left<\vec E,\vec E \right>
=\tilde E_0^*(p)\tilde E_0(p)
.\end{align}
回到球面波的振幅问题,根据能量守恒,在没有光能吸收的情况下,在单位时间内以点光源为球心的球面上的总光能量是相同的,而光强是单位时间单位面积上的能量,所以单位时间内半径为\(r\)的球面上的总能量是\(W=4\pi r^2I\),又\(I=A_0^2/r^2\),因此\(W=4\pi A_0^2\)为常数,满足能量守恒。
\newpage
\subsubsection{单色光波的叠加}
设有\(n\)个频率、振动方向相同的单色光波发生线性叠加,其中第\(i\)列光波为
\begin{align*}
\tilde E_i(p,t)=\tilde E_{0i}(p)\mathrm e^{-\mathrm i\omega t},
\end{align*}
则点\(p\)处的总光振动为
\begin{align*}
\tilde E(p,t)=\sum_{i=1}^n\tilde E_i(p,t)=\left\{\sum_{i=1}^n\tilde E_{0i}(p) \right\} \mathrm e^{-\mathrm i\omega t}.
\end{align*}
总振幅为
\begin{align*}
\tilde E_0(p)=\sum_{i=1}^n\tilde E_{0i}(p).
\end{align*}
\phantom{awd}\par
以两列光波的叠加为例,设
\begin{align*}
\tilde E_0(p)=\tilde E_{01}(p)+\tilde E_{02}(p)=E_{01}\mathrm e^{\mathrm i\varphi_1}+E_{02}\mathrm e^{\mathrm i\varphi_2},
\end{align*}
计算合振动的振幅:
\begin{align}
\tilde E_0^2(p)&=\tilde E_0^*(p)\tilde E_0(p)\notag \\
&=(E_{01}\mathrm e^{-\mathrm i\varphi_1}+E_{02}\mathrm e^{-\mathrm i\varphi_{2}})(E_{01}\mathrm e^{\mathrm i\varphi_1}+E_{02}\mathrm e^{\mathrm i\varphi_{2}})\notag\\
&=E_{01}^2+E_{02}^2+E_{01}E_{02}[\mathrm e^{\mathrm i(\varphi_1-\varphi_2)}+\mathrm e^{-\mathrm i(\varphi_1-\varphi_2)}]\notag\\
&=E_{01}^2+E_{02}^2+2E_{01}E_{02}\cos(\varphi_1-\varphi_2)
.\end{align}
再计算合振动的初相位:
\begin{align}
\tilde E_0(p)&=E_{01}\cos \varphi_1+E_{02}\cos \varphi_2+\mathrm i(E_{01}\sin \varphi_1+E_{02}\sin \varphi_2),\notag\\
\tan \varphi&=\frac{E_{01}\sin \varphi_1+E_{02}\sin\varphi_2}{E_{01}\cos\varphi_1+E_{02}\cos\varphi_2}
.\end{align}
\phantom{awd}\par
现在考虑两个振动方向相同、振幅相等而频率相差很小的单色光波的叠加,结果会产生“光拍”现象。\\
设角频率为\(\omega_1,\omega_2\)的两个单色光波沿着\(z\)方向传播,其波函数为
\begin{align*}
E_i=E_0\cos(\omega_it-k_iz),\quad i=1,2,
\end{align*}
两个光波叠加
\begin{align}
E&=E_0\cos(\omega_1t-k_1z)+E_0\cos(\omega_2t-k_2z)\notag \\
&=2E_0\cos \left\{ \frac{1}{2}[(k_1+k_2)z-(\omega_1+\omega_2)t] \right\}\cdot\cos \left\{ \frac{1}{2}[(k_1-k_2)z-(\omega_1-\omega_2)t] \right\}
.\end{align}
设平均角频率\(\overline \omega\)、调制角频率\(\omega_m\)为
\[
\begin{cases}
\overline \omega=\frac{1}{2}(\omega_1+\omega_2),\\ \overline k=\frac{1}{2}(k_1+k_2),
\end{cases}\quad
\begin{cases}
\omega_m=\frac{1}{2}(\omega_1-\omega_2),\\
k_m=\frac{1}{2}(k_1-k_2),
\end{cases}
\]
并设
\begin{align*}
A=2E_0\cos(k_mz-\omega_mt),
\end{align*}
则合成波可以写为
\begin{align}
E=A\cos(\overline kz-\overline \omega t)
.\end{align}
这意味着合成波可以看作一个频率为\(\overline \omega\)而振幅随着时间和位置在\(-2E_0\)和\(2E_0\)之间变化的高频波列。由于光波频率很高,\(\omega_1\thickapprox \omega_2\),因而\(\overline \omega \gg\omega_m\),从而振幅\(A\)变化缓慢而光振动\(E\)变化极快。\\
合成波的光强为
\begin{align*}
I=4E_0^2\cos^2(k_mz-\omega_mt)
,\end{align*}
可以看出其随着时间和位置在\(0\)和\(4E_0^2\)之间变化。这种强度时大时小的现象称为“拍”,由上可知拍频等于\(2\omega_m=\omega_1-\omega_2\)。\\
\phantom{awd}\par
单色光波是理想的光波,实际上波都是由许多不同频率的单色波按照一定方式叠加而成,叠加结果成为波包或波群。\\
光波的等相面传播速度是波群的相速度
\begin{align}
v_p=\frac{\omega}{k}
,\end{align}
等幅面传播速度是波群的群速度
\begin{align}
v_g=\frac{\mathrm{d}\omega}{\mathrm{d}k}
.\end{align}
由此可以得到群速度\(v_g\)和相速度\(v_p\)的关系
\begin{align}
v_g&=\frac{\mathrm{d}\omega}{\mathrm{d}k}
=\frac{\mathrm{d}(kv_p)}{\mathrm{d}k}
=v_p+k \frac{\mathrm{d}v_p}{\mathrm{d}k}, \notag \\
&=v_p+\frac{2\pi}{\lambda}\frac{\mathrm{d}v_p}{-\frac{2\pi}{\lambda^2}\mathrm{d}\lambda}
=v_p-\lambda\frac{\mathrm{d}v_p}{\mathrm{d}\lambda}
.\end{align}
这意味着群速度和相速度的差值取决于\(\frac{\mathrm{d}v_p}{\mathrm{d}\lambda}\),其正负即色散关系。\\
波携带的能量与振幅的平方成正比,因此群速度代表能量传播的速度,即信号速度。\\
\phantom{awd}\par
严格地推导波包的群速度,需要将波包展成Fourier积分
\begin{align}
\tilde E(x,t)=\frac{1}{2\pi}\int_{k_0-\Delta k/2}^{k_0+\Delta k/2}E_0(k)\mathrm e^{-\mathrm i(\omega t-kx)}\,\mathrm dk
.\end{align}
可以看出波包是由中心频率为\(k_0\),频谱范围为\(\Delta k\)的单色光以不同的权重\(E_0(k)\)叠加而成的,这里\(E_0(k)\)取决于谱线的线型。\\
对于准单色波包,频率范围\(\Delta k\)很小,近似取
\begin{align*}
E_0(k)=E_0(k_0),
\end{align*}
这是一个常数,直接提到积分号外。\\
对于\(\omega(k)\),令\(k'=k-k_0\),将\(\omega(k)\)展开到一阶
\begin{align*}
\omega(k)=\omega(k_0)+\frac{\mathrm{d}\omega}{\mathrm{d}k}\bigg |_{k=k_0}k'.
\end{align*}
从而被积函数的指数
\begin{align*}
\mathrm e^{-\mathrm i(\omega t-kx)}=\mathrm e^{-\mathrm i(\omega_0t-k_0x)}\mathrm e^{-\mathrm i\left( \frac{\mathrm{d}\omega}{\mathrm{d}k}t-x \right)k' }.
\end{align*}
于是
\begin{align}
\tilde E(x,t)&=\frac{1}{2\pi}E_0(k_0)\mathrm e^{-\mathrm i(\omega_0t-k_0x)}\int_{-\Delta k/2}^{+\Delta k/2}\mathrm e^{-\mathrm i\left( \frac{\mathrm d\omega}{\mathrm dk}t-x \right)k' }\,\mathrm dk'\notag \\
&=\frac 1{2\pi}E_0(k_0)\mathrm e^{-\mathrm i(\omega_0t-k_0x)}
\frac{
\mathrm e^{\mathrm i
\left(\frac{\mathrm d\omega}{\mathrm dk}t- x\right)\frac{\Delta k}{2}
}
-\mathrm e^{-\mathrm i
\left(\frac{\mathrm d\omega}{\mathrm dk}t-x
\right)\frac{\Delta k}{2}
}
}{\mathrm i\left(\frac{\mathrm d\omega}{\mathrm dk}t-x
\right)}\notag\\
&=\frac 1{2\pi}E_0(k_0)\mathrm e^{-\mathrm i(\omega_0t-k_0x)}
\frac{2\sin\left[\left(\frac{\mathrm d\omega}{\mathrm dk}t-x\right)\frac{\Delta k}{2}\right]}{\frac{\mathrm d\omega}{\mathrm dk}t-x}\notag\\
&=\frac{E_0(k_0)}{\pi}\frac{\sin\left[\left(\frac{\mathrm d\omega}{\mathrm dk}t-x\right)\frac{\Delta k}{2}\right]}{\frac{\mathrm d\omega}{\mathrm dk}t-x}\mathrm e^{-\mathrm i(\omega_0t-k_0x)}
.\end{align}
其中\(\frac{E_0(k_0)}{\pi}\frac{\sin \left[ \left(\frac{\mathrm d\omega}{\mathrm dk}t-x\right) \frac{\Delta k}{2}\right] }{\frac{\mathrm{d}\omega}{\mathrm{d}k}t-x }\)是振幅包络因子,\(\mathrm e^{-\mathrm i(\omega_0t-k_0x)}\)是高频相位因子。\\
波包的群速度可以从振幅包络因子的最大处条件求出,由\(\lim_{x\rightarrow 0}\frac{\sin x}{x}=1\),令\(\frac{\mathrm d\omega}{\mathrm dk}t-x=0\),求出\(v_g=\frac{\mathrm d\omega}{\mathrm dk}\)。\\
\phantom{awd}\par
下面再来讨论波列长度与频率范围的关系。由振幅包络因子可以看出,\(t\)时刻波包振幅最大处为\(x_m=v_gt\),此时振幅由最大值向两边衰减,令\(\sin(\cdots)=0\)可知当\(x=v_gt\pm \frac{2\pi}{\Delta k}\)时振幅为零,可以认为这里就是波包的两个端点。因此波包也可视作有限长度的波列,波列长度的数量级为
\begin{align}
l_c&\thickapprox \frac{2\pi}{\Delta k},\notag \\
&=\frac{2\pi}{\frac{2\pi}{\lambda^2}\Delta \lambda}=\frac{\lambda^2}{\Delta \lambda}
.\end{align}
这意味着波列长度\(l_c\)和波包所包含的单色分波的波长范围成反比,波列越长,波列所包含的单色分波的波长范围就越窄,当波列长度为无限长时\(\Delta \lambda=0\),这就是单色光波。\\
谱线宽度可以度量光波的单色性,谱线越窄,单色性越好,同样,光波的波列长度也可以度量光波的单色性,波列越长,单色性越好。综上,两种说法——“光是由有限长的波列组成的”和“光是非单色的”是等效的,它们是光源同一性质的不同表述,前者着重光波的空间长度,后者则从光波的频谱着眼。\\
设光源的发光时间为\(\tau_0\),则波列长为\(l_c=c \tau_0 \),又\(\Delta \nu=c \Delta \lambda/\lambda ^2\),代入得到
\begin{align}
\tau_0\Delta \nu \thickapprox 1
.\end{align}
因此光源的发光时间\(\tau_0 \)也是单色性的度量。
\newpage
\subsection{光干涉的相干条件}
两束或以上的光波在一定条件下叠加,在重叠区域形成稳定的、不均匀的光强分布,出现明暗相间或彩色的条纹,这种现象称为\textbf{光的干涉}。\\
考虑两个振动方向、频率、初相位相同的单色点光源发出的两列球面波
\begin{align*}
\tilde E_i(p,t)=E_{0i}\mathrm e^{\mathrm i(kr_i-\varphi_0)}\mathrm e^{-\mathrm i\omega t},
\end{align*}
叠加后的光强分布
\begin{align}
I(p)&=E_{01}^2+E_{02}^2+2E_{01}E_{02}\cos[k(r_1-r_2)],\notag \\
&=I_1+I_2+2\sqrt{I_1I_2}\cos[\delta (p)]
.\end{align}
其中\(\delta (p)\)是两光波在点\(p\)处的相位差,这就是\textbf{光强分布基本公式}。\\
产生干涉的必要条件有三条:
\begin{enumerate}
\item 频率相同;
\item 存在相互平行的振动分量;
\item 相位差稳定。
\end{enumerate}
为了使相遇的两列光波具有稳定的相位差,必须设法将同一光源/同一原子发出的同一波列分成两束,然后再重叠起来,这样在重叠区就能产生稳定的干涉场/光强空间分布。所以上面计算的叠加的两列光波具有相同的振动方向、频率、初相位。\\
\phantom{awd}\par
根据光强分布基本公式可知,满足
\begin{align*}
\delta (p)=
\begin{cases}
2m\pi,\\
(2m+1)\pi,
\end{cases}
\end{align*}
的点光强有极大/极小值。\\
但是若两列光波经过不同的介质,这时它们的相位差就是
\begin{align*}
\delta (p)=\frac{2\pi r_1}{\lambda_1}-\frac{2\pi r_2}{\lambda_2 },
\end{align*}
计算就很不方便,这时可以转化为
\begin{align*}
\delta (p)=\frac{2\pi}{\lambda }(n_1r_1-n_2r_2)=\frac{2\pi}{\lambda }\Delta l(p),
\end{align*}
这里\(\Delta l(p)\)是两列相干光在叠加点处的光程差。\\
可以得到\textbf{光程差判据}
\begin{align}
\Delta l(p)=
\begin{cases}
m \lambda,\\
(m+1/2)\lambda.
\end{cases}
\end{align}
干涉现象的可见性由干涉条纹的反衬度描述:
\begin{align}
\gamma =\frac{I_M-I_m}{I_M+I_m}.
\end{align}
\newpage
\subsection{Young's双缝干涉}
\subsubsection{干涉条纹的基本特征与光强分布}
光程差
\begin{align}
\Delta l&=r_2-r_1\doteq d\sin\theta'\doteq d\sin\theta\notag\\
&\doteq d\tan\theta=xd/D .
\end{align}
干涉极值位置
\begin{align}
x=
\begin{cases}
mD \lambda /d,\\
(m+1/2)D \lambda /d.
\end{cases}
\end{align}
干涉条纹间距
\begin{align}
\Delta x=D \lambda /d.
\end{align}
光强空间分布
\begin{align}
I&=2I_0+2I_0\cos(2\pi \Delta l/ \lambda )\notag \\
&=4I_0\cos^2\left(\pi\Delta l /\lambda \right)\notag\\
&=4I_0\cos^2\left( \frac{\pi d}{D \lambda }x \right)
.\end{align}
\subsubsection{最高可分辨条纹的级数}
波长\(\lambda \)的\(m'+1\)级极大位置在
\begin{align*}
x=(m'+1) \frac{D}{d}\lambda ,
\end{align*}
而波长\(\lambda +\Delta \lambda \)的\(m'\)级极大位置在
\begin{align*}
x=m'\frac{D}{d}(\lambda +\Delta \lambda ),
\end{align*}
因此干涉条纹的最大级数是
\begin{align}
m'=\frac{\lambda }{\Delta \lambda }.
\end{align}
与之相对应的光程差称为\textbf{最大相干光程差}
\begin{align}
\Delta l_M=\frac{\lambda^2}{\Delta \lambda },
\end{align}
\newpage
\subsubsection{干涉条纹的移动和光源的移动的关系}
光程差
\begin{align*}
\Delta l=R_2-R_1+r_2-r_1,
\end{align*}
下面是近似的艺术
\begin{align*}
&R_2-R_1\doteq \alpha d\doteq QS_2\\
&\alpha \doteq \frac{d/2}{l_2}=\frac{\updelta s}{l_1}\\
&l=l_1+l_2\doteq\left( \updelta s+\frac{d}{2} \right)\frac{1}{\alpha }\\
&\alpha \doteq \frac{\updelta s+d/2}{l} \\
&R_2-R_1\doteq \alpha d\doteq \left( \frac{\updelta s+d/2}{l} \right)d\doteq \frac{d}{l}\updelta s.
\end{align*}
综上代入有
\begin{align}
\Delta l=\frac{d}{l}\updelta s+\frac{d}{D}\updelta x=\frac{d}{D}\left( \updelta x+\frac{D}{l}\updelta s \right) .
\end{align}
计算零级条纹的位置
\begin{align}
\updelta x=-\frac{D}{l}\updelta s.
\end{align}
\subsubsection{光源的临界宽度和空间相干性}
若两组干涉条纹彼此相差半个条纹间距,则二者干涉花样互补,叠加后屏幕上光强处处相等,不能观察到干涉条纹,故有
\begin{align*}
&\updelta x=\frac{1}{2}\Delta x=\frac{D}{2d}\lambda, \\
&\updelta s=\frac{l}{D}\updelta x=\frac{l \lambda }{2d}.
\end{align*}
于是线光源的临界宽度为
\begin{align}
b_c=2\updelta s=\frac{l \lambda }{d}.
\end{align}
\phantom{awd}\par
现在从具体的干涉装置中解脱出来,反过来提问题:给定宽度为\(b\)的扩展光源,在它照明的空间中多大范围内的两个次级光源\(S_1,S_2\)还是相干的?不妨把上式倒过来
\begin{align*}
d<\frac{l \lambda }{b}=d_c,
\end{align*}
这里\(d_c\)正比于距离\(l\),因此用\textbf{干涉孔径角}\(\beta =d/l\)来度量相干范围更加方便。现在最大干涉孔径角\(\beta _c=d_c/l\)是相距\(d_c\)的两个点光源\(S_1,S_2\)对光源中心所张的角度,在最大干涉孔径角以外的两个点光源看作不相干的,在最大干涉孔径角以内的两个点光源则有一定程度的相干性,即
\begin{align}
b \beta _c\thickapprox \lambda .
\end{align}
这意味着最大干涉孔径角\(\beta _c\)与光源宽度\(b\)成反比,这就是\textbf{空间相干性的反比公式}。
\subsubsection{干涉条纹的反衬度}
考虑沿\(s\)方向扩展、宽度为\(b\)的线光源,每一元光源宽度为\(\mathrm ds\),看作独立点光源,则扩展光源上点\(s\)处的元光源在屏幕上点\(x\)处产生的光强为
\begin{align*}
\mathrm dI=2I_0 \left[ 1+\cos \left(\frac{2\pi}{\lambda }\Delta l\right) \right] \,\mathrm ds,
\end{align*}
其中\(\Delta l\)是\(s,x\)的函数,代入得到
\begin{align}
\mathrm dI=2I_0\left\{ 1+\cos \left[\frac{2\pi}{\lambda }\left(\frac{d}{l}s+\frac{d}{D}x\right)\right] \right\}\,\mathrm ds.
\end{align}
于是宽度为\(b\)的扩展光源在点\(x\)处的合成光强
\begin{align}
I&=\int_{-b/2}^{+b/2} 2I_0\left\{ 1+\cos \left[\frac{2\pi}{\lambda }\left(\frac{d}{l}s+\frac{d}{D}x\right)\right] \right\}\,\mathrm ds\notag \\
&=2I_0b+2I_0\int_{-b/2}^{+b/2}\cos \left[\frac{2\pi}{\lambda }\left(\frac{d}{l}s+\frac{d}{D}x\right)\right]\,\mathrm ds\notag\\
&=2I_0b+2I_0\frac{\lambda l}{2\pi d}\left[\sin\left(\frac{2\pi d}{\lambda l}\frac{b}{2}+\frac{2\pi d}{\lambda D}x\right)-\sin\left(-\frac{2\pi d}{\lambda l }\frac{b}{2}+\frac{2\pi d}{\lambda D}x\right)\right]\notag\\
&=2I_0b+2I_0 \frac{\lambda l}{\pi d}\sin\left(\frac{\pi db}{\lambda l}\right) \cos\left(\frac{2\pi d}{\lambda D}x\right)\notag\\
&=2I_0b+2I_0 \frac{\lambda}{\pi \beta }\sin \left( \frac{\pi b \beta }{\lambda } \right) \cos \left( \frac{2\pi d}{\lambda D}x \right) \notag\\
&=2I_0b \left[ 1+\frac{\sin u}{u}\cos \left( \frac{2\pi d}{\lambda D}x \right) \right]
.\end{align}
其中\(\beta =\frac{d}{l},u=\frac{\pi b \beta }{\lambda }\)。\\
因此反衬度为
\begin{align}
&I_M=2I_0b \left( 1+\left| \frac{\sin u}{u} \right| \right),\notag \\
&I_m=2I_0b \left( 1-\left| \frac{\sin u}{u} \right| \right),\notag\\
&\gamma =\left| \frac{\sin u}{u} \right| .
\end{align}
可见随着光源宽度\(b\)的增大,反衬度经过一系列极大值和零值振荡地趋近于零。第一个零点\(u=\pi \),正是临界宽度\(b=\lambda /\beta \)。
\newpage
\subsubsection{例题:Fresnel双面镜干涉}
设光源到双面镜的镜面相交点的距离为\(r\),双面镜的中心到屏幕的距离为\(l\),\(S_1,S_2\)分别是光源\(S\)为双面镜所成的虚像,屏幕与\(S_1,S_2\)的中垂线垂直,光波的波长为\(\lambda \),测得屏幕上干涉条纹的间距为\(\Delta x \),求:
\begin{enumerate}
\item 两镜夹角\(\theta \)、屏幕上亮条纹总数\(N\);
\item 若单色光源宽度为\(b\),求光源的临界宽度\(b_c\)。
\end{enumerate}
\textbf{解}\quad 1.由几何关系易知
\begin{align}
S_1S_2=2r\tan \theta .
\end{align}
设屏幕上一点\(P\)到直线\(OO'\)的距离为\(x\)(当点\(P\)在\(OO'\)上方时\(x>0\),反之则\(x<0\)),设角\(PO'O\)为\(\phi \),则可近似
\begin{align}
&\tan \phi =\frac{2}{r+l} \doteq \sin \phi\notag .
\end{align}
由于\((r+l)\ll S_1S_2\),\(S_1S_2\)与过点\(S_1\)到\(PS_2\)的垂线的夹角近似为\(\phi \),光程差\(\Delta l\)近似为\(S_1S_2\sin \phi \),从而
\begin{align}
\Delta l&=S_1S_2\sin \phi \notag \\
&=\frac{2rx}{r+l}\tan \theta
.\end{align}
根据光程差判据
\begin{align}
&\Delta l=m \lambda\notag \\
&x=\frac{r+l}{2r}\frac{\lambda}{\tan \theta }m\\
&\Delta x=\frac{r+l}{2r}\frac{\lambda}{\tan \theta }\\
&\theta =\arctan \frac{(r+l)\lambda }{2r \Delta x}\notag
.\end{align}
根据干涉极大的条件
\begin{align}
x&=\frac{r+l}{2r}\frac{\lambda}{\tan \theta }(N+1)\notag \\
x&=\frac{r+l}{2r}\frac{\lambda+\Delta \lambda }{\tan \theta }N\notag\\
N&=\frac{\lambda}{\Delta \lambda }
.\end{align}
经过点\(O\)的光波形成干涉条纹的边界
\begin{align}
x&=2l \tan \theta \notag \\
N&=\frac{x}{\Delta x}
.\end{align}
\hspace{2em} 2.设光源向上偏移\(\updelta s\),引起成像点偏移\(\updelta x\)(\(\updelta x>0\)则向上,反之则向下),考虑镜面上反射点不变,镜面左侧光程差为\(\Delta l_1\),右侧为\(\Delta l_2\),设两个反射点间距为\(d\),经过一顿近似
\begin{align*}
&\Delta l_1\doteq d \sin \psi \doteq d \psi \\
&\psi \doteq \tan \psi =\frac{\updelta s}{r_1}\doteq \frac{d}{r_2} \\
&r_1\doteq \frac{\updelta s}{\psi },\quad r_2\doteq \frac{d}{\psi }\\
&r\doteq \frac{\updelta s+d}{\psi }\\
&\psi \doteq \frac{\updelta s+d}{r} .
\end{align*}
可以算出
\begin{align}
\Delta l_1&\doteq d\cdot \frac{\updelta s+d}{r}\doteq \frac{d}{r}\updelta s, \\
\Delta l_2&\doteq \frac{d}{l}\updelta x
.\end{align}
从而
\begin{align}
\updelta x&=-\frac{l}{r}\updelta s \notag \\
\updelta x&=\frac{1}{2}\Delta x=\frac{(r+l)\lambda}{4r\tan \theta }\notag\\
b_c&=2\updelta s =\frac{(r+l)\lambda}{4l\tan \theta }
.\end{align}
\newpage
\subsection{薄膜干涉}
设薄膜两表面近似平行、折射率为\(n\),置于折射率为\(n_1\)的介质中,\(\theta_i,\theta_r \)是入射光在薄膜上表面的入射角、折射角,则在定域中心处交叠的两束光的光程差为
\begin{align}
\Delta l=2nt\cos \theta _r+\frac{\lambda}{2}.
\end{align}
推导中用到了薄膜的上下表面近似平行的条件,因此该公式可以用于求平行薄膜干涉的定域中心的光程差,也可用于求厚度不均匀但是起伏较小的薄膜干涉的定域中心的光程差。\\
\phantom{awd}\par
式中\(\lambda /2\)是两束相干光在性质不同的介质界面上反射而引起的\textbf{半波损失}。若\(n>n_1\),则沿入射光的方向,上表面从光疏介质到光密介质,下表面性质相反,实验和理论都说明,当光在性质相反的界面上反射时,两束反射光之间会产生大小为\(\pi\)的相位差,相当于大小为\(\lambda /2\)的光程差。\\
注意,半波损失是相对的,只有当两束反射光相比较时才可以说有这个\(\lambda /2\)的光程差。本文约定,从光疏-光密介质界面上反射的光比从光密-光疏介质界面上反射的光少走\(\lambda /2\)的光程,相当于“损失了半个波长”。\\
对于一定波长\(\lambda \)的单色光,光程差\(\Delta l\)是\(n,t,\theta _i\)的多元函数,分别固定变量就是以下两种理论简单而应用广泛的情况。
\subsubsection{等倾干涉}
对于等厚度的均匀薄膜(\(n,t\)为常数),光程差取决于入射光在薄膜上的入射角\(\theta_i \),因此相同入射角的光形成的两束反射光在相交区有相同的光程差,从而属于同一级干涉条纹,故称等倾干涉。\\
等倾干涉的圆环形干涉条纹的半径大小可以由相应的入射角求出,从而测量圆环干涉条纹的半径就可以知道相应的入射角、光程差。\\
由光程差判据
\begin{align}
2nt\cos \theta _r+\frac{\lambda}{2}=
\begin{cases}
m \lambda ,\\
\left( m+\frac{1}{2}\right)\lambda .
\end{cases}
\end{align}
可以看出当\(\theta _r\)为零时\(m\)值最大,所以中心点的干涉级数最大,边缘的干涉级数较小。\\
设中心点恰为亮点,级数为\(m_0\)
\begin{align*}
2nt+\frac{\lambda}{2}=m_0\lambda ,
\end{align*}
从中心点向外数第\(N\)个亮环的级数设为\(m=m_0-N\)
\begin{align*}
2nt\cos \theta _{rm}+\frac{\lambda}{2}=m \lambda ,
\end{align*}
在观察范围很小(傍轴近似)的情况下\(\theta _r\)为小量,有近似
\begin{align*}
\cos \theta _{rm}&\doteq1-\frac{1}{2}\theta _{rm}^2,\\
n_1\theta _{im}&\doteq n \theta _{rm},
\end{align*}
代入得到
\begin{align}
&2nt(1-\cos \theta _{rm})=N \lambda\notag \\
&\theta _{rm}^2=\frac{N \lambda }{nt}\notag\\
&\theta _N=\theta _{i m}=\frac{1}{n_1}\sqrt{\frac{nN \lambda }{t}} .
\end{align}
式中\(\theta _{i m}\)是\(m\)级亮环对应的入射角,也是该亮环的角半径。\\
对上式求微分并令\(\Delta N=1\),得到第\(N\)个条纹附近相邻两圆环的角间距
\begin{align}
\Delta \theta _N&=\frac{1}{2n_1}\sqrt{\frac{n \lambda }{Nt}}\Delta N
=\frac{\theta_N}{2N}\Delta N,\notag\\
&=\frac{\theta_N}{2}\frac{n \lambda }{\theta _N^2n_1^2t}\Delta N
=\frac{n \lambda }{2n_1^2t \theta _N}
.\end{align}
设\(f\)为透镜的焦距,(傍轴近似下)圆环干涉条纹的半径和条纹间距为
\begin{align*}
\begin{cases}
r_N=f \theta _N=\frac{f\sqrt{nN \lambda /t} }{n_1},\\
\Delta r_N=f \Delta \theta _N=\frac{nf \lambda }{2n_1^2t \theta _N}.
\end{cases}
\end{align*}
上式说明条纹半径越大,级数越小,条纹间距也越小,所以等倾干涉圆环条纹的特征是中央稀疏而边缘密集,级数从中心向外递减。
\subsubsection{等厚干涉:楔形薄膜}
令单色平行光垂直地入射厚度不均匀的薄膜(\(n,\theta_i \)为常数),此时光程差只依赖于薄膜的厚度\(t\),因此同级干涉条纹与薄膜的等厚线对应,故称等厚干涉。\\
光程差为
\begin{align}
\Delta l=2nt+\frac{\lambda}{2}.
\end{align}
据光程差判据
\begin{align}
2nt+\frac{\lambda}{2}=
\begin{cases}
m \lambda,\\
\left( m+\frac{1}{2} \right) \lambda .
\end{cases}
\end{align}
对于楔形薄膜,其等厚干涉条纹是一系列与棱边平行的明暗相间的直条纹。\\
易知\(m\)级亮纹处楔形薄膜的厚度为
\begin{align}
t_m=\frac{(m-1/2)\lambda }{2n}.
\end{align}
其与相隔\(N\)级的亮纹的薄膜厚度差为
\begin{align*}
\Delta t=N\lambda /2n,
\end{align*}
设楔形薄膜的尖角\(\alpha \)很小,则这两条亮纹的间距
\begin{align}
&\Delta x\sin \alpha =\Delta t,\notag\\
&\Delta x=\frac{N\lambda}{2n \sin \alpha} \thickapprox \frac{N\lambda}{2n \alpha} .
\end{align}
那么若已知所用波长和薄膜的折射率,通过测量条纹间距就可以计算薄膜的尖角\(\alpha \)。
\newpage
\subsubsection{例题:增透膜和增反膜}
在光学元件表面镀一层介质薄膜可以增加其透射率或反射率。若光学元件的折射率为\(n_2\),在其表面镀一层折射率为\(n\)的介质膜,膜上方的介质折射率为\(n_1\),且\(n_1<n<n_2\),要得到增透膜,就要求入射光在薄膜上下表面反射光的光程差满足干涉极小,这样反射光能量就相互抵消减弱,导致透射光能量增强。\\
设光垂直入射,因为\(n_1<n<n_2\),没有半波损失,光程差
\begin{align}
\begin{cases}
\Delta l=2nt,\\
\Delta l=\left( m+\frac{1}{2} \right)\lambda,
\end{cases}
\end{align}
因此增透膜的厚度为
\begin{align*}
t=\frac{(m+1 /2)\lambda }{2n}.
\end{align*}
若换为折射率\(n'\)、厚度相等的介质膜,且\(n'>n_1,n_2\),则有半波损失
\begin{align}
\begin{cases}
\Delta l=2nt+\frac{\lambda}{2},\\[2pt]
2nt=\left( \,m+\frac{1}{2} \,\right)\lambda,
\end{cases}
\end{align}
解得光程差
\begin{align*}
\Delta l=(m+1)\lambda .
\end{align*}
满足干涉极大,反射光能量相互增强,这就得到了增反膜。
\subsubsection{等厚干涉:Newton环}
在一块平板玻璃上放一个凸面向下、曲率半径\(R\)很大的平凸透镜,透镜与平板玻璃间形成很薄的、厚度不均匀的空气层,这就是Newton环装置。令单色光垂直入射,然后在空气层的两个表面反射而产生等厚干涉。这时两束相干光的光程差为(空气折射率\(n\thickapprox 1\))
\begin{align}
\Delta l=2t-\frac{\lambda}{2}.
\end{align}
空气薄膜的等厚线是以接触点\(O\)为中心的同心圆,所以干涉条纹也是一组以\(O\)为中心的同心圆,即Newton环。如果透镜与平板接触良好,那么在\(O\)点的空气层厚度为零,从而\(\Delta l\,\Big |_O=-\frac{\lambda}{2}\),\(O\)点是暗点。\\
今求\(m\)级亮环的半径\(r_m\),设\(m\)级亮环处空气层厚度为\(t_m\),则由光程差判据
\begin{align*}
&2t_m-\frac{\lambda}{2}=m \lambda ,\\
&t_m=\frac{(m+1 /2)\lambda }{2} ,
\end{align*}
由几何关系易知
\begin{align}
r_m^2=R^2-(R-t_m)^2=2R t_m-t_m^2\thickapprox 2Rt_m,
\end{align}
代入得到
\begin{align}
&t_m=r_m^2 /2R,\notag\\
&r_m=\sqrt{(m+1 /2)R \lambda } .
\end{align}
同理\(m\)级暗环的半径
\begin{align}
r_m'=\sqrt{mR \lambda }.
\end{align}
由上述半径的表达式可知,干涉条纹圆环的半径越大,干涉级数越大,空气层上下两面的夹角越大,因而条纹越密。\\
利用上式可以测量透镜的曲率半径,设\(m\)级和\(m+N\)级暗环的半径满足
\begin{align*}
\begin{cases}
r_m'=\sqrt{mR \lambda} ,\\
r_{m+N}'=\sqrt{(m+N)R \lambda} ,
\end{cases}
\end{align*}
整理得
\begin{align}
R=\frac{r_{m+N}^2-r_m^2}{N \lambda }.
\end{align}
因此已知波长,只需测出任两级暗环的半径、数出级数差,就可以计算透镜的曲率半径。反过来,已知透镜的曲率半径,就可以计算波长。\\
\paragraph{变式}
\begin{enumerate}
\item 用彼此凸面紧贴的两平凸透镜观察牛顿环,两平凸透镜曲率半径分别为\(R_1,\,R_2\),计算\(m_1\)级暗环的半径;
\item 凸面曲率半径为\(R_1\)的平凸透镜,凸面放在凹透镜凹面上,凹面曲率半径为\(R_2\),计算\(m_2\)级暗环的半径。
\end{enumerate}
\textbf{解}\quad 1.设\(t_1,\,t_2\)分别为\(m_1\)级暗环处两平凸透镜相对相切平面的空气层厚度,\(r\)为\(m_1\)级暗环的半径,由几何关系
\begin{align}
&r^2=R_1^2-(R_1-t_1)^2\thickapprox 2R_1t_1,\notag\\
&r^2\thickapprox 2R_2t_2,\notag\\
&t=t_1+t_2=\frac{r^2}{2}\left( \frac{1}{R_1}+\frac{1}{R_2} \right).
\end{align}
且光程差满足
\begin{align}
\begin{cases}
\Delta l=2t-\frac{\lambda}{2},\\
\Delta l= \left( m+\frac{1}{2} \right) \lambda,
\end{cases}
\end{align}
解得
\begin{align}
r=\sqrt{\frac{R_1R_2(m+1)\lambda }{R_2+R_1}} .
\end{align}
\hspace{2em}2.同理设\(t_1,\,t_2\)分别为\(m_2\)级暗环凸透镜、凹透镜相对相切平面的空气层厚度,\(r\)为\(m_2 \)级暗环的半径,由几何关系易知
\begin{align}
&r^2\thickapprox 2R_1t_1,\notag\\
&r^2\thickapprox 2R_2t_2,\notag\\
&t=t_1-t_2=\frac{r^2}{2}\left( \frac{1}{R_1}-\frac{1}{R_2} \right) .
\end{align}
光程差满足
\begin{align*}
\begin{cases}
\Delta l=2t-\frac{\lambda}{2},\\
\Delta l=\left( m+\frac{1}{2} \right)\lambda ,
\end{cases}
\end{align*}
解得
\begin{align}
r=\sqrt{\frac{R_1R_2(m+1)\lambda }{R_2-R_1}} .
\end{align}
\paragraph{注}
\begin{enumerate}
\item 在薄膜干涉中不用单色光,而用白光会怎样? \\
此时将出现彩色的干涉条纹,只有前几级,且条纹变宽、变模糊。\\
这是因为相位差\(\delta =2\pi \Delta l /\lambda \)与\(\lambda \)有关,以楔形薄膜为例,已知
\begin{align*}
t_m&=\frac{(m-1/2)\lambda }{2n},\\
\Delta x&=\frac{N\lambda}{2n \sin \alpha}.
\end{align*}
可以看出波长越长,\(m\)级条纹处膜厚度\(t_m\)越大,条纹间距\(\Delta x\)越大,所以各色光的条纹相互错开,而且随着厚度\(t\)增加,不同波长的同级条纹错开得越厉害,所以除了厚度较小的区域能观察到彩色的条纹外,其他地方的条纹已经融成一片,无法分辨。在肥皂膜和水面的油膜上常常可以看到这种彩色条纹。
\item 透射光是否也和反射光一样有这样的干涉?\\
两束透过薄膜的透射光也是相干光,当薄膜两侧的介质相同时,两束透射光的光程差为
\begin{align}
\Delta l=2nt \cos \theta _r.
\end{align}
与反射光的光程差相比,只相差\(\lambda /2\),即相位差\(\pi\),因此当某一入射角的反射光干涉条纹是亮纹时,透射光干涉条纹是暗纹,二者互补。
\item 薄膜厚度很大时,是否还能看到干涉条纹?\\
因为实际入射光不是单色光,而是有一波长范围\((\lambda ,\, \lambda +\Delta \lambda )\),干涉条纹的最大相干光程差是\(\Delta l_M=\frac{\lambda^2}{\Delta \lambda } \),如果薄膜太厚,上下表面反射光的光程差就很大,光程差超过最大光程差时,干涉条纹就不可分辨了。
\end{enumerate}
\newpage
\subsection{Michelson干涉仪}
\subsubsection{精确测量波长}
Michelson干涉仪分出的两束光的光程差,与以一反射镜和另一反射镜的虚像为上下表面的空气薄膜的光程差相同,故等效于空气薄膜的干涉。当二镜面严格垂直时,出现等倾条纹;当二镜面不严格垂直时,出现近似平行的等厚条纹。\\
由薄膜干涉的光程差,注意到\(\theta _i=\theta _r\),有
\begin{align}
\Delta l=2t\cos\theta_i.
\end{align}
代入光程差判据,等倾干涉条纹的第\(m\)级亮环满足
\begin{align*}
2t\cos\theta_i=m\lambda.
\end{align*}
因此越靠近圆心的亮环,级数越大,圆心处干涉级数最大
\begin{align*}
m_{\max}=2t /\lambda ,
\end{align*}
可知,\(t\)增大半个波长,\(m_{\max}\)增大一个数目,实验中观察到干涉条纹从中心吐出一个亮环。数出增加的亮环数目\(N\),就可以算出反射镜平移的距离
\begin{align}
\Delta t=N \lambda /2.
\end{align}
根据上式,已知入射光的波长,可以精确测量长度;反过来,可以通过测量平移的距离来测量波长。
\subsubsection{精确测量波长差}
波长十分接近的两条光谱会形成双线结构,以之入射,设两谱线光强相等,Michelson干涉仪的两臂光强均为\(I_0 /2\),每条谱线产生的干涉光强分布是
\begin{align}
I_i(\Delta l)=I_0[1+\cos(k_i\Delta l)],\quad k_i=2\pi /\lambda_i.
\end{align}
则总光强是它们的非相干叠加
\begin{align}
I(\Delta l)&=I_1(\Delta l)+I_2(\Delta l)\notag\\
&=I_0[2+\cos(k_1\Delta l)+\cos(k_2\Delta l)]\notag\\
&=2I_0\left[ 1+\cos \left(\frac{\Delta k}{2}\Delta l\right) \cos(\bar k\Delta l)\right] .
\end{align}
由于
\begin{align*}
\Delta k&=\frac{2\pi}{\lambda_1}-\frac{2\pi}{\lambda_2},\\
&\doteq \frac{2\pi\Delta\lambda}{\bar \lambda ^2}.
\end{align*}
\(\Delta \lambda \)很小,故\(\Delta k\)很小,从而\(\Delta l\)的变化可近似为不变,可得反衬度
\begin{align}
\gamma (\Delta l)=\bigg |\cos \left( \frac{\Delta k}{2}\Delta l \right) \bigg |.
\end{align}
因此当双线光谱入射Michelson干涉仪时,干涉条纹的反衬度随光程差的变化作周期性的变化。将反射镜平移时,光程差变化,反衬度时大时小。
\newpage
实验中,为了测量微小的波长差,可以先调整反射镜得到一个清晰的干涉图样,此时光程差为\(\Delta l_1\),再持续沿着同一方向平移反射镜直到条纹又变得清晰,此时光程差为\(\Delta l_2\),显然反射镜平移的距离就是空气层厚度的改变量\(\Delta t\),满足\(\Delta l_2-\Delta l_1=2\Delta t\)。\\
因为\(\Delta l_1,\,\Delta l_2\)是相邻两次使得干涉条纹最清晰的光程差,即反衬度为\(1\),代入上式
\begin{align*}
\begin{cases}
\Delta k\Delta l_1 /2=m\pi,\\
\Delta k\Delta l_2 /2=(m+1)\pi.
\end{cases}
\end{align*}
从而
\begin{align}
\Delta t&=\frac{\pi}{\Delta k},\notag\\
&\doteq\frac{\pi}{2\pi\frac{\Delta \lambda}{\bar\lambda^2}}=\frac{\bar\lambda^2}{2\Delta\lambda}.
\end{align}
只要测出\(\Delta t,\,\bar\lambda\),就可以算出波长差\(\Delta \lambda \)。这里\(\Delta t\)也可以是使得干涉条纹相继两次反衬度最小的反射镜平移距离。
\subsubsection{光源的非单色性和时间相干性}
原子的发光时间称作\textbf{相干时间},由同一光源在相干时间\(\tau_0\)内不同时刻发出的光,经过不同路径到达干涉场将产生干涉,反之则不会产生干涉,光的这种特性称为\textbf{时间相干性}。\\
相干时间内光源发出的波列长度称作\textbf{相干长度},从而相干长度\(l_c=c\tau_0\),当从同一光源分出的两束光的光程差\(\Delta l\leqslant l_c\)时,两束光部分或全部来自同一波列,从而发生干涉,反之两束光完全来自不同的波列,不会产生干涉。\\
\phantom{awd}\par
下面以Michelson干涉仪为例,讨论光源的非单色性对干涉条纹反衬度的影响。\\
设光源的波数范围为\(\Delta k\),且各波数的光强相等,因此元波数宽度\(\mathrm dk\)在干涉仪中产生的光强分布为
\begin{align*}
\mathrm dI=2I_0[1+\cos(k\Delta l)]\,\mathrm dk.
\end{align*}
其中\(I_0\)代表光强的谱密度。\\
不同光谱成分不相干,总光强
\begin{align}
I=\int_{k_0-\Delta k /2}^{k_0+\Delta k /2}2I_0[1+\cos(k\Delta l)]\,\mathrm dk=2I_0\Delta k \left[ 1+\frac{\sin(\Delta k\Delta l /2)}{\Delta k\Delta l /2} \cos(k_0\Delta l)\right] .
\end{align}
上式第一项是常数,代表干涉场的平均光强;第二项随光程差增大而变化,但变化幅度越来越小。\\
由此可以得到反衬度为
\begin{align}
\gamma (\Delta l)=\bigg |\frac{\sin(\Delta k\Delta l /2)}{\Delta k\Delta l /2}\bigg |.
\end{align}
这意味着当\(\Delta l\)从\(0\)增大到最大值
\begin{align}
\Delta l_{\max}=\frac{2\pi}{\Delta k}=\frac{\lambda ^2}{\Delta \lambda }
\end{align}
时,反衬度单调下降至\(0\),该结果验证了由Young's双缝干涉计算得到的最大光程差。\\
实际上,之所以光源的非单色性使得反衬度单调下降,是因为\(\Delta \lambda \)范围内每一种波长的光都生成一组干涉条纹,各组条纹除零级条纹外相互都有位移,各组条纹交错重叠,发生非相干叠加。
\subsubsection{例题:覆水膜的Michelson干涉仪}
用Michelson干涉仪做实验时,开始时在补偿片一侧有一层水膜,水膜逐渐蒸发过程中,观察到移动了\(N\)个条纹。设入射光的波长是\(\lambda \),空气折射率为\(1\),水的折射率为\(n\),光线关于补偿片的入射角为\(\theta \),求水膜的厚度\(t\)。
\paragraph{解}\quad 设折射角为\(\psi \),由Snell定律
\begin{align*}
\sin\theta=n\sin\psi,
\end{align*}
由几何关系易知,实验开始时的光程差为
\begin{align}
\Delta l_1=2t\cos\theta+\frac{2nt}{\cos\psi}+2t \left[ \frac{1}{\cos\theta}-\frac{\cos(\theta -\psi )}{\cos\psi} \right] .
\end{align}
考虑第\(m\)级亮环的上一点\(p\)
\begin{align*}
\Delta l_1=m\lambda.
\end{align*}
水膜完全蒸发后光程差为
\begin{align}
\Delta l_2=2t\cos\theta+\frac{2t}{\cos\theta}.
\end{align}
因而点\(p\)处
\begin{align*}
\Delta l_2=(m-N)\lambda.
\end{align*}
从而
\begin{align}
t&=\frac{N\lambda\cos\psi}{2[n-\cos(\theta -\psi )]},\notag\\
&=\frac{N\lambda\sqrt{n^2-\sin^2\theta } }{2\left(n^2-\sin^2\theta -\cos\theta\sqrt{n^2-\sin^2\theta } \right)}.
\end{align}
\newpage
\subsection{薄膜的多光束干涉}
这里多光束干涉指一组彼此平行,任意相邻两束光的光程差相同的光束的相干叠加。
\subsubsection{多光束干涉的光强分布}
实际上,在光照射薄膜的情况下,得到的反射光就是多光束。因为入射光在薄膜上下表面之间经过多次反射透射,所以反射光有很多条。但是每反射/透射一次,光就被分成两部分,每一部分都比原来弱,于是反射光逐渐减弱。因此在讨论薄膜干涉问题时,近似地只考虑了第1,\,2条反射光的干涉。若上下表面的反射系数足够大,就能得到光强适当大且彼此接近的多光束。\\
具体地,设光束入射薄膜时,反射系数为\(r\)、透射系数为\(t\),从薄膜射出时系数为\(r',\,t'\),入射光的振幅为\(A\),则反射光的振幅依次为
\begin{align*}
Ar,\,Att'r',\,Att'r'^3,\,Att'r'^5,\cdots,\,Att'r'^{2n-3},\,\cdots
\end{align*}
透射光的振幅依次为
\begin{align*}
Att',\,Att'r'^2,\,Att'r'^4,\,Att'r'^6,\cdots,\,Att'r'^{2n-2},\,\cdots
\end{align*}
在薄膜的上下表面平行的情况下,上述两系列光束中每对相邻光线之间的光程差都相等。不考虑半波损失(实际上只有第1,\,2条反射光线有半波损失),相邻两条光线的相位差为
\begin{align}
\delta=\frac{2\pi}{\lambda }\,\Delta l=\frac{2\pi}{\lambda }\cdot 2nt\cos\theta_r=\frac{4\pi nt\cos\theta_r}{\lambda }.
\end{align}
从而反射光的复振幅
\begin{align}
\tilde E_1&=Ar,\notag\\
\tilde E_2&=Att'r'\mathrm e^{\mathrm i\delta},\notag\\
\tilde E_3&=Att'r'^3\mathrm e^{2\mathrm i\delta},\notag\\
&\cdots\notag\\
\tilde E_n&=Att'r'^{2n-3}\mathrm e^{(n-1)\mathrm i\delta},\\
&\cdots\notag
\end{align}
透射光的复振幅
\begin{align}
\tilde E_1'&=Att',\notag\\
\tilde E_2'&=Att'r'^2\mathrm e^{\mathrm i\delta},\notag\\
\tilde E_3'&=Att'r'^4\mathrm e^{2\mathrm i\delta},\notag\\
&\cdots\notag\\
\tilde E_n'&=Att'r'^{2n-2}\mathrm e^{(n-1)\mathrm i\delta},\\
&\cdots\notag
\end{align}
二者的总振幅和总光强为
\begin{align*}
\begin{cases}
\tilde E_R=\sum_{n=1}^\infty\tilde E_n,\\
\tilde E_T=\sum_{n=1}^\infty\tilde E_n'.
\end{cases}\quad
\begin{cases}
I_R=\tilde E_R\tilde E_R^*,\\
I_T=\tilde E_T\tilde E_T^*.
\end{cases}
\end{align*}
根据等比级数的求和
\begin{align}
\tilde E_T=\sum_{n=1}^\infty Att'(r'^2\mathrm e^{\mathrm i\delta})^{n-1}=\frac{Att'}{1-r'^2\mathrm e^{\mathrm i\delta}}.
\end{align}
因此
\begin{align*}
I_T&=\frac{Att'}{1-r'^2\mathrm e^{\mathrm i\delta}}\cdot\frac{Att'}{1-r'^2\mathrm e^{-\mathrm i\delta}},\notag\\
&=\frac{A^2(t t')^2}{1-r'^2(\mathrm e^{\mathrm i\delta}+\mathrm e^{-\mathrm i\delta})+r'^4}
=\frac{I_0(tt')^2}{1-2r'^2\cos\delta+r'^4}.
\end{align*}
这里\(I_0=A^2\)是入射光的光强。\\
由Stokes倒逆关系
\begin{align}
\begin{cases}
r=-r',\\
r^2+t t'=1.
\end{cases}
\end{align}
代入得到
\begin{align*}
I_T=\frac{I_0(1-r^2)^2}{1-2r^2\cos\delta+r^4}.
\end{align*}
设反射率\(R=r^2\)、精细度系数\(F=\frac{4R}{(1-R)^2}\),则透射光强又可写为
\begin{align}
I_T&=\frac{I_0(1-R)^2}{1-2R\cos\delta+R^2}
=\frac{I_0}{\frac{1+4R\sin^2(\delta /2)-2R +R^2}{(1-R)^2}},\notag\\
&=\frac{I_0}{1+\frac{4R\sin^2(\delta /2)}{(1-R)^2}}
=\frac{I_0}{1+F\sin^2(\delta /2)}.
\end{align}
根据光强守恒\(I_R+I_T=I_0\),反射光强
\begin{align}
I_R=\frac{I_0}{1+1 /[F\sin^2(\delta /2)]}.
\end{align}
对于固定的\(R\),\(I_T,\,I_R\)随\(\delta \)的变化而变化,又\(\delta =4\pi nt\cos\theta_r /\lambda \),从而单色光入射的总光强只与倾角\(\theta _r\)有关,于是薄膜的多光束干涉是\textbf{多光束等倾干涉}。\\
根据光强分布公式,当\(\delta =2m\pi\)时,\(I_R\)极小,\(I_T\)极大,因此二者的干涉图样互补。
\newpage
\subsubsection{干涉条纹的锐度}
比较不同\(R\)值下的\(I_T-\delta\)曲线可以看出,当\(R\)增大时,透射光的光强分布曲线变得越来越陡。这是因为\(R\)增大使无穷级数中后面的光束变强,从而参与干涉效应的光束数目变大,所以干涉条纹的锐度变大,这是多光束干涉最重要的特征。\\
干涉条纹的锐度由条纹的\textbf{相位差半值宽度}\(\Delta \delta \)描述,它是指条纹中强度为峰值一半的两点的相位差。\\
对于第\(m\)级亮纹,两个半值强度点为
\begin{align*}
\delta =2m\pi\pm \frac{\Delta \delta }{2},
\end{align*}
依定义代入透射光强
\begin{align*}
\frac{I_0}{1+F\sin^2(\Delta \delta /4)}=\frac{I_0}{2},
\end{align*}
由\(\Delta \delta \)很小,近似取\(\sin(\Delta \delta /4)\doteq \Delta \delta /4\),代入得到
\begin{align}
\Delta \delta =\frac{4}{\sqrt{F} }=\frac{2(1-R)}{\sqrt{R} }.
\end{align}
于是\(R\rightarrow 1\)时\(\Delta \delta \rightarrow 0\),干涉条纹变得极细,而精细度系数\(F\rightarrow \infty\)。\\
\phantom{awd}\par
虽然相位差半值宽度衡量了条纹的锐度,但它是一个相位值,难以直接测量,回忆起对于以单色光入射的多光束干涉装置,影响相位差\(\delta =4\pi nt\cos\theta_r /\lambda \)的只有倾角\(\theta _r\),从而可以通过测量倾角的变化量说明条纹的锐度。\\
设\(\theta _{rm}\)为第\(m\)级亮纹的角位置,使得\(\delta\)变化到半值强度点的倾角范围\(\Delta \theta _r\)称为\textbf{干涉条纹半角宽}。\\
固定\(n,\,t,\,\lambda \)对\(\delta \)取关于\(\theta _r\)的微分
\begin{align*}
\mathrm d\delta=-\frac{4\pi nt\sin\theta_r}{\lambda }\,\mathrm d\theta_r ,
\end{align*}
令\(\mathrm d\delta=\Delta\delta=2(1-R) /\sqrt{R} \),将\(\mathrm d\theta_r\)写成\(\Delta\theta_{rm}\),得
\begin{align}
\Delta \theta _{rm}=\frac{\lambda (1-R)}{2\pi nt\sin\theta_r\sqrt{R} }.
\end{align}
可以看出当反射率\(R\)(同时精细度系数\(F\))或间隔\(t\)增大时,条纹变得更细锐。
\newpage
\subsubsection{Fabry-Perot干涉仪的角色散本领和色分辨本领}
\textbf{角色散本领}描述干涉仪将不同谱线分开的能力,设两光波的波长为\(\lambda,\,\lambda+\updelta\lambda\),它们的\(m\)级亮纹之间的角距离为\(\updelta\theta\),则角色散本领定义为
\begin{align}
\mathscr D=\frac{\updelta\theta}{\updelta\lambda}.
\end{align}
即将波长相差一个单位的两谱线分开的角距离。\\
两光波的第\(m\)级亮纹的角位置分别满足
\begin{align*}
\begin{cases}
2nt\cos\theta_{rm}=m\lambda,\\
2nt\cos\theta_{rm}'=m(\lambda +\updelta \lambda ),
\end{cases}
\end{align*}
当\(\theta _{rm}\)和\(\theta _{rm}'\)很接近时
\begin{align*}
\cos\theta_{rm}'-\cos\theta_{rm}\doteq\sin\theta_{rm}\updelta\theta_{rm}
\end{align*}
代入得到
\begin{align}
&2nt(\cos\theta_{rm}'-\cos\theta_{rm})=m\updelta\lambda,\notag\\
&\mathscr D=\frac{\updelta\theta_{rm}}{\updelta \lambda }=\frac{m}{2nt\sin\theta_{rm}}.
\end{align}
可知,当干涉级数\(m\)增大或间隔\(t\)减小时,两谱线的角色散也增大。\\
\phantom{awd}\par
\textbf{色分辨本领}描述干涉仪分辨谱线的能力,设干涉仪对波长在\(\lambda \)附近能够分辨的最小波长差为\(\updelta\lambda\),则色分辨本领定义为
\begin{align}
\mathscr R=\frac{\lambda}{\updelta\lambda}.
\end{align}
角色散本领并不等同于色分辨本领,前者只给出两谱线分离的程度,不能说明它们是否能被分辨,因为能否分辨还取决于谱线的粗细。而根据Taylor判据,两条谱线可分辨的最小角距离正是谱线的半角宽,从而可以利用半角宽和角色散本领计算出可分辨的最小波长差。\\
令\(\Delta \theta _{rm}=\updelta \theta _{rm}\)得到可分辨的最小波长差为
\begin{align*}
\updelta \lambda =\frac{\lambda}{\pi m}\frac{1-R}{\sqrt{R} },
\end{align*}
于是
\begin{align}
\mathscr R=\frac{\uplambda}{\delta \lambda }=\frac{1}{2}\pi m\sqrt{F}.
\end{align}
因此干涉级数越大,色分辨本领越大。
\newpage
\subsubsection{Fabry-Perot干涉仪的透射光谱}
若入射Fabry-Perot干涉仪的光是连续光谱,经过多光束干涉后,只有满足透射光干涉极强的波长的光波才能穿过Fabry-Perot干涉仪,其他的光都被反射,因此Fabry-Perot干涉仪的透射光谱是谱宽很小的分立光谱,具有很强的单色性。\\
由透射光光强分布公式可知,当\(\delta=2m\pi\)时透射光为干涉极强,在正入射(\(\theta_r=0\))时,透射波长\(\lambda_m\)满足
\begin{align}
&\delta=\frac{4\pi nt}{\lambda_m}=2m\pi,\notag\\
&\lambda_m=\frac{2nt}{m},\quad\nu _m=\frac{c}{\lambda_m}=\frac{mc}{2nt}.
\end{align}
透射光的每条谱线\(\lambda_m /\nu_m\)称为一个纵模,对一个Fabry-Perot干涉仪来说可以有无穷多个纵模。\\
纵模的间隔为
\begin{align}
\Delta\nu=\frac{c}{2nt}.
\end{align}
可知,相邻干涉极强光的频率间隔都相等,与干涉级数\(m\)无关,但与\(t\)成反比。\\
透射光的频率/波长范围称作纵模宽度。当非单色平行光正入射Fabry-Perot干涉仪时,相位差仅由波长决定,即\(\delta=4\pi nt /\lambda \),对\(\delta\)取关于\(\lambda\)的微分
\begin{align*}
\mathrm d\delta=-\frac{4\pi nt}{\lambda^2}\,\mathrm d\lambda,
\end{align*}
令\(\mathrm d\delta=\Delta\delta=2(1-R) /\sqrt{R} \),把\(\mathrm d\lambda\)写成\(\Delta\lambda\),得
\begin{align}
\Delta\lambda=\frac{\lambda ^2(1-R)}{2\pi nts\sqrt{R} },\quad\Delta\nu=\frac{c\Delta\lambda}{\lambda^2}=\frac{c(1-R)}{2\pi nt\sqrt{R} }.
\end{align}
因此反射率\(R\)越大,或腔长\(t\)越长,透射光的单色性越好。
\newpage
\section{光的衍射}
Huygens-Fresnel原理认为,波阵面\(\Sigma\)上每个面元\(\mathrm d\Sigma\)都是新的振动中心,它们发出次光波,在空间中某点\(P\)的光振动是所有这些次光波在该点的相干叠加。设\(\mathrm d\tilde E(P)\)是面元\(\mathrm d\Sigma \)在场点\(P\)产生的光矢量的复振幅,则点\(P\)处的总光振动为
\begin{align*}
\tilde E(P)=\iint_{\Sigma}\mathrm d\tilde E(P).
\end{align*}
Fresnel指出,\(\mathrm d\tilde E(p)\)的大小正比于以下四个物理量,可以称之为\textbf{复振幅四要素}:
\begin{enumerate}
\item \textbf{面积}:面元的面积\(\mathrm d\Sigma\);
\item \textbf{振幅}:面元上点\(Q\)的光矢量的振幅\(E_0(Q)\);
\item \textbf{光程}:球面波因子\(\exp(\mathrm ikr)/r\);
\item \textbf{倾角}:面元法线\(n\)和面元到场点的连线\(r\)的夹角\(\theta \),面元法线\(n\)和面元到光源的连线\(R\)的夹角\(\theta_0 \)。
\end{enumerate}
Kirchhoff从光矢量的波动方程出发,根据矢量分析,建立了光衍射的严格理论,他认为光衍射的系统可以分为三个部分:衍射屏的光孔\(\Sigma_0\),衍射屏的不透光部分、无限大平面\(\Sigma_1\)、半径为无限大的半球面\(\Sigma_2\),还假设\(\Sigma_0\)上的复振幅取自由传播时光场的值,而在\(\Sigma_1\)上取零,并证明了其在\(\Sigma_2\)上的积分为零,在上述Kirchhoff边界条件下,得到
\begin{align}
\tilde E(P)=\frac{-\mathrm i}{\lambda}\iint_{\Sigma_0}\frac{\cos \theta_0+\cos \theta }{2}\,E_0(Q)\,\frac{\mathrm e^{\mathrm ikr}}{r}\,\mathrm d\Sigma.
\end{align}
上式称为\textbf{Fresnel-Kirchhoff衍射积分公式},通过计算该面积分,可以求出光衍射场中点\(P\)的光矢量大小。\\
在光孔和接收范围远小于光源\(S\)和场点\(P\)到光孔的距离,且入射光和衍射屏近似垂直(傍轴条件)下,上式化为
\begin{align}
\tilde E(P)=\frac{-\mathrm i}{\lambda r_0}\iint_{\Sigma_0}E_0(Q)\mathrm e^{\mathrm ikr}\,\mathrm d\Sigma.
\end{align}
该式在计算Fraunhofer衍射时常用。\\
\phantom{awd}\\
通常按光源、衍射屏、接收屏之间的距离,将衍射分为两类:
\begin{enumerate}
\item \textbf{Fresnel衍射(近场衍射)}
光源和观察屏至少一个离衍射屏有限远,此时入射光和衍射光至少一个不是平行光,波阵面的曲率不可忽略;
\item \textbf{Fraunhofer衍射(远场衍射)}
光源和观察屏距离衍射屏均为无限远,因此入射光和衍射光都是平行光。实验中Fraunhofer衍射必须利用两个正透镜,令点光源、接收屏分别位于两个透镜的焦点、焦平面。
\end{enumerate}
\newpage
\subsection{Fresnel圆孔衍射}
根据Huygens-Fresnel原理,计算衍射场时,一般先划分有效波阵面\(\Sigma_0\)(光孔),再计算每个面元在场点\(P\)处引起的复振幅\(\mathrm d\tilde E(P)\),最后将所有这些复振幅相干叠加。\\
但是对于Fresnel衍射,直接积分比较困难,因此需要对有效波阵面巧妙地分割,将复杂积分转换为简单的数量或者矢量相加,下面介绍半波带法。
\subsubsection{半波带法}
设波阵面半径为\(R\),顶点\(O\)和场点\(P\)的距离为\(b\),在波阵面上划分出\(n\)条半波带,设第\(i\)半波带发出的次波在点\(P\)产生的复振幅为\(\tilde E_i(P)\),相邻半波带光程差为\(\lambda /2\),意味着相位差\(\pi\),从而
\begin{align}
\tilde E_i(P)=E_{i0}\mathrm e^{\mathrm i[\phi_0+(n-1)\pi]},
\end{align}
于是点\(P\)处的合振幅为
\begin{align}
E_0(P)&=|\tilde E_0(P)|=\bigg |\sum_{i=1}^n \tilde E_{i}(P)\bigg |,\notag\\
&=\sum_{i=1}^n(-1)^{i-1}E_{i 0}.
\end{align}
为此比较各项,根据Huygens-Fresnel原理,可知各振幅的大小
\begin{align*}
E_{i 0}\propto f(\theta_i)E_0(Q)\,\frac{\mathrm e^{\mathrm ikr_i}}{r_i}\,\Delta\Sigma_i.
\end{align*}
由几何关系易知\(\frac{\Delta\Sigma_i}{r_i}\thickapprox \frac{\pi R\lambda}{R +b}\)与\(i\)无关,又由于球面波等相面上复振幅\(E_0(Q)\mathrm e^{\mathrm ikr_i}\)处处相同,因而影响\(E_{i 0}\)大小的只有倾角因子\(f(\theta_i)=(1+\cos\theta_i) /2\)(球面波\(\theta_0=0\))。\\
易知\(f(\theta_i)\)随\(i\)的增大而缓慢减小,\(\theta_i\rightarrow\pi\)时,\(f(\theta_i)\rightarrow 0\),于是有近似
\begin{align}
\begin{cases}
E_{10}\gtrsim E_{20}\gtrsim\cdots\gtrsim E_{n0},\\
E_{i 0}\thickapprox \frac{1}{2}(E_{i-1,0}+E_{i+1,0}).
\end{cases}
\end{align}
代入得到
\begin{align}
E_0(P)&=\sum_{i=1}^n (-1)^{i-1}E_{i 0},\notag\\
&=\frac{1}{2}E_{10}+(-1)^{n-1}\frac{1}{2}E_{n 0}.
\end{align}
可知,当圆孔包含奇数个半波带时,衍射图样的中心是亮点,包含偶数个时是暗点。所以要确定中心是亮点还是暗点,先要知道半波带的数目。\\
设半波带的半径为\(\rho_i\),则有\textbf{Fresnel衍射的Gauss公式}
\begin{align}
\frac{1}{R}+\frac{1}{b}=\frac{i\lambda}{\rho_i^2}.
\end{align}
其中\(R\)是物距,\(b\)是相距。
因而半波带的数目
\begin{align*}
n=\frac{\rho^2}{\lambda}\left( \frac{1}{R}+\frac{1}{b} \right).
\end{align*}
其中\(\rho=\rho_n\)也是圆孔的半径。可以看出中心光强随\(b\)的增大周期性变明变暗。\\
对中心轴之外各点的光强,虽然难以确定半波带的数目和面积,但是由衍射装置关于中心轴的轴对称性可知衍射图样是明暗交替的同心圆环。
\subsubsection{例题:平行光的Fresnel圆孔衍射}
\begin{enumerate}
\item 已知入射光的波长为\(\lambda\),若在中心轴上距圆孔\(r_1\)处出现一个亮点,此时圆孔面积恰好等于第一个半波带,求圆孔半径 \(\rho\)和沿中心轴向圆孔移动时第一个暗点的位置\(r_2\);
\item 若圆孔面积为\(S\),在中心轴上距圆孔\(r_1\)的观察屏上得一亮点,将观察屏移近圆孔,距圆孔\(r_2\)时又得相继的亮点,求光波波长;
\item 若圆孔的半径为\(\rho\),对于距圆孔\(r\)处的点,求圆孔包含的半波带数目。
\end{enumerate}
\textbf{解}\quad 入射光为平行光因此物距\(R=\infty\),从而Fresnel衍射的Gauss公式化为
\begin{align*}
\frac{1}{b}=\frac{i\lambda}{\rho_i^2}.
\end{align*}
\hspace{2em}1.由题意,代入Gauss公式可得
\begin{align*}
\begin{cases}
\rho&=\sqrt{r_1\lambda},\\
\rho&=\sqrt{2r_2\lambda},
\end{cases}
\Rightarrow r_2=r_1 /2.
\end{align*}
\hspace{2em}2.由几何关系
\begin{align*}
\rho=\sqrt{\frac{S}{\pi}}.
\end{align*}
由Gauss公式,注意到观察屏上有亮点意味着有奇数个半波带
\begin{align*}
\begin{cases}
\frac{1}{r_1}&=\frac{(2k+3)\lambda}{\rho^2},\\
\frac{1}{r_2}&=\frac{(2k+1)\lambda}{\rho^2},
\end{cases}
\quad k\in \mathbb Z
\end{align*}
从而
\begin{align}
\lambda =\frac{\rho^2}{2}\left( \frac{1}{r_1}-\frac{1}{r_2} \right)
=\frac{S}{2\pi}\left( \frac{1}{r_1}-\frac{1}{r_2} \right) .
\end{align}
\hspace{2em}3.直接利用Gauss公式
\begin{align*}
n=\frac{\rho ^2}{\lambda r}.
\end{align*}
\newpage
\subsection{Fraunhofer单缝衍射}
\subsubsection{单缝衍射光强的计算}
\paragraph{复数积分法}\phantom{awd}\par
设狭缝宽度为\(a\),将狭缝内的平面波波前划分为等宽的条形\(\mathrm dx\),由于观察屏在透镜的后焦面上,和主轴夹角\(\theta\)相同的衍射光线汇聚于屏幕上同一点\(P_\theta\),按Fresnel-Kirchhoff-Fraunhofer衍射积分公式
\begin{align}
\tilde E_0(P_\theta)=\frac{-\mathrm i}{\lambda z_0}\iint_{\Sigma_0}E_0(Q)\mathrm e^{\mathrm ikr}\,\mathrm dx\mathrm dy.
\end{align}
其中\(r\)是波前上\(x\)处的点\(Q\)到场点\(P_\theta\)的光程,由几何关系易知它和波前上主轴处的点\(O\)到\(P_\theta\)的光程差为
\begin{align*}
\Delta r=r-r_0=-x\sin\theta,
\end{align*}
由于入射光是平行光,\(E_0(Q)\)具有相同的大小。代入计算得
\begin{align}
\tilde E_0(P_\theta)&=\frac{-\mathrm ilE_0(Q)}{\lambda z_0}\int_{-a /2}^{+a /2}\mathrm e^{\mathrm ik(r_0-x\sin\theta)}\,\mathrm dx
=\frac{-\mathrm ilE_0(Q)}{\lambda z_0}\,\mathrm e^{\mathrm ikr_0}\,\frac{\mathrm e^{\mathrm ika\sin\theta /2}-\mathrm e^{-\mathrm ika\sin\theta /2}}{\mathrm ik\sin\theta},\notag\\
&=\frac{-\mathrm ilE_0(Q)}{\lambda z_0}\,\mathrm e^{\mathrm ikr_0}\,\frac{\sin\left(\frac{ka\sin\theta}{2}\right)}{\frac{k\sin\theta}{2}}
=\frac{-\mathrm i(al)E_0(Q)}{\lambda z_0}\,\frac{\sin\alpha}{\alpha}\,\mathrm e^{\mathrm kr_0}.
\end{align}
其中\(\alpha=\frac{ka\sin\theta}{2}=\frac{\pi a\sin\theta}{\lambda}\)。\\
由计算结果的相位因子可以看出,单缝衍射光类似从单缝中心\(O\)发出的柱面波。\\
令\(\theta=0\)有
\begin{align*}
\tilde E_0(P_0)=\frac{-\mathrm i(al)E_0(Q)}{\lambda z_0}\,\mathrm e^{\mathrm ikr_0},
\end{align*}
于是
\begin{align}
\tilde E_0(P_\theta)&=\tilde E_0(P_0)\,\frac{\sin\alpha}{\alpha },\notag\\
I(P_\theta)&=I_0 \left( \frac{\sin\alpha}{\alpha} \right) ^2.
\end{align}
这就是Fraunhofer单缝衍射的光强分布公式。衍射场相对光强\((\sin\alpha /\alpha)^2\)称为\textbf{单缝衍射因子}。
\paragraph{矢量图解法}\phantom{awd}\par
首先考虑\(N\)束平行光的多光束干涉,每束光的振幅相同,任意相邻两束光具有相同的相位差\(\delta\),求其总光强得到
\begin{align}
I=I_0 \left[ \frac{\sin(N\delta /2)}{\sin(\delta /2)} \right] ^2.
\end{align}
这里干涉场的相对光强\(\left[ \frac{\sin(N\delta /2)}{\sin(\delta /2)} \right] ^2\)称为\textbf{多光束干涉因子}。\\
回到单缝衍射,将单缝内的平面波波前均匀地分割为\(N\)条窄条,每窄条的宽度为\(\Delta x\),窄条数\(N=a /\Delta x\),对比复振幅四要素可知,各窄条发出的次波在\(P_\theta\)产生的复振幅相等,设为\(A\)。\\
另一方面,任意两条相邻窄条到\(P_\theta\)的光程差相等,都为\(\Delta l=\Delta x\sin\theta\),相位差\(\delta=k\Delta x\sin\theta\)。于是\(P_\theta\)的总光强是\(N\)束相互平行、振幅相等,任意相邻两束光具有相同的相位差的次波相干叠加的结果。代入得到
\begin{align*}
I(P_\theta)=A^2\,\frac{\sin^2\left(\frac{a}{\Delta x}\,\frac{\Delta xk\sin\theta}{2}\right)}{\sin^2\left( \frac{k\Delta x\sin\theta}{2} \right) }
=A^2\,\frac{\sin^2\left(\frac{ak\sin\theta}{2}\right)}{\sin^2\left( \frac{ka\sin\theta}{2N} \right) },
\end{align*}
当分割无限细,\(N\rightarrow \infty\)时,对分母近似,得到
\begin{align}
I(P_\theta)=A^2\,\frac{\sin^2\left(\frac{ka\sin\theta}{2}\right)}{\left( \frac{ka\sin\theta}{2} \right)^2}
=N^2A^2\,\frac{\sin^2(ka\sin\theta /2)}{(ka\sin\theta /2)^2}
=I_0\left( \frac{\sin\alpha}{\alpha} \right) ^2.
\end{align}
与复数积分法的结果一致。\\
比较以上两种方法可以看出,衍射和干涉没有本质区别,都是光波的相干叠加。它们的区别仅仅在于:衍射是连续的次波源发出的无限多束次光波的相干叠加,干涉是分离的有限束几何光线的相干叠加。
\subsubsection{单缝衍射图样的特征}
单缝衍射因子函数\((\sin\alpha /\alpha)^2\)的极值决定了衍射图样的极强和暗纹,在变量\(\alpha=\pi a\sin\theta /\lambda\)中主要考虑\(\theta\),因为它的取值是可在实验中测量的位置。\\
\textbf{主极强}出现在\(\alpha =0\)即\(\theta =0\)处,即零级衍射斑。\(\theta=0\)保证了各衍射光线之间无光程差,从而它们有相同的相位,能够产生最大的光强。Fermat原理中的实际光线就是零级衍射光线,几何光学中的像点就是零级衍射斑中心。\\
\textbf{次极强}出现在\(\frac{\mathrm d}{\mathrm d\alpha}\left(\frac{\sin\alpha}{\alpha}\right)=0\)处,它们是\(\alpha=\tan\alpha\)的根,数值为
\begin{align*}
\alpha=\pm 1.43\pi,\,\pm 2.46\pi,\,\pm 3.47\pi,\,\cdots
\end{align*}
次极强的光强比主极强小得多,绝大部分能量集中在主极强中。\\
\textbf{暗纹}出现在\(\sin\alpha=0\)且\(\alpha\ne 0\)处,即
\begin{align}
\alpha=m\pi,\quad\sin\theta=m \frac{\lambda}{a}.\quad(m=\pm 1,\,\pm 2,\cdots)
\end{align}
\textbf{半角宽}指从主极强到相邻的第一个暗纹的角间距\(\Delta\theta\),它用来表征主极强亮纹的宽度。所以零级衍射斑的半角宽为(傍轴近似下)
\begin{align}
\Delta(\sin\theta)&=\cos\theta\Delta\theta=\frac{\lambda}{a},\notag\\
\Delta\theta&=\frac{\lambda}{a\cos\theta}\thickapprox \frac{\lambda}{a}.
\end{align}
可见,对于给定的波长,\(\Delta\theta\)与缝宽成反比,在波前上对光束的约束越强,衍射场越弥散,衍射斑铺张的越宽;反过来,当缝宽很大,光束几乎自由传播时,\(\Delta\theta\rightarrow 0\),衍射场基本上集中在沿直线传播的方向上,在透镜的后焦面上,衍射斑收缩为几何光学的像点。
\newpage
\subsubsection{例题:Fraunhofer单缝双线衍射}
在焦距\(f\)的正透镜的后焦面上,观察缝宽为\(a\)的Fraunhofer单缝衍射,已知入射光包含两种波长\(\lambda_1,\,\lambda_2\),\(\lambda_1\)的第\(k_1\)个极小和\(\lambda_2\)的第\(k_2\)个极小出现在距中央主极大\(x\)处的同一点,试由此求出\(\lambda_1,\,\lambda_2\)。\\
\textbf{解}\quad 设\(\lambda_i\)的第\(k_i\)个极小与中央主极大的角距离为\(\theta_i\),由几何关系
\begin{align*}
x=f\tan\theta_1=f\tan\theta_2,
\end{align*}
根据光强极小
\begin{align*}
\begin{cases}
\sin\theta_1=k_1 \frac{\lambda_1}{a},\\
\sin\theta_2=k_2 \frac{\lambda_2}{a}.
\end{cases}
\end{align*}
为化简结果,采用近似\(\tan\theta\thickapprox \sin\theta\),此时增加了傍轴条件
\begin{align*}
f\sin\theta_1=f\sin\theta_2.
\end{align*}
于是
\begin{align*}
\begin{cases}
\lambda_1=\frac{ax}{k_1f},\\
\lambda_2=\frac{ax}{k_2f}.
\end{cases}
\end{align*}
\newpage
\subsection{Fraunhofer圆孔衍射}
从衍射装置的轴对称性可以知道,Fraunhofer圆孔衍射图样由一中央亮斑和同心圆环条纹组成。\\
\subsubsection{圆孔衍射光强的计算}
仍用Fresnel-Kirchhoff-Fraunhofer衍射积分公式
\begin{align*}
\tilde E_0(P_\theta)=\frac{-\mathrm i}{\lambda z_0}\iint_{\Sigma_0}E_0(Q)\mathrm e^{\mathrm ikr}\,\mathrm dS.
\end{align*}
设圆孔半径为\(a\),在圆孔上用极坐标\(\rho,\,\phi\)划分波前,仍设\(\theta\)为衍射光线与主轴的夹角,即衍射角,则由几何关系可知,波前上任一点\(Q\)到场点\(P_\theta\)的光程为
\begin{align*}
r=r_0+\rho\cos\phi\sin\theta,
\end{align*}
其中\(r_0\)是圆孔中心\(O\)到\(P_\theta \)的光程。代入计算得
\begin{align}
\tilde E_0(P_\theta)&=\frac{-\mathrm iE_0(Q)}{\lambda z_0}\iint_{\Sigma_0}\mathrm e^{\mathrm ik(r_0+\rho\cos\phi\sin\theta)}\,\rho\mathrm d\rho\mathrm d\phi
=\frac{-\mathrm iE_0(Q)}{\lambda z_0}\,\mathrm e^{\mathrm ikr_0}\int_0^{2\pi}\mathrm d\phi\int_0^a\mathrm e^{\mathrm ik\rho\cos\phi\sin\theta}\,\rho\mathrm d\rho,\notag\\
&=\frac{-\mathrm i(\pi a^2)E_0(Q)}{\lambda z_0}\,\mathrm e^{\mathrm ikr_0}\left[ \frac{2\mathrm J_1(x)}{x} \right] .
\end{align}
其中\(x=2\pi a\sin\theta /\lambda\),\(\mathrm J_1(x)\)为一阶Bessel函数。光强分布公式为
\begin{align}
I(P_\theta)=I_0\left[ \frac{2\mathrm J_1(x)}{x} \right] ^2.
\end{align}
容易看出\(I_0\propto (\pi a^2)^2 /(\lambda^2) \)。
\subsubsection{圆孔衍射图样的特征}
\hspace{-2em}\textbf{主极强}在\(\theta=0\)处,即中央亮斑,称作Airy斑,其能量占有全部能量的83.78\%,其中心是几何光学的像点。\\
\textbf{暗环}分布在
\begin{align*}
\sin\theta=0.610 \frac{\lambda}{a},\,1.116 \frac{\lambda}{a},\,1.619 \frac{\lambda}{a},\,\cdots
\end{align*}
两相邻暗环之间有一个次极强,它们是中央亮斑之外的亮环。\\
\textbf{角半径}指Airy斑的大小,即第一暗环的角半径\(\Delta \theta\),可以衡量衍射光角分布的弥散程度
\begin{align}
\Delta\theta=1.22 \frac{\lambda}{D}.
\end{align}
这就是圆孔衍射的反比关系。\\
\textbf{最小分辨角}\phantom{awd}\\
根据Rayleigh判据:两个Airy斑可以被分辨的极限条件是两个Airy斑的角距离等于每个Airy斑的角半径,最小分辨角\(\updelta\theta\)正是
\begin{align}
\updelta\theta=\Delta\theta=1.22\lambda /D.
\end{align}
它描述了光学仪器分辨点状物体的本领。由上式可知要提高仪器的分辨率,需要增大透镜的直径,或者减小入射光的波长。
\subsubsection{例题:相机的最远分辨距离}
如果相机镜头的焦距为\(f\),光圈值为\(F\),所用波长\(\lambda\),两点间距离\(s\),试问可以分辨两点的最远距离。\\
\textbf{解}\quad 由光圈值的定义可知相机的直径
\begin{align*}
D=\frac{f}{F}.
\end{align*}
代入最小分辨角即得最远分辨距离,此时依傍轴近似
\begin{align}
L=\frac{s}{\tan(\updelta\theta)}\thickapprox \frac{s}{\updelta\theta}=\frac{sD}{1.22 \lambda}.
\end{align}
\subsection{衍射光栅}
光栅衍射的实质是多束衍射光之间的干涉,因而光栅的衍射场鲜明地表现出“多光束干涉”的基本特征:光栅上被入射光照射的单元越多,衍射条纹就越细锐,这说明叠加后的光场的方向性越强,每条亮纹对应的光束单色性越好。
\subsubsection{Fraunhofer多缝衍射}
设缝宽仍为\(a\),缝间不透明部分宽度为\(b\),则相邻狭缝上对应点的距离为\(d=a+b\)称作\textbf{光栅常数}。\par
当平行单色光入射有\(N\)条缝的透射光栅上时,在每条狭缝上都发生衍射,由于各条狭缝宽度相等,每束单缝衍射光在\(P_\theta\)处产生的光振动的振幅都为\(A_0\sin\alpha /\alpha\)。因为各条狭缝位于平行光的同一波面上,所以在该波面上有相同的相位,从而从这\(N\)条缝产生的衍射光都是相干光。又根据透镜的性质,衍射角\(\theta\)相同的平行衍射光都会汇聚到观察屏上相同的\(P_\theta\)点,因此\(P_\theta\)处的总光振动为各束单缝衍射光的多光束干涉。\\
\phantom{awd}\par
相邻两缝的衍射光之间具有相同的光程差和相位差
\begin{align}
\Delta l=d\sin\theta,\quad\delta=2\pi d\sin\theta /\lambda.
\end{align}
代入得到
\begin{align}
\tilde E_0(P_\theta)&=A(\theta)\,\frac{\sin(N\delta /2)}{\sin(\delta /2)}=A_0\,\frac{\sin\alpha}{\alpha}\,\frac{\sin(N\delta /2)}{\sin(\delta /2)},\\
I(P_\theta)&=[A(\theta)]^2\left[ \frac{\sin(N\delta /2)}{\sin(\delta /2)} \right] ^2=A_0^2\left( \frac{\sin\alpha}{\alpha } \right) ^2\left[ \frac{\sin(N\delta /2)}{\sin(\delta /2)} \right] ^2.
\end{align}
这就是多缝衍射的振幅和光强分布公式。
\newpage
\subsubsection{多缝干涉图样的特征}
先分析多缝干涉因子函数\(\left[ \frac{\sin(N\delta /2)}{\sin(\delta /2)} \right] ^2\),同样关注变量\(\delta=2\pi d\sin\theta /\lambda\)中的\(\theta\)。\\
\textbf{主极强}的位置满足\(\sin(N\delta /2)=0\)且\(\sin(\delta /2)=0\),即
\begin{align}
d\sin\theta=k\lambda.\quad(k=0,\,\pm 1,\,\pm 2,\,\cdots)
\end{align}
上式称为\textbf{光栅方程}。\\主极强的光强为
\begin{align*}
I_{\max}=N^2A_0^2(\sin\alpha /\alpha)^2,
\end{align*}
可知主极强处光强为单缝衍射光在该方向的光强的\(N^2\)倍,衍射光能量主要集中在主极强条纹中。\\
主极强的数目\(k\)由光栅方程确定,因\(|\sin\theta|\leqslant 1\),有\(|k|_{\max}=[d /\lambda]\)。\\
\textbf{暗纹}的位置满足\(\sin(N\delta /2)=0\)且\(\sin(\delta /2)\ne 0\),即
\begin{align}
\sin\theta=\left(k+\frac{m}{N}\right)\frac{\lambda}{d}.\quad(k=0,\,\pm 1,\,\pm 2,\,\cdots;\,m=1,\,\cdots,\,N-1)
\end{align}
可知两个主极强之间有\(N-1\)条暗纹。\\
次极强位于两条相邻的暗纹之间,两个主极强之间有\(N-2\)个次极强。\\
\textbf{半角宽}\phantom{awd}\\
对\(k\)级主极强
\begin{align}
\Delta(\sin\theta_k)=\cos\theta_k\Delta\theta
&=\left( k+\frac{1}{N} \right) \frac{\lambda}{d}-k \,\frac{\lambda}{d}=\frac{\lambda}{Nd},\notag\\
\Delta\theta&=\frac{\lambda}{Nd\cos\theta_k}.
\end{align}
可知主极强的半角宽和\(Nd\)成反比。\\
多缝干涉因子表明,多光束干涉使能量高度集中于各个主极强,并且光栅越长(\(Nd\)越大),方向性越强,主极强条纹越细锐。\\
\phantom{awd}\par
至于单缝衍射因子,其作用有二,一是改变能量在各级主极强之间的分配,使位于单缝衍射亮斑位置的干涉主极强得到更多的能量。\\
其二是产生干涉主极强的\textbf{缺级}现象。满足光栅方程的方向上,本应有相应的干涉主极强出现,但若该方向与单缝衍射的暗纹方向重合,此时合成的光强就为零。因此缺级满足两个方程
\begin{align*}
\sin\theta&=k \,\frac{\lambda}{d},\quad(k=0,\,\pm 1,\,\pm 2,\,\cdots)\\
\sin\theta&=m \,\frac{\lambda}{a}.\quad (m=\pm 1,\,\pm 2,\,\cdots)
\end{align*}
联立得缺级的条件为
\begin{align}
k=\frac{d}{a}\,m.
\end{align}
\newpage
\subsubsection{光栅光谱}
\paragraph{光栅色散}\phantom{awd}\\
若入射光包含不同波长,则每种波长在观察屏上形成各自的衍射图样。由光栅方程可知,对一个光栅(\(d\)一定),除开零级主极强,不同波长的主极强对应不同的衍射角\(\theta_k\),这就是光栅色散。如果用非单色光照明,可以看到衍射图样中有几套不同颜色的亮线,它们各自对应一个波长。
\paragraph{角色散本领}\phantom{awd}\\
对光栅方程两边取微分可得
\begin{align}
d\cos\theta_k\updelta\theta&=k\updelta\lambda,\notag\\
\mathscr D=\frac{\updelta\theta}{\updelta\lambda}
&=\frac{k}{d\cos\theta_k}.
\end{align}
光栅的角色散本领与光栅常数成反比,为了增强角色散本领,光栅的缝刻得很密;角色散本领还与光谱级数\(k\)成正比,光谱级数越大,角色散本领越强,不同波长的谱线分开的越厉害,但是光强也越小。
\paragraph{色分辨本领}\phantom{awd}\\
根据Rayleigh判据,光栅光谱的最小分辨角是光谱的半角宽度,由\(\Delta\theta=\lambda /(Nd\cos\theta_k)\),有
\begin{align}
\updelta\lambda=\frac{\updelta\theta}{\mathscr D}
&=\frac{\lambda /(Nd\cos\theta_k)}{k /(d\cos\theta_k)}
=\frac{\lambda}{kN},\notag\\
\mathscr R&=\frac{\lambda}{\updelta\lambda}=kN.
\end{align}
\subsubsection{例题:光栅光谱参数}
\begin{enumerate}
\item 在光栅的\(k\)级光谱中分辨双线\(\lambda_1,\,\lambda_2\),求光栅缝数\(N\)所需要的最小值;
\item 求在\(\lambda \)附近,光栅的\(k\)级光谱的自由光谱范围。
\end{enumerate}
\textbf{解}\quad 1.由色分辨本领
\begin{align*}
\mathscr R=\frac{\bar \lambda}{\updelta \lambda }=kN
\Rightarrow
N=\frac{\bar \lambda}{k\updelta\lambda}=\frac{\lambda_1+\lambda_2}{2k(\lambda_1-\lambda_2)}.
\end{align*}
\hspace{2em}2.设光栅常数为\(d\),则
\begin{align*}
\begin{cases}
d\sin\theta=(k+1)\lambda,\\
d\sin\theta=k(\lambda+\Delta\lambda),
\end{cases}
\end{align*}
这就解得了自由光谱范围
\begin{align}
\Delta\lambda=\lambda /k.
\end{align}
凝聚态理论——slave boson的简单实例,BR转变点以及KR saddle
先来点背景介绍: 对于二维Hubbard模型, Brinkman&Rice使用的Gutzwiller近似【1】的到了一个金属-绝缘体转变,称为BR transition。这个不同于Mott transition。然后现在用slave-boson试试能不能得到同样的结论和图像。 在之前,Barnes做出了一个成功的Slave-boson 【2】的表示:把电子算符拆成一个费米子和两个玻色子。玻色子分别叫做doublon(用d表示)和holon(用e表示),代表双占据和空穴,费米子带有自旋自由度。这个表示在安德森杂质模型上使用的很好。Coleman 【3】 之后拓展至了一般的格点。但是,为了在Hubbard 模型上和之前的Brinkman&Rice使用的Gutzwiller近似的结果对上,Kotliar 和 Ruckenstein 【4】拓展一个新的表示(KR representation),新引入一个带有自旋自由度的$p$玻色子,表示如下:
\begin{align} &e^{\dagger}\mathinner{|Vac\rangle} = \mathinner{|0\rangle} \quad non-occuiped \ state \notag \\ &p_{\sigma}^{\dagger}f_{\sigma}^{\dagger}\mathinner{|Vac\rangle} = \mathinner{|\sigma\rangle} \quad singely-occuiped \ state \notag\\ &d^{\dagger}f_{\sigma}^{\dagger}f_{-\sigma}^{\dagger}\mathinner{|Vac\rangle} = \mathinner{|\uparrow\downarrow\rangle} \quad doublely-occuiped \ state \end{align}
注意这里的|Vac>只是人工的定义。电子算符会拆成如下形式
\begin{align}c_{i\sigma}=z_{i\sigma}f_{i\sigma},\quad z_{i\sigma} = e^{\dagger}_ip_{i\sigma} + p^{\dagger}_{i\bar\sigma}d_i \end{align}
d,e,p满足玻色对易关系,f满足反对易关系。这并不是一个operator identity,因为还有如下的约束条件(constrains)第一个约束是由每个格点上必须有一类且仅有一类玻色子存在,第二个代表给定spin存在两类等同计算费米子占据数:
\begin{align} &Q_i =\sum_{\sigma} p^{\dagger}_{i\sigma}p_{i\sigma} + e_i^{\dagger}e_i + d_i^{\dagger}d_i -\mathbf{1} =0 \notag\\ &Q_{i\sigma}=f_{i\sigma}^{\dagger}f_{i\sigma} - p_{i\sigma}^{\dagger}p_{i\sigma} - d_i^{\dagger}d_i =0\qquad for\quad \sigma=\uparrow / \downarrow \label{constrains} \end{align} 我们要计算的体系是二维正方格子上的Hubbard模型,哈密顿量如下:
\begin{align}\mathcal{H} = \sum_{
第一项是紧束缚hopping,可以带最近邻条件也可以不带,第二项是on-site的库伦势, $\hat{n}_{i\sigma} = c_{i\sigma}^\dagger c_{i\sigma}$为粒子数算符。
我们想得到一个金属-绝缘体转变的相变点并且和使用Gutzwiller平均场的Brinkman&Rice的结果对应上。 现在开始计算: 首先把Hubbard模型用这里新定义的slave-boson重写
\begin{align} \mathcal{H} = \sum_{
在两个约束条件下这个重写是exact的而不是近似的。然后我们把它扔进配分函数的路径积分。我们都知道,对应粒子场 $[\bar\psi, \psi]$,其配分函数可以写成如下路径积分:
\begin{align} \mathcal{Z} = \int\mathcal{D}(\psi, \bar{\psi}) \ e^{-\int_0^{\beta} \rm{d} \tau\cal{L(\tau)}} \\ \mathcal{L}(\tau) = \bar{\psi}\partial_{\tau}\psi+\mathcal{H}(\bar{\psi}, \psi)-\mu N(\bar{\psi}, \psi) \end{align}
我们现在有1,2,3,4四个粒子场,可以直接扔进路径积分~当然,需要带上两个约束条件并乘上拉格朗日乘子 $\cal{L}\rightarrow\cal{L}+\sum_i\lambda_iQ_q + \sum_{i\sigma}\lambda_{i\sigma}Q_{i\sigma}$(回忆一下约束下条件极值问题,我们往下分析是要求 $\cal{L}$ 的极小情形的)。这里的拉格朗日乘子也是动力学场(每个格点都有对应的两个约束关系)!
\begin{align} \mathcal{Z} = \int\cal{D}(f_{\sigma}, \bar{f}_{\sigma}) \cal{D}(e, \bar{e}) \cal{D}(d, \bar{d}) \cal{D}(p_{\sigma}, \bar{p}_{\sigma}) \cal{D}\lambda \cal{D}\lambda'_{\sigma} \ e^{- S(\tau)}\end{align}
\begin{align} S(\tau) &= \int_0^\beta \mathrm{d} \tau \sum_i\left[\bar{e}(\partial_{\tau}+\lambda_i)e_i +\sum_{\sigma}\bar{p}_{i\sigma}(\partial_{\tau}+\lambda_i-\lambda'_{i\sigma})p_{i\sigma} +\bar{d}_{i}(\partial_{\tau}+U+\lambda_i-\lambda'_{i\sigma})d_{i}-\lambda_i \right] \\ \notag &+\int_0^\beta \mathrm{d} \tau \sum_{ij\sigma} \bar{f}_{i\sigma}\left( t_{ij}\bar{z}_{i\sigma}z_{j\sigma} + (\partial_{\tau} + \lambda'_{i\sigma} - \mu)\delta_{ij} \right)f_{j\sigma} \label{01} \end{align}
我们写了一个化学势进去,这玩意其实也是拉格朗日乘子。。。我们希望体系是半满的,这是一个约束。 在strong interaction limit下( $t_{ij}\rightarrow 0$ )这就是简单的二次型,可以精确算出,结果一致。但我们不关注这个。
【注意!目前为止看似顺利,但其实有坑!稍后会填掉。这个填坑也是KR representation 在beyond mean-field变得很复杂的问题所在。】
我们的近似方法依赖于对应的图像——Hubbard U高于某个点时,每个格点上有且仅有一个电子。由于再升高U带来的排斥,电子就呆在自己格点上不动了,自闭了,单粒子移动完全是被抑制的,所以变成了绝缘体(BR转变)。在这个slave boson的图像下就是,只存在单占据,不存在双占据(doublon)和空穴(holon)!
所以我们可以直接采取非常聪明的方法做近似——把boson们全都condensate掉就好了~ 把玻色子们的密度当成序参量,当其变成0的时候不就达到半满下全部单占据的情形了嘛!由于半满的情形下,双占据数目(doublon density)和无占据数目(holon density)一定是相等的。所以这里,我们直接写下一个saddle point solution,把d,p,e, $\lambda_i$ , $\lambda'_{i\sigma}$ 都写成uniform的,无dynamics的参数
【所以说这就是一个简单的saddle point分析,用不上Hubbard-Stratonovich变换解耦再取minimum那样做平均场】
粒子密度写成 $\bar d_i d_i = d^2$ 其它同样。 坑来了:在无相互作用极限 $U\rightarrow 0$ 下,这个saddle point会给出 $p^2_{\sigma} = d^2 = e^2 = 1/4$ 这样的均匀的结果(想一想为什么),会造成 $\mathinner{\langle \bar z_{i\sigma}z_{i\sigma}\rangle} = 1/4$ 于是hopping $t_{ij}$ 就变成了原来的1/4。。。整个紧束缚模型多了1/4这个factor。。。这当然是不对的嘛。所以KR做了一个变换:
\begin{align}z_{i\sigma} \rightarrow (1-d^{\dagger}_id_i-p^{\dagger}_{i\sigma}p_{i\sigma})^\alpha z_{i\sigma} (1-e^{\dagger}_ie_i -p^{\dagger}_{i\bar\sigma}p_{i\bar\sigma})^\alpha = L_{i\sigma} z_{i\sigma} R_{j\sigma},\quad \alpha = -1/2 \end{align}
这个时候在saddle point下这个1/4就被消除了。L和R在空占据和双占据子空间下是对角的且本征值为1。 我们先令$\mathinner{\langle \bar z_{i\sigma}z_{i\sigma}\rangle} =q_\sigma$ ,它是个关于 $e^2,d^2,p^2_{\sigma}$ 四个参数(已经不是dynamical field了!)的函数。
在KR saddle 下,对虚时间的求导啥的都可以扔掉了,费米子部分也变成了一个free的部分。接下来就是教科书级的计算了: 我们的路径积分现在只关于费米子f了玻色部分的作用量直接就只是一个函数而不是泛函积分:
\begin{align}S_b = N\beta \left[ \lambda(\sum_{\sigma} p^2_{\sigma} + e^2 + d^2 -1) -\sum_{\sigma}\lambda'_{\sigma} (p^2_{\sigma} + d^2) +Ud^2\right]\end{align}
\begin{align}\mathcal{Z} = e^{-S_b}\int\cal{D}(\bar f_{\sigma},f_{\sigma})\exp\Big(-\int_0^\beta \mathrm{d} \tau \sum_{ij\sigma} \bar{f}_{i\sigma}\left( t_{ij}\bar{z}_{i\sigma}z_{j\sigma} + (\partial_{\tau} + \lambda'_{i\sigma} - \mu)\delta_{ij} \right)f_{j\sigma}\Big) \end{align}
这里不写快速做法,还是写详细一点:时间域和位置域都做傅里叶变换。先是时间域(算熟悉之后就一起做吧,把频率和动量写在一起多舒服)
$f_{i\sigma}(\tau) = \frac{1}{\sqrt{\beta}}\sum_{\omega_n} f_{i\sigma}(\omega_n)e^{-i\omega_n\tau}$ 使用 $\int_0^\beta e^{-i(\omega_n-\omega_{n'})\tau}=\beta\delta_{nn'}$
第一步得到如下作用量:
\begin{align}S_f[\bar{f},f] = \sum_{ij\sigma}\sum_n \bar{f}_{i\sigma}(\omega_n)[-i\omega_n +(\lambda_{i\sigma}-\mu)\delta_{ij} + t_{ij}q_{\sigma}] f_{j\sigma}(\omega_n) \end{align}
然后对格点坐标做傅里叶变换 ( $t_{ij}$ 是个循环矩阵,所以无所谓hopping近邻不近邻),获得得能带的dispersion $\epsilon_{\vec k}$ 。写到一起: $\xi_{\vec k\sigma}=q_\sigma \epsilon_{\vec k} +\lambda'_\sigma -\mu$ ,作用量完全对角化:
\begin{align}S_f[\bar{f},f] = \sum_{ij\sigma}\sum_n \bar{f}_{\sigma}(\vec k,\omega_n)[-i\omega_n +\xi_{\vec k\sigma}] f_{\sigma}(\vec k,\omega_n)\end{align}
所以使用grassmann vector的高斯积分,直接得出配分函数,det A 就是对自由度 $\vec k, \omega_n$ 连乘啦。取对数:
\begin{align}\log\mathcal{Z}= -S_b + \sum_{\sigma} \sum_{\vec k} \sum_n \log(-i\omega_n + \xi_{\vec k\sigma}) \end{align}
松原频率求和可以精确求出。Altland第四章已经帮我们推导过了,直接套公式:
\begin{align}\sum_n \log(-i\omega_n + \xi_{\vec k\sigma}) = \log(1+e^{-\beta\xi_{\vec k\sigma}}) = \log(1+e^{-\beta(q_\sigma \epsilon_\vec k +\lambda'_\sigma -\mu)})\end{align}
下一步就是热力学量啦。在零温的时候,由于 $F = \mathinner{\langle E\rangle}-TS$ ,所以平均能量:
\begin{align} \mathinner{\langle E \rangle}/N = -\frac{1}{N}\frac{\partial}{\partial \beta}\log\mathcal{Z}= & \left[ \lambda(\sum_{\sigma} p^2_{\sigma} + e^2 + d^2 -1) -\sum_{\sigma}\lambda'_{\sigma} (p^2_{\sigma} + d^2) +Ud^2\right]\\ &+\frac{1}{N}\sum_{\sigma}\sum_{\vec k}\frac{q_{\sigma}\epsilon_{\vec k}+(\lambda'_{\sigma}-\mu)}{1+e^{\beta(q_{\sigma}\epsilon_{\vec k}+\lambda'_{\sigma}-\mu)}} \end{align}
这个式子可以如下简化:1. 只考虑顺磁的情况,这样自旋指标不区分,所以对自旋的求和统一变成乘2。2:particle-hole symmetry,可以得到$ \lambda'_{\sigma} = U/2 = \mu$以及 $\lambda$ 可以任意(这就是拉格朗日乘子的作用,使之满足约束)取 $\lambda = \lambda'_{\sigma}$ 我们可以消掉p-density。现在(不区分自旋指标),在原本的两个约束条件下且满足半满情形下 $d^2=e^2$ , $\mathinner{\langle \bar z_{i\sigma}z_{i\sigma}\rangle} =q_\sigma = 8d^2(1-2d^2) = q$ 可以只用d-density表示。我们知道doulon和holon的density一定会是相等的。我们把对k的求和化成积分 $\sum_{\mathbf{k}}\rightarrow \frac{N}{(2\pi)^2}\int \rm{d}\mathbf{k}$ ,并插入态密度 $g(E)$ 转到能量的积分:
\begin{align}\bar{\epsilon} = \mathinner{\langle E \rangle}/N = Ud^2 + 2\int_{-\infty}^{\infty}\mathrm{d} E \ g(E) \frac{qE}{1+e^{\beta qE}} \end{align}
现在,平均能量(自由能)对序参量——doublon (holon)density求极小值:
\begin{align} \frac{\partial\bar{\epsilon}}{\partial d^2} = \frac{\mathrm{d}q}{\mathrm{d} d^2}\frac{\partial \bar{\epsilon}}{\partial q} = 0 \end{align}
能得到
\begin{align} (8-32d^2)\times \left[2\int_{-\infty}^{\infty}\mathrm{d} E\ g(E) E\left( \frac{e^{\beta qE}(1-\beta qE)+1}{(e^{\beta qE}+1)^2}\right) \right] = 0 \end{align}
这一步容易卡住。其实,把中间大圆括号里那一坨扔进画图程序,就能知道这tm就是一个近似的翻转阶梯函数
\begin{align} f(x) = \frac{e^{x}(1-x)+1}{(e^{x}+1)^2}, \ \lim_{x\rightarrow\infty}f(x) = 0, \ \lim_{x\rightarrow-\infty}f(x) = 1 \end{align}
而我们正好是要取零温 $\beta \rightarrow +\infty$ ,所以直接把这个式子写成
\begin{align} d^2 = \frac{1}{4}(1-\frac{U}{U_c}), \quad U_c = 16\int_0^{\infty} \mathrm{d} E g(E) E \end{align}
在 $U>U_c$ 是,doublon和holon的密度为0,完全变为所有格点单占据。通过代入态密度,数值积分可以轻易得到正方格子下 $U_c \approx 13t$ ,确实是BR转变。 这只是简单的saddle point方法,从正经计算路径积分开始到最后的计算都不难。当然在这套slave boson表示下可以引入其它的平均场,可以得到比如没有玻色condensation但玻色子密度不为零的转变(是Mott转变)。
参考
[1] https://journals.aps.org/prb/abstract/10.1103/PhysRevB.2.4302
[2] https://iopscience.iop.org/article/10.1088/0305-4608/7/12/022
[3] https://journals.aps.org/prb/abstract/10.1103/PhysRevB.29.3035
[4] https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.57.1362
收起阅读 »四维形式的电磁理论(Ⅱ)
作者|yubr
编辑|Trader Joe's
在上一章《四维形式的电磁理论(Ⅰ)》中我们推导了麦克斯韦方程的四维形式,建立了四维语言下电磁理论的基本动力学方程。
本章中,我们将用四维语言描述带电粒子在电磁场中的运动,也就是建立洛伦兹力的四维形式;我们还将显式地给出电磁场在洛伦兹变换下的具体变换规则;最后我们介绍著名的A-B效应(Aharonov–Bohm effect)。
Yakir Aharonov
David Bohm
1. 带电粒子在电磁场中的运动方程——洛伦兹力的四维形式
在我们熟悉的三维矢量语言下,带电粒子在电磁场中的运动由洛伦兹力来决定
$$
\vec{F}_{洛}=\frac{d\vec{p}}{dt}
$$
其中
$$
\vec{F}_{洛}=q\left( \vec{E}+ \frac{\vec{v}}{c}\times \vec{B}\right)
$$
但是显然,这个方程在洛伦兹变换下不是协变的,换言之,在不同的惯性系下观测到的粒子受到的洛伦兹力并不同。
为了更好地描述在不同惯性系下粒子受到的洛伦兹力的关系,我们需要用四维语言改写上面的方程。
在《四维形式的狭义相对论及其动力学》中,我们已经给出了动量和速度的四维形式,所以方程的右边很容易改写:
$$
\frac{d\vec{p}}{dt}\rightarrow \frac{dp^{\mu}}{d\tau}=m\frac{d}{d\tau}U^{\mu}=m\frac{d}{d\tau}(\gamma c,\gamma \vec{v})
$$
我们先来看时间分量:
$$
\begin{aligned}
\frac{d\gamma}{d\tau}&=\gamma\frac{d\gamma}{dt}=\gamma\frac{d}{dt} \left (1- \frac{v^2}{c^2}\right)^{-1/2}\\&=-\frac{1}{2}\gamma\left(1-\frac{v^2}{c^2}\right)^{-3/2}\left(-\frac{2\vec{v}}{c^2}\right)\cdot \frac{d\vec{v}}{dt}\\&=\gamma^4\frac{\vec{v}}{c^2}\cdot\frac{d\vec{v}}{dt}
\end{aligned}
$$
另一方面,
$$
\begin{aligned}
\vec{F}&=\frac{d\vec{p}}{dt}=\frac{d}{dt}\left(\gamma m \vec{v}\right)\\&=m\left(\frac{d\gamma}{dt}\vec{v}+\gamma \frac{d\vec{v}}{dt} \right)\\&=m\left[\frac{\gamma^3}{c^2}\left(\vec{v}\cdot \frac{d\vec{v}}{dt}\right)\vec{v}+\gamma\frac{d\vec{v}}{dt}\right]
\end{aligned}
$$
$$
\begin{aligned}
\vec{F}\cdot \vec{v}&=m\left[ \left(\frac{\gamma^3v^2}{c^2}+\gamma \right)\left(\vec{v}\cdot \frac{d\vec{v}}{dt}\right) \right]\\&=m\gamma^3\left(\vec{v}\cdot \frac{d\vec{v}}{dt}\right)
\end{aligned}
$$
所以
$$
\frac{dp^0}{d\tau}=\frac{\gamma}{c}\vec{F}\cdot\vec{v}
$$
我们再来看空间分量:
$$
\frac{d}{d\tau}\left(\gamma\vec{v}\right)=\gamma\left(\frac{d\gamma}{dt}\vec{v}+\gamma\frac{d\vec{v}}{dt}\right)=\frac{\gamma\vec{F}}{m}
$$
所以
$$
\frac{dp^i}{d\tau}=\gamma\vec{F}
$$
总结一下
$$
\frac{dp^{\mu}}{d\tau}=\left(\frac{\gamma}{c}\vec{F}\cdot\vec{v},\gamma\vec{F}\right)
$$
我们来看看它的物理含义,利用 $p^{\mu}=\left(E/c,\vec{p}\right)$ ,我们有
$$
\begin{aligned}
\frac{d}{d\tau}\left(\frac{E}{c}\right)=\frac{\gamma}{c}\vec{F}\cdot\vec{v}\Rightarrow \frac{dE}{dt}=\vec{F}\cdot\vec{v}
\end{aligned}
$$
这正是能量守恒定律
$$
\frac{d\vec{p}}{d\tau}=\gamma \vec{F}\Rightarrow \frac{d\vec{p}}{dt}=\vec{F}
$$
这正是牛顿第二定律
好,下面我们把三维力以洛伦兹力的具体形式
$$
\vec{F}=q\left( \vec{E}+ \frac{\vec{v}}{c}\times \vec{B}\right)
$$
代入,对时间分量有
$$
\begin{aligned}
\frac{dp^0}{d\tau}&=\frac{\gamma}{c}\vec{F}\cdot\vec{v}\\&=\frac{\gamma}{c}q\left(\vec{E}+\frac{\vec{v}}{c}\times \vec{B}\right)\cdot \vec{v}\\&=\frac{\gamma}{c}q \vec{E}\cdot \vec{v}=\frac{q}{c}\left(\vec{E}\cdot \gamma \vec{v}\right)\\&=\frac{q}{c}E^i U^i=\frac{q}{c}F^{i0}U^{i}\\&=\frac{q}{c}F^{0i}U_i=\frac{q}{c}F^{0\nu}U_{\nu}
\end{aligned}
$$
其中我们用到了电场强度和电磁场张量之间的关系 $E^{i}=F^{i0}$ ,这个关系在上一章 《四维形式的电磁理论(Ⅰ)》(超链接)中已经推导过了。对空间分量我们有
$$
\begin{aligned}
\frac{dp^{i}}{d\tau}&=\gamma F^{i}=\gamma q(\vec{E}+\frac{\vec{v}}{c}\times \vec{B})^{i}\\&=\frac{q}{c}\left(\gamma cE^{i}+\gamma \epsilon_{ijk}v^{j}B^{k} \right)\\&=\frac{q}{c}\left(U^{0}F^{i0}-\frac{1}{2}\epsilon^{ijk}\epsilon^{klm}U^{j}F^{lm}\right)\\&=\frac{q}{c}\left( U^{0}F^{i0} - U^{j}F^{ij}\right)\\&=\frac{q}{c}F^{i\nu}U_{\nu}
\end{aligned}
$$
其中用到了磁场强度和电磁场张量之间的关系 $B^{k}=-\frac{1}{2}\epsilon^{klm}F^{lm}$ 和恒等式 $\epsilon^{ijk}\epsilon^{klm}=\delta^{il}\delta^{jm}-\delta^{im}\delta^{jl} $
合并一下我们就得到了带电粒子在电磁场中的运动方程
$$
\frac{dp^{\mu}}{d\tau}=\frac{q}{c}F^{\mu\nu}U_{\nu}
$$
这是四维形式的运动方程,和三维形式相比最大的优点就是具有显式的洛伦兹协变性。
所以四维形式的洛伦兹力可以定义为
$$
F^{\mu}_{洛}=\frac{q}{c}F^{\mu\nu}U_{\nu}
$$
显然它也是洛伦兹协变的。
2. 电磁场的洛伦兹变换
对于一个电磁场体系,电场 $\vec{E}$ 和磁场 $\vec{B}$ 的描述与电磁场张量 $F^{\mu\nu}$ 的描述完全等价,其对应分量为
$$
F^{\mu\nu}\equiv \left( \begin{array}{cccc} F^{00}&F^{01}&F^{02}&F^{03}\\ F^{10}&F^{11} &F^{12} &F^{13}\\ F^{20}& F^{21}& F^{22}&F^{23}\\F^{30}&F^{31}&F^{32}&F^{33} \end{array} \right) = \left( \begin{array}{cccc} 0&-E^1&-E^2&-E^3\\ E^1&0 &-B^3 &B^2\\ E^2& B^3& 0&-B^1\\E^3&-B^2&B^1&0 \end{array} \right)
$$
采用电磁场张量描述的好处是其具有显式的洛伦兹协变性。
具体地,设 $F^{\mu\nu}$ 和 $F^{\prime\mu\nu}$ 分别为电磁场张量在两个惯性系 $\Sigma$ 和 $\Sigma^{\prime}$ 的分量,两个惯性系之间的洛伦兹变换矩阵为 $\Lambda^{\mu}_{\nu}$ ,则两个惯性系中的分量可以通过如下表达式联系
$$
F^{\prime \mu\nu}=\Lambda^{\mu}_{\rho}\Lambda^{\nu}_{\sigma}F^{\rho\sigma}
$$
或者
$$
F^{\prime}=\Lambda F \Lambda^{T}
$$
下面我们来具体写出电场分量和磁场分量的洛伦兹变换关系。
为简单起见,我们假设两个惯性系的y轴和z轴平行,x轴重合,$\Sigma^{\prime}$ 系相对 $\Sigma$ 系以速度 $v$ 沿x轴正方向平动,则洛伦兹变换矩阵为
$$
\Lambda^{\mu}_{\nu}=\left( \begin{array}{cccc} \gamma&-\gamma \beta&0&0\\ -\gamma\beta&\gamma &0&0\\ 0& 0&1&0\\ 0&0&0&1 \end{array} \right)
$$
其中 $\beta\equiv v/c$ , $\gamma \equiv 1/\sqrt{1-\beta^2}$ 。从而
*这个公式用图*
最后我们得到
$$
E^{\prime 1}=E^1
$$
$$
E^{\prime 2}=\gamma\left(E^2-\beta B^3\right)
$$
$$
E^{\prime 3}=\gamma\left(E^3+\beta B^2\right)
$$
$$
B^{\prime1}=B^{1}
$$
$$
B^{\prime 2}=\gamma\left(B^2+\beta E^3\right)
$$
$$
B^{\prime 3}=\gamma\left(B^3-\beta E^2\right)
$$
3. Aharonov-Bohm 效应
在上一章 《四维形式的电磁理论(Ⅰ)》(超链接)中我们引入了电磁势 $A^{\mu}=(\phi,\vec{A})$ 来描述电磁场,它和电磁场分量的关系为
$$
\vec{E}=-\nabla\phi-\frac{1}{c}\frac{\partial \vec{A}}{\partial t}
$$
$$
\vec{B}=\nabla \times \vec{A}
$$
一个很自然的问题是,场和势这两种对电磁体系的描述是等价的吗?如果不是,哪一种描述更加基本呢?
首先注意到,在经典电磁体系中,势的描述存在不确定度,即对于一组确定的$(\vec{E},\vec{B})$ 的值,我们可以找到不止一组的 $(\phi,\vec{A})$ 的值与之对应,这称为规范冗余。
具体地说,对原来的标量势和矢量势做如下变换:
$$
\phi\rightarrow\phi^{'}=\phi+\frac{1}{c}\frac{\partial\chi}{\partial t}
$$
$$
\vec{A}\rightarrow \vec{A}^{\prime}=\vec{A}-\nabla \chi
$$
其中 $\chi$ 是一个任意的关于时空坐标的标量函数(不同的 $\chi$ 对应不同的规范),那么对应的电场和磁场并不发生改变
$$
\vec{E}^{\prime}=-\nabla\phi^{\prime}-\frac{1}{c}\frac{\partial \vec{A}^{\prime}}{\partial t}=-\nabla(\phi+\frac{1}{c}\frac{\partial\chi}{\partial t})-\frac{1}{c}\frac{\partial}{\partial t}(\vec{A}-\nabla \chi)=-\nabla\phi-\frac{1}{c}\frac{\partial \vec{A}}{\partial t}=\vec{E}
$$
$$
\vec{B}^{\prime}=\nabla \times \vec{A}^{\prime}=\nabla \times (\vec{A}-\nabla \chi)=\nabla\times \vec{A}=\vec{B}
$$
或者等价地,用四维语言来描述,对于四维势做如下变换:
$$
A^{\mu}\rightarrow A^{\prime \mu}=A^{\mu}+\partial^{\mu}\chi
$$
电磁场张量保持不变
$$
\begin{aligned}
&F^{\mu\nu}\rightarrow F^{\prime \mu\nu}\\=&\partial^{\mu}A^{\nu\prime}-\partial^{\nu}A^{\prime \mu}\\=&\partial^{\mu}\left(A^{\nu}+\partial^{\nu}\chi\right)-\partial^{\nu}\left(A^{\mu}+\partial^{\mu}\chi\right)\\=&\partial^{\mu}A^{\nu}-\partial^{\nu}A^{\mu}\\=&F^{\mu\nu}
\end{aligned}
$$
所以,对于经典电磁体系,场的描述比势更加基本。场是物理的,对应可观测量,而势并不是物理的,它不能唯一确定电磁场,不具有可观测效应。
任何可观测量的值都应该不依赖于电磁势对规范的选择(即不依赖于函数$\chi$),这称为规范不变性。
但是,到了量子体系中,这一切都发生了变化。1959年,Aharonov和Bohm指出(Phys. Rev. 115, (1959), 485):
在量子体系中,电磁势也具有可观测效应。这称为Aharonov-Bohm效应,简称A-B效应。
为此,我们设想如下的实验:
考虑通以稳恒电流 $I$,半径为 $R$,单位长度密绕匝数 $n$ 的无限长通电螺线管,容易计算出,对于这样的电磁体系,螺线管的内部为匀强磁场,方向沿着螺线管的径向,而螺线管外部磁场为零
$$
B(r)=nI,\qquad r < R
$$
$$
B(r)=0,\qquad r > R
$$
通过这个螺线管的磁通量为
$$
\Phi=\int_S \vec{B}\cdot d\vec{S}=n \pi IR^2
$$
但是,螺线管内外的磁矢势都不为零,其方向环绕螺线管的径向
$$
A(r)=\frac{1}{2}nIr ,\qquad r < R
$$
$$
A(r)=\frac{R^2}{2r}nI, \qquad r > R
$$
所以,在螺线管的外部,没有电磁场,但是有电磁势,按照经典电磁理论,螺线管外部不应该有任何可观测效应。
我们现在把这个无限长通电螺线管放入电子的双缝干涉实验中:
我们知道通过双缝的两束电子发生干涉的原因是因为它们到达屏上的时候存在相位差,屏上明暗条纹的具体位置取决于那一点处的相位差。
设螺线管不通电时电子的波函数为 $\psi_{0}$,则由量子力学可以证明,存在矢势时其波函数为
$$
\psi=\psi_0 e^{\frac{ie}{\hbar c}\int_l \vec{A}\cdot d\vec{l} }
$$
在螺线管不通电时,两束电子到达屏上后总的波函数为
$$
\psi_0=\psi^{(1)}_0+\psi^{(2)}_0=|\psi^{(1)}_0|e^{i\phi_1}+|\psi^{(2)}_0|e^{i\phi_2}=\psi^{(1)}_0\left(1+\frac{|\psi_{0}^{(2)}|}{|\psi_{0}^{(1)}|}e^{i(\phi_2-\phi_1)}\right)
$$
其相位差为
$$
\Delta{\phi}_0=\phi_2-\phi_1
$$
而在螺线管通电后, 两束电子到达屏上后总的波函数为
$$
\begin{aligned}
\psi&=\psi^{(1)}+\psi^{(2)}\\&=\psi_{0}^{(1)}e^{\frac{ie}{\hbar c}\int_{l_1} \vec{A}\cdot d\vec{l} }+\psi_{0}^{(2)}e^{\frac{ie}{\hbar c}\int_{l_2} \vec{A}\cdot d\vec{l} }\\&=\psi^{(1)}\left(1+\frac{|\psi_{0}^{(2)}|}{|\psi_{0}^{(1)}|}e^{i\left(\phi_2-\phi_1+\frac{e}{\hbar c}\int_{l_2}\vec{A}\cdot d\vec{l}-\frac{e}{\hbar c}\int_{l_1}\vec{A}\cdot d\vec{l}\right)}\right)
\end{aligned}
$$
其相位差为
$$
\begin{aligned}
\Delta{\phi}&=\phi_2-\phi_1+\frac{e}{\hbar c}\left(\int_{l_2}\vec{A}\cdot d\vec{l}-\int_{l_1}\vec{A}\cdot d\vec{l}\right)\\&=\Delta\phi_0+\frac{e}{\hbar c}\oint_l\vec{A}\cdot d\vec{l}
\end{aligned}
$$
利用Stokes定理,
$$
\oint_l\vec{A}\cdot d\vec{l}=\int_S \vec{B}\cdot d\vec{S}=\Phi_B=n \pi IR^2
$$
所以可以看到螺线管通电前后,相位差改变了
$$
\Delta\phi-\Delta\phi_0=\frac{e}{\hbar c}\Phi_B=\frac{e }{\hbar c}n \pi IR^2
$$
而这会引起屏上明暗条纹的移动,是确确实实的可观测效应。
---
A-B效应告诉我们:
矢势(严格来说应该是矢势的环量,或者磁通量)具有可观测效应。对于量子体系,电磁场的描述并不完全(因为通电前后,螺线管外部的电磁场都为零,但是屏上的条纹却会移动),所以在量子水平上我们应该使用电磁势而不是电磁场来描述电磁体系。
之前提到,矢势具有规范变换下的不确定度,但是可以证明其环量是规范不变的:
$$
\begin{aligned}
\oint_{l} \vec{A}^{\prime}\cdot d\vec{l}&=\oint_{l}\left( \vec{A}-\nabla \chi \right)\cdot d\vec{l}\\&=\oint_{l} \vec{A}\cdot d\vec{l}-\oint_l d\chi\\&=\oint_{l} \vec{A}\cdot d\vec{l}
\end{aligned}
$$
其中利用了梯度积分的性质
$$
\int_a^b \nabla\chi \cdot d\vec{l}=\int_a^b d\chi=\chi(b)-\chi(a)
$$
$$
\oint_{l} \nabla\chi \cdot d\vec{l}=\oint_l d\chi=0
$$
这是合理的,因为矢势的环量具有直接的可观测效应的,理应不依赖于规范的选择。
A-B效应其实对应着非常漂亮的几何图像。按杨振宁先生的观点,20世纪理论物理的三个主旋律分别是:量子化、对称性和相因子。而A-B效应中的A-B相位
$$
\oint_l \vec{A}\cdot d\vec{l}=\int_S \vec{B}\cdot d\vec{S}
$$
是典型的非定域效应。
它告诉我们,定域的电磁场 $(\vec{E},\vec{B})$ 并不能包含电磁体系所有的信息,对于那些不能连续收缩到一点的路径(例如这里的无限长通电螺线管,你在螺线管外面画一个圈包围螺线管,无论怎么收缩都没有办法将这个圈收缩为一个点),仅使用定域的场来描述会丢失体系的一些信息。
而那些丢失的信息就蕴含在了非定域的A-B相位中,它们对应的是这个空间整体的拓扑性质,所有的A-B相位可以按照路径的同伦类进行分类。