信息论和热力学

玻尔兹曼熵

在热力学中,玻尔兹曼熵为:

SBoltzman=kBlnWS_{\mathrm{Boltzman}}=k_B \ln W

其中 WW 为满足宏观条件的微观状态数。


宏观态可用系统的宏观量来描述:

(U,T,V,P,)\left(U,T,V,P ,\cdots\right)

而微观状态用每个粒子的状态描述,

(xi,yi,zi,pxi,pyi,pzi)\left(x_i,y_i,z_i,p_{xi},p_{yi},p_{zi}\right)

设粒子数为 NN,则共有 6N6^N 个分量,这些分量构成一个空间,称为刘维尔空间或者相空间。


根据等概率原理,一个系统的信息熵可计算为:

H=1Wln1W=lnWH=-\sum \frac{1}{W}\ln \frac{1}{W}=\ln W

SShannonSBoltzman\Rightarrow S_{\mathrm{Shannon}} \propto S_{\mathrm{Boltzman}}


系综

系综:在想象中构造大量粒子数、体积及势能等结构相同的系统,这些系统彼此独立,分别处于各种可能的微观态。每个系统都代表某一时刻下的真实系统,从而提供了一种在同一时刻观察系统所有可能状态的方法。并通过观察所有系统的概率分布,得到宏观上的统计结果。系综理论是研究系统平衡态及其准静态过程的一般理论。

系综里的系统都是平衡态

系综 系统 宏观不变量 概率分布函数
微正则系综 孤立系统:没有能量和粒子交换 N,V,EN,V,E P=1WP = \frac{1}{W}
正则系综 闭系:与一个大热源热平衡,温度恒定,无粒子交换 N,V,TN,V,T Pi=1ZeEi/kBTP_i=\frac{1}{Z}e^{-E_i/k_BT}
巨正则系综 开系:温度和化学势恒定,有能量和粒子交换 V,T,μV,T,\mu Pi=Ξe(EiNiμ)/kBTP_i=\Xi e^{-\left(E_i-N_i\mu\right)/k_BT}

吉布斯熵

吉布斯熵的定义为:

SGibbs=kBipilnpiS_{\mathrm{Gibbs}}=-k_B \sum_i p_i \ln p_i

其中 pip_i 为第 ii 个宏观态的概率。吉布斯熵和香农熵在形式上非常相似,只相差一个 kBk_B微正则系综的玻尔兹曼熵与吉布斯熵相等

  • 系统相当于整个空间的的统计,系综又在这个基础上对整个时间做了一次统计
  • 熵归属于系统,但通过系综计算

开放热平衡系综由正则系综描述:
pi=1Zeβεip_i=\frac{1}{Z}e^{-\beta \varepsilon_i },其中 ZZ 为配分函数,εi\varepsilon_i为第 ii 个状态的能量,β=1kBT\beta=\frac{1}{k_BT},吉布斯熵为

SGibbs=kBieβεiZlneβεiZ=1T(UF)\begin{align*} S_{\mathrm{Gibbs}}&=-k_B\sum_i\frac{e^{-\beta \varepsilon_i}}{Z}\ln\frac{e^{-\beta \varepsilon_i}}{Z}\\ &=\frac{1}{T}\left(U-F\right) \end{align*}

这与热力学中自由能 FF 的定义相吻合。


热力学熵

热力学熵:一个可逆过程吸收的热量为 đQrevQ_\mathrm{rev},则热力学熵定义为

dS=đQrevT\mathrm{d}S = \frac{đ Q_\mathrm{rev}}{T}

对于不可逆过程,熵变可写为:

dSđQT\mathrm{d}S \ge \frac{đ\mathrm{Q}}{T}

其中 đQrevđQ_{\mathrm{rev}}表示 QQ 的增量而不是微分,因为若 QQ 是可微的,则必然有 A(x,y)A\left(x,y\right)B(x,y)B\left(x,y\right) 满足

dQ=A(x,y)dx+B(x,y)dy\mathrm{dQ}=A\left(x,y\right) \mathrm{d}x+B\left(x,y\right)\mathrm{d}y

而对于A(x,y)A\left(x,y\right)B(x,y)B\left(x,y\right),不一定满足混合偏导数想等定理,即不一定有

Ay=Bx\frac{\partial A}{\partial y}=\frac{\partial B}{\partial x}

但可以证明,đQđQ 除以 TT 得到的 dS\mathrm{d}S 是可微的,这就是增量 đđ 和全微分 d\mathrm{d} 的区别。事实上,热量是一个过程量,不同的积分路径得到的热量不同;而熵是一个状态量只与初末两点的状态有关,而与积分路径无关,这也是增量 đQđQ 和全微分 dS\mathrm{d}S 的区别,热力学熵也是唯一一个由过程量定义的状态量。

考虑一个孤立系统,其从外界吸收的热量 Q=0\mathrm{Q}=0,因此对于任意的初末状态

S2S1=12dS1T12đQ=0S_2-S_1= \int _1^2 \mathrm{d} S\ge \frac{1}{T}\int ^2_1 đ\mathrm{Q} =0

这对应于热力学第二定律:孤立系统的熵永不减少:ΔS0\Delta S \ge 0

再根据热力学第一定律有:

dU=đQ+đW\begin{align*} \mathrm{d}U &= \mathrm{đ}Q+ \mathrm{đ}W \end{align*}

选择一条可逆路径:

dU=đQrev+đWrev=TđSpdV\begin{align*} \mathrm{d}U &= đ Q_{\mathrm{rev}}+ đ W_{\mathrm{rev}} \\ &= TđS-pdV \end{align*}

这个式子虽然考虑的是可逆情况,但对于不可逆情况也同样适用,只是TđSTđS 不再单纯是吸收热,而 pdV-pdV 也不再只是做功,这两项都包含热和功


吉布斯熵和功

正则系综中可逆过程的吉布斯熵为:

dSGibbs=kBd(ipilnpi)=1T[d(iεipi)ipidϵi]=1T(dU+ipidεi)dU=TdGibbs+ipidεi\begin{align*} dS_{\mathrm{Gibbs}}&=-k_B\mathrm{d}\left(\sum_i p_i\ln p_i\right) \\ &=\frac{1}{T}\left[d\left(\sum_i \varepsilon_i p_i\right)-\sum_i p_i d \epsilon_i \right] \\ &=\frac{1}{T}\left(\mathrm{d}U+\sum_i -p_i \mathrm{d}\varepsilon_i\right) \\ \Rightarrow\qquad \mathrm{d}U&=Td_{\mathrm{Gibbs}}+\sum_i p_i \mathrm{d}\varepsilon_i \end{align*}

熵变的第一项为内能,表示每个状态能量的加权求和;第二项为微观功(准静态),表示每个系统能级跃迁所需的能量。

可逆过程一定是平衡态,但平衡态不一定是可逆过程

从吉布斯熵中也能推导和热力学熵相同的结果,上文中也提到了玻尔兹曼熵是吉布斯熵在等概率条件下的特例。所以吉布斯熵是从统计力学得到的最根本的熵,而当粒子数趋向于无穷大并且粒子数除以容量等于一个定值,微正则、正则和巨正则系综是彼此等价的。因此热力学熵是吉布斯熵和玻尔兹曼熵的宏观体现。

对内能做全微分,并根据热力学第一定律得到

dU=d(iεipi)=iεidpi+ipidεi \mathrm{d}U=d\left(\sum_i \varepsilon_i p_i\right)=\sum_i \varepsilon_i \mathrm{d}p_i + \sum_i p_i\mathrm{d}\varepsilon_i

đQ=iεidpiđW=ipidεi\begin{align*} đQ&=\sum_i \varepsilon_i \mathrm{d}p_i \\ đW&=\sum_i p_i\mathrm{d}\varepsilon_i \end{align*}

微观功表示系统在每个能级上的分布不变,而能级有微扰;吸热表示系统的能级不变,而分布发生变化。

冯诺依曼熵

密度算符

在经典系统中已知分布函数就可得到整个体系的信息,而在量子系统中则需要更多的信息,量子系统的量子性依靠密度矩阵 ρ\rho 刻画。对于单体系统,若已知波函数就可得到所有信息,但对于许多个处于不同量子状态的体系,求解波函数是不现实的,解决办法和热力学一样,可以研究量子系统的统计学性质。

密度算符 ρ^\hat{\rho} 结合了全部系统的经典布居概率和单个量子态的波函数概率。若整个体系中一个子系统处于 ψi\ket{\psi_i} 态的概率为 pip_i,那么密度算符就是

ρ^=ipiψiψi \hat{\rho}=\sum_i p_i\ket{\psi_i}\bra{\psi_i}

其中 ipi=1\sum_i p_i=1。波函数按照概率幅叠加,而密度矩阵按照经典概率叠加。

  • ρ^\hat{\rho} 是厄米算符
  • Tr(ρ)=1\mathrm{Tr}(\rho)=1
  • Tr(ρ2)1\mathrm{Tr}(\rho^2) \le 1

若用一组正交完备的基将所有量子态展开,则密度算符为

ρ^=ipiψiψi=ijkpiCijCikjk=ijρijij \hat{\rho}=\sum_i p_i\ket{\psi_i}\bra{\psi_i}=\sum_{ijk} p_iC_{ij}C_{ik}^*\ket{j}\bra{k}=\sum_{ij}\rho_{ij}\ket{i}\bra{j}

冯诺依曼熵

现在我们来讨论量子体系的熵,能直接使用 ipilogpi\sum_i-p_i \log p_i 计算吗?现在不行了,因为每一个量子态都不一定是正交的,即会出现 ψjψi0\bra{\psi_j}\ket{\psi_i}\ne0,无法找到一个力学量 F^\hat{F} 能够完美区分 ψi\ket{\psi_i}ψj\ket{\psi_j},此时概率 pip_i 就失去了意义。

对一个已知密度算符 ρ^\hat{\rho} 的量子系统,其信息熵使用冯诺依曼熵描述

SVonNeumann=kBTr[ρ^lnρ^]S_{\mathrm{VonNeumann}}=-k_B\mathrm{Tr}\left[\hat{\rho}\ln \hat{\rho} \right]

算符值函数通过泰勒展开计算 f(ρ^)=f(0)I+f(0)ρ^+12f(0)ρ^2+=nCnρ^nf\left(\hat{\rho}\right)=f(0)\mathrm{I}+f'(0)\hat{\rho}+\frac{1}{2}f''(0)\hat{\rho}^2+\cdots =\sum_n C_n \hat{\rho}^n

由于 ρ^\hat{\rho} 是厄米算符,总存在一个幺正矩阵 UU 能够对角化密度矩阵 UρU=ipiiiU \rho U^\dagger=\sum_{i}p_{i}\ket{i'}\bra{i'}

SVonNeumann=kBTr[UUρ^UUlnρ^]=kBTr[Uρ^UUlnρ^U]=kBTr[(Uρ^U)ln(U^ρU)]=kBTr[ipiiiln(jpjjj)]=kBTr[ijpiiiln(pjjj)]=kBTr[ipiln(piii)]=kBipilnpi=SGibbs\begin{align*} S_{\mathrm{VonNeumann}}&=-k_B\mathrm{Tr}\left[U^\dagger U \hat{\rho}U^\dagger U \ln \hat{\rho} \right] \\ &=-k_B\mathrm{Tr}\left[ U \hat{\rho}U^\dagger U \ln \hat{\rho} U^\dagger \right] \\ &=-k_B\mathrm{Tr}\left[ (U \hat{\rho}U^\dagger) \ln (\hat U{\rho} U^\dagger) \right] \\ &=-k_B\mathrm{Tr}\left[ \sum_{i}p_{i}\ket{i'}\bra{i'} \ln \left(\sum_{j}p_{j}\ket{j'}\bra{j'}\right) \right] \\ &=-k_B\mathrm{Tr}\left[ \sum_{ij}p_{i}\ket{i'}\bra{i'} \ln \left(p_{j}\ket{j'}\bra{j'}\right) \right] \\ &=-k_B\mathrm{Tr}\left[ \sum_{i}p_{i} \ln \left(p_{i}\ket{i'}\bra{i'}\right) \right] \\ &=-k_B \sum_{i}p_{i} \ln p_{i}=S_{\mathrm{Gibbs}} \end{align*}

其中 pip_i 已不是密度算符中定义的 pip_i了,而是对角化密度矩阵后得到的对角元。在对角化后,冯诺依曼熵与吉布斯熵相等。

若一个量子系统中只存在 ψ\ket{\psi} 态,则密度算符 ρ^=ψψ\hat{\rho}=\ket{\psi}\bra{\psi},称之为纯态,其冯诺依曼熵为零。

信息论和统计力学

等概率原理

在一个微正则系综中取一个系统作为研究对象,剩下的所有系统看作是“热库”,由于样本系统远小于系综,因此热库仍可以看作是一个微正则系综。子系统和热库之间可以交换能量而不能交换粒子,因此系统的能量 EnE_n 和热库的能量是不确定的,但他们的总能量等于系综的能量 EtotE_{\mathrm{tot}},是一个常数。

但由于总系统能量的不确定性,即使系统处于能量 EnE_n 确定的状态,热库的能量仍旧存在涨落。

EtotEnjNεjEtotEn+δE_{\mathrm{tot}}-E_n \le \sum_j^N \varepsilon_j \le E_{\mathrm{tot}}-E_\mathrm{n}+\delta

能壳

能壳内的微观状态数就是能量范围内 [EtotEn,EtotEn+δ]\left[E_{\mathrm{tot}}-E_n,E_{\mathrm{tot}}-E_\mathrm{n}+\delta\right] 的微观状态数

系统处于能量为 EnE_n 状态下的概率为:

P(E,En)=ΩN(EEn,δ)ΩN+1(E,δ) P\left(E,E_n\right)=\frac{\Omega_N \left(E-E_n,\delta\right)}{\Omega_{N+1} \left(E,\delta\right)}

其中 ΩN(EEn,δ)\Omega_N \left(E-E_n,\delta\right) 表示子能壳的微观状态数,ΩN+1(E,δ)\Omega_{N+1} \left(E,\delta\right) 表示总能壳的微观状态数。NN 的巨大数值使得 ΩN+1ΩN\Omega_{N+1} \approx \Omega_{N},上式分子和分母都是无穷大的数,我们使用玻尔兹曼熵中的 ln\ln 函数来弱化这一影响,EnE_n 远小于 EE,有Talor展开

S(EEn)=S(E)dS(E)dEEnS\left(E-E_n\right)=S\left(E\right)-\frac{\mathrm{d}S\left(E\right)}{\mathrm{d}E}E_n

因此系统的概率分布可写为

P(E,En)=ΩN(EEn,δ)ΩN+1(E,δ)=ΩN+1(EEn,δ)ΩN+1(E,δ)=eβEnkB P\left(E,E_n\right)=\frac{\Omega_N \left(E-E_n,\delta\right)}{\Omega_{N+1} \left(E,\delta\right)}=\frac{\Omega_{N+1} \left(E-E_n,\delta\right)}{\Omega_{N+1} \left(E,\delta\right)}=e^{-\frac{\beta E_n}{k_B}}

其中 β=dS(E)dE=1T\beta=\frac{\mathrm{d}S\left(E\right)}{\mathrm{d}E}=\frac{1}{T},若通过配分函数完成归一化,我们就推导出微正则系综中的一个子系统满足正则系综分布。

最大熵原理

考虑粒子所处的 nn 个状态 x={x1,x2,,xn}x=\left\{x_1,x_2,\cdots,x_n\right\},其概率分布 {pi}\{p_i\} 是未知的,只已知 <f(x)>=ipif(xi)\left<f\left(x\right)\right>=\sum_i p_i f\left(x_i\right)ipi=1\sum_ip_i=1,如何求出另一个 <g(x)>\left<g\left(x\right)\right>? 两个方程确定 nn 个未知数,可能吗?最大熵原理告诉我们是可以的。

最大熵原理:当一个分布的熵最大时,这就是合理的分布。对 S=kBipilnpiS=-k_B\sum_i p_i\ln p_i 做拉格朗日乘子法

δ[λipiμipif(xi)kBipilnpi]=0\delta\left[-\lambda\sum_i p_i -\mu \sum_i p_i f\left(x_i\right) -k_B\sum_i p_i\ln p_i\right]=0

前两项为数,加入后不影响对 SS 求变分 δS=0\delta S=0,解得

pi=e(λμf(xi))/kB/Zp_i=e^{(-\lambda -\mu f\left(x_i\right))/k_B}/Z

再将该解代入 <f(x)>=ipif(xi)\left<f\left(x\right)\right>=\sum_i p_i f\left(x_i\right)ipi=1\sum_ip_i=1 便解得 λ\lambdaμ\mu

实际上,μ\mu 是一个涌现常数,可通过与热力学对比得知 μ=1/kBT\mu=1/k_BTλ\lambda 中含有配分函数的信息,<f(x)>\left<f\left(x\right)\right> 可以通过对配分函数求偏导得出。在统计物理中 f(xi)=ϵif\left(x_i\right)=\epsilon_i<f(x)>=U\left<f\left(x\right)\right>=U 是一个可以在实验中测定的量。

最大数原理

一个系统与宇宙中其他系统处于热平衡态,那么波函数可写为

Ψ=m,nCm,nmBn\ket{\Psi}=\sum_{m,n} C_{m,n} \ket{m}\otimes\ket{B_n}

对这个态求密度矩阵的迹

ρ^=TrB(ΨΨ)eβH^\hat{\rho}=\mathrm{Tr}_B\left(\ket{\Psi}\bra{\Psi}\right)\rightarrow e^{-\beta \hat{H}}

温度也就自然涌现出来了。通过对宇宙中的所有纯态求迹,密度算符就类似于正则分布形式。

麦克斯韦妖和信息擦除原理

我们知道超导计算不会产生焦耳热,那么这就不会消耗任何能量吗?不,还会存在一个最小能量。

麦克斯韦妖

如下图所示,一个能检测粒子运动状态的小妖控制着一个无损耗的开关,最终使得不同运动速度的粒子处于不同区域,最后就可形成温差用于对外做功,这与热力学第二定律相悖。

麦克斯韦妖

麦克斯韦的想法:热力学第二定律在小粒子数下失效,这与现代观念相符。

希拉德单粒子热机

希拉德单粒子热机

经过上图所示一个循环后,一个粒子的动能转化为对外功

W=V/2Vpdv=V/2VkBTvdv=kBT ln2W=\int ^V_{V/2} pdv= \int ^V_{V/2} \frac{k_BT}{v} dv=k_BT \ ln2

可以看到这正好对应于 50%50 \% 的信息熵,因为挡板移动的方向是由粒子的位置决定的,而这就是 50%50 \% 的不确定度。

信息擦除原理

Landauer 对麦克斯韦妖提出了解释:1 bit1\ \mathrm{bit} 的信息擦除必然伴随着环境熵的增加,耗散的能量为

Q=kBTln2Q = k_B T \ln 2

其中 kBk_B 为玻尔兹曼常数,TT 为环境温度。

信息擦除

如上图所示,一个循环后,小妖所获取的信息必须重置,而擦除 1 bit1\ \mathrm{bit} 信息的过程就需要消耗能量。