信息论和热力学

玻尔兹曼熵

在热力学中，玻尔兹曼熵为：

$S_{\mathrm{Boltzman}}=k_B \ln W$

其中 $W$ 为满足宏观条件的微观状态数。

宏观态可用系统的宏观量来描述：

$\left(U,T,V,P ,\cdots\right)$

而微观状态用每个粒子的状态描述，

$\left(x_i,y_i,z_i,p_{xi},p_{yi},p_{zi}\right)$

设粒子数为 $N$ ，则共有 $6^N$ 个分量，这些分量构成一个空间，称为刘维尔空间或者相空间。

根据等概率原理，一个系统的信息熵可计算为：

$H=-\sum \frac{1}{W}\ln \frac{1}{W}=\ln W$

$\Rightarrow S_{\mathrm{Shannon}} \propto S_{\mathrm{Boltzman}}$

系综

系综：在想象中构造大量粒子数、体积及势能等结构相同的系统，这些系统彼此独立，分别处于各种可能的微观态。每个系统都代表某一时刻下的真实系统，从而提供了一种在同一时刻观察系统所有可能状态的方法。并通过观察所有系统的概率分布，得到宏观上的统计结果。系综理论是研究系统平衡态及其准静态过程的一般理论。

系综里的系统都是平衡态

系综	系统	宏观不变量	概率分布函数
微正则系综	孤立系统：没有能量和粒子交换	$N,V,E$	$P = \frac{1}{W}$
正则系综	闭系：与一个大热源热平衡，温度恒定，无粒子交换	$N,V,T$	$P_i=\frac{1}{Z}e^{-E_i/k_BT}$
巨正则系综	开系：温度和化学势恒定，有能量和粒子交换	$V,T,\mu$	$P_i=\Xi e^{-\left(E_i-N_i\mu\right)/k_BT}$

吉布斯熵

吉布斯熵的定义为：

$S_{\mathrm{Gibbs}}=-k_B \sum_i p_i \ln p_i$

其中 $p_i$ 为第 $i$ 个宏观态的概率。吉布斯熵和香农熵在形式上非常相似，只相差一个 $k_B$ ，微正则系综的玻尔兹曼熵与吉布斯熵相等

系统相当于整个空间的的统计，系综又在这个基础上对整个时间做了一次统计

熵归属于系统，但通过系综计算

开放热平衡系综由正则系综描述：
$p_i=\frac{1}{Z}e^{-\beta \varepsilon_i }$ ，其中 $Z$ 为配分函数， $\varepsilon_i$ 为第 $i$ 个状态的能量， $\beta=\frac{1}{k_BT}$ ，吉布斯熵为

$\begin{align*} S_{\mathrm{Gibbs}}&=-k_B\sum_i\frac{e^{-\beta \varepsilon_i}}{Z}\ln\frac{e^{-\beta \varepsilon_i}}{Z}\\ &=\frac{1}{T}\left(U-F\right) \end{align*}$

这与热力学中自由能 $F$ 的定义相吻合。

热力学熵

热力学熵：一个可逆过程吸收的热量为 đ $Q_\mathrm{rev}$ ，则热力学熵定义为

$\mathrm{d}S = \frac{đ Q_\mathrm{rev}}{T}$

对于不可逆过程，熵变可写为：

$\mathrm{d}S \ge \frac{đ\mathrm{Q}}{T}$

其中 $đQ_{\mathrm{rev}}$ 表示 $Q$ 的增量而不是微分，因为若 $Q$ 是可微的，则必然有 $A\left(x,y\right)$ 和 $B\left(x,y\right)$ 满足

$\mathrm{dQ}=A\left(x,y\right) \mathrm{d}x+B\left(x,y\right)\mathrm{d}y$

而对于 $A\left(x,y\right)$ 和 $B\left(x,y\right)$ ，不一定满足混合偏导数想等定理，即不一定有

$\frac{\partial A}{\partial y}=\frac{\partial B}{\partial x}$

但可以证明， $đQ$ 除以 $T$ 得到的 $\mathrm{d}S$ 是可微的，这就是增量 $đ$ 和全微分 $\mathrm{d}$ 的区别。事实上，热量是一个过程量，不同的积分路径得到的热量不同；而熵是一个状态量只与初末两点的状态有关，而与积分路径无关，这也是增量 $đQ$ 和全微分 $\mathrm{d}S$ 的区别，热力学熵也是唯一一个由过程量定义的状态量。

考虑一个孤立系统，其从外界吸收的热量 $\mathrm{Q}=0$ ，因此对于任意的初末状态

$S_2-S_1= \int _1^2 \mathrm{d} S\ge \frac{1}{T}\int ^2_1 đ\mathrm{Q} =0$

这对应于热力学第二定律：孤立系统的熵永不减少： $\Delta S \ge 0$

再根据热力学第一定律有：

$\begin{align*} \mathrm{d}U &= \mathrm{đ}Q+ \mathrm{đ}W \end{align*}$

选择一条可逆路径：

$\begin{align*} \mathrm{d}U &= đ Q_{\mathrm{rev}}+ đ W_{\mathrm{rev}} \\ &= TđS-pdV \end{align*}$

这个式子虽然考虑的是可逆情况，但对于不可逆情况也同样适用，只是 $TđS$ 不再单纯是吸收热，而 $-pdV$ 也不再只是做功，这两项都包含热和功

吉布斯熵和功

正则系综中可逆过程的吉布斯熵为：

$\begin{align*} dS_{\mathrm{Gibbs}}&=-k_B\mathrm{d}\left(\sum_i p_i\ln p_i\right) \\ &=\frac{1}{T}\left[d\left(\sum_i \varepsilon_i p_i\right)-\sum_i p_i d \epsilon_i \right] \\ &=\frac{1}{T}\left(\mathrm{d}U+\sum_i -p_i \mathrm{d}\varepsilon_i\right) \\ \Rightarrow\qquad \mathrm{d}U&=Td_{\mathrm{Gibbs}}+\sum_i p_i \mathrm{d}\varepsilon_i \end{align*}$

熵变的第一项为内能，表示每个状态能量的加权求和；第二项为微观功（准静态），表示每个系统能级跃迁所需的能量。

可逆过程一定是平衡态，但平衡态不一定是可逆过程

从吉布斯熵中也能推导和热力学熵相同的结果，上文中也提到了玻尔兹曼熵是吉布斯熵在等概率条件下的特例。所以吉布斯熵是从统计力学得到的最根本的熵，而当粒子数趋向于无穷大并且粒子数除以容量等于一个定值，微正则、正则和巨正则系综是彼此等价的。因此热力学熵是吉布斯熵和玻尔兹曼熵的宏观体现。

对内能做全微分，并根据热力学第一定律得到

$\mathrm{d}U=d\left(\sum_i \varepsilon_i p_i\right)=\sum_i \varepsilon_i \mathrm{d}p_i + \sum_i p_i\mathrm{d}\varepsilon_i$

$\begin{align*} đQ&=\sum_i \varepsilon_i \mathrm{d}p_i \\ đW&=\sum_i p_i\mathrm{d}\varepsilon_i \end{align*}$

微观功表示系统在每个能级上的分布不变，而能级有微扰；吸热表示系统的能级不变，而分布发生变化。

冯诺依曼熵

密度算符

在经典系统中已知分布函数就可得到整个体系的信息，而在量子系统中则需要更多的信息，量子系统的量子性依靠密度矩阵 $\rho$ 刻画。对于单体系统，若已知波函数就可得到所有信息，但对于许多个处于不同量子状态的体系，求解波函数是不现实的，解决办法和热力学一样，可以研究量子系统的统计学性质。

密度算符 $\hat{\rho}$ 结合了全部系统的经典布居概率和单个量子态的波函数概率。若整个体系中一个子系统处于 $\ket{\psi_i}$ 态的概率为 $p_i$ ，那么密度算符就是

$\hat{\rho}=\sum_i p_i\ket{\psi_i}\bra{\psi_i}$

其中 $\sum_i p_i=1$ 。波函数按照概率幅叠加，而密度矩阵按照经典概率叠加。

$\hat{\rho}$ 是厄米算符
$\mathrm{Tr}(\rho)=1$
$\mathrm{Tr}(\rho^2) \le 1$

若用一组正交完备的基将所有量子态展开，则密度算符为

$\hat{\rho}=\sum_i p_i\ket{\psi_i}\bra{\psi_i}=\sum_{ijk} p_iC_{ij}C_{ik}^*\ket{j}\bra{k}=\sum_{ij}\rho_{ij}\ket{i}\bra{j}$

冯诺依曼熵

现在我们来讨论量子体系的熵，能直接使用 $\sum_i-p_i \log p_i$ 计算吗？现在不行了，因为每一个量子态都不一定是正交的，即会出现 $\bra{\psi_j}\ket{\psi_i}\ne0$ ，无法找到一个力学量 $\hat{F}$ 能够完美区分 $\ket{\psi_i}$ 和 $\ket{\psi_j}$ ，此时概率 $p_i$ 就失去了意义。

对一个已知密度算符 $\hat{\rho}$ 的量子系统，其信息熵使用冯诺依曼熵描述

$S_{\mathrm{VonNeumann}}=-k_B\mathrm{Tr}\left[\hat{\rho}\ln \hat{\rho} \right]$

算符值函数通过泰勒展开计算 $f\left(\hat{\rho}\right)=f(0)\mathrm{I}+f'(0)\hat{\rho}+\frac{1}{2}f''(0)\hat{\rho}^2+\cdots =\sum_n C_n \hat{\rho}^n$

由于 $\hat{\rho}$ 是厄米算符，总存在一个幺正矩阵 $U$ 能够对角化密度矩阵 $U \rho U^\dagger=\sum_{i}p_{i}\ket{i'}\bra{i'}$

$\begin{align*} S_{\mathrm{VonNeumann}}&=-k_B\mathrm{Tr}\left[U^\dagger U \hat{\rho}U^\dagger U \ln \hat{\rho} \right] \\ &=-k_B\mathrm{Tr}\left[ U \hat{\rho}U^\dagger U \ln \hat{\rho} U^\dagger \right] \\ &=-k_B\mathrm{Tr}\left[ (U \hat{\rho}U^\dagger) \ln (\hat U{\rho} U^\dagger) \right] \\ &=-k_B\mathrm{Tr}\left[ \sum_{i}p_{i}\ket{i'}\bra{i'} \ln \left(\sum_{j}p_{j}\ket{j'}\bra{j'}\right) \right] \\ &=-k_B\mathrm{Tr}\left[ \sum_{ij}p_{i}\ket{i'}\bra{i'} \ln \left(p_{j}\ket{j'}\bra{j'}\right) \right] \\ &=-k_B\mathrm{Tr}\left[ \sum_{i}p_{i} \ln \left(p_{i}\ket{i'}\bra{i'}\right) \right] \\ &=-k_B \sum_{i}p_{i} \ln p_{i}=S_{\mathrm{Gibbs}} \end{align*}$

其中 $p_i$ 已不是密度算符中定义的 $p_i$ 了，而是对角化密度矩阵后得到的对角元。在对角化后，冯诺依曼熵与吉布斯熵相等。

若一个量子系统中只存在 $\ket{\psi}$ 态，则密度算符 $\hat{\rho}=\ket{\psi}\bra{\psi}$ ，称之为纯态，其冯诺依曼熵为零。

信息论和统计力学

等概率原理

在一个微正则系综中取一个系统作为研究对象，剩下的所有系统看作是“热库”，由于样本系统远小于系综，因此热库仍可以看作是一个微正则系综。子系统和热库之间可以交换能量而不能交换粒子，因此系统的能量 $E_n$ 和热库的能量是不确定的，但他们的总能量等于系综的能量 $E_{\mathrm{tot}}$ ，是一个常数。

但由于总系统能量的不确定性，即使系统处于能量 $E_n$ 确定的状态，热库的能量仍旧存在涨落。

$E_{\mathrm{tot}}-E_n \le \sum_j^N \varepsilon_j \le E_{\mathrm{tot}}-E_\mathrm{n}+\delta$

能壳内的微观状态数就是能量范围内 $\left[E_{\mathrm{tot}}-E_n,E_{\mathrm{tot}}-E_\mathrm{n}+\delta\right]$ 的微观状态数

系统处于能量为 $E_n$ 状态下的概率为：

$P\left(E,E_n\right)=\frac{\Omega_N \left(E-E_n,\delta\right)}{\Omega_{N+1} \left(E,\delta\right)}$

其中 $\Omega_N \left(E-E_n,\delta\right)$ 表示子能壳的微观状态数， $\Omega_{N+1} \left(E,\delta\right)$ 表示总能壳的微观状态数。 $N$ 的巨大数值使得 $\Omega_{N+1} \approx \Omega_{N}$ ，上式分子和分母都是无穷大的数，我们使用玻尔兹曼熵中的 $\ln$ 函数来弱化这一影响， $E_n$ 远小于 $E$ ，有Talor展开

$S\left(E-E_n\right)=S\left(E\right)-\frac{\mathrm{d}S\left(E\right)}{\mathrm{d}E}E_n$

因此系统的概率分布可写为

$P\left(E,E_n\right)=\frac{\Omega_N \left(E-E_n,\delta\right)}{\Omega_{N+1} \left(E,\delta\right)}=\frac{\Omega_{N+1} \left(E-E_n,\delta\right)}{\Omega_{N+1} \left(E,\delta\right)}=e^{-\frac{\beta E_n}{k_B}}$

其中 $\beta=\frac{\mathrm{d}S\left(E\right)}{\mathrm{d}E}=\frac{1}{T}$ ，若通过配分函数完成归一化，我们就推导出微正则系综中的一个子系统满足正则系综分布。

最大熵原理

考虑粒子所处的 $n$ 个状态 $x=\left\{x_1,x_2,\cdots,x_n\right\}$ ，其概率分布 $\{p_i\}$ 是未知的，只已知 $\left<f\left(x\right)\right>=\sum_i p_i f\left(x_i\right)$ ， $\sum_ip_i=1$ ，如何求出另一个 $\left<g\left(x\right)\right>$ ? 两个方程确定 $n$ 个未知数，可能吗？最大熵原理告诉我们是可以的。

最大熵原理：当一个分布的熵最大时，这就是合理的分布。对 $S=-k_B\sum_i p_i\ln p_i$ 做拉格朗日乘子法

$\delta\left[-\lambda\sum_i p_i -\mu \sum_i p_i f\left(x_i\right) -k_B\sum_i p_i\ln p_i\right]=0$

前两项为数，加入后不影响对 $S$ 求变分 $\delta S=0$ ，解得

$p_i=e^{(-\lambda -\mu f\left(x_i\right))/k_B}/Z$

再将该解代入 $\left<f\left(x\right)\right>=\sum_i p_i f\left(x_i\right)$ 和 $\sum_ip_i=1$ 便解得 $\lambda$ 和 $\mu$ 。

实际上， $\mu$ 是一个涌现常数，可通过与热力学对比得知 $\mu=1/k_BT$ ， $\lambda$ 中含有配分函数的信息， $\left<f\left(x\right)\right>$ 可以通过对配分函数求偏导得出。在统计物理中 $f\left(x_i\right)=\epsilon_i$ ， $\left<f\left(x\right)\right>=U$ 是一个可以在实验中测定的量。