扩散模型在语音增强中的核心矛盾是:迭代采样质量高但推理慢,单步方法快但质量差——平衡传输(Schrödinger Bridge)的出现,正是为了从数学上彻底解决"两个任意分布之间最优随机传输"这一根本问题。
奥地利物理学家Erwin Schrödinger在研究布朗粒子时提出了一个思想实验:若已知粒子在时刻0和时刻T的边际分布,如何找到最"经济"的随机过程连接它们?这个问题在物理上是熵最小化问题,在数学上等价于在所有满足边界条件的随机过程中寻找与参考布朗运动KL散度最小的那个。这一问题沉寂了数十年,因为缺乏计算工具。
Cédric Villani、Yann Brenier等人系统发展了最优传输(Optimal Transport)理论。Brenier定理证明了从分布$p_0$到$p_1$的确定性最优传输映射存在且唯一(在连续分布下)。Schrödinger Bridge可视为最优传输的随机化推广:当扩散系数趋于零时,SB退化为确定性OT。这一联系为后续计算方法铺路。
DDPM(Ho et al., NeurIPS 2020)将扩散过程定义为从数据分布$p_{data}$到标准高斯$\mathcal{N}(0,I)$的固定前向过程,逆向过程通过神经网络学习去噪。在语音增强中,SGMSE(Richter et al., INTERSPEECH 2022)将带噪语音作为扩散起点,干净语音作为终点,但仍需30步以上迭代。问题根源在于:标准扩散的前向过程是固定的(加噪到高斯),而非针对两个任意数据分布定制的。
De Bortoli et al.(NeurIPS 2021)提出DSBM(Diffusion Schrödinger Bridge Matching),将SB问题转化为可训练的神经网络问题。Shi et al.(ICLR 2024)提出Iterative Proportional Fitting的神经网络版本。核心洞见:SB不要求前向过程必须走向高斯噪声,而是直接在$p_{noisy}$和$p_{clean}$之间建立最优随机桥,大幅减少所需步数。
DriftSE(即本文[21])将SB框架应用于语音增强,将去噪问题表述为"平衡问题"(Balanced Problem):前向过程从干净语音漂移到带噪语音,逆向过程通过学习演化映射函数(evolution map)的前推分布(pushforward distribution)直接匹配干净语音分布,实现真正的单步推理,无需迭代采样。
Schrödinger Bridge问题的数学核心是约束熵正则化最优传输。 设参考过程为标准维纳过程(布朗运动)$\mathbb{W}$,目标是在所有满足边界条件 $p_0 = p_{noisy}$,$p_T = p_{clean}$ 的随机过程 $\mathbb{P}$ 中,找到与参考过程KL散度最小的那个: $$\mathbb{P}^* = \arg\min_{\mathbb{P}: p_0=p_{noisy}, p_T=p_{clean}} \mathrm{KL}(\mathbb{P} \| \mathbb{W})$$ 其解满足如下随机微分方程(SDE): $$dx_t = \left[f(x_t, t) + g^2(t)\nabla_{x_t}\log\psi(x_t, t)\right]dt + g(t)dW_t$$ 其中 $f(x_t,t)$ 是漂移项,$g(t)$ 是扩散系数,$\psi(x_t,t)$ 是Schrödinger势函数,满足前向-后向PDE系统(Kolmogorov方程对): $$\partial_t \varphi = -\frac{g^2}{2}\Delta\varphi - f\cdot\nabla\varphi, \quad \partial_t \hat\varphi = \frac{g^2}{2}\Delta\hat\varphi - \nabla\cdot(f\hat\varphi)$$ 边界条件为 $\varphi(x,0)\hat\varphi(x,0)=p_{noisy}(x)$,$\varphi(x,T)\hat\varphi(x,T)=p_{clean}(x)$。 DriftSE的关键简化:将演化映射 $\Phi_t: x_0 \mapsto x_t$ 参数化为神经网络,直接学习前推分布 $(\Phi_t)_\# p_{noisy} \to p_{clean}$,损失函数为: $$\mathcal{L} = \mathbb{E}_{t, x_0\sim p_{noisy}}\left[\|\Phi_\theta(x_0, t) - x_{clean}\|^2\right]$$ 这样绕开了迭代求解PDE系统的计算瓶颈,$t=T$ 时一步输出即为增强语音。
DriftSE的整体逻辑是:用神经网络参数化Schrödinger Bridge的演化映射,将带噪语音分布"一步传输"到干净语音分布,彻底消除迭代采样开销。
将语音增强定义为两个分布之间的平衡传输:$p_0 = p(x_{noisy})$(带噪语音分布)和 $p_T = p(x_{clean})$(干净语音分布)。与标准扩散不同,这里不引入任何人工高斯噪声中间站,两个端点都是真实数据分布。这一设计的深意在于:标准扩散必须先"破坏"数据再"重建",而SB直接在两个有意义的分布间架桥,信息损耗更小。实现上,训练数据对 $(x_{noisy}, x_{clean})$ 天然构成联合分布,无需额外设计前向过程。
定义演化映射 $\Phi_\theta(x_0, t): \mathbb{R}^d \times [0,T] \to \mathbb{R}^d$,以带噪语音 $x_0$ 和时间 $t$ 为输入,输出时刻 $t$ 的中间状态。网络架构通常采用U-Net或Conformer骨干,时间条件通过正弦嵌入注入。关键设计:$\Phi_\theta$ 在 $t=0$ 时恒等映射(输出 $x_0$),在 $t=T$ 时输出干净语音估计。这一边界约束通过参数化 $\Phi_\theta(x_0,t) = x_0 + t\cdot\Delta_\theta(x_0,t)$ 自然满足,$\Delta_\theta$ 是网络预测的"位移场"。
训练目标是使 $(\Phi_T)_\# p_{noisy} = p_{clean}$,即演化映射在终点的前推分布等于干净语音分布。实践中用回归损失近似:对每个训练对 $(x_0, x_{clean})$,最小化 $\|\Phi_\theta(x_0, T) - x_{clean}\|_2^2$。为增强中间轨迹的平滑性,还引入中间时刻的插值监督:$\Phi_\theta(x_0, t)$ 应接近 $(1-t/T)x_0 + (t/T)x_{clean}$,这等价于对SB轨迹的线性插值先验施加软约束,防止网络学到"捷径"但不连续的映射。
推理时,给定带噪语音 $x_0$,直接计算 $\hat{x}_{clean} = \Phi_\theta(x_0, T)$,无需任何迭代。与SGMSE等需要30步的方法相比,推理延迟降低约30倍。可选地,对输出在频域施加相位一致性约束(将预测幅度谱与输入相位组合),进一步减少相位伪影。实时系统中,可将 $T$ 设为帧级别,实现流式单步增强。
python # 推理伪代码 def enhance(x_noisy, model, T=1.0): # 单步前向,无循环 x_clean_hat = model(x_noisy, t=T) return x_clean_hatSchrödinger Bridge为语音增强提供了理论最优的随机传输框架,已在INTERSPEECH、ICASSP等顶会持续出现。工业落地上,单步推理使实时语音增强(RTC、助听器、会议系统)的延迟从数百毫秒降至个位数毫秒。Meta的SeamlessStreaming、微软Teams的噪声抑制模块均在探索类似的单步生成范式。SB框架的普适性使其同样适用于图像修复、医学影像去噪,长期价值远超语音领域。
当前开放问题包括:①如何在非配对数据(无平行语料)下训练SB模型;②SB与Flow Matching的统一理论框架尚不完整(两者在 $\sigma\to0$ 极限下等价,但有限扩散系数下的差异未被充分利用);③多说话人、多噪声类型的条件SB建模;④SB在极低信噪比(<-5dB)场景下的鲁棒性仍弱于迭代方法。