扩散模型进入语音领域的根本动因,是判别式方法在语音增强/分离任务中存在系统性的"过平滑"缺陷——回归均方误差目标天然倾向于预测条件均值,导致生成语音缺乏高频细节和自然感,而生成建模框架从概率分布角度重新定义了这一问题。
Sohl-Dickstein 等人在 NeurIPS 2015 发表《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》,首次将热力学中的扩散过程引入深度学习:定义一个逐步向数据添加噪声的前向马尔可夫链,再学习其逆过程。这篇论文在当时影响有限,但奠定了整个范式的数学基础——关键洞见是:只要每一步噪声足够小,逆过程也近似高斯,因此可以用神经网络参数化。
Ho 等人(Google Brain)在 NeurIPS 2020 发表 DDPM(Denoising Diffusion Probabilistic Models),通过重参数化技巧将训练目标简化为预测噪声 $\epsilon$,并证明这等价于加权的变分下界。DDPM 在图像生成上首次达到 GAN 级别质量,且训练稳定、无模式崩塌。这一工作让学界意识到扩散模型是 GAN 的严肃替代者。
Song Yang(Stanford/OpenAI)在 ICLR 2021 发表《Score-Based Generative Modeling through SDEs》,将 DDPM 和 NCSN 统一为随机微分方程(SDE)框架:前向过程是一个 SDE,逆过程由 Anderson 1982 年的逆时 SDE 定理给出,核心是学习 score function $\nabla_x \log p_t(x)$。这一统一视角极大拓展了设计空间,允许连续时间、任意噪声调度。
DiffWave(Kong 等,ICLR 2021)和 WaveGrad(Chen 等,ICLR 2021)将扩散模型用于波形生成;随后 SGMSE+(Richter 等,INTERSPEECH 2022)将 SDE 框架直接用于语音增强,将带噪语音作为条件,在复数谱域上运行扩散过程,首次在语音增强任务上超越判别式基线的自然度指标。
研究者发现纯生成方法推理慢、判别方法有失真,于是出现"判别式粗估计 + 生成式细化"的两阶段范式(如今日论文 ArrayDPS-Refine、Uni-ArrayDPS):先用快速判别网络得到初步增强结果,再用少步扩散模型修复其引入的非线性失真。这一范式在多通道语音增强和分离中成为主流。
前向过程定义为马尔可夫链,在连续时间 SDE 框架下写作: $$d\mathbf{x} = f(\mathbf{x}, t)\,dt + g(t)\,d\mathbf{w}$$ 其中 $f(\mathbf{x},t)$ 是漂移系数(控制均值收缩),$g(t)$ 是扩散系数(控制噪声注入强度),$\mathbf{w}$ 是标准维纳过程。对 VP-SDE(DDPM 对应),$f = -\frac{1}{2}\beta(t)\mathbf{x}$,$g = \sqrt{\beta(t)}$,使得边际分布 $p_t(\mathbf{x})$ 从数据分布平滑过渡到 $\mathcal{N}(0, \mathbf{I})$。 逆向过程由 Anderson(1982)定理给出: $$d\mathbf{x} = \left[f(\mathbf{x},t) - g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})\right]dt + g(t)\,d\bar{\mathbf{w}}$$ 核心是 score function $\nabla_{\mathbf{x}} \log p_t(\mathbf{x})$,它指向概率密度增大的方向。用神经网络 $s_\theta(\mathbf{x}_t, t)$ 近似之,训练目标(去噪 score matching)为: $$\mathcal{L} = \mathbb{E}_{t, \mathbf{x}_0, \boldsymbol{\epsilon}}\left[\lambda(t)\left\|s_\theta(\mathbf{x}_t, t) - \nabla_{\mathbf{x}_t}\log p_{0t}(\mathbf{x}_t|\mathbf{x}_0)\right\|^2\right]$$ 对高斯前向核,$\nabla_{\mathbf{x}_t}\log p_{0t}(\mathbf{x}_t|\mathbf{x}_0) = -\boldsymbol{\epsilon}/\sigma(t)$,因此等价于预测噪声 $\boldsymbol{\epsilon}$。$\lambda(t)$ 是时间相关权重,用于平衡不同噪声水平的贡献。在语音增强中,条件版本将带噪语音 $\mathbf{y}$ 拼接到网络输入,score 网络学习 $\nabla_{\mathbf{x}_t}\log p_t(\mathbf{x}_t|\mathbf{y})$,从而在采样时向干净语音方向引导。
扩散模型语音增强的整体逻辑是:将带噪语音作为条件,在复数谱或波形空间中运行条件逆扩散过程,从噪声出发逐步采样出干净语音。
给定干净语音 $\mathbf{x}_0$,按时间步 $t \sim \mathcal{U}(0,T)$ 采样,利用前向核的解析解直接得到 $\mathbf{x}_t = \alpha(t)\mathbf{x}_0 + \sigma(t)\boldsymbol{\epsilon}$,$\boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I})$。这一步无需逐步迭代,可并行采样任意时刻的噪声版本。设计动因:闭合形式的前向核使训练极为高效,这是扩散模型相比 VAE 流程更稳定的关键原因之一。
网络 $\epsilon_\theta(\mathbf{x}_t, \mathbf{y}, t)$ 以噪声语音 $\mathbf{x}_t$、带噪条件 $\mathbf{y}$、时间步嵌入 $t$ 为输入,预测加入的噪声 $\boldsymbol{\epsilon}$。在语音领域常用 U-Net 结构(含时间步 FiLM 调制)或基于 Conformer 的架构。时间步 $t$ 通常编码为正弦嵌入后经 MLP 映射,注入每个残差块。关键细节:复数谱域操作时,实部虚部分别作为两个通道,保留相位信息是语音质量的关键。
从 $\mathbf{x}_T \sim \mathcal{N}(0,\mathbf{I})$ 出发,按 DDPM 离散步或 DDIM/DPM-Solver 加速步迭代:
x_T ~ N(0, I) for t in reversed(timesteps): eps = model(x_t, y, t) # 预测噪声 x_0_pred = (x_t - sigma(t)*eps) / alpha(t) # 预测干净语音 x_{t-1} = alpha(t-1)*x_0_pred + sigma(t-1)*eps + noise_term return x_0DDIM 通过确定性采样将步数从 1000 压缩到 20-50 步,DPM-Solver++ 可进一步压缩到 5-10 步,这对实时语音增强至关重要。
纯扩散推理仍需多步,而判别式模型(如 BSRNN、TF-GridNet)单次前向即可得到粗增强结果但有过平滑。两阶段范式:①判别网络快速得到 $\hat{\mathbf{x}}_0$;②将 $\hat{\mathbf{x}}_0$ 加少量噪声得到 $\hat{\mathbf{x}}_{t^*}$($t^*$ 较小),再用少步扩散从 $\hat{\mathbf{x}}_{t^*}$ 细化。这样既保留判别模型的语义准确性,又用生成模型修复高频细节和非线性失真。ArrayDPS-Refine 和 Uni-ArrayDPS 均采用此思路。
多通道语音增强中,空间信息(各麦克风间的相位差 IPD)是关键线索。扩散网络可将所有通道的复数谱拼接为多通道输入,或将空间协方差矩阵作为额外条件。今日论文 [23] 进一步将扩散模型用于房间脉冲响应(RIR)插值,在已知部分麦克风位置的 RIR 条件下生成未知位置的 RIR,为阵列处理提供更完整的空间信息。
扩散模型已成为语音增强、语音合成、音乐生成领域的核心范式。工业落地方面:Adobe Podcast 的 Enhance Speech、NVIDIA RTX Voice 的新一代后端、以及多家助听器厂商(如 Cochlear)的研究原型均探索了生成式增强路线。其根本价值在于将语音增强从"回归问题"重新定义为"条件采样问题",从根本上解决了过平滑导致的感知质量天花板,且框架本身对多通道、多条件扩展极为友好。
当前核心挑战:①实时性——5步以下采样在语音增强上质量仍有损失,一致性模型(Consistency Models)和流匹配是潜在解法;②因果性——标准扩散模型非因果,流式场景需要特殊设计;③评估指标——PESQ/STOI 与人类感知相关性有限,扩散模型在客观指标上有时不如判别式但主观更好,评估体系亟待更新;④与 codec/token 结合的离散扩散是新兴方向。