知识讲堂 · Jae Daily

算法理论第一讲

扩散模型声学生成

就像一位修复师拿到一张被咖啡污渍覆盖的古画，不是直接"擦掉污渍"（判别式），而是凭借对这位画家风格的深刻理解，一笔一笔重新推断出原作应有的每一处细节（生成式采样）。

历史演进

扩散模型进入语音领域的根本动因，是判别式方法在语音增强/分离任务中存在系统性的"过平滑"缺陷——回归均方误差目标天然倾向于预测条件均值，导致生成语音缺乏高频细节和自然感，而生成建模框架从概率分布角度重新定义了这一问题。

2015

深度生成模型的扩散先驱

Sohl-Dickstein 等人在 NeurIPS 2015 发表《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》，首次将热力学中的扩散过程引入深度学习：定义一个逐步向数据添加噪声的前向马尔可夫链，再学习其逆过程。这篇论文在当时影响有限，但奠定了整个范式的数学基础——关键洞见是：只要每一步噪声足够小，逆过程也近似高斯，因此可以用神经网络参数化。

2020

DDPM 使扩散模型实用化

Ho 等人（Google Brain）在 NeurIPS 2020 发表 DDPM（Denoising Diffusion Probabilistic Models），通过重参数化技巧将训练目标简化为预测噪声 $\epsilon$，并证明这等价于加权的变分下界。DDPM 在图像生成上首次达到 GAN 级别质量，且训练稳定、无模式崩塌。这一工作让学界意识到扩散模型是 GAN 的严肃替代者。

2021

SDE 统一框架与 Score Matching

Song Yang（Stanford/OpenAI）在 ICLR 2021 发表《Score-Based Generative Modeling through SDEs》，将 DDPM 和 NCSN 统一为随机微分方程（SDE）框架：前向过程是一个 SDE，逆过程由 Anderson 1982 年的逆时 SDE 定理给出，核心是学习 score function $\nabla_x \log p_t(x)$。这一统一视角极大拓展了设计空间，允许连续时间、任意噪声调度。

2021-2022

扩散模型进入语音领域

DiffWave（Kong 等，ICLR 2021）和 WaveGrad（Chen 等，ICLR 2021）将扩散模型用于波形生成；随后 SGMSE+（Richter 等，INTERSPEECH 2022）将 SDE 框架直接用于语音增强，将带噪语音作为条件，在复数谱域上运行扩散过程，首次在语音增强任务上超越判别式基线的自然度指标。

2023-2025

判别+生成混合范式兴起

研究者发现纯生成方法推理慢、判别方法有失真，于是出现"判别式粗估计 + 生成式细化"的两阶段范式（如今日论文 ArrayDPS-Refine、Uni-ArrayDPS）：先用快速判别网络得到初步增强结果，再用少步扩散模型修复其引入的非线性失真。这一范式在多通道语音增强和分离中成为主流。

核心思想

扩散模型本质上是学习一个"去噪"函数：将数据逐步破坏为纯噪声（前向），再训练神经网络逐步逆转这一过程（反向），通过预测每一步的噪声或 score 函数，从随机噪声中采样出高质量数据。

数学结构

前向过程定义为马尔可夫链，在连续时间 SDE 框架下写作： $$d\mathbf{x} = f(\mathbf{x}, t)\,dt + g(t)\,d\mathbf{w}$$ 其中 $f(\mathbf{x},t)$ 是漂移系数（控制均值收缩），$g(t)$ 是扩散系数（控制噪声注入强度），$\mathbf{w}$ 是标准维纳过程。对 VP-SDE（DDPM 对应），$f = -\frac{1}{2}\beta(t)\mathbf{x}$，$g = \sqrt{\beta(t)}$，使得边际分布 $p_t(\mathbf{x})$ 从数据分布平滑过渡到 $\mathcal{N}(0, \mathbf{I})$。逆向过程由 Anderson（1982）定理给出： $$d\mathbf{x} = \left[f(\mathbf{x},t) - g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})\right]dt + g(t)\,d\bar{\mathbf{w}}$$ 核心是 score function $\nabla_{\mathbf{x}} \log p_t(\mathbf{x})$，它指向概率密度增大的方向。用神经网络 $s_\theta(\mathbf{x}_t, t)$ 近似之，训练目标（去噪 score matching）为： $$\mathcal{L} = \mathbb{E}_{t, \mathbf{x}_0, \boldsymbol{\epsilon}}\left[\lambda(t)\left\|s_\theta(\mathbf{x}_t, t) - \nabla_{\mathbf{x}_t}\log p_{0t}(\mathbf{x}_t|\mathbf{x}_0)\right\|^2\right]$$ 对高斯前向核，$\nabla_{\mathbf{x}_t}\log p_{0t}(\mathbf{x}_t|\mathbf{x}_0) = -\boldsymbol{\epsilon}/\sigma(t)$，因此等价于预测噪声 $\boldsymbol{\epsilon}$。$\lambda(t)$ 是时间相关权重，用于平衡不同噪声水平的贡献。在语音增强中，条件版本将带噪语音 $\mathbf{y}$ 拼接到网络输入，score 网络学习 $\nabla_{\mathbf{x}_t}\log p_t(\mathbf{x}_t|\mathbf{y})$，从而在采样时向干净语音方向引导。

工作机制

扩散模型语音增强的整体逻辑是：将带噪语音作为条件，在复数谱或波形空间中运行条件逆扩散过程，从噪声出发逐步采样出干净语音。

Step 1前向加噪（训练时构造监督信号）

给定干净语音 $\mathbf{x}_0$，按时间步 $t \sim \mathcal{U}(0,T)$ 采样，利用前向核的解析解直接得到 $\mathbf{x}_t = \alpha(t)\mathbf{x}_0 + \sigma(t)\boldsymbol{\epsilon}$，$\boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I})$。这一步无需逐步迭代，可并行采样任意时刻的噪声版本。设计动因：闭合形式的前向核使训练极为高效，这是扩散模型相比 VAE 流程更稳定的关键原因之一。

Step 2Score 网络参数化（噪声预测网络）

网络 $\epsilon_\theta(\mathbf{x}_t, \mathbf{y}, t)$ 以噪声语音 $\mathbf{x}_t$、带噪条件 $\mathbf{y}$、时间步嵌入 $t$ 为输入，预测加入的噪声 $\boldsymbol{\epsilon}$。在语音领域常用 U-Net 结构（含时间步 FiLM 调制）或基于 Conformer 的架构。时间步 $t$ 通常编码为正弦嵌入后经 MLP 映射，注入每个残差块。关键细节：复数谱域操作时，实部虚部分别作为两个通道，保留相位信息是语音质量的关键。

Step 3条件采样（推理时逆扩散）

从 $\mathbf{x}_T \sim \mathcal{N}(0,\mathbf{I})$ 出发，按 DDPM 离散步或 DDIM/DPM-Solver 加速步迭代：

x_T ~ N(0, I) for t in reversed(timesteps):     eps = model(x_t, y, t)          # 预测噪声     x_0_pred = (x_t - sigma(t)*eps) / alpha(t)   # 预测干净语音     x_{t-1} = alpha(t-1)*x_0_pred + sigma(t-1)*eps + noise_term return x_0

DDIM 通过确定性采样将步数从 1000 压缩到 20-50 步，DPM-Solver++ 可进一步压缩到 5-10 步，这对实时语音增强至关重要。

Step 4判别+生成两阶段细化（工程范式）

纯扩散推理仍需多步，而判别式模型（如 BSRNN、TF-GridNet）单次前向即可得到粗增强结果但有过平滑。两阶段范式：①判别网络快速得到 $\hat{\mathbf{x}}_0$；②将 $\hat{\mathbf{x}}_0$ 加少量噪声得到 $\hat{\mathbf{x}}_{t^*}$（$t^*$ 较小），再用少步扩散从 $\hat{\mathbf{x}}_{t^*}$ 细化。这样既保留判别模型的语义准确性，又用生成模型修复高频细节和非线性失真。ArrayDPS-Refine 和 Uni-ArrayDPS 均采用此思路。

Step 5多通道扩展（麦克风阵列）

多通道语音增强中，空间信息（各麦克风间的相位差 IPD）是关键线索。扩散网络可将所有通道的复数谱拼接为多通道输入，或将空间协方差矩阵作为额外条件。今日论文 [23] 进一步将扩散模型用于房间脉冲响应（RIR）插值，在已知部分麦克风位置的 RIR 条件下生成未知位置的 RIR，为阵列处理提供更完整的空间信息。

长远价值

扩散模型已成为语音增强、语音合成、音乐生成领域的核心范式。工业落地方面：Adobe Podcast 的 Enhance Speech、NVIDIA RTX Voice 的新一代后端、以及多家助听器厂商（如 Cochlear）的研究原型均探索了生成式增强路线。其根本价值在于将语音增强从"回归问题"重新定义为"条件采样问题"，从根本上解决了过平滑导致的感知质量天花板，且框架本身对多通道、多条件扩展极为友好。

前沿动向

当前核心挑战：①实时性——5步以下采样在语音增强上质量仍有损失，一致性模型（Consistency Models）和流匹配是潜在解法；②因果性——标准扩散模型非因果，流式场景需要特殊设计；③评估指标——PESQ/STOI 与人类感知相关性有限，扩散模型在客观指标上有时不如判别式但主观更好，评估体系亟待更新；④与 codec/token 结合的离散扩散是新兴方向。

工程·思维第二讲

TTS开源生态竞争

▶ YouTube ▶ B站 ↗ 原始论文

就像智能手机芯片行业——高通/苹果定义旗舰性能，但联发科的开放方案让中小厂商也能造出"够用且可定制"的产品，最终改变了整个市场的权力结构。

历史演进

语音合成开源生态的竞争格局，根本上是由"商业 API 垄断感知质量"与"工程师对可控、可部署、可审计模型的刚性需求"之间的张力驱动的。

2017-2019

神经 TTS 的商业化垄断期

WaveNet（DeepMind，2016）和 Tacotron（Google，2017）确立了神经 TTS 的技术路线，但这些模型推理极慢（WaveNet 原版实时率远低于1x）且未开源权重。商业公司如 Google Cloud TTS、Amazon Polly 以 API 形式提供服务，工程师无法在本地部署或定制。这一时期开源社区的替代品（如 Festival、eSpeak）质量与商业产品差距巨大，形成明显的"质量鸿沟"。

2020-2022

开源追赶：Coqui 与 VITS 时代

Mozilla TTS（后演化为 Coqui TTS）和 VITS（Kim 等，ICASSP 2021）的出现是开源 TTS 的第一次质量跃升。VITS 将变分推断、归一化流和对抗训练统一在端到端框架中，首次实现了接近商业水平的开源单说话人 TTS。Coqui 在此基础上构建了多说话人、多语言的工程化框架。但这一时期开源模型在零样本克隆和多语言支持上仍明显落后于 ElevenLabs（2022年成立）等商业新贵。ElevenLabs 以极高的克隆自然度和简单 API 迅速占领市场，定价策略使其成为播客、配音行业的事实标准。

2023

大模型范式重塑 TTS：Bark、VALL-E、VoiceBox

2023年是 TTS 范式转换的关键年。Microsoft 的 VALL-E 将语言模型自回归生成引入 TTS，用 EnCodec token 作为"语音语言"，实现了3秒样本零样本克隆。Meta 的 VoiceBox 用流匹配做非自回归生成。Suno/Bark 开源了基于 GPT 的多语言 TTS，虽然质量参差但完全开放权重，引发大量社区二次开发。这一年开源与商业的质量差距开始快速收窄。

2024

工业级开源的爆发：F5-TTS、CosyVoice、Fish Speech

2024年出现了一批真正达到商业水准的开源 TTS 系统。F5-TTS（流匹配+Diffusion Transformer）、CosyVoice（阿里，自回归+流匹配两阶段）、Fish Speech（纯自回归 codec LM）、Kokoro（轻量高效）相继发布，覆盖了从质量优先到延迟优先的不同工程需求。ElevenLabs 的护城河开始受到真实威胁。

2025-2026

Mistral Voxtral：参数效率与延迟的新标杆

Mistral AI 发布 Voxtral（3B 参数，开放权重），声称在人类偏好测试中超越 ElevenLabs Flash v2.5，运行仅需 3GB RAM，首音延迟 90ms，支持9种语言。这一事件标志着开源 TTS 在"质量-延迟-资源"三角上全面逼近甚至超越商业 API，开源生态进入成熟竞争期。

核心思想

开源 TTS 生态的工程竞争本质是在"感知质量、首音延迟、内存占用、语言覆盖"四个维度上同时逼近商业 API，而权重开放使工程师获得了定制化、私有化部署和成本控制的根本能力。

数学结构

TTS 系统的工程性能通常用以下指标量化： 实时率（RTF, Real-Time Factor）：$\text{RTF} = T_{\text{inference}} / T_{\text{audio}}$，RTF < 1 表示可实时生成。Voxtral 的 90ms 首音延迟（TTFA）是另一关键指标，定义为从文本输入到第一帧音频输出的时间，对流式场景至关重要。 MOS 与偏好测试的统计可靠性：人类偏好测试通常用 Bradley-Terry 模型估计相对胜率：$P(i \succ j) = \frac{e^{\beta_i}}{e^{\beta_i} + e^{\beta_j}}$，其中 $\beta_i$ 是系统 $i$ 的强度参数。单纯报告"胜率"而不报告置信区间和样本量是常见的评估陷阱——今日论文 [39] 的 I2D 框架正是针对这一问题提出的。 内存-质量 Pareto 前沿：对于部署决策，关键是在 $(\text{RAM}, \text{MOS})$ 空间中找 Pareto 最优点。3B 参数 FP16 约需 6GB，量化到 INT4 约 1.5GB，Voxtral 的 3GB 暗示使用了某种混合精度或结构化压缩。

工作机制

开源 TTS 工程选型的核心逻辑是：根据部署场景在质量、延迟、资源三角中找到 Pareto 最优的架构和推理策略。

Step 1架构选型：自回归 vs 非自回归 vs 混合

自回归模型（VALL-E、Fish Speech、Voxtral）将语音 codec token 逐个预测，质量高、零样本克隆强，但延迟随文本长度线性增长，TTFA 受首 token 生成时间决定。非自回归模型（F5-TTS、Matcha-TTS）并行生成所有帧，延迟低但零样本克隆能力相对弱。混合范式（CosyVoice）用自回归预测语义 token，再用流匹配生成声学细节，试图兼顾两者。工程选型原则：交互式对话场景优先非自回归或混合；高质量配音场景优先自回归。

Step 2首音延迟优化：流式生成与 chunk 策略

90ms TTFA 的实现需要流式架构：文本输入后立即开始生成，不等待完整句子。关键技术：①文本前端（G2P、韵律预测）必须流式化；②对自回归模型，生成前 N 个 codec token 后立即解码第一帧音频（N 通常对应 20-40ms 音频）；③codec 解码器（如 EnCodec decoder）必须支持因果/流式模式。实现细节：Voxtral 的 90ms 暗示其 codec 帧率约为 50Hz（20ms/帧），前4-5帧即可输出，期间 LLM 继续生成后续 token。

Step 3多语言支持的工程挑战

支持9种语言不只是数据问题，还涉及：①统一音素/字符表示（IPA vs 语言特定 phoneme set vs 直接字符）；②语言标识符注入（前缀 token vs 语言 embedding）；③跨语言迁移 vs 语言特定微调的权衡。Voxtral 作为 Mistral 系列，其多语言能力可能继承自基础 LLM 的文本表示，再通过语音 codec token 扩展词表实现语音生成，这是"LLM 原生 TTS"架构的典型优势。

Step 4开放权重的工程价值与风险

开放权重（open-weight，区别于开源代码）使工程师可以：①本地部署，消除 API 调用延迟和成本；②量化压缩（GGUF/AWQ/GPTQ）适配边缘设备；③LoRA 微调适配特定说话人或领域；④审计模型行为，满足合规需求。风险：①滥用（声音克隆伪造）；②维护责任转移给使用者；③版本碎片化（社区 fine-tune 版本质量参差）。工程团队选型时需评估许可证条款（Mistral 通常使用 Apache 2.0 或自定义商业许可）。

Step 5评估陷阱与选型决策框架

"超越 ElevenLabs"的声明需要批判性审视：①测试集是否覆盖目标语言和领域？②人类评测样本量和评测者背景？③是否在相同硬件上比较延迟？实用选型框架：先用目标语言的真实文本跑 RTF 和 TTFA 基准；再用目标用户做盲测 A/B；最后评估量化后的质量损失。不要只看论文/博客中的 benchmark 数字。

长远价值

开源 TTS 生态的成熟直接影响音视频工程师的技术栈选择。Voxtral 级别的开放权重模型使得：播客平台可以本地化部署避免 API 成本；游戏公司可以微调出专属角色声音；隐私敏感场景（医疗、法律）可以完全离线运行。这一趋势与 LLM 开源生态（Llama 系列）的演进高度同构——商业 API 定义质量上限，开源社区快速追赶并在特定维度超越，最终形成"开源做基础设施，商业做差异化服务"的分层生态。

前沿动向

当前开放问题：①情感/风格可控性——开源模型在细粒度情感控制上仍弱于商业产品；②实时双工（full-duplex）语音对话中的 TTS 集成，要求 TTFA < 50ms；③声音克隆的滥用防护（水印、检测）成为开放权重发布的伦理必答题；④多说话人混音和场景音效的端到端生成是下一个竞争维度。

扩散模型声学生成

TTS开源生态竞争

往期讲解档案 13 个知识点