知识讲堂 · Jae Daily

算法理论第一讲

连续潜在扩散语言模型

▶ YouTube ▶ B站 ↗ 原始论文

自回归语言模型像即兴演讲——边说边想，说出口的话无法收回；连续潜在扩散语言模型像写作文——先在脑中构思整篇文章的骨架，反复打磨修改，最后才落笔成文。

历史演进

语言模型长期被"从左到右、一个词一个词生成"的自回归范式所主导，但这种范式在全局语义规划、并行生成效率和表示空间灵活性上存在结构性缺陷，驱动研究者探索扩散模型在离散语言空间的应用。

2017–2020

自回归范式的统治与局限

GPT系列确立了自回归语言模型的主导地位：给定前缀 $x_{

2020–2022

扩散模型进入NLP视野

Sohl-Dickstein等人（2015）奠定扩散模型理论基础，DDPM（Ho et al., 2020, NeurIPS）在图像生成上取得突破，激发了将扩散范式迁移到文本的热情。然而文本的离散性是核心障碍：扩散过程天然定义在连续空间，对离散词表直接加噪缺乏数学优雅性。Hoogeboom et al.（2021）提出离散扩散（Absorbing Diffusion），Austin et al.提出D3PM，但这些方法在生成质量和效率上均未能超越自回归基线。关键洞察逐渐浮现：与其在离散词表空间做扩散，不如在连续潜在空间做扩散。

2022–2023

潜在扩散范式的确立

Rombach et al.（2022, CVPR）提出Latent Diffusion Model（LDM），在图像的压缩潜在空间而非像素空间做扩散，大幅降低计算成本并提升质量——这一思路直接启发了文本潜在扩散。Li et al.（2022）提出Diffusion-LM，将词嵌入作为连续潜在变量，通过扩散过程生成嵌入序列再解码为词，首次证明连续扩散可用于可控文本生成。Gong et al.提出DiffuSeq，专注于序列到序列任务。这一阶段的核心贡献是建立了"编码器→连续潜在空间扩散→解码器"的三段式框架。

2023–2025

规模化与效率突破

MDLM（Sahoo et al., 2024）、PLAID（Gulrajani & Hashimoto, 2024）等工作系统性地将连续/离散潜在扩散推向与GPT-2/GPT-3量级的公平对比，发现在困惑度上仍有差距但在可控生成、全局一致性上有明显优势。Cola DLM（2025）在此基础上引入多尺度潜在表示和自适应去噪调度，试图同时解决效率、表示学习和全局语义建模三个瓶颈，代表该方向当前的系统性整合尝试。

核心思想

连续潜在扩散语言模型的本质是：不逐词预测，而是先在连续向量空间中通过迭代去噪"雕刻"出整个句子的语义蓝图，再一次性解码为文字——相当于先构思全文再落笔，而非边想边写。

数学结构

设文本序列 $\mathbf{x} = (x_1, \ldots, x_T)$，编码器 $\mathcal{E}$ 将其映射到连续潜在向量 $\mathbf{z}_0 = \mathcal{E}(\mathbf{x}) \in \mathbb{R}^{T \times d}$。 前向扩散过程（加噪）定义为马尔可夫链： $$q(\mathbf{z}_t | \mathbf{z}_{t-1}) = \mathcal{N}(\mathbf{z}_t; \sqrt{1-\beta_t}\,\mathbf{z}_{t-1},\, \beta_t \mathbf{I})$$ 其中 $\beta_t \in (0,1)$ 是噪声调度系数。利用重参数化技巧，可直接从 $\mathbf{z}_0$ 采样任意时刻： $$q(\mathbf{z}_t | \mathbf{z}_0) = \mathcal{N}(\mathbf{z}_t;\, \sqrt{\bar{\alpha}_t}\,\mathbf{z}_0,\, (1-\bar{\alpha}_t)\mathbf{I})$$ 其中 $\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)$，当 $t \to T$ 时 $\bar{\alpha}_t \to 0$，潜变量趋近纯高斯噪声。 逆向去噪过程（生成）由神经网络 $\epsilon_\theta$ 参数化，学习预测噪声： $$\mathcal{L}_\text{simple} = \mathbb{E}_{t, \mathbf{z}_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(\mathbf{z}_t, t)\|^2\right]$$ 其中 $\epsilon \sim \mathcal{N}(0, \mathbf{I})$ 是真实加入的噪声，$\epsilon_\theta$ 通常由Transformer实现，输入带时间步嵌入的 $\mathbf{z}_t$。解码：生成的 $\hat{\mathbf{z}}_0$ 经解码器 $\mathcal{D}$ 映射回词概率分布：$p(\mathbf{x}|\hat{\mathbf{z}}_0) = \text{softmax}(\mathcal{D}(\hat{\mathbf{z}}_0))$。为什么在潜在空间而非词表空间做扩散？因为连续空间的高斯扩散有封闭形式的前向过程和可微的逆向过程，而离散词表上的扩散需要设计复杂的转移矩阵且梯度估计困难。潜在空间还可通过VAE或AE压缩，使扩散在低维语义空间进行，计算更高效。

工作机制

连续潜在扩散语言模型的整体逻辑是：将文本压缩为连续语义向量，在该向量空间中学习从噪声到语义的去噪映射，生成时从纯噪声出发迭代去噪得到语义向量，最后解码为文本。

Step 1文本编码为连续潜变量

做什么：将离散词序列 $\mathbf{x}$ 通过编码器 $\mathcal{E}$（通常是预训练Transformer的中间层表示或VAE编码器）映射为连续向量序列 $\mathbf{z}_0 \in \mathbb{R}^{T \times d}$。 为什么这样设计：直接在词嵌入空间做扩散（如Diffusion-LM）会导致去噪网络需要同时学习语义和词表对齐，负担过重。使用独立编码器可以让潜空间更平滑、语义更聚合，去噪过程更稳定。 关键细节：编码器可以是冻结的预训练模型（降低训练成本）或联合训练（提升表示质量）。潜变量维度 $d$ 的选择是关键超参：太小损失语义信息，太大增加扩散难度。部分工作（如PLAID）使用量化潜变量在连续与离散之间折中。

Step 2前向加噪调度设计

做什么：按照噪声调度 $\{\beta_t\}_{t=1}^T$ 对 $\mathbf{z}_0$ 逐步加噪，构造训练样本对 $(\mathbf{z}_t, t, \mathbf{z}_0)$。 为什么这样设计：噪声调度决定了模型在不同去噪阶段学习的内容——早期步骤（高噪声）学习全局结构，晚期步骤（低噪声）学习局部细节。余弦调度（Nichol & Dhariwal, 2021）比线性调度更平滑，避免末尾步骤信噪比骤降。 关键细节：文本潜变量的方差与图像不同，需要重新校准调度。Cola DLM等工作引入自适应调度，根据潜变量的实际方差动态调整 $\beta_t$，避免过早或过晚达到纯噪声状态。

Step 3去噪网络的双向注意力建模

做什么：训练去噪网络 $\epsilon_\theta(\mathbf{z}_t, t)$，通常基于Transformer，输入含时间步嵌入的噪声潜变量，预测噪声 $\epsilon$ 或直接预测 $\mathbf{z}_0$（x-prediction参数化）。 为什么这样设计：这是与自回归模型最本质的区别——去噪网络使用双向注意力，每个位置可以看到序列中所有其他位置，天然支持全局语义建模。自回归模型的因果掩码强制从左到右，无法在生成时"回头修改"已生成的词。 关键细节：时间步 $t$ 通过正弦编码或可学习嵌入注入，通常经AdaLN（自适应层归一化）调制Transformer各层。x-prediction参数化（直接预测 $\mathbf{z}_0$）在文本任务上往往比 $\epsilon$-prediction更稳定，因为文本潜变量的语义结构更适合直接重建。

Step 4迭代去噪生成

做什么：生成时从 $\mathbf{z}_T \sim \mathcal{N}(0, \mathbf{I})$ 出发，按DDPM或DDIM采样规则迭代 $N$ 步（$N \ll T$，通常10–50步）得到 $\hat{\mathbf{z}}_0$。 为什么这样设计：DDIM（Song et al., 2021）通过确定性采样轨迹将步数从1000压缩到50步以内而不显著损失质量，这是扩散语言模型实用化的关键。每一步去噪都是对全序列的一次整体修订，而非自回归的单步扩展。 关键细节：分类器自由引导（CFG）可在此阶段注入条件信息（如主题、风格、情感），引导系数 $w$ 控制条件强度：$\tilde{\epsilon}_\theta = (1+w)\epsilon_\theta(\mathbf{z}_t|c) - w\epsilon_\theta(\mathbf{z}_t|\emptyset)$。

Step 5潜变量解码为文本

做什么：将 $\hat{\mathbf{z}}_0$ 通过解码器 $\mathcal{D}$（通常是线性层+softmax或预训练LM解码头）映射为词概率分布，取argmax或采样得到最终文本。 为什么这样设计：解码器的设计直接影响"潜变量语义"与"词表对齐"的质量。部分工作使用预训练LM作为解码器并冻结，强制潜变量学习与LM兼容的表示，从而复用LM的语言知识。 关键细节：解码时的"圆整误差"（rounding error）是已知难题——连续潜变量解码到离散词时可能产生语义漂移。Diffusion-LM提出"嵌入对齐损失"缓解此问题，Cola DLM等工作进一步通过多尺度潜变量层次化解码来改善。

长远价值

连续潜在扩散语言模型在可控文本生成领域已产生实质影响：Meta的研究团队将其用于受控故事生成，Google在文档摘要中探索其全局一致性优势。相比自回归模型，它天然支持属性插值（在两个语义向量间插值生成过渡文本）、并行解码（所有位置同时更新）和迭代精炼（可在推理时增加步数换取质量）。随着多模态生成统一框架的兴起（图像、音频、文本共享扩散骨干），该范式的战略价值将持续提升。

前沿动向

当前核心开放问题：①困惑度仍落后GPT-3量级自回归模型约10-20%，根本原因尚不明确；②训练稳定性对编码器选择极度敏感；③如何设计既支持扩散又保持语言先验的潜空间是未解之题；④多步采样延迟在实时应用中仍是瓶颈，一步蒸馏（Consistency Distillation）在文本域的效果远不如图像域；⑤长文本（>1K词）的全局一致性保持机制尚不成熟。

工程·思维第二讲

零样本跨语言语音克隆

↗ 原始论文

历史演进

跨语言语音克隆的工程难题根源在于一个矛盾：说话人身份（音色、韵律习惯）是语言无关的生物特征，但发音系统（音素、声调、节律）是语言强绑定的——如何让模型"用A的声音说B的语言"，需要在工程架构层面彻底解耦这两个维度。

2017–2019

多说话人TTS的早期探索

Tacotron 2（Shen et al., 2018, Google）引入说话人嵌入向量，将说话人身份编码为固定维度向量与文本编码拼接，实现了同语言多说话人合成。但这一阶段的说话人嵌入是查找表（lookup table）——每个说话人对应一个可训练向量，无法泛化到训练集外的新说话人，更无法跨语言迁移。SV2TTS（Jia et al., 2018, Google）是关键转折点：引入独立的说话人编码器（基于GE2E损失训练的d-vector系统），从几秒参考音频实时提取说话人嵌入，首次实现了对未见说话人的零样本克隆。但跨语言场景下，说话人编码器提取的嵌入仍然混入了语言信息，导致跨语言克隆时音色迁移不干净。

2020–2022

解耦架构的系统化

YourTTS（Casanova et al., 2022, ICML）将VITS框架扩展到多语言多说话人场景，通过语言嵌入与说话人嵌入的显式分离，在葡萄牙语、英语、法语间实现了初步跨语言克隆。同期，Meta的Voicebox（Le et al., 2023）和微软的VALL-E X（Zhang et al., 2023）将语言模型范式引入TTS：VALL-E X将跨语言克隆建模为"给定源语言音频和目标语言文本，生成目标语言的声学token序列"，利用EnCodec的离散声学token作为中间表示，说话人信息隐式编码在声学token的风格层。这一阶段的核心工程洞察是：声学token比梅尔频谱更适合跨语言迁移，因为codec的量化过程天然分离了内容（语言相关）和风格（说话人相关）。

2022–2024

IPA统一表示的工程实践

跨语言TTS的另一条工程路线聚焦于输入侧的统一：不同语言使用不同的书写系统和音素集，如果每种语言维护独立的音素词表，模型无法在语言间共享音素级知识。国际音标（IPA, International Phonetic Alphabet）提供了跨语言统一的音素表示：英语的/p/和普通话的/p/在IPA中是同一符号，模型可以学习到跨语言共享的发音知识。CoquiTTS、MMS（Meta, 2023）等系统大规模采用IPA作为统一输入，配合语言ID条件，在1000+语言上实现了基础TTS。X-Voice（2025）将这一思路推向30语言零样本克隆，使用420K小时多语言语料和IPA统一表示，是该工程路线的当前规模化代表。

2024–2025

大模型时代的工程整合

CosyVoice 2（阿里）、F5-TTS、Seed-TTS等系统将流匹配（Flow Matching）或扩散模型与大规模多语言预训练结合，在说话人相似度、自然度和跨语言一致性上全面提升。工程重心从"如何实现跨语言"转向"如何在边缘设备上高效部署0.4B量级的多语言克隆模型"——X-Voice的0.4B参数量正是面向部署效率的刻意设计。

核心思想

零样本跨语言语音克隆的工程本质是：从参考音频中提取与语言无关的说话人身份特征，将其注入目标语言的发音生成过程——核心挑战是在架构层面彻底解耦"谁在说"（说话人）和"说什么语言"（语言系统）这两个正交维度。

数学结构

跨语言TTS的核心优化目标可形式化为条件生成问题。设参考音频 $\mathbf{a}_{ref}$ 来自语言 $L_{src}$，目标文本 $\mathbf{t}$ 属于语言 $L_{tgt}$，目标是生成音频 $\hat{\mathbf{a}}$ 满足： $$\hat{\mathbf{a}} = \arg\max_{\mathbf{a}} p(\mathbf{a} \mid \mathbf{t}, L_{tgt}, \mathbf{s})$$ 其中说话人嵌入 $\mathbf{s} = f_\text{spk}(\mathbf{a}_{ref})$ 由说话人编码器提取，理想情况下 $\mathbf{s}$ 应满足语言无关性： $$I(\mathbf{s}; L_{src}) \approx 0$$ 即说话人嵌入与源语言的互信息趋近于零。实践中通过对抗训练实现：在说话人编码器后接语言分类器 $D_L$，训练时最小化说话人编码器损失同时最大化语言分类器的困惑度（梯度反转层，GRL）： $$\mathcal{L}_\text{spk} = \mathcal{L}_\text{recon} - \lambda \mathcal{L}_\text{lang\_adv}$$ IPA统一音素表示将不同语言的文本映射到共享符号空间，设语言 $L_i$ 的文本经G2P转换为IPA序列 $\phi_i$，模型输入统一为 $(\phi_i, \text{lang\_id}_i)$，使得跨语言音素知识可以共享：相同IPA符号在不同语言中的发音参数通过语言ID条件化调制，而非完全独立学习。

工作机制

零样本跨语言语音克隆系统的整体逻辑是：从参考音频提取纯净的说话人身份向量，将目标语言文本转换为统一音素表示，在生成网络中以说话人向量为条件生成目标语言的声学特征，最后通过声码器合成波形。

Step 1说话人编码器：提取语言无关身份特征

做什么：将3–10秒参考音频输入说话人编码器，提取固定维度（通常192–512维）的说话人嵌入向量 $\mathbf{s}$。 为什么这样设计：说话人编码器必须对语言内容不敏感，只捕捉音色、基频分布、共振峰特征等生理声学特征。工程上通常使用在大规模多语言数据上以GE2E（Generalized End-to-End）损失或AAM-Softmax损失训练的ECAPA-TDNN或ResNet34架构。关键工程决策：编码器训练数据必须覆盖目标语言，否则编码器对目标语言说话人的音色估计会有系统性偏差。 关键细节：对抗去语言化训练（GRL）可进一步纯化说话人嵌入，但会轻微损失说话人区分度，需要通过 $\lambda$ 系数平衡。实践中发现：使用多个参考音频片段取平均嵌入（mean pooling）比单片段更稳定，尤其对跨语言场景。

Step 2文本前端：IPA统一音素转换

做什么：将目标语言文本通过G2P（Grapheme-to-Phoneme）转换为IPA音素序列，附加语言ID标记。 为什么这样设计：不同语言的书写系统差异巨大（汉字、拉丁字母、天城文等），直接使用字符作为输入会导致模型在语言间无法共享底层发音知识。IPA是语言学界公认的跨语言音素统一表示，约100个基础符号覆盖人类语言的主要音素，使模型可以学习"相同IPA符号在不同语言中的发音变体"。 关键细节：G2P转换质量是系统瓶颈之一，尤其对低资源语言（如藏语、泰卢固语）。实践中常用espeak-ng作为多语言G2P后端，但其错误率在某些语言上高达15%+，需要语言专家校正或数据驱动的G2P模型补充。声调语言（普通话、越南语）需要在IPA中额外编码声调信息（调号或数字标注）。

Step 3条件声学生成：说话人与语言的融合注入

做什么：以IPA序列和语言ID为内容条件，以说话人嵌入 $\mathbf{s}$ 为风格条件，通过声学模型（Flow Matching、扩散模型或自回归声学token模型）生成目标语言的声学表示（梅尔频谱或声学token序列）。 为什么这样设计：说话人嵌入的注入方式至关重要。简单拼接（concatenation）会导致说话人信息随网络深度衰减；AdaLN（自适应层归一化）通过将 $\mathbf{s}$ 映射为每层的缩放和偏移参数，在每个Transformer层持续注入说话人信息，效果显著优于拼接。语言ID通过独立的语言嵌入层编码，与说话人嵌入分开注入，避免两者信息混淆。 关键细节：跨语言场景下的韵律迁移是难点——说话人的韵律习惯（语速、停顿模式）在跨语言时应部分保留（体现说话人个性）还是完全替换为目标语言的自然韵律？实践中通常保留说话人的基频轮廓风格，但将语速和停顿调整为目标语言的自然节律。

Step 4声码器：声学特征到波形

做什么：将生成的梅尔频谱或声学token通过神经声码器（HiFi-GAN、BigVGAN、EnCodec解码器）合成最终波形。 为什么这样设计：声码器的选择对跨语言克隆的音色保真度有直接影响。基于GAN的声码器（HiFi-GAN）速度快但对超出训练分布的声学特征（如非母语口音的频谱）鲁棒性差；基于codec的声码器（EnCodec/DAC）通过离散化提供了更强的鲁棒性。 关键细节：声码器必须在目标语言数据上训练或微调，否则会对目标语言的特有音素（如汉语的卷舌音、阿拉伯语的咽音）产生频谱失真。X-Voice使用统一声码器在所有30种语言数据上联合训练，通过大数据量覆盖语言多样性。

Step 5系统级工程：延迟与质量的平衡

做什么：在推理管道中实现流式处理、模型量化和缓存优化，使0.4B量级模型在边

长远价值

前沿动向

连续潜在扩散语言模型

零样本跨语言语音克隆

往期讲解档案 94 个知识点