语言模型长期被"从左到右、一个词一个词生成"的自回归范式所主导,但这种范式在全局语义规划、并行生成效率和表示空间灵活性上存在结构性缺陷,驱动研究者探索扩散模型在离散语言空间的应用。
GPT系列确立了自回归语言模型的主导地位:给定前缀 $x_{
Sohl-Dickstein等人(2015)奠定扩散模型理论基础,DDPM(Ho et al., 2020, NeurIPS)在图像生成上取得突破,激发了将扩散范式迁移到文本的热情。然而文本的离散性是核心障碍:扩散过程天然定义在连续空间,对离散词表直接加噪缺乏数学优雅性。Hoogeboom et al.(2021)提出离散扩散(Absorbing Diffusion),Austin et al.提出D3PM,但这些方法在生成质量和效率上均未能超越自回归基线。关键洞察逐渐浮现:与其在离散词表空间做扩散,不如在连续潜在空间做扩散。
Rombach et al.(2022, CVPR)提出Latent Diffusion Model(LDM),在图像的压缩潜在空间而非像素空间做扩散,大幅降低计算成本并提升质量——这一思路直接启发了文本潜在扩散。Li et al.(2022)提出Diffusion-LM,将词嵌入作为连续潜在变量,通过扩散过程生成嵌入序列再解码为词,首次证明连续扩散可用于可控文本生成。Gong et al.提出DiffuSeq,专注于序列到序列任务。这一阶段的核心贡献是建立了"编码器→连续潜在空间扩散→解码器"的三段式框架。
MDLM(Sahoo et al., 2024)、PLAID(Gulrajani & Hashimoto, 2024)等工作系统性地将连续/离散潜在扩散推向与GPT-2/GPT-3量级的公平对比,发现在困惑度上仍有差距但在可控生成、全局一致性上有明显优势。Cola DLM(2025)在此基础上引入多尺度潜在表示和自适应去噪调度,试图同时解决效率、表示学习和全局语义建模三个瓶颈,代表该方向当前的系统性整合尝试。
设文本序列 $\mathbf{x} = (x_1, \ldots, x_T)$,编码器 $\mathcal{E}$ 将其映射到连续潜在向量 $\mathbf{z}_0 = \mathcal{E}(\mathbf{x}) \in \mathbb{R}^{T \times d}$。 前向扩散过程(加噪)定义为马尔可夫链: $$q(\mathbf{z}_t | \mathbf{z}_{t-1}) = \mathcal{N}(\mathbf{z}_t; \sqrt{1-\beta_t}\,\mathbf{z}_{t-1},\, \beta_t \mathbf{I})$$ 其中 $\beta_t \in (0,1)$ 是噪声调度系数。利用重参数化技巧,可直接从 $\mathbf{z}_0$ 采样任意时刻: $$q(\mathbf{z}_t | \mathbf{z}_0) = \mathcal{N}(\mathbf{z}_t;\, \sqrt{\bar{\alpha}_t}\,\mathbf{z}_0,\, (1-\bar{\alpha}_t)\mathbf{I})$$ 其中 $\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)$,当 $t \to T$ 时 $\bar{\alpha}_t \to 0$,潜变量趋近纯高斯噪声。 逆向去噪过程(生成)由神经网络 $\epsilon_\theta$ 参数化,学习预测噪声: $$\mathcal{L}_\text{simple} = \mathbb{E}_{t, \mathbf{z}_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(\mathbf{z}_t, t)\|^2\right]$$ 其中 $\epsilon \sim \mathcal{N}(0, \mathbf{I})$ 是真实加入的噪声,$\epsilon_\theta$ 通常由Transformer实现,输入带时间步嵌入的 $\mathbf{z}_t$。 解码:生成的 $\hat{\mathbf{z}}_0$ 经解码器 $\mathcal{D}$ 映射回词概率分布:$p(\mathbf{x}|\hat{\mathbf{z}}_0) = \text{softmax}(\mathcal{D}(\hat{\mathbf{z}}_0))$。 为什么在潜在空间而非词表空间做扩散?因为连续空间的高斯扩散有封闭形式的前向过程和可微的逆向过程,而离散词表上的扩散需要设计复杂的转移矩阵且梯度估计困难。潜在空间还可通过VAE或AE压缩,使扩散在低维语义空间进行,计算更高效。
连续潜在扩散语言模型的整体逻辑是:将文本压缩为连续语义向量,在该向量空间中学习从噪声到语义的去噪映射,生成时从纯噪声出发迭代去噪得到语义向量,最后解码为文本。
做什么:将离散词序列 $\mathbf{x}$ 通过编码器 $\mathcal{E}$(通常是预训练Transformer的中间层表示或VAE编码器)映射为连续向量序列 $\mathbf{z}_0 \in \mathbb{R}^{T \times d}$。 为什么这样设计:直接在词嵌入空间做扩散(如Diffusion-LM)会导致去噪网络需要同时学习语义和词表对齐,负担过重。使用独立编码器可以让潜空间更平滑、语义更聚合,去噪过程更稳定。 关键细节:编码器可以是冻结的预训练模型(降低训练成本)或联合训练(提升表示质量)。潜变量维度 $d$ 的选择是关键超参:太小损失语义信息,太大增加扩散难度。部分工作(如PLAID)使用量化潜变量在连续与离散之间折中。
做什么:按照噪声调度 $\{\beta_t\}_{t=1}^T$ 对 $\mathbf{z}_0$ 逐步加噪,构造训练样本对 $(\mathbf{z}_t, t, \mathbf{z}_0)$。 为什么这样设计:噪声调度决定了模型在不同去噪阶段学习的内容——早期步骤(高噪声)学习全局结构,晚期步骤(低噪声)学习局部细节。余弦调度(Nichol & Dhariwal, 2021)比线性调度更平滑,避免末尾步骤信噪比骤降。 关键细节:文本潜变量的方差与图像不同,需要重新校准调度。Cola DLM等工作引入自适应调度,根据潜变量的实际方差动态调整 $\beta_t$,避免过早或过晚达到纯噪声状态。
做什么:训练去噪网络 $\epsilon_\theta(\mathbf{z}_t, t)$,通常基于Transformer,输入含时间步嵌入的噪声潜变量,预测噪声 $\epsilon$ 或直接预测 $\mathbf{z}_0$(x-prediction参数化)。 为什么这样设计:这是与自回归模型最本质的区别——去噪网络使用双向注意力,每个位置可以看到序列中所有其他位置,天然支持全局语义建模。自回归模型的因果掩码强制从左到右,无法在生成时"回头修改"已生成的词。 关键细节:时间步 $t$ 通过正弦编码或可学习嵌入注入,通常经AdaLN(自适应层归一化)调制Transformer各层。x-prediction参数化(直接预测 $\mathbf{z}_0$)在文本任务上往往比 $\epsilon$-prediction更稳定,因为文本潜变量的语义结构更适合直接重建。
做什么:生成时从 $\mathbf{z}_T \sim \mathcal{N}(0, \mathbf{I})$ 出发,按DDPM或DDIM采样规则迭代 $N$ 步($N \ll T$,通常10–50步)得到 $\hat{\mathbf{z}}_0$。 为什么这样设计:DDIM(Song et al., 2021)通过确定性采样轨迹将步数从1000压缩到50步以内而不显著损失质量,这是扩散语言模型实用化的关键。每一步去噪都是对全序列的一次整体修订,而非自回归的单步扩展。 关键细节:分类器自由引导(CFG)可在此阶段注入条件信息(如主题、风格、情感),引导系数 $w$ 控制条件强度:$\tilde{\epsilon}_\theta = (1+w)\epsilon_\theta(\mathbf{z}_t|c) - w\epsilon_\theta(\mathbf{z}_t|\emptyset)$。
做什么:将 $\hat{\mathbf{z}}_0$ 通过解码器 $\mathcal{D}$(通常是线性层+softmax或预训练LM解码头)映射为词概率分布,取argmax或采样得到最终文本。 为什么这样设计:解码器的设计直接影响"潜变量语义"与"词表对齐"的质量。部分工作使用预训练LM作为解码器并冻结,强制潜变量学习与LM兼容的表示,从而复用LM的语言知识。 关键细节:解码时的"圆整误差"(rounding error)是已知难题——连续潜变量解码到离散词时可能产生语义漂移。Diffusion-LM提出"嵌入对齐损失"缓解此问题,Cola DLM等工作进一步通过多尺度潜变量层次化解码来改善。
连续潜在扩散语言模型在可控文本生成领域已产生实质影响:Meta的研究团队将其用于受控故事生成,Google在文档摘要中探索其全局一致性优势。相比自回归模型,它天然支持属性插值(在两个语义向量间插值生成过渡文本)、并行解码(所有位置同时更新)和迭代精炼(可在推理时增加步数换取质量)。随着多模态生成统一框架的兴起(图像、音频、文本共享扩散骨干),该范式的战略价值将持续提升。
当前核心开放问题:①困惑度仍落后GPT-3量级自回归模型约10-20%,根本原因尚不明确;②训练稳定性对编码器选择极度敏感;③如何设计既支持扩散又保持语言先验的潜空间是未解之题;④多步采样延迟在实时应用中仍是瓶颈,一步蒸馏(Consistency Distillation)在文本域的效果远不如图像域;⑤长文本(>1K词)的全局一致性保持机制尚不成熟。