生成模型的核心矛盾始终是:如何在"可计算的训练目标"与"高质量的样本分布"之间取得平衡——MSE类目标训练稳定但导致模糊,对抗目标锐利但训练不稳定,流模型的演进史本质上是这一矛盾的持续求解史。
早期生成模型以最大似然估计为核心,要求模型显式表达概率密度 $p(x)$。归一化流(Normalizing Flow)通过可逆变换将简单先验映射到复杂分布,但受限于雅可比行列式计算,网络结构必须特殊设计(如 NICE、RealNVP),表达能力受限。这一时期的核心问题是:可逆约束与模型容量之间的根本冲突。
Goodfellow 等人提出生成对抗网络(GAN),彻底绕开密度估计,改用判别器 $D$ 与生成器 $G$ 的博弈来隐式匹配分布。GAN 生成的样本锐利、高频细节丰富,但训练极不稳定,模式崩溃(mode collapse)成为顽疾。此后十年,Wasserstein GAN、SNGAN、StyleGAN 等工作持续修补训练稳定性,但根本矛盾未解:对抗目标的优化景观天然不平滑。
DDPM(Ho et al., 2020)和 Score Matching(Song et al., 2020)证明:通过预测噪声/分数,可以用简单的 MSE 目标训练出质量超越 GAN 的生成模型。代价是采样需要数百步迭代,推理慢。这一时期确立了"稳定训练 vs 采样效率"的新矛盾轴。
Lipman et al.(Meta AI, ICLR 2023)提出 Flow Matching,将连续归一化流(CNF)的训练从最大似然转向直接回归向量场:给定数据点 $x_1$ 和噪声点 $x_0$,学习连接两者的直线路径的切向量。训练目标是简单 MSE,采样只需少量 ODE 步骤。但 MSE 目标的本质是对所有可能路径的期望,在多模态数据上仍会产生"均值模糊"效应。
连续对抗流模型(如本日论文及 Dao et al. 等工作)将判别器引入流匹配框架:不再用固定 MSE 监督向量场,而是让判别器在时间轴上评估中间状态的真实性,用对抗损失替换或补充回归损失。这一融合继承了流模型的训练稳定性框架,同时引入对抗目标的分布锐利性,是两大范式的首次系统性结合。
标准流匹配的训练目标是回归条件向量场: $$\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1} \left\| v_\theta(x_t, t) - u_t(x_t | x_1) \right\|^2$$ 其中 $x_t = (1-t)x_0 + t x_1$ 是插值路径上的点,$u_t(x_t|x_1) = x_1 - x_0$ 是条件向量场(直线路径的切向量),$v_\theta$ 是待学习的神经网络向量场。MSE 目标对所有条件路径求期望,当 $x_1$ 对应多个合理 $x_0$ 时,$v_\theta$ 学到的是边缘化后的"平均向量场",导致生成模糊。 对抗流模型引入时间条件判别器 $D_\phi(x_t, t)$,将目标改写为: $$\mathcal{L}_{\text{adv}} = \mathbb{E}_{t}\left[\mathcal{L}_{\text{GAN}}(D_\phi, v_\theta, t)\right] + \lambda \mathcal{L}_{\text{FM}}$$ 其中对抗损失在时间轴上积分,判别器在每个时刻 $t$ 区分"由真实数据 $x_1$ 诱导的中间状态分布"与"由 $v_\theta$ 生成的中间状态分布"。关键洞察是:流的中间状态 $x_t$ 的边缘分布 $p_t(x)$ 是可以从数据中采样的(直接插值),因此判别器有真实样本可用,避免了传统 GAN 中判别器无法获得中间分布真值的问题。 广义分布匹配视角:不同的对抗损失(Wasserstein、Hinge、Softplus)对应不同的 $f$-散度,改变了目标函数诱导的分布几何,这正是论文所说"诱导不同的广义分布"的含义。
对抗流模型的整体逻辑是:在 ODE 轨迹的每个时间切片上同时训练生成器(向量场网络)和判别器,使生成轨迹的中间分布在所有时刻都与真实插值分布对齐,而非仅在终点对齐。
从训练数据中采样 $(x_0, x_1)$ 对,按 $x_t = (1-t)x_0 + tx_1$ 构造中间状态。这些 $x_t$ 构成时刻 $t$ 的"真实中间分布" $p_t^{\text{real}}$。关键设计:这里的"真实"不是指数据本身,而是指"由真实数据对通过插值诱导的分布",这使得判别器在每个时刻都有监督信号,而非只在 $t=1$ 有。
给定噪声 $x_0 \sim p_0$,用当前向量场 $v_\theta$ 通过 ODE 求解器(如 Euler 法)推进:$x_{t+\Delta t} = x_t + v_\theta(x_t, t) \cdot \Delta t$,得到生成的中间状态序列。生成的中间状态构成"假中间分布" $p_t^{\text{gen}}$。为什么不直接在终点 $t=1$ 判别?因为终点判别的梯度信号需要通过整条 ODE 轨迹反传,梯度消失严重;在每个时刻判别可以提供密集的局部梯度信号。
判别器 $D_\phi(x_t, t)$ 接收时刻 $t$ 和状态 $x_t$,输出真/假概率。训练判别器最大化区分 $p_t^{\text{real}}$ 和 $p_t^{\text{gen}}$ 的能力;训练生成器(向量场)最小化被判别器识别的概率。时间 $t$ 从 $[0,1]$ 均匀采样,使判别器覆盖整条轨迹。实现细节:判别器通常用时间嵌入(sinusoidal 或 learned)条件化,与扩散模型的时间条件 UNet 结构类似。
纯对抗训练在流框架中仍可能不稳定,因此保留一个权重为 $\lambda$ 的流匹配 MSE 项作为正则。MSE 项提供稳定的梯度方向(防止向量场崩溃),对抗项提供分布锐利性(防止均值模糊)。$\lambda$ 的选取是超参数,通常在训练初期较大(依赖 MSE 建立基本结构),后期减小(让对抗项主导细节)。
训练完成后,判别器丢弃,采样只需从 $x_0 \sim \mathcal{N}(0,I)$ 出发,用 $v_\theta$ 积分 ODE 到 $t=1$。采样步数可以很少(4–8步),继承了流匹配的采样效率优势,这是相比扩散模型的核心工程价值。
对抗流模型在图像生成领域已有 Stable Diffusion 3 等工作采用流匹配框架,对抗增强版本正在音频、视频生成中快速渗透。其核心价值在于:用少步采样(4–8步 vs 扩散的50–1000步)实现 GAN 级别的样本锐利度,同时保持流模型的训练稳定性。在实时音视频生成场景(如本日 LPM 1.0 的角色表演模型)中,少步采样是部署的硬性约束,对抗流模型是目前最有竞争力的技术路线之一。
当前核心开放问题:①判别器的时间采样策略(均匀 vs 重要性采样)对训练效率影响显著,最优策略未知;②如何将对抗目标扩展到条件生成(文本/音频条件)而不引入条件崩溃;③与一致性模型(Consistency Models)的关系和融合尚未系统研究;④在离散 token 空间(音频 codec token)上的对抗流建模几乎是空白。