生成模型评估长期面临一个根本矛盾:人类感知是非线性、多维度的,而主流度量却假设特征空间服从高斯分布并用欧氏距离衡量差异——这一假设在音频领域尤为失真。
法国数学家Maurice Fréchet早在1906年定义了函数空间中的距离概念,但将其用于评估生成模型的关键一步来自2002年前后对Wasserstein-2距离的统计理论整合。Wasserstein距离衡量将一个概率分布"搬运"到另一个分布所需的最小代价,天然具备几何意义。其核心公式 $W_2(\mu,\nu)^2 = \inf_{\gamma \in \Gamma(\mu,\nu)} \int \|x-y\|^2 d\gamma(x,y)$ 中,$\Gamma(\mu,\nu)$ 是所有联合分布的集合,优化目标是找到最优"搬运方案"。
Heusel等人在NeurIPS 2017提出Fréchet Inception Distance(FID),将Wasserstein-2距离在高斯假设下闭合求解:若两个分布均为高斯,$W_2^2 = \|\mu_1-\mu_2\|^2 + \text{tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1\Sigma_2)^{1/2})$。这一公式计算简单、可复现,迅速成为图像生成评估的黄金标准。其成功掩盖了一个核心缺陷:Inception特征空间并不真正服从高斯分布,且欧氏距离不反映感知相似性。
Google Research的Kilgour等人在INTERSPEECH 2019提出Fréchet Audio Distance(FAD),用VGGish替换Inception网络,将同样的高斯+欧氏框架搬到音频领域。FAD迅速成为音乐生成、语音合成评估的标配。然而音频特征空间的非高斯性比图像更严重——音色、节奏、情感等维度在嵌入空间中形成高度非线性的流形结构,高斯假设带来的偏差更大。
随着扩散模型在音频生成中的爆发,评估精度的需求急剧上升。研究者开始将黎曼几何引入特征空间度量:在流形上,两点间的"距离"不是直线而是测地线,由度量张量 $g_{ij}(x)$ 决定。学习一个数据自适应的黎曼度量,再在此度量下求解最优传输,理论上能更忠实地捕捉感知差异。2024年前后,多篇工作(包括今日论文[23])将这一思路系统化,提出可学习黎曼地面度量的最优传输音频距离,标志着音频评估从"借用图像工具"走向"音频原生度量"的范式转变。
设真实音频分布为 $\mu$,生成音频分布为 $\nu$,均定义在特征空间 $\mathcal{X} \subset \mathbb{R}^d$ 上。 标准FAD的局限:FAD假设 $\mu \sim \mathcal{N}(\mu_1, \Sigma_1)$,$\nu \sim \mathcal{N}(\mu_2, \Sigma_2)$,闭合解为: $$\text{FAD} = \|\mu_1 - \mu_2\|_2^2 + \text{tr}\!\left(\Sigma_1 + \Sigma_2 - 2(\Sigma_1\Sigma_2)^{1/2}\right)$$ 这里地面代价是欧氏距离 $c(x,y)=\|x-y\|^2$,隐含假设特征空间各向同性。 黎曼最优传输:引入可学习度量张量场 $G: \mathcal{X} \to \mathbb{S}_{++}^d$(正定矩阵值函数),定义黎曼地面代价: $$c_G(x,y) = \int_0^1 \dot{\gamma}(t)^\top G(\gamma(t))\, \dot{\gamma}(t)\, dt$$ 其中 $\gamma$ 是连接 $x,y$ 的测地线。最优传输距离变为: $$\text{OTAD}(\mu,\nu) = \inf_{\gamma \in \Gamma(\mu,\nu)} \mathbb{E}_{(x,y)\sim\gamma}\left[c_G(x,y)\right]$$ 度量学习目标:$G$ 通过最大化与人类感知评分的相关性来学习,例如用MOS(Mean Opinion Score)对作为监督信号: $$\mathcal{L}_G = -\text{corr}\!\left(\text{OTAD}_G(\mu_i, \nu_i),\, \text{MOS}_i\right)$$ 为什么这样定义?欧氏距离对所有方向一视同仁,但音频嵌入空间中"音色方向"的感知敏感度远高于"能量方向";黎曼度量张量 $G(x)$ 在每个局部点自适应地拉伸/压缩空间,使感知敏感的方向在度量上被放大,从而让传输代价与人耳感知对齐。
整体逻辑:先用神经网络学习一个感知对齐的黎曼度量张量,再在该度量下用熵正则化最优传输计算两个音频分布之间的距离,最终得到比FAD更忠实于人类感知的评估分数。
将真实音频集合 $\{x_i\}$ 和生成音频集合 $\{y_j\}$ 分别通过预训练音频编码器(如EnCodec、CLAP、VGGish)映射到特征空间,得到嵌入集合 $\{z_i^r\}$ 和 $\{z_j^g\}$。为什么不直接用原始波形?高维原始信号的最优传输计算量爆炸,且感知相关特征在嵌入空间中更紧凑。关键细节:编码器的选择直接影响度量的感知对齐程度,CLAP等对比学习编码器因训练目标与语义相关,通常优于纯重建目标的编码器。
设计一个小型神经网络 $f_\theta: \mathbb{R}^d \to \mathbb{R}^{d \times d}$,输出正定矩阵 $G(z) = L(z)L(z)^\top + \epsilon I$(Cholesky参数化保证正定性)。用人类感知评分对(如MUSHRA、MOS)作为弱监督,最小化预测距离与感知评分的排序损失(如Spearman相关的负值)。为什么用排序损失而非回归?感知评分的绝对值因评测者和场景而异,但相对排序更稳定,排序损失对尺度不变。
直接求解最优传输是NP难问题。实践中用Sinkhorn算法求解熵正则化版本:
python # 伪代码:Sinkhorn迭代 C = compute_cost_matrix(Z_real, Z_gen, G) # [n, m] 代价矩阵 K = exp(-C / epsilon) # 吉布斯核 u, v = ones(n), ones(m) for _ in range(num_iters): u = a / (K @ v) # a: 真实分布权重 v = b / (K.T @ u) # b: 生成分布权重 transport_plan = diag(u) @ K @ diag(v) OTAD = sum(transport_plan * C)正则化参数 $\epsilon$ 控制传输方案的"模糊度":$\epsilon \to 0$ 退化为精确OT,$\epsilon \to \infty$ 退化为独立耦合。实践中 $\epsilon \in [0.01, 0.1]$ 在精度和收敛速度间取得平衡。
精确计算黎曼测地线代价需要求解边值ODE,计算代价高。实践中用局部线性化近似:对于嵌入空间中距离较近的点对,测地线近似为直线,代价近似为 $c_G(x,y) \approx (x-y)^\top \bar{G}(x,y)(x-y)$,其中 $\bar{G}$ 是路径中点处的度量张量。这一近似在嵌入空间曲率较小时误差可控,且将计算复杂度从 $O(d^3)$(ODE求解)降至 $O(d^2)$(矩阵乘法)。
最终OTAD分数需要在参考数据集上校准,消除编码器和度量网络引入的系统偏差。常用做法是计算"相对OTAD":以真实数据集内部子集间的OTAD作为基准,将生成模型的OTAD归一化到该基准上,使不同实验设置下的分数可比。
FAD自2019年提出后主导了音乐生成(MusicGen、AudioLDM、Stable Audio)和语音合成的评估体系,但其高斯假设导致的偏差在扩散模型时代愈发明显——扩散模型生成质量已接近真实数据,FAD的分辨率不足。最优传输音频距离的工程价值在于:它为AudioCraft、Suno、Udio等商业音乐生成系统提供了更可靠的离线评估信号,减少对昂贵人工MOS评测的依赖。黎曼度量学习框架还可迁移到视频质量评估(FVD的改进)和语音增强评估(DNSMOS的替代)。
当前开放问题:①度量张量网络的泛化性——在A数据集上学到的 $G$ 能否迁移到B数据集?②计算效率——百万级样本下Sinkhorn迭代仍然昂贵,mini-batch OT的偏差如何修正?③多模态对齐——如何将音频-文本对齐信息融入地面度量?④评估评估者——OTAD本身的可靠性如何用元评估框架验证?这些问题决定了它能否真正取代FAD成为新标准。