时频分析的根本困境在于Heisenberg不确定性原理在信号处理中的映射——你无法同时在时域和频域获得任意精度,而最优传输理论提供了一种几何上"最经济"的方式来融合多个分辨率的信息,从根本上绕开这一限制。
Dennis Gabor在《Theory of Communication》中正式证明:对于任意窗函数,时间分辨率 $\Delta t$ 与频率分辨率 $\Delta f$ 满足 $\Delta t \cdot \Delta f \geq \frac{1}{4\pi}$,这是信号处理领域的"测不准原理"。短时傅里叶变换(STFT)的窗长一旦固定,时频分辨率就被锁死——长窗频率精细但时间模糊,短窗时间精细但频率模糊。这一限制在此后数十年内被视为不可逾越的物理边界,工程师只能在两者之间做妥协。
Morlet和Grossmann提出连续小波变换,Meyer、Mallat随后建立多分辨率分析(MRA)框架。小波通过自适应伸缩窗口实现"低频宽窗、高频窄窗",部分缓解了Gabor限制,但本质上仍受制于同一不等式——只是在不同频段选择了不同的权衡点,并未真正"突破",而是"分段妥协"。
Villani等人系统化了最优传输(OT)的数学框架,Wasserstein距离成为概率分布之间几何距离的标准度量。2013年Cuturi提出Sinkhorn算法,将OT的计算复杂度从 $O(n^3)$ 降至近似 $O(n^2/\epsilon)$,使其首次在大规模信号处理中具备实用性。这是OT从纯数学工具走向工程应用的关键转折点。
Agueh & Carlier(2011)定义了Wasserstein重心:给定多个分布,找到在Wasserstein意义下"最中心"的分布。这一概念被引入图像处理和纹理合成领域。对于时频分析,其核心洞见是:不同窗长的STFT谱图可以被视为同一信号在不同"测量视角"下的概率分布,Wasserstein重心可以在保留各自优势的同时融合它们,而不是简单的线性平均(线性平均会导致频谱模糊)。
研究者将多谱图重心融合应用于语音增强、音乐分析和生物医学信号处理。今日论文[36]正是这一方向的延续,通过OT框架实现多分辨率STFT的几何融合,在非平稳信号(如语音、音乐)上获得比单一窗长更优的时频表示。
设信号 $x(t)$ 用 $K$ 个不同窗长 $\{w_k\}$ 生成 $K$ 张STFT谱图,每张谱图归一化后视为时频平面上的概率分布 $\mu_k \in \mathcal{P}(\mathbb{R}^2)$。 Wasserstein-2距离定义为: $$W_2^2(\mu, \nu) = \inf_{\gamma \in \Pi(\mu,\nu)} \int_{\mathbb{R}^2 \times \mathbb{R}^2} \|x - y\|^2 \, d\gamma(x, y)$$ 其中 $\Pi(\mu,\nu)$ 是边缘分布分别为 $\mu$ 和 $\nu$ 的所有联合分布(传输方案)的集合。这个定义的物理意义是:把"质量"从分布 $\mu$ 搬运到 $\nu$ 所需的最小总代价,代价按距离平方计算。 Wasserstein重心定义为: $$\bar{\mu} = \arg\min_{\mu \in \mathcal{P}(\mathbb{R}^2)} \sum_{k=1}^{K} \lambda_k W_2^2(\mu, \mu_k), \quad \sum_k \lambda_k = 1$$ 权重 $\lambda_k$ 控制每个谱图的贡献。为什么不用线性插值 $\bar{\mu} = \sum_k \lambda_k \mu_k$?因为线性插值在欧氏空间操作,会导致两个尖峰"叠加模糊";而Wasserstein重心在几何上是"插值路径的中点",保留了峰的锐利性。 Sinkhorn正则化加速计算: $$W_\epsilon^2(\mu,\nu) = \inf_{\gamma \in \Pi(\mu,\nu)} \int \|x-y\|^2 d\gamma + \epsilon \cdot \text{KL}(\gamma \| \mu \otimes \nu)$$ 熵正则项 $\epsilon \cdot \text{KL}$ 使最优传输计划变光滑,允许用迭代矩阵缩放(Sinkhorn迭代)高效求解,复杂度降至 $O(n^2)$ 量级。
整体逻辑是:用多个窗长生成互补的时频视图,再通过Wasserstein重心在概率分布空间中"几何平均",得到一张既有时域精度又有频域精度的融合谱图。
对输入信号 $x(t)$ 分别用 $K$ 个窗长(如16ms、32ms、64ms)计算STFT,得到 $K$ 张幅度谱 $|S_k(t,f)|^2$。每张谱图归一化为概率分布 $\mu_k$(总能量归一)。为什么要多个窗长?短窗捕捉瞬态(爆破音、辅音起始),长窗捕捉谐波结构(元音、乐音),任何单一窗长都是对非平稳信号的妥协。
在离散化的时频网格上,定义代价矩阵 $C_{ij} = \|(t_i, f_i) - (t_j, f_j)\|^2$,即时频平面上两点的欧氏距离平方。这里的设计选择是关键:代价函数的形状决定了"融合"的语义——平方欧氏距离意味着我们惩罚能量的"长距离搬运",鼓励局部对齐,这与人耳感知的局部性一致。
固定权重 $\lambda_k$,用迭代算法求解Wasserstein重心。核心是交替更新:
初始化 u_k = 1 (所有k) for iter in range(max_iter): for k in range(K): v_k = mu_k / (K_eps @ u_k) # K_eps = exp(-C/eps) u_k = (prod_{j!=k} (K_eps @ v_j))^{lambda_k} bar_mu = prod_k (K_eps @ v_k)^{lambda_k}每次迭代复杂度 $O(Kn^2)$,通常20-50次迭代收敛。关键参数:正则化系数 $\epsilon$ 控制平滑程度,过大则退化为线性平均,过小则数值不稳定。
将重心分布 $\bar{\mu}$ 乘以总能量,还原为幅度谱,再结合相位信息(通常取某一参考谱图的相位,或用Griffin-Lim迭代重建)进行ISTFT,得到时域信号。在语音增强场景中,融合谱图直接送入后续模型(如神经网络掩码估计),无需反变换。
在实际系统中,$\lambda_k$ 可以是可学习参数,或根据信号局部特性动态调整(如检测到瞬态时增大短窗权重)。这使得融合策略从静态变为信号自适应,是当前工程实现的主流方向。
最优传输时频融合在语音增强、音乐信息检索和生物医学信号处理中均有落地。Mozilla TTS、ESPnet等开源框架的谱图预处理模块已有多分辨率融合的实验性实现。更深远的价值在于:它提供了一种"几何感知"的信号融合范式,比线性融合在任何含有峰结构的信号上都更优越,这一原理可推广到任何需要融合多视角测量的场景,如多麦克风阵列、多传感器融合。
当前热点包括:①神经OT(用网络参数化传输映射,避免离散化误差);②在流式/实时场景下的在线Wasserstein重心计算(当前批处理假设限制了低延迟应用);③将OT融合层端到端嵌入神经网络(可微OT层);④开放问题:如何在相位域而非幅度域应用OT,以及如何处理复值谱图的几何结构。