知识讲堂 · Jae Daily

算法理论第一讲

最优传输音频距离

就像用GPS直线距离（FAD）和用实际道路导航距离（OTAD）衡量两城市的"远近"——山区里直线1公里可能要绕行10公里，感知空间里的"捷径"同样不是直线。

历史演进

生成模型评估长期面临一个根本矛盾：人类感知是非线性、多维度的，而主流度量却假设特征空间服从高斯分布并用欧氏距离衡量差异——这一假设在音频领域尤为失真。

2002

Fréchet距离的统计基础

法国数学家Maurice Fréchet早在1906年定义了函数空间中的距离概念，但将其用于评估生成模型的关键一步来自2002年前后对Wasserstein-2距离的统计理论整合。Wasserstein距离衡量将一个概率分布"搬运"到另一个分布所需的最小代价，天然具备几何意义。其核心公式 $W_2(\mu,\nu)^2 = \inf_{\gamma \in \Gamma(\mu,\nu)} \int \|x-y\|^2 d\gamma(x,y)$ 中，$\Gamma(\mu,\nu)$ 是所有联合分布的集合，优化目标是找到最优"搬运方案"。

2017

FID横空出世，奠定图像评估范式

Heusel等人在NeurIPS 2017提出Fréchet Inception Distance（FID），将Wasserstein-2距离在高斯假设下闭合求解：若两个分布均为高斯，$W_2^2 = \|\mu_1-\mu_2\|^2 + \text{tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1\Sigma_2)^{1/2})$。这一公式计算简单、可复现，迅速成为图像生成评估的黄金标准。其成功掩盖了一个核心缺陷：Inception特征空间并不真正服从高斯分布，且欧氏距离不反映感知相似性。

2019

FAD将FID范式移植到音频

Google Research的Kilgour等人在INTERSPEECH 2019提出Fréchet Audio Distance（FAD），用VGGish替换Inception网络，将同样的高斯+欧氏框架搬到音频领域。FAD迅速成为音乐生成、语音合成评估的标配。然而音频特征空间的非高斯性比图像更严重——音色、节奏、情感等维度在嵌入空间中形成高度非线性的流形结构，高斯假设带来的偏差更大。

2022-2024

黎曼几何与最优传输的融合

随着扩散模型在音频生成中的爆发，评估精度的需求急剧上升。研究者开始将黎曼几何引入特征空间度量：在流形上，两点间的"距离"不是直线而是测地线，由度量张量 $g_{ij}(x)$ 决定。学习一个数据自适应的黎曼度量，再在此度量下求解最优传输，理论上能更忠实地捕捉感知差异。2024年前后，多篇工作（包括今日论文[23]）将这一思路系统化，提出可学习黎曼地面度量的最优传输音频距离，标志着音频评估从"借用图像工具"走向"音频原生度量"的范式转变。

核心思想

在音频特征空间中学习一个数据自适应的黎曼度量张量，用它替代欧氏距离作为最优传输的"地面代价"，从而让分布间距离真正反映人类感知的非线性几何结构，而非高斯假设下的线性近似。

数学结构

设真实音频分布为 $\mu$，生成音频分布为 $\nu$，均定义在特征空间 $\mathcal{X} \subset \mathbb{R}^d$ 上。 标准FAD的局限：FAD假设 $\mu \sim \mathcal{N}(\mu_1, \Sigma_1)$，$\nu \sim \mathcal{N}(\mu_2, \Sigma_2)$，闭合解为： $$\text{FAD} = \|\mu_1 - \mu_2\|_2^2 + \text{tr}\!\left(\Sigma_1 + \Sigma_2 - 2(\Sigma_1\Sigma_2)^{1/2}\right)$$ 这里地面代价是欧氏距离 $c(x,y)=\|x-y\|^2$，隐含假设特征空间各向同性。 黎曼最优传输：引入可学习度量张量场 $G: \mathcal{X} \to \mathbb{S}_{++}^d$（正定矩阵值函数），定义黎曼地面代价： $$c_G(x,y) = \int_0^1 \dot{\gamma}(t)^\top G(\gamma(t))\, \dot{\gamma}(t)\, dt$$ 其中 $\gamma$ 是连接 $x,y$ 的测地线。最优传输距离变为： $$\text{OTAD}(\mu,\nu) = \inf_{\gamma \in \Gamma(\mu,\nu)} \mathbb{E}_{(x,y)\sim\gamma}\left[c_G(x,y)\right]$$ 度量学习目标：$G$ 通过最大化与人类感知评分的相关性来学习，例如用MOS（Mean Opinion Score）对作为监督信号： $$\mathcal{L}_G = -\text{corr}\!\left(\text{OTAD}_G(\mu_i, \nu_i),\, \text{MOS}_i\right)$$ 为什么这样定义？欧氏距离对所有方向一视同仁，但音频嵌入空间中"音色方向"的感知敏感度远高于"能量方向"；黎曼度量张量 $G(x)$ 在每个局部点自适应地拉伸/压缩空间，使感知敏感的方向在度量上被放大，从而让传输代价与人耳感知对齐。

工作机制

整体逻辑：先用神经网络学习一个感知对齐的黎曼度量张量，再在该度量下用熵正则化最优传输计算两个音频分布之间的距离，最终得到比FAD更忠实于人类感知的评估分数。

Step 1音频嵌入提取

将真实音频集合 $\{x_i\}$ 和生成音频集合 $\{y_j\}$ 分别通过预训练音频编码器（如EnCodec、CLAP、VGGish）映射到特征空间，得到嵌入集合 $\{z_i^r\}$ 和 $\{z_j^g\}$。为什么不直接用原始波形？高维原始信号的最优传输计算量爆炸，且感知相关特征在嵌入空间中更紧凑。关键细节：编码器的选择直接影响度量的感知对齐程度，CLAP等对比学习编码器因训练目标与语义相关，通常优于纯重建目标的编码器。

Step 2黎曼度量张量学习

设计一个小型神经网络 $f_\theta: \mathbb{R}^d \to \mathbb{R}^{d \times d}$，输出正定矩阵 $G(z) = L(z)L(z)^\top + \epsilon I$（Cholesky参数化保证正定性）。用人类感知评分对（如MUSHRA、MOS）作为弱监督，最小化预测距离与感知评分的排序损失（如Spearman相关的负值）。为什么用排序损失而非回归？感知评分的绝对值因评测者和场景而异，但相对排序更稳定，排序损失对尺度不变。

Step 3熵正则化最优传输求解

直接求解最优传输是NP难问题。实践中用Sinkhorn算法求解熵正则化版本：

python # 伪代码：Sinkhorn迭代 C = compute_cost_matrix(Z_real, Z_gen, G)  # [n, m] 代价矩阵 K = exp(-C / epsilon)  # 吉布斯核 u, v = ones(n), ones(m) for _ in range(num_iters):     u = a / (K @ v)   # a: 真实分布权重     v = b / (K.T @ u) # b: 生成分布权重 transport_plan = diag(u) @ K @ diag(v) OTAD = sum(transport_plan * C)

正则化参数 $\epsilon$ 控制传输方案的"模糊度"：$\epsilon \to 0$ 退化为精确OT，$\epsilon \to \infty$ 退化为独立耦合。实践中 $\epsilon \in [0.01, 0.1]$ 在精度和收敛速度间取得平衡。

Step 4测地线近似与局部线性化

精确计算黎曼测地线代价需要求解边值ODE，计算代价高。实践中用局部线性化近似：对于嵌入空间中距离较近的点对，测地线近似为直线，代价近似为 $c_G(x,y) \approx (x-y)^\top \bar{G}(x,y)(x-y)$，其中 $\bar{G}$ 是路径中点处的度量张量。这一近似在嵌入空间曲率较小时误差可控，且将计算复杂度从 $O(d^3)$（ODE求解）降至 $O(d^2)$（矩阵乘法）。

Step 5评估分数输出与校准

最终OTAD分数需要在参考数据集上校准，消除编码器和度量网络引入的系统偏差。常用做法是计算"相对OTAD"：以真实数据集内部子集间的OTAD作为基准，将生成模型的OTAD归一化到该基准上，使不同实验设置下的分数可比。

长远价值

FAD自2019年提出后主导了音乐生成（MusicGen、AudioLDM、Stable Audio）和语音合成的评估体系，但其高斯假设导致的偏差在扩散模型时代愈发明显——扩散模型生成质量已接近真实数据，FAD的分辨率不足。最优传输音频距离的工程价值在于：它为AudioCraft、Suno、Udio等商业音乐生成系统提供了更可靠的离线评估信号，减少对昂贵人工MOS评测的依赖。黎曼度量学习框架还可迁移到视频质量评估（FVD的改进）和语音增强评估（DNSMOS的替代）。

前沿动向

当前开放问题：①度量张量网络的泛化性——在A数据集上学到的 $G$ 能否迁移到B数据集？②计算效率——百万级样本下Sinkhorn迭代仍然昂贵，mini-batch OT的偏差如何修正？③多模态对齐——如何将音频-文本对齐信息融入地面度量？④评估评估者——OTAD本身的可靠性如何用元评估框架验证？这些问题决定了它能否真正取代FAD成为新标准。

工程·思维第二讲

推荐系统推理核内广播优化

▶ YouTube ▶ B站 ↗ 原始论文

就像老师给全班30个学生发同一份讲义——与其让每个学生单独去打印室取一份（30次往返），不如打印一份后在教室里传阅（1次取+29次传递），共享内存就是那个教室。

历史演进

推荐系统推理的核心瓶颈从来不是算力，而是内存带宽——这一判断驱动了过去十年工业界对嵌入表查找的持续优化。

2012-2016

嵌入表成为推荐系统的核心组件

随着Facebook、Google将深度学习引入推荐系统（YouTube DNN 2016，DLRM 2019的前身），嵌入表（Embedding Table）成为模型参数量的主体：一个工业级推荐模型可能有数百个特征域，每个域对应一张嵌入表，总参数量达TB级。推理时，系统需要对每个请求的用户特征做嵌入查找（Embedding Lookup），本质是稀疏的内存随机访问，GPU的高并行计算能力完全用不上，瓶颈转移到HBM带宽。

2019

DLRM揭示推荐推理的内存墙

Meta AI在2019年发布DLRM（Deep Learning Recommendation Model），系统分析了推荐模型的计算特征：嵌入查找占据了80%以上的推理延迟，而这部分操作的算术强度（FLOP/Byte）极低，远低于GPU的roofline模型中的计算密集区间。这一分析奠定了"推荐推理是内存带宽受限"的工程共识，推动了HBM容量扩展、嵌入压缩（量化、哈希）等方向的大量工作。

2020-2023

用户嵌入复制问题的浮现

随着个性化推荐向"一次请求，多路排序"演进——同一用户的请求需要同时对数百个候选物品打分——一个隐蔽的低效出现了：用户嵌入（User Embedding）对同一请求中的所有候选物品是相同的，但在GPU核函数实现中，每个物品的打分计算都会独立读取一次用户嵌入，导致同一数据被重复从HBM搬运数百次。这在batch内部形成了大量冗余内存访问，但因为隐藏在核函数内部，传统的系统级优化（如请求合并、缓存）无法触及。

2024-2025

核-模型-系统协同设计的兴起

Meta、ByteDance、阿里等公司的推理团队开始将优化粒度从"系统调度"下沉到"核函数内部数据流"。核内广播优化（Intra-kernel Broadcast Optimization）正是这一趋势的代表：通过在GPU共享内存（Shared Memory）层面识别并广播用户嵌入，消除batch内的冗余HBM访问。这要求核函数设计、模型计算图结构、系统调度三者协同——单独优化任何一层都无法实现，标志着推荐推理优化进入"协同设计"时代。

核心思想

在GPU核函数内部，识别同一batch中被多个计算线程重复读取的用户嵌入，将其一次性加载到共享内存后广播给所有相关线程，用片上高速存储替代重复的HBM访问，从根本上消除推荐推理中最大的内存带宽浪费。

数学结构

设一次推理请求包含 $B$ 个候选物品，用户嵌入维度为 $d_u$，物品嵌入维度为 $d_i$，HBM带宽为 $BW$（GB/s），嵌入精度为 $p$ 字节（如FP16则 $p=2$）。 优化前的内存访问量：每个物品的打分计算独立读取用户嵌入，总读取量为： $$\text{Bytes}_{\text{before}} = B \cdot d_u \cdot p + B \cdot d_i \cdot p$$ 用户嵌入被读取 $B$ 次，形成 $O(B \cdot d_u)$ 的冗余访问。 优化后的内存访问量：用户嵌入只从HBM读取一次，存入共享内存后广播： $$\text{Bytes}_{\text{after}} = d_u \cdot p + B \cdot d_i \cdot p$$ 节省的带宽为： $$\Delta\text{Bytes} = (B-1) \cdot d_u \cdot p$$ 延迟模型：在内存带宽受限场景下，推理延迟近似为： $$T \approx \frac{\text{Bytes}}{BW}$$ 带宽节省比例为： $$\eta = \frac{(B-1) \cdot d_u}{B \cdot d_u + B \cdot d_i} = \frac{(B-1)d_u}{B(d_u + d_i)}$$ 当 $B=256$，$d_u=512$，$d_i=64$ 时，$\eta \approx \frac{255 \times 512}{256 \times 576} \approx 86\%$ 的用户嵌入带宽被节省，总体带宽节省约 $\frac{255 \times 512}{256 \times 576} \times \frac{512}{576} \approx 78\%$。为什么这个数字如此显著？因为工业推荐系统的 $B$（候选数）通常在128-1024之间，而 $d_u$ 往往远大于 $d_i$，使得用户嵌入的冗余访问占总内存访问的绝大部分。

工作机制

整体逻辑：通过核-模型-系统三层协同，在GPU核函数内部实现用户嵌入的"一读多用"，将原本 $O(B)$ 次的HBM访问压缩为1次，用共享内存的广播替代重复的全局内存读取。

Step 1计算图分析与广播机会识别

在模型计算图（如TorchScript IR或XLA HLO）中，静态分析哪些张量在一个batch内对所有样本是相同的（即"batch-invariant"张量）。用户嵌入是最典型的例子：同一请求的用户ID相同，因此用户嵌入在整个batch内恒定。这一分析需要在编译期完成，而非运行时——运行时分析的开销会抵消优化收益。实现细节：在计算图中为batch-invariant张量打标记（tag），下游核函数生成时参考这些标记决定数据加载策略。

Step 2核函数内共享内存分配

在CUDA核函数中，将标记为batch-invariant的张量分配到共享内存（Shared Memory，片上SRAM，延迟约为HBM的1/100）。关键约束：共享内存容量有限（A100上每个SM约164KB），用户嵌入维度 $d_u$ 不能超过可用共享内存大小。当 $d_u$ 过大时，需要分块（tiling）处理：将用户嵌入切分为若干块，每块依次加载到共享内存，所有物品计算完该块后再加载下一块。

cuda // 伪代码：核内广播 __shared__ float user_emb[D_U];  // 共享内存分配 // 只有第一个线程块的第一个线程加载用户嵌入 if (threadIdx.x == 0 && blockIdx.x == 0) {     load_from_hbm(user_emb, user_embedding_ptr, D_U); } __syncthreads();  // 同步，确保所有线程可见 // 每个线程处理一个候选物品，直接从共享内存读取用户嵌入 float score = dot(user_emb, item_emb[threadIdx.x]);

Step 3线程块与Warp调度协同

广播操作需要线程同步（`__syncthreads()`），这会引入同步开销。优化策略：将batch内的所有候选物品分配到同一个线程块（Thread Block）内，使广播只需块内同步而非跨块同步（跨块同步需要全局内存屏障，代价高出数倍）。这要求模型设计时将batch size $B$ 控制在单个线程块的线程数上限（通常1024）以内，或采用多级广播（先块内广播，再跨块通过L2缓存复用）。

Step 4模型结构适配

核内广播优化对模型结构有隐式约束：用户特征和物品特征必须在计算图中保持分离，直到进入打分核函数。如果模型在嵌入查找后立即做用户-物品特征融合（如早期交叉），用户嵌入就不再是batch-invariant的，广播机会消失。这要求模型设计者在架构选择时考虑推理效率：采用"late interaction"结构（如DSSM、ColBERT风格）而非"early fusion"结构，不仅有助于检索效率，也为核内广播创造条件。

Step 5系统级调度配合

单次推理请求的batch size $B$ 由上游调度系统决定。为最大化广播收益，调度系统需要将同一用户的所有候选物品打包到同一个推理batch中，避免跨batch分散。这需要在请求路由层面做"用户亲和性调度"（User-affinity Scheduling）：同一用户的请求优先路由到同一GPU实例，减少跨实例的用户嵌入重复计算。

长远价值

这一优化模式在Meta DLRM、ByteDance推荐系统、阿里巴巴DIEN等工业级推荐推理系统中均有体现，是"算法-编译-系统"协同设计思想的典型案例。其核心价值不在于某个具体技巧，而在于揭示了一类普遍规律：凡是"一对多"计算模式（一个共享输入对应多个独立输出），都存在类似的广播优化机会。这一思路可迁移到多模态推理（共享视觉编码器输出）、RAG系统（共享查询嵌入）等场景，长期价值显著。

前沿动向

当前前沿：①自动化识别——编译器能否自动发现所有batch-invariant张量而无需手动标注？TVM、XLA的张量分析框架正在探索这一方向。②动态batch——当batch size在运行时变化时，如何动态调整共享内存分配策略？③多GPU扩展——在tensor parallel场景下，广播需要跨GPU协调，NVLink带宽成为新瓶颈。④与KV Cache的协同——LLM+推荐混合系统中，用户历史的KV Cache与嵌入广播如何统一管理？

最优传输音频距离

推荐系统推理核内广播优化

往期讲解档案 92 个知识点