知识讲堂

← 返回日报
算法理论 第一讲

最优传输音频距离

就像用GPS直线距离(FAD)和用实际道路导航距离(OTAD)衡量两城市的"远近"——山区里直线1公里可能要绕行10公里,感知空间里的"捷径"同样不是直线。
历史演进

生成模型评估长期面临一个根本矛盾:人类感知是非线性、多维度的,而主流度量却假设特征空间服从高斯分布并用欧氏距离衡量差异——这一假设在音频领域尤为失真。

2002
Fréchet距离的统计基础

法国数学家Maurice Fréchet早在1906年定义了函数空间中的距离概念,但将其用于评估生成模型的关键一步来自2002年前后对Wasserstein-2距离的统计理论整合。Wasserstein距离衡量将一个概率分布"搬运"到另一个分布所需的最小代价,天然具备几何意义。其核心公式 $W_2(\mu,\nu)^2 = \inf_{\gamma \in \Gamma(\mu,\nu)} \int \|x-y\|^2 d\gamma(x,y)$ 中,$\Gamma(\mu,\nu)$ 是所有联合分布的集合,优化目标是找到最优"搬运方案"。

2017
FID横空出世,奠定图像评估范式

Heusel等人在NeurIPS 2017提出Fréchet Inception Distance(FID),将Wasserstein-2距离在高斯假设下闭合求解:若两个分布均为高斯,$W_2^2 = \|\mu_1-\mu_2\|^2 + \text{tr}(\Sigma_1 + \Sigma_2 - 2(\Sigma_1\Sigma_2)^{1/2})$。这一公式计算简单、可复现,迅速成为图像生成评估的黄金标准。其成功掩盖了一个核心缺陷:Inception特征空间并不真正服从高斯分布,且欧氏距离不反映感知相似性。

2019
FAD将FID范式移植到音频

Google Research的Kilgour等人在INTERSPEECH 2019提出Fréchet Audio Distance(FAD),用VGGish替换Inception网络,将同样的高斯+欧氏框架搬到音频领域。FAD迅速成为音乐生成、语音合成评估的标配。然而音频特征空间的非高斯性比图像更严重——音色、节奏、情感等维度在嵌入空间中形成高度非线性的流形结构,高斯假设带来的偏差更大。

2022-2024
黎曼几何与最优传输的融合

随着扩散模型在音频生成中的爆发,评估精度的需求急剧上升。研究者开始将黎曼几何引入特征空间度量:在流形上,两点间的"距离"不是直线而是测地线,由度量张量 $g_{ij}(x)$ 决定。学习一个数据自适应的黎曼度量,再在此度量下求解最优传输,理论上能更忠实地捕捉感知差异。2024年前后,多篇工作(包括今日论文[23])将这一思路系统化,提出可学习黎曼地面度量的最优传输音频距离,标志着音频评估从"借用图像工具"走向"音频原生度量"的范式转变。

核心思想
在音频特征空间中学习一个数据自适应的黎曼度量张量,用它替代欧氏距离作为最优传输的"地面代价",从而让分布间距离真正反映人类感知的非线性几何结构,而非高斯假设下的线性近似。
数学结构

设真实音频分布为 $\mu$,生成音频分布为 $\nu$,均定义在特征空间 $\mathcal{X} \subset \mathbb{R}^d$ 上。 标准FAD的局限:FAD假设 $\mu \sim \mathcal{N}(\mu_1, \Sigma_1)$,$\nu \sim \mathcal{N}(\mu_2, \Sigma_2)$,闭合解为: $$\text{FAD} = \|\mu_1 - \mu_2\|_2^2 + \text{tr}\!\left(\Sigma_1 + \Sigma_2 - 2(\Sigma_1\Sigma_2)^{1/2}\right)$$ 这里地面代价是欧氏距离 $c(x,y)=\|x-y\|^2$,隐含假设特征空间各向同性。 黎曼最优传输:引入可学习度量张量场 $G: \mathcal{X} \to \mathbb{S}_{++}^d$(正定矩阵值函数),定义黎曼地面代价: $$c_G(x,y) = \int_0^1 \dot{\gamma}(t)^\top G(\gamma(t))\, \dot{\gamma}(t)\, dt$$ 其中 $\gamma$ 是连接 $x,y$ 的测地线。最优传输距离变为: $$\text{OTAD}(\mu,\nu) = \inf_{\gamma \in \Gamma(\mu,\nu)} \mathbb{E}_{(x,y)\sim\gamma}\left[c_G(x,y)\right]$$ 度量学习目标:$G$ 通过最大化与人类感知评分的相关性来学习,例如用MOS(Mean Opinion Score)对作为监督信号: $$\mathcal{L}_G = -\text{corr}\!\left(\text{OTAD}_G(\mu_i, \nu_i),\, \text{MOS}_i\right)$$ 为什么这样定义?欧氏距离对所有方向一视同仁,但音频嵌入空间中"音色方向"的感知敏感度远高于"能量方向";黎曼度量张量 $G(x)$ 在每个局部点自适应地拉伸/压缩空间,使感知敏感的方向在度量上被放大,从而让传输代价与人耳感知对齐。

工作机制

整体逻辑:先用神经网络学习一个感知对齐的黎曼度量张量,再在该度量下用熵正则化最优传输计算两个音频分布之间的距离,最终得到比FAD更忠实于人类感知的评估分数。

Step 1音频嵌入提取

将真实音频集合 $\{x_i\}$ 和生成音频集合 $\{y_j\}$ 分别通过预训练音频编码器(如EnCodec、CLAP、VGGish)映射到特征空间,得到嵌入集合 $\{z_i^r\}$ 和 $\{z_j^g\}$。为什么不直接用原始波形?高维原始信号的最优传输计算量爆炸,且感知相关特征在嵌入空间中更紧凑。关键细节:编码器的选择直接影响度量的感知对齐程度,CLAP等对比学习编码器因训练目标与语义相关,通常优于纯重建目标的编码器。

Step 2黎曼度量张量学习

设计一个小型神经网络 $f_\theta: \mathbb{R}^d \to \mathbb{R}^{d \times d}$,输出正定矩阵 $G(z) = L(z)L(z)^\top + \epsilon I$(Cholesky参数化保证正定性)。用人类感知评分对(如MUSHRA、MOS)作为弱监督,最小化预测距离与感知评分的排序损失(如Spearman相关的负值)。为什么用排序损失而非回归?感知评分的绝对值因评测者和场景而异,但相对排序更稳定,排序损失对尺度不变。

Step 3熵正则化最优传输求解

直接求解最优传输是NP难问题。实践中用Sinkhorn算法求解熵正则化版本:

python # 伪代码:Sinkhorn迭代 C = compute_cost_matrix(Z_real, Z_gen, G)  # [n, m] 代价矩阵 K = exp(-C / epsilon)  # 吉布斯核 u, v = ones(n), ones(m) for _ in range(num_iters):     u = a / (K @ v)   # a: 真实分布权重     v = b / (K.T @ u) # b: 生成分布权重 transport_plan = diag(u) @ K @ diag(v) OTAD = sum(transport_plan * C)

正则化参数 $\epsilon$ 控制传输方案的"模糊度":$\epsilon \to 0$ 退化为精确OT,$\epsilon \to \infty$ 退化为独立耦合。实践中 $\epsilon \in [0.01, 0.1]$ 在精度和收敛速度间取得平衡。

Step 4测地线近似与局部线性化

精确计算黎曼测地线代价需要求解边值ODE,计算代价高。实践中用局部线性化近似:对于嵌入空间中距离较近的点对,测地线近似为直线,代价近似为 $c_G(x,y) \approx (x-y)^\top \bar{G}(x,y)(x-y)$,其中 $\bar{G}$ 是路径中点处的度量张量。这一近似在嵌入空间曲率较小时误差可控,且将计算复杂度从 $O(d^3)$(ODE求解)降至 $O(d^2)$(矩阵乘法)。

Step 5评估分数输出与校准

最终OTAD分数需要在参考数据集上校准,消除编码器和度量网络引入的系统偏差。常用做法是计算"相对OTAD":以真实数据集内部子集间的OTAD作为基准,将生成模型的OTAD归一化到该基准上,使不同实验设置下的分数可比。

长远价值

FAD自2019年提出后主导了音乐生成(MusicGen、AudioLDM、Stable Audio)和语音合成的评估体系,但其高斯假设导致的偏差在扩散模型时代愈发明显——扩散模型生成质量已接近真实数据,FAD的分辨率不足。最优传输音频距离的工程价值在于:它为AudioCraft、Suno、Udio等商业音乐生成系统提供了更可靠的离线评估信号,减少对昂贵人工MOS评测的依赖。黎曼度量学习框架还可迁移到视频质量评估(FVD的改进)和语音增强评估(DNSMOS的替代)。

前沿动向

当前开放问题:①度量张量网络的泛化性——在A数据集上学到的 $G$ 能否迁移到B数据集?②计算效率——百万级样本下Sinkhorn迭代仍然昂贵,mini-batch OT的偏差如何修正?③多模态对齐——如何将音频-文本对齐信息融入地面度量?④评估评估者——OTAD本身的可靠性如何用元评估框架验证?这些问题决定了它能否真正取代FAD成为新标准。

工程·思维 第二讲

推荐系统推理核内广播优化

就像老师给全班30个学生发同一份讲义——与其让每个学生单独去打印室取一份(30次往返),不如打印一份后在教室里传阅(1次取+29次传递),共享内存就是那个教室。
历史演进

推荐系统推理的核心瓶颈从来不是算力,而是内存带宽——这一判断驱动了过去十年工业界对嵌入表查找的持续优化。

2012-2016
嵌入表成为推荐系统的核心组件

随着Facebook、Google将深度学习引入推荐系统(YouTube DNN 2016,DLRM 2019的前身),嵌入表(Embedding Table)成为模型参数量的主体:一个工业级推荐模型可能有数百个特征域,每个域对应一张嵌入表,总参数量达TB级。推理时,系统需要对每个请求的用户特征做嵌入查找(Embedding Lookup),本质是稀疏的内存随机访问,GPU的高并行计算能力完全用不上,瓶颈转移到HBM带宽。

2019
DLRM揭示推荐推理的内存墙

Meta AI在2019年发布DLRM(Deep Learning Recommendation Model),系统分析了推荐模型的计算特征:嵌入查找占据了80%以上的推理延迟,而这部分操作的算术强度(FLOP/Byte)极低,远低于GPU的roofline模型中的计算密集区间。这一分析奠定了"推荐推理是内存带宽受限"的工程共识,推动了HBM容量扩展、嵌入压缩(量化、哈希)等方向的大量工作。

2020-2023
用户嵌入复制问题的浮现

随着个性化推荐向"一次请求,多路排序"演进——同一用户的请求需要同时对数百个候选物品打分——一个隐蔽的低效出现了:用户嵌入(User Embedding)对同一请求中的所有候选物品是相同的,但在GPU核函数实现中,每个物品的打分计算都会独立读取一次用户嵌入,导致同一数据被重复从HBM搬运数百次。这在batch内部形成了大量冗余内存访问,但因为隐藏在核函数内部,传统的系统级优化(如请求合并、缓存)无法触及。

2024-2025
核-模型-系统协同设计的兴起

Meta、ByteDance、阿里等公司的推理团队开始将优化粒度从"系统调度"下沉到"核函数内部数据流"。核内广播优化(Intra-kernel Broadcast Optimization)正是这一趋势的代表:通过在GPU共享内存(Shared Memory)层面识别并广播用户嵌入,消除batch内的冗余HBM访问。这要求核函数设计、模型计算图结构、系统调度三者协同——单独优化任何一层都无法实现,标志着推荐推理优化进入"协同设计"时代。

核心思想
在GPU核函数内部,识别同一batch中被多个计算线程重复读取的用户嵌入,将其一次性加载到共享内存后广播给所有相关线程,用片上高速存储替代重复的HBM访问,从根本上消除推荐推理中最大的内存带宽浪费。
数学结构

设一次推理请求包含 $B$ 个候选物品,用户嵌入维度为 $d_u$,物品嵌入维度为 $d_i$,HBM带宽为 $BW$(GB/s),嵌入精度为 $p$ 字节(如FP16则 $p=2$)。 优化前的内存访问量:每个物品的打分计算独立读取用户嵌入,总读取量为: $$\text{Bytes}_{\text{before}} = B \cdot d_u \cdot p + B \cdot d_i \cdot p$$ 用户嵌入被读取 $B$ 次,形成 $O(B \cdot d_u)$ 的冗余访问。 优化后的内存访问量:用户嵌入只从HBM读取一次,存入共享内存后广播: $$\text{Bytes}_{\text{after}} = d_u \cdot p + B \cdot d_i \cdot p$$ 节省的带宽为: $$\Delta\text{Bytes} = (B-1) \cdot d_u \cdot p$$ 延迟模型:在内存带宽受限场景下,推理延迟近似为: $$T \approx \frac{\text{Bytes}}{BW}$$ 带宽节省比例为: $$\eta = \frac{(B-1) \cdot d_u}{B \cdot d_u + B \cdot d_i} = \frac{(B-1)d_u}{B(d_u + d_i)}$$ 当 $B=256$,$d_u=512$,$d_i=64$ 时,$\eta \approx \frac{255 \times 512}{256 \times 576} \approx 86\%$ 的用户嵌入带宽被节省,总体带宽节省约 $\frac{255 \times 512}{256 \times 576} \times \frac{512}{576} \approx 78\%$。 为什么这个数字如此显著?因为工业推荐系统的 $B$(候选数)通常在128-1024之间,而 $d_u$ 往往远大于 $d_i$,使得用户嵌入的冗余访问占总内存访问的绝大部分。

工作机制

整体逻辑:通过核-模型-系统三层协同,在GPU核函数内部实现用户嵌入的"一读多用",将原本 $O(B)$ 次的HBM访问压缩为1次,用共享内存的广播替代重复的全局内存读取。

Step 1计算图分析与广播机会识别

在模型计算图(如TorchScript IR或XLA HLO)中,静态分析哪些张量在一个batch内对所有样本是相同的(即"batch-invariant"张量)。用户嵌入是最典型的例子:同一请求的用户ID相同,因此用户嵌入在整个batch内恒定。这一分析需要在编译期完成,而非运行时——运行时分析的开销会抵消优化收益。实现细节:在计算图中为batch-invariant张量打标记(tag),下游核函数生成时参考这些标记决定数据加载策略。

Step 2核函数内共享内存分配

在CUDA核函数中,将标记为batch-invariant的张量分配到共享内存(Shared Memory,片上SRAM,延迟约为HBM的1/100)。关键约束:共享内存容量有限(A100上每个SM约164KB),用户嵌入维度 $d_u$ 不能超过可用共享内存大小。当 $d_u$ 过大时,需要分块(tiling)处理:将用户嵌入切分为若干块,每块依次加载到共享内存,所有物品计算完该块后再加载下一块。

cuda // 伪代码:核内广播 __shared__ float user_emb[D_U];  // 共享内存分配 // 只有第一个线程块的第一个线程加载用户嵌入 if (threadIdx.x == 0 && blockIdx.x == 0) {     load_from_hbm(user_emb, user_embedding_ptr, D_U); } __syncthreads();  // 同步,确保所有线程可见 // 每个线程处理一个候选物品,直接从共享内存读取用户嵌入 float score = dot(user_emb, item_emb[threadIdx.x]);
Step 3线程块与Warp调度协同

广播操作需要线程同步(`__syncthreads()`),这会引入同步开销。优化策略:将batch内的所有候选物品分配到同一个线程块(Thread Block)内,使广播只需块内同步而非跨块同步(跨块同步需要全局内存屏障,代价高出数倍)。这要求模型设计时将batch size $B$ 控制在单个线程块的线程数上限(通常1024)以内,或采用多级广播(先块内广播,再跨块通过L2缓存复用)。

Step 4模型结构适配

核内广播优化对模型结构有隐式约束:用户特征和物品特征必须在计算图中保持分离,直到进入打分核函数。如果模型在嵌入查找后立即做用户-物品特征融合(如早期交叉),用户嵌入就不再是batch-invariant的,广播机会消失。这要求模型设计者在架构选择时考虑推理效率:采用"late interaction"结构(如DSSM、ColBERT风格)而非"early fusion"结构,不仅有助于检索效率,也为核内广播创造条件。

Step 5系统级调度配合

单次推理请求的batch size $B$ 由上游调度系统决定。为最大化广播收益,调度系统需要将同一用户的所有候选物品打包到同一个推理batch中,避免跨batch分散。这需要在请求路由层面做"用户亲和性调度"(User-affinity Scheduling):同一用户的请求优先路由到同一GPU实例,减少跨实例的用户嵌入重复计算。

长远价值

这一优化模式在Meta DLRM、ByteDance推荐系统、阿里巴巴DIEN等工业级推荐推理系统中均有体现,是"算法-编译-系统"协同设计思想的典型案例。其核心价值不在于某个具体技巧,而在于揭示了一类普遍规律:凡是"一对多"计算模式(一个共享输入对应多个独立输出),都存在类似的广播优化机会。这一思路可迁移到多模态推理(共享视觉编码器输出)、RAG系统(共享查询嵌入)等场景,长期价值显著。

前沿动向

当前前沿:①自动化识别——编译器能否自动发现所有batch-invariant张量而无需手动标注?TVM、XLA的张量分析框架正在探索这一方向。②动态batch——当batch size在运行时变化时,如何动态调整共享内存分配策略?③多GPU扩展——在tensor parallel场景下,广播需要跨GPU协调,NVLink带宽成为新瓶颈。④与KV Cache的协同——LLM+推荐混合系统中,用户历史的KV Cache与嵌入广播如何统一管理?

往期讲解档案 92 个知识点

2026年05月08日扩散Transformer异常值令牌Outlier TokensDiffusion TransformerAttention Sink
2026年05月08日WebRTC低延迟语音工程WebRTCReal-time AudioJitter Buffer
2026年05月07日音素级深度伪造检测原理Phoneme-level Deepfake DetectionSelf-supervised Speech EmbeddingEmotional Speech Synthesis
2026年05月07日AI训练网络协议工程哲学Multi-path Reliable ConnectionRDMA over EthernetCollective Communication
2026年05月05日对抗解纠缠说话人验证Speaker DisentanglementAdversarial TrainingCross-lingual Verification
2026年05月05日LLM推理为何用语言Chain-of-ThoughtLatent ReasoningToken Space
2026年05月01日跨架构知识蒸馏原理Cross-Architecture DistillationDiffusion LMAutoregressive Teacher
2026年05月01日AI评估计算瓶颈工程LLM Evaluation InfrastructureBenchmark SaturationEval Compute Bottleneck
2026年04月29日平衡传输语音增强Schrödinger BridgeStochastic Differential EquationSpeech Enhancement
2026年04月29日深度学习理论形成Deep Learning TheoryLoss LandscapeNeural Tangent Kernel
2026年04月28日语义进度函数原理Semantic Progress FunctionDiffusion TrajectoryNonlinear Denoising
2026年04月28日大模型OCR选型认知OCR BenchmarkModel Selection BiasCost-Performance Tradeoff
2026年04月27日说话人验证核心原理Speaker Verificationd-vectorECAPA-TDNN
2026年04月27日GPU核函数语言选型GPU Kernel EngineeringCuTe DSLCUTLASS
2026年04月26日时长控制TTS原理Duration ModelingProsody ControlAutoregressive TTS
2026年04月26日AI研究价值评估困境Research EvaluationPublication BiasPeer Review
2026年04月25日全双工对话建模原理Full-Duplex DialogueTurn-TakingVoice Activity Detection
2026年04月25日流式TTS文本规范化Text NormalizationStreaming TTSInverse Text Normalization
2026年04月24日离散扩散语言模型原理Discrete DiffusionMasked Diffusion Language ModelAbsorbing Diffusion
2026年04月24日跟进ML研究的认知工程Information OverloadResearch TriageSpaced Repetition
2026年04月23日一致性正则化ASR原理Consistency RegularizationUnified ASRTransducer
2026年04月23日流式TTS文本规范化工程Text NormalizationStreaming TTSInverse Text Normalization
2026年04月22日神经编码器伪影检测Neural Audio CodecArtifact DetectionForensic Residual
2026年04月22日AI研究复现危机工程Reproducibility CrisisML EngineeringExperimental Rigor
2026年04月21日扩散SNR偏差校正原理Signal-to-Noise RatioDiffusion Timestep BiasScore Matching
2026年04月21日论文复现危机根治工程Reproducibility CrisisAblation StudyExperimental Rigor
2026年04月20日音频时序定位原理Temporal GroundingAudio Event DetectionCross-modal Alignment
2026年04月20日论文复现危机根因Reproducibility CrisisBenchmark OverfittingEvaluation Validity
2026年04月19日流匹配对齐原理Flow Matching AlignmentReward Gradient BackpropagationTrajectory Optimization
2026年04月19日分布式训练任务编排Distributed Training OrchestrationCluster SchedulingFault Tolerance
2026年04月18日最优传输信号融合Optimal TransportWasserstein BarycenterTime-Frequency Resolution
2026年04月18日分布式训练任务调度Distributed Training OrchestrationJob SchedulingCluster Resource Management
2026年04月17日扩散语音识别原理Masked Diffusion Language ModelDiscrete DiffusionASR Decoding
2026年04月17日Mel尺度跨文化偏差Mel ScalePsychoacousticsCultural Bias
2026年04月16日音频水印对抗原理Audio WatermarkingSemi-FragilePsychoacoustic Masking
2026年04月16日推测解码草稿树工程Speculative DecodingDraft TreeBlock Diffusion
2026年04月15日对抗流模型原理Continuous Normalizing FlowAdversarial TrainingFlow Matching
2026年04月15日代理状态可观测性工程Agent ObservabilityDistributed TracingState Machine Debugging
2026年04月14日过程奖励模型原理Process Reward ModelStep-level SupervisionReasoning Chain
2026年04月13日离散令牌音源分离Discrete Token ModelingSource SeparationConditional Generation
2026年04月13日超算API工程哲学Distributed Training OrchestrationSupercomputer API DesignFault Tolerance
2026年04月12日信息瓶颈原理演进Information BottleneckVariational IBDisentanglement
2026年04月12日Safetensors格式工程哲学SafetensorsModel SerializationMemory-Mapped IO
2026年04月11日归一化层演进原理Layer NormalizationRMS NormalizationBatch Normalization
2026年04月11日GEMM自调优后端工程GEMM AutotuningTorchInductorCuteDSL
2026年04月10日多令牌预测原理Multi-Token PredictionSpeculative DecodingMedusa Heads
2026年04月10日ML从业者认知校准Calibration BiasCapability IllusionBenchmark Overfitting
2026年04月09日编码器-解码器LM原理Encoder-Decoder LMCross-Attention ConditioningSequence-to-Sequence
2026年04月09日torch.compile归一化优化torch.compileLayerNormRMSNorm
2026年04月08日KV缓存压缩原理KV Cache CompressionRoPE Position EncodingAttention Score Estimation
2026年04月08日音效基础模型工程Sound Effect GenerationFoundation ModelFoley Synthesis
2026年04月07日可验证奖励强化学习Verifiable RewardRLVRProcess Reward Model
2026年04月07日LLM技能退化认知机制Cognitive OffloadingSkill AtrophyDesirable Difficulty
2026年04月06日音素可解释说话人验证Phoneme-aware Speaker VerificationInterpretable BiometricsLocal Acoustic Evidence
2026年04月06日音频幻觉攻击评估Hallucination AttackAudio Language Model ReliabilityAdversarial Probing
2026年04月05日潜在空间推理原理Latent Space ReasoningContinuous RepresentationToken-Free Inference
2026年04月05日mRNA模型极低成本训练Biology Foundation ModelCross-Species TransferLow-Budget Training
2026年04月04日编码器-解码器TTS原理Encoder-Decoder TTSText ConditioningPositional Capacity
2026年04月04日大模型训练的MXFP8工程MXFP8MicroscalingMixed Precision Training
2026年04月03日在线知识蒸馏原理Online DistillationKnowledge TransferStudent-Teacher
2026年04月03日MoE专家并行调度工程Expert ParallelismMixture of ExpertsAll-to-All Communication
2026年04月02日波形潜空间扩散TTSwaveform latent diffusionnon-autoregressive TTSlatent space acoustic modeling
2026年04月02日波形隐空间扩散原理waveform latent spacediffusion TTSVAE audio codec
2026年04月02日LLM量化权重工程weight quantizationLLM compression4-bit quantization
2026年04月02日扩散语言模型离散生成Discrete DiffusionMasked Diffusion Language ModelNon-autoregressive TTS
2026年04月02日LLM后训练库工程演进RLHF engineeringPPO training stabilityreward hacking
2026年04月02日声学证据瓶颈原理Audio Evidence BottleneckAcoustic GroundingAudio Language Model
2026年04月02日状态空间模型音频建模State Space ModelMambaSelective Scan
2026年04月02日实时语音增强工程选型Real-time Speech EnhancementNoise SuppressionStreaming Inference
2026年04月02日对话上下文压缩原理Context CompressionAbstractive SummarizationCross-Attention Fusion
2026年04月02日说话人匿名化工程Speaker AnonymizationVoice ConversionStreaming Inference
2026年04月02日视听语音识别融合Audio-Visual Speech RecognitionLip ReadingViseme
2026年04月02日GPU训练吞吐加速工程MXFP8MoE TrainingExpert Parallelism
2026年04月01日熵驱动多样性生成diversity samplingtypicality biasrepulsion in latent space
2026年04月01日说话人分割工程选型speaker diarizationbenchmark methodologystreaming ASR pipeline
2026年03月31日转向检测联合建模turn-taking detectionvoice activity detectionjoint acoustic-linguistic modeling
2026年03月31日基准测试的系统性失效benchmark contaminationevaluation validityLLM judge reliability
2026年03月31日扩散模型声学生成diffusion modelscore matchingstochastic differential equation
2026年03月31日TTS开源生态竞争open-weight TTStime-to-first-audiomultilingual speech synthesis
2026年03月30日注意力机制变体演进Multi-Head AttentionGrouped Query AttentionMulti-head Latent Attention
2026年03月30日设备端语音推理架构on-device inferenceExecuTorchvoice agent pipeline
2026年03月29日混合自回归流匹配TTSautoregressive semantic tokensflow matching acoustic decoderhybrid TTS architecture
2026年03月29日NCCL超时诊断方法论NCCL watchdog timeoutdistributed training debuggingcollective communication
2026年03月29日混合架构音频表示Mambastate space modelaudio representation learning
2026年03月29日DeepSeek预训练加速工程MXFP8 trainingexpert parallelismMoE pretraining
2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification