知识讲堂

← 返回日报
算法理论 第一讲

对抗解纠缠说话人验证

就像一位演员被要求"无论用中文还是英文表演,导演只凭声线辨认你"——对抗训练就是那个不断猜你说什么语言的裁判,而你(编码器)要学会让裁判永远猜不出来,同时让导演一眼认出你。
历史演进

说话人验证系统长期面临一个根本矛盾:语音信号天然将"谁在说"与"说什么语言"耦合在同一声学特征中,导致跨语言场景下系统性能大幅下滑——这一矛盾驱动了对抗解纠缠方法的诞生与演进。

2014
梯度反转层的提出

Ganin & Lempitsky 在域适应领域提出梯度反转层(Gradient Reversal Layer, GRL),这是对抗解纠缠的基础工具。其核心思想是:在前向传播时正常传递特征,在反向传播时将梯度乘以 $-\lambda$ 再传给编码器,迫使编码器学习对域标签"无用"的表示。这一机制首次将对抗训练从 GAN 的生成器-判别器框架移植到表示学习领域,无需额外生成网络,计算代价极低。

2017–2018
x-vector 与说话人嵌入的工业化

Snyder 等人在 INTERSPEECH 2018 提出 x-vector,将 TDNN 与统计池化结合,成为说话人验证的工业标准。然而 x-vector 在跨语言场景下暴露出严重的语言偏置问题:同一说话人用不同语言录制的语音,其嵌入余弦相似度显著低于同语言场景。这一现象促使研究者开始系统性地将对抗训练引入说话人编码器,用语言分类器作为对抗目标,强制编码器输出语言无关的说话人嵌入。

2019–2021
对抗解纠缠在 TTS 与 VC 中的扩展

语音转换(Voice Conversion)和多语言 TTS 领域同步发展了类似思路。Google 的 GMVAE-based 系统、微软的 UniSpeech 均引入对抗目标分离说话人与内容。ECAPA-TDNN(Desplanques et al., INTERSPEECH 2020)成为新的说话人编码器基准,但其跨语言性能仍受语言纠缠拖累,推动了更精细的解纠缠研究。

2022–2023
大规模预训练模型的解纠缠困境

WavLM、wav2vec 2.0 等自监督预训练模型大幅提升了说话人验证性能,但同时也将语言信息更深度地编码进表示层。研究发现,对整个预训练模型做对抗微调会破坏其泛化能力,出现"说话人性能-语言无关性"的 trade-off 悖论。标准对抗训练(全参数更新)在大模型上导致说话人 EER 上升 10–20%,这一问题直接催生了参数高效对抗解纠缠的需求。

2024–2025
LoRA 参数高效对抗解纠缠

Dual-LoRA 等工作将低秩适配(LoRA)引入对抗解纠缠框架,核心洞见是:用一组 LoRA 模块专门承载说话人信息,另一组承载语言信息,通过对抗训练使两组模块的梯度方向正交,从而在不破坏预训练主干的前提下实现解纠缠。这一范式将跨语言说话人验证的 EER 相对降低 15–30%,同时保持同语言场景性能。

核心思想
对抗解纠缠说话人验证的本质是:在编码器训练中引入一个"语言分类器对手",通过梯度反转迫使编码器输出的嵌入对语言标签无预测力,从而将说话人身份信息从语言风格信息中剥离出来,使跨语言比对成为可能。
数学结构

设说话人编码器 $f_\theta$,语言分类器 $g_\phi$,说话人分类器 $h_\psi$,输入语音帧序列 $\mathbf{x}$,说话人标签 $y_s$,语言标签 $y_l$。 标准对抗解纠缠的训练目标为: $$\mathcal{L} = \mathcal{L}_{spk}(h_\psi(f_\theta(\mathbf{x})), y_s) - \lambda \cdot \mathcal{L}_{lang}(g_\phi(f_\theta(\mathbf{x})), y_l)$$ 其中 $\mathcal{L}_{spk}$ 为说话人分类交叉熵损失(最小化),$\mathcal{L}_{lang}$ 为语言分类交叉熵损失(通过负号转为最大化,即迫使编码器混淆语言分类器)。$\lambda > 0$ 为解纠缠强度超参数。 梯度反转层的操作等价于:在前向传播中 $\text{GRL}(\mathbf{z}) = \mathbf{z}$,在反向传播中 $\frac{\partial \mathcal{L}}{\partial \mathbf{z}} \leftarrow -\lambda \frac{\partial \mathcal{L}}{\partial \mathbf{z}}$,使得编码器参数 $\theta$ 的更新方向同时满足:最大化说话人可分性、最小化语言可分性。 Dual-LoRA 框架中,编码器参数分解为 $\theta = \theta_0 + \Delta\theta_s + \Delta\theta_l$,其中 $\Delta\theta_s = B_s A_s$,$\Delta\theta_l = B_l A_l$ 为两组低秩矩阵(秩 $r \ll d$)。正交约束 $\Delta\theta_s^\top \Delta\theta_l \approx 0$ 通过辅助正则项 $\mathcal{L}_{orth} = \|\Delta\theta_s^\top \Delta\theta_l\|_F^2$ 施加,确保两组适配器捕获正交的语义方向,避免信息泄漏。 推理时仅使用 $\theta_0 + \Delta\theta_s$ 作为说话人编码器,语言 LoRA 分支被丢弃,实现零额外推理开销。

工作机制

整体逻辑是:将说话人编码器的参数空间显式分割为"说话人子空间"与"语言子空间",通过对抗训练使两个子空间正交,推理时只激活说话人子空间。

Step 1双 LoRA 模块初始化

在预训练说话人编码器(如 WavLM、ECAPA-TDNN)的每个 Transformer 层或 TDNN 层中,并行插入两组 LoRA 适配器:说话人 LoRA $\Delta\theta_s = B_s A_s$ 和语言 LoRA $\Delta\theta_l = B_l A_l$,秩 $r$ 通常取 8–32。预训练主干参数 $\theta_0$ 冻结,仅训练四个低秩矩阵。这样设计的原因是:全参数对抗微调会破坏预训练模型的声学泛化能力,而 LoRA 将可训练参数量压缩至主干的 0.1%–1%,保留了大规模预训练的表示优势。

Step 2前向传播与特征分离

输入语音 $\mathbf{x}$ 经过冻结主干 $\theta_0$ 得到基础表示 $\mathbf{z}_0$,叠加两组 LoRA 输出得到 $\mathbf{z} = \mathbf{z}_0 + \Delta\theta_s(\mathbf{x}) + \Delta\theta_l(\mathbf{x})$。统计池化层将帧级特征聚合为话语级嵌入 $\mathbf{e}$。关键细节:两组 LoRA 的输出在特征维度上相加而非拼接,这迫使它们在同一嵌入空间内竞争,使正交约束有实际意义。

Step 3对抗训练与梯度反转

嵌入 $\mathbf{e}$ 同时送入说话人分类头 $h_\psi$ 和语言分类头 $g_\phi$。说话人分类损失 $\mathcal{L}_{spk}$ 正常反向传播,更新 $\Delta\theta_s$ 和 $h_\psi$;语言分类损失 $\mathcal{L}_{lang}$ 经过梯度反转层后传给 $\Delta\theta_l$,使语言 LoRA 学会捕获语言信息,同时通过反转梯度阻止说话人 LoRA 编码语言信息。超参数 $\lambda$ 通常从小值(0.1)线性增大到目标值(1.0),避免训练初期对抗信号过强导致崩溃。

Step 4正交正则化

在每个训练步中额外计算 $\mathcal{L}_{orth} = \|A_s^\top A_l\|_F^2 + \|B_s^\top B_l\|_F^2$,加权加入总损失。这一步的必要性在于:梯度反转仅保证对抗方向,但不能保证两组 LoRA 在参数空间的几何正交性;正交正则化从参数层面强化解纠缠,防止说话人 LoRA 通过迂回路径泄漏语言信息。

Step 5推理时的模块剪枝

推理阶段,语言 LoRA 分支 $\Delta\theta_l$ 完全丢弃,编码器退化为 $\theta_0 + \Delta\theta_s$。说话人嵌入通过余弦相似度进行比对。由于 $\Delta\theta_s$ 已被训练为语言无关,跨语言话语对的嵌入相似度显著提升。实际部署中,LoRA 权重可合并进主干($\theta_{deploy} = \theta_0 + \Delta\theta_s$),无额外推理延迟。

长远价值

对抗解纠缠说话人验证在多语言语音助手、跨语言声纹认证(如银行电话核身)、多语言声音克隆质量控制等场景中有直接应用价值。Apple Siri、Google Assistant 的多语言说话人识别模块均涉及类似解纠缠思路。LoRA 参数高效范式使该技术可在边缘设备部署。随着全球多语言 AI 应用爆发,跨语言说话人验证将成为基础设施级需求,该方向的重要性在未来5年只会增加而不会减少。

前沿动向

当前开放问题包括:①解纠缠目标从语言扩展到情感、信道、年龄等多维属性时的多目标对抗平衡;②零样本语言泛化(训练语言集之外的新语言);③对抗训练的理论收敛保证仍缺乏;④LoRA 秩的自适应选择;⑤与端到端多说话人系统(如 CHiME 挑战赛场景)的集成,视觉线索如何辅助解纠缠是新兴方向。

工程·思维 第二讲

LLM推理为何用语言

就像人类解复杂数学题时必须在草稿纸上写中间步骤——不是因为大脑不够聪明,而是因为大脑的工作记忆容量有限,草稿纸充当了无限容量的外部工作内存,而且写下来的每一步都可以被重新检查和纠错。
历史演进

LLM 为何不在内部向量空间直接推理,而要将中间步骤外化为自然语言 token——这个问题的答案揭示了自回归语言模型架构的一个深层约束,其根源可追溯至计算理论与神经网络表达能力的交叉地带。

1936–1950
图灵机与外部存储的必要性

图灵在 1936 年证明,任何足够复杂的计算都需要外部存储(纸带)来突破有限状态机的表达上限。这一洞见在 70 年后以意想不到的方式复活:Transformer 的单次前向传播本质上是一个有界深度的电路,其计算步骤数固定为层数 $L$。对于需要 $T$ 步串行推理的问题(如多步数学推导),若 $T > L$,单次前向传播在理论上无法完成计算——语言 token 序列充当了图灵机的"纸带"。

2021
Scratchpad 论文的实证发现

Nye et al.(Google Brain, 2021)发表"Show Your Work: Scratchpad for Intermediate Computation",首次系统性地证明:让语言模型在输出最终答案前生成中间计算步骤(scratchpad),可将多位数乘法等任务的准确率从接近 0% 提升至 80% 以上。这不是提示技巧,而是架构约束的直接体现——中间 token 为后续 token 的生成提供了可寻址的"工作内存",每个新 token 的生成都能 attend 到所有已生成的中间步骤。

2022
Chain-of-Thought 的规模化验证

Wei et al.(Google, NeurIPS 2022)发表 Chain-of-Thought Prompting,证明思维链在 100B+ 参数模型上涌现,并系统分析了其有效性边界。同年 Kojima et al. 发现"Let's think step by step"这一零样本触发词有效,说明大模型已内化了"外化推理"的元认知能力。关键洞见:CoT 的收益不来自语言本身的魔力,而来自将计算分摊到多个 token 生成步骤,每步的 $O(L)$ 深度电路可以处理一个子问题。

2023–2024
潜在空间推理的探索与失败

研究者尝试让模型在连续向量空间中推理而非生成离散 token(如 Coconut: Chain of Continuous Thought,Hao et al. 2024)。结果发现:连续潜在推理在简单任务上可行,但在需要精确符号操作(如逻辑推导、算术)的任务上显著劣于语言 CoT。根本原因在于:语言 token 是离散的、可寻址的、具有组合结构的符号,而连续向量在多步传递中会发生信息衰减和语义漂移,且无法被后续注意力精确检索。

2025
语言作为推理基底的理论化

Merrill & Sabharwal(2023)从电路复杂度理论证明:$L$ 层 Transformer 在单次前向传播中只能计算 $\text{TC}^0$ 复杂度的函数,而许多推理任务需要更高复杂度。生成 $T$ 个中间 token 将有效计算深度扩展为 $O(L \cdot T)$,突破了单次前向传播的理论上限。这为"语言推理优于向量推理"提供了严格的计算理论基础。

核心思想
LLM 用自然语言做推理的本质原因是:Transformer 单次前向传播的计算深度有限(固定为层数),将中间步骤外化为 token 序列,等价于将有限深度电路串联 T 次,从而突破单次前向传播的计算复杂度上限,语言 token 充当了可精确寻址的外部工作内存。
数学结构

从电路复杂度角度形式化这一约束。 设 $L$ 层 Transformer,每层为一个函数 $f_l: \mathbb{R}^{n \times d} \to \mathbb{R}^{n \times d}$,整个前向传播为复合函数 $F = f_L \circ \cdots \circ f_1$。Merrill & Sabharwal(2023)证明,对于精度有界的 Transformer,$F$ 可被 $\text{TC}^0$ 电路族模拟,即其并行计算深度为 $O(\log n)$ 的常数倍。 而许多推理任务(如图可达性、算术、逻辑推导)属于 $\text{NC}^1$ 或更高复杂度类,不在 $\text{TC}^0$ 中(在 $\text{TC}^0 \neq \text{NC}^1$ 的假设下)。 生成 $T$ 个中间 token 时,第 $t$ 个 token 的生成为: $$\mathbf{e}_t = F(\mathbf{x}_{1:t-1})$$ 其中 $\mathbf{x}_{1:t-1}$ 包含所有已生成的中间 token。整个推理过程的有效计算深度为 $O(L \cdot T)$,可计算的函数复杂度随 $T$ 线性增长。 对比连续潜在推理:若将中间状态保持为连续向量 $\mathbf{h}_t \in \mathbb{R}^d$ 而非离散 token,注意力机制对 $\mathbf{h}_t$ 的检索精度受向量相似度噪声影响,误差随步骤 $t$ 累积,近似为 $\epsilon_T \sim O(\delta \cdot T)$,其中 $\delta$ 为单步检索误差。离散 token 的检索误差为 $O(0)$(精确匹配),这是语言推理在精度敏感任务上优于连续推理的根本原因。

工作机制

语言 token 序列通过将有限深度的 Transformer 前向传播串联为多步计算链,实现了超越单次前向传播计算能力的复杂推理。

Step 1识别计算瓶颈:单次前向传播的深度上限

一个 $L=96$ 层的 GPT-4 级模型,单次前向传播的计算图深度固定为 96 层。对于"计算 3 个矩阵连乘后的行列式"这类需要数百步串行操作的任务,96 层的并行电路在理论上无法完成——就像用一个固定深度的电路网络无法模拟任意长度的图灵机计算。这不是参数量的问题,而是计算图拓扑的根本约束。工程含义:增大模型宽度($d$)对此无帮助,增大深度($L$)有帮助但代价极高,而生成中间 token 是零额外参数的解法。

Step 2语言 token 作为可寻址工作内存

每个已生成的 token 在 KV cache 中留下精确的键值对,后续所有 token 的生成都可通过注意力机制以 $O(1)$ 精度检索任意历史 token。这与人类工作记忆的容量限制(Miller's Law: 7±2 项)形成对比——语言模型的"工作内存"随序列长度线性扩展,且检索精度不随步骤数衰减。关键工程细节:这正是为什么 KV cache 的内存占用是长链式推理的主要瓶颈,也是为什么 MLA(Multi-head Latent Attention)等压缩 KV cache 的方法对 CoT 场景格外重要。

Step 3语言结构提供组合性约束

自然语言不是任意的 bit 序列,它具有语法结构、语义组合性和逻辑连接词("因此"、"所以"、"但是")。这些结构在训练数据中与正确推理模式高度共现,使模型在生成推理链时自动继承了人类数学/逻辑写作的组合结构。对比纯向量推理:连续向量没有内置的组合结构,模型必须从头学习如何在向量空间中表示"因此"这一逻辑关系,样本效率极低。实践建议:在提示工程中使用明确的逻辑连接词("First... Then... Therefore...")可显著提升 CoT 质量,因为这与训练数据的推理模式最匹配。

Step 4错误可检测与可纠正

语言推理链的每一步都是人类可读的离散符号,可以被外部验证器(如数学符号计算引擎、代码执行器)检查。这使得过程奖励模型(PRM)、自我一致性(Self-Consistency)、Best-of-N 采样等技术成为可能。连续潜在推理的中间状态无法被外部工具验证,也无法被人类审查,这在安全关键场景中是根本性缺陷。工程含义:o1/o3/DeepSeek-R1 等推理模型的成功,本质上是将语言推理链的可验证性与强化学习结合,用可验证奖励信号训练更长、更准确的推理链。

Step 5为何不设计专用推理向量空间

Coconut 等工作尝试训练专用的连续推理空间,结果显示:在需要精确符号操作的任务上,连续推理的误差随步骤数线性累积,而语言推理误差不累积(每步生成的 token 是精确的离散符号)。更深层的原因:语言 token 空间是在万亿 token 的人类知识上预训练的,其几何结构已经编码了大量推理模式;而专用推理向量空间需要从头学习这些结构,数据效率极低。

长远价值

这一认知直接影响了 o1、DeepSeek-R1、Gemini Thinking 等推理模型的设计哲学——它们本质上都是在用强化学习训练模型生成更长、更准确的语言推理链,而非探索连续向量推理。对于音视频大模型工程师,这意味着:在设计多模态推理系统时,将推理过程外化为语言 token(而非在视觉/音频特征空间内部推理)是有理论支撑的架构选择,也是当前最有效的工程实践。

前沿动向

当前开放问题:①Coconut 等连续推理方法在哪些任务上能超越语言 CoT?边界尚不清晰。②推理链的最优长度如何自适应控制(过长浪费计算,过短推理不足)?③多模态推理中,视觉/音频 token 能否作为与语言 token 等效的"工作内存"单元?④推理链的压缩与蒸馏——能否将长推理链的知识蒸馏回短推理甚至单次前向传播?

往期讲解档案 86 个知识点

2026年05月01日跨架构知识蒸馏原理Cross-Architecture DistillationDiffusion LMAutoregressive Teacher
2026年05月01日AI评估计算瓶颈工程LLM Evaluation InfrastructureBenchmark SaturationEval Compute Bottleneck
2026年04月29日平衡传输语音增强Schrödinger BridgeStochastic Differential EquationSpeech Enhancement
2026年04月29日深度学习理论形成Deep Learning TheoryLoss LandscapeNeural Tangent Kernel
2026年04月28日语义进度函数原理Semantic Progress FunctionDiffusion TrajectoryNonlinear Denoising
2026年04月28日大模型OCR选型认知OCR BenchmarkModel Selection BiasCost-Performance Tradeoff
2026年04月27日说话人验证核心原理Speaker Verificationd-vectorECAPA-TDNN
2026年04月27日GPU核函数语言选型GPU Kernel EngineeringCuTe DSLCUTLASS
2026年04月26日时长控制TTS原理Duration ModelingProsody ControlAutoregressive TTS
2026年04月26日AI研究价值评估困境Research EvaluationPublication BiasPeer Review
2026年04月25日全双工对话建模原理Full-Duplex DialogueTurn-TakingVoice Activity Detection
2026年04月25日流式TTS文本规范化Text NormalizationStreaming TTSInverse Text Normalization
2026年04月24日离散扩散语言模型原理Discrete DiffusionMasked Diffusion Language ModelAbsorbing Diffusion
2026年04月24日跟进ML研究的认知工程Information OverloadResearch TriageSpaced Repetition
2026年04月23日一致性正则化ASR原理Consistency RegularizationUnified ASRTransducer
2026年04月23日流式TTS文本规范化工程Text NormalizationStreaming TTSInverse Text Normalization
2026年04月22日神经编码器伪影检测Neural Audio CodecArtifact DetectionForensic Residual
2026年04月22日AI研究复现危机工程Reproducibility CrisisML EngineeringExperimental Rigor
2026年04月21日扩散SNR偏差校正原理Signal-to-Noise RatioDiffusion Timestep BiasScore Matching
2026年04月21日论文复现危机根治工程Reproducibility CrisisAblation StudyExperimental Rigor
2026年04月20日音频时序定位原理Temporal GroundingAudio Event DetectionCross-modal Alignment
2026年04月20日论文复现危机根因Reproducibility CrisisBenchmark OverfittingEvaluation Validity
2026年04月19日流匹配对齐原理Flow Matching AlignmentReward Gradient BackpropagationTrajectory Optimization
2026年04月19日分布式训练任务编排Distributed Training OrchestrationCluster SchedulingFault Tolerance
2026年04月18日最优传输信号融合Optimal TransportWasserstein BarycenterTime-Frequency Resolution
2026年04月18日分布式训练任务调度Distributed Training OrchestrationJob SchedulingCluster Resource Management
2026年04月17日扩散语音识别原理Masked Diffusion Language ModelDiscrete DiffusionASR Decoding
2026年04月17日Mel尺度跨文化偏差Mel ScalePsychoacousticsCultural Bias
2026年04月16日音频水印对抗原理Audio WatermarkingSemi-FragilePsychoacoustic Masking
2026年04月16日推测解码草稿树工程Speculative DecodingDraft TreeBlock Diffusion
2026年04月15日对抗流模型原理Continuous Normalizing FlowAdversarial TrainingFlow Matching
2026年04月15日代理状态可观测性工程Agent ObservabilityDistributed TracingState Machine Debugging
2026年04月14日过程奖励模型原理Process Reward ModelStep-level SupervisionReasoning Chain
2026年04月13日离散令牌音源分离Discrete Token ModelingSource SeparationConditional Generation
2026年04月13日超算API工程哲学Distributed Training OrchestrationSupercomputer API DesignFault Tolerance
2026年04月12日信息瓶颈原理演进Information BottleneckVariational IBDisentanglement
2026年04月12日Safetensors格式工程哲学SafetensorsModel SerializationMemory-Mapped IO
2026年04月11日归一化层演进原理Layer NormalizationRMS NormalizationBatch Normalization
2026年04月11日GEMM自调优后端工程GEMM AutotuningTorchInductorCuteDSL
2026年04月10日多令牌预测原理Multi-Token PredictionSpeculative DecodingMedusa Heads
2026年04月10日ML从业者认知校准Calibration BiasCapability IllusionBenchmark Overfitting
2026年04月09日编码器-解码器LM原理Encoder-Decoder LMCross-Attention ConditioningSequence-to-Sequence
2026年04月09日torch.compile归一化优化torch.compileLayerNormRMSNorm
2026年04月08日KV缓存压缩原理KV Cache CompressionRoPE Position EncodingAttention Score Estimation
2026年04月08日音效基础模型工程Sound Effect GenerationFoundation ModelFoley Synthesis
2026年04月07日可验证奖励强化学习Verifiable RewardRLVRProcess Reward Model
2026年04月07日LLM技能退化认知机制Cognitive OffloadingSkill AtrophyDesirable Difficulty
2026年04月06日音素可解释说话人验证Phoneme-aware Speaker VerificationInterpretable BiometricsLocal Acoustic Evidence
2026年04月06日音频幻觉攻击评估Hallucination AttackAudio Language Model ReliabilityAdversarial Probing
2026年04月05日潜在空间推理原理Latent Space ReasoningContinuous RepresentationToken-Free Inference
2026年04月05日mRNA模型极低成本训练Biology Foundation ModelCross-Species TransferLow-Budget Training
2026年04月04日编码器-解码器TTS原理Encoder-Decoder TTSText ConditioningPositional Capacity
2026年04月04日大模型训练的MXFP8工程MXFP8MicroscalingMixed Precision Training
2026年04月03日在线知识蒸馏原理Online DistillationKnowledge TransferStudent-Teacher
2026年04月03日MoE专家并行调度工程Expert ParallelismMixture of ExpertsAll-to-All Communication
2026年04月02日波形潜空间扩散TTSwaveform latent diffusionnon-autoregressive TTSlatent space acoustic modeling
2026年04月02日波形隐空间扩散原理waveform latent spacediffusion TTSVAE audio codec
2026年04月02日LLM量化权重工程weight quantizationLLM compression4-bit quantization
2026年04月02日扩散语言模型离散生成Discrete DiffusionMasked Diffusion Language ModelNon-autoregressive TTS
2026年04月02日LLM后训练库工程演进RLHF engineeringPPO training stabilityreward hacking
2026年04月02日声学证据瓶颈原理Audio Evidence BottleneckAcoustic GroundingAudio Language Model
2026年04月02日状态空间模型音频建模State Space ModelMambaSelective Scan
2026年04月02日实时语音增强工程选型Real-time Speech EnhancementNoise SuppressionStreaming Inference
2026年04月02日对话上下文压缩原理Context CompressionAbstractive SummarizationCross-Attention Fusion
2026年04月02日说话人匿名化工程Speaker AnonymizationVoice ConversionStreaming Inference
2026年04月02日视听语音识别融合Audio-Visual Speech RecognitionLip ReadingViseme
2026年04月02日GPU训练吞吐加速工程MXFP8MoE TrainingExpert Parallelism
2026年04月01日熵驱动多样性生成diversity samplingtypicality biasrepulsion in latent space
2026年04月01日说话人分割工程选型speaker diarizationbenchmark methodologystreaming ASR pipeline
2026年03月31日转向检测联合建模turn-taking detectionvoice activity detectionjoint acoustic-linguistic modeling
2026年03月31日基准测试的系统性失效benchmark contaminationevaluation validityLLM judge reliability
2026年03月31日扩散模型声学生成diffusion modelscore matchingstochastic differential equation
2026年03月31日TTS开源生态竞争open-weight TTStime-to-first-audiomultilingual speech synthesis
2026年03月30日注意力机制变体演进Multi-Head AttentionGrouped Query AttentionMulti-head Latent Attention
2026年03月30日设备端语音推理架构on-device inferenceExecuTorchvoice agent pipeline
2026年03月29日混合自回归流匹配TTSautoregressive semantic tokensflow matching acoustic decoderhybrid TTS architecture
2026年03月29日NCCL超时诊断方法论NCCL watchdog timeoutdistributed training debuggingcollective communication
2026年03月29日混合架构音频表示Mambastate space modelaudio representation learning
2026年03月29日DeepSeek预训练加速工程MXFP8 trainingexpert parallelismMoE pretraining
2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification