知识讲堂

← 返回日报
算法理论 第一讲

连续潜在扩散语言模型

自回归语言模型像即兴演讲——边说边想,说出口的话无法收回;连续潜在扩散语言模型像写作文——先在脑中构思整篇文章的骨架,反复打磨修改,最后才落笔成文。
历史演进

语言模型长期被"从左到右、一个词一个词生成"的自回归范式所主导,但这种范式在全局语义规划、并行生成效率和表示空间灵活性上存在结构性缺陷,驱动研究者探索扩散模型在离散语言空间的应用。

2017–2020
自回归范式的统治与局限

GPT系列确立了自回归语言模型的主导地位:给定前缀 $x_{

2020–2022
扩散模型进入NLP视野

Sohl-Dickstein等人(2015)奠定扩散模型理论基础,DDPM(Ho et al., 2020, NeurIPS)在图像生成上取得突破,激发了将扩散范式迁移到文本的热情。然而文本的离散性是核心障碍:扩散过程天然定义在连续空间,对离散词表直接加噪缺乏数学优雅性。Hoogeboom et al.(2021)提出离散扩散(Absorbing Diffusion),Austin et al.提出D3PM,但这些方法在生成质量和效率上均未能超越自回归基线。关键洞察逐渐浮现:与其在离散词表空间做扩散,不如在连续潜在空间做扩散

2022–2023
潜在扩散范式的确立

Rombach et al.(2022, CVPR)提出Latent Diffusion Model(LDM),在图像的压缩潜在空间而非像素空间做扩散,大幅降低计算成本并提升质量——这一思路直接启发了文本潜在扩散。Li et al.(2022)提出Diffusion-LM,将词嵌入作为连续潜在变量,通过扩散过程生成嵌入序列再解码为词,首次证明连续扩散可用于可控文本生成。Gong et al.提出DiffuSeq,专注于序列到序列任务。这一阶段的核心贡献是建立了"编码器→连续潜在空间扩散→解码器"的三段式框架。

2023–2025
规模化与效率突破

MDLM(Sahoo et al., 2024)、PLAID(Gulrajani & Hashimoto, 2024)等工作系统性地将连续/离散潜在扩散推向与GPT-2/GPT-3量级的公平对比,发现在困惑度上仍有差距但在可控生成、全局一致性上有明显优势。Cola DLM(2025)在此基础上引入多尺度潜在表示和自适应去噪调度,试图同时解决效率、表示学习和全局语义建模三个瓶颈,代表该方向当前的系统性整合尝试。

核心思想
连续潜在扩散语言模型的本质是:不逐词预测,而是先在连续向量空间中通过迭代去噪"雕刻"出整个句子的语义蓝图,再一次性解码为文字——相当于先构思全文再落笔,而非边想边写。
数学结构

设文本序列 $\mathbf{x} = (x_1, \ldots, x_T)$,编码器 $\mathcal{E}$ 将其映射到连续潜在向量 $\mathbf{z}_0 = \mathcal{E}(\mathbf{x}) \in \mathbb{R}^{T \times d}$。 前向扩散过程(加噪)定义为马尔可夫链: $$q(\mathbf{z}_t | \mathbf{z}_{t-1}) = \mathcal{N}(\mathbf{z}_t; \sqrt{1-\beta_t}\,\mathbf{z}_{t-1},\, \beta_t \mathbf{I})$$ 其中 $\beta_t \in (0,1)$ 是噪声调度系数。利用重参数化技巧,可直接从 $\mathbf{z}_0$ 采样任意时刻: $$q(\mathbf{z}_t | \mathbf{z}_0) = \mathcal{N}(\mathbf{z}_t;\, \sqrt{\bar{\alpha}_t}\,\mathbf{z}_0,\, (1-\bar{\alpha}_t)\mathbf{I})$$ 其中 $\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)$,当 $t \to T$ 时 $\bar{\alpha}_t \to 0$,潜变量趋近纯高斯噪声。 逆向去噪过程(生成)由神经网络 $\epsilon_\theta$ 参数化,学习预测噪声: $$\mathcal{L}_\text{simple} = \mathbb{E}_{t, \mathbf{z}_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(\mathbf{z}_t, t)\|^2\right]$$ 其中 $\epsilon \sim \mathcal{N}(0, \mathbf{I})$ 是真实加入的噪声,$\epsilon_\theta$ 通常由Transformer实现,输入带时间步嵌入的 $\mathbf{z}_t$。 解码:生成的 $\hat{\mathbf{z}}_0$ 经解码器 $\mathcal{D}$ 映射回词概率分布:$p(\mathbf{x}|\hat{\mathbf{z}}_0) = \text{softmax}(\mathcal{D}(\hat{\mathbf{z}}_0))$。 为什么在潜在空间而非词表空间做扩散?因为连续空间的高斯扩散有封闭形式的前向过程和可微的逆向过程,而离散词表上的扩散需要设计复杂的转移矩阵且梯度估计困难。潜在空间还可通过VAE或AE压缩,使扩散在低维语义空间进行,计算更高效。

工作机制

连续潜在扩散语言模型的整体逻辑是:将文本压缩为连续语义向量,在该向量空间中学习从噪声到语义的去噪映射,生成时从纯噪声出发迭代去噪得到语义向量,最后解码为文本。

Step 1文本编码为连续潜变量

做什么:将离散词序列 $\mathbf{x}$ 通过编码器 $\mathcal{E}$(通常是预训练Transformer的中间层表示或VAE编码器)映射为连续向量序列 $\mathbf{z}_0 \in \mathbb{R}^{T \times d}$。 为什么这样设计:直接在词嵌入空间做扩散(如Diffusion-LM)会导致去噪网络需要同时学习语义和词表对齐,负担过重。使用独立编码器可以让潜空间更平滑、语义更聚合,去噪过程更稳定。 关键细节:编码器可以是冻结的预训练模型(降低训练成本)或联合训练(提升表示质量)。潜变量维度 $d$ 的选择是关键超参:太小损失语义信息,太大增加扩散难度。部分工作(如PLAID)使用量化潜变量在连续与离散之间折中。

Step 2前向加噪调度设计

做什么:按照噪声调度 $\{\beta_t\}_{t=1}^T$ 对 $\mathbf{z}_0$ 逐步加噪,构造训练样本对 $(\mathbf{z}_t, t, \mathbf{z}_0)$。 为什么这样设计:噪声调度决定了模型在不同去噪阶段学习的内容——早期步骤(高噪声)学习全局结构,晚期步骤(低噪声)学习局部细节。余弦调度(Nichol & Dhariwal, 2021)比线性调度更平滑,避免末尾步骤信噪比骤降。 关键细节:文本潜变量的方差与图像不同,需要重新校准调度。Cola DLM等工作引入自适应调度,根据潜变量的实际方差动态调整 $\beta_t$,避免过早或过晚达到纯噪声状态。

Step 3去噪网络的双向注意力建模

做什么:训练去噪网络 $\epsilon_\theta(\mathbf{z}_t, t)$,通常基于Transformer,输入含时间步嵌入的噪声潜变量,预测噪声 $\epsilon$ 或直接预测 $\mathbf{z}_0$(x-prediction参数化)。 为什么这样设计:这是与自回归模型最本质的区别——去噪网络使用双向注意力,每个位置可以看到序列中所有其他位置,天然支持全局语义建模。自回归模型的因果掩码强制从左到右,无法在生成时"回头修改"已生成的词。 关键细节:时间步 $t$ 通过正弦编码或可学习嵌入注入,通常经AdaLN(自适应层归一化)调制Transformer各层。x-prediction参数化(直接预测 $\mathbf{z}_0$)在文本任务上往往比 $\epsilon$-prediction更稳定,因为文本潜变量的语义结构更适合直接重建。

Step 4迭代去噪生成

做什么:生成时从 $\mathbf{z}_T \sim \mathcal{N}(0, \mathbf{I})$ 出发,按DDPM或DDIM采样规则迭代 $N$ 步($N \ll T$,通常10–50步)得到 $\hat{\mathbf{z}}_0$。 为什么这样设计:DDIM(Song et al., 2021)通过确定性采样轨迹将步数从1000压缩到50步以内而不显著损失质量,这是扩散语言模型实用化的关键。每一步去噪都是对全序列的一次整体修订,而非自回归的单步扩展。 关键细节:分类器自由引导(CFG)可在此阶段注入条件信息(如主题、风格、情感),引导系数 $w$ 控制条件强度:$\tilde{\epsilon}_\theta = (1+w)\epsilon_\theta(\mathbf{z}_t|c) - w\epsilon_\theta(\mathbf{z}_t|\emptyset)$。

Step 5潜变量解码为文本

做什么:将 $\hat{\mathbf{z}}_0$ 通过解码器 $\mathcal{D}$(通常是线性层+softmax或预训练LM解码头)映射为词概率分布,取argmax或采样得到最终文本。 为什么这样设计:解码器的设计直接影响"潜变量语义"与"词表对齐"的质量。部分工作使用预训练LM作为解码器并冻结,强制潜变量学习与LM兼容的表示,从而复用LM的语言知识。 关键细节:解码时的"圆整误差"(rounding error)是已知难题——连续潜变量解码到离散词时可能产生语义漂移。Diffusion-LM提出"嵌入对齐损失"缓解此问题,Cola DLM等工作进一步通过多尺度潜变量层次化解码来改善。

长远价值

连续潜在扩散语言模型在可控文本生成领域已产生实质影响:Meta的研究团队将其用于受控故事生成,Google在文档摘要中探索其全局一致性优势。相比自回归模型,它天然支持属性插值(在两个语义向量间插值生成过渡文本)、并行解码(所有位置同时更新)和迭代精炼(可在推理时增加步数换取质量)。随着多模态生成统一框架的兴起(图像、音频、文本共享扩散骨干),该范式的战略价值将持续提升。

前沿动向

当前核心开放问题:①困惑度仍落后GPT-3量级自回归模型约10-20%,根本原因尚不明确;②训练稳定性对编码器选择极度敏感;③如何设计既支持扩散又保持语言先验的潜空间是未解之题;④多步采样延迟在实时应用中仍是瓶颈,一步蒸馏(Consistency Distillation)在文本域的效果远不如图像域;⑤长文本(>1K词)的全局一致性保持机制尚不成熟。

工程·思维 第二讲

零样本跨语言语音克隆

历史演进

跨语言语音克隆的工程难题根源在于一个矛盾:说话人身份(音色、韵律习惯)是语言无关的生物特征,但发音系统(音素、声调、节律)是语言强绑定的——如何让模型"用A的声音说B的语言",需要在工程架构层面彻底解耦这两个维度。

2017–2019
多说话人TTS的早期探索

Tacotron 2(Shen et al., 2018, Google)引入说话人嵌入向量,将说话人身份编码为固定维度向量与文本编码拼接,实现了同语言多说话人合成。但这一阶段的说话人嵌入是查找表(lookup table)——每个说话人对应一个可训练向量,无法泛化到训练集外的新说话人,更无法跨语言迁移。SV2TTS(Jia et al., 2018, Google)是关键转折点:引入独立的说话人编码器(基于GE2E损失训练的d-vector系统),从几秒参考音频实时提取说话人嵌入,首次实现了对未见说话人的零样本克隆。但跨语言场景下,说话人编码器提取的嵌入仍然混入了语言信息,导致跨语言克隆时音色迁移不干净。

2020–2022
解耦架构的系统化

YourTTS(Casanova et al., 2022, ICML)将VITS框架扩展到多语言多说话人场景,通过语言嵌入与说话人嵌入的显式分离,在葡萄牙语、英语、法语间实现了初步跨语言克隆。同期,Meta的Voicebox(Le et al., 2023)和微软的VALL-E X(Zhang et al., 2023)将语言模型范式引入TTS:VALL-E X将跨语言克隆建模为"给定源语言音频和目标语言文本,生成目标语言的声学token序列",利用EnCodec的离散声学token作为中间表示,说话人信息隐式编码在声学token的风格层。这一阶段的核心工程洞察是:声学token比梅尔频谱更适合跨语言迁移,因为codec的量化过程天然分离了内容(语言相关)和风格(说话人相关)。

2022–2024
IPA统一表示的工程实践

跨语言TTS的另一条工程路线聚焦于输入侧的统一:不同语言使用不同的书写系统和音素集,如果每种语言维护独立的音素词表,模型无法在语言间共享音素级知识。国际音标(IPA, International Phonetic Alphabet)提供了跨语言统一的音素表示:英语的/p/和普通话的/p/在IPA中是同一符号,模型可以学习到跨语言共享的发音知识。CoquiTTS、MMS(Meta, 2023)等系统大规模采用IPA作为统一输入,配合语言ID条件,在1000+语言上实现了基础TTS。X-Voice(2025)将这一思路推向30语言零样本克隆,使用420K小时多语言语料和IPA统一表示,是该工程路线的当前规模化代表。

2024–2025
大模型时代的工程整合

CosyVoice 2(阿里)、F5-TTS、Seed-TTS等系统将流匹配(Flow Matching)或扩散模型与大规模多语言预训练结合,在说话人相似度、自然度和跨语言一致性上全面提升。工程重心从"如何实现跨语言"转向"如何在边缘设备上高效部署0.4B量级的多语言克隆模型"——X-Voice的0.4B参数量正是面向部署效率的刻意设计。

核心思想
零样本跨语言语音克隆的工程本质是:从参考音频中提取与语言无关的说话人身份特征,将其注入目标语言的发音生成过程——核心挑战是在架构层面彻底解耦"谁在说"(说话人)和"说什么语言"(语言系统)这两个正交维度。
数学结构

跨语言TTS的核心优化目标可形式化为条件生成问题。设参考音频 $\mathbf{a}_{ref}$ 来自语言 $L_{src}$,目标文本 $\mathbf{t}$ 属于语言 $L_{tgt}$,目标是生成音频 $\hat{\mathbf{a}}$ 满足: $$\hat{\mathbf{a}} = \arg\max_{\mathbf{a}} p(\mathbf{a} \mid \mathbf{t}, L_{tgt}, \mathbf{s})$$ 其中说话人嵌入 $\mathbf{s} = f_\text{spk}(\mathbf{a}_{ref})$ 由说话人编码器提取,理想情况下 $\mathbf{s}$ 应满足语言无关性: $$I(\mathbf{s}; L_{src}) \approx 0$$ 即说话人嵌入与源语言的互信息趋近于零。实践中通过对抗训练实现:在说话人编码器后接语言分类器 $D_L$,训练时最小化说话人编码器损失同时最大化语言分类器的困惑度(梯度反转层,GRL): $$\mathcal{L}_\text{spk} = \mathcal{L}_\text{recon} - \lambda \mathcal{L}_\text{lang\_adv}$$ IPA统一音素表示将不同语言的文本映射到共享符号空间,设语言 $L_i$ 的文本经G2P转换为IPA序列 $\phi_i$,模型输入统一为 $(\phi_i, \text{lang\_id}_i)$,使得跨语言音素知识可以共享:相同IPA符号在不同语言中的发音参数通过语言ID条件化调制,而非完全独立学习。

工作机制

零样本跨语言语音克隆系统的整体逻辑是:从参考音频提取纯净的说话人身份向量,将目标语言文本转换为统一音素表示,在生成网络中以说话人向量为条件生成目标语言的声学特征,最后通过声码器合成波形。

Step 1说话人编码器:提取语言无关身份特征

做什么:将3–10秒参考音频输入说话人编码器,提取固定维度(通常192–512维)的说话人嵌入向量 $\mathbf{s}$。 为什么这样设计:说话人编码器必须对语言内容不敏感,只捕捉音色、基频分布、共振峰特征等生理声学特征。工程上通常使用在大规模多语言数据上以GE2E(Generalized End-to-End)损失或AAM-Softmax损失训练的ECAPA-TDNN或ResNet34架构。关键工程决策:编码器训练数据必须覆盖目标语言,否则编码器对目标语言说话人的音色估计会有系统性偏差。 关键细节:对抗去语言化训练(GRL)可进一步纯化说话人嵌入,但会轻微损失说话人区分度,需要通过 $\lambda$ 系数平衡。实践中发现:使用多个参考音频片段取平均嵌入(mean pooling)比单片段更稳定,尤其对跨语言场景。

Step 2文本前端:IPA统一音素转换

做什么:将目标语言文本通过G2P(Grapheme-to-Phoneme)转换为IPA音素序列,附加语言ID标记。 为什么这样设计:不同语言的书写系统差异巨大(汉字、拉丁字母、天城文等),直接使用字符作为输入会导致模型在语言间无法共享底层发音知识。IPA是语言学界公认的跨语言音素统一表示,约100个基础符号覆盖人类语言的主要音素,使模型可以学习"相同IPA符号在不同语言中的发音变体"。 关键细节:G2P转换质量是系统瓶颈之一,尤其对低资源语言(如藏语、泰卢固语)。实践中常用espeak-ng作为多语言G2P后端,但其错误率在某些语言上高达15%+,需要语言专家校正或数据驱动的G2P模型补充。声调语言(普通话、越南语)需要在IPA中额外编码声调信息(调号或数字标注)。

Step 3条件声学生成:说话人与语言的融合注入

做什么:以IPA序列和语言ID为内容条件,以说话人嵌入 $\mathbf{s}$ 为风格条件,通过声学模型(Flow Matching、扩散模型或自回归声学token模型)生成目标语言的声学表示(梅尔频谱或声学token序列)。 为什么这样设计:说话人嵌入的注入方式至关重要。简单拼接(concatenation)会导致说话人信息随网络深度衰减;AdaLN(自适应层归一化)通过将 $\mathbf{s}$ 映射为每层的缩放和偏移参数,在每个Transformer层持续注入说话人信息,效果显著优于拼接。语言ID通过独立的语言嵌入层编码,与说话人嵌入分开注入,避免两者信息混淆。 关键细节:跨语言场景下的韵律迁移是难点——说话人的韵律习惯(语速、停顿模式)在跨语言时应部分保留(体现说话人个性)还是完全替换为目标语言的自然韵律?实践中通常保留说话人的基频轮廓风格,但将语速和停顿调整为目标语言的自然节律。

Step 4声码器:声学特征到波形

做什么:将生成的梅尔频谱或声学token通过神经声码器(HiFi-GAN、BigVGAN、EnCodec解码器)合成最终波形。 为什么这样设计:声码器的选择对跨语言克隆的音色保真度有直接影响。基于GAN的声码器(HiFi-GAN)速度快但对超出训练分布的声学特征(如非母语口音的频谱)鲁棒性差;基于codec的声码器(EnCodec/DAC)通过离散化提供了更强的鲁棒性。 关键细节:声码器必须在目标语言数据上训练或微调,否则会对目标语言的特有音素(如汉语的卷舌音、阿拉伯语的咽音)产生频谱失真。X-Voice使用统一声码器在所有30种语言数据上联合训练,通过大数据量覆盖语言多样性。

Step 5系统级工程:延迟与质量的平衡

做什么:在推理管道中实现流式处理、模型量化和缓存优化,使0.4B量级模型在边

长远价值
前沿动向

往期讲解档案 94 个知识点

2026年05月09日最优传输音频距离Optimal TransportFréchet Audio DistanceRiemannian Metric
2026年05月09日推荐系统推理核内广播优化Intra-kernel BroadcastEmbedding TableRecommendation Inference
2026年05月08日扩散Transformer异常值令牌Outlier TokensDiffusion TransformerAttention Sink
2026年05月08日WebRTC低延迟语音工程WebRTCReal-time AudioJitter Buffer
2026年05月07日音素级深度伪造检测原理Phoneme-level Deepfake DetectionSelf-supervised Speech EmbeddingEmotional Speech Synthesis
2026年05月07日AI训练网络协议工程哲学Multi-path Reliable ConnectionRDMA over EthernetCollective Communication
2026年05月05日对抗解纠缠说话人验证Speaker DisentanglementAdversarial TrainingCross-lingual Verification
2026年05月05日LLM推理为何用语言Chain-of-ThoughtLatent ReasoningToken Space
2026年05月01日跨架构知识蒸馏原理Cross-Architecture DistillationDiffusion LMAutoregressive Teacher
2026年05月01日AI评估计算瓶颈工程LLM Evaluation InfrastructureBenchmark SaturationEval Compute Bottleneck
2026年04月29日平衡传输语音增强Schrödinger BridgeStochastic Differential EquationSpeech Enhancement
2026年04月29日深度学习理论形成Deep Learning TheoryLoss LandscapeNeural Tangent Kernel
2026年04月28日语义进度函数原理Semantic Progress FunctionDiffusion TrajectoryNonlinear Denoising
2026年04月28日大模型OCR选型认知OCR BenchmarkModel Selection BiasCost-Performance Tradeoff
2026年04月27日说话人验证核心原理Speaker Verificationd-vectorECAPA-TDNN
2026年04月27日GPU核函数语言选型GPU Kernel EngineeringCuTe DSLCUTLASS
2026年04月26日时长控制TTS原理Duration ModelingProsody ControlAutoregressive TTS
2026年04月26日AI研究价值评估困境Research EvaluationPublication BiasPeer Review
2026年04月25日全双工对话建模原理Full-Duplex DialogueTurn-TakingVoice Activity Detection
2026年04月25日流式TTS文本规范化Text NormalizationStreaming TTSInverse Text Normalization
2026年04月24日离散扩散语言模型原理Discrete DiffusionMasked Diffusion Language ModelAbsorbing Diffusion
2026年04月24日跟进ML研究的认知工程Information OverloadResearch TriageSpaced Repetition
2026年04月23日一致性正则化ASR原理Consistency RegularizationUnified ASRTransducer
2026年04月23日流式TTS文本规范化工程Text NormalizationStreaming TTSInverse Text Normalization
2026年04月22日神经编码器伪影检测Neural Audio CodecArtifact DetectionForensic Residual
2026年04月22日AI研究复现危机工程Reproducibility CrisisML EngineeringExperimental Rigor
2026年04月21日扩散SNR偏差校正原理Signal-to-Noise RatioDiffusion Timestep BiasScore Matching
2026年04月21日论文复现危机根治工程Reproducibility CrisisAblation StudyExperimental Rigor
2026年04月20日音频时序定位原理Temporal GroundingAudio Event DetectionCross-modal Alignment
2026年04月20日论文复现危机根因Reproducibility CrisisBenchmark OverfittingEvaluation Validity
2026年04月19日流匹配对齐原理Flow Matching AlignmentReward Gradient BackpropagationTrajectory Optimization
2026年04月19日分布式训练任务编排Distributed Training OrchestrationCluster SchedulingFault Tolerance
2026年04月18日最优传输信号融合Optimal TransportWasserstein BarycenterTime-Frequency Resolution
2026年04月18日分布式训练任务调度Distributed Training OrchestrationJob SchedulingCluster Resource Management
2026年04月17日扩散语音识别原理Masked Diffusion Language ModelDiscrete DiffusionASR Decoding
2026年04月17日Mel尺度跨文化偏差Mel ScalePsychoacousticsCultural Bias
2026年04月16日音频水印对抗原理Audio WatermarkingSemi-FragilePsychoacoustic Masking
2026年04月16日推测解码草稿树工程Speculative DecodingDraft TreeBlock Diffusion
2026年04月15日对抗流模型原理Continuous Normalizing FlowAdversarial TrainingFlow Matching
2026年04月15日代理状态可观测性工程Agent ObservabilityDistributed TracingState Machine Debugging
2026年04月14日过程奖励模型原理Process Reward ModelStep-level SupervisionReasoning Chain
2026年04月13日离散令牌音源分离Discrete Token ModelingSource SeparationConditional Generation
2026年04月13日超算API工程哲学Distributed Training OrchestrationSupercomputer API DesignFault Tolerance
2026年04月12日信息瓶颈原理演进Information BottleneckVariational IBDisentanglement
2026年04月12日Safetensors格式工程哲学SafetensorsModel SerializationMemory-Mapped IO
2026年04月11日归一化层演进原理Layer NormalizationRMS NormalizationBatch Normalization
2026年04月11日GEMM自调优后端工程GEMM AutotuningTorchInductorCuteDSL
2026年04月10日多令牌预测原理Multi-Token PredictionSpeculative DecodingMedusa Heads
2026年04月10日ML从业者认知校准Calibration BiasCapability IllusionBenchmark Overfitting
2026年04月09日编码器-解码器LM原理Encoder-Decoder LMCross-Attention ConditioningSequence-to-Sequence
2026年04月09日torch.compile归一化优化torch.compileLayerNormRMSNorm
2026年04月08日KV缓存压缩原理KV Cache CompressionRoPE Position EncodingAttention Score Estimation
2026年04月08日音效基础模型工程Sound Effect GenerationFoundation ModelFoley Synthesis
2026年04月07日可验证奖励强化学习Verifiable RewardRLVRProcess Reward Model
2026年04月07日LLM技能退化认知机制Cognitive OffloadingSkill AtrophyDesirable Difficulty
2026年04月06日音素可解释说话人验证Phoneme-aware Speaker VerificationInterpretable BiometricsLocal Acoustic Evidence
2026年04月06日音频幻觉攻击评估Hallucination AttackAudio Language Model ReliabilityAdversarial Probing
2026年04月05日潜在空间推理原理Latent Space ReasoningContinuous RepresentationToken-Free Inference
2026年04月05日mRNA模型极低成本训练Biology Foundation ModelCross-Species TransferLow-Budget Training
2026年04月04日编码器-解码器TTS原理Encoder-Decoder TTSText ConditioningPositional Capacity
2026年04月04日大模型训练的MXFP8工程MXFP8MicroscalingMixed Precision Training
2026年04月03日在线知识蒸馏原理Online DistillationKnowledge TransferStudent-Teacher
2026年04月03日MoE专家并行调度工程Expert ParallelismMixture of ExpertsAll-to-All Communication
2026年04月02日波形潜空间扩散TTSwaveform latent diffusionnon-autoregressive TTSlatent space acoustic modeling
2026年04月02日波形隐空间扩散原理waveform latent spacediffusion TTSVAE audio codec
2026年04月02日LLM量化权重工程weight quantizationLLM compression4-bit quantization
2026年04月02日扩散语言模型离散生成Discrete DiffusionMasked Diffusion Language ModelNon-autoregressive TTS
2026年04月02日LLM后训练库工程演进RLHF engineeringPPO training stabilityreward hacking
2026年04月02日声学证据瓶颈原理Audio Evidence BottleneckAcoustic GroundingAudio Language Model
2026年04月02日状态空间模型音频建模State Space ModelMambaSelective Scan
2026年04月02日实时语音增强工程选型Real-time Speech EnhancementNoise SuppressionStreaming Inference
2026年04月02日对话上下文压缩原理Context CompressionAbstractive SummarizationCross-Attention Fusion
2026年04月02日说话人匿名化工程Speaker AnonymizationVoice ConversionStreaming Inference
2026年04月02日视听语音识别融合Audio-Visual Speech RecognitionLip ReadingViseme
2026年04月02日GPU训练吞吐加速工程MXFP8MoE TrainingExpert Parallelism
2026年04月01日熵驱动多样性生成diversity samplingtypicality biasrepulsion in latent space
2026年04月01日说话人分割工程选型speaker diarizationbenchmark methodologystreaming ASR pipeline
2026年03月31日转向检测联合建模turn-taking detectionvoice activity detectionjoint acoustic-linguistic modeling
2026年03月31日基准测试的系统性失效benchmark contaminationevaluation validityLLM judge reliability
2026年03月31日扩散模型声学生成diffusion modelscore matchingstochastic differential equation
2026年03月31日TTS开源生态竞争open-weight TTStime-to-first-audiomultilingual speech synthesis
2026年03月30日注意力机制变体演进Multi-Head AttentionGrouped Query AttentionMulti-head Latent Attention
2026年03月30日设备端语音推理架构on-device inferenceExecuTorchvoice agent pipeline
2026年03月29日混合自回归流匹配TTSautoregressive semantic tokensflow matching acoustic decoderhybrid TTS architecture
2026年03月29日NCCL超时诊断方法论NCCL watchdog timeoutdistributed training debuggingcollective communication
2026年03月29日混合架构音频表示Mambastate space modelaudio representation learning
2026年03月29日DeepSeek预训练加速工程MXFP8 trainingexpert parallelismMoE pretraining
2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification