知识讲堂

← 返回日报
算法理论 第一讲

离散扩散语言模型原理

就像填字游戏——不是从第一格按顺序填到最后,而是先随机揭开几个格子,再根据已知字母逐轮推断其余,每轮都能利用全局信息,最终所有格子同时收敛到答案。
历史演进

离散扩散语言模型诞生的根本动因是:连续扩散模型在图像领域大获成功,但语言/符号空间天然离散,如何将"加噪→去噪"范式迁移到离散令牌空间,同时保留扩散模型并行生成、可控采样的优势,成为生成建模的核心挑战。

2015–2020
连续扩散奠基期

Sohl-Dickstein等人2015年在NeurIPS提出扩散概率模型,Ho等人2020年的DDPM将其工程化落地,确立了"前向加高斯噪声→反向去噪"的基本范式。但这一框架依赖连续空间的重参数化技巧,对离散符号(词表token)无法直接套用,因为离散空间没有梯度可传播。

2021
多项式扩散与吸收态扩散

Austin等人在NeurIPS 2021发表D3PM(Discrete Denoising Diffusion Probabilistic Models),系统性地将前向过程推广到离散马尔可夫链。核心贡献是提出三类转移矩阵:均匀噪声(Uniform)、吸收态掩码(Absorbing/MASK)和词嵌入相似度引导的转移。其中吸收态扩散最为关键——前向过程逐步将token替换为[MASK],反向过程学习从[MASK]恢复原始token,这与BERT的MLM目标产生了深刻联系,但D3PM在理论上给出了完整的变分下界推导。

2022–2023
连续时间极限与Score Entropy

Lou等人在NeurIPS 2023提出SEDD(Score Entropy Discrete Diffusion),将离散扩散推进到连续时间框架。他们定义了离散空间的"score"概念——不再是梯度,而是转移率比值 $s_\theta(x,t) \approx p_t(y)/p_t(x)$,并推导出Score Entropy损失,使训练目标更加稳定且理论严格。这一工作首次让离散扩散在语言建模困惑度上接近GPT-2水平。

2024
掩码扩散语言模型工程化爆发

MD-LM(Masked Diffusion Language Model,Sahoo等人ICML 2024)和MDLM进一步简化训练目标,证明吸收态扩散在连续时间下等价于一个加权的交叉熵损失,极大降低了实现复杂度。同年,LLaDA(Large Language Diffusion with mAsking)将掩码扩散扩展到70亿参数规模,在指令跟随任务上首次与自回归LLM正面竞争,证明离散扩散可以作为LLM的替代范式。

2025–2026
统一多模态扩展

LLaDA 2.0-Uni等工作将离散扩散骨干与视觉编码器、MoE架构结合,实现多模态理解与生成的统一。离散扩散从语言建模的"学术实验"演变为工业级多模态系统的核心组件。

核心思想
离散扩散语言模型的本质是:在token词表空间上定义一条马尔可夫链,前向过程逐步将原始token"腐蚀"为噪声(通常是[MASK]),反向过程训练神经网络从噪声token逐步还原,从而实现并行、双向、可控的序列生成,打破自回归模型从左到右的单向依赖。
数学结构

设词表大小为 $V$,序列长度为 $L$,前向过程定义为离散马尔可夫链,转移概率由矩阵 $Q_t \in \mathbb{R}^{V \times V}$ 描述。 吸收态前向过程(最常用): $$q(x_t | x_{t-1}) = x_{t-1} Q_t, \quad Q_t = (1-\beta_t)I + \beta_t \mathbf{1} e_{\text{mask}}^\top$$ 其中 $\beta_t$ 是时刻 $t$ 的噪声率,$e_{\text{mask}}$ 是[MASK] token的one-hot向量。这意味着每步以概率 $\beta_t$ 将当前token替换为[MASK],以概率 $1-\beta_t$ 保持不变。 边际分布(跳步采样的关键): $$q(x_t | x_0) = x_0 \bar{Q}_t, \quad \bar{Q}_t = \prod_{s=1}^{t} Q_s$$ 对吸收态,$\bar{Q}_t$ 有闭合形式:token $x_0$ 在时刻 $t$ 仍为原始值的概率为 $\bar{\alpha}_t = \prod_{s=1}^t (1-\beta_s)$,被掩码的概率为 $1 - \bar{\alpha}_t$。 训练目标(变分下界): $$\mathcal{L} = \mathbb{E}_{t, x_0, x_t} \left[ \sum_{i=1}^{L} \mathbf{1}[x_t^i = \text{mask}] \cdot \log p_\theta(x_0^i | x_t) \right] \cdot w(t)$$ 其中 $w(t)$ 是时间步权重,$p_\theta(x_0^i | x_t)$ 是模型对被掩码位置的预测分布。这个目标的深刻之处在于:它在形式上与BERT的MLM完全一致,但通过连续时间积分赋予了严格的生成模型解释——模型不只是"填空",而是在学习真实数据分布的反向转移核。 连续时间极限下的Score Entropy(SEDD): $$\mathcal{L}_{\text{SE}} = \mathbb{E}_{t, x_t} \left[ \sum_{y \neq x_t} R_t(x_t, y) \left( s_\theta(x_t, y, t) - \frac{p_t(y)}{p_t(x_t)} \log s_\theta(x_t, y, t) \right) \right]$$ 其中 $R_t$ 是转移速率矩阵,$s_\theta$ 是参数化的离散score函数,该损失对score比值的估计比直接回归更稳定。

工作机制

离散扩散语言模型的整体逻辑是:将序列生成问题转化为"从全掩码序列出发,经过T步迭代去噪,逐步揭示每个位置的真实token"的过程,每步去噪可以并行处理所有位置,从而突破自回归的串行瓶颈。

Step 1前向加噪过程设计

在训练时,对真实序列 $x_0$ 采样时间步 $t \sim \text{Uniform}(0, T)$,利用闭合形式边际分布 $q(x_t|x_0)$ 直接生成 $x_t$,无需逐步模拟马尔可夫链。对吸收态扩散,这意味着以概率 $1-\bar{\alpha}_t$ 独立地将每个位置替换为[MASK]。为什么选吸收态而非均匀噪声:吸收态保留了"已知位置"的信息,模型可以利用上下文中未被掩码的token来预测被掩码的位置,这与语言的自然结构高度契合;均匀噪声会将token替换为随机词,引入语义混乱,训练信号更嘈杂。

Step 2去噪网络参数化

模型 $p_\theta(x_0 | x_t)$ 通常用双向Transformer实现(区别于自回归的因果Transformer),输入带[MASK]的序列 $x_t$,对每个被掩码位置输出词表上的概率分布。关键设计选择:使用双向注意力而非因果注意力,因为离散扩散的去噪是非自回归的,每个位置的预测可以依赖序列中所有其他位置(包括右侧上下文),这是相比自回归模型的核心优势,也是其能够进行双向推理的根本原因。时间步 $t$ 通过正弦编码注入,让模型感知当前噪声水平。

Step 3反向采样过程

推理时从 $x_T$(全[MASK]序列)出发,执行 $T$ 步去噪。每步利用贝叶斯公式计算后验: $$q(x_{t-1} | x_t, x_0) \propto q(x_t | x_{t-1}) q(x_{t-1} | x_0)$$ 对吸收态扩散,这个后验有解析形式:若 $x_t^i \neq \text{mask}$,则 $x_{t-1}^i = x_t^i$(已揭示的token保持不变);若 $x_t^i = \text{mask}$,则以概率 $\frac{\bar{\alpha}_{t-1} - \bar{\alpha}_t}{1 - \bar{\alpha}_t}$ 从模型预测中采样一个具体token,以概率 $\frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t}$ 保持[MASK]。为什么这样设计:这确保了已经"揭示"的token不会被重新掩码,生成过程单调地从噪声走向清晰,避免了不一致性。

Step 4加速采样与并行解码

离散扩散天然支持将 $T$(通常1000)步压缩到少数步(如10-50步),通过跳步采样(DDIM类比)实现。更重要的是,每一步去噪对所有[MASK]位置完全并行计算,GPU利用率远高于自回归的逐token生成。实践中,LLaDA等工作发现仅需128步即可达到高质量生成,而每步的计算量与一次完整的双向Transformer前向传播相当。对于长序列(如256k token的Qwen3.5-Omni场景),并行解码的延迟优势尤为显著。

Step 5条件生成与指令跟随

对于条件生成(如指令跟随),将条件 $c$(prompt)的token固定不加噪,只对响应部分执行扩散过程。这等价于在反向过程中对prompt位置施加硬约束,模型在去噪时可以全程看到完整prompt,实现自然的条件生成,无需额外的classifier guidance机制。

python # 简化的离散扩散推理伪代码 def generate(model, prompt_ids, gen_len, T=128):     # 初始化:prompt固定,生成部分全掩码     x = torch.cat([prompt_ids,                     torch.full((gen_len,), MASK_ID)])          alphas = cosine_schedule(T)  # ᾱ_t 序列          for t in range(T, 0, -1):         # 模型预测 p(x0 | xt),双向注意力         logits = model(x, t)  # [L, V]         x0_pred = sample_from_logits(logits)                  # 只处理被掩码的位置         mask_pos = (x == MASK_ID)         alpha_prev = alphas[t-1]         alpha_curr = alphas[t]                  # 以概率 (ᾱ_{t-1} - ᾱ_t)/(1 - ᾱ_t) 揭示token         unmask_prob = (alpha_prev - alpha_curr) / (1 - alpha_curr)         unmask = torch.bernoulli(unmask_prob * mask_pos.float())                  x[unmask.bool()] = x0_pred[unmask.bool()]          return x[len(prompt_ids):]
长远价值

离散扩散语言模型在学界已成为自回归范式的有力挑战者。LLaDA在Llama-3-8B规模上首次证明扩散LLM可以在指令跟随基准上与同参数自回归模型竞争。工业界,LLaDA 2.0-Uni将其扩展到多模态统一生成,Mercury(Inception Labs)将离散扩散部署为商业代码生成服务,声称比GPT-4o快10倍。其并行解码特性对长序列生成(如视频脚本、代码文件)尤为关键,是未来超长上下文生成系统的重要候选架构。

前沿动向

当前核心开放问题:①离散扩散在推理密集型任务(数学、代码)上仍弱于自回归,如何引入Chain-of-Thought等推理机制;②采样步数与质量的Pareto前沿尚未充分探索,类DDIM的确定性采样理论尚不完善;③如何与RLHF/DPO等对齐方法结合;④多模态统一(连续视觉+离散语言)的联合扩散框架设计。

工程·思维 第二讲

跟进ML研究的认知工程

就像一位优秀的股票分析师不会每天读完所有上市公司的财报,而是建立一套筛选系统——用宏观指标快速排除90%,用行业信号精读10%,只对1%的标的做深度尽调,同时维护一个随时可查的研究数据库。
历史演进

这个问题的根本动因是:机器学习领域的论文产出速度已经超过了任何个体的认知处理带宽,如何在信息洪流中保持有效的知识积累,成为每一位ML从业者的核心生存技能。

1990s
信息过载概念的诞生

"Information Overload"一词由社会学家Alvin Toffler在1970年《Future Shock》中提出,但直到互联网普及后才成为工程师的日常困境。1990年代,计算机科学领域的论文年产量约数千篇,顶会接收率在30%以上,一个领域的研究者尚可通读所有相关工作。这一时期的知识管理主要依赖期刊订阅和会议参会,信息获取是瓶颈而非过滤。

2012–2017
深度学习爆发与arXiv预印本文化

AlexNet(2012)引爆深度学习热潮后,arXiv cs.LG的日均提交量从个位数增长到数十篇。更关键的是,预印本文化的兴起打破了"期刊审稿"这一天然过滤器——任何人都可以在同行评审前发布工作。到2017年,NeurIPS投稿量突破3000篇,接收率跌破20%。研究者开始意识到,"读完所有论文"不再是策略,而是幻觉。Google Scholar Alert、RSS订阅等工具成为第一代应对方案,但本质上只是把信息推送得更快,并未解决过滤问题。

2018–2022
社区分层过滤机制的自发形成

Twitter/X上的ML社区(Yann LeCun、Andrej Karpathy等人的转发网络)、Reddit r/MachineLearning、Papers With Code等平台形成了去中心化的社区过滤层。研究者发现,跟随5-10位高质量策展人(curators)比订阅arXiv全量推送更有效。这一时期出现了"论文精读"文化——Yannic Kilcher、Two Minute Papers等YouTube频道将论文解读工业化,Andrej Karpathy的"AI领域论文阅读清单"成为社区共识的质量锚点。认知科学研究(Sweller的认知负荷理论、Kahneman的System 1/2框架)开始被ML从业者有意识地引入个人知识管理。

2023–2026
LLM辅助研究工作流的兴起与新困境

ChatGPT、Claude、Semantic Scholar AI等工具使"快速理解一篇论文"的成本大幅下降,但随之而来的是论文产量的进一步爆炸——部分估计显示2024年arXiv cs.LG日均提交超过200篇。更深层的问题浮现:LLM辅助阅读降低了摩擦,但也降低了深度处理的动机,导致"读了很多、记住很少"的新型信息过载。如今讨论的核心已从"如何获取信息"转向"如何构建可检索的个人知识图谱"和"如何区分需要深度理解vs浅层了解的论文"。

核心思想
在每天200篇ML论文的环境下,有效的研究跟进本质上是一个带宽分配问题:用最少的认知资源,在正确的时间,对正确的论文投入正确深度的注意力,同时构建可长期检索和复用的个人知识结构。
工作机制

有效的ML研究跟进系统的整体逻辑是:建立一个三级漏斗——从每日数百篇论文中,通过快速信号过滤、社区验证、深度处理三个阶段,最终只有极少数论文进入长期记忆系统,同时保持对领域全局的感知。

Step 1信号源分层设计(每日15分钟)

不要直接订阅arXiv全量推送。构建三类信号源:一级信号(高密度,每日必看):5-10位与你工作方向高度重叠的研究者的Twitter/X或个人博客——他们的转发/评论是经过专家过滤的信号。二级信号(每周扫描):Hugging Face Papers、Papers With Code趋势榜、特定会议的接收论文列表——这些是经过社区初步验证的工作。三级信号(按需触发):arXiv直接搜索,只在有具体问题时使用。关键认知原则:你的信号源组合本身就是一个"领域模型",需要像调参一样定期审视——某个信号源是否持续产生你事后认为重要的内容?

Step 2三档阅读深度的刻意分配

对每篇进入视野的论文,在30秒内决定投入哪个档次:档次A(标题+摘要,30秒):占90%。目标是更新你的"领域地图"——知道这个方向有人在做,大概做什么。不需要理解细节。档次B(引言+结论+图表,10分钟):占9%。适用于与你当前工作相关、或社区反应强烈的论文。重点看:他们解决了什么问题、核心insight是什么、实验设置是否可信。档次C(全文精读+复现尝试,数小时):占1%。只用于:①你需要在工作中直接使用的方法;②你认为会成为该领域基础工作的论文。为什么这样分配:认知负荷理论表明,工作记忆容量固定,深度处理一篇论文的认知成本约等于浅读20篇,强制分配档次是对抗"每篇都想精读"的完美主义陷阱的工程手段。

Step 3外部化知识图谱的构建

阅读后的输出比阅读本身更重要。推荐的最小化记录系统:对档次B/C的论文,在Obsidian/Notion中写一张"知识卡片",包含:①用一句话说明核心贡献(强迫自己提炼);②与已知工作的关系(继承自谁、挑战了谁);③对你当前工作的潜在影响。双向链接是关键:当你写"这篇论文的方法类似于Flow Matching"时,在Flow Matching的卡片上也添加反向链接。随着时间积累,这个图谱会成为你个人的"领域知识图谱",在需要时可以快速检索,而不依赖记忆。为什么不用AI自动生成摘要替代:自己写摘要的过程是主动提取(Active Recall),认知科学研究表明其记忆效果是被动阅读的2-3倍;AI生成的摘要跳过了这个过程,导致"感觉读懂了但实际没有内化"。

Step 4间隔重复与知识激活

知识卡片不是归档,而是需要定期激活的动态系统。每周花30分钟随机翻阅过去1-3个月的卡片,问自己:①这个方法现在看来还重要吗?②有没有新的论文更新了这个结论?③我能用自己的话向同事解释这个方法吗?这个过程对应认知科学中的"间隔重复"(Spaced Repetition)——在遗忘曲线下降到临界点前重新激活,以最小成本维持长期记忆。对于音视频大模型工程师,特别推荐将"能否向同事讲清楚"作为理解深度的验证标准,因为教学输出会暴露理解中的漏洞。

Step 5元认知校准:定期审视你的跟进策略

每季度做一次"研究跟进复盘":回顾过去3个月你认为重要的论文,有多少在3个月后仍然重要?你错过了哪些后来被证明重要的工作?你的信号源是否存在系统性偏差(如过度关注某个机构或某种方法)?这个元认知层是大多数工程师忽略的——他们优化阅读速度,但从不审视阅读策略本身。具体操作:在每季度的第一周,列出该领域过去3个月被引用最多的5篇论文,与你实际精读的论文对比,分析漏读的原因。

长远价值

这套方法论在顶级研究机构中已有隐性实践。Andrej Karpathy公开分享过他的论文阅读策略(三档深度);DeepMind、OpenAI的研究员普遍维护个人知识图谱。对于音视频大模型工程师,这套系统的价值在于:在语音、视觉、多模态三个快速演进的子领域同时保持有效感知,同时不被每日信息洪流淹没,确保工程决策建立在真实的领域理解而非"感觉读了很多"的幻觉上。

前沿动向

当前最活跃的探索方向:①LLM辅助论文三级分类(自动判断档次A/B/C)的可靠性边界;②个人知识图谱与团队知识库的协同——如何避免团队内重复阅读同一论文;③"研究雷达"系统的设计,即自动追踪某个核心方法被后续工作引用和改进的路径图;④对抗"新颖性偏差"(overvaluing novelty)的认知训练方法。

往期讲解档案 72 个知识点

2026年04月23日一致性正则化ASR原理Consistency RegularizationUnified ASRTransducer
2026年04月23日流式TTS文本规范化工程Text NormalizationStreaming TTSInverse Text Normalization
2026年04月22日神经编码器伪影检测Neural Audio CodecArtifact DetectionForensic Residual
2026年04月22日AI研究复现危机工程Reproducibility CrisisML EngineeringExperimental Rigor
2026年04月21日扩散SNR偏差校正原理Signal-to-Noise RatioDiffusion Timestep BiasScore Matching
2026年04月21日论文复现危机根治工程Reproducibility CrisisAblation StudyExperimental Rigor
2026年04月20日音频时序定位原理Temporal GroundingAudio Event DetectionCross-modal Alignment
2026年04月20日论文复现危机根因Reproducibility CrisisBenchmark OverfittingEvaluation Validity
2026年04月19日流匹配对齐原理Flow Matching AlignmentReward Gradient BackpropagationTrajectory Optimization
2026年04月19日分布式训练任务编排Distributed Training OrchestrationCluster SchedulingFault Tolerance
2026年04月18日最优传输信号融合Optimal TransportWasserstein BarycenterTime-Frequency Resolution
2026年04月18日分布式训练任务调度Distributed Training OrchestrationJob SchedulingCluster Resource Management
2026年04月17日扩散语音识别原理Masked Diffusion Language ModelDiscrete DiffusionASR Decoding
2026年04月17日Mel尺度跨文化偏差Mel ScalePsychoacousticsCultural Bias
2026年04月16日音频水印对抗原理Audio WatermarkingSemi-FragilePsychoacoustic Masking
2026年04月16日推测解码草稿树工程Speculative DecodingDraft TreeBlock Diffusion
2026年04月15日对抗流模型原理Continuous Normalizing FlowAdversarial TrainingFlow Matching
2026年04月15日代理状态可观测性工程Agent ObservabilityDistributed TracingState Machine Debugging
2026年04月14日过程奖励模型原理Process Reward ModelStep-level SupervisionReasoning Chain
2026年04月13日离散令牌音源分离Discrete Token ModelingSource SeparationConditional Generation
2026年04月13日超算API工程哲学Distributed Training OrchestrationSupercomputer API DesignFault Tolerance
2026年04月12日信息瓶颈原理演进Information BottleneckVariational IBDisentanglement
2026年04月12日Safetensors格式工程哲学SafetensorsModel SerializationMemory-Mapped IO
2026年04月11日归一化层演进原理Layer NormalizationRMS NormalizationBatch Normalization
2026年04月11日GEMM自调优后端工程GEMM AutotuningTorchInductorCuteDSL
2026年04月10日多令牌预测原理Multi-Token PredictionSpeculative DecodingMedusa Heads
2026年04月10日ML从业者认知校准Calibration BiasCapability IllusionBenchmark Overfitting
2026年04月09日编码器-解码器LM原理Encoder-Decoder LMCross-Attention ConditioningSequence-to-Sequence
2026年04月09日torch.compile归一化优化torch.compileLayerNormRMSNorm
2026年04月08日KV缓存压缩原理KV Cache CompressionRoPE Position EncodingAttention Score Estimation
2026年04月08日音效基础模型工程Sound Effect GenerationFoundation ModelFoley Synthesis
2026年04月07日可验证奖励强化学习Verifiable RewardRLVRProcess Reward Model
2026年04月07日LLM技能退化认知机制Cognitive OffloadingSkill AtrophyDesirable Difficulty
2026年04月06日音素可解释说话人验证Phoneme-aware Speaker VerificationInterpretable BiometricsLocal Acoustic Evidence
2026年04月06日音频幻觉攻击评估Hallucination AttackAudio Language Model ReliabilityAdversarial Probing
2026年04月05日潜在空间推理原理Latent Space ReasoningContinuous RepresentationToken-Free Inference
2026年04月05日mRNA模型极低成本训练Biology Foundation ModelCross-Species TransferLow-Budget Training
2026年04月04日编码器-解码器TTS原理Encoder-Decoder TTSText ConditioningPositional Capacity
2026年04月04日大模型训练的MXFP8工程MXFP8MicroscalingMixed Precision Training
2026年04月03日在线知识蒸馏原理Online DistillationKnowledge TransferStudent-Teacher
2026年04月03日MoE专家并行调度工程Expert ParallelismMixture of ExpertsAll-to-All Communication
2026年04月02日波形潜空间扩散TTSwaveform latent diffusionnon-autoregressive TTSlatent space acoustic modeling
2026年04月02日波形隐空间扩散原理waveform latent spacediffusion TTSVAE audio codec
2026年04月02日LLM量化权重工程weight quantizationLLM compression4-bit quantization
2026年04月02日扩散语言模型离散生成Discrete DiffusionMasked Diffusion Language ModelNon-autoregressive TTS
2026年04月02日LLM后训练库工程演进RLHF engineeringPPO training stabilityreward hacking
2026年04月02日声学证据瓶颈原理Audio Evidence BottleneckAcoustic GroundingAudio Language Model
2026年04月02日状态空间模型音频建模State Space ModelMambaSelective Scan
2026年04月02日实时语音增强工程选型Real-time Speech EnhancementNoise SuppressionStreaming Inference
2026年04月02日对话上下文压缩原理Context CompressionAbstractive SummarizationCross-Attention Fusion
2026年04月02日说话人匿名化工程Speaker AnonymizationVoice ConversionStreaming Inference
2026年04月02日视听语音识别融合Audio-Visual Speech RecognitionLip ReadingViseme
2026年04月02日GPU训练吞吐加速工程MXFP8MoE TrainingExpert Parallelism
2026年04月01日熵驱动多样性生成diversity samplingtypicality biasrepulsion in latent space
2026年04月01日说话人分割工程选型speaker diarizationbenchmark methodologystreaming ASR pipeline
2026年03月31日转向检测联合建模turn-taking detectionvoice activity detectionjoint acoustic-linguistic modeling
2026年03月31日基准测试的系统性失效benchmark contaminationevaluation validityLLM judge reliability
2026年03月31日扩散模型声学生成diffusion modelscore matchingstochastic differential equation
2026年03月31日TTS开源生态竞争open-weight TTStime-to-first-audiomultilingual speech synthesis
2026年03月30日注意力机制变体演进Multi-Head AttentionGrouped Query AttentionMulti-head Latent Attention
2026年03月30日设备端语音推理架构on-device inferenceExecuTorchvoice agent pipeline
2026年03月29日混合自回归流匹配TTSautoregressive semantic tokensflow matching acoustic decoderhybrid TTS architecture
2026年03月29日NCCL超时诊断方法论NCCL watchdog timeoutdistributed training debuggingcollective communication
2026年03月29日混合架构音频表示Mambastate space modelaudio representation learning
2026年03月29日DeepSeek预训练加速工程MXFP8 trainingexpert parallelismMoE pretraining
2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification