知识讲堂 · Jae Daily

算法理论第一讲

离散扩散语言模型原理

就像填字游戏——不是从第一格按顺序填到最后，而是先随机揭开几个格子，再根据已知字母逐轮推断其余，每轮都能利用全局信息，最终所有格子同时收敛到答案。

历史演进

离散扩散语言模型诞生的根本动因是：连续扩散模型在图像领域大获成功，但语言/符号空间天然离散，如何将"加噪→去噪"范式迁移到离散令牌空间，同时保留扩散模型并行生成、可控采样的优势，成为生成建模的核心挑战。

2015–2020

连续扩散奠基期

Sohl-Dickstein等人2015年在NeurIPS提出扩散概率模型，Ho等人2020年的DDPM将其工程化落地，确立了"前向加高斯噪声→反向去噪"的基本范式。但这一框架依赖连续空间的重参数化技巧，对离散符号（词表token）无法直接套用，因为离散空间没有梯度可传播。

2021

多项式扩散与吸收态扩散

Austin等人在NeurIPS 2021发表D3PM（Discrete Denoising Diffusion Probabilistic Models），系统性地将前向过程推广到离散马尔可夫链。核心贡献是提出三类转移矩阵：均匀噪声（Uniform）、吸收态掩码（Absorbing/MASK）和词嵌入相似度引导的转移。其中吸收态扩散最为关键——前向过程逐步将token替换为[MASK]，反向过程学习从[MASK]恢复原始token，这与BERT的MLM目标产生了深刻联系，但D3PM在理论上给出了完整的变分下界推导。

2022–2023

连续时间极限与Score Entropy

Lou等人在NeurIPS 2023提出SEDD（Score Entropy Discrete Diffusion），将离散扩散推进到连续时间框架。他们定义了离散空间的"score"概念——不再是梯度，而是转移率比值 $s_\theta(x,t) \approx p_t(y)/p_t(x)$，并推导出Score Entropy损失，使训练目标更加稳定且理论严格。这一工作首次让离散扩散在语言建模困惑度上接近GPT-2水平。

2024

掩码扩散语言模型工程化爆发

MD-LM（Masked Diffusion Language Model，Sahoo等人ICML 2024）和MDLM进一步简化训练目标，证明吸收态扩散在连续时间下等价于一个加权的交叉熵损失，极大降低了实现复杂度。同年，LLaDA（Large Language Diffusion with mAsking）将掩码扩散扩展到70亿参数规模，在指令跟随任务上首次与自回归LLM正面竞争，证明离散扩散可以作为LLM的替代范式。

2025–2026

统一多模态扩展

LLaDA 2.0-Uni等工作将离散扩散骨干与视觉编码器、MoE架构结合，实现多模态理解与生成的统一。离散扩散从语言建模的"学术实验"演变为工业级多模态系统的核心组件。

核心思想

离散扩散语言模型的本质是：在token词表空间上定义一条马尔可夫链，前向过程逐步将原始token"腐蚀"为噪声（通常是[MASK]），反向过程训练神经网络从噪声token逐步还原，从而实现并行、双向、可控的序列生成，打破自回归模型从左到右的单向依赖。

数学结构

设词表大小为 $V$，序列长度为 $L$，前向过程定义为离散马尔可夫链，转移概率由矩阵 $Q_t \in \mathbb{R}^{V \times V}$ 描述。 吸收态前向过程（最常用）： $$q(x_t | x_{t-1}) = x_{t-1} Q_t, \quad Q_t = (1-\beta_t)I + \beta_t \mathbf{1} e_{\text{mask}}^\top$$ 其中 $\beta_t$ 是时刻 $t$ 的噪声率，$e_{\text{mask}}$ 是[MASK] token的one-hot向量。这意味着每步以概率 $\beta_t$ 将当前token替换为[MASK]，以概率 $1-\beta_t$ 保持不变。 边际分布（跳步采样的关键）： $$q(x_t | x_0) = x_0 \bar{Q}_t, \quad \bar{Q}_t = \prod_{s=1}^{t} Q_s$$ 对吸收态，$\bar{Q}_t$ 有闭合形式：token $x_0$ 在时刻 $t$ 仍为原始值的概率为 $\bar{\alpha}_t = \prod_{s=1}^t (1-\beta_s)$，被掩码的概率为 $1 - \bar{\alpha}_t$。 训练目标（变分下界）： $$\mathcal{L} = \mathbb{E}_{t, x_0, x_t} \left[ \sum_{i=1}^{L} \mathbf{1}[x_t^i = \text{mask}] \cdot \log p_\theta(x_0^i | x_t) \right] \cdot w(t)$$ 其中 $w(t)$ 是时间步权重，$p_\theta(x_0^i | x_t)$ 是模型对被掩码位置的预测分布。这个目标的深刻之处在于：它在形式上与BERT的MLM完全一致，但通过连续时间积分赋予了严格的生成模型解释——模型不只是"填空"，而是在学习真实数据分布的反向转移核。 连续时间极限下的Score Entropy（SEDD）： $$\mathcal{L}_{\text{SE}} = \mathbb{E}_{t, x_t} \left[ \sum_{y \neq x_t} R_t(x_t, y) \left( s_\theta(x_t, y, t) - \frac{p_t(y)}{p_t(x_t)} \log s_\theta(x_t, y, t) \right) \right]$$ 其中 $R_t$ 是转移速率矩阵，$s_\theta$ 是参数化的离散score函数，该损失对score比值的估计比直接回归更稳定。

工作机制

离散扩散语言模型的整体逻辑是：将序列生成问题转化为"从全掩码序列出发，经过T步迭代去噪，逐步揭示每个位置的真实token"的过程，每步去噪可以并行处理所有位置，从而突破自回归的串行瓶颈。

Step 1前向加噪过程设计

在训练时，对真实序列 $x_0$ 采样时间步 $t \sim \text{Uniform}(0, T)$，利用闭合形式边际分布 $q(x_t|x_0)$ 直接生成 $x_t$，无需逐步模拟马尔可夫链。对吸收态扩散，这意味着以概率 $1-\bar{\alpha}_t$ 独立地将每个位置替换为[MASK]。为什么选吸收态而非均匀噪声：吸收态保留了"已知位置"的信息，模型可以利用上下文中未被掩码的token来预测被掩码的位置，这与语言的自然结构高度契合；均匀噪声会将token替换为随机词，引入语义混乱，训练信号更嘈杂。

Step 2去噪网络参数化

模型 $p_\theta(x_0 | x_t)$ 通常用双向Transformer实现（区别于自回归的因果Transformer），输入带[MASK]的序列 $x_t$，对每个被掩码位置输出词表上的概率分布。关键设计选择：使用双向注意力而非因果注意力，因为离散扩散的去噪是非自回归的，每个位置的预测可以依赖序列中所有其他位置（包括右侧上下文），这是相比自回归模型的核心优势，也是其能够进行双向推理的根本原因。时间步 $t$ 通过正弦编码注入，让模型感知当前噪声水平。

Step 3反向采样过程

推理时从 $x_T$（全[MASK]序列）出发，执行 $T$ 步去噪。每步利用贝叶斯公式计算后验： $$q(x_{t-1} | x_t, x_0) \propto q(x_t | x_{t-1}) q(x_{t-1} | x_0)$$ 对吸收态扩散，这个后验有解析形式：若 $x_t^i \neq \text{mask}$，则 $x_{t-1}^i = x_t^i$（已揭示的token保持不变）；若 $x_t^i = \text{mask}$，则以概率 $\frac{\bar{\alpha}_{t-1} - \bar{\alpha}_t}{1 - \bar{\alpha}_t}$ 从模型预测中采样一个具体token，以概率 $\frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t}$ 保持[MASK]。为什么这样设计：这确保了已经"揭示"的token不会被重新掩码，生成过程单调地从噪声走向清晰，避免了不一致性。

Step 4加速采样与并行解码

离散扩散天然支持将 $T$（通常1000）步压缩到少数步（如10-50步），通过跳步采样（DDIM类比）实现。更重要的是，每一步去噪对所有[MASK]位置完全并行计算，GPU利用率远高于自回归的逐token生成。实践中，LLaDA等工作发现仅需128步即可达到高质量生成，而每步的计算量与一次完整的双向Transformer前向传播相当。对于长序列（如256k token的Qwen3.5-Omni场景），并行解码的延迟优势尤为显著。

Step 5条件生成与指令跟随

对于条件生成（如指令跟随），将条件 $c$（prompt）的token固定不加噪，只对响应部分执行扩散过程。这等价于在反向过程中对prompt位置施加硬约束，模型在去噪时可以全程看到完整prompt，实现自然的条件生成，无需额外的classifier guidance机制。

python # 简化的离散扩散推理伪代码 def generate(model, prompt_ids, gen_len, T=128):     # 初始化：prompt固定，生成部分全掩码     x = torch.cat([prompt_ids,                     torch.full((gen_len,), MASK_ID)])          alphas = cosine_schedule(T)  # ᾱ_t 序列          for t in range(T, 0, -1):         # 模型预测 p(x0 | xt)，双向注意力         logits = model(x, t)  # [L, V]         x0_pred = sample_from_logits(logits)                  # 只处理被掩码的位置         mask_pos = (x == MASK_ID)         alpha_prev = alphas[t-1]         alpha_curr = alphas[t]                  # 以概率 (ᾱ_{t-1} - ᾱ_t)/(1 - ᾱ_t) 揭示token         unmask_prob = (alpha_prev - alpha_curr) / (1 - alpha_curr)         unmask = torch.bernoulli(unmask_prob * mask_pos.float())                  x[unmask.bool()] = x0_pred[unmask.bool()]          return x[len(prompt_ids):]

长远价值

离散扩散语言模型在学界已成为自回归范式的有力挑战者。LLaDA在Llama-3-8B规模上首次证明扩散LLM可以在指令跟随基准上与同参数自回归模型竞争。工业界，LLaDA 2.0-Uni将其扩展到多模态统一生成，Mercury（Inception Labs）将离散扩散部署为商业代码生成服务，声称比GPT-4o快10倍。其并行解码特性对长序列生成（如视频脚本、代码文件）尤为关键，是未来超长上下文生成系统的重要候选架构。

前沿动向

当前核心开放问题：①离散扩散在推理密集型任务（数学、代码）上仍弱于自回归，如何引入Chain-of-Thought等推理机制；②采样步数与质量的Pareto前沿尚未充分探索，类DDIM的确定性采样理论尚不完善；③如何与RLHF/DPO等对齐方法结合；④多模态统一（连续视觉+离散语言）的联合扩散框架设计。

工程·思维第二讲

跟进ML研究的认知工程

▶ YouTube ▶ B站 ↗ 原始论文

就像一位优秀的股票分析师不会每天读完所有上市公司的财报，而是建立一套筛选系统——用宏观指标快速排除90%，用行业信号精读10%，只对1%的标的做深度尽调，同时维护一个随时可查的研究数据库。

历史演进

这个问题的根本动因是：机器学习领域的论文产出速度已经超过了任何个体的认知处理带宽，如何在信息洪流中保持有效的知识积累，成为每一位ML从业者的核心生存技能。

1990s

信息过载概念的诞生

"Information Overload"一词由社会学家Alvin Toffler在1970年《Future Shock》中提出，但直到互联网普及后才成为工程师的日常困境。1990年代，计算机科学领域的论文年产量约数千篇，顶会接收率在30%以上，一个领域的研究者尚可通读所有相关工作。这一时期的知识管理主要依赖期刊订阅和会议参会，信息获取是瓶颈而非过滤。

2012–2017

深度学习爆发与arXiv预印本文化

AlexNet（2012）引爆深度学习热潮后，arXiv cs.LG的日均提交量从个位数增长到数十篇。更关键的是，预印本文化的兴起打破了"期刊审稿"这一天然过滤器——任何人都可以在同行评审前发布工作。到2017年，NeurIPS投稿量突破3000篇，接收率跌破20%。研究者开始意识到，"读完所有论文"不再是策略，而是幻觉。Google Scholar Alert、RSS订阅等工具成为第一代应对方案，但本质上只是把信息推送得更快，并未解决过滤问题。

2018–2022

社区分层过滤机制的自发形成

Twitter/X上的ML社区（Yann LeCun、Andrej Karpathy等人的转发网络）、Reddit r/MachineLearning、Papers With Code等平台形成了去中心化的社区过滤层。研究者发现，跟随5-10位高质量策展人（curators）比订阅arXiv全量推送更有效。这一时期出现了"论文精读"文化——Yannic Kilcher、Two Minute Papers等YouTube频道将论文解读工业化，Andrej Karpathy的"AI领域论文阅读清单"成为社区共识的质量锚点。认知科学研究（Sweller的认知负荷理论、Kahneman的System 1/2框架）开始被ML从业者有意识地引入个人知识管理。

2023–2026

LLM辅助研究工作流的兴起与新困境

ChatGPT、Claude、Semantic Scholar AI等工具使"快速理解一篇论文"的成本大幅下降，但随之而来的是论文产量的进一步爆炸——部分估计显示2024年arXiv cs.LG日均提交超过200篇。更深层的问题浮现：LLM辅助阅读降低了摩擦，但也降低了深度处理的动机，导致"读了很多、记住很少"的新型信息过载。如今讨论的核心已从"如何获取信息"转向"如何构建可检索的个人知识图谱"和"如何区分需要深度理解vs浅层了解的论文"。

核心思想

在每天200篇ML论文的环境下，有效的研究跟进本质上是一个带宽分配问题：用最少的认知资源，在正确的时间，对正确的论文投入正确深度的注意力，同时构建可长期检索和复用的个人知识结构。

工作机制

有效的ML研究跟进系统的整体逻辑是：建立一个三级漏斗——从每日数百篇论文中，通过快速信号过滤、社区验证、深度处理三个阶段，最终只有极少数论文进入长期记忆系统，同时保持对领域全局的感知。

Step 1信号源分层设计（每日15分钟）

不要直接订阅arXiv全量推送。构建三类信号源：一级信号（高密度，每日必看）：5-10位与你工作方向高度重叠的研究者的Twitter/X或个人博客——他们的转发/评论是经过专家过滤的信号。二级信号（每周扫描）：Hugging Face Papers、Papers With Code趋势榜、特定会议的接收论文列表——这些是经过社区初步验证的工作。三级信号（按需触发）：arXiv直接搜索，只在有具体问题时使用。关键认知原则：你的信号源组合本身就是一个"领域模型"，需要像调参一样定期审视——某个信号源是否持续产生你事后认为重要的内容？

Step 2三档阅读深度的刻意分配

对每篇进入视野的论文，在30秒内决定投入哪个档次：档次A（标题+摘要，30秒）：占90%。目标是更新你的"领域地图"——知道这个方向有人在做，大概做什么。不需要理解细节。档次B（引言+结论+图表，10分钟）：占9%。适用于与你当前工作相关、或社区反应强烈的论文。重点看：他们解决了什么问题、核心insight是什么、实验设置是否可信。档次C（全文精读+复现尝试，数小时）：占1%。只用于：①你需要在工作中直接使用的方法；②你认为会成为该领域基础工作的论文。为什么这样分配：认知负荷理论表明，工作记忆容量固定，深度处理一篇论文的认知成本约等于浅读20篇，强制分配档次是对抗"每篇都想精读"的完美主义陷阱的工程手段。

Step 3外部化知识图谱的构建

阅读后的输出比阅读本身更重要。推荐的最小化记录系统：对档次B/C的论文，在Obsidian/Notion中写一张"知识卡片"，包含：①用一句话说明核心贡献（强迫自己提炼）；②与已知工作的关系（继承自谁、挑战了谁）；③对你当前工作的潜在影响。双向链接是关键：当你写"这篇论文的方法类似于Flow Matching"时，在Flow Matching的卡片上也添加反向链接。随着时间积累，这个图谱会成为你个人的"领域知识图谱"，在需要时可以快速检索，而不依赖记忆。为什么不用AI自动生成摘要替代：自己写摘要的过程是主动提取（Active Recall），认知科学研究表明其记忆效果是被动阅读的2-3倍；AI生成的摘要跳过了这个过程，导致"感觉读懂了但实际没有内化"。

Step 4间隔重复与知识激活

知识卡片不是归档，而是需要定期激活的动态系统。每周花30分钟随机翻阅过去1-3个月的卡片，问自己：①这个方法现在看来还重要吗？②有没有新的论文更新了这个结论？③我能用自己的话向同事解释这个方法吗？这个过程对应认知科学中的"间隔重复"（Spaced Repetition）——在遗忘曲线下降到临界点前重新激活，以最小成本维持长期记忆。对于音视频大模型工程师，特别推荐将"能否向同事讲清楚"作为理解深度的验证标准，因为教学输出会暴露理解中的漏洞。

Step 5元认知校准：定期审视你的跟进策略

每季度做一次"研究跟进复盘"：回顾过去3个月你认为重要的论文，有多少在3个月后仍然重要？你错过了哪些后来被证明重要的工作？你的信号源是否存在系统性偏差（如过度关注某个机构或某种方法）？这个元认知层是大多数工程师忽略的——他们优化阅读速度，但从不审视阅读策略本身。具体操作：在每季度的第一周，列出该领域过去3个月被引用最多的5篇论文，与你实际精读的论文对比，分析漏读的原因。

长远价值

这套方法论在顶级研究机构中已有隐性实践。Andrej Karpathy公开分享过他的论文阅读策略（三档深度）；DeepMind、OpenAI的研究员普遍维护个人知识图谱。对于音视频大模型工程师，这套系统的价值在于：在语音、视觉、多模态三个快速演进的子领域同时保持有效感知，同时不被每日信息洪流淹没，确保工程决策建立在真实的领域理解而非"感觉读了很多"的幻觉上。

前沿动向

当前最活跃的探索方向：①LLM辅助论文三级分类（自动判断档次A/B/C）的可靠性边界；②个人知识图谱与团队知识库的协同——如何避免团队内重复阅读同一论文；③"研究雷达"系统的设计，即自动追踪某个核心方法被后续工作引用和改进的路径图；④对抗"新颖性偏差"（overvaluing novelty）的认知训练方法。

离散扩散语言模型原理

跟进ML研究的认知工程

往期讲解档案 72 个知识点