知识讲堂

← 返回日报
算法理论 第一讲

混合架构音频表示

就像高速公路上既有快速路(Mamba,高速通过全程但不看细节)又有服务区(注意力层,停下来仔细检查局部),两者配合才能既快又准地完成长途旅行。
历史演进

音频序列天然具有极长时间跨度,如何在不爆炸的计算复杂度下捕获全局依赖,是音频表示学习的根本矛盾。

1990s
RNN 时代的序列建模

循环神经网络(LSTM、GRU)是处理变长序列的主流工具。其隐状态在时间维度上递推传递,理论上能捕获任意长距离依赖,但梯度消失使实际有效感受野极为有限。对于 16kHz 采样的 10 秒音频(160,000 个采样点),RNN 几乎无法建立首尾关联。

2017
Transformer 重塑序列建模

Vaswani 等人提出的 Self-Attention 机制以 $O(N^2)$ 复杂度换取了真正的全局感受野。在 NLP 中,句子长度通常在数百 token,这个代价可以接受。但音频的帧序列动辄数千甚至数万帧——以 Whisper 为例,30 秒音频对应 1500 个 mel 帧,而原始波形级别的处理则完全不可行。这一矛盾催生了大量近似注意力研究(Longformer、BigBird 等),但均以牺牲精度为代价。

2021–2022
状态空间模型的复兴

Gu 等人将经典控制论中的连续状态空间模型(SSM)重新引入深度学习,提出 S4(Structured State Space Sequence Model)。SSM 的核心是将序列映射建模为线性时不变系统:$\dot{h}(t) = Ah(t) + Bx(t)$,$y(t) = Ch(t) + Dx(t)$。通过对矩阵 $A$ 施加 HiPPO 结构约束,S4 能以 $O(N \log N)$ 复杂度高效捕获长程依赖,在 Long Range Arena 基准上大幅超越 Transformer。

2023
Mamba 引入选择性机制

Gu 和 Dao 提出 Mamba,将 SSM 的固定参数矩阵改为输入依赖(input-dependent)的选择性参数,即 $B, C, \Delta$ 均由当前输入 $x_t$ 动态生成。这一改动使模型能够"选择性遗忘"无关信息,类似注意力机制的内容寻址能力,同时保持线性推理复杂度。Mamba 在语言建模上首次与 Transformer 持平,引发学界对"后 Transformer 时代"的广泛讨论。

2024–2025
混合架构在音频领域的探索

纯 Mamba 在需要精确局部对齐的任务(如音素识别)上表现不如注意力;纯注意力在超长序列上计算不可行。HELIX 等工作系统性地比较了纯 Mamba、纯注意力、以及不同比例混合架构在音频表示学习中的表现,揭示出:局部精细结构依赖注意力,全局时序依赖 Mamba,两者互补而非替代。这一发现正在成为音频大模型前端设计的新范式。

核心思想
混合 Mamba-Attention 架构的本质是:用状态空间模型的线性复杂度处理音频的长程时序依赖,用注意力机制的内容寻址能力处理局部精细结构,两者在不同层交替部署,以接近线性的代价获得接近全局感受野的表示能力。
数学结构

状态空间模型的离散化形式是理解 Mamba 的核心。连续系统 $\dot{h}(t) = Ah(t) + Bx(t)$ 经零阶保持(ZOH)离散化后得到: $$\bar{A} = e^{\Delta A}, \quad \bar{B} = (\Delta A)^{-1}(e^{\Delta A} - I) \cdot \Delta B$$ $$h_t = \bar{A} h_{t-1} + \bar{B} x_t, \quad y_t = C h_t$$ 其中 $\Delta$ 是时间步长(可学习),$h_t \in \mathbb{R}^N$ 是隐状态,$N$ 为状态维度。 Mamba 的关键创新在于令 $B_t = \text{Linear}(x_t)$,$C_t = \text{Linear}(x_t)$,$\Delta_t = \text{softplus}(\text{Linear}(x_t))$,即参数随输入动态变化。这打破了 S4 的线性时不变约束,使模型具备内容感知的选择能力。 混合架构中,注意力层计算标准的缩放点积注意力: $$\text{Attn}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$ 复杂度为 $O(L^2 d)$,$L$ 为序列长度。而 Mamba 层的推理复杂度为 $O(L \cdot N \cdot d)$,$N \ll L$ 时近似线性。混合架构通过控制注意力层比例(通常 1:3 到 1:7),将整体复杂度压制在可接受范围内,同时保留注意力对局部精细模式的建模能力。

工作机制

混合 Mamba-Attention 音频编码器的整体逻辑是:将音频帧序列先经过前端特征提取,再交替通过 Mamba 层(捕获长程时序)和稀疏注意力层(捕获局部精细结构),最终输出适合下游任务的音频表示。

Step 1前端特征提取与序列构建

输入原始波形或 mel 频谱图,经卷积或线性投影降采样为帧序列 $\{x_1, ..., x_L\}$,$x_i \in \mathbb{R}^d$。这一步的关键设计决策是降采样率:过激的降采样会丢失音素级细节(对 ASR 致命),过保守则序列过长使后续计算爆炸。典型设置是 20ms 帧移,对应 50 fps,10 秒音频产生 500 帧。为什么不直接用原始波形?16kHz 采样下 10 秒 = 160,000 点,即使 Mamba 也会在状态维度上付出巨大代价。

Step 2Mamba 层的选择性状态传播

每个 Mamba 层接收帧序列,对每个时间步动态计算 $\bar{A}_t, \bar{B}_t, C_t$,然后递推更新隐状态 $h_t$。关键实现细节:训练时可将递推展开为卷积形式(并行扫描算法),推理时保持递推形式(常数内存)。这使得 Mamba 训练效率接近 Transformer,推理内存远优于 Transformer。在音频中,Mamba 层擅长捕获韵律、说话人风格等跨越数秒的慢变特征。

Step 3注意力层的局部精细对齐

每隔若干 Mamba 层插入一个注意力层,通常配合局部窗口限制(window size = 64~256 帧)将复杂度从 $O(L^2)$ 降为 $O(L \cdot W)$。注意力层的作用是修正 Mamba 的"遗忘"——当两个音素在时间上相邻但声学差异极大时,Mamba 的平滑状态传播可能模糊边界,而注意力的精确内容匹配能重新锐化这些边界。为什么不全用局部注意力?局部注意力无法建立跨窗口的长程依赖,而 Mamba 层恰好填补这一空白。

Step 4层间比例与深度配置

实验表明,Mamba:Attention 层比例并非越高越好。HELIX 等工作发现,在音频理解任务中,约 1:4 到 1:6 的注意力层比例(即每 4~6 个 Mamba 层配 1 个注意力层)在效果与效率间取得最佳平衡。过多注意力层使复杂度回升,过少则局部对齐能力不足。此外,注意力层应优先放置在网络浅层(捕获声学细节)而非深层(深层更多是语义整合,Mamba 更擅长)。

Step 5序列长度与前端的耦合效应

HELIX 的核心发现之一:输入前端(mel vs. 原始波形)、序列骨干(Mamba vs. Attention)、序列长度三者存在强耦合。原始波形输入 + 纯注意力 = 计算不可行;mel 输入 + 纯 Mamba = 局部精度不足;原始波形输入 + 混合架构 = 在长序列任务(如音乐理解、长对话 ASR)上超越所有单一架构。这一发现提示工程师:选型时不能孤立考虑骨干网络,必须与前端设计联合优化。

长远价值

混合 Mamba-Attention 架构正在成为音频大模型前端的主流设计范式。Whisper 等纯 Transformer 模型在处理超过 30 秒音频时需要分段,而混合架构可原生处理分钟级音频。在工业界,Meta 的 AudioSeal、Google 的音频编码器研究均在探索类似思路。对于音视频大模型工程师,这一架构直接影响多模态模型中音频编码器的选型,尤其在需要处理长视频音轨(电影级、会议录音)的场景中,混合架构相比纯 Transformer 可节省 60%+ 的显存占用。

前沿动向

当前开放问题包括:①混合比例的理论最优解尚无定论,现有结论均来自经验搜索;②Mamba 的并行训练效率在极长序列(>10万帧)下仍有瓶颈;③如何将混合架构与音频 tokenizer(如 EnCodec)联合设计以减少信息损失;④在流式推理场景下,注意力层的 KV cache 与 Mamba 的递推状态如何统一管理,是工程上的未解难题。

工程·思维 第二讲

DeepSeek预训练加速工程

就像工厂流水线同时引入两项改造——把所有零件从精密加工改为高精度模具冲压(MXFP8,速度更快但精度略降),同时重新规划物料配送路线减少等待(DeepEP),两项改造互不干扰,叠加后产能提升 41%。
历史演进

大规模 MoE 模型的预训练效率问题,本质上是"计算精度、通信带宽、专家负载均衡"三个约束同时收紧时的系统工程难题。

2017–2019
混合精度训练奠基

Micikevicius 等人(NVIDIA/Baidu)在 2018 年 ICLR 提出 FP16 混合精度训练:前向/反向用 FP16 计算,维护 FP32 主权重副本,用损失缩放(loss scaling)防止梯度下溢。这一方案将显存占用减半、计算吞吐提升约 2-3 倍,成为此后所有大模型训练的标配。但 FP16 的动态范围(约 $10^{-4}$ 到 $6.5 \times 10^4$)在某些层(如 softmax、LayerNorm)仍会溢出,需要精心的数值稳定性处理。

2022–2023
FP8 格式的标准化与硬件落地

随着 NVIDIA H100 引入原生 FP8 张量核心,FP8 训练进入实用阶段。FP8 有两种格式:E4M3(4位指数+3位尾数,适合前向传播,动态范围较大)和 E5M2(5位指数+2位尾数,适合梯度,精度较低但范围更大)。Transformer Engine 库封装了自动量化/反量化逻辑,使工程师无需手动管理。但 FP8 的精度损失在 MoE 模型中被放大——专家路由的 softmax 对数值精度极为敏感,早期 FP8 训练在 MoE 上的损失曲线明显不稳定。

2024
MX(Microscaling)格式的提出

微软、AMD、英特尔、NVIDIA 等联合提出 MX 格式规范(OCP MX Specification)。MXFP8 的核心创新是"块级共享指数":将张量切分为固定大小的块(通常 32 个元素),每块共享一个 8 位的缩放因子(scale),块内元素用 FP8 表示。这相比 per-tensor 量化大幅提升了数值表示精度,相比 per-element 量化又避免了存储开销爆炸。MXFP8 在 NVIDIA B200 上获得原生硬件支持,理论峰值算力相比 BF16 翻倍。

2025
DeepSeek-V3 + TorchTitan 的工程验证

PyTorch 团队与 Nebius 合作,在 256 块 B200 GPU 上使用 TorchTitan 框架训练 DeepSeek-V3(671B MoE 模型),系统评估 MXFP8 训练和 DeepEP(Deep Expert Parallelism)两种正交优化的实际收益。结果显示两者叠加可实现约 41% 的吞吐提升,且训练损失曲线与 BF16 基线高度吻合,验证了 MXFP8 在超大规模 MoE 训练中的工程可行性。

核心思想
在 256 块 B200 GPU 上训练 671B MoE 模型的核心工程挑战是:用 MXFP8 块级量化压缩计算精度损失、用 DeepEP 专家并行减少 All-to-All 通信开销,两者正交叠加,在不损失模型质量的前提下将训练吞吐提升 41%。
数学结构

MXFP8 的量化机制可形式化如下。将权重矩阵 $W \in \mathbb{R}^{M \times N}$ 切分为大小为 $B$(通常 $B=32$)的块 $\{w_1, ..., w_K\}$,对每块计算共享缩放因子: $$s_k = \frac{\max(|w_k|)}{2^{e_{\max}-1}}$$ 其中 $e_{\max}$ 由 FP8 格式的指数位数决定(E4M3 时 $e_{\max}=8$)。量化值为: $$\hat{w}_{k,i} = \text{round}\left(\frac{w_{k,i}}{s_k}\right)$$ 反量化时 $\tilde{w}_{k,i} = \hat{w}_{k,i} \cdot s_k$。量化误差的期望为零(对称量化),方差为 $\sigma^2 \approx \frac{s_k^2}{12}$,块内元素共享 $s_k$ 使误差方差相比 per-tensor 量化降低约 $\frac{\text{动态范围}}{\text{块内范围}}$ 倍。 DeepEP 的通信开销分析:标准 MoE All-to-All 通信量为 $O(E \cdot T \cdot d)$,$E$ 为专家数,$T$ 为 token 数,$d$ 为隐层维度。DeepEP 通过将专家并行与张量并行解耦,并引入异步通信掩盖(communication hiding),将有效通信延迟压缩至计算时间的 15% 以内。

工作机制

整体逻辑是:通过精度压缩(MXFP8)和通信优化(DeepEP)两条正交路径同时提升训练吞吐,两者互不干扰,叠加效果接近乘法关系。

Step 1MXFP8 前向传播量化

在每个矩阵乘法(GEMM)前,对激活值和权重分别按块计算缩放因子,转换为 MXFP8 格式送入张量核心计算。关键工程细节:缩放因子的计算本身有开销,TorchTitan 的实现将其融合进 CUDA kernel(fused quantization),避免额外的显存读写。对于 MoE 的路由 softmax,保留 BF16 精度(不量化),因为这里的数值精度直接影响专家选择的稳定性。

Step 2梯度的 MXFP8 处理策略

反向传播中,梯度的分布与激活值不同(通常更稀疏、峰值更尖锐),使用 E5M2 格式(更大动态范围)而非 E4M3。权重更新(optimizer step)仍在 BF16/FP32 下进行,维护高精度主权重。这种"前向 E4M3 + 反向 E5M2 + 优化器 BF16"的三段式策略是 FP8 训练的工程标准,来自 Transformer Engine 的实践经验。

Step 3DeepEP 专家并行通信优化

标准 MoE 训练中,每个 token 被路由到不同 GPU 上的专家,需要 All-to-All 通信。DeepEP 的核心优化有两点:①将 All-to-All 拆分为两阶段(dispatch + combine),与专家计算流水线重叠;②利用 NVLink 的点对点带宽优先于 InfiniBand,在节点内专家间通信时绕过 NCCL 的集合通信开销。在 256 块 B200 的配置下,节点内 NVLink 带宽(900 GB/s)远高于节点间 InfiniBand(400 Gb/s),DeepEP 的路由感知调度能最大化节点内专家的利用率。

Step 4损失曲线监控与数值稳定性保障

MXFP8 训练最大的工程风险是"静默精度退化"——训练损失看似正常,但模型在某些任务上的能力悄然下降。TorchTitan 的实践是:每 100 步记录各层激活值的 L2 范数和梯度范数,与 BF16 基线对比;一旦偏差超过阈值(通常 5%),自动回退到 BF16 并记录告警。此外,对 LayerNorm 和 RMSNorm 的输入强制保持 BF16,因为归一化操作对数值精度极为敏感,量化会导致训练不稳定。

Step 5吞吐基准与实际收益拆解

41% 的总提升中,MXFP8 贡献约 22-25%(主要来自张量核心算力翻倍和显存带宽节省),DeepEP 贡献约 15-18%(主要来自通信掩盖)。两者叠加略低于乘法预期(理论上应为 $1.23 \times 1.17 \approx 44\%$),差距来自量化/反量化的额外 kernel 开销和 DeepEP 路由计算的 CPU 侧延迟。这一拆解对工程师的意义在于:如果集群的通信瓶颈不严重(如纯 NVLink 集群),DeepEP 收益会更大;如果计算瓶颈更突出,MXFP8 的收益更显著。

长远价值

这一工程实践直接影响了业界对 B200 集群的使用方式。DeepSeek-V3 的开源权重加上 TorchTitan 的训练框架,使中小型机构也能复现万亿参数 MoE 的训练流程。MXFP8 + DeepEP 的组合已被多家云厂商(Nebius、Lambda Labs)作为 MoE 训练的默认配置。对音视频大模型工程师的直接价值:音视频生成模型(如 Sora 类架构)普遍采用 MoE 扩展,这套优化方案可直接迁移。

前沿动向

当前开放问题:①MXFP8 在注意力机制(特别是 Flash Attention)中的集成仍不完善,attention score 的量化误差对长序列影响尚未充分研究;②DeepEP 的路由感知调度在动态负载不均衡时(专家热点问题)的鲁棒性需要改进;③MXFP4 格式已在 B200 上支持,但训练精度损失是否可接受尚无定论;④如何将 MXFP8 与梯度检查点(gradient checkpointing)联合使用以进一步节省显存,是工程上的活跃探索方向。

往期讲解档案 7 个知识点

2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification