知识讲堂 · Jae Daily

算法理论第一讲

混合架构音频表示

就像高速公路上既有快速路（Mamba，高速通过全程但不看细节）又有服务区（注意力层，停下来仔细检查局部），两者配合才能既快又准地完成长途旅行。

历史演进

音频序列天然具有极长时间跨度，如何在不爆炸的计算复杂度下捕获全局依赖，是音频表示学习的根本矛盾。

1990s

RNN 时代的序列建模

循环神经网络（LSTM、GRU）是处理变长序列的主流工具。其隐状态在时间维度上递推传递，理论上能捕获任意长距离依赖，但梯度消失使实际有效感受野极为有限。对于 16kHz 采样的 10 秒音频（160,000 个采样点），RNN 几乎无法建立首尾关联。

2017

Transformer 重塑序列建模

Vaswani 等人提出的 Self-Attention 机制以 $O(N^2)$ 复杂度换取了真正的全局感受野。在 NLP 中，句子长度通常在数百 token，这个代价可以接受。但音频的帧序列动辄数千甚至数万帧——以 Whisper 为例，30 秒音频对应 1500 个 mel 帧，而原始波形级别的处理则完全不可行。这一矛盾催生了大量近似注意力研究（Longformer、BigBird 等），但均以牺牲精度为代价。

2021–2022

状态空间模型的复兴

Gu 等人将经典控制论中的连续状态空间模型（SSM）重新引入深度学习，提出 S4（Structured State Space Sequence Model）。SSM 的核心是将序列映射建模为线性时不变系统：$\dot{h}(t) = Ah(t) + Bx(t)$，$y(t) = Ch(t) + Dx(t)$。通过对矩阵 $A$ 施加 HiPPO 结构约束，S4 能以 $O(N \log N)$ 复杂度高效捕获长程依赖，在 Long Range Arena 基准上大幅超越 Transformer。

2023

Mamba 引入选择性机制

Gu 和 Dao 提出 Mamba，将 SSM 的固定参数矩阵改为输入依赖（input-dependent）的选择性参数，即 $B, C, \Delta$ 均由当前输入 $x_t$ 动态生成。这一改动使模型能够"选择性遗忘"无关信息，类似注意力机制的内容寻址能力，同时保持线性推理复杂度。Mamba 在语言建模上首次与 Transformer 持平，引发学界对"后 Transformer 时代"的广泛讨论。

2024–2025

混合架构在音频领域的探索

纯 Mamba 在需要精确局部对齐的任务（如音素识别）上表现不如注意力；纯注意力在超长序列上计算不可行。HELIX 等工作系统性地比较了纯 Mamba、纯注意力、以及不同比例混合架构在音频表示学习中的表现，揭示出：局部精细结构依赖注意力，全局时序依赖 Mamba，两者互补而非替代。这一发现正在成为音频大模型前端设计的新范式。

核心思想

混合 Mamba-Attention 架构的本质是：用状态空间模型的线性复杂度处理音频的长程时序依赖，用注意力机制的内容寻址能力处理局部精细结构，两者在不同层交替部署，以接近线性的代价获得接近全局感受野的表示能力。

数学结构

状态空间模型的离散化形式是理解 Mamba 的核心。连续系统 $\dot{h}(t) = Ah(t) + Bx(t)$ 经零阶保持（ZOH）离散化后得到： $$\bar{A} = e^{\Delta A}, \quad \bar{B} = (\Delta A)^{-1}(e^{\Delta A} - I) \cdot \Delta B$$ $$h_t = \bar{A} h_{t-1} + \bar{B} x_t, \quad y_t = C h_t$$ 其中 $\Delta$ 是时间步长（可学习），$h_t \in \mathbb{R}^N$ 是隐状态，$N$ 为状态维度。 Mamba 的关键创新在于令 $B_t = \text{Linear}(x_t)$，$C_t = \text{Linear}(x_t)$，$\Delta_t = \text{softplus}(\text{Linear}(x_t))$，即参数随输入动态变化。这打破了 S4 的线性时不变约束，使模型具备内容感知的选择能力。混合架构中，注意力层计算标准的缩放点积注意力： $$\text{Attn}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$ 复杂度为 $O(L^2 d)$，$L$ 为序列长度。而 Mamba 层的推理复杂度为 $O(L \cdot N \cdot d)$，$N \ll L$ 时近似线性。混合架构通过控制注意力层比例（通常 1:3 到 1:7），将整体复杂度压制在可接受范围内，同时保留注意力对局部精细模式的建模能力。

工作机制

混合 Mamba-Attention 音频编码器的整体逻辑是：将音频帧序列先经过前端特征提取，再交替通过 Mamba 层（捕获长程时序）和稀疏注意力层（捕获局部精细结构），最终输出适合下游任务的音频表示。

Step 1前端特征提取与序列构建

输入原始波形或 mel 频谱图，经卷积或线性投影降采样为帧序列 $\{x_1, ..., x_L\}$，$x_i \in \mathbb{R}^d$。这一步的关键设计决策是降采样率：过激的降采样会丢失音素级细节（对 ASR 致命），过保守则序列过长使后续计算爆炸。典型设置是 20ms 帧移，对应 50 fps，10 秒音频产生 500 帧。为什么不直接用原始波形？16kHz 采样下 10 秒 = 160,000 点，即使 Mamba 也会在状态维度上付出巨大代价。

Step 2Mamba 层的选择性状态传播

每个 Mamba 层接收帧序列，对每个时间步动态计算 $\bar{A}_t, \bar{B}_t, C_t$，然后递推更新隐状态 $h_t$。关键实现细节：训练时可将递推展开为卷积形式（并行扫描算法），推理时保持递推形式（常数内存）。这使得 Mamba 训练效率接近 Transformer，推理内存远优于 Transformer。在音频中，Mamba 层擅长捕获韵律、说话人风格等跨越数秒的慢变特征。

Step 3注意力层的局部精细对齐

每隔若干 Mamba 层插入一个注意力层，通常配合局部窗口限制（window size = 64~256 帧）将复杂度从 $O(L^2)$ 降为 $O(L \cdot W)$。注意力层的作用是修正 Mamba 的"遗忘"——当两个音素在时间上相邻但声学差异极大时，Mamba 的平滑状态传播可能模糊边界，而注意力的精确内容匹配能重新锐化这些边界。为什么不全用局部注意力？局部注意力无法建立跨窗口的长程依赖，而 Mamba 层恰好填补这一空白。

Step 4层间比例与深度配置

实验表明，Mamba:Attention 层比例并非越高越好。HELIX 等工作发现，在音频理解任务中，约 1:4 到 1:6 的注意力层比例（即每 4~6 个 Mamba 层配 1 个注意力层）在效果与效率间取得最佳平衡。过多注意力层使复杂度回升，过少则局部对齐能力不足。此外，注意力层应优先放置在网络浅层（捕获声学细节）而非深层（深层更多是语义整合，Mamba 更擅长）。

Step 5序列长度与前端的耦合效应

HELIX 的核心发现之一：输入前端（mel vs. 原始波形）、序列骨干（Mamba vs. Attention）、序列长度三者存在强耦合。原始波形输入 + 纯注意力 = 计算不可行；mel 输入 + 纯 Mamba = 局部精度不足；原始波形输入 + 混合架构 = 在长序列任务（如音乐理解、长对话 ASR）上超越所有单一架构。这一发现提示工程师：选型时不能孤立考虑骨干网络，必须与前端设计联合优化。

长远价值

混合 Mamba-Attention 架构正在成为音频大模型前端的主流设计范式。Whisper 等纯 Transformer 模型在处理超过 30 秒音频时需要分段，而混合架构可原生处理分钟级音频。在工业界，Meta 的 AudioSeal、Google 的音频编码器研究均在探索类似思路。对于音视频大模型工程师，这一架构直接影响多模态模型中音频编码器的选型，尤其在需要处理长视频音轨（电影级、会议录音）的场景中，混合架构相比纯 Transformer 可节省 60%+ 的显存占用。

前沿动向

当前开放问题包括：①混合比例的理论最优解尚无定论，现有结论均来自经验搜索；②Mamba 的并行训练效率在极长序列（>10万帧）下仍有瓶颈；③如何将混合架构与音频 tokenizer（如 EnCodec）联合设计以减少信息损失；④在流式推理场景下，注意力层的 KV cache 与 Mamba 的递推状态如何统一管理，是工程上的未解难题。

工程·思维第二讲

DeepSeek预训练加速工程

▶ YouTube ▶ B站 ↗ 原始论文

就像工厂流水线同时引入两项改造——把所有零件从精密加工改为高精度模具冲压（MXFP8，速度更快但精度略降），同时重新规划物料配送路线减少等待（DeepEP），两项改造互不干扰，叠加后产能提升 41%。

历史演进

大规模 MoE 模型的预训练效率问题，本质上是"计算精度、通信带宽、专家负载均衡"三个约束同时收紧时的系统工程难题。

2017–2019

混合精度训练奠基

Micikevicius 等人（NVIDIA/Baidu）在 2018 年 ICLR 提出 FP16 混合精度训练：前向/反向用 FP16 计算，维护 FP32 主权重副本，用损失缩放（loss scaling）防止梯度下溢。这一方案将显存占用减半、计算吞吐提升约 2-3 倍，成为此后所有大模型训练的标配。但 FP16 的动态范围（约 $10^{-4}$ 到 $6.5 \times 10^4$）在某些层（如 softmax、LayerNorm）仍会溢出，需要精心的数值稳定性处理。

2022–2023

FP8 格式的标准化与硬件落地

随着 NVIDIA H100 引入原生 FP8 张量核心，FP8 训练进入实用阶段。FP8 有两种格式：E4M3（4位指数+3位尾数，适合前向传播，动态范围较大）和 E5M2（5位指数+2位尾数，适合梯度，精度较低但范围更大）。Transformer Engine 库封装了自动量化/反量化逻辑，使工程师无需手动管理。但 FP8 的精度损失在 MoE 模型中被放大——专家路由的 softmax 对数值精度极为敏感，早期 FP8 训练在 MoE 上的损失曲线明显不稳定。

2024

MX（Microscaling）格式的提出

微软、AMD、英特尔、NVIDIA 等联合提出 MX 格式规范（OCP MX Specification）。MXFP8 的核心创新是"块级共享指数"：将张量切分为固定大小的块（通常 32 个元素），每块共享一个 8 位的缩放因子（scale），块内元素用 FP8 表示。这相比 per-tensor 量化大幅提升了数值表示精度，相比 per-element 量化又避免了存储开销爆炸。MXFP8 在 NVIDIA B200 上获得原生硬件支持，理论峰值算力相比 BF16 翻倍。

2025

DeepSeek-V3 + TorchTitan 的工程验证

PyTorch 团队与 Nebius 合作，在 256 块 B200 GPU 上使用 TorchTitan 框架训练 DeepSeek-V3（671B MoE 模型），系统评估 MXFP8 训练和 DeepEP（Deep Expert Parallelism）两种正交优化的实际收益。结果显示两者叠加可实现约 41% 的吞吐提升，且训练损失曲线与 BF16 基线高度吻合，验证了 MXFP8 在超大规模 MoE 训练中的工程可行性。

核心思想

在 256 块 B200 GPU 上训练 671B MoE 模型的核心工程挑战是：用 MXFP8 块级量化压缩计算精度损失、用 DeepEP 专家并行减少 All-to-All 通信开销，两者正交叠加，在不损失模型质量的前提下将训练吞吐提升 41%。

数学结构

MXFP8 的量化机制可形式化如下。将权重矩阵 $W \in \mathbb{R}^{M \times N}$ 切分为大小为 $B$（通常 $B=32$）的块 $\{w_1, ..., w_K\}$，对每块计算共享缩放因子： $$s_k = \frac{\max(|w_k|)}{2^{e_{\max}-1}}$$ 其中 $e_{\max}$ 由 FP8 格式的指数位数决定（E4M3 时 $e_{\max}=8$）。量化值为： $$\hat{w}_{k,i} = \text{round}\left(\frac{w_{k,i}}{s_k}\right)$$ 反量化时 $\tilde{w}_{k,i} = \hat{w}_{k,i} \cdot s_k$。量化误差的期望为零（对称量化），方差为 $\sigma^2 \approx \frac{s_k^2}{12}$，块内元素共享 $s_k$ 使误差方差相比 per-tensor 量化降低约 $\frac{\text{动态范围}}{\text{块内范围}}$ 倍。 DeepEP 的通信开销分析：标准 MoE All-to-All 通信量为 $O(E \cdot T \cdot d)$，$E$ 为专家数，$T$ 为 token 数，$d$ 为隐层维度。DeepEP 通过将专家并行与张量并行解耦，并引入异步通信掩盖（communication hiding），将有效通信延迟压缩至计算时间的 15% 以内。

工作机制

整体逻辑是：通过精度压缩（MXFP8）和通信优化（DeepEP）两条正交路径同时提升训练吞吐，两者互不干扰，叠加效果接近乘法关系。

Step 1MXFP8 前向传播量化

在每个矩阵乘法（GEMM）前，对激活值和权重分别按块计算缩放因子，转换为 MXFP8 格式送入张量核心计算。关键工程细节：缩放因子的计算本身有开销，TorchTitan 的实现将其融合进 CUDA kernel（fused quantization），避免额外的显存读写。对于 MoE 的路由 softmax，保留 BF16 精度（不量化），因为这里的数值精度直接影响专家选择的稳定性。

Step 2梯度的 MXFP8 处理策略

反向传播中，梯度的分布与激活值不同（通常更稀疏、峰值更尖锐），使用 E5M2 格式（更大动态范围）而非 E4M3。权重更新（optimizer step）仍在 BF16/FP32 下进行，维护高精度主权重。这种"前向 E4M3 + 反向 E5M2 + 优化器 BF16"的三段式策略是 FP8 训练的工程标准，来自 Transformer Engine 的实践经验。

Step 3DeepEP 专家并行通信优化

标准 MoE 训练中，每个 token 被路由到不同 GPU 上的专家，需要 All-to-All 通信。DeepEP 的核心优化有两点：①将 All-to-All 拆分为两阶段（dispatch + combine），与专家计算流水线重叠；②利用 NVLink 的点对点带宽优先于 InfiniBand，在节点内专家间通信时绕过 NCCL 的集合通信开销。在 256 块 B200 的配置下，节点内 NVLink 带宽（900 GB/s）远高于节点间 InfiniBand（400 Gb/s），DeepEP 的路由感知调度能最大化节点内专家的利用率。

Step 4损失曲线监控与数值稳定性保障

MXFP8 训练最大的工程风险是"静默精度退化"——训练损失看似正常，但模型在某些任务上的能力悄然下降。TorchTitan 的实践是：每 100 步记录各层激活值的 L2 范数和梯度范数，与 BF16 基线对比；一旦偏差超过阈值（通常 5%），自动回退到 BF16 并记录告警。此外，对 LayerNorm 和 RMSNorm 的输入强制保持 BF16，因为归一化操作对数值精度极为敏感，量化会导致训练不稳定。

Step 5吞吐基准与实际收益拆解

41% 的总提升中，MXFP8 贡献约 22-25%（主要来自张量核心算力翻倍和显存带宽节省），DeepEP 贡献约 15-18%（主要来自通信掩盖）。两者叠加略低于乘法预期（理论上应为 $1.23 \times 1.17 \approx 44\%$），差距来自量化/反量化的额外 kernel 开销和 DeepEP 路由计算的 CPU 侧延迟。这一拆解对工程师的意义在于：如果集群的通信瓶颈不严重（如纯 NVLink 集群），DeepEP 收益会更大；如果计算瓶颈更突出，MXFP8 的收益更显著。

长远价值

这一工程实践直接影响了业界对 B200 集群的使用方式。DeepSeek-V3 的开源权重加上 TorchTitan 的训练框架，使中小型机构也能复现万亿参数 MoE 的训练流程。MXFP8 + DeepEP 的组合已被多家云厂商（Nebius、Lambda Labs）作为 MoE 训练的默认配置。对音视频大模型工程师的直接价值：音视频生成模型（如 Sora 类架构）普遍采用 MoE 扩展，这套优化方案可直接迁移。

前沿动向

当前开放问题：①MXFP8 在注意力机制（特别是 Flash Attention）中的集成仍不完善，attention score 的量化误差对长序列影响尚未充分研究；②DeepEP 的路由感知调度在动态负载不均衡时（专家热点问题）的鲁棒性需要改进；③MXFP4 格式已在 B200 上支持，但训练精度损失是否可接受尚无定论；④如何将 MXFP8 与梯度检查点（gradient checkpointing）联合使用以进一步节省显存，是工程上的活跃探索方向。

混合架构音频表示

DeepSeek预训练加速工程

往期讲解档案 7 个知识点