音频序列天然具有极长时间跨度,如何在不爆炸的计算复杂度下捕获全局依赖,是音频表示学习的根本矛盾。
循环神经网络(LSTM、GRU)是处理变长序列的主流工具。其隐状态在时间维度上递推传递,理论上能捕获任意长距离依赖,但梯度消失使实际有效感受野极为有限。对于 16kHz 采样的 10 秒音频(160,000 个采样点),RNN 几乎无法建立首尾关联。
Vaswani 等人提出的 Self-Attention 机制以 $O(N^2)$ 复杂度换取了真正的全局感受野。在 NLP 中,句子长度通常在数百 token,这个代价可以接受。但音频的帧序列动辄数千甚至数万帧——以 Whisper 为例,30 秒音频对应 1500 个 mel 帧,而原始波形级别的处理则完全不可行。这一矛盾催生了大量近似注意力研究(Longformer、BigBird 等),但均以牺牲精度为代价。
Gu 等人将经典控制论中的连续状态空间模型(SSM)重新引入深度学习,提出 S4(Structured State Space Sequence Model)。SSM 的核心是将序列映射建模为线性时不变系统:$\dot{h}(t) = Ah(t) + Bx(t)$,$y(t) = Ch(t) + Dx(t)$。通过对矩阵 $A$ 施加 HiPPO 结构约束,S4 能以 $O(N \log N)$ 复杂度高效捕获长程依赖,在 Long Range Arena 基准上大幅超越 Transformer。
Gu 和 Dao 提出 Mamba,将 SSM 的固定参数矩阵改为输入依赖(input-dependent)的选择性参数,即 $B, C, \Delta$ 均由当前输入 $x_t$ 动态生成。这一改动使模型能够"选择性遗忘"无关信息,类似注意力机制的内容寻址能力,同时保持线性推理复杂度。Mamba 在语言建模上首次与 Transformer 持平,引发学界对"后 Transformer 时代"的广泛讨论。
纯 Mamba 在需要精确局部对齐的任务(如音素识别)上表现不如注意力;纯注意力在超长序列上计算不可行。HELIX 等工作系统性地比较了纯 Mamba、纯注意力、以及不同比例混合架构在音频表示学习中的表现,揭示出:局部精细结构依赖注意力,全局时序依赖 Mamba,两者互补而非替代。这一发现正在成为音频大模型前端设计的新范式。
状态空间模型的离散化形式是理解 Mamba 的核心。连续系统 $\dot{h}(t) = Ah(t) + Bx(t)$ 经零阶保持(ZOH)离散化后得到: $$\bar{A} = e^{\Delta A}, \quad \bar{B} = (\Delta A)^{-1}(e^{\Delta A} - I) \cdot \Delta B$$ $$h_t = \bar{A} h_{t-1} + \bar{B} x_t, \quad y_t = C h_t$$ 其中 $\Delta$ 是时间步长(可学习),$h_t \in \mathbb{R}^N$ 是隐状态,$N$ 为状态维度。 Mamba 的关键创新在于令 $B_t = \text{Linear}(x_t)$,$C_t = \text{Linear}(x_t)$,$\Delta_t = \text{softplus}(\text{Linear}(x_t))$,即参数随输入动态变化。这打破了 S4 的线性时不变约束,使模型具备内容感知的选择能力。 混合架构中,注意力层计算标准的缩放点积注意力: $$\text{Attn}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$ 复杂度为 $O(L^2 d)$,$L$ 为序列长度。而 Mamba 层的推理复杂度为 $O(L \cdot N \cdot d)$,$N \ll L$ 时近似线性。混合架构通过控制注意力层比例(通常 1:3 到 1:7),将整体复杂度压制在可接受范围内,同时保留注意力对局部精细模式的建模能力。
混合 Mamba-Attention 音频编码器的整体逻辑是:将音频帧序列先经过前端特征提取,再交替通过 Mamba 层(捕获长程时序)和稀疏注意力层(捕获局部精细结构),最终输出适合下游任务的音频表示。
输入原始波形或 mel 频谱图,经卷积或线性投影降采样为帧序列 $\{x_1, ..., x_L\}$,$x_i \in \mathbb{R}^d$。这一步的关键设计决策是降采样率:过激的降采样会丢失音素级细节(对 ASR 致命),过保守则序列过长使后续计算爆炸。典型设置是 20ms 帧移,对应 50 fps,10 秒音频产生 500 帧。为什么不直接用原始波形?16kHz 采样下 10 秒 = 160,000 点,即使 Mamba 也会在状态维度上付出巨大代价。
每个 Mamba 层接收帧序列,对每个时间步动态计算 $\bar{A}_t, \bar{B}_t, C_t$,然后递推更新隐状态 $h_t$。关键实现细节:训练时可将递推展开为卷积形式(并行扫描算法),推理时保持递推形式(常数内存)。这使得 Mamba 训练效率接近 Transformer,推理内存远优于 Transformer。在音频中,Mamba 层擅长捕获韵律、说话人风格等跨越数秒的慢变特征。
每隔若干 Mamba 层插入一个注意力层,通常配合局部窗口限制(window size = 64~256 帧)将复杂度从 $O(L^2)$ 降为 $O(L \cdot W)$。注意力层的作用是修正 Mamba 的"遗忘"——当两个音素在时间上相邻但声学差异极大时,Mamba 的平滑状态传播可能模糊边界,而注意力的精确内容匹配能重新锐化这些边界。为什么不全用局部注意力?局部注意力无法建立跨窗口的长程依赖,而 Mamba 层恰好填补这一空白。
实验表明,Mamba:Attention 层比例并非越高越好。HELIX 等工作发现,在音频理解任务中,约 1:4 到 1:6 的注意力层比例(即每 4~6 个 Mamba 层配 1 个注意力层)在效果与效率间取得最佳平衡。过多注意力层使复杂度回升,过少则局部对齐能力不足。此外,注意力层应优先放置在网络浅层(捕获声学细节)而非深层(深层更多是语义整合,Mamba 更擅长)。
HELIX 的核心发现之一:输入前端(mel vs. 原始波形)、序列骨干(Mamba vs. Attention)、序列长度三者存在强耦合。原始波形输入 + 纯注意力 = 计算不可行;mel 输入 + 纯 Mamba = 局部精度不足;原始波形输入 + 混合架构 = 在长序列任务(如音乐理解、长对话 ASR)上超越所有单一架构。这一发现提示工程师:选型时不能孤立考虑骨干网络,必须与前端设计联合优化。
混合 Mamba-Attention 架构正在成为音频大模型前端的主流设计范式。Whisper 等纯 Transformer 模型在处理超过 30 秒音频时需要分段,而混合架构可原生处理分钟级音频。在工业界,Meta 的 AudioSeal、Google 的音频编码器研究均在探索类似思路。对于音视频大模型工程师,这一架构直接影响多模态模型中音频编码器的选型,尤其在需要处理长视频音轨(电影级、会议录音)的场景中,混合架构相比纯 Transformer 可节省 60%+ 的显存占用。
当前开放问题包括:①混合比例的理论最优解尚无定论,现有结论均来自经验搜索;②Mamba 的并行训练效率在极长序列(>10万帧)下仍有瓶颈;③如何将混合架构与音频 tokenizer(如 EnCodec)联合设计以减少信息损失;④在流式推理场景下,注意力层的 KV cache 与 Mamba 的递推状态如何统一管理,是工程上的未解难题。