高范数异常值令牌现象的根本动因是:Transformer在自注意力机制中存在一种"注意力汇聚"的结构性偏差——某些位置的令牌会吸引不成比例的注意力权重,即便它们携带的语义信息极为有限,这一现象在判别式和生成式模型中均有深远影响。
Vaswani等人在"Attention is All You Need"中提出自注意力机制,将序列中每个位置的表示定义为所有位置的加权和。此时研究者尚未意识到注意力权重分布会出现系统性的"汇聚"偏差,模型被视为均匀地整合上下文信息。
随着Vision Transformer(ViT,Dosovitskiy等,2020)的兴起,研究者开始观察到一个奇特现象:某些patch对应的令牌在最后几层的L2范数远高于其他令牌,且这些令牌往往对应图像的背景区域或[CLS]位置。Darcet等人(2023,NeurIPS)系统研究了这一现象,将其命名为"artifact tokens"(伪影令牌),发现它们在注意力图中吸引了大量权重,导致注意力图出现明显的块状伪影,严重影响下游密集预测任务(如分割、深度估计)的质量。
Han等人(StreamingLLM,2023)在大语言模型中发现了类似机制:序列开头的少数令牌(尤其是第一个token)会持续吸引极高的注意力权重,被称为"attention sink"。这些令牌的KV缓存若被丢弃,模型性能会急剧下降。这一发现揭示了异常值令牌并非ViT独有,而是Transformer架构的系统性特征,与softmax的归一化性质和残差连接的累积效应密切相关。
以DiT(Peebles & Xie,2023)为代表的扩散Transformer在图像生成领域取得突破,但研究者随即发现:生成模型中同样存在高范数异常值令牌,且其行为与判别式模型有所不同——它们不仅影响注意力分布,还会通过去噪过程的迭代累积,在生成图像中留下可见的空间伪影(如棋盘格纹、局部过曝区域)。论文[22]正是在此背景下系统研究了如何"驯服"这些异常值令牌,提出针对生成模型的专属解决方案,标志着该问题从判别式向生成式模型的研究迁移完成。
设第 $l$ 层自注意力的输入为 $\mathbf{X}^{(l)} \in \mathbb{R}^{N \times d}$,注意力权重矩阵为: $$\mathbf{A}^{(l)} = \text{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d_k}}\right) \in \mathbb{R}^{N \times N}$$ 异常值令牌 $i^*$ 满足 $\|\mathbf{x}^{(l)}_{i^*}\|_2 \gg \|\mathbf{x}^{(l)}_j\|_2, \forall j \neq i^*$。由于softmax的指数放大效应,若 $\mathbf{q}_j \cdot \mathbf{k}_{i^*}$ 相对较大,则 $\mathbf{A}_{j,i^*} \to 1$,导致其他位置的注意力权重被压缩至接近零。 残差连接的累积效应:令 $\mathbf{x}^{(l+1)} = \mathbf{x}^{(l)} + f^{(l)}(\mathbf{x}^{(l)})$,若某令牌在第 $l$ 层已获得高范数,则其在后续层中通过残差路径持续累积,形成正反馈: $$\|\mathbf{x}^{(L)}_{i^*}\|_2 \approx \|\mathbf{x}^{(0)}_{i^*}\|_2 + \sum_{l=1}^{L} \|f^{(l)}(\mathbf{x}^{(l)}_{i^*})\|_2$$ 抑制策略的数学形式通常为范数截断(norm clipping)或软归一化: $$\tilde{\mathbf{x}}_{i} = \mathbf{x}_{i} \cdot \min\!\left(1,\ \frac{\tau}{\|\mathbf{x}_{i}\|_2}\right)$$ 其中 $\tau$ 为范数上界超参数。这样设计的原因是:硬截断会破坏梯度流,软归一化保留方向信息(即语义内容)而仅约束幅度(即异常值的"能量"),对模型生成质量的损伤最小。
异常值令牌的"驯服"本质上是一个检测-定位-抑制-验证的闭环流程,核心挑战在于如何在不损害正常令牌表达能力的前提下精准压制异常值。
首先需要在推理或训练过程中识别哪些令牌是异常值。判据通常为令牌的L2范数相对于同层均值的偏离程度:若 $\|\mathbf{x}_i\|_2 > \mu + k\sigma$(其中 $\mu, \sigma$ 为该层所有令牌范数的均值和标准差,$k$ 通常取3-5),则标记为异常值令牌。为什么用范数而非注意力权重作为判据?因为范数是因,注意力偏斜是果,从源头检测更稳定,且范数计算开销远低于完整注意力矩阵分析。在DiT中,异常值令牌往往出现在固定的空间位置(如图像边角、低频区域),且在去噪时间步的早期阶段(高噪声时)更为显著。
扩散模型特有的挑战是:去噪过程跨越多个时间步 $t \in [T, 0]$,异常值令牌的分布随 $t$ 变化。在 $t$ 较大(高噪声)时,模型倾向于用少数令牌"锚定"全局结构,此时异常值范数最高;随着 $t$ 减小,异常值逐渐消散但已对生成图像的低频结构造成影响。因此,抑制策略需要是时间步自适应的,而非全程统一阈值——这是与ViT/LLM场景的关键区别。
对检测到的异常值令牌施加软归一化(见MATH节公式),同时可在注意力计算中引入额外的正则化项:
python # 伪代码:时间步感知的异常值抑制 def outlier_aware_attention(Q, K, V, x, t, tau_schedule): tau = tau_schedule(t) # 时间步自适应阈值 norms = x.norm(dim=-1, keepdim=True) x_clipped = x * torch.clamp(tau / norms, max=1.0) Q, K, V = project(x_clipped) attn = softmax(Q @ K.T / sqrt(d_k)) return attn @ V为什么不直接删除异常值令牌?因为这些位置虽然范数异常,但仍携带部分有效的空间位置信息,直接删除会破坏位置编码的完整性,导致生成图像出现空洞或结构断裂。
在训练DiT时,可引入范数正则化损失项以从根源抑制异常值的产生: $$\mathcal{L}_{\text{reg}} = \lambda \cdot \mathbb{E}_{l,i}\!\left[\max\!\left(0,\ \|\mathbf{x}^{(l)}_i\|_2 - \tau\right)^2\right]$$ 该损失仅对超过阈值 $\tau$ 的令牌施加惩罚,不影响正常令牌的自由表达。$\lambda$ 通常取 $10^{-4}$ 量级,过大会导致模型表达能力下降,过小则抑制效果不足。
通过FID、IS等指标验证抑制后的生成质量,同时检查注意力图的空间均匀性(用注意力熵 $H = -\sum_j A_{ij}\log A_{ij}$ 衡量)。理想情况下,抑制后注意力熵应显著提升,表明注意力权重更均匀地分布在有意义的空间位置,而非集中于少数异常值令牌。
异常值令牌问题横跨判别式与生成式Transformer,是理解注意力机制系统性偏差的核心窗口。在工业界,Stable Diffusion XL、FLUX等主流生成模型均受此问题影响,StreamingLLM利用attention sink实现了LLM的无限长度推理。对音视频大模型工程师而言,视频生成模型(如Sora架构)中时序维度的异常值令牌会导致帧间闪烁,是视频质量优化的重要方向。该问题的解决方案已被集成进多个开源DiT实现,长期具有工程价值。
当前开放问题包括:①异常值令牌是否携带可解释的语义信息(如全局亮度、风格锚点),还是纯粹的数值噪声?②在视频扩散Transformer中,时序维度的异常值如何与空间异常值交互?③能否通过架构设计(如QK-Norm、RMSNorm位置调整)从根本上消除异常值,而非事后抑制?④异常值令牌与模型的可控性(如CFG引导强度)之间的关系尚未厘清。