知识讲堂 · Jae Daily

算法理论第一讲

扩散Transformer异常值令牌

▶ YouTube ▶ B站 ↗ 原始论文

就像一个会议室里有一个嗓门极大的人，其他人的发言都被他盖过，导致最终决策只反映了他的意见——异常值令牌就是注意力机制中的这个"嗓门大的人"，需要主持人（归一化机制）适时控制其音量。

历史演进

高范数异常值令牌现象的根本动因是：Transformer在自注意力机制中存在一种"注意力汇聚"的结构性偏差——某些位置的令牌会吸引不成比例的注意力权重，即便它们携带的语义信息极为有限，这一现象在判别式和生成式模型中均有深远影响。

2017

Transformer诞生与注意力机制的原始形态

Vaswani等人在"Attention is All You Need"中提出自注意力机制，将序列中每个位置的表示定义为所有位置的加权和。此时研究者尚未意识到注意力权重分布会出现系统性的"汇聚"偏差，模型被视为均匀地整合上下文信息。

2019-2021

ViT时代：视觉Transformer中高范数令牌的首次发现

随着Vision Transformer（ViT，Dosovitskiy等，2020）的兴起，研究者开始观察到一个奇特现象：某些patch对应的令牌在最后几层的L2范数远高于其他令牌，且这些令牌往往对应图像的背景区域或[CLS]位置。Darcet等人（2023，NeurIPS）系统研究了这一现象，将其命名为"artifact tokens"（伪影令牌），发现它们在注意力图中吸引了大量权重，导致注意力图出现明显的块状伪影，严重影响下游密集预测任务（如分割、深度估计）的质量。

2022-2023

LLM中的"注意力汇"（Attention Sink）现象

Han等人（StreamingLLM，2023）在大语言模型中发现了类似机制：序列开头的少数令牌（尤其是第一个token）会持续吸引极高的注意力权重，被称为"attention sink"。这些令牌的KV缓存若被丢弃，模型性能会急剧下降。这一发现揭示了异常值令牌并非ViT独有，而是Transformer架构的系统性特征，与softmax的归一化性质和残差连接的累积效应密切相关。

2024-2025

扩散Transformer（DiT）中的异常值令牌：生成模型的新维度

以DiT（Peebles & Xie，2023）为代表的扩散Transformer在图像生成领域取得突破，但研究者随即发现：生成模型中同样存在高范数异常值令牌，且其行为与判别式模型有所不同——它们不仅影响注意力分布，还会通过去噪过程的迭代累积，在生成图像中留下可见的空间伪影（如棋盘格纹、局部过曝区域）。论文[22]正是在此背景下系统研究了如何"驯服"这些异常值令牌，提出针对生成模型的专属解决方案，标志着该问题从判别式向生成式模型的研究迁移完成。

核心思想

扩散Transformer在去噪过程中，少数令牌会积累异常高的L2范数并吸引过量注意力权重，本质上是softmax归一化与残差累积的联合效应，导致注意力图退化并在生成图像中产生空间伪影，需要专门机制加以抑制。

数学结构

设第 $l$ 层自注意力的输入为 $\mathbf{X}^{(l)} \in \mathbb{R}^{N \times d}$，注意力权重矩阵为： $$\mathbf{A}^{(l)} = \text{softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d_k}}\right) \in \mathbb{R}^{N \times N}$$ 异常值令牌 $i^*$ 满足 $\|\mathbf{x}^{(l)}_{i^*}\|_2 \gg \|\mathbf{x}^{(l)}_j\|_2, \forall j \neq i^*$。由于softmax的指数放大效应，若 $\mathbf{q}_j \cdot \mathbf{k}_{i^*}$ 相对较大，则 $\mathbf{A}_{j,i^*} \to 1$，导致其他位置的注意力权重被压缩至接近零。残差连接的累积效应：令 $\mathbf{x}^{(l+1)} = \mathbf{x}^{(l)} + f^{(l)}(\mathbf{x}^{(l)})$，若某令牌在第 $l$ 层已获得高范数，则其在后续层中通过残差路径持续累积，形成正反馈： $$\|\mathbf{x}^{(L)}_{i^*}\|_2 \approx \|\mathbf{x}^{(0)}_{i^*}\|_2 + \sum_{l=1}^{L} \|f^{(l)}(\mathbf{x}^{(l)}_{i^*})\|_2$$ 抑制策略的数学形式通常为范数截断（norm clipping）或软归一化： $$\tilde{\mathbf{x}}_{i} = \mathbf{x}_{i} \cdot \min\!\left(1,\ \frac{\tau}{\|\mathbf{x}_{i}\|_2}\right)$$ 其中 $\tau$ 为范数上界超参数。这样设计的原因是：硬截断会破坏梯度流，软归一化保留方向信息（即语义内容）而仅约束幅度（即异常值的"能量"），对模型生成质量的损伤最小。

工作机制

异常值令牌的"驯服"本质上是一个检测-定位-抑制-验证的闭环流程，核心挑战在于如何在不损害正常令牌表达能力的前提下精准压制异常值。

Step 1异常值令牌检测

首先需要在推理或训练过程中识别哪些令牌是异常值。判据通常为令牌的L2范数相对于同层均值的偏离程度：若 $\|\mathbf{x}_i\|_2 > \mu + k\sigma$（其中 $\mu, \sigma$ 为该层所有令牌范数的均值和标准差，$k$ 通常取3-5），则标记为异常值令牌。为什么用范数而非注意力权重作为判据？因为范数是因，注意力偏斜是果，从源头检测更稳定，且范数计算开销远低于完整注意力矩阵分析。在DiT中，异常值令牌往往出现在固定的空间位置（如图像边角、低频区域），且在去噪时间步的早期阶段（高噪声时）更为显著。

Step 2时间步感知的异常值分析

扩散模型特有的挑战是：去噪过程跨越多个时间步 $t \in [T, 0]$，异常值令牌的分布随 $t$ 变化。在 $t$ 较大（高噪声）时，模型倾向于用少数令牌"锚定"全局结构，此时异常值范数最高；随着 $t$ 减小，异常值逐渐消散但已对生成图像的低频结构造成影响。因此，抑制策略需要是时间步自适应的，而非全程统一阈值——这是与ViT/LLM场景的关键区别。

Step 3范数软归一化与注意力正则化

对检测到的异常值令牌施加软归一化（见MATH节公式），同时可在注意力计算中引入额外的正则化项：

python # 伪代码：时间步感知的异常值抑制 def outlier_aware_attention(Q, K, V, x, t, tau_schedule):     tau = tau_schedule(t)  # 时间步自适应阈值     norms = x.norm(dim=-1, keepdim=True)     x_clipped = x * torch.clamp(tau / norms, max=1.0)     Q, K, V = project(x_clipped)     attn = softmax(Q @ K.T / sqrt(d_k))     return attn @ V

为什么不直接删除异常值令牌？因为这些位置虽然范数异常，但仍携带部分有效的空间位置信息，直接删除会破坏位置编码的完整性，导致生成图像出现空洞或结构断裂。

Step 4训练阶段的正则化损失

在训练DiT时，可引入范数正则化损失项以从根源抑制异常值的产生： $$\mathcal{L}_{\text{reg}} = \lambda \cdot \mathbb{E}_{l,i}\!\left[\max\!\left(0,\ \|\mathbf{x}^{(l)}_i\|_2 - \tau\right)^2\right]$$ 该损失仅对超过阈值 $\tau$ 的令牌施加惩罚，不影响正常令牌的自由表达。$\lambda$ 通常取 $10^{-4}$ 量级，过大会导致模型表达能力下降，过小则抑制效果不足。

Step 5生成质量验证

通过FID、IS等指标验证抑制后的生成质量，同时检查注意力图的空间均匀性（用注意力熵 $H = -\sum_j A_{ij}\log A_{ij}$ 衡量）。理想情况下，抑制后注意力熵应显著提升，表明注意力权重更均匀地分布在有意义的空间位置，而非集中于少数异常值令牌。

长远价值

异常值令牌问题横跨判别式与生成式Transformer，是理解注意力机制系统性偏差的核心窗口。在工业界，Stable Diffusion XL、FLUX等主流生成模型均受此问题影响，StreamingLLM利用attention sink实现了LLM的无限长度推理。对音视频大模型工程师而言，视频生成模型（如Sora架构）中时序维度的异常值令牌会导致帧间闪烁，是视频质量优化的重要方向。该问题的解决方案已被集成进多个开源DiT实现，长期具有工程价值。

前沿动向

当前开放问题包括：①异常值令牌是否携带可解释的语义信息（如全局亮度、风格锚点），还是纯粹的数值噪声？②在视频扩散Transformer中，时序维度的异常值如何与空间异常值交互？③能否通过架构设计（如QK-Norm、RMSNorm位置调整）从根本上消除异常值，而非事后抑制？④异常值令牌与模型的可控性（如CFG引导强度）之间的关系尚未厘清。

工程·思维第二讲

WebRTC低延迟语音工程

▶ YouTube ▶ B站 ↗ 原始论文

就像餐厅为了缩短上菜时间，同时做了三件事：让厨师在客人点菜时就开始备料（流式推理）、把备菜间搬到餐厅隔壁（边缘节点）、允许偶尔少放一粒盐（接受轻微音质下降换取低延迟）——低延迟语音工程就是在整个"点菜到上菜"链路上同时压缩每一个环节。

历史演进

实时语音AI系统的工程挑战根本动因在于：人类对话的自然性要求端到端延迟低于200ms，而深度学习推理、网络传输、音频编解码三者的延迟之和在默认工程配置下远超这一阈值，需要对整个栈进行系统性重构。

2011

WebRTC开源：实时通信的基础设施革命

Google将WebRTC（Web Real-Time Communication）开源并推动其成为W3C/IETF标准，提供了浏览器原生的P2P音视频通信能力。WebRTC内置了OPUS编解码器（帧长2.5-60ms可调）、自适应抖动缓冲（Adaptive Jitter Buffer）、回声消除（AEC）、噪声抑制（NS）等模块。这一时期WebRTC主要用于视频会议（Google Meet、Discord），其设计目标是在不稳定网络下保证通话质量，而非极致低延迟——抖动缓冲默认会引入50-150ms的额外延迟以平滑网络抖动。

2016-2020

语音助手时代：延迟成为用户体验核心指标

Amazon Alexa、Google Assistant的大规模部署使业界意识到：语音AI的"感知延迟"（用户说完到AI开始回应的时间）直接决定产品体验。这一时期的主流架构是"瀑布式"（Waterfall）：VAD检测→ASR转录→LLM推理→TTS合成→音频播放，各环节串行，总延迟通常在1-3秒。工程团队开始探索流式ASR、流式TTS等局部优化，但整体架构的串行性质限制了延迟压缩的上限。

2023

GPT-4o与端到端语音模型：架构范式转变

OpenAI发布GPT-4o，首次实现端到端的语音输入→语音输出模型，绕过了ASR+LLM+TTS的串行瓶颈。然而，端到端模型带来了新的工程挑战：模型推理本身的延迟（在GPU集群上仍需数十至数百ms）、全球用户的网络传输延迟、以及如何实现自然的"轮转"（turn-taking，即AI何时停止说话、何时开始监听）。这要求对WebRTC栈进行深度定制，而非使用开箱即用的标准实现。

2024-2025

OpenAI重构WebRTC栈：面向AI语音的专用基础设施

OpenAI工程博客（来源[4]）披露了其为Realtime API重构WebRTC栈的核心工程决策：①将抖动缓冲从保守模式（优先稳定性）调整为激进模式（优先低延迟），接受偶发的音频质量下降；②在全球部署边缘节点（PoP，Point of Presence），将用户到推理集群的网络跳数压缩至1-2跳；③实现服务端VAD（Voice Activity Detection）与客户端VAD的协同，使轮转延迟降至人类感知阈值以下；④针对AI语音的特殊性（AI生成音频的统计特性与人类语音不同）重新调整OPUS编码参数。这标志着WebRTC从通用实时通信基础设施向AI语音专用基础设施的演进。

核心思想

低延迟语音AI工程的本质是在网络抖动补偿、音频编解码、模型推理、轮转检测四个环节上同时压缩延迟，并在"稳定性-延迟"权衡曲线上向极致低延迟方向大幅移动，需要对WebRTC默认配置进行系统性反向调优。

数学结构

端到端延迟的分解模型是工程优化的核心框架： $$L_{\text{total}} = L_{\text{capture}} + L_{\text{encode}} + L_{\text{network}} + L_{\text{jitter}} + L_{\text{decode}} + L_{\text{infer}} + L_{\text{tts}} + L_{\text{play}}$$ 其中各项典型值（标准配置 vs 优化配置）： - $L_{\text{capture}}$：麦克风采集帧长，OPUS默认20ms帧，可降至10ms（代价：编码效率下降约15%） - $L_{\text{jitter}}$：抖动缓冲引入的延迟，标准配置50-150ms，激进配置可降至20-40ms，但丢包率上升时音频质量下降 - $L_{\text{network}}$：RTT/2，全球平均约30-80ms，边缘节点部署可将P95降至50ms以内 - $L_{\text{infer}}$：GPU推理延迟，与模型规模和批处理策略相关，流式生成可将首token延迟压至50-100ms 抖动缓冲的自适应算法核心是对网络延迟的指数加权估计： $$\hat{d}_{t} = \alpha \cdot d_t + (1-\alpha) \cdot \hat{d}_{t-1}$$ $$B_t = \hat{d}_t + k \cdot \hat{\sigma}_t$$ 其中 $d_t$ 为当前包的到达延迟，$\hat{\sigma}_t$ 为延迟抖动的估计标准差，$k$ 控制缓冲余量（标准值 $k=3$，激进模式可降至 $k=1.5$，以接受更高的丢包率换取更低的缓冲延迟）。

工作机制

低延迟语音AI系统的工程优化是一个"全栈协同"问题——任何单一环节的优化若不与其他环节协调，都会被其他环节的延迟所淹没。

Step 1音频采集与编码参数调优

标准WebRTC使用20ms OPUS帧，这在视频会议场景下是合理的（编码效率与延迟的平衡点）。但对AI语音场景，可将帧长降至10ms，代价是编码比特率上升约15%（从约32kbps升至约37kbps），对现代网络带宽完全可接受。更关键的是禁用OPUS的DTX（Discontinuous Transmission，静音期间停止发包）功能——DTX虽节省带宽，但会在静音结束时引入额外的解码器重启延迟（约20-40ms），对轮转检测造成干扰。采样率建议保持16kHz（ASR模型的原生采样率），避免48kHz→16kHz的重采样延迟。

Step 2抖动缓冲的激进模式配置

这是最反直觉的工程决策：标准WebRTC的抖动缓冲设计哲学是"宁可延迟，不可丢帧"，因为视频会议中音频断裂比延迟更影响体验。但AI语音场景有一个独特优势：AI可以重新生成内容，而人类说话者不能。因此可以接受偶发的音频质量下降（通过PLC，Packet Loss Concealment算法掩盖），换取更低的缓冲延迟。具体配置：将抖动缓冲的目标延迟从默认的"P95网络抖动"降至"P75网络抖动"，同时启用更激进的PLC算法（基于神经网络的PLC，如Google的WaveNetEQ）来掩盖丢包造成的音频缺陷。

Step 3边缘节点部署与连接路由优化

网络延迟是最难在单机上优化的环节，必须通过基础设施解决。OpenAI的方案是在全球主要城市部署PoP（Point of Presence）节点，用户的WebRTC连接首先终止在最近的PoP，再通过专用骨干网（而非公共互联网）路由至GPU推理集群。这将用户侧的RTT从公共互联网的平均80-120ms压缩至PoP侧的20-40ms，剩余的PoP到GPU集群的延迟通过专用网络控制在10-20ms。TURN服务器的选择也至关重要：应优先使用地理位置最近的TURN节点，并实现基于实时网络质量的动态路由切换。

Step 4服务端VAD与轮转检测协同

传统语音助手的轮转检测（判断用户说完了）依赖客户端VAD（检测到静音后等待固定时长），这引入了200-500ms的固定等待延迟。AI语音场景的优化方案是将VAD上移至服务端：服务端实时接收音频流，同时运行VAD模型（如Silero VAD，延迟<10ms）和语义完整性检测（判断用户的话语在语义上是否完整，而非仅依赖静音）。当服务端检测到轮转信号时，立即触发推理，而无需等待客户端的静音超时。这将轮转延迟从200-500ms压缩至50-100ms，是用户感知延迟改善最显著的单一优化。

python # 伪代码：服务端流式VAD与轮转检测 class ServerSideVAD:     def __init__(self):         self.vad = SileroVAD()         self.semantic_checker = SemanticCompletenessModel()         self.audio_buffer = []          def process_chunk(self, audio_chunk_10ms):         self.audio_buffer.append(audio_chunk_10ms)         is_speech = self.vad(audio_chunk_10ms)                  if not is_speech and len(self.audio_buffer) > 50:  # >500ms of audio             transcript = streaming_asr(self.audio_buffer)             if self.semantic_checker.is_complete(transcript):                 self.trigger_inference(self.audio_buffer)                 self.audio_buffer = []

Step 5流式推理与音频播放的流水线化

推理延迟通过流式生成（Streaming Generation）与音频播放的流水线化来隐藏：模型生成第一个音频chunk（约200ms的音频内容）后立即开始播放，后续chunk在播放过程中持续生成。关键参数是"首chunk延迟"（Time to First Audio Chunk，TTFAC），这是用户感知延迟的决定性指标。通过投机解码（Speculative Decoding）和KV缓存预热（对系统提示的KV缓存进行预计算并常驻GPU显存），TTFAC可从200-300ms压缩至50-100ms。

长远价值

OpenAI Realtime API的工程实践代表了语音AI基础设施的当前最高水准，其核心工程决策（激进抖动缓冲、服务端VAD、边缘节点部署）已被业界广泛借鉴。Google Duplex、Microsoft Azure Speech、字节跳动豆包语音等产品均面临相同的工程挑战。对音视频大模型工程师而言，这套方法论直接适用于实时语音交互产品的基础设施设计，且随着端到端语音模型的普及，其重要性只会持续增加而非减少。

前沿动向

当前开放问题：①神经网络PLC（包丢失掩盖）与AI语音生成的深度融合——能否让AI模型直接感知网络质量并调整生成策略？②多模态实时交互（同时处理音频+视频输入）的带宽与延迟协同优化；③边缘推理（在用户设备上运行小型语音模型）与云端大模型的动态协同，在网络质量差时自动降级至本地推理；④WebRTC的QUIC迁移（WebTransport）对延迟特性的影响尚待大规模验证。

扩散Transformer异常值令牌

WebRTC低延迟语音工程

往期讲解档案 90 个知识点