知识讲堂 · Jae Daily

算法理论第一讲

编码器-解码器TTS原理

就像翻译官先把整篇演讲稿完整理解后再逐句口译，而不是边听边译——编码器先把文本"吃透"，解码器每说一个音节都能随时翻查完整的理解结果，而不是靠记忆力撑过漫长的句子。

历史演进

仅解码器架构在TTS中让文本与音频争抢同一序列容量，导致长句条件退化——这一根本矛盾驱动了编码器-解码器范式在语音生成领域的复兴。

2016–2018

Seq2Seq TTS的黎明

Google的Tacotron（2017, Wang et al.）将TTS重新定义为序列到序列问题：编码器读入字符序列，解码器逐帧生成梅尔频谱，中间以注意力机制对齐。这是第一次将文本理解与声学生成显式分离到两个模块，文本编码器可以不受时间步约束地充分建模语言结构。Tacotron 2（2018）进一步引入WaveNet声码器，确立了"文本编码器 + 声学解码器 + 神经声码器"三段式架构的工业标准。

2020–2022

仅解码器语言模型的入侵

随着GPT系列的成功，研究者开始将音频离散化（EnCodec、SoundStream）后用自回归语言模型直接建模。VALL-E（2023, Microsoft）是标志性工作：将说话人prompt和文本拼接成单一序列，用仅解码器Transformer预测音频token。这带来了惊人的零样本克隆能力，但代价是文本token和音频token共享位置编码空间——对于30秒语音，音频token数量可达数千，文本的"注意力份额"被严重稀释，长句韵律崩溃、漏字现象随序列增长而加剧。

2022–2024

条件退化问题的系统性暴露

多项实验（包括SPEAR-TTS、VoiceCraft等工作）量化了这一退化：当音频序列超过500 token时，仅解码器模型的字符错误率显著上升，而编码器-解码器结构在相同条件下保持稳定。根本原因在于：Transformer的因果自注意力中，文本token对后续音频token的梯度路径随距离指数衰减，而交叉注意力（cross-attention）则为每个解码步骤提供对完整文本表示的直接访问，路径长度恒为O(1)。

2024–2025

T5范式回归与混合架构探索

T5Gemma-TTS（2025）将Gemma解码器与T5风格编码器结合，文本由编码器独立处理后通过交叉注意力注入每个解码层，音频序列仅占解码器的位置容量。这一设计在保留大语言模型语义理解能力的同时，彻底解耦了文本长度与音频长度的相互干扰。同期，SoundStorm、VoiceBox等非自回归方向也在探索用掩码语言模型替代自回归解码，进一步降低序列长度对条件质量的影响。

核心思想

编码器-解码器TTS的本质是将"理解文本"和"生成声音"解耦到两个模块：编码器将文本压缩为与时间无关的语义表示，解码器通过交叉注意力在每一步生成时都能完整访问该表示，从根本上消除长序列下文本条件的退化问题。

数学结构

设文本序列长度为 $L_t$，音频token序列长度为 $L_a$（通常 $L_a \gg L_t$）。 仅解码器模型中，拼接序列总长 $L = L_t + L_a$，第 $i$ 个音频token对第 $j$ 个文本token的注意力权重为： $$\alpha_{ij} = \frac{\exp(q_i k_j / \sqrt{d})}{\sum_{m=1}^{i} \exp(q_i k_m / \sqrt{d})}$$ 当 $i$ 很大时，分母中音频token的数量远超文本token，文本token的权重被平均稀释，有效条件强度约为 $O(L_t / L_a)$，随音频增长趋近于零。 编码器-解码器模型中，编码器输出 $H_t \in \mathbb{R}^{L_t \times d}$，解码器第 $i$ 步的交叉注意力为： $$c_i = \text{softmax}\left(\frac{q_i H_t^\top}{\sqrt{d}}\right) H_t$$ 每个解码步骤的查询 $q_i$ 直接与完整文本表示 $H_t$ 交互，路径长度恒为1跳，注意力权重不受 $L_a$ 影响。文本条件强度为 $O(1)$，与音频序列长度无关。此外，编码器可使用双向注意力（非因果），使每个文本位置能看到全局上下文，而仅解码器中文本token只能看到前缀，建模能力受限。这两点共同解释了为何编码器-解码器在长语音条件保持上具有结构性优势。

工作机制

编码器-解码器TTS的整体逻辑是：文本经双向编码器充分理解后，以交叉注意力的形式为每个音频生成步骤提供恒定强度的语义锚点，解码器专注于声学序列建模而无需分心处理文本理解。

Step 1文本编码：双向上下文建模

编码器对输入文本（字符/音素/BPE token）运行完整的双向Transformer，每个位置可看到左右全部上下文。这与仅解码器中文本token只能看到前缀形成对比——双向编码使"发音"能感知后续标点、"重音"能感知句子结构。实现上通常去掉因果掩码，或直接复用T5/BERT风格编码器。输出为 $H_t \in \mathbb{R}^{L_t \times d}$，是与时间步无关的静态表示。

Step 2音频离散化：将声学空间映射为token

原始波形经神经编解码器（如EnCodec、DAC）量化为离散token序列。EnCodec使用残差向量量化（RVQ），每帧产生 $N_q$ 个codebook索引（通常8层），75fps下1秒音频产生600个token。这一步将连续声学生成问题转化为离散序列预测，使语言模型架构可直接适用。关键设计选择：是否展平多层RVQ（VALL-E方式）还是分层预测（SoundStorm方式），影响序列长度和并行度。

Step 3交叉注意力注入：每步访问完整文本

解码器每一层包含自注意力（建模音频内部依赖）和交叉注意力（访问文本编码）两个子层。交叉注意力的Key和Value来自 $H_t$，Query来自当前解码状态。无论当前生成第几个音频token，都能以相同的计算代价访问全部文本信息。这是与仅解码器最本质的区别：后者依赖注意力权重在长距离上传播文本信息，前者通过架构保证了访问路径的恒定长度。

Step 4说话人条件注入：零样本克隆的实现

参考音频经同一编解码器提取声学prompt，或经独立说话人编码器提取全局嵌入 $e_{spk} \in \mathbb{R}^d$。注入方式有三种：①拼接到文本编码序列末尾（与文本一起参与交叉注意力）；②通过AdaLN（自适应层归一化）调制解码器每层的均值和方差；③作为前缀token拼接到解码器输入。T5Gemma-TTS采用方式①，使说话人信息与文本信息在同一交叉注意力中被统一访问。

Step 5自回归解码与推理加速

训练时使用teacher forcing，推理时自回归生成。由于 $L_a$ 可达数千，推理延迟是核心工程问题。常见优化：KV Cache缓存自注意力的历史Key/Value（交叉注意力的KV在编码器运行后即固定，只需计算一次）；投机解码（Speculative Decoding）用小草稿模型预生成候选token；非自回归变体（掩码预测）可将生成步数从 $O(L_a)$ 降至 $O(\log L_a)$。

长远价值

编码器-解码器架构是工业级TTS系统的主流选择：Google的SoundStorm、微软的VALL-E-X、ElevenLabs的生产系统均采用类似设计。其核心价值在于提供了一个可扩展的条件注入框架——文本、情感、风格、说话人可以分别编码后统一通过交叉注意力注入，模块化程度高。随着音频序列越来越长（播客、有声书生成），仅解码器的条件退化问题将更加突出，编码器-解码器的结构性优势将持续放大。

前沿动向

当前核心开放问题：①如何在保持交叉注意力优势的同时引入流式推理（编码器需要完整文本才能运行，与流式输入矛盾）；②多层RVQ的分层建模策略（并行 vs 串行）对质量和速度的最优权衡；③如何将编码器-解码器与扩散解码器结合（连续扩散 vs 离散语言模型）；④超长文本（书籍级）的分段策略与跨段韵律一致性。

工程·思维第二讲

大模型训练的MXFP8工程

▶ YouTube ▶ B站 ↗ 原始论文

就像超市收银时不给每件商品单独称重，而是把同一货架上的30件商品用一个公共秤砣统一折算——MXFP8让32个数字共享一个"量程旋钮"，既比全局一个旋钮精准，又比每个数字独立一个旋钮省力。

历史演进

训练大模型的算力瓶颈从计算单元转移到内存带宽和通信带宽之后，降低数值精度成为系统工程师最重要的杠杆——但如何在不损失训练稳定性的前提下压缩到8位，是一个折磨了整个行业近十年的工程难题。

2017–2019

FP16混合精度训练的确立

NVIDIA与百度联合提出的混合精度训练（Micikevicius et al., 2018）将前向和反向传播的矩阵乘法移至FP16，权重更新保留FP32主副本，配合损失缩放（Loss Scaling）解决梯度下溢问题。这套方案在A100之前的硬件上成为标准，将显存占用减半、吞吐提升约2倍。但FP16的动态范围（约±65504）仍然有限，激活值的异常大值（outlier）会导致溢出，需要精心调整损失缩放系数。

2020–2022

INT8推理与BF16训练的分化

推理侧，INT8量化（LLM.int8()等）通过逐通道缩放处理outlier，但训练侧INT8因梯度分布更宽、动态范围需求更高而长期无法实用化。与此同时，BF16（Brain Float 16）凭借与FP32相同的8位指数范围（动态范围约±3.4×10³⁸）在训练中逐渐取代FP16，成为TPU和A100/H100的默认训练格式。但BF16的尾数只有7位，精度损失在某些敏感操作（如LayerNorm、Softmax）中仍然可见。

2022–2023

FP8的硬件落地与格式之争

H100 GPU引入原生FP8 Tensor Core，支持E4M3（4位指数+3位尾数，适合前向传播）和E5M2（5位指数+2位尾数，适合梯度）两种格式。Transformer Engine（NVIDIA）实现了逐层动态缩放的FP8训练，但每个张量需要独立维护一个缩放因子，在MoE等有大量小矩阵的架构中，缩放因子的存储和同步开销抵消了部分收益。DeepSpeed、Megatron-LM相继集成FP8支持，但工程复杂度显著上升。

2023–2025

MXFP8：微缩放的系统性解决方案

OCP（开放计算项目）Microscaling规范（MX格式）将缩放粒度从张量级细化到"tile"级（通常32个元素共享一个8位指数），在不引入per-element开销的前提下大幅提升数值表示的局部适应性。MXFP8在B200/Blackwell架构上获得原生硬件支持。PyTorch与Nebius在256块B200上的TorchTitan实验（2025）显示，MXFP8结合DeepEP（专家并行通信优化）使DeepSeek-V3训练吞吐提升41%，验证了这一格式在超大规模MoE训练中的实用价值。

核心思想

MXFP8的本质是在8位浮点的基础上引入"分组共享指数"：每32个元素共用一个8位缩放指数，用极低的元数据开销换取对局部数值范围的精细适应，使8位训练在数值稳定性上接近16位，同时保留8位的带宽和算力优势。

数学结构

标准FP8（E4M3）表示一个数为： $$x = (-1)^s \cdot 2^{e - 7} \cdot (1 + m/8)$$ 其中 $s$ 为符号位，$e \in [0,15]$ 为4位指数，$m \in [0,7]$ 为3位尾数。可表示的最大值约为448，最小正规数约为 $2^{-6}$。 MXFP8在此基础上引入共享缩放因子。对于一组 $G=32$ 个元素 $\{x_1, \ldots, x_G\}$，共享指数 $\hat{e}$ 定义为： $$\hat{e} = \left\lfloor \log_2 \max_i |x_i| \right\rceil$$ 每个元素的实际值为： $$\tilde{x}_i = \text{FP8}(x_i \cdot 2^{-\hat{e}}) \cdot 2^{\hat{e}}$$ 即先将组内最大值归一化到FP8可表示范围，量化后再还原。共享指数存储为8位整数（E8M0格式），每32个元素仅增加 $8/(32 \times 8) = 3.125\%$ 的元数据开销。相比之下，per-tensor缩放的动态范围由单个全局最大值决定，组内小值会严重欠利用尾数位；per-element缩放（如FP32）则元数据开销与数据本身等量。MXFP8在这两个极端之间找到了工程上的最优点：组大小32是硬件矩阵乘法tile尺寸的自然倍数，共享指数的加载可与数据加载流水线并行，几乎无额外延迟。

工作机制

MXFP8训练的整体逻辑是：在矩阵乘法的最小计算单元（tile）粒度上动态适应数值范围，使8位格式在保持硬件效率的同时具备接近16位的数值稳定性，同时通过主权重FP32副本和梯度累积保证训练收敛。

Step 1权重与激活的分组量化

在每次前向传播的矩阵乘法前，将权重矩阵和激活矩阵按行或列分组（组大小G=32），对每组计算共享指数 $\hat{e}$，将组内元素缩放后量化为MXFP8。关键工程细节：共享指数的计算需要一次reduce-max操作，在GPU上可融合到量化kernel中，不引入额外的kernel launch开销。Blackwell架构的Tensor Core原生支持MXFP8输入，硬件自动处理共享指数的解码，对上层框架透明。

Step 2前向传播：E4M3格式的选择逻辑

激活值和权重使用E4M3（4位指数，3位尾数）：前向传播中数值分布相对集中，较多的尾数位（3位）有助于保持精度。矩阵乘法的累加器保持FP32或BF16，防止中间结果溢出。LayerNorm、Softmax等对精度敏感的操作保持BF16或FP32，不参与MXFP8量化——这是Transformer Engine的核心设计：只有矩阵乘法（GEMM）使用低精度，其余操作保持高精度。

Step 3反向传播：E5M2格式的梯度处理

梯度分布比激活值更宽（包含大量接近零的小梯度和偶发的大梯度），使用E5M2（5位指数，2位尾数）：更大的动态范围优先于精度。梯度的共享指数需要在all-reduce通信前计算，这与分布式训练的梯度同步产生交互——DeepEP（DeepSeek Expert Parallel）的贡献之一是优化了MoE场景下梯度的分组量化与all-to-all通信的流水线，使通信和量化操作重叠执行。

Step 4主权重FP32副本与更新策略

类似FP16混合精度训练，MXFP8训练维护一份FP32主权重副本用于优化器更新（Adam的一阶和二阶矩估计也保持FP32）。每次迭代：①从FP32主权重量化到MXFP8用于前向/反向；②用FP32梯度更新FP32主权重；③下一步迭代重新量化。这保证了优化器状态的数值精度，代价是显存中同时存在FP32和MXFP8两份权重，但FP32副本可以卸载到CPU或使用BF16优化器状态（Adafactor等）进一步压缩。

Step 5MoE场景的特殊挑战与DeepEP协同

MoE模型中，专家路由导致每个专家接收的token数量不均（负载不均衡），使得按固定组大小分组的MXFP8量化面临"稀疏组"问题：某些组内有效元素极少，共享指数被少数大值主导，其余元素精度损失严重。DeepSeek-V3的工程实践采用动态组边界对齐（将量化组边界与专家边界对齐）和梯度裁剪协同，在671B参数规模下将MXFP8训练的精度损失控制在BF16基线的0.1%以内。

长远价值

MXFP8已成为下一代大模型训练的核心数值格式。NVIDIA B200/Blackwell的原生支持意味着未来2-3年内所有新训练的超大规模模型都将采用这一格式。TorchTitan在256块B200上的41%吞吐提升直接对应数百万美元的训练成本节省。Google TPUv5和Intel Gaudi3也在推进类似的分组缩放格式，MX规范正在成为行业标准。对于音视频大模型工程师，MXFP8同样适用于视频生成模型（DiT等）的训练加速。

前沿动向

当前核心开放问题：①MXFP8在注意力机制（QKV矩阵乘法）中的数值稳定性，尤其是长序列下的softmax前矩阵乘法；②如何将MXFP8与梯度检查点（activation checkpointing）结合而不引入重量化误差累积；③FP4（MXFP4）的可行性探索——Blackwell已支持FP4 Tensor Core，但训练收敛性尚未在超大规模上验证；④MXFP8与稀疏注意力、FlashAttention的kernel融合。

编码器-解码器TTS原理

大模型训练的MXFP8工程

往期讲解档案 35 个知识点