纯解码器语言模型在TTS中的文本条件退化问题,驱动了编码器-解码器范式在神经音频生成中的复兴。
在神经网络语言模型出现之前,机器翻译依赖统计方法。1990年代,Elman等人提出循环网络可以编码序列,但真正的"编码器-解码器"框架尚未成形。这一时期的核心矛盾是:如何将一个变长输入序列压缩为固定表示,再解码为另一个变长序列?这个问题在翻译、语音合成、摘要中普遍存在。
Google Brain的Sutskever、Vinyals、Le在NeurIPS 2014发表"Sequence to Sequence Learning with Neural Networks",用两个LSTM分别充当编码器和解码器,编码器将源序列压缩为一个固定维度的上下文向量(context vector),解码器以此为初始状态逐步生成目标序列。这是编码器-解码器范式的奠基之作,但固定上下文向量是瓶颈:源序列越长,信息压缩损失越大。
Bahdanau、Cho、Bengio提出注意力机制(ICLR 2015),解码器在每一步生成时,不再只依赖固定上下文向量,而是动态地"查询"编码器所有时间步的隐状态,计算加权和作为当前步的条件信息。这一改变使长序列对齐成为可能,也直接启发了后来Transformer中的Cross-Attention设计。
Vaswani等人的"Attention Is All You Need"(NeurIPS 2017)完全抛弃RNN,用多头自注意力构建编码器,用带掩码自注意力+Cross-Attention构建解码器。编码器输出的Key/Value矩阵被解码器每一层的Cross-Attention层查询,实现了高效、并行的条件生成。T5(Raffel等,2020)将这一架构推广到几乎所有NLP任务,证明编码器-解码器在条件生成任务上的系统性优势。
GPT系列、LLaMA等纯解码器模型在语言建模上取得压倒性成功,TTS社区随之跟进,将文本和音频token拼接后用纯解码器建模(如VALL-E,2023)。然而,随着音频序列长度增长(24kHz音频编码后可达每秒75-150 token),文本token在注意力中的相对权重被稀释,导致长句子的文本条件逐渐失效——这正是T5Gemma-TTS(2025)所要解决的根本问题,也是编码器-解码器范式在TTS中复兴的直接动因。
设文本序列经编码器得到隐状态矩阵 $H^{enc} \in \mathbb{R}^{T_{text} \times d}$,解码器第 $l$ 层在时间步 $t$ 的Cross-Attention计算如下: 查询向量来自解码器当前层隐状态:$Q_t = h_t^{dec} W_Q$ 键值对来自编码器输出:$K = H^{enc} W_K,\quad V = H^{enc} W_V$ 注意力权重:$\alpha_{t,i} = \frac{\exp(Q_t \cdot K_i^\top / \sqrt{d_k})}{\sum_{j=1}^{T_{text}} \exp(Q_t \cdot K_j^\top / \sqrt{d_k})}$ 条件上下文向量:$c_t = \sum_{i=1}^{T_{text}} \alpha_{t,i} V_i$ 关键点在于:$T_{text}$(文本长度)是固定的,无论音频序列已生成多少步,Cross-Attention的分母始终在 $T_{text}$ 个位置上归一化。这与纯解码器的自注意力形成对比——纯解码器中文本token与音频token共享同一注意力池,当音频token数量 $T_{audio} \gg T_{text}$ 时,文本token的注意力权重被稀释为 $O(T_{text}/(T_{text}+T_{audio}})$,趋近于零。编码器-解码器通过结构隔离,保证文本条件的注意力权重始终在 $[0,1]$ 上完整分配,从根本上解决了这一退化问题。
编码器-解码器TTS的整体逻辑是:文本走编码器路径形成稳定的条件锚点,音频token在解码器中自回归生成,每步通过Cross-Attention锁定文本语义。
输入文本(或音素序列)经过Tokenizer转为离散token序列,送入编码器的多层自注意力+FFN堆栈。编码器使用双向自注意力(无因果掩码),每个文本位置可以看到全局上下文,输出 $H^{enc} \in \mathbb{R}^{T_{text} \times d}$。为什么用双向注意力?因为文本理解需要前后文,"苹果"在"苹果手机"和"吃苹果"中的语义完全不同,双向编码能捕获这种依赖。T5Gemma-TTS中编码器部分继承T5的相对位置编码(T5-Bias),对文本长度泛化更鲁棒。
目标音频通过神经音频编解码器(如EnCodec、SoundStream)量化为离散token序列。以24kHz、75fps的编解码器为例,10秒音频产生750个token,而对应文本可能只有50个字符token——这个10:1的比例正是纯解码器条件退化的根源。编码器-解码器在此步骤不做特殊处理,但这个比例决定了Cross-Attention的重要性。
解码器以自回归方式逐步预测下一个音频token。每一解码层包含三个子模块:①带因果掩码的自注意力(保证生成的自回归性);②Cross-Attention,以当前解码器隐状态为Q,以 $H^{enc}$ 为K/V;③FFN。Cross-Attention的设计细节:在T5Gemma-TTS中,解码器骨干使用Gemma(纯解码器LLM),Cross-Attention层以插入方式加入每个Transformer块,编码器权重从T5预训练初始化,解码器权重从Gemma初始化,两者通过联合微调对齐。这种"嫁接"策略充分利用了两个预训练模型的知识。
解码器输出的音频token序列送入神经声码器(编解码器的解码端)重建时域波形。这一步与编码器-解码器架构解耦,可以独立升级。实践中,声码器的质量上限决定了整个系统的音质天花板,因此高质量编解码器(如DAC、Encodec 24kHz)的选择至关重要。
编码器-解码器TTS在推理时需要处理文本与音频长度的对齐问题。不同于CTC或强制对齐,自回归解码器通过学习隐式对齐:Cross-Attention的 $\alpha_{t,i}$ 权重在训练中自然形成近似单调的对角线模式(文本从左到右被消费),无需显式对齐监督。可以通过可视化注意力图验证对齐质量,这也是调试TTS系统的重要工具。
编码器-解码器架构是NLP和语音领域最经过验证的条件生成范式。Google Translate、T5、BART、Whisper(编码器+解码器)均基于此架构。在TTS领域,Tacotron 2(2018)是编码器-解码器+注意力对齐的里程碑,证明了该架构在语音合成中的有效性。随着LLM时代纯解码器TTS(VALL-E系列)暴露出长句条件退化问题,编码器-解码器范式正在以"混合架构"形式回归,T5Gemma-TTS是2025年的代表性工作,预计这一趋势将持续。
当前前沿问题包括:①如何高效地将预训练纯解码器LLM改造为编码器-解码器(参数高效的Cross-Attention插入);②编码器端的多模态扩展(文本+情感+说话人同时条件);③Cross-Attention的计算开销在长音频序列下的优化(Flash Cross-Attention);④编码器-解码器与流匹配/扩散解码器的混合架构探索。