音源分离领域长期面临一个根本矛盾:信号处理方法有可解释性但泛化差,深度学习方法泛化好但缺乏生成先验——离散令牌建模的出现,本质上是将"分离"重新定义为"有条件地生成目标信号",从而引入语言模型的强大先验。
独立成分分析(ICA, Bell & Sejnowski 1995)奠定了音源分离的数学基础:假设各源信号统计独立,通过最大化非高斯性来解混。这一框架在鸡尾酒会问题上首次给出了有理论保证的解法,但严格依赖"源数已知且等于麦克风数"的假设,在单声道场景下完全失效。
以 Deep Clustering(Hershey et al., 2016, ICASSP)和 TasNet(Luo & Mesgarani, 2018)为代表,深度学习将分离问题转化为"在时频域或时域估计软掩码"。TasNet 直接在波形上操作,用 1D 卷积编码器-解码器替代 STFT,Conv-TasNet 进一步引入深度可分离卷积,在 WSJ0-2mix 上将 SI-SNRi 从不足 10 dB 推至 15.3 dB。这一范式的核心假设是:分离 = 从混合信号中"抠出"目标成分,本质是判别式回归。
扩散模型在语音增强(Richter et al., 2022, INTERSPEECH)中的成功表明,将分离建模为条件生成过程可以带来更自然的感知质量,尤其在低信噪比下不会产生"金属音"伪影。同期,VALL-E(Wang et al., 2023)证明神经音频编解码器(EnCodec)的离散令牌可以被语言模型高质量建模,开启了"音频 = 离散序列"的新范式。
VampNet、MusicGen 等工作验证了在编解码器令牌空间做音乐生成的可行性。将这一思路迁移到分离任务的关键洞见是:给定混合音频的条件表示,让语言模型"预测"每个源的令牌序列,等价于在离散空间做有条件采样。本文([14])将多轨音乐源分离重新表述为条件离散令牌生成,结合 Conformer 条件编码器和双路径神经音频编码器,代表了这一范式在多源场景的系统化落地。
设混合信号 $x = \sum_{i=1}^{N} s_i$,神经音频编解码器 $\mathcal{E}$ 将任意音频映射到 $K$ 个码本的离散令牌序列:$\mathbf{z}_i = \mathcal{E}(s_i) \in \{1,\ldots,V\}^{T \times K}$,其中 $T$ 为时间帧数,$V$ 为码本大小,$K$ 为残差量化层数。 分离目标转化为条件生成: $$p(\mathbf{z}_1, \ldots, \mathbf{z}_N \mid \mathbf{c}) = \prod_{t=1}^{T} \prod_{k=1}^{K} \prod_{i=1}^{N} p(z_{i,t,k} \mid z_{i,
整体逻辑:混合音频经条件编码器压缩为上下文向量,语言模型在离散令牌空间逐层、逐帧自回归地预测每个源的编解码器令牌,最终由解码器重建各源波形。
将混合波形 $x$ 送入 Conformer 条件编码器,输出帧级连续表示 $\mathbf{c} \in \mathbb{R}^{T \times D}$。Conformer 而非纯 Transformer 的选择有其工程动机:音频的局部时序结构(如瞬态、节拍)需要卷积模块捕获,而全局依赖(如乐器共现)需要自注意力——两者缺一不可。编码器不做量化,保留连续精度作为条件。
对各源信号 $s_i$ 使用双路径神经音频编码器(受 Dual-Path RNN 启发)进行残差向量量化(RVQ)。双路径设计的关键在于:单路径编码器在长序列上感受野受限,双路径交替在局部块内和全局序列上建模,使编码器在保持低比特率的同时捕获长程音乐结构。量化后得到 $K$ 层码本索引序列,训练时用直通估计器(Straight-Through Estimator)传递梯度。
语言模型以 $\mathbf{c}$ 为前缀,对 $N$ 个源的令牌序列联合建模。解码顺序通常为:先逐帧预测第1层码本(所有源),再逐帧预测第2层,依此类推(层优先顺序)。这一选择的理由是:第1层码本决定音色和音高等感知最重要的属性,先把粗粒度结构对齐,再细化高频细节,与人耳感知优先级一致,也使早期层的错误不会在细节层累积。推理时用温度采样或 top-k 采样控制多样性。
python # 伪代码:层优先自回归解码 tokens = [] # shape: [N_sources, T, K] for k in range(K): # 逐码本层 for t in range(T): # 逐时间帧 logits = lm(context=c, prev_tokens=tokens, layer=k, frame=t) # logits: [N_sources, V] sampled = categorical_sample(logits, temperature=tau) tokens.append(sampled)将预测的离散令牌序列送入神经音频编解码器的解码器,重建各源波形 $\hat{s}_i = \mathcal{D}(\hat{\mathbf{z}}_i)$。解码器通常为卷积上采样网络,将帧率(如 75 Hz)上采样至 24 kHz 或 44.1 kHz。关键工程细节:多源解码可并行执行,推理瓶颈在语言模型的自回归步骤,可用投机解码(Speculative Decoding)加速。
离散令牌生成的训练存在"曝光偏差"(训练用真实令牌,推理用预测令牌),通过 scheduled sampling 或 teacher forcing 比例退火缓解。多源联合建模还需处理源排列不变性:用匈牙利算法在每个 batch 内对源排列做最优匹配,再计算损失。
离散令牌分离范式将音源分离与音频语言模型生态打通,使分离系统可以直接复用 VALL-E、EnCodec 等预训练组件,大幅降低数据需求。在音乐制作(stem separation)、播客后期、多轨录音修复等场景中,生成式方法在主观质量上显著优于判别式掩码方法,尤其在严重混叠和低信噪比条件下。Spotify、Adobe Podcast 等产品已在探索类似技术路线。该范式的价值在于:它把分离问题的上限从"混合信号的信息量"提升到"语言模型的生成先验",这一哲学转变将持续影响音频生成领域。
当前核心开放问题:①自回归解码的实时性瓶颈(帧率75Hz×K层×N源,延迟难以接受);②令牌预测错误的感知不对称性(第1层错误比第K层错误主观影响大得多,如何在损失中体现);③超过4个源时排列不变性的组合爆炸;④如何在无监督或弱监督条件下训练(真实录音无干净stem)。非自回归并行解码和流式生成是近期热点。