知识讲堂 · Jae Daily

算法理论第一讲

最优传输信号融合

就像把同一场景用广角镜头和长焦镜头各拍一张照片，然后不是简单叠加（会双影模糊），而是找到一张"在几何上距离两张照片都最近"的照片——既有广角的全局感又有长焦的细节锐度。

历史演进

时频分析的根本困境在于Heisenberg不确定性原理在信号处理中的映射——你无法同时在时域和频域获得任意精度，而最优传输理论提供了一种几何上"最经济"的方式来融合多个分辨率的信息，从根本上绕开这一限制。

1946年

Gabor极限的确立

Dennis Gabor在《Theory of Communication》中正式证明：对于任意窗函数，时间分辨率 $\Delta t$ 与频率分辨率 $\Delta f$ 满足 $\Delta t \cdot \Delta f \geq \frac{1}{4\pi}$，这是信号处理领域的"测不准原理"。短时傅里叶变换（STFT）的窗长一旦固定，时频分辨率就被锁死——长窗频率精细但时间模糊，短窗时间精细但频率模糊。这一限制在此后数十年内被视为不可逾越的物理边界，工程师只能在两者之间做妥协。

1984年

小波变换的多分辨率突破

Morlet和Grossmann提出连续小波变换，Meyer、Mallat随后建立多分辨率分析（MRA）框架。小波通过自适应伸缩窗口实现"低频宽窗、高频窄窗"，部分缓解了Gabor限制，但本质上仍受制于同一不等式——只是在不同频段选择了不同的权衡点，并未真正"突破"，而是"分段妥协"。

1998–2010年

最优传输理论的计算化

Villani等人系统化了最优传输（OT）的数学框架，Wasserstein距离成为概率分布之间几何距离的标准度量。2013年Cuturi提出Sinkhorn算法，将OT的计算复杂度从 $O(n^3)$ 降至近似 $O(n^2/\epsilon)$，使其首次在大规模信号处理中具备实用性。这是OT从纯数学工具走向工程应用的关键转折点。

2015–2020年

Wasserstein重心用于信号融合

Agueh & Carlier（2011）定义了Wasserstein重心：给定多个分布，找到在Wasserstein意义下"最中心"的分布。这一概念被引入图像处理和纹理合成领域。对于时频分析，其核心洞见是：不同窗长的STFT谱图可以被视为同一信号在不同"测量视角"下的概率分布，Wasserstein重心可以在保留各自优势的同时融合它们，而不是简单的线性平均（线性平均会导致频谱模糊）。

2022年至今

时频融合的系统化

研究者将多谱图重心融合应用于语音增强、音乐分析和生物医学信号处理。今日论文[36]正是这一方向的延续，通过OT框架实现多分辨率STFT的几何融合，在非平稳信号（如语音、音乐）上获得比单一窗长更优的时频表示。

核心思想

最优传输通过Wasserstein重心将多个不同分辨率的时频谱图"几何融合"——不是像素平均（会模糊），而是找到在概率分布空间中"距离所有谱图最近"的那个分布，从而同时保留时域和频域的细节信息。

数学结构

设信号 $x(t)$ 用 $K$ 个不同窗长 $\{w_k\}$ 生成 $K$ 张STFT谱图，每张谱图归一化后视为时频平面上的概率分布 $\mu_k \in \mathcal{P}(\mathbb{R}^2)$。 Wasserstein-2距离定义为： $$W_2^2(\mu, \nu) = \inf_{\gamma \in \Pi(\mu,\nu)} \int_{\mathbb{R}^2 \times \mathbb{R}^2} \|x - y\|^2 \, d\gamma(x, y)$$ 其中 $\Pi(\mu,\nu)$ 是边缘分布分别为 $\mu$ 和 $\nu$ 的所有联合分布（传输方案）的集合。这个定义的物理意义是：把"质量"从分布 $\mu$ 搬运到 $\nu$ 所需的最小总代价，代价按距离平方计算。 Wasserstein重心定义为： $$\bar{\mu} = \arg\min_{\mu \in \mathcal{P}(\mathbb{R}^2)} \sum_{k=1}^{K} \lambda_k W_2^2(\mu, \mu_k), \quad \sum_k \lambda_k = 1$$ 权重 $\lambda_k$ 控制每个谱图的贡献。为什么不用线性插值 $\bar{\mu} = \sum_k \lambda_k \mu_k$？因为线性插值在欧氏空间操作，会导致两个尖峰"叠加模糊"；而Wasserstein重心在几何上是"插值路径的中点"，保留了峰的锐利性。 Sinkhorn正则化加速计算： $$W_\epsilon^2(\mu,\nu) = \inf_{\gamma \in \Pi(\mu,\nu)} \int \|x-y\|^2 d\gamma + \epsilon \cdot \text{KL}(\gamma \| \mu \otimes \nu)$$ 熵正则项 $\epsilon \cdot \text{KL}$ 使最优传输计划变光滑，允许用迭代矩阵缩放（Sinkhorn迭代）高效求解，复杂度降至 $O(n^2)$ 量级。

工作机制

整体逻辑是：用多个窗长生成互补的时频视图，再通过Wasserstein重心在概率分布空间中"几何平均"，得到一张既有时域精度又有频域精度的融合谱图。

Step 1多分辨率谱图生成

对输入信号 $x(t)$ 分别用 $K$ 个窗长（如16ms、32ms、64ms）计算STFT，得到 $K$ 张幅度谱 $|S_k(t,f)|^2$。每张谱图归一化为概率分布 $\mu_k$（总能量归一）。为什么要多个窗长？短窗捕捉瞬态（爆破音、辅音起始），长窗捕捉谐波结构（元音、乐音），任何单一窗长都是对非平稳信号的妥协。

Step 2传输代价矩阵构建

在离散化的时频网格上，定义代价矩阵 $C_{ij} = \|(t_i, f_i) - (t_j, f_j)\|^2$，即时频平面上两点的欧氏距离平方。这里的设计选择是关键：代价函数的形状决定了"融合"的语义——平方欧氏距离意味着我们惩罚能量的"长距离搬运"，鼓励局部对齐，这与人耳感知的局部性一致。

Step 3Sinkhorn迭代求解重心

固定权重 $\lambda_k$，用迭代算法求解Wasserstein重心。核心是交替更新：

初始化 u_k = 1 (所有k) for iter in range(max_iter):     for k in range(K):         v_k = mu_k / (K_eps @ u_k)   # K_eps = exp(-C/eps)         u_k = (prod_{j!=k} (K_eps @ v_j))^{lambda_k} bar_mu = prod_k (K_eps @ v_k)^{lambda_k}

每次迭代复杂度 $O(Kn^2)$，通常20-50次迭代收敛。关键参数：正则化系数 $\epsilon$ 控制平滑程度，过大则退化为线性平均，过小则数值不稳定。

Step 4融合谱图反变换

将重心分布 $\bar{\mu}$ 乘以总能量，还原为幅度谱，再结合相位信息（通常取某一参考谱图的相位，或用Griffin-Lim迭代重建）进行ISTFT，得到时域信号。在语音增强场景中，融合谱图直接送入后续模型（如神经网络掩码估计），无需反变换。

Step 5权重自适应调整

在实际系统中，$\lambda_k$ 可以是可学习参数，或根据信号局部特性动态调整（如检测到瞬态时增大短窗权重）。这使得融合策略从静态变为信号自适应，是当前工程实现的主流方向。

长远价值

最优传输时频融合在语音增强、音乐信息检索和生物医学信号处理中均有落地。Mozilla TTS、ESPnet等开源框架的谱图预处理模块已有多分辨率融合的实验性实现。更深远的价值在于：它提供了一种"几何感知"的信号融合范式，比线性融合在任何含有峰结构的信号上都更优越，这一原理可推广到任何需要融合多视角测量的场景，如多麦克风阵列、多传感器融合。

前沿动向

当前热点包括：①神经OT（用网络参数化传输映射，避免离散化误差）；②在流式/实时场景下的在线Wasserstein重心计算（当前批处理假设限制了低延迟应用）；③将OT融合层端到端嵌入神经网络（可微OT层）；④开放问题：如何在相位域而非幅度域应用OT，以及如何处理复值谱图的几何结构。

工程·思维第二讲

分布式训练任务调度

▶ YouTube ▶ B站 ↗ 原始论文

就像组织一场需要100人同时到场才能开始的大型手术——你不能让50个医生先进手术室等另外50个，因为手术室资源被占用但手术无法开始；调度系统的工作就是确保100人同时就位、有人临时缺席时能快速找替补或缩减手术规模继续进行。

历史演进

分布式训练调度问题的根本动因是：GPU集群的资源利用率和训练任务的确定性需求之间存在根本性张力——训练任务需要"全有或全无"的资源分配（所有节点必须同时就绪），而通用调度器（如Kubernetes）是为无状态、可抢占的服务设计的，两者的设计哲学从一开始就是冲突的。

2012–2016年

参数服务器时代的朴素调度

AlexNet在2012年证明多GPU训练的价值后，Google的Jeff Dean团队在2012–2014年开发了参数服务器（Parameter Server）架构。这一时期的"调度"极为朴素：手动分配机器、SSH登录、脚本启动。DistBelief（2012）和早期TensorFlow（2015）的分布式训练需要工程师手动管理每个节点的进程。核心问题是：任何一个节点失败，整个任务就挂起，没有自动恢复机制。这催生了对系统化调度的需求。

2016–2019年

MPI范式与Horovod的工程化

MPI（Message Passing Interface）本是HPC领域的老技术，Uber的Horovod（2018）将其引入深度学习，用`mpirun`启动分布式训练。这解决了"如何同时在多节点启动进程"的问题，但调度仍然依赖底层集群管理器（SLURM、PBS）。SLURM的Gang Scheduling（帮派调度）是关键概念：要么所有请求的节点同时分配，要么全部等待——这与训练任务的"全有或全无"需求完美匹配，但代价是集群利用率下降（碎片化等待）。

2019–2022年

Kubernetes上的训练调度困境

随着云原生基础设施普及，团队开始尝试在Kubernetes上跑训练任务。Kubeflow（2018）和PyTorch Operator（2019）提供了CRD（Custom Resource Definition）封装，但Kubernetes的默认调度器是为微服务设计的：它逐个Pod调度，导致"死锁"——部分Pod已启动并占用GPU，剩余节点资源不足，整个任务卡死但资源被浪费。Volcano（2019，华为开源）和Yunikorn（Apache）专门为批处理/训练场景引入了Gang Scheduling插件，这是Kubernetes生态对训练调度问题的第一次系统性回应。

2022–2025年

超大规模集群的新挑战

GPT-3（2020）、Megatron-LM、LLaMA等超大模型的训练规模达到数千GPU，新问题涌现：①节点故障率在大集群中不再是小概率事件（1000个GPU节点，每个MTBF 100天，则平均每10天就有一次故障）；②网络拓扑感知调度（NVLink域内通信 vs 跨机架InfiniBand）对训练吞吐影响巨大；③弹性训练（Elastic Training）需求——能否在节点故障时自动缩容继续训练而非重启？PyTorch Elastic（torchelastic）和Determined AI的实现成为工业标准。今日博客[17]中的Monarch正是这一背景下的产物：提供超算级集群的API抽象，隐藏底层调度复杂性。

2025年至今

多租户与成本优化

随着算力成本成为核心约束（Meta博客[9]明确提到ROI压力），调度系统开始引入抢占式训练（Preemptible Training）、检查点感知调度（Checkpoint-Aware Scheduling）和跨云调度。训练任务不再是"独占资源直到完成"，而是在成本和进度之间动态权衡。

核心思想

分布式训练调度的本质是解决"全有或全无"资源需求与"尽量利用碎片资源"的调度器目标之间的矛盾，核心手段是Gang Scheduling（帮派调度）+ 弹性容错 + 拓扑感知分配，让数千GPU像一台机器一样被可靠地使用。

数学结构

训练调度的核心量化指标是集群有效利用率（Make-Span Efficiency）： $$\eta = \frac{\sum_{j} T_j^{\text{compute}}}{\sum_{j} T_j^{\text{wall}} \cdot N_j^{\text{gpu}}}$$ 其中 $T_j^{\text{compute}}$ 是任务 $j$ 的纯计算时间，$T_j^{\text{wall}}$ 是挂钟时间，$N_j^{\text{gpu}}$ 是分配的GPU数。 Gang Scheduling的等待代价：设集群共 $G$ 个GPU，任务 $j$ 需要 $g_j$ 个GPU，当前空闲 $g_{\text{free}} < g_j$ 时，等待时间期望为： $$\mathbb{E}[T_{\text{wait}}] \approx \frac{g_j - g_{\text{free}}}{\lambda_{\text{release}}}$$ 其中 $\lambda_{\text{release}}$ 是GPU释放速率。这解释了为何大任务（$g_j$ 大）在繁忙集群中等待时间极长——这是Gang Scheduling的固有代价。 弹性训练的吞吐模型：设训练任务在 $n$ 个节点上的吞吐为 $T(n)$，节点故障后缩容到 $n'$ 个节点，恢复代价（重新加载检查点）为 $C_{\text{ckpt}}$，则弹性训练的有效吞吐为： $$T_{\text{elastic}} = \frac{T(n) \cdot t_{\text{healthy}} + T(n') \cdot t_{\text{degraded}}}{t_{\text{healthy}} + t_{\text{degraded}} + C_{\text{ckpt}}}$$ 这个公式指导了检查点频率的工程选择：$C_{\text{ckpt}}$ 越大，检查点应越稀疏，但故障恢复损失的计算也越多。

工作机制

一个生产级分布式训练调度系统的工作逻辑是：接收训练任务描述→资源感知分配→协调启动→运行时监控→故障自动恢复，每个环节都有非显而易见的工程决策。

Step 1任务描述与资源请求

用户提交训练任务时，需声明：GPU数量、拓扑需求（是否需要NVLink域内）、内存、预计时长、优先级、检查点路径。现代系统（如Determined AI、SkyPilot）引入"资源组"概念：`8xA100 within same NVLink domain`。为什么拓扑很重要？同一NVLink域内All-Reduce带宽可达600GB/s，跨机架InfiniBand仅200GB/s，对于通信密集型训练（如Tensor Parallel），拓扑错误会导致30-50%吞吐损失。

Step 2Gang Scheduling与排队策略

调度器维护一个等待队列，对每个任务检查是否有足够的连续（拓扑感知）资源。关键工程决策：是否允许部分启动？ 朴素Gang Scheduling不允许（全有或全无），但会导致大任务饥饿。改进方案：①优先级抢占（低优先级任务被暂停以释放资源给高优先级大任务）；②Backfill调度（在等待大任务期间，用小任务填充碎片资源）。Volcano和SLURM均实现了这两种策略的组合。

Step 3协调启动与Rendezvous

所有节点分配完成后，需要协调启动——每个进程需要知道：自己的rank、总world_size、master节点地址。PyTorch的`torchrun`（原torchelastic）通过Rendezvous后端（支持etcd、c10d、ZooKeeper）实现：所有进程向Rendezvous服务注册，等待所有节点就绪后同时收到启动信号。关键细节：Rendezvous有超时机制，防止部分节点永久等待；支持动态membership，允许节点在训练中加入/离开。

Step 4运行时心跳与故障检测

训练启动后，调度器通过心跳（通常5-30秒间隔）监控每个节点的存活状态。故障检测的工程难点是区分：①节点真正宕机；②网络抖动导致的假阳性；③NCCL集合通信超时（可能是慢节点而非故障）。生产系统通常设置多级超时：心跳超时（30s）→ 标记为疑似故障 → NCCL超时（300s）→ 确认故障并触发恢复。

Step 5检查点感知恢复

故障确认后，系统自动：①从最近检查点恢复模型状态；②重新分配健康节点（可能缩容）；③重新执行Rendezvous；④恢复训练。检查点频率是核心工程参数：太频繁（每步保存）会使I/O成为瓶颈；太稀疏（每小时保存）则故障恢复损失大。Meta的经验是：对于千卡训练，每10-15分钟保存一次检查点，同时使用异步检查点（训练继续，后台写盘）将I/O开销降至可忽略。

长远价值

这套调度体系是所有大模型训练基础设施的核心。GPT-4、LLaMA 3、Gemini的训练都依赖类似系统。Determined AI被HPE收购，SkyPilot获得大量VC投资，Volcano成为CNCF孵化项目——说明这一领域的工程价值已被产业充分认可。对于音视频大模型工程师，理解调度原理直接影响：如何设计训练任务的资源请求、如何设置检查点策略、如何在云上控制训练成本。

前沿动向

当前热点：①跨云/异构调度（A100+H100混合集群，或AWS+GCP跨云训练）；②成本感知抢占（Spot实例上的弹性训练，故障率高但成本低60-70%）；③训练-推理协调调度（同一集群动态切换训练和推理负载）；④开放问题：如何在不停止训练的情况下动态扩容（真正的在线弹性扩展），当前方案仍需短暂暂停重新Rendezvous。

最优传输信号融合

分布式训练任务调度

往期讲解档案 60 个知识点