知识讲堂

← 返回日报
算法理论 第一讲

时长控制TTS原理

时长建模就像乐谱上的节拍标记——作曲家(文本)写下音符(音素),节拍标记(时长预测器)决定每个音符弹多久,演奏者(声学解码器)才能按正确节奏演奏出完整乐曲。
历史演进

TTS系统长期面临一个根本矛盾:自然语音的韵律(时长、停顿、语调)是高度动态的,而早期系统只能生成"平均化"的机械语音——这一矛盾驱动了时长建模从隐式到显式、从粗粒度到细粒度的整条演进路线。

1952–1980
拼接合成时代

早期TTS(如Bell Labs的Vocoder)直接拼接预录音素片段,时长由规则字典硬编码,完全不具备上下文感知能力。停顿只能靠标点符号触发固定静音帧,韵律极度机械。这一阶段奠定了"时长是独立可控变量"的基本认知。

1990s
HMM统计参数合成

以Tokuda等人在ICASSP 1995提出的HMM-TTS为代表,时长建模首次被纳入统计框架:用独立的Duration HMM对每个音素的帧数建模,均值和方差从语料中学习。这是"数据驱动时长"的起点,但HMM假设帧间独立,生成语音仍显平滑过度(over-smoothing),缺乏自然的局部变化。

2017
Tacotron与注意力隐式对齐

Google的Tacotron(Wang et al., 2017)彻底抛弃显式时长模型,改用seq2seq+注意力机制让模型自己学习文本到声学帧的对齐。这带来了显著的自然度提升,但也引入了注意力跳帧、重复、崩溃等稳定性问题,且时长完全不可控——用户无法干预某个词说多快。

2019
FastSpeech与显式时长预测器回归

Ren et al.(Microsoft, 2019, NeurIPS)提出FastSpeech,核心创新是引入显式Duration Predictor:一个轻量CNN网络预测每个音素对应的帧数,再通过Length Regulator将音素序列扩展到帧序列。这使推理速度提升270倍(并行非自回归),且时长可直接缩放控制语速。FastSpeech 2(2020)进一步引入pitch和energy预测器,构成完整的细粒度韵律控制体系。

2021–2024
扩散与流匹配时代的时长建模

以Grad-TTS、Voicebox(Meta, 2023)、Matcha-TTS为代表,时长建模被整合进连续流匹配框架:Monotonic Alignment Search(MAS)或外部对齐器提供软对齐,扩散/流过程在对齐后的帧空间上建模声学细节。时长控制从"整数帧数"升级为"连续时长分布采样",兼顾可控性与自然度。

2025
令牌级显式时序控制

MAGIC-TTS等工作将控制粒度推进到单个令牌(subword/phoneme)级别的时长和停顿,支持毫秒级精确操控,面向有声书、配音、辅助沟通等对时序精度要求极高的场景。

核心思想
TTS时长建模的本质是解决"文本序列"与"声学帧序列"之间的长度不对齐问题——通过预测或学习每个语言单元应占据多少时间帧,将离散的语言符号映射到连续的时间轴上,从而控制语速、停顿和节奏。
数学结构

设文本序列为 $\mathbf{x} = (x_1, x_2, \ldots, x_N)$,对应声学帧序列为 $\mathbf{y} = (y_1, y_2, \ldots, y_T)$,其中 $T \gg N$。 Duration Predictor 的目标是学习映射 $d_i = f_\theta(x_i, \mathbf{c})$,其中 $d_i \in \mathbb{Z}^+$ 为第 $i$ 个音素的帧数,$\mathbf{c}$ 为上下文(如句子级韵律嵌入)。训练时用MSE损失(对数域更稳定): $$\mathcal{L}_\text{dur} = \frac{1}{N} \sum_{i=1}^{N} \left( \log \hat{d}_i - \log d_i^* \right)^2$$ 其中 $d_i^*$ 由强制对齐工具(MFA、Montreal Forced Aligner)从真实语音中提取,取对数是因为时长分布高度右偏(少数音素极长)。 Length Regulator 将音素表示扩展为帧级表示: $$\mathbf{H}_\text{mel} = \text{LR}(\mathbf{H}_\text{phoneme},\ \mathbf{d}) = \bigoplus_{i=1}^{N} \underbrace{h_i, h_i, \ldots, h_i}_{d_i \text{ 次}}$$ 其中 $\bigoplus$ 表示拼接,$h_i$ 为第 $i$ 个音素的隐向量重复 $d_i$ 次。 停顿建模可视为特殊的静音音素 $\langle\text{sil}\rangle$,其时长 $d_\text{sil}$ 由独立分支预测,或通过条件变量 $p_i \in \{0,1\}$ 指示是否在第 $i$ 个词后插入停顿,时长从 $\mathcal{N}(\mu_p, \sigma_p^2)$ 采样。 推理时,用户可通过缩放因子 $\alpha$ 控制整体语速:$\hat{d}_i \leftarrow \lfloor \alpha \cdot \hat{d}_i \rceil$,或对特定音素单独设置 $d_i = d_\text{target}$ 实现精确时序控制。

工作机制

TTS时长控制系统的整体逻辑是:先从文本提取语言特征,再预测每个单元的时长,然后将音素级表示扩展为帧级表示,最后在帧级空间生成声学特征——时长预测是连接语言空间与声学空间的"时间桥梁"。

Step 1强制对齐获取训练标签

做什么:用Montreal Forced Aligner(MFA)或CTC强制对齐,从(文本, 音频)对中提取每个音素的起止时间戳,转换为帧数 $d_i^*$。 为什么这样设计:Duration Predictor是监督学习,必须有ground truth时长标签。注意力机制虽能隐式对齐,但对齐质量不稳定且不可直接读取为整数帧数。MFA基于HMM-GMM,对齐精度在10ms级别,足够TTS使用。 关键细节:对齐在音素级而非字符级进行,需要G2P(Grapheme-to-Phoneme)转换;静音帧单独标注为 $\langle\text{sil}\rangle$ 音素;帧移通常为10ms(80样本@8kHz或160样本@16kHz)。

Step 2Duration Predictor网络设计

做什么:在音素编码器输出的隐向量 $\mathbf{H}$ 上,用轻量网络预测每个音素的时长。 为什么这样设计:FastSpeech用2层Conv1D+LayerNorm+ReLU+Linear,参数量极小(<1M),因为时长预测是相对低维的回归任务,不需要复杂容量。在对数域预测($\log d$)而非直接预测 $d$,是因为时长分布是对数正态的——"a"在快语速下可能1帧,慢语速下可能20帧,对数域使分布更对称,MSE损失更有效。 关键细节:推理时对预测值取指数再四舍五入得到整数帧数:$d_i = \text{round}(\exp(\hat{d}_i))$;MAGIC-TTS等工作在此基础上引入条件变量(如情感标签、语速标量)作为额外输入,实现条件化时长控制。

Step 3Length Regulator扩展序列

做什么:将音素级隐向量序列 $(h_1, \ldots, h_N)$ 按时长 $(d_1, \ldots, d_N)$ 重复扩展为帧级序列,总长度 $T = \sum_i d_i$。 为什么这样设计:这是非自回归并行生成的关键——扩展后的帧级序列可以并行送入声学解码器,无需逐帧自回归。相比注意力对齐,Length Regulator保证了严格的单调对齐(每帧只对应一个音素),消除了跳帧和重复问题。 关键细节:停顿控制通过在特定位置插入额外的 $\langle\text{sil}\rangle$ 帧实现;MAGIC-TTS支持在任意两个令牌之间插入指定时长的停顿,实现毫秒级精确控制。

python def length_regulator(H, durations):     # H: [N, d_model], durations: [N] (integers)     frames = []     for i, d in enumerate(durations):         frames.extend([H[i]] * d)  # 重复d次     return torch.stack(frames)  # [T, d_model]
Step 4帧级声学解码与韵律联合建模

做什么:在扩展后的帧级表示上,用Transformer/Conformer解码器生成Mel频谱,同时可联合预测pitch(F0)和energy曲线。 为什么这样设计:时长控制只解决了"每个音素说多久",但自然语音的韵律还包括音调变化(pitch)和响度变化(energy)。FastSpeech 2引入Pitch Predictor和Energy Predictor,三者(时长、音调、能量)共同构成完整的细粒度韵律控制体系,且三者在帧级对齐后可独立控制,互不干扰。 关键细节:Pitch用连续F0曲线表示(对数域),通过WORLD声码器或CREPE提取;推理时可对F0曲线进行移调(整体升降)或局部修改(强调某个词);与时长控制组合,可实现"慢速+高音调"等复合韵律效果。

Step 5推理时的精确时序控制

做什么:用户通过API指定特定令牌的目标时长(毫秒)或停顿位置,系统将其转换为帧数并覆盖预测值。 为什么这样设计:对于有声书配音、视频配音、辅助沟通设备等场景,自动预测的时长可能与视频时间轴或用户意图不符,必须支持精确覆盖。MAGIC-TTS的创新在于将此能力暴露为一等公民接口,而非事后的音频拉伸(拉伸会引入音质损失)。 关键细节:时长覆盖在Length Regulator之前进行,确保声学生成在正确的时间尺度上进行;对于极端时长(如要求1个音素持续500ms),需要额外的稳定性处理(如重复帧的平滑插值)。

长远价值

FastSpeech系列已成为工业界非自回归TTS的标准架构,被微软Azure TTS、字节跳动、科大讯飞等广泛采用。显式时长控制使有声书制作、视频配音、语言学习应用成为可能——用户可精确控制每个词的发音时长。在辅助沟通设备(AAC)领域,时长控制是保障沟通自然度的核心能力。随着多模态生成(视频+语音同步)需求增长,帧级精确时序控制的价值将持续提升。

前沿动向

当前热点包括:①连续时长建模(用扩散/流匹配替代整数帧数,避免量化误差);②跨语言时长迁移(不同语言的音素时长分布差异极大);③基于LLM的韵律预测(用大模型理解语义后预测更自然的时长分布);④实时流式场景下的时长预测(必须在看到完整句子前做出决策)。核心开放问题:如何在不牺牲自然度的前提下实现毫秒级精确时序控制。

工程·思维 第二讲

AI研究价值评估困境

这就像高考指挥棒效应——当"高考分数"成为教育质量的唯一指标,学校理性地优化刷题技巧而非真正的学习能力,最终每个参与者都做了理性决策,整个系统却走向了集体非理性。
历史演进

AI研究的评估体系从诞生之初就面临一个根本性张力:科学价值难以量化,而学术机构需要可量化的指标来做决策——这一张力随着AI领域的爆炸式增长被放大到了前所未有的程度。

1950s–1980s
小圈子同行评审时代

早期AI会议(如IJCAI 1969年创立)论文数量极少,评审者与作者往往相识,评审更多依赖"这个想法有没有意思"的直觉判断。Turing(1950)的"Computing Machinery and Intelligence"、McCarthy等人的达特茅斯提案(1956)都是在这种环境下产生的——没有大量消融实验,没有统计显著性检验,只有核心思想的清晰表达。这一时期的问题是评审过于主观,但优点是真正新颖的想法不会被"实验不够多"淹没。

1990s–2000s
统计机器学习与基准文化兴起

随着SVM(Vapnik, 1995)、AdaBoost(Freund & Schapire, 1997)等方法的成功,"在标准数据集上比较性能"成为评估范式。UCI数据集、MNIST、后来的ImageNet(Deng et al., 2009)构建了可重复比较的基础设施。这是巨大进步——研究变得可验证、可比较。但同时埋下了隐患:当基准成为目标本身,Goodhart定律开始生效:"当一个指标成为目标,它就不再是好指标。"

2012–2018
深度学习爆发与论文数量膨胀

AlexNet(Krizhevsky et al., 2012, NeurIPS)引爆深度学习热潮后,AI论文数量开始指数级增长。NeurIPS 2012接收论文370篇,到2019年超过1400篇,2023年超过3500篇。评审系统被迫工业化:双盲评审、大规模招募评审员、Area Chair层级管理。评审员质量参差不齐,评审时间从数周压缩到数天。为了让评审员快速判断质量,论文开始堆砌实验——消融研究、多数据集验证、与更多baseline比较——这些本是好习惯,但逐渐异化为"通过评审的必要条件"而非"科学严谨性的体现"。

2019–2023
基准过拟合与评估危机显现

研究者开始系统性记录基准失效现象:Recht et al.(2019)发现ImageNet精度提升在新测试集上大幅缩水;Gururangan et al.(2018)发现NLI模型依赖数据集偏差而非真正理解;McCoy et al.(2019)发现BERT在对抗样本上崩溃。与此同时,论坛(Reddit ML、Twitter/X)开始出现大量讨论:为什么每周都有"SOTA"论文,但实际系统进步如此缓慢?Lipton & Steinhardt(2018)的"Troubling Trends in Machine Learning Scholarship"成为里程碑式批评文章,系统梳理了思辨不严谨、实验设计缺陷、结论过度推广等问题。

2024–2026
LLM时代的评估危机加剧

大语言模型的出现使问题更复杂:①训练数据污染导致基准失效(GPT-4可能见过测试集);②能力评估从客观指标变为主观人类偏好(RLHF时代);③论文数量进一步爆炸(仅cs.LG每天100-200篇,如今日讨论[36]所示);④会议注册费高昂但学术体验下降(ICLR空海报板现象,讨论[39])。整个社区开始反思:我们是否在优化"被接受"而非"真正有价值"?

核心思想
AI研究评估困境的本质是:学术激励系统(发表=晋升=资金)与科学价值(真正的知识增量)之间的错位——当"通过评审"成为优化目标,研究者理性地堆砌实验、选择有利基准、回避风险性想法,导致系统性地生产"安全但平庸"的工作。
工作机制

评估困境的运作机制可以用一个反馈回路来理解:评审标准塑造论文写作策略,论文写作策略塑造研究选题,研究选题塑造领域进展方向——当这个回路的起点(评审标准)出现偏差,整个系统就会系统性地偏离真正的科学价值。

Step 1评审激励结构分析

做什么:理解评审员的实际决策逻辑,而非理想化的"评估科学价值"。 核心洞见:顶会评审员通常是志愿者,每人负责6-10篇论文,每篇可用时间约2-4小时。在时间压力下,评审员会依赖启发式规则:①实验多=工作扎实;②与更多baseline比较=公平;③在知名数据集上有提升=有价值。这些启发式规则本身并不错,但当它们成为充分条件时,就会被反向工程——研究者学会"满足这些条件"而非"做好科学"。 实践建议:作为工程师评估论文时,主动问"如果去掉所有实验,核心思想还剩什么?"——如果答案是"没什么",这篇论文可能是实验堆砌型。

Step 2基准选择的策略性偏差

做什么:识别论文中基准选择的系统性偏差模式。 核心洞见:研究者在提交前会在多个数据集上测试,倾向于报告表现最好的子集(选择性报告,p-hacking的学术版本)。更隐蔽的是"基准选择偏差":选择自己方法天然有优势的评估场景,同时回避已知弱点。例如,一个在安静环境下优化的ASR系统,论文只报告LibriSpeech(干净语音)而不报告CHiME(噪声环境)结果。 识别方法:检查论文是否在所有声称适用的场景下都有评估;检查baseline是否使用了相同的超参数搜索预算;检查是否有统计显著性检验(而非只报告均值)。

Step 3消融研究的异化

做什么:理解消融研究从"科学工具"到"评审通行证"的异化过程。 核心洞见:消融研究的本意是验证每个组件的必要性,是理解系统的科学工具。但在"必须有消融"的评审文化下,它变成了:①设计时就考虑"哪些组件可以消融掉";②确保每个消融都有正向贡献(如果某个组件消融后性能不变,就不报告这个消融);③消融实验在小数据集上做,主实验在大数据集上做(规避不一致)。 实践建议:真正有价值的消融是"负面结果消融"——某个你以为重要的组件实际上没用,这才是真正的知识增量。

Step 4跟进研究的认知策略

做什么:在每天100-200篇论文的信息洪流中,建立可持续的价值筛选系统。 分层策略: - 第一层(每日,5分钟):只看标题+摘要,用"这解决了什么根本问题"过滤,90%的论文在这一层被过滤。 - 第二层(每周,2小时):对通过第一层的论文,看Introduction的最后一段(通常是贡献列表)和Conclusion的第一段(通常是局限性)——局限性写得越诚实,论文越可信。 - 第三层(每月,深度阅读):选2-3篇真正影响自己工作的论文完整阅读,重点看Method和实验设计,而非结论数字。 - 社区信号:Twitter/X、Reddit ML、HuggingFace论文页面的讨论质量往往高于论文本身——社区会快速发现方法的真实局限。

Step 5工程师视角的价值评估框架

做什么:作为音视频大模型工程师,建立适合自己的论文价值评估框架。 核心问题清单: ①可复现性:代码是否开源?超参数是否完整报告?(无代码的论文复现率<30%) ②计算公平性:baseline是否使用了相同的计算预算?(许多"SOTA"只是用了更多GPU) ③实际部署相关性:论文的评估场景与真实部署场景有多大gap?(学术ASR vs. 真实电话噪声) ④思想密度:去掉实验,核心方法创新是否可以用一段话清晰描述? ⑤失败案例:论文是否诚实报告了方法失败的情况?(没有失败案例的论文通常隐藏了失败案例)

长远价值

这套认知框架直接影响工程师的技术选型效率。Google、Meta、微软等大厂的研究团队内部都有类似的"论文可信度评估"文化——不是所有SOTA都值得复现,不是所有基准提升都值得工程化。Lipton & Steinhardt的批评文章已被引用超过1000次,推动了NeurIPS等会议引入"可复现性检查清单"制度。对于音视频工程师,识别"实验室SOTA vs. 工程可用"的能力直接决定技术债务的多少。

前沿动向

当前社区正在探索:①预注册研究(Pre-registration)——在实验前公开假设,防止事后p-hacking;②动态基准(如BIG-Bench Lite的持续更新机制)防止过拟合;③基于LLM的自动评审辅助(但引入新的偏差风险);④开放同行评审(如OpenReview)增加透明度。核心未解问题:如何在保持评审效率的同时,给真正有创新但"实验不够多"的工作公平机会?

往期讲解档案 76 个知识点

2026年04月25日全双工对话建模原理Full-Duplex DialogueTurn-TakingVoice Activity Detection
2026年04月25日流式TTS文本规范化Text NormalizationStreaming TTSInverse Text Normalization
2026年04月24日离散扩散语言模型原理Discrete DiffusionMasked Diffusion Language ModelAbsorbing Diffusion
2026年04月24日跟进ML研究的认知工程Information OverloadResearch TriageSpaced Repetition
2026年04月23日一致性正则化ASR原理Consistency RegularizationUnified ASRTransducer
2026年04月23日流式TTS文本规范化工程Text NormalizationStreaming TTSInverse Text Normalization
2026年04月22日神经编码器伪影检测Neural Audio CodecArtifact DetectionForensic Residual
2026年04月22日AI研究复现危机工程Reproducibility CrisisML EngineeringExperimental Rigor
2026年04月21日扩散SNR偏差校正原理Signal-to-Noise RatioDiffusion Timestep BiasScore Matching
2026年04月21日论文复现危机根治工程Reproducibility CrisisAblation StudyExperimental Rigor
2026年04月20日音频时序定位原理Temporal GroundingAudio Event DetectionCross-modal Alignment
2026年04月20日论文复现危机根因Reproducibility CrisisBenchmark OverfittingEvaluation Validity
2026年04月19日流匹配对齐原理Flow Matching AlignmentReward Gradient BackpropagationTrajectory Optimization
2026年04月19日分布式训练任务编排Distributed Training OrchestrationCluster SchedulingFault Tolerance
2026年04月18日最优传输信号融合Optimal TransportWasserstein BarycenterTime-Frequency Resolution
2026年04月18日分布式训练任务调度Distributed Training OrchestrationJob SchedulingCluster Resource Management
2026年04月17日扩散语音识别原理Masked Diffusion Language ModelDiscrete DiffusionASR Decoding
2026年04月17日Mel尺度跨文化偏差Mel ScalePsychoacousticsCultural Bias
2026年04月16日音频水印对抗原理Audio WatermarkingSemi-FragilePsychoacoustic Masking
2026年04月16日推测解码草稿树工程Speculative DecodingDraft TreeBlock Diffusion
2026年04月15日对抗流模型原理Continuous Normalizing FlowAdversarial TrainingFlow Matching
2026年04月15日代理状态可观测性工程Agent ObservabilityDistributed TracingState Machine Debugging
2026年04月14日过程奖励模型原理Process Reward ModelStep-level SupervisionReasoning Chain
2026年04月13日离散令牌音源分离Discrete Token ModelingSource SeparationConditional Generation
2026年04月13日超算API工程哲学Distributed Training OrchestrationSupercomputer API DesignFault Tolerance
2026年04月12日信息瓶颈原理演进Information BottleneckVariational IBDisentanglement
2026年04月12日Safetensors格式工程哲学SafetensorsModel SerializationMemory-Mapped IO
2026年04月11日归一化层演进原理Layer NormalizationRMS NormalizationBatch Normalization
2026年04月11日GEMM自调优后端工程GEMM AutotuningTorchInductorCuteDSL
2026年04月10日多令牌预测原理Multi-Token PredictionSpeculative DecodingMedusa Heads
2026年04月10日ML从业者认知校准Calibration BiasCapability IllusionBenchmark Overfitting
2026年04月09日编码器-解码器LM原理Encoder-Decoder LMCross-Attention ConditioningSequence-to-Sequence
2026年04月09日torch.compile归一化优化torch.compileLayerNormRMSNorm
2026年04月08日KV缓存压缩原理KV Cache CompressionRoPE Position EncodingAttention Score Estimation
2026年04月08日音效基础模型工程Sound Effect GenerationFoundation ModelFoley Synthesis
2026年04月07日可验证奖励强化学习Verifiable RewardRLVRProcess Reward Model
2026年04月07日LLM技能退化认知机制Cognitive OffloadingSkill AtrophyDesirable Difficulty
2026年04月06日音素可解释说话人验证Phoneme-aware Speaker VerificationInterpretable BiometricsLocal Acoustic Evidence
2026年04月06日音频幻觉攻击评估Hallucination AttackAudio Language Model ReliabilityAdversarial Probing
2026年04月05日潜在空间推理原理Latent Space ReasoningContinuous RepresentationToken-Free Inference
2026年04月05日mRNA模型极低成本训练Biology Foundation ModelCross-Species TransferLow-Budget Training
2026年04月04日编码器-解码器TTS原理Encoder-Decoder TTSText ConditioningPositional Capacity
2026年04月04日大模型训练的MXFP8工程MXFP8MicroscalingMixed Precision Training
2026年04月03日在线知识蒸馏原理Online DistillationKnowledge TransferStudent-Teacher
2026年04月03日MoE专家并行调度工程Expert ParallelismMixture of ExpertsAll-to-All Communication
2026年04月02日波形潜空间扩散TTSwaveform latent diffusionnon-autoregressive TTSlatent space acoustic modeling
2026年04月02日波形隐空间扩散原理waveform latent spacediffusion TTSVAE audio codec
2026年04月02日LLM量化权重工程weight quantizationLLM compression4-bit quantization
2026年04月02日扩散语言模型离散生成Discrete DiffusionMasked Diffusion Language ModelNon-autoregressive TTS
2026年04月02日LLM后训练库工程演进RLHF engineeringPPO training stabilityreward hacking
2026年04月02日声学证据瓶颈原理Audio Evidence BottleneckAcoustic GroundingAudio Language Model
2026年04月02日状态空间模型音频建模State Space ModelMambaSelective Scan
2026年04月02日实时语音增强工程选型Real-time Speech EnhancementNoise SuppressionStreaming Inference
2026年04月02日对话上下文压缩原理Context CompressionAbstractive SummarizationCross-Attention Fusion
2026年04月02日说话人匿名化工程Speaker AnonymizationVoice ConversionStreaming Inference
2026年04月02日视听语音识别融合Audio-Visual Speech RecognitionLip ReadingViseme
2026年04月02日GPU训练吞吐加速工程MXFP8MoE TrainingExpert Parallelism
2026年04月01日熵驱动多样性生成diversity samplingtypicality biasrepulsion in latent space
2026年04月01日说话人分割工程选型speaker diarizationbenchmark methodologystreaming ASR pipeline
2026年03月31日转向检测联合建模turn-taking detectionvoice activity detectionjoint acoustic-linguistic modeling
2026年03月31日基准测试的系统性失效benchmark contaminationevaluation validityLLM judge reliability
2026年03月31日扩散模型声学生成diffusion modelscore matchingstochastic differential equation
2026年03月31日TTS开源生态竞争open-weight TTStime-to-first-audiomultilingual speech synthesis
2026年03月30日注意力机制变体演进Multi-Head AttentionGrouped Query AttentionMulti-head Latent Attention
2026年03月30日设备端语音推理架构on-device inferenceExecuTorchvoice agent pipeline
2026年03月29日混合自回归流匹配TTSautoregressive semantic tokensflow matching acoustic decoderhybrid TTS architecture
2026年03月29日NCCL超时诊断方法论NCCL watchdog timeoutdistributed training debuggingcollective communication
2026年03月29日混合架构音频表示Mambastate space modelaudio representation learning
2026年03月29日DeepSeek预训练加速工程MXFP8 trainingexpert parallelismMoE pretraining
2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification