知识讲堂

← 返回日报
算法理论 第一讲

音素级深度伪造检测原理

就像鉴定古画时不看整幅画的"感觉",而是逐笔检查每个笔触的墨迹干燥方式、颜料成分是否与同时期其他笔触一致——局部不一致才是造假的铁证。
历史演进

深度伪造语音检测的根本动因是:TTS与语音转换技术的质量已超越人耳辨别阈值,而检测系统长期将语音视为均质信号,忽视其内部时序结构,导致在情感语音等细粒度场景下系统性失效。

2016–2018
ASVspoof挑战赛奠基期

ASVspoof 2015/2017挑战赛将语音反欺骗(anti-spoofing)正式确立为独立研究方向。早期系统以MFCC、CQCC等手工特征为主,配合GMM或SVM分类器,核心假设是"合成语音在频谱统计上与真实语音有全局差异"。这一假设在当时的拼接TTS时代基本成立,但为后续系统性偏差埋下伏笔——检测器学到的是全局频谱偏差,而非语音生成过程的局部不一致性。

2019–2021
端到端神经检测器崛起

随着LCNN、RawNet2、AASIST等端到端模型出现,检测性能在ASVspoof 2019数据集上大幅提升(EER从5%降至不足1%)。这些模型直接从原始波形或浅层频谱学习判别特征,但本质上仍是话语级(utterance-level)二分类:给定一段语音,输出真/假标签。问题在于:当攻击者只篡改语音中的部分片段(如替换某几个词),或当情感变化导致声学分布偏移时,全局分类器的判别边界会系统性漂移。Kinnunen等人(2020)的分析表明,这类模型对"部分合成"攻击的检测率接近随机。

2021–2023
自监督表示引入检测任务

wav2vec 2.0、HuBERT、WavLM等自监督模型的出现为检测任务带来了质的变化。Yang等人(2021,INTERSPEECH)系统评估了自监督特征在反欺骗任务上的迁移能力,发现中间层表示(而非最终层)对伪造痕迹最敏感。这一发现的物理意义是:自监督模型在预训练中学到了语音的局部声学-语言对应关系,伪造语音在这一对应关系上存在可检测的局部破坏。

2023–2025
音素级细粒度检测兴起

情感语音转换(Emotional Voice Conversion, EVC)技术的成熟使得攻击更加隐蔽——攻击者可以保留说话人身份,仅改变情感韵律,或在特定情感段落注入合成内容。此时话语级检测器面临严峻挑战:情感引发的声学变化(F0轮廓、能量包络、时长模式)与伪造痕迹在全局统计上高度混叠。音素级检测的核心思路是:将语音强制对齐到音素边界,在每个音素单元内独立提取自监督嵌入,再通过序列模型(如Transformer或CRF)建模音素间的一致性约束,从而将"情感变化"与"合成痕迹"在时序上解耦。

核心思想
将语音按音素边界切分为局部单元,在每个单元内提取自监督嵌入,通过建模音素间声学一致性约束来检测合成痕迹——本质是把"全局真假判断"转化为"局部时序异常检测",使情感变化与伪造信号在时序维度上可分离。
数学结构

设语音信号经强制对齐后得到音素序列 $\{p_1, p_2, \ldots, p_T\}$,每个音素 $p_t$ 对应时间段 $[s_t, e_t]$。 音素嵌入提取:对第 $t$ 个音素,从自监督模型第 $l$ 层提取帧级表示后做时间平均: $$\mathbf{h}_t = \frac{1}{e_t - s_t} \sum_{\tau=s_t}^{e_t} \mathbf{f}_l(\mathbf{x}_\tau)$$ 其中 $\mathbf{f}_l(\cdot)$ 是自监督模型第 $l$ 层的帧级输出,$\mathbf{x}_\tau$ 是第 $\tau$ 帧的输入特征。 情感条件解耦:引入情感标签 $e$ 的条件嵌入 $\mathbf{c}_e$,通过条件层归一化将情感信息从音素嵌入中剥离: $$\tilde{\mathbf{h}}_t = \text{LayerNorm}(\mathbf{h}_t; \gamma(\mathbf{c}_e), \beta(\mathbf{c}_e))$$ 这一设计的动机是:情感变化主要体现为全局韵律偏移,可通过条件归一化"吸收",剩余的局部异常更可能来自合成痕迹。 序列级异常评分:将 $\{\tilde{\mathbf{h}}_t\}$ 输入双向Transformer,得到每个音素的异常分数 $a_t \in [0,1]$,话语级判决为: $$\hat{y} = \sigma\!\left(\frac{1}{T}\sum_{t=1}^T a_t + \lambda \cdot \max_t a_t\right)$$ 其中 $\lambda$ 权衡平均异常与峰值异常,$\sigma$ 为sigmoid函数。峰值项的引入是因为部分合成攻击只在少数音素上留下痕迹,纯平均会稀释信号。

工作机制

整体逻辑是:强制对齐→音素嵌入→情感解耦→序列异常建模→话语级判决,将检测问题从"全局频谱分类"重构为"局部时序一致性验证"。

Step 1强制对齐与音素分割

使用Montreal Forced Aligner(MFA)或基于CTC的对齐器,将语音与音素序列对齐,获得每个音素的精确时间边界。为什么不用均匀分帧? 音素是语音生成的自然单元,合成系统的伪造痕迹往往在音素边界处最为明显(拼接点、韵律跳变),均匀分帧会将边界信息分散到相邻帧中,降低检测灵敏度。关键细节:对齐质量直接影响检测性能,低资源语言或情感语音的对齐误差需要通过边界平滑(±20ms容忍窗口)来缓解。

Step 2多层自监督特征融合

不使用单一层的自监督表示,而是对多个中间层做加权融合:$\mathbf{h}_t = \sum_l w_l \mathbf{f}_l(\mathbf{x})$,权重 $w_l$ 通过任务微调学习。为什么需要多层? 不同层捕获不同粒度的信息:浅层对应声学细节(适合检测声码器伪影),中层对应音素身份(适合检测替换攻击),深层对应语义-韵律对应(适合检测情感注入攻击)。实验表明,单独使用任何一层的EER均高于多层融合约15%相对误差。

Step 3情感条件归一化

将情感类别(或从语音中预测的情感向量)作为条件信号,通过仿射变换调整音素嵌入的均值和方差。为什么这样设计而非直接拼接? 情感信息主要体现为分布偏移(均值/方差变化),条件归一化在归一化步骤中直接补偿这种偏移,而拼接方式会让模型自行学习如何忽略情感信息,训练效率低且泛化差。实现细节:情感标签可来自人工标注或预训练情感识别模型,后者在推理时无需额外标注。

Step 4双向Transformer序列建模

将音素嵌入序列输入双向Transformer,利用自注意力机制建模音素间的长程依赖。为什么需要序列模型而非独立分类每个音素? 合成语音的局部一致性破坏往往在上下文中才可见:一个音素的F0轮廓是否异常,需要参照前后音素的韵律走势。双向建模使每个音素的判断都能"看到"全局上下文。

Step 5可解释性输出与定位

输出每个音素的异常分数 $a_t$,可直接可视化为时序热力图,定位篡改区域。这一设计使检测系统同时具备二分类和时序定位能力,满足取证场景的可解释性需求。

python # 伪代码:音素级检测推理流程 def phoneme_level_detect(audio, transcript, emotion_label):     # Step 1: 强制对齐     boundaries = forced_aligner(audio, transcript)  # [(start, end, phoneme), ...]          # Step 2: 提取多层自监督特征     ssl_features = ssl_model(audio)  # [T_frames, n_layers, D]     weighted = sum(w[l] * ssl_features[:, l, :] for l in range(n_layers))          # Step 3: 音素级平均池化     phoneme_embs = []     for start, end, _ in boundaries:         emb = weighted[start:end].mean(dim=0)         phoneme_embs.append(emb)     phoneme_embs = torch.stack(phoneme_embs)  # [T_phonemes, D]          # Step 4: 情感条件归一化     emotion_cond = emotion_encoder(emotion_label)     gamma, beta = affine_net(emotion_cond)     phoneme_embs = layer_norm(phoneme_embs) * gamma + beta          # Step 5: 序列建模与异常评分     anomaly_scores = bidir_transformer(phoneme_embs)  # [T_phonemes]     utterance_score = anomaly_scores.mean() + lambda_ * anomaly_scores.max()     return torch.sigmoid(utterance_score), anomaly_scores
长远价值

音素级检测框架在ASVspoof 2021 LA赛道上相比话语级基线EER降低约30%相对误差,在情感语音转换攻击场景下优势更为显著。字节跳动、微软Azure Speaker Recognition等工业系统已将子话语级检测纳入反欺骗管道。随着实时语音克隆工具(如ElevenLabs、RVC)的普及,部分合成攻击成为主流威胁,音素级方法的细粒度定位能力使其在司法取证、内容平台审核中具有不可替代的价值。

前沿动向

当前开放问题包括:①跨语言泛化——音素对齐器在低资源语言上误差大,如何在无对齐资源时退化为鲁棒的近似方案;②对抗攻击鲁棒性——攻击者可针对音素边界处进行对抗扰动;③实时检测延迟——音素级序列建模引入额外计算,流式场景下的因果版本设计仍是开放问题;④多说话人混叠场景下的音素归属问题。

工程·思维 第二讲

AI训练网络协议工程哲学

就像高铁调度系统不依赖单条轨道的可靠性,而是通过实时监控多条并行线路、在毫秒内切换列车路径来保证准点率——MRC把"连接可靠性"从单条线路的属性升级为整个路网的属性
历史演进

AI大规模训练网络协议演进的根本动因是:GPU算力的扩展速度远超网络带宽与可靠性的提升速度,当集群规模超过数千节点时,传统数据中心网络协议的设计假设(低丢包率、单路径传输、TCP友好性)与AI训练负载的特性(全对全集合通信、极低延迟容忍、长时连续传输)之间产生了根本性矛盾。

2012–2016
InfiniBand垄断期与以太网的局限

早期深度学习集群(如Google的DistBelief、百度的GPU集群)规模较小,以太网勉强够用。但随着AlexNet(2012)引爆GPU训练需求,InfiniBand凭借其RDMA(远程直接内存访问)能力、极低延迟(<1μs)和高带宽(56Gb/s→100Gb/s)成为HPC和AI集群的标准选择。以太网在这一时期的核心问题是:TCP/IP协议栈的软件开销(内核态切换、拷贝次数)使其端到端延迟比InfiniBand高1-2个数量级,且传统以太网的ECMP(等价多路径)负载均衡对大象流(elephant flow)的处理极差——AllReduce等集合通信会产生持续的大流量,ECMP的哈希碰撞导致严重的流量不均衡。

2017–2020
RoCE与DCQCN的工程突破

为在以太网上实现RDMA语义,RoCE(RDMA over Converged Ethernet)v2协议被提出,将InfiniBand传输层封装在UDP/IP之上。但以太网的有损特性与RDMA的无损要求之间存在根本冲突:RDMA不能容忍丢包(丢包会触发Go-Back-N重传,导致吞吐量崩溃)。微软研究院2016年在SIGCOMM发表的DCQCN(Data Center Quantized Congestion Notification)论文给出了工程解法:结合PFC(Priority Flow Control)在链路层实现无损,同时用ECN(显式拥塞通知)在端到端做拥塞控制,避免PFC的死锁问题。这一组合成为大规模AI集群以太网方案的基础,Meta的AI Research SuperCluster(RSC)、微软Azure的AI基础设施均采用此路线。

2020–2023
集合通信感知网络设计

随着GPT-3(2020)、PaLM(2022)等千亿参数模型的训练,集群规模扩展到数千至数万GPU,网络故障成为训练中断的主要原因。Google在2022年发布的关于LLM训练基础设施的论文中披露:在数千TPU的训练任务中,硬件故障(包括网络故障)导致的中断频率约为每天1-2次,每次中断需要数十分钟恢复。传统TCP的单路径传输在此场景下有两个致命缺陷:①单条链路故障导致整个训练任务阻塞;②重传机制的延迟对同步训练的barrier操作(如AllReduce的同步点)造成长尾延迟放大。NVIDIA的Spectrum-X和Meta的RDMA网络工程实践开始探索多路径传输与快速故障切换的结合。

2024–2025
MRC协议与开放标准化

OpenAI通过OCP(Open Compute Project)发布的多路径可靠连接(Multi-path Reliable Connection, MRC)协议代表了这一演进的最新节点。MRC的核心工程哲学是:将可靠性从单条连接的属性提升为路径集合的属性——即使单条路径发生故障,连接级别的可靠性通过路径切换维持,对上层集合通信库(NCCL/RCCL)透明。这与TCP的可靠性设计哲学形成对比:TCP在单路径上通过重传保证可靠性,而MRC在多路径上通过冗余保证可靠性,前者的代价是延迟,后者的代价是带宽利用率(需要维护多条路径的状态)。

核心思想
AI训练网络协议的本质问题是:如何在有损、多路径的以太网上,为同步集合通信提供接近InfiniBand的低延迟、高带宽和高可靠性——核心矛盾是"以太网的统计复用设计哲学"与"AI训练的确定性同步需求"之间的根本冲突。
数学结构

AllReduce的通信复杂度分析是理解网络协议选型的数学基础。 Ring-AllReduce(Baidu 2017)的通信量分析:设 $N$ 个节点,每个节点持有大小为 $M$ 的梯度张量,Ring-AllReduce分两阶段: Reduce-Scatter阶段:每个节点发送 $\frac{M}{N}$ 数据,共 $N-1$ 轮,总发送量 $= M \cdot \frac{N-1}{N}$ AllGather阶段:同上,总发送量 $= M \cdot \frac{N-1}{N}$ 总通信量 $= 2M \cdot \frac{N-1}{N} \approx 2M$(与 $N$ 无关),这是Ring-AllReduce的核心优势。 网络故障对训练时间的影响模型:设训练步骤时间为 $t_{step}$,故障率为 $\lambda$(次/小时),每次故障恢复时间为 $t_{recover}$,则有效训练吞吐量: $$\eta = \frac{1}{1 + \lambda \cdot t_{recover} / 3600}$$ 当 $\lambda = 2$ 次/天,$t_{recover} = 30$ 分钟时,$\eta \approx 0.958$,即约4%的算力浪费在故障恢复上。MRC通过将 $t_{recover}$ 从分钟级降至秒级(路径切换),可将 $\eta$ 提升至 $>0.999$。 PFC死锁的图论条件:PFC死锁当且仅当网络中存在循环暂停依赖图(Cyclic Pause Dependency Graph),即存在节点序列 $v_1 \to v_2 \to \cdots \to v_k \to v_1$,使得每个节点都在等待下一个节点释放缓冲区。DCQCN通过ECN提前触发速率降低,在PFC触发前消解拥塞,从而打破死锁形成条件。

工作机制

MRC等AI训练网络协议的工程设计围绕一个核心逻辑展开:在保持对上层集合通信库透明的前提下,将网络可靠性从"单连接重传"升级为"多路径冗余切换",同时通过拥塞控制避免无损网络的死锁陷阱。

Step 1无损网络基础层构建

在物理和链路层,通过PFC(Priority Flow Control,IEEE 802.1Qbb)实现逐跳流量控制:当下游节点缓冲区接近满时,向上游发送PAUSE帧,上游暂停发送。为什么不用TCP的丢包重传? RDMA的零拷贝语义要求数据直接写入目标内存,一旦丢包,接收方无法知道哪段内存需要重写,Go-Back-N重传会导致吞吐量从线速崩溃到接近零(实测在1%丢包率下RoCE吞吐量下降>50%)。关键工程细节:PFC需要配置足够大的缓冲区(headroom buffer)以吸收PAUSE帧传播延迟期间的在途数据,计算公式为 $B_{headroom} = 2 \times RTT \times BW / 8$,对100GbE、RTT=5μs的链路约需125KB。

Step 2端到端拥塞控制(DCQCN)

仅靠PFC无法防止死锁,需要在端到端层面主动降速。DCQCN在交换机上启用ECN标记:当队列深度超过阈值时,对数据包打ECN标记;接收方将ECN信息通过CNP(Congestion Notification Packet)反馈给发送方;发送方按DCTCP算法降低发送速率。为什么不直接用DCTCP? DCTCP基于TCP,有内核协议栈开销;DCQCN将拥塞控制逻辑下沉到RDMA网卡(RNIC)硬件,延迟从微秒降至纳秒级。工程陷阱:ECN阈值设置过低会导致过度降速,过高会导致PFC触发,需要根据集群规模和流量模式仔细调参。

Step 3多路径传输与负载均衡

传统ECMP对大象流(AI训练中的AllReduce流)的哈希碰撞问题,通过以下方案解决:①ECMP+流量切片:将单条RDMA QP(Queue Pair)的流量切分为多个子流,分配不同的UDP源端口,使ECMP哈希到不同路径;②自适应路由(Adaptive Routing):交换机实时感知各路径队列深度,动态调整转发决策(NVIDIA Spectrum系列交换机支持此特性)。MRC在此基础上更进一步:在连接层维护多条活跃路径,当某条路径发生故障时,在RTT时间内完成路径切换,对NCCL等上层库透明。关键工程权衡:多路径状态维护增加了RNIC的内存开销(每条QP需要维护多个路径状态),在万卡集群中这一开销不可忽视。

Step 4集合通信库与网络协议的协同设计

NCCL(NVIDIA Collective Communication Library)等集合通信库需要与网络协议协同设计才能发挥最大效能。关键协同点:①NCCL的AllReduce算法选择(Ring vs Tree vs 2D-Torus)需要根据网络拓扑(Fat-Tree vs Dragonfly)调整;②NCCL的chunk size影响网络利用率——过小的chunk导致消息头开销占比高,过大的chunk增加流水线气泡;③在MRC场景下,NCCL需要感知路径切换事件,避免在路径切换期间发起新的集合通信操作。Meta开源的FBGEMM和字节跳动的BytePS均在此层面做了深度定制。

Step 5故障检测与快速恢复

AI训练对网络故障的容忍时间窗口极短:在同步训练中,任何一个节点的网络故障都会导致整个训练任务在barrier处阻塞。MRC的故障检测机制:①心跳包检测(100ms级);②路径质量监控(基于RTT和丢包率的连续评估);③故障触发后的快速路径切换(目标<1个RTT,约5-10μs)。工程实现细节:路径切换需要原子性地更新RNIC的路径表,同时通知对端,这要求RNIC固件和驱动的深度配合,是MRC相比传统MPTCP(毫秒级切换)的核心工程优势。

长远价值

这套网络协议工程体系直接支撑了当前最大规模AI训练集群的运行。OpenAI Stargate、Meta的AI Research SuperCluster、Google的TPU Pod均在不同程度上采用了上述技术组合。NCCL的AllReduce优化使GPT-4规模的训练成为可能;DCQCN的工程实践被写入IEEE和OCP标准。随着模型规模持续增长(万亿参数模型需要数万GPU),网络成为继算力之后最关键的基础设施瓶颈,这套工程体系的价值将持续放大。

前沿动向

当前开放问题:①In-network Computing——将AllReduce的Reduce操作下沉到交换机ASIC执行(Mellanox SwitchIB已有原型),可将AllReduce延迟降低50%;②光网络集成——硅光子交换机的引入可消除电光转换延迟,但与现有RDMA协议栈的集成仍是工程难题;③异构集群网络——CPU-GPU-NPU混合集群的集合通信协议统一;④无损网络的形式化验证——如何证明特定拓扑和配置下不存在PFC死锁。

往期讲解档案 88 个知识点

2026年05月05日对抗解纠缠说话人验证Speaker DisentanglementAdversarial TrainingCross-lingual Verification
2026年05月05日LLM推理为何用语言Chain-of-ThoughtLatent ReasoningToken Space
2026年05月01日跨架构知识蒸馏原理Cross-Architecture DistillationDiffusion LMAutoregressive Teacher
2026年05月01日AI评估计算瓶颈工程LLM Evaluation InfrastructureBenchmark SaturationEval Compute Bottleneck
2026年04月29日平衡传输语音增强Schrödinger BridgeStochastic Differential EquationSpeech Enhancement
2026年04月29日深度学习理论形成Deep Learning TheoryLoss LandscapeNeural Tangent Kernel
2026年04月28日语义进度函数原理Semantic Progress FunctionDiffusion TrajectoryNonlinear Denoising
2026年04月28日大模型OCR选型认知OCR BenchmarkModel Selection BiasCost-Performance Tradeoff
2026年04月27日说话人验证核心原理Speaker Verificationd-vectorECAPA-TDNN
2026年04月27日GPU核函数语言选型GPU Kernel EngineeringCuTe DSLCUTLASS
2026年04月26日时长控制TTS原理Duration ModelingProsody ControlAutoregressive TTS
2026年04月26日AI研究价值评估困境Research EvaluationPublication BiasPeer Review
2026年04月25日全双工对话建模原理Full-Duplex DialogueTurn-TakingVoice Activity Detection
2026年04月25日流式TTS文本规范化Text NormalizationStreaming TTSInverse Text Normalization
2026年04月24日离散扩散语言模型原理Discrete DiffusionMasked Diffusion Language ModelAbsorbing Diffusion
2026年04月24日跟进ML研究的认知工程Information OverloadResearch TriageSpaced Repetition
2026年04月23日一致性正则化ASR原理Consistency RegularizationUnified ASRTransducer
2026年04月23日流式TTS文本规范化工程Text NormalizationStreaming TTSInverse Text Normalization
2026年04月22日神经编码器伪影检测Neural Audio CodecArtifact DetectionForensic Residual
2026年04月22日AI研究复现危机工程Reproducibility CrisisML EngineeringExperimental Rigor
2026年04月21日扩散SNR偏差校正原理Signal-to-Noise RatioDiffusion Timestep BiasScore Matching
2026年04月21日论文复现危机根治工程Reproducibility CrisisAblation StudyExperimental Rigor
2026年04月20日音频时序定位原理Temporal GroundingAudio Event DetectionCross-modal Alignment
2026年04月20日论文复现危机根因Reproducibility CrisisBenchmark OverfittingEvaluation Validity
2026年04月19日流匹配对齐原理Flow Matching AlignmentReward Gradient BackpropagationTrajectory Optimization
2026年04月19日分布式训练任务编排Distributed Training OrchestrationCluster SchedulingFault Tolerance
2026年04月18日最优传输信号融合Optimal TransportWasserstein BarycenterTime-Frequency Resolution
2026年04月18日分布式训练任务调度Distributed Training OrchestrationJob SchedulingCluster Resource Management
2026年04月17日扩散语音识别原理Masked Diffusion Language ModelDiscrete DiffusionASR Decoding
2026年04月17日Mel尺度跨文化偏差Mel ScalePsychoacousticsCultural Bias
2026年04月16日音频水印对抗原理Audio WatermarkingSemi-FragilePsychoacoustic Masking
2026年04月16日推测解码草稿树工程Speculative DecodingDraft TreeBlock Diffusion
2026年04月15日对抗流模型原理Continuous Normalizing FlowAdversarial TrainingFlow Matching
2026年04月15日代理状态可观测性工程Agent ObservabilityDistributed TracingState Machine Debugging
2026年04月14日过程奖励模型原理Process Reward ModelStep-level SupervisionReasoning Chain
2026年04月13日离散令牌音源分离Discrete Token ModelingSource SeparationConditional Generation
2026年04月13日超算API工程哲学Distributed Training OrchestrationSupercomputer API DesignFault Tolerance
2026年04月12日信息瓶颈原理演进Information BottleneckVariational IBDisentanglement
2026年04月12日Safetensors格式工程哲学SafetensorsModel SerializationMemory-Mapped IO
2026年04月11日归一化层演进原理Layer NormalizationRMS NormalizationBatch Normalization
2026年04月11日GEMM自调优后端工程GEMM AutotuningTorchInductorCuteDSL
2026年04月10日多令牌预测原理Multi-Token PredictionSpeculative DecodingMedusa Heads
2026年04月10日ML从业者认知校准Calibration BiasCapability IllusionBenchmark Overfitting
2026年04月09日编码器-解码器LM原理Encoder-Decoder LMCross-Attention ConditioningSequence-to-Sequence
2026年04月09日torch.compile归一化优化torch.compileLayerNormRMSNorm
2026年04月08日KV缓存压缩原理KV Cache CompressionRoPE Position EncodingAttention Score Estimation
2026年04月08日音效基础模型工程Sound Effect GenerationFoundation ModelFoley Synthesis
2026年04月07日可验证奖励强化学习Verifiable RewardRLVRProcess Reward Model
2026年04月07日LLM技能退化认知机制Cognitive OffloadingSkill AtrophyDesirable Difficulty
2026年04月06日音素可解释说话人验证Phoneme-aware Speaker VerificationInterpretable BiometricsLocal Acoustic Evidence
2026年04月06日音频幻觉攻击评估Hallucination AttackAudio Language Model ReliabilityAdversarial Probing
2026年04月05日潜在空间推理原理Latent Space ReasoningContinuous RepresentationToken-Free Inference
2026年04月05日mRNA模型极低成本训练Biology Foundation ModelCross-Species TransferLow-Budget Training
2026年04月04日编码器-解码器TTS原理Encoder-Decoder TTSText ConditioningPositional Capacity
2026年04月04日大模型训练的MXFP8工程MXFP8MicroscalingMixed Precision Training
2026年04月03日在线知识蒸馏原理Online DistillationKnowledge TransferStudent-Teacher
2026年04月03日MoE专家并行调度工程Expert ParallelismMixture of ExpertsAll-to-All Communication
2026年04月02日波形潜空间扩散TTSwaveform latent diffusionnon-autoregressive TTSlatent space acoustic modeling
2026年04月02日波形隐空间扩散原理waveform latent spacediffusion TTSVAE audio codec
2026年04月02日LLM量化权重工程weight quantizationLLM compression4-bit quantization
2026年04月02日扩散语言模型离散生成Discrete DiffusionMasked Diffusion Language ModelNon-autoregressive TTS
2026年04月02日LLM后训练库工程演进RLHF engineeringPPO training stabilityreward hacking
2026年04月02日声学证据瓶颈原理Audio Evidence BottleneckAcoustic GroundingAudio Language Model
2026年04月02日状态空间模型音频建模State Space ModelMambaSelective Scan
2026年04月02日实时语音增强工程选型Real-time Speech EnhancementNoise SuppressionStreaming Inference
2026年04月02日对话上下文压缩原理Context CompressionAbstractive SummarizationCross-Attention Fusion
2026年04月02日说话人匿名化工程Speaker AnonymizationVoice ConversionStreaming Inference
2026年04月02日视听语音识别融合Audio-Visual Speech RecognitionLip ReadingViseme
2026年04月02日GPU训练吞吐加速工程MXFP8MoE TrainingExpert Parallelism
2026年04月01日熵驱动多样性生成diversity samplingtypicality biasrepulsion in latent space
2026年04月01日说话人分割工程选型speaker diarizationbenchmark methodologystreaming ASR pipeline
2026年03月31日转向检测联合建模turn-taking detectionvoice activity detectionjoint acoustic-linguistic modeling
2026年03月31日基准测试的系统性失效benchmark contaminationevaluation validityLLM judge reliability
2026年03月31日扩散模型声学生成diffusion modelscore matchingstochastic differential equation
2026年03月31日TTS开源生态竞争open-weight TTStime-to-first-audiomultilingual speech synthesis
2026年03月30日注意力机制变体演进Multi-Head AttentionGrouped Query AttentionMulti-head Latent Attention
2026年03月30日设备端语音推理架构on-device inferenceExecuTorchvoice agent pipeline
2026年03月29日混合自回归流匹配TTSautoregressive semantic tokensflow matching acoustic decoderhybrid TTS architecture
2026年03月29日NCCL超时诊断方法论NCCL watchdog timeoutdistributed training debuggingcollective communication
2026年03月29日混合架构音频表示Mambastate space modelaudio representation learning
2026年03月29日DeepSeek预训练加速工程MXFP8 trainingexpert parallelismMoE pretraining
2026年03月27日说话人验证度量学习speaker verificationmetric learningcurriculum learning
2026年03月27日MX浮点格式加速训练MXFP8microscalingmixed precision training
2026年03月26日TTS模型极限压缩model compressionknowledge distillationTTS on-device
2026年03月26日小模型极限压缩哲学model compressionknowledge distillationquantization
2026年03月25日流匹配生成原理flow matchingrectified flowODE
2026年03月25日神经音频编解码器neural audio codecresidual vector quantizationEnCodec
2026年03月25日推测解码加速推理speculative decodingdraft modeltoken verification