提出FireRedASR2S系统,集成ASR、VAD、LID和标点预测四个模块的统一管道。所有模块在评估基准上均达到最先进性能,为工业应用提供完整解决方案。
提出Dr. SHAP-AV框架,使用Shapley值分析音视频语音识别中的模态贡献。通过在六个模型和两个基准上的实验,揭示模型如何平衡声学和视觉信息。
提出SoulX-Duplug,解决全双工语音交互中的训练数据获取困难、灾难性遗忘和可扩展性限制等挑战,实现类人实时对话。
提出Affectron框架,学习多样化且上下文对齐的非言语发声(如笑声、叹气),增强情感语音合成中情感线索的表达。
提出DiFlowDubber,采用离散流匹配实现视频自动配音,通过跨模态对齐和同步生成富有表现力的韵律和精确的唇形同步。
提出基于强化学习的音视频语音增强框架,由LLM引导优化目标,改进感知质量和可解释性,超越传统SI-SNR和MSE指标。
提出三分类框架和对数似然比方法,在单一网络中集成说话人验证和反欺骗,改进传统双编码器方案的性能和可扩展性。
发布包含8972小时播客音频的Tagarela数据集,专为训练葡萄牙语自动语音识别和文本转语音系统而设计,填补资源空白。
提出NV-Bench,首个基于功能分类法的非言语发声合成基准,将其视为交流行为而非声学伪影,提供标准化评估指标。
研究非规范语音(如构音障碍语音)的个性化ASR,探索说话人无关自适应作为初始化先验的有效性,改进微调性能。
发布PhonemeDF数据集,包含TTS和语音转换生成的合成语音,用于评估音频深度伪造检测和自然度,应对AI生成语音威胁。
提出考虑韵律、情感和口语特性的语音对话奖励模型,弥补模态差异和口语性差异,超越纯文本语义。
提出WhispSynth,通过高保真生成框架构建大规模多语言耳语语料库,集成扩散模型解决低幅度耳语的录制困难。
研究语音增强对音频深度伪造检测的影响,评估在噪声环境下TTS和语音转换攻击对说话人验证系统的威胁。
发布PARSA-Bench,首个评估大型音频语言模型在波斯语言和文化上表现的基准,涵盖诗歌、传统音乐和代码混合。
发布CodecMOS-Accent数据集,包含4000个神经音频编码器重合成和LLM-TTS样本,用于评估非标准口音语音的质量。
提出首尔世界模型(SWM),首个以真实城市为基础的城市规模世界模型。与合成虚拟环境的生成模型不同,SWM将自回归视频生成锚定在真实城市Seoul,实现真实环境的仿真渲染。
提出OmniForcing框架,首次将离线双流双向扩散模型蒸馏为高保真流式自回归模型,克服双向注意力依赖导致的高延迟问题,实现实时音视频联合生成。
首次探索全景相机在可交互性预测中的应用。相比传统针孔相机的狭窄视场和碎片化观察,全景视角提供完整的环境上下文,增强具身AI中感知与动作的桥接。
研究如何最优利用预训练大语言模型进行语音识别。比较声学模型与LLM的紧密集成("语音LLM")与传统浅融合方法,分析不同标签单元的影响。
针对基于LLM的文本转语音系统中自回归Transformer的二次计算复杂度问题,提出混合Mamba-Transformer骨干网络,在保持全局上下文的同时实现线性时间复杂度。
提出通过强化学习进行代码生成的对抗演化方法。解决单一模型中代码与测试生成的固有困境,克服静态奖励无法适应模型改进的问题。
提出将Git提交信息作为结构化知识协议,保留代码变更背后的推理逻辑、约束条件和决策上下文,防止AI编码智能体时代机构知识的流失。
基于宝可梦多智能体对战系统构建大规模决策研究基准。同时压力测试部分可观性、博弈论推理和长期规划三个前沿AI难题。
研究如何增强视觉-语言-动作(VLA)模型的视觉能力以改进机器人操纵中的动作预测。强调准确解释和整合语言条件下的视觉观察的重要性。
针对视觉文本渲染中的字形精准性问题,提出区域分组直接偏好优化方法,改善复杂或域外字符的字形准确度。
针对视频扩散Transformer可控生成和编辑中配对数据稀缺问题,提出无视频调优方法,扩展图像控制编辑技术到视频领域。
改进扩散模型在遥感布局转图像合成中的应用,通过多样化边界引导实现更精细的控制,严格遵守边界框约束。
实现从单张图像进行逼真人物新视角合成,无需复杂多摄像头设置。改进对面部和手部等复杂区域的几何理解和渲染保真度。
分析当前AI模型自主学习的局限,提出受人类和动物认知启发的学习架构,整合观察学习和行为学习,灵活切换学习模式。
结合神经辐射场的高保真和高斯溅射的实时性,提出交集感知方法指导神经场评估,克服现有混合方案的局限。
开发振荡色散成像光谱仪(ODIS),首次实现近100%光通量利用,改善低光条件下的计算光谱成像重建质量。
研究条件流匹配中数据与噪声的耦合方式对图像视频生成性能的影响,改进最优传输方法以加速推理。
系统研究训练数据集多样性的定义、度量方法及其对模型鲁棒性的影响,填补算法开发中多样性量化的空白。
提出统一框架从稀疏视图和单目视频进行仿真就绪的人-场景交互3D重建,通过物理约束消除感知与仿真的差距。
提出无需训练的加速框架,通过解耦串行空间处理实现SAM 3D Body的实时推理,达到交互帧率。
缺失摘要
提出AI代码修改方法,自动化大规模代码库中的安全相关API更新,解决移动安全漏洞的批量修复问题。
工业AI、数字孪生和AI物理引擎赋能企业加速产品、流程和设施的设计、仿真和优化。
气候与可持续发展
生成式AI
Wayfair利用OpenAI模型改进电商支持和产品目录准确性,自动化工单分类,大规模增强数百万产品属性。
Cat 306 CR迷你挖掘机重量不足8吨,可装入标准集装箱。这是承包商在工地空间紧张时的选择:地基附近的公用沟渠、密集社区的地下室挖掘。驾驶室大小如电话亭。操作员坐在[...]
游戏开发团队在更大的世界、更复杂的管道和更分散的团队中工作。许多工作室仍依赖固定的桌面GPU硬件进行关键生产工作。在旧金山GDC大会上,NVIDIA展示了整合分布式[...]
NVIDIA与思维机器实验室宣布多年战略合作,部署至少1吉瓦NVIDIA Vera Rubin系统支持前沿模型训练和可定制AI规模化平台。部署计划于明年初启动。该合作[...]