Special Research Report
AI  研 报
Research Digest · 人工智能学术前沿追踪 · 2026年03月17日
36
arXiv 论文
10
机构博客
6
🤗 HF 精选
16
🎧 音频语音
4
💬 社区讨论
🎵 语音与音频16🧠 大语言模型10👁 视觉生成10⚙ 工程进展10💬 社区讨论4
🤗 HF 精选 + 点赞数 🎧 音频关键词加权(你的专业领域) 顶级机构加权 评分 = HF点赞×3 + HF收录+20 + 机构+5 + 音频+20/+10 + 时效0~10
🎵
语音与音频
SPEECH & AUDIO
16 篇
arXiv 🤗 4♥ arXiv · eess.AS 03-11
FireRedASR2S:工业级一体化自动语音识别系统
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

提出FireRedASR2S系统,集成ASR、VAD、LID和标点预测四个模块的统一管道。所有模块在评估基准上均达到最先进性能,为工业应用提供完整解决方案。

arXiv 🤗 2♥ arXiv · eess.AS 03-12
Dr. SHAP-AV:音视频语音识别中的Shapley属性模态贡献解析
Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

提出Dr. SHAP-AV框架,使用Shapley值分析音视频语音识别中的模态贡献。通过在六个模型和两个基准上的实验,揭示模型如何平衡声学和视觉信息。

arXiv MIT arXiv · eess.AS 03-16
SoulX-Duplug:实时全双工语音对话的即插即用流状态预测模块
SoulX-Duplug: Plug-and-Play Streaming State Prediction Module for Realtime Full-Duplex Speech Conversation

提出SoulX-Duplug,解决全双工语音交互中的训练数据获取困难、灾难性遗忘和可扩展性限制等挑战,实现类人实时对话。

arXiv MIT arXiv · cs.SD 03-15
Affectron:具有情感对齐非言语发声的情感语音合成
Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations

提出Affectron框架,学习多样化且上下文对齐的非言语发声(如笑声、叹气),增强情感语音合成中情感线索的表达。

arXiv MIT arXiv · cs.SD 03-15
DiFlowDubber:基于离散流匹配的跨模态对齐视频配音
DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

提出DiFlowDubber,采用离散流匹配实现视频自动配音,通过跨模态对齐和同步生成富有表现力的韵律和精确的唇形同步。

arXiv MIT arXiv · eess.AS 03-14
LLM引导强化学习的音视频语音增强
LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement

提出基于强化学习的音视频语音增强框架,由LLM引导优化目标,改进感知质量和可解释性,超越传统SI-SNR和MSE指标。

arXiv MIT arXiv · eess.AS 03-14
基于三分类和对数似然比的抗欺骗说话人验证
Integrated Spoofing-Robust Automatic Speaker Verification via a Three-Class Formulation and LLR

提出三分类框架和对数似然比方法,在单一网络中集成说话人验证和反欺骗,改进传统双编码器方案的性能和可扩展性。

arXiv arXiv · cs.CL 03-16
Tagarela:葡萄牙播客语音数据集
Tagarela - A Portuguese speech dataset from podcasts

发布包含8972小时播客音频的Tagarela数据集,专为训练葡萄牙语自动语音识别和文本转语音系统而设计,填补资源空白。

arXiv arXiv · eess.AS 03-16
NV-Bench:非言语发声合成基准测试
NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation

提出NV-Bench,首个基于功能分类法的非言语发声合成基准,将其视为交流行为而非声学伪影,提供标准化评估指标。

arXiv arXiv · cs.SD 03-16
非规范语音识别的两阶段自适应:重新审视个性化的说话人无关初始化
Two-Stage Adaptation for Non-Normative Speech Recognition: Revisiting Speaker-Independent Initialization for Personalization

研究非规范语音(如构音障碍语音)的个性化ASR,探索说话人无关自适应作为初始化先验的有效性,改进微调性能。

arXiv arXiv · cs.SD 03-16
PhonemeDF:音频深度伪造检测和自然度评估合成语音数据集
PhonemeDF: A Synthetic Speech Dataset for Audio Deepfake Detection and Naturalness Evaluation

发布PhonemeDF数据集,包含TTS和语音转换生成的合成语音,用于评估音频深度伪造检测和自然度,应对AI生成语音威胁。

arXiv arXiv · cs.CL 03-16
考虑模态和口语性的语音对话奖励建模与基准测试
Modeling and Benchmarking Spoken Dialogue Rewards with Modality and Colloquialness

提出考虑韵律、情感和口语特性的语音对话奖励模型,弥补模态差异和口语性差异,超越纯文本语义。

arXiv arXiv · cs.SD 03-16
WhispSynth:通过数据策展和无音高生成框架扩展多语言耳语语料库
WhispSynth: Scaling Multilingual Whisper Corpus through Real Data Curation and A Novel Pitch-free Generative Framework

提出WhispSynth,通过高保真生成框架构建大规模多语言耳语语料库,集成扩散模型解决低幅度耳语的录制困难。

arXiv arXiv · cs.SD 03-16
语音增强对噪声环境下音频深度伪造检测的影响研究
Investigating the Impact of Speech Enhancement on Audio Deepfake Detection in Noisy Environments

研究语音增强对音频深度伪造检测的影响,评估在噪声环境下TTS和语音转换攻击对说话人验证系统的威胁。

arXiv arXiv · cs.SD 03-15
PARSA-Bench:波斯语音言语模型综合基准测试
PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark

发布PARSA-Bench,首个评估大型音频语言模型在波斯语言和文化上表现的基准,涵盖诗歌、传统音乐和代码混合。

arXiv arXiv · eess.AS 03-15
CodecMOS-Accent:跨英语口音的神经编码器重合成和TTS语音MOS基准
CodecMOS-Accent: A MOS Benchmark of Resynthesized and TTS Speech from Neural Codecs Across English Accents

发布CodecMOS-Accent数据集,包含4000个神经音频编码器重合成和LLM-TTS样本,用于评估非标准口音语音的质量。

🧠
大语言模型
LARGE LANGUAGE MODELS
10 篇
arXiv 🤗 31♥MIT arXiv · cs.CV 03-16
首尔世界模型:真实城市规模的世界仿真
Grounding World Simulation Models in a Real-World Metropolis

提出首尔世界模型(SWM),首个以真实城市为基础的城市规模世界模型。与合成虚拟环境的生成模型不同,SWM将自回归视频生成锚定在真实城市Seoul,实现真实环境的仿真渲染。

arXiv 🤗 20♥ arXiv · cs.SD 03-12
OmniForcing:实时联合音视频生成框架
OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

提出OmniForcing框架,首次将离线双流双向扩散模型蒸馏为高保真流式自回归模型,克服双向注意力依赖导致的高延迟问题,实现实时音视频联合生成。

arXiv 🤗 4♥ arXiv · cs.CV 03-16
全景视角下的可交互性预测
Panoramic Affordance Prediction

首次探索全景相机在可交互性预测中的应用。相比传统针孔相机的狭窄视场和碎片化观察,全景视角提供完整的环境上下文,增强具身AI中感知与动作的桥接。

arXiv 🎧 音频相关MIT arXiv · eess.AS 03-16
大语言模型与语音识别:集成vs融合
LLMs and Speech: Integration vs. Combination

研究如何最优利用预训练大语言模型进行语音识别。比较声学模型与LLM的紧密集成("语音LLM")与传统浅融合方法,分析不同标签单元的影响。

arXiv 🎧 音频相关MIT arXiv · eess.AS 03-12
MamTra:语音合成的混合Mamba-Transformer骨干网络
MamTra: A Hybrid Mamba-Transformer Backbone for Speech Synthesis

针对基于LLM的文本转语音系统中自回归Transformer的二次计算复杂度问题,提出混合Mamba-Transformer骨干网络,在保持全局上下文的同时实现线性时间复杂度。

arXiv MIT arXiv · cs.CL 03-16
Code-A1:通过强化学习的代码与测试LLM对抗演化
Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning

提出通过强化学习进行代码生成的对抗演化方法。解决单一模型中代码与测试生成的固有困境,克服静态奖励无法适应模型改进的问题。

arXiv MIT arXiv · cs.AI 03-16
Lore:将Git提交信息转化为AI编码智能体的结构化知识协议
Lore: Repurposing Git Commit Messages as a Structured Knowledge Protocol for AI Coding Agents

提出将Git提交信息作为结构化知识协议,保留代码变更背后的推理逻辑、约束条件和决策上下文,防止AI编码智能体时代机构知识的流失。

arXiv MIT arXiv · cs.AI 03-16
PokeAgent挑战:大规模竞争性长上下文学习基准
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

基于宝可梦多智能体对战系统构建大规模决策研究基准。同时压力测试部分可观性、博弈论推理和长期规划三个前沿AI难题。

arXiv MIT arXiv · cs.CV 03-16
视觉-语言-动作模型的视觉基础表示增强
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

研究如何增强视觉-语言-动作(VLA)模型的视觉能力以改进机器人操纵中的动作预测。强调准确解释和整合语言条件下的视觉观察的重要性。

arXiv MIT arXiv · cs.CV 03-16
GlyphPrinter:区域分组直接偏好优化的字形精准视觉文本渲染
GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

针对视觉文本渲染中的字形精准性问题,提出区域分组直接偏好优化方法,改善复杂或域外字符的字形准确度。

👁
视觉生成
VISION & GENERATION
10 篇
arXiv 🤗 9♥MIT arXiv · cs.CV 03-16
ViFeEdit:无视频调优的视频扩散Transformer编辑器
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

针对视频扩散Transformer可控生成和编辑中配对数据稀缺问题,提出无视频调优方法,扩展图像控制编辑技术到视频领域。

arXiv MIT arXiv · cs.AI 03-16
RSGen:多样化边界引导的布局驱动遥感图像生成
RSGen: Enhancing Layout-Driven Remote Sensing Image Generation with Diverse Edge Guidance

改进扩散模型在遥感布局转图像合成中的应用,通过多样化边界引导实现更精细的控制,严格遵守边界框约束。

arXiv MIT arXiv · cs.CV 03-16
单图像实时人物正面视图合成
Real-Time Human Frontal View Synthesis from a Single Image

实现从单张图像进行逼真人物新视角合成,无需复杂多摄像头设置。改进对面部和手部等复杂区域的几何理解和渲染保真度。

arXiv Meta arXiv · cs.AI 03-16
AI系统自主学习的认知科学启示与解决方案
Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science

分析当前AI模型自主学习的局限,提出受人类和动物认知启发的学习架构,整合观察学习和行为学习,灵活切换学习模式。

arXiv MIT arXiv · cs.CV 03-16
IRIS:交集感知的射线隐式可编辑场景表示
IRIS: Intersection-aware Ray-based Implicit Editable Scenes

结合神经辐射场的高保真和高斯溅射的实时性,提出交集感知方法指导神经场评估,克服现有混合方案的局限。

arXiv MIT arXiv · cs.CV 03-16
振荡色散光谱成像的最大光通量
Oscillating Dispersion for Maximal Light-throughput Spectral Imaging

开发振荡色散成像光谱仪(ODIS),首次实现近100%光通量利用,改善低光条件下的计算光谱成像重建质量。

arXiv MIT arXiv · cs.CV 03-16
改进数据-噪声耦合的流模型快速推理
Faster Inference of Flow-Based Generative Models via Improved Data-Noise Coupling

研究条件流匹配中数据与噪声的耦合方式对图像视频生成性能的影响,改进最优传输方法以加速推理。

arXiv Meta arXiv · cs.CV 03-16
数据集多样性度量及其对分类模型的影响
Dataset Diversity Metrics and Impact on Classification Models

系统研究训练数据集多样性的定义、度量方法及其对模型鲁棒性的影响,填补算法开发中多样性量化的空白。

arXiv arXiv · cs.CV 03-16
HSImul3R:物理约束的人-场景交互仿真就绪重建
HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

提出统一框架从稀疏视图和单目视频进行仿真就绪的人-场景交互3D重建,通过物理约束消除感知与仿真的差距。

arXiv arXiv · cs.CV 03-16
Fast SAM 3D Body:实时全身人体网格恢复的加速框架
Fast SAM 3D Body: Accelerating SAM 3D Body for Real-Time Full-Body Human Mesh Recovery

提出无需训练的加速框架,通过解耦串行空间处理实现SAM 3D Body的实时推理,达到交互帧率。

工程进展
ENGINEERING ADVANCES
10 篇
博客 Hugging Face Blog Hugging Face Blog 03-16
首个医疗机器人数据集和医疗机器人基础物理AI模型
The First Healthcare Robotics Dataset and Foundational Physical AI Models for Healthcare Robotics

缺失摘要

博客 Meta Meta Engineering 03-13
安全优先Android应用的AI代码修改工具
Patch Me If You Can: AI Codemods for Secure-by-Default Android Apps

提出AI代码修改方法,自动化大规模代码库中的安全相关API更新,解决移动安全漏洞的批量修复问题。

博客 NVIDIA Blog NVIDIA Blog 03-12
进入全能宇宙:工业AI和数字孪生加速跨行业设计制造
Into the Omniverse: How Industrial AI and Digital Twins Accelerate Design, Engineering and Manufacturing Across Industries

工业AI、数字孪生和AI物理引擎赋能企业加速产品、流程和设施的设计、仿真和优化。

博客 Google Google Research 03-12
利用AI驱动的闪洪预报保护城市
Protecting cities with AI-driven flash flood forecasting

气候与可持续发展

博客 Google Google Research 03-12
Groundsource:用Gemini将新闻报道转化为数据
Introducing Groundsource: Turning news reports into data with Gemini

气候与可持续发展

博客 Google Google Research 03-11
探索对话式诊断AI在真实临床研究中的可行性
Exploring the feasibility of conversational diagnostic AI in a real-world clinical study

生成式AI

博客 OpenAI OpenAI Blog 03-11
Wayfair借助OpenAI提升目录准确性和支持速度
Wayfair boosts catalog accuracy and support speed with OpenAI

Wayfair利用OpenAI模型改进电商支持和产品目录准确性,自动化工单分类,大规模增强数百万产品属性。

博客 NVIDIA Blog NVIDIA Blog 03-10
开源模型引领AI繁荣,NVIDIA Jetson赋能边缘计算
As Open Models Spark AI Boom, NVIDIA Jetson Brings It to Life at the Edge

Cat 306 CR迷你挖掘机重量不足8吨,可装入标准集装箱。这是承包商在工地空间紧张时的选择:地基附近的公用沟渠、密集社区的地下室挖掘。驾驶室大小如电话亭。操作员坐在[...]

博客 NVIDIA Blog NVIDIA Blog 03-10
NVIDIA用RTX PRO服务器虚拟化游戏开发
NVIDIA Virtualizes Game Development With RTX PRO Server

游戏开发团队在更大的世界、更复杂的管道和更分散的团队中工作。许多工作室仍依赖固定的桌面GPU硬件进行关键生产工作。在旧金山GDC大会上,NVIDIA展示了整合分布式[...]

博客 NVIDIA Blog NVIDIA Blog 03-10
NVIDIA与思维机器实验室宣布吉瓦级战略合作伙伴关系
NVIDIA and Thinking Machines Lab Announce Long-Term Gigawatt-Scale Strategic Partnership

NVIDIA与思维机器实验室宣布多年战略合作,部署至少1吉瓦NVIDIA Vera Rubin系统支持前沿模型训练和可定制AI规模化平台。部署计划于明年初启动。该合作[...]

💬
社区讨论
HN & REDDIT COMMUNITY
4 篇
▲ Hacker News 03-10 ▲ 240 pts · 152 comments
Launch HN: RunAnywhere (YC W26) – Faster AI Inference on Apple Silicon
▲ Hacker News 03-11 ▲ 155 pts · 54 comments
Show HN: Open-source browser for AI agents
▲ Hacker News 03-13 ▲ 93 pts · 62 comments
Show HN: Context Gateway – Compress agent context before it hits the LLM
▲ Hacker News 03-12 ▲ 70 pts · 36 comments
Launch HN: IonRouter (YC W26) – High-throughput, low-cost inference
← 返回简报