AI 研报 · 简报 Jae Daily · 2026年07月15日

For Speech / Audio LLM Researchers

语音大模型优先阅读

按语音大模型相关性重排：核心架构、S2S、TTS/ASR 训练与评估优先

今日语音雷达评测基准 3对话/S2S 2训练/数据 2架构/统一模型 1

必读通过强化学习解耦全双工口语模型中的对话动态 Decoupling Conversational Dynamics in Full-Duplex Spoken Models through Reinforcement Learning 价值：直接触及实时口语交互、全双工或 speech-to-speech 的核心评测/建模问题。语音大模型核心arXiv · eess.AS 必读 GigaChat Audio：时间感知大型音频语言模型 GigaChat Audio: Time-aware Large Audio Language Model 价值：涉及统一 audio-text / speech LLM 架构，可能影响语音大模型训练范式。语音大模型核心arXiv · eess.AS 可扫 Best-of-N TTS 评估受到 ASR 系列一致性的影响 Best-of-$N$ TTS Evaluation is Confounded by ASR Family Alignment 价值：关注 LLM-based TTS 的可控性、韵律或内容一致性，适合扫读方法细节。评测 · 生成/TTSarXiv · cs.SD 可扫基于 LLM 的视听语音识别的基于最佳传输的语义对齐 Optimal Transport-based Semantic Alignment for LLM-based Audio-Visual Speech Recognition 价值：暴露 ASR/TTS/S2S 评测偏差或新基准，适合作为实验设计参考。评测 · LLM相关MITarXiv · eess.AS 可扫使用 TTS 进行 L2 英语口语评估的数据增强 Data Augmentation for L2 English Speaking Assessment using TTS 价值：提供合成语音、强化学习或数据构建线索，可用于改进语音模型训练闭环。训练/数据 · 生成/TTSarXiv · eess.AS 可扫对话计时在 ASR 综合训练数据中的作用 On the Role of Conversational Timing in Synthetic Training Data for ASR 价值：提供合成语音、强化学习或数据构建线索，可用于改进语音模型训练闭环。对话/S2S · 训练/数据arXiv · eess.AS 可扫代理探索和可重用指导：通过代理引导更新信号的模块化LLM培训后范式 Proxy Exploration and Reusable Guidance: A Modular LLM Post-Training Paradigm via Proxy-Guided Update Signals 价值：提供合成语音、强化学习或数据构建线索，可用于改进语音模型训练闭环。评测 · 训练/数据HF 7♥arXiv · cs.AI 可扫小米-机器人-U0：与世界基础模型的统一体现综合 Xiaomi-Robotics-U0: Unified Embodied Synthesis with World Foundation Model 价值：暴露 ASR/TTS/S2S 评测偏差或新基准，适合作为实验设计参考。评测 · LLM相关HF 3♥MITarXiv · cs.AI

另有 2 篇传统音频/数据集/工程项已降为低优先级，仍保留在“语音与音频”中供扫读。

🎵

语音与音频

SPEECH & AUDIO

10 篇

arXiv 必读对话/S2S核心模型 arXiv · eess.AS 07-08

通过强化学习解耦全双工口语模型中的对话动态

Decoupling Conversational Dynamics in Full-Duplex Spoken Models through Reinforcement Learning

最近的全双工语音对话模型在类人交互方面取得了令人瞩目的进展，使代理能够以低延迟响应、产生反向通道并处理用户闯入。然而，对话动态的这些改进往往伴随着较弱的推理和指令跟踪能力，揭示了交互动态和智力能力之间潜在的紧张关系。在本文中，我们认为这种智能与动态的权衡并不是根本性的：对话动态可以作为独立于人类的实时决策策略来学习

→ 原文

arXiv 必读架构/统一模型核心模型 arXiv · eess.AS 07-11

GigaChat Audio：时间感知大型音频语言模型

GigaChat Audio: Time-aware Large Audio Language Model

对于音频条件LLM来说，长录音中的时间接地仍然具有挑战性。我们提出了一种时间感知音频LLM，可以在长达 120 分钟的输入中回答具有明确时间戳的问题。我们的方法使用级联管道的大规模合成监督，将周期性时间标记与连续音频令牌交织在一起。我们的模型在短期和长期基准上实现了强大的时间基础准确性，并支持时间锚定的片段描述和摘要。广泛的消融检查时间表示、标记频率、标记化和持续时间混合设计的方式

→ 原文

arXiv 可扫评测基准评测 arXiv · cs.SD 07-09

Best-of-N TTS 评估受到 ASR 系列一致性的影响

Best-of-$N$ TTS Evaluation is Confounded by ASR Family Alignment

Best-of-N (BoN) 推理通过使用自动语音识别（ASR）验证器从 $N$ 候选中进行选择，提高了零样本文本到语音的内容一致性。我们发现了一个未经充分探索的评估混淆：验证者的表面质量在很大程度上取决于哪个 ASR 系列对其进行评判。在 LibriSpeech-PC test-clean~\citep{librispeechpc} 和 F5-TTS~\citep{f5tts} 上，验证者在 Whisper、wav2vec~2.0 和 HuBERT 评估器之间的排名相反，并且同系列验证器-评估器对比跨系列对恢复了 2-3$\times$ 的预言机空间，尽管表示几乎相同

→ 原文

arXiv MIT 可扫评测基准评测 arXiv · eess.AS 07-10

基于 LLM 的视听语音识别的基于最佳传输的语义对齐

Optimal Transport-based Semantic Alignment for LLM-based Audio-Visual Speech Recognition

基于大语言模型（LLM）的视听语音识别 (LLM-AVSR) 最近通过利用互补的音频和视觉信息，在不利的声学环境中表现出了强大的鲁棒性。现有方法通常采用独立预训练的声学和视觉编码器，其输出被投影并融合为软提示，以调节 LLM 的语音识别能力。然而，大多数方法执行多模态融合，而没有明确解决音频、视觉和文本模态之间的表征差异，这可能限制了 cro 的有效性。

→ 原文

arXiv 可扫训练/数据生成/TTS arXiv · eess.AS 07-12

使用 TTS 进行 L2 英语口语评估的数据增强

Data Augmentation for L2 English Speaking Assessment using TTS

第二语言 (L2) 口语能力的自动评估依赖于大规模带注释的语音数据，与广泛使用的书面学习者语料库相比，这些数据仍然稀缺。解决这种不平衡的一个有前景的方向是使用文本到语音（TTS） (TTS) 和语音克隆将书面 L2 生成转换为合成语音。然而，书面语言和口语语言有根本的不同：自发的言语包括不流利和话语标记，而写作则更有计划性和复杂性。这就提出了一个问题：生成适合评估的合成 L2 语音需要什么？

→ 原文

arXiv 可扫对话/S2S训练/数据 arXiv · eess.AS 07-09

对话计时在 ASR 综合训练数据中的作用

On the Role of Conversational Timing in Synthetic Training Data for ASR

合成多说话者对话被广泛用于训练对话式自动语音识别（ASR）系统，但目前尚不清楚哪些时序属性使模拟数据最有用。本文将对话时间作为一个可控的训练变量来研究，而不仅仅是作为一个要复制的语料库统计数据。我们使用从多个会话语料库估计的指数倾斜族来参数化暂停和重叠时间分布，然后使用拉丁超立方采样和多目标贝叶斯 o 探索所得的四维参数空间。

→ 原文

arXiv 🤗 7♥ 可扫训练/数据评测 arXiv · cs.AI 07-13

代理探索和可重用指导：通过代理引导更新信号的模块化LLM培训后范式

Proxy Exploration and Reusable Guidance: A Modular LLM Post-Training Paradigm via Proxy-Guided Update Signals

后训练对于完善大语言模型（LLM）的特定领域功能至关重要，但现有的奖励优化和分布匹配方法将策略探索与分布对齐紧密结合在一起。这种耦合迫使直接在策略模型上进行昂贵的探索，并严重阻碍了优化信号的异步生成、重用和跨模型传输。在本文中，我们提出了代理引导更新信号传输（PUST），这是一种新颖的训练后框架，从根本上将更新信号探索与分布对齐解耦。

→ 原文

arXiv 🤗 3♥MIT 可扫评测基准评测 arXiv · cs.AI 07-13

小米-机器人-U0：与世界基础模型的统一体现综合

Xiaomi-Robotics-U0: Unified Embodied Synthesis with World Foundation Model

最近的基础图像和视频生成模型提供了很强的泛化性和可控性，但它们在具体场景中的直接应用受到多视图一致性、几何相干性和机器人具体约束的要求的限制。现有方法通常使用有限的机器人数据来调整基础模型，通常会牺牲在大规模预训练期间获得的视觉知识。我们推出了Xiaomi-Robotics-U0，这是一个用于统一具体综合的 380 亿参数多模态自回归模型。它将具身生成视为基础意象的延伸

→ 原文

arXiv MIT 可扫训练/数据MIT arXiv · cs.SD 07-09

MuScriptor：多乐器音乐转录的开放模型

MuScriptor: An Open Model for Multi-Instrument Music Transcription

现有的自动音乐转录方法通常仅限于单乐器录音，或者无法处理复杂的真实音乐混音。尽管之前的工作利用了合成训练数据，但生成的模型泛化能力很差，导致在现实的多仪器设置中很大程度上无法使用转录输出。在这项工作中，我们分析了预训练合成数据的有效性，同时将其与使用强化学习对真实音乐音频和后期训练进行微调相结合。我们进一步引入对仪器存在的条件来定制转录。最后

→ 原文

arXiv 可扫对话/S2S语音/音频 arXiv · eess.AS 07-08

全双工语音代理LALM音频判断的可靠性评估

A Reliability Assessment of LALM Audio Judges for Full-Duplex Voice Agents

我们报告了 Gemini 模型作为音频裁判的经验可靠性，直接从原始立体声波形对全双工代理对话进行评分，并在 Gemini 系列的三个模型上进行了测试：2.5 Flash、3.5 Flash 和 3.1 Pro。我们的主要证据基础使用 Gemini 2.5 Flash 作为地面实况模型，在 209 个立体声会话中针对三位经过校准的人类评估者进行了验证，在 8 个制作维度上进行评分：跨 13 个口音和条件层的 152 个全双工对话，以及 57 个对抗性缺陷注入剪辑。 Gemini 2.5 Flash 的证据在三个方面是一致的

→ 原文

🧠

大语言模型

LARGE LANGUAGE MODELS

8 篇

arXiv 🤗 49♥ 训练/数据HF精选49赞高分 arXiv · cs.MM 07-10

可扩展的语言智能视觉预训练

Scalable Visual Pretraining for Language Intelligence

大型基础模型的快速进展主要是由大规模文本语料库的预训练推动的。然而，许多形式的知识是通过视觉表示来传达的，其中图形、排版方程和页面布局携带着丰富的信息，这些信息无法仅通过文本忠实或完整地捕获。然而，当前的预训练方法通过将文档和网页等视觉丰富的资源转换为纯文本来学习语言智能，从而抛弃了这些视觉线索。本文挑战了语言模型必须经过训练的默认假设

→ 原文

arXiv 🤗 4♥ 评测基准评测HF精选4赞 arXiv · cs.CL 07-13

MET：基于理论和文化意识的多语言道德推理

MET: Theory-Grounded and Culture-Aware Multilingual Moral Reasoning

语言模型越来越多地用于跨不同语言和文化背景的道德决策，但现有的工作在三个方面忽视了多语言性：1）多语言评估基准使用直接翻译，未能适应特定文化的项目； 2）道德推理的推理时间方法依赖于静态的、以英语为中心的支架，缺乏道德理论的基础； 3）道德决策的训练方法通常需要来自更强大的模型或人类注释者的昂贵监督。我们通过三项贡献来解决这些差距。首先我们介绍一下MC

→ 原文

arXiv 🎧 音频相关MIT 低优先级传统音频LLM相关 arXiv · cs.SD 07-13

BeatEdit：作为显式编辑的符号音乐生成

BeatEdit: Symbolic Music Generation as Explicit Editing

音乐创作从根本上来说是一个修改的过程。然而，象征性音乐的生成仍然以从头开始生成完整序列的范式为主导，对选择性修改的支持有限。基于编辑的方法已被证明对于文本转换任务是有效的，但对于符号音乐来说仍然很大程度上尚未探索。我们将这种缺失追溯到表征层面：传统的基于事件的音乐编码缺乏显式音乐编辑所需的结构属性。相比之下，BEAT 编码是一种最初为自回归设计的节拍网格锚定表示形式

降权：缺少 speech/audio LLM 主线，只保留作背景参考。

→ 原文

arXiv MIT LLM相关MIT arXiv · cs.CL 07-13

温度如何塑造检索增强一代的意识形态话语？

How Temperature Shapes Ideological Discourse in Retrieval-Augmented Generation?

检索增强生成（RAG）已被越来越多地采用来减少幻觉并加强大语言模型（LLM）的事实基础。虽然人们已经探讨了检索过程中对错误的鲁棒性，但意识形态偏见对LLM输出的影响却被忽视了。例如，如果检索到的材料包含意识形态立场，RAG 可能会在其输出中传播、放大或压制此类意识形态话语。在这项研究中，我们通过研究 RAG 框架（包括意识形态话语）在LLM生成的答案中的影响来解决这个问题

→ 原文

arXiv MIT MIT arXiv · cs.CL 07-13

从表现力到样本复杂性：通过 C-RASP 为 Transformers 提供狭隘的指导

From Expressivity to Sample Complexity: Narrow Teachers for Transformers via C-RASP

对 Transformer 的理论理解对于更好地理解大语言模型（LLM）的能力和局限性至关重要。有很多工作分析基于注意力的模型的表达能力。通过提出手工权重或使用计算复杂性参数，过去的大量理论工作都试图描述哪些任务属于 Transformer 模型的假设类，哪些不属于 Transformer 模型的假设类。然而，很少有人研究此类解决方案的可学习性。在这项工作中，我们朝着这一目标取得了进展。受到最近损失状况分析的启发

→ 原文

arXiv Meta Meta arXiv · cs.CL 07-13

LLM的生产和感知：一种令牌概率方法

Production and Perception in LLMs: A Token Probability Approach

语言产生和感知之间的不对称性已在心理语言学中得到充分证明。大语言模型（LLM）是否表现出功能上类似的区别仍然是一个悬而未决的问题，特别是考虑到 LLM 依赖于相同的底层机制（下一个标记预测）来进行输入和输出处理。在这项探索性研究中，我们通过直接的令牌概率测量而不是元语言提示来操作生产感知区别。使用基本 Llama-3.1-8B 模型，我们在生产提示下生成诗歌并重新评分

→ 原文

arXiv Meta LLM相关Meta arXiv · cs.AI 07-13

思考瓶颈：严格归纳的沙漏推理

Think Through a Bottleneck: Hourglass Reasoning for Rigorous Induction

自我完善通常无法加强大型语言模型中的小样本归纳推理。提示模型明确地陈述其推断规则本身几乎没有什么作用。真正重要的是推理阶段之间在结构上强制隔离，以便信息只能以压缩的符号状态在它们之间传递。我们引入了 \textbf{Hourglass Reasoning}，它在推理阶段之间强制执行严格的上下文隔离。冻结的 LLM 充当元构造器，为每个任务构建符号编码器 - 解码器：归纳模块压缩支持示例 int

→ 原文

arXiv MIT MIT arXiv · cs.AI 07-13

交互扩展：奠定测试时计算的第三轴的基础

Interaction Scaling: Grounding the Third Axis of Test-Time Compute

在测试时花费更多计算有两种标准方法：让模型推理更长时间，或者对更多尝试进行采样并保留一次。两者都有一个隐藏的限制：它们是内部的。每个额外的标记都来自相同的冻结权重和相同的提示，因此两者都无法告诉模型任何它还不知道的信息。我们研究第三种方式，交互：模型提出一个工件，外部仪器观察它的实际行为，然后模型进行修改。每个周期都会导入一个真实的观察结果，因此互动突破了其他两个周期所遇到的天花板。我们认为单一变量控制

→ 原文

👁

视觉生成

VISION & GENERATION

6 篇

arXiv 🤗 33♥ HF精选33赞高分 arXiv · cs.CL 07-13

LightMem-Ego：日常生活中的人工智能记忆

LightMem-Ego: Your AI Memory for Everyday Life

移动和可穿戴设备上的个人人工智能助理通过视觉和音频流不断感知用户的日常生活。然而，回答有关过去经历的查询需要轻量级多模态记忆，它可以不断积累、组织和检索长期经验，这仍然具有挑战性。为了应对这一挑战，我们推出了 LightMem-Ego，这是一种用于日常生活辅助的轻量级流式多模式存储系统。该系统不断捕获以自我为中心的视觉和音频流，将它们排列在共享时间线上，并将它们组织成分层结构。

→ 原文

arXiv 🤗 3♥ HF精选3赞 arXiv · cs.CV 07-13

文本到图像个性化模型中的潜在身份调整

Latent-Identity Tuning in Text-to-Image Personalization Models

生成和编辑人脸需要高精度，因为即使很小的修改也会显着改变对象的感知身份。然而，当前基于通用文本到图像模型构建的个性化和编辑方法通常缺乏细粒度面部编辑所需的精度。我们提出了一种在文本到图像个性化模型中进行细粒度身份调整的方法。与对给定图像进行操作的标准图像编辑不同，身份调整修改特定身份的潜在表示，从而能够生成包含以下内容的多样化图像：

→ 原文

arXiv 🤗 4♥ HF精选4赞 arXiv · eess.AS 07-10

通过语音激活映射进行音素分割和识别

Phone Segmentation and Recognition through Phonological Activation Mapping

音素分割和识别本质上是相关的任务，但现代方法通常对它们进行单独建模。我们认为，语音结构已经隐藏在自监督语音模型（S3M）的表示中，人们只需要引导它们来解决这两项任务。我们利用基于 S3M 的语音激活映射 (SPAM)，它将每个 S3M 表示帧映射到语音特征激活向量，例如发声和鼻音。在SPAM之上，我们引入了两个简单但有效的轻量级、无梯度下降的预测头：识别头和

→ 原文

arXiv 🤗 1♥ HF精选1赞 arXiv · cs.AI 07-13

有证据支持的视频问答

Evidence-Backed Video Question Answering

当前的视频大语言模型（视频LLM）在问答（QA）方面表现出色，但很大程度上作为黑匣子运行，提供文本答案，而无需可验证的视觉基础。现有的可解释性工作依赖于文本原理或稀疏边界框，它们很难捕获复杂的视频动态，例如遮挡和非刚性变形。我们提出了证据支持的视频问答（E-VQA），这是一项新颖的任务，要求模型联合输出语义答案和精确的时空证据：时间片段和密集的跟踪对象分割掩码。来吃

→ 原文

arXiv 🎧 音频相关MIT 低优先级语音相关MIT arXiv · cs.SD 07-08

EscFOA：通过 360 度教育环境中的生成空间音频增强视障学习者的空间学习

EscFOA: Enhancing Spatial Learning for Visually Impaired Learners via Generative Spatial Audio in 360-Degree Educational Environments

沉浸式 360 度教育环境通常缺乏可访问的空间结构，限制了视障学习者定向、探索和构建心理表征的能力。本文提出了 EscFOA，一种几何感知的空间音频生成框架，设计为支持空间认知的 \emph{声学支架}。通过将 3D 高斯泼溅 (3DGS) 与条件扩散模型集成，EscFOA 从 360 度视频中重建场景几何形状，以合成与环境结构一致的高保真空间音频。明确目标学习

降权：传统音频、数据集或工程优化，非当前语音大模型主线。

→ 原文

arXiv MIT 对话/S2SMIT arXiv · cs.CV 07-13

MicroCharNet：车牌字符检测的少即是多

MicroCharNet: Less is More for License Plate Character Detection

车牌字符检测是智能交通系统的重要组成部分，实时部署需要高精度和计算效率。尽管最近基于深度学习的方法大大提高了检测性能，但许多高精度模型依赖于大规模架构，这会产生大量计算开销，限制了它们对资源受限设备的适用性。在本文中，我们提出了 MicroCharNet，这是一种专为车牌字符检测而设计的超轻量级模型。拟议的架构

→ 原文

⚙

工程进展

ENGINEERING ADVANCES

8 篇

博客 NVIDIA Blog NVIDIA Blog机构博客 NVIDIA Blog 07-14

Nemotron Labs：开放模型如何为企业和国家提供可信任、控制和定制的人工智能

Nemotron Labs: How Open Models Give Enterprises and Nations AI They Can Trust, Control and Customize

企业有大量强大的模型可供选择。真正的考验是企业构建的人工智能是否能够独特地满足业务需求：改进工作流程、利用领域知识以及超越准确性和信任标准。

→ 原文

博客 OpenAI OpenAI机构博客 OpenAI Blog 07-14

代理时代如何管理人工智能投资

How to manage AI investments in the agentic era

了解企业如何通过衡量每美元的有用工作、提高效率和扩展高价值工作流程来管理代理时代的人工智能投资。

→ 原文

博客 OpenAI OpenAI机构博客 OpenAI Blog 07-14

数据科学团队如何使用 ChatGPT Work

How data science teams use ChatGPT Work

了解数据科学团队如何使用 ChatGPT Work 根据实际工作输入构建根本原因简报、影响读数、KPI 备忘录、范围分析和仪表板规范。

→ 原文

博客 OpenAI OpenAI机构博客 OpenAI Blog 07-14

销售团队如何使用 ChatGPT Work

How sales teams use ChatGPT Work

了解销售团队如何使用 ChatGPT Work 根据实际工作输入创建管道简报、会议准备包、预测审查、客户计划和停滞交易诊断。

→ 原文

博客 Meta 对话/S2SMeta机构博客 Meta Engineering 07-13

使用开源内核调度程序实现元广告服务现代化

Modernizing the Meta Ads Service With an Open-Source Kernel Scheduler

TL; DR 在 Meta 的规模下，几毫秒的延迟下降可能会对广告效果产生重大负面影响。当 Linux 内核升级面临 Meta 广告服务队列延迟回归的风险时，我们转向 sched_ext（上游、基于 BPF 的可扩展调度框架）来构建针对广告投放定制的调度策略 [...] 阅读更多... 使用开源内核调度程序实现 Meta 广告服务现代化的帖子首先出现在 Engineering at Me 上

→ 原文

博客 Google DeepMind Google DeepMind机构博客 Google DeepMind 07-13

通过 ATL Saathi 为印度下一代创新者提供支持

Empowering India’s next generation of innovators with ATL Saathi

Google 和 AIM 推出了 ATL Saathi，这是一款由 Gemini 驱动的人工智能工具，为印度机器人实验室的教育工作者提供支持。

→ 原文

博客 PyTorch Blog PyTorch Blog机构博客 PyTorch Blog 07-10

迈向自由标准化：将标准化融合到 GEMM 和注意力内核中

Towards Free Normalization: Fusing Normalization into GEMM and Attention Kernels

代码位于：https://github.com/facebookresearch/ads_model_kernel_library/tree/main/multi_cta_norm_fusion 和 https://github.com/facebookresearch/ads_model_kernel_library/tree/main/gdpa_megakernel TL;DR 在这篇博文中，我们为 LayerNorm 和 RMSNorm 等常见标准化操作提供了各种新颖的内核融合技术，这些技术提供了显着的加速...

→ 原文

博客 OpenAI OpenAI机构博客 OpenAI Blog 07-10

ChatGPT 入门

Getting started with ChatGPT

了解如何使用 ChatGPT，开始您的第一次对话，并发现使用 AI 进行写作、集思广益和解决问题的简单方法。

→ 原文

💬

社区讨论

HN & REDDIT COMMUNITY

2 篇

▲ Hacker News 07-07 ▲ 218 pts · 94 comments HN 218分高分

Show HN：Rowboat – 开源、本地优先的 Claude Desktop 替代方案

Show HN: Rowboat – Open-source, local-first alternative to Claude Desktop

→ 查看原文 💬 查看讨论

▲ Hacker News 07-12 ▲ 163 pts · 77 comments HN 163分高分

Show HN：Juggler – 开源 GUI 编码代理，由 JUCE 的创建者开发

Show HN: Juggler – an open-source GUI coding agent, by the creator of JUCE

→ 查看原文 💬 查看讨论