语音智能体是进行语音对话以完成任务的AI系统,在企业应用中部署日益广泛。现有基准未能同时解决两个核心评估挑战:生成逼真的模拟对话和衡量语音特定失败的全面质量。
随着音频优先智能体在物理AI、对话机器人和无屏可穿戴设备中日益普遍,音频大语言模型需整合说话人特定理解以支持用户授权、个性化和上下文感知交互。
本文介绍2024文本相关说话人验证挑战的系统,最小检测代价函数为0.0461,等错误率为1.3%。方法基于在VoxCeleb数据集上训练的ResNet-TDNN和NeXt-TDNN等先进神经网络的自适应。
提出分块对齐器,一种用于流式自动语音识别的新型架构。虽然Transducer是流式ASR的标准模型,但其训练成本高。最近引入的对齐器通过丢弃显式对齐来降低成本。
扩散模型文本生成音乐为零样本音乐编辑开辟新途径。但现有方法无法实现干音轨特定音色转换,需在严格保留背景伴奏的同时改变特定干音轨。
语音智能体日益需要从语音进行可靠的工具使用,而主流工具调用基准仍基于文本。研究验证的文本基准能否转换为受控音频工具调用评估,无需重新标注工具模式和金标准。
传统语音翻译系统由语音识别和文本翻译的独立模块组成。将任务整合到SpeechLLM中可利用副语言信息并减少级联错误,但现有系统缺乏真正的流式处理能力。
波斯音乐具有独特的音调、调式系统和节奏结构,对主要在西方音乐上训练的生成模型构成挑战。通过策划首个大规模波斯歌曲数据集,包含900小时以上高质量音频样本。
混合ASR系统中词汇表大小明确由音素数量确定。而端到端ASR系统的词汇来自训练文本语料库。词汇表选择及其大小的确定对系统性能有重要影响。
音频自监督学习旨在从大规模无标签音频数据学习通用表示。虽然生成重建目标驱动了最近进展,但对比方法探索较少,部分原因是设计有效音频增强和大批量的困难。
度量诱导离散流匹配利用令牌潜在几何进行离散生成,但受启发式调度器和有限步路径追踪误差限制。本文解决这两个问题,推导动力学最优调度器。
音频提供关键情境线索,但当前音频语言模型在长形式录音中面临注意力瓶颈。引入NAACA,一种无训练架构,将注意力分配重构为听觉显著性过滤。
歌唱语音转换旨在将源歌声转换为目标歌手同时保留歌词和旋律。大多数方法依赖F0提取器从清晰人声中捕获主旋律,但无法从伴奏录音中可靠提取。
语音增强系统通常使用多种客观指标评估。使用ASR系统评估SE性能在文献中常见,通常以词错误率衡量。但WER分数严重依赖ASR系统和文本规范化管道的选择。
神经音频编码器为语音生成和操纵提供紧凑离散表示。但大多数编码器将令牌组织为帧级序列,难以研究全局变异因素。提出LATTE追加固定令牌集。
从稀疏麦克风测量重建三维声场是基本但病态问题,通过声学传递函数幅度估计解决。ATF幅度包含物理空间的关键感知和声学特性。
直接从符号表示生成逼真鼓音是音乐感知和机器学习交叉的挑战。提出系统将表达性鼓网格转换为鼓音,通过预测神经编码器的离散码。
数据相关次级变换旨在装饰可分离主变换系数以提高残差编码效率,但计算复杂性限制其部署。最近视频编码器使用低频非可分离变换变体。
水下声通信发射波束成形具有挑战性,需提前完全了解接收机信道。实际中信道估计需通过反馈学习,常因反馈延迟和信道变化而噪声或过时。
语音驱动手势和面部动画是游戏、虚拟制作和交互媒体中表达性数字化身的基础。现有方法限于单一模态音频运动对齐或受表示限制。
生物声学识别需要精细的声学理解以区分相似物种。大规模数据库如iNaturalist存在弱标注问题,每条录音仅有单个物种标签,使监督学习困难。本研究受计算机视觉进展启发,探索掩码自编码器在有限数据下的应用。
高质量训练数据对神经网络性能至关重要。音频领域缺乏大规模强标注单源声音事件数据集。FSD50K虽然规模较大且开放,但包含大量多源样本,存在背景干扰问题。
自动检测说话者置信度对自适应计算至关重要,但受限于标注数据稀缺和副语言学注释的主观性。本文提出半监督混合框架,融合Whisper编码器的深层语义嵌入与可解释的声学特征向量。
提出STRUM模型,将原始音频转换为可玩的Clone Hero/YARG谱面,无需元数据。采用多阶段混合架构:两阶段CRNN起音检测器和六模型集成分类器用于鼓组等乐器。
Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX.Supertonic — Lightning Fast, On-Device, Accurate TTS Supertonic is a lightning-fast, on-device text-to-speech system designed for local inference with minimal overhead. Powered by ONNX Runtime, it runs entirely on you
Display and control your Android deviceThis GitHub repo (https://github.com/Genymobile/scrcpy) is the only official source for the project. Do not download releases from random websites, even if their name contains scrcpy. scrcpy (v4.0) pronounced "screen copy" This application mirrors Android
提出在策略自蒸馏(OPSD)方法,通过教师分支提供密集的令牌级指导来补充强化学习,解决长期交互中轨迹级奖励信号监督粗糙的问题。
构建系统基准评估长上下文视觉语言模型和记忆增强智能体在多模态证据问题上的性能,填补现有评估空白。
开源2.6B参数世界模型,原生支持一分钟视频生成,实现720p高保真视频合成与精确摄像机控制,性能媲美工业级基线。
提出评估框架测试智能体是否保留细粒度视觉证据用于后续推理,解决现有评估依赖文本信息的问题。
探索视觉推理中代码智能体推理与潜在推理的权衡,提出统一方法降低计算成本并简化架构设计。
针对多模态演示数据中相似观察对应不同动作的问题,提出短期意图建模方法改进视觉语言动作策略。
扩展前馈3D重建模型支持动态人类指令响应,实现高质量3D场景的实时编辑功能。
开源框架将大语言模型转化为自主智能体,支持规划、推理、工具使用和多轮交互,弥补基础设施和训练差距。
提出从双向教师蒸馏因果自回归视频扩散模型的方法,解决训练与推理历史分布不匹配问题。
通过分解潜在令牌的径向和角向分量,改进潜在流匹配在球面壳上的传输路径。
Claude for Financial Services Reference agents, skills, and data connectors for the financial-services workflows we see most — investment banking, equity research, private equity, and wealth management. Everything here is available two ways from one source: install it as a Claude Cowork plugin, or
The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra Introduction English | 简体中文 TARS* is a Multimodal AI Agent stack, currently shipping two projects: Agent TARS and UI-TARS-desktop: Agent TARS UI-TARS-desktop
Coding agent for DeepSeek models that runs in your terminalDeepSeek TUI Terminal coding agent for DeepSeek V4. It runs from the deepseek command, streams reasoning blocks, edits local workspaces with approval gates, and includes an auto mode that chooses both model and thinking level per turn.
Let's use AI to Earn!Aitoearn:OPC(一人公司)的AI内容营销智能体 简体中文 | English | 日本語 Monetize · Publish · Engage · Create —— 一站式平台。 AiToEarn 通过 AI Agent自动化,帮助 OPC(一人公司)、创作者、品牌与企业在全球主流平台上构建、分发并变现内容。 支持渠道: 抖音、小红书(Rednote)、快手、哔哩哔哩、视频号、微信公众号、TikTok、YouTube、Facebook、Instagram、Threads、Twitter(X)、Pinterest、Lin
Unlimited FREE AI coding. Connect Claude Code, Codex, Cursor, Cline, Copilot, Antigravity to FREE Claude/GPT/Gemini via 40+ providers. Auto-fallback, RTK -40% tokens, never hit limits. 9Router - FREE AI Router & Token Saver Never stop coding. Save 20-40% tokens with RTK + auto-fallback to
改进自回归扩散蒸馏方法实现低延迟流式可控视频生成,提升响应粒度和非自回归能力。
提出无需大规模后训练的摄像机控制视频生成方法,通过变形历史实现视点轨迹控制。
统一框架解决扩散模型多任务强化学习的交叉任务干扰和不平衡问题。
研究合成数据对分层设计分解的影响,解决生成图像后期编辑的可用性问题。
从单张卫星图像生成街景3D场景,平衡几何保真度与语义多样性的权衡。
提出定量评估框架检测视频模型的物理合理性和3D结构运动,替代主观人工评估。
通过功率解耦改进音频潜在空间可建模性,提升潜在扩散模型性能。
针对仿真与真实驾驶视频域差问题,提出条件视频生成方法生成标注驾驶数据。
改进注意力机制检测和缓解大视觉语言模型的幻觉问题。
针对变化和不变区域语义粒度差异,提出分层语义解耦方法改进遥感影像变化描述。
3D Gaussian Splat EditorSuperSplat Editor | SuperSplat Editor | User Guide | Blog | Forum | The SuperSplat Editor is a free and open source tool for inspecting, editing, optimizing and publishing 3D Gaussian Splats. It is built on web technologies and runs in the browser, so there's nothing
π RuView turns commodity WiFi signals into real-time spatial intelligence, vital sign monitoring, and presence detection — all without a single pixel of video.π RuView Beta Software — Under active development. APIs and firmware may change. Known limitations: ESP32-C3 and original ESP
Agent for collecting, processing, aggregating, and writing metrics, logs, and other arbitrary data. Telegraf Telegraf is an agent for collecting, processing, aggregating, and writing metrics, logs, and other arbitrary data. Offers a comprehensive suite of over 300 plugins, covering a wide
Suite of reference architectures for building GPU-accelerated vision agents and AI-powered video analytics applications.NVIDIA AI Blueprint: Video Search and Summarization (VSS) Table of Contents Overview Use Case / Problem Description Agent Workflows Software Components Target Audience
💫 Toolkit to help you get started with Spec-Driven Development 🌱 Spec Kit Build high-quality software faster. An open source toolkit that allows you to focus on product scenarios and predictable outcomes instead of vibe coding every piece from scratch. Table of Contents 🤔 W
《深海迷航2》早期测试版现已在GeForce NOW上线,支持跨设备游玩。本周新增11款游戏。
OpenAI详述对"Mini Shai-Hulud"供应链攻击的应对措施,阐述系统安全防护和证书签名保护,说明macOS用户需在2026年6月12日前更新应用。
ExecuTorch扩展PyTorch生态,实现受限边缘设备的本地AI推理。Arm提供Jupyter实验室作为实践入门点。
加入OpenAI校园网络,连接全球学生俱乐部,获取AI工具,举办活动,构建AI驱动的校园社区。
更快登录,更多游戏时间。GeForce NOW最新更新为成员提供更流畅的游戏体验。
Hysteria is a powerful, lightning fast and censorship resistant proxy. Hysteria is a powerful, lightning fast and censorship resistant proxy. Get Started 中文文档 Hysteria 1.x (legacy) 🛠️ Jack of all trades Wide range of modes including SOCKS5, HTTP Proxy, TCP/UDP Forwarding, Linux
💻 vibe coding 2026 | Your first modern Coding course for beginners to master step by step. Jump right in and vibe together — if you can talk, you can build apps. 直接上手,一起 vibe!会说话就会做应用。 🚀 Start Exploring · ✨ Interactive Tutorial · 🦞 Learn OpenClaw · 📖 Table of Contents 🚀 开始体验 · ✨ 交互式教
Your Personal AI super intelligence. Private, Simple and extremely powerful.OpenHuman OpenHuman is your Personal AI super intelligence. Private, Simple and extremely powerful. Discord • Reddit • X/Twitter • Docs • Follow @senamakel (Creator) Early Beta: Under active developm
Kronos: A Foundation Model for the Language of Financial Markets Kronos: A Foundation Model for the Language of Financial Markets Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 Kronos is the first open-source
We write your reusable computer vision tools. 💜 notebooks | inference | autodistill | maestro 👋 hello We are your essential toolkit for computer vision. From data loading to real-time zone counting, we provide the building blocks so you can focus on building