Special Research Report
AI  研 报
Research Digest · 人工智能学术前沿追踪 · 2026年05月16日
61
arXiv 论文
10
机构博客
17
🤗 HF 精选
26
🎧 音频语音
20
💬 社区讨论
🎵 语音与音频26🧠 大语言模型15👁 视觉生成15⚙ 工程进展15💬 社区讨论20
🤗 HF 精选 + 点赞数 🎧 音频关键词加权(你的专业领域) 顶级机构加权 评分 = HF点赞×3 + HF收录+20 + 机构+5 + 音频+20/+10 + 时效0~10
🎵
语音与音频
SPEECH & AUDIO
26 篇
arXiv 🤗 59♥ arXiv · cs.SD 05-13
EVA-Bench:语音智能体端到端评估框架
EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

语音智能体是进行语音对话以完成任务的AI系统,在企业应用中部署日益广泛。现有基准未能同时解决两个核心评估挑战:生成逼真的模拟对话和衡量语音特定失败的全面质量。

→ 原文
arXiv MIT arXiv · cs.AI 05-14
SpeakerLLM:面向说话人理解和验证推理的专用音频大模型
SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

随着音频优先智能体在物理AI、对话机器人和无屏可穿戴设备中日益普遍,音频大语言模型需整合说话人特定理解以支持用户授权、个性化和上下文感知交互。

→ 原文
arXiv MIT arXiv · cs.SD 05-14
2024文本相关说话人验证挑战:Naive团队系统报告
Text-Dependent Speaker Verification (TdSV) Challenge 2024: Team Naive System Report

本文介绍2024文本相关说话人验证挑战的系统,最小检测代价函数为0.0461,等错误率为1.3%。方法基于在VoxCeleb数据集上训练的ResNet-TDNN和NeXt-TDNN等先进神经网络的自适应。

→ 原文
arXiv MIT arXiv · eess.AS 05-12
流式语音识别的分块对齐器
Chunkwise Aligners for Streaming Speech Recognition

提出分块对齐器,一种用于流式自动语音识别的新型架构。虽然Transducer是流式ASR的标准模型,但其训练成本高。最近引入的对齐器通过丢弃显式对齐来降低成本。

→ 原文
arXiv MIT arXiv · eess.AS 05-11
Polyphonia:复调音乐零样本音色转换与声学感知注意力校准
Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration

扩散模型文本生成音乐为零样本音乐编辑开辟新途径。但现有方法无法实现干音轨特定音色转换,需在严格保留背景伴奏的同时改变特定干音轨。

→ 原文
arXiv arXiv · cs.CL 05-14
从文本到语音:工具调用LLM智能体的可复现可验证评估框架
From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents

语音智能体日益需要从语音进行可靠的工具使用,而主流工具调用基准仍基于文本。研究验证的文本基准能否转换为受控音频工具调用评估,无需重新标注工具模式和金标准。

→ 原文
arXiv arXiv · cs.CL 05-14
基于SpeechLLM的流式语音到文本翻译
Streaming Speech-to-Text Translation with a SpeechLLM

传统语音翻译系统由语音识别和文本翻译的独立模块组成。将任务整合到SpeechLLM中可利用副语言信息并减少级联错误,但现有系统缺乏真正的流式处理能力。

→ 原文
arXiv arXiv · cs.CL 05-14
波斯MusicGen:大规模波斯音乐数据集与文化感知生成模型
Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

波斯音乐具有独特的音调、调式系统和节奏结构,对主要在西方音乐上训练的生成模型构成挑战。通过策划首个大规模波斯歌曲数据集,包含900小时以上高质量音频样本。

→ 原文
arXiv arXiv · cs.SD 05-14
端到端ASR词汇表大小的微积分框架
A Calculus-Based Framework for Determining Vocabulary Size in End-to-End ASR

混合ASR系统中词汇表大小明确由音素数量确定。而端到端ASR系统的词汇来自训练文本语料库。词汇表选择及其大小的确定对系统性能有重要影响。

→ 原文
arXiv arXiv · cs.SD 05-14
AudioMosaic:对比掩蔽音频表示学习
AudioMosaic: Contrastive Masked Audio Representation Learning

音频自监督学习旨在从大规模无标签音频数据学习通用表示。虽然生成重建目标驱动了最近进展,但对比方法探索较少,部分原因是设计有效音频增强和大批量的困难。

→ 原文
arXiv MIT arXiv · eess.AS 05-10
零样本文本转语音中的动力学最优调度与矩修正离散流匹配
Kinetic-Optimal Scheduling with Moment Correction for Metric-Induced Discrete Flow Matching in Zero-Shot Text-to-Speech

度量诱导离散流匹配利用令牌潜在几何进行离散生成,但受启发式调度器和有限步路径追踪误差限制。本文解决这两个问题,推导动力学最优调度器。

→ 原文
arXiv arXiv · cs.SD 05-13
NAACA:具有振荡工作记忆的无训练神经听觉认知架构用于显著性驱动注意力门控
NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

音频提供关键情境线索,但当前音频语言模型在长形式录音中面临注意力瓶颈。引入NAACA,一种无训练架构,将注意力分配重构为听觉显著性过滤。

→ 原文
arXiv arXiv · cs.SD 05-12
Poly-SVC:复调感知的歌唱语音转换与谐波建模
Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

歌唱语音转换旨在将源歌声转换为目标歌手同时保留歌词和旋律。大多数方法依赖F0提取器从清晰人声中捕获主旋律,但无法从伴奏录音中可靠提取。

→ 原文
arXiv arXiv · eess.AS 05-12
过于完美:现代自动语音识别在语音增强评估中的研究
Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement

语音增强系统通常使用多种客观指标评估。使用ASR系统评估SE性能在文献中常见,通常以词错误率衡量。但WER分数严重依赖ASR系统和文本规范化管道的选择。

→ 原文
arXiv arXiv · cs.SD 05-11
探索潜在音频令牌化器中的令牌空间操纵
Exploring Token-Space Manipulation in Latent Audio Tokenizers

神经音频编码器为语音生成和操纵提供紧凑离散表示。但大多数编码器将令牌组织为帧级序列,难以研究全局变异因素。提出LATTE追加固定令牌集。

→ 原文
arXiv arXiv · eess.AS 05-11
SF-Flow:稀疏测量引导的流匹配声场幅度估计
SF-Flow: Sound field magnitude estimation via flow matching guided by sparse measurements

从稀疏麦克风测量重建三维声场是基本但病态问题,通过声学传递函数幅度估计解决。ATF幅度包含物理空间的关键感知和声学特性。

→ 原文
arXiv arXiv · cs.SD 05-11
通过神经音频编码器从表达性鼓网格合成鼓音
Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

直接从符号表示生成逼真鼓音是音乐感知和机器学习交叉的挑战。提出系统将表达性鼓网格转换为鼓音,通过预测神经编码器的离散码。

→ 原文
arXiv MIT arXiv · eess.SP 05-14
FaSST:快速稀疏化次级变换
FaSST: Fast Sparsifying Secondary Transform

数据相关次级变换旨在装饰可分离主变换系数以提高残差编码效率,但计算复杂性限制其部署。最近视频编码器使用低频非可分离变换变体。

→ 原文
arXiv MIT arXiv · eess.SP 05-14
高速率水下声通信的发射波束成形
Transmit Beamforming for High-Rate Underwater Acoustic Communications

水下声通信发射波束成形具有挑战性,需提前完全了解接收机信道。实际中信道估计需通过反馈学习,常因反馈延迟和信道变化而噪声或过时。

→ 原文
arXiv MIT arXiv · cs.SD 05-14
UMo:实时共语音化身的统一稀疏运动建模
UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

语音驱动手势和面部动画是游戏、虚拟制作和交互媒体中表达性数字化身的基础。现有方法限于单一模态音频运动对齐或受表示限制。

→ 原文
arXiv MIT arXiv · cs.SD 05-13
有限数据下的掩码自编码器:生物声学案例研究
Masked Autoencoders with Limited Data: Does It Work? A Fine-Grained Bioacoustics Case Study

生物声学识别需要精细的声学理解以区分相似物种。大规模数据库如iNaturalist存在弱标注问题,每条录音仅有单个物种标签,使监督学习困难。本研究受计算机视觉进展启发,探索掩码自编码器在有限数据下的应用。

→ 原文
arXiv MIT arXiv · eess.AS 05-13
FSD50K-Solo:单源声音事件的自动化整理
FSD50K-Solo: Automated Curation of Single-Source Sound Events

高质量训练数据对神经网络性能至关重要。音频领域缺乏大规模强标注单源声音事件数据集。FSD50K虽然规模较大且开放,但包含大量多源样本,存在背景干扰问题。

→ 原文
arXiv MIT arXiv · cs.SD 05-12
基于Whisper的半监督语音置信度检测框架
A Semi-Supervised Framework for Speech Confidence Detection using Whisper

自动检测说话者置信度对自适应计算至关重要,但受限于标注数据稀缺和副语言学注释的主观性。本文提出半监督混合框架,融合Whisper编码器的深层语义嵌入与可解释的声学特征向量。

→ 原文
arXiv Meta arXiv · eess.AS 05-12
STRUM:端到端节奏游戏谱面生成的频谱转录与节奏理解模型
STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts

提出STRUM模型,将原始音频转换为可玩的Clone Hero/YARG谱面,无需元数据。采用多阶段混合架构:两阶段CRNN起音检测器和六模型集成分类器用于鼓组等乐器。

→ 原文
GitHub GitHub Trending · daily 05-15
supertone-inc/supertonic
supertone-inc/supertonic

Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX.Supertonic — Lightning Fast, On-Device, Accurate TTS Supertonic is a lightning-fast, on-device text-to-speech system designed for local inference with minimal overhead. Powered by ONNX Runtime, it runs entirely on you

GitHub GitHub Trending · daily 05-15
Genymobile/scrcpy
Genymobile/scrcpy

Display and control your Android deviceThis GitHub repo (https://github.com/Genymobile/scrcpy) is the only official source for the project. Do not download releases from random websites, even if their name contains scrcpy. scrcpy (v4.0) pronounced "screen copy" This application mirrors Android

🧠
大语言模型
LARGE LANGUAGE MODELS
15 篇
arXiv 🤗 66♥ arXiv · cs.CL 05-14
自蒸馏智能体强化学习
Self-Distilled Agentic Reinforcement Learning

提出在策略自蒸馏(OPSD)方法,通过教师分支提供密集的令牌级指导来补充强化学习,解决长期交互中轨迹级奖励信号监督粗糙的问题。

→ 原文
arXiv 🤗 61♥ arXiv · cs.CV 05-14
MemLens:大视觉语言模型多模态长期记忆基准
MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

构建系统基准评估长上下文视觉语言模型和记忆增强智能体在多模态证据问题上的性能,填补现有评估空白。

→ 原文
arXiv 🤗 51♥ arXiv · cs.CV 05-14
SANA-WM:混合线性扩散变换器的高效分钟级世界模型
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

开源2.6B参数世界模型,原生支持一分钟视频生成,实现720p高保真视频合成与精确摄像机控制,性能媲美工业级基线。

→ 原文
arXiv 🤗 47♥ arXiv · cs.CL 05-14
MemEye:多模态智能体记忆的视觉中心评估框架
MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

提出评估框架测试智能体是否保留细粒度视觉证据用于后续推理,解决现有评估依赖文本信息的问题。

→ 原文
arXiv 🤗 16♥ arXiv · cs.CL 05-14
ATLAS:智能体推理还是潜在视觉推理?一词两用
ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

探索视觉推理中代码智能体推理与潜在推理的权衡,提出统一方法降低计算成本并简化架构设计。

→ 原文
arXiv 🤗 14♥MIT arXiv · cs.CL 05-14
IntentVLA:别名机器人操纵的短期意图建模
IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

针对多模态演示数据中相似观察对应不同动作的问题,提出短期意图建模方法改进视觉语言动作策略。

→ 原文
arXiv 🤗 12♥MIT arXiv · cs.AI 05-14
VGGT-Edit:残差场预测的前馈原生3D场景编辑
VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

扩展前馈3D重建模型支持动态人类指令响应,实现高质量3D场景的实时编辑功能。

→ 原文
arXiv 🤗 10♥ arXiv · cs.CL 05-14
Orchard:开源智能体建模框架
Orchard: An Open-Source Agentic Modeling Framework

开源框架将大语言模型转化为自主智能体,支持规划、推理、工具使用和多轮交互,弥补基础设施和训练差距。

→ 原文
arXiv 🤗 6♥ arXiv · cs.CV 05-14
RAVEN:一致性模型GRPO的实时自回归视频外推
RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

提出从双向教师蒸馏因果自回归视频扩散模型的方法,解决训练与推理历史分布不匹配问题。

→ 原文
arXiv 🤗 3♥ arXiv · cs.CV 05-14
图像生成中球面流匹配的潜在几何对齐
Aligning Latent Geometry for Spherical Flow Matching in Image Generation

通过分解潜在令牌的径向和角向分量,改进潜在流匹配在球面壳上的传输路径。

→ 原文
GitHub GitHub Trending · weekly 05-15
anthropics/financial-services
anthropics/financial-services

Claude for Financial Services Reference agents, skills, and data connectors for the financial-services workflows we see most — investment banking, equity research, private equity, and wealth management. Everything here is available two ways from one source: install it as a Claude Cowork plugin, or

GitHub GitHub Trending · weekly 05-15
bytedance/UI-TARS-desktop
bytedance/UI-TARS-desktop

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra Introduction English | 简体中文 TARS* is a Multimodal AI Agent stack, currently shipping two projects: Agent TARS and UI-TARS-desktop: Agent TARS UI-TARS-desktop

GitHub GitHub Trending · weekly 05-15
Hmbown/DeepSeek-TUI
Hmbown/DeepSeek-TUI

Coding agent for DeepSeek models that runs in your terminalDeepSeek TUI Terminal coding agent for DeepSeek V4. It runs from the deepseek command, streams reasoning blocks, edits local workspaces with approval gates, and includes an auto mode that chooses both model and thinking level per turn.

GitHub GitHub Trending · weekly 05-15
yikart/AiToEarn
yikart/AiToEarn

Let's use AI to Earn!Aitoearn:OPC(一人公司)的AI内容营销智能体 简体中文 | English | 日本語 Monetize · Publish · Engage · Create —— 一站式平台。 AiToEarn 通过 AI Agent自动化,帮助 OPC(一人公司)、创作者、品牌与企业在全球主流平台上构建、分发并变现内容。 支持渠道: 抖音、小红书(Rednote)、快手、哔哩哔哩、视频号、微信公众号、TikTok、YouTube、Facebook、Instagram、Threads、Twitter(X)、Pinterest、Lin

GitHub GitHub Trending · weekly 05-15
decolua/9router
decolua/9router

Unlimited FREE AI coding. Connect Claude Code, Codex, Cursor, Cline, Copilot, Antigravity to FREE Claude/GPT/Gemini via 40+ providers. Auto-fallback, RTK -40% tokens, never hit limits. 9Router - FREE AI Router & Token Saver Never stop coding. Save 20-40% tokens with RTK + auto-fallback to

👁
视觉生成
VISION & GENERATION
15 篇
arXiv 🤗 74♥MIT arXiv · cs.CV 05-14
因果强制++:实时交互视频生成的可扩展少步自回归扩散蒸馏
Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

改进自回归扩散蒸馏方法实现低延迟流式可控视频生成,提升响应粒度和非自回归能力。

→ 原文
arXiv 🤗 33♥ arXiv · cs.CV 05-14
变形即历史:单视频训练的可泛化摄像机控制视频生成
Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

提出无需大规模后训练的摄像机控制视频生成方法,通过变形历史实现视点轨迹控制。

→ 原文
arXiv 🤗 14♥MIT arXiv · cs.CV 05-14
DiffusionOPD:扩散模型在策略蒸馏的统一视角
DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

统一框架解决扩散模型多任务强化学习的交叉任务干扰和不平衡问题。

→ 原文
arXiv 🤗 6♥MIT arXiv · cs.CV 05-14
合成分层设计数据是否有益于分层设计分解?
Does Synthetic Layered Design Data Benefit Layered Design Decomposition?

研究合成数据对分层设计分解的影响,解决生成图像后期编辑的可用性问题。

→ 原文
arXiv 🤗 2♥ arXiv · cs.AI 05-14
Sat3DGen:单卫星图像的街景3D场景生成
Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

从单张卫星图像生成街景3D场景,平衡几何保真度与语义多样性的权衡。

→ 原文
arXiv 🤗 1♥ arXiv · cs.AI 05-14
定量视频世界模型几何一致性评估
Quantitative Video World Model Evaluation for Geometric-Consistency

提出定量评估框架检测视频模型的物理合理性和3D结构运动,替代主观人工评估。

→ 原文
arXiv 🎧 音频相关 arXiv · eess.AS 05-11
PoDAR:生成建模的功率解耦音频表示
PoDAR: Power-Disentangled Audio Representation for Generative Modeling

通过功率解耦改进音频潜在空间可建模性,提升潜在扩散模型性能。

→ 原文
arXiv MIT arXiv · cs.CV 05-14
DriveCtrl:条件仿真到真实驾驶视频生成
DriveCtrl: Conditioned Sim-to-Real Driving Video Generation

针对仿真与真实驾驶视频域差问题,提出条件视频生成方法生成标注驾驶数据。

→ 原文
arXiv MIT arXiv · cs.AI 05-14
MHSA:通过转向注意力缓解视觉语言模型幻觉的轻量框架
MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs

改进注意力机制检测和缓解大视觉语言模型的幻觉问题。

→ 原文
arXiv MIT arXiv · cs.CV 05-14
HiSem:遥感影像变化描述的分层语义解耦
HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning

针对变化和不变区域语义粒度差异,提出分层语义解耦方法改进遥感影像变化描述。

→ 原文
GitHub GitHub Trending · weekly 05-15
playcanvas/supersplat
playcanvas/supersplat

3D Gaussian Splat EditorSuperSplat Editor | SuperSplat Editor | User Guide | Blog | Forum | The SuperSplat Editor is a free and open source tool for inspecting, editing, optimizing and publishing 3D Gaussian Splats. It is built on web technologies and runs in the browser, so there's nothing

GitHub GitHub Trending · daily 05-15
ruvnet/RuView
ruvnet/RuView

π RuView turns commodity WiFi signals into real-time spatial intelligence, vital sign monitoring, and presence detection — all without a single pixel of video.π RuView Beta Software — Under active development. APIs and firmware may change. Known limitations: ESP32-C3 and original ESP

GitHub GitHub Trending · daily 05-15
influxdata/telegraf
influxdata/telegraf

Agent for collecting, processing, aggregating, and writing metrics, logs, and other arbitrary data. Telegraf Telegraf is an agent for collecting, processing, aggregating, and writing metrics, logs, and other arbitrary data. Offers a comprehensive suite of over 300 plugins, covering a wide

GitHub GitHub Trending · daily 05-15
NVIDIA-AI-Blueprints/video-search-and-summarization
NVIDIA-AI-Blueprints/video-search-and-summarization

Suite of reference architectures for building GPU-accelerated vision agents and AI-powered video analytics applications.NVIDIA AI Blueprint: Video Search and Summarization (VSS) Table of Contents Overview Use Case / Problem Description Agent Workflows Software Components Target Audience

GitHub GitHub Trending · daily 05-15
github/spec-kit
github/spec-kit

💫 Toolkit to help you get started with Spec-Driven Development 🌱 Spec Kit Build high-quality software faster. An open source toolkit that allows you to focus on product scenarios and predictable outcomes instead of vibe coding every piece from scratch. Table of Contents 🤔 W

工程进展
ENGINEERING ADVANCES
15 篇
博客 MIT NVIDIA Blog 05-14
云端相见:《深海迷航2》登陆GeForce NOW
Sea You in the Cloud: ‘Subnautica 2’ Early Access Dives Onto GeForce NOW

《深海迷航2》早期测试版现已在GeForce NOW上线,支持跨设备游玩。本周新增11款游戏。

博客 Hugging Face Blog Hugging Face Blog 05-14
解锁连续批处理中的异步性
Unlocking asynchronicity in continuous batching

(摘要缺失)

博客 PyTorch Blog PyTorch Blog 05-13
PyTorch 2.12版本发布
PyTorch 2.12 Release Blog

PyTorch 2.12发布,CUDA上的批量linalg.eigh性能提升100倍。

博客 OpenAI OpenAI Blog 05-13
OpenAI对TanStack供应链攻击的应对
Our response to the TanStack npm supply chain attack

OpenAI详述对"Mini Shai-Hulud"供应链攻击的应对措施,阐述系统安全防护和证书签名保护,说明macOS用户需在2026年6月12日前更新应用。

博客 PyTorch Blog PyTorch Blog 05-12
Arm CPU和NPU上的高效边缘AI:ExecuTorch实践指南
Efficient Edge AI on Arm CPUs and NPUs: Understanding ExecuTorch through Practical Labs

ExecuTorch扩展PyTorch生态,实现受限边缘设备的本地AI推理。Arm提供Jupyter实验室作为实践入门点。

博客 OpenAI OpenAI Blog 05-12
财务团队如何使用Codex
How finance teams use Codex

财务团队可利用Codex构建MBR、报告包、差异桥接、模型检查和规划场景。

博客 Hugging Face Blog Hugging Face Blog 05-11
AWS基础模型训练和推理的构建块
Building Blocks for Foundation Model Training and Inference on AWS

(摘要缺失)

博客 OpenAI OpenAI Blog 05-11
OpenAI校园网络:学生俱乐部兴趣表单
OpenAI Campus Network: Student club interest form

加入OpenAI校园网络,连接全球学生俱乐部,获取AI工具,举办活动,构建AI驱动的校园社区。

博客 OpenAI OpenAI Blog 05-11
企业如何规模化部署AI
How enterprises are scaling AI

企业规模化AI:从早期实验到通过信任、治理、工作流设计和质量保证实现复合影响。

博客 NVIDIA Blog NVIDIA Blog 05-07
已链接且已加载:Gaijin单点登录现已在GeForce NOW上线
Linked and Loaded: Gaijin Single Sign-On Now Available on GeForce NOW

更快登录,更多游戏时间。GeForce NOW最新更新为成员提供更流畅的游戏体验。

GitHub GitHub Trending · weekly 05-15
apernet/hysteria
apernet/hysteria

Hysteria is a powerful, lightning fast and censorship resistant proxy. Hysteria is a powerful, lightning fast and censorship resistant proxy. Get Started 中文文档 Hysteria 1.x (legacy) 🛠️ Jack of all trades Wide range of modes including SOCKS5, HTTP Proxy, TCP/UDP Forwarding, Linux

GitHub GitHub Trending · weekly 05-15
datawhalechina/easy-vibe
datawhalechina/easy-vibe

💻 vibe coding 2026 | Your first modern Coding course for beginners to master step by step. Jump right in and vibe together — if you can talk, you can build apps. 直接上手,一起 vibe!会说话就会做应用。 🚀 Start Exploring · ✨ Interactive Tutorial · 🦞 Learn OpenClaw · 📖 Table of Contents 🚀 开始体验 · ✨ 交互式教

GitHub GitHub Trending · daily 05-15
tinyhumansai/openhuman
tinyhumansai/openhuman

Your Personal AI super intelligence. Private, Simple and extremely powerful.OpenHuman OpenHuman is your Personal AI super intelligence. Private, Simple and extremely powerful. Discord • Reddit • X/Twitter • Docs • Follow @senamakel (Creator) Early Beta: Under active developm

GitHub GitHub Trending · daily 05-15
shiyu-coder/Kronos
shiyu-coder/Kronos

Kronos: A Foundation Model for the Language of Financial Markets Kronos: A Foundation Model for the Language of Financial Markets Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 Kronos is the first open-source

GitHub GitHub Trending · daily 05-15
roboflow/supervision
roboflow/supervision

We write your reusable computer vision tools. 💜 notebooks | inference | autodistill | maestro 👋 hello We are your essential toolkit for computer vision. From data loading to real-time zone counting, we provide the building blocks so you can focus on building

💬
社区讨论
HN & REDDIT COMMUNITY
20 篇
▲ Hacker News 05-12 ▲ 747 pts · 207 comments
Needle:将Gemini工具调用蒸馏至2600万参数模型
Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model
▲ Hacker News 05-15 ▲ 63 pts · 58 comments
GlycemicGPT:开源AI驱动的糖尿病管理系统
Show HN: GlycemicGPT – Open-source AI-powered diabetes management
🐇 r/speechtech 🎧 05-09
免费无限文本转语音,1000+语音,18种语言,无需注册
Free and unlimited text to speech with 1000+ voices, 18 languages, without signup.
🐇 r/speechtech 🎧 05-11
寻求嘈杂环境中两人说话人分离的帮助
Looking for help for a specific use case of speaker diarization between two individuals in a noisy atmosphere. Have tried Seeed Studio microphone and rasberry p…
🐇 r/audioengineering 🎧 05-12
muso.ai似乎已停运
FYI muso.ai seems to be dead
▲ Hacker News 05-12 ▲ 36 pts · 0 comments
GLiNER模型开发者发布开源LLM护栏模型
Company behind GLiNER model released open source model for running LLM guardrail
🐇 r/MachineLearning 05-15
arXiv实施一年禁令:针对包含LLM幻觉错误的论文
arXiv implements 1-year ban for papers containing incontrovertible evidence of unchecked LLM-generated errors, such as hallucinated references or results. [N]
🐇 r/MachineLearning 05-10
机器学习博士生平均工作时长调查
PhD students in ML, how many hours on average do you work? [D]
🐇 r/MachineLearning 05-13
复杂性理论未能证明ML实现人类水平性能不可能
Human-level performance via ML was *not* proven impossible with complexity theory [D]
🐇 r/MachineLearning 05-12
Steam游戏推荐系统:基于相似度的本科项目
Steam Recommender using similarity! (Undergraduate Student Project) [P]
🐇 r/MachineLearning 05-09
DeepSeek V4完整论文发布:FP4量化训练细节与稳定性技巧
DeepSeek V4 paper full version is out, FP4 QAT details and stability tricks [D]
🐇 r/MachineLearning 05-09
ML博士学位平均发表成果调查
What is an average publication outcome for an ML PhD? [D]
🐇 r/MachineLearning 05-12
TabPFN-3发布:支持百万行数据的表格基础模型
TabPFN-3 just released: a pre-trained tabular foundation model for up to 1M rows [R][N]
🐇 r/MachineLearning 05-13
可扩展视觉Transformer的弹性注意力核心
Elastic Attention Cores for Scalable Vision Transformers [R]
🐇 r/MachineLearning 05-11
小型模型Qwen3 0.6B应用现状:月均288万次下载
Where are small Models like Qwen3 0.6B and Qwen3.5 0.8B used ? Huggingface shows 2.88 million downloads this month.[D]
🐇 r/MachineLearning 05-10
Signals:无需LLM评判器的智能体轨迹信息筛选
Signals: finding the most informative agent traces without LLM judges [R]
🐇 r/MachineLearning 05-10
D4RT类似实现方案调查
Any implementations similar to D4RT? [D]
🐇 r/MachineLearning 05-13
基于Transformer的国际象棋模型:模拟人类思考时间
Trained transformer-based chess models to play like humans (including thinking time) [P]
🐇 r/MachineLearning 05-13
arXiv论文"待审"时长是否延长
Have the "on-hold" durations been getting longer for arXiv submissions? [D]
🐇 r/MachineLearning 05-13
快速与缓慢学习:持续适应的大语言模型
Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]
← 返回简报