人类听觉系统天然融合视觉与听觉信息——在嘈杂环境中我们会不自觉地"读唇",这一现象驱动研究者将视觉口型信息引入自动语音识别,以突破纯音频系统在低信噪比场景下的性能天花板。
早在20世纪50年代,听力学家就发现聋哑人通过唇形可以理解约30%的语音内容。这一发现奠定了"视觉语音信息具有独立语义价值"的认知基础,但彼时计算机视觉尚未成熟,工程化遥不可及。
Harry McGurk 与 John MacDonald 在 *Nature* 发表实验:当视觉口型"/ga/"与音频"/ba/"同步呈现时,被试感知到的是"/da/"。这一跨模态融合幻觉从神经科学层面证明大脑皮层对视听信息进行了强耦合整合,为多模态语音识别提供了生物学动机。
牛津大学 Assael 等人发布 LipNet,首次用端到端 LSTM + CTC 架构在 GRID 语料库上实现句子级唇读,词错误率从传统方法的约 80% 降至 11.4%。同年 Chung & Zisserman 提出 VGG-M 架构的 Lip Reading in the Wild(LRW),建立了大规模唇读基准。这两项工作标志着深度学习正式接管视觉语音领域。
CMU、Google 等团队开始探索音频-视频双流融合:分别用 CNN 提取唇部特征和声学特征,再通过注意力机制或简单拼接融合。但这些方法依赖大量标注数据,泛化能力有限。
Meta AI Research 的 Shi 等人在 ICLR 2022 发表 AV-HuBERT(Audio-Visual Hidden Unit BERT),将 HuBERT 的自监督聚类思想扩展到视听双模态:同时对音频帧和视频帧进行 K-means 伪标签预测,迫使模型学习跨模态对齐表示。在 LRS3 基准上,AV-HuBERT 将唇读 WER 从 57.8% 降至 26.9%,并在噪声条件下大幅超越纯音频系统。这是视听语音识别的里程碑。
随着大语言模型的崛起,研究者开始将 Whisper、LLaMA 等 LLM 作为解码器接入视听编码器(即今日论文 VisG AV-HuBERT 的路线)。视素(Viseme)——即视觉上可区分的口型类别——被显式引入作为中间监督信号,帮助模型在视觉编码阶段就建立语音学约束,而非完全依赖 LLM 的语言先验来"猜测"模糊音素。
设音频特征序列为 $\mathbf{A} = \{a_t\}_{t=1}^{T_a}$,视频唇部特征序列为 $\mathbf{V} = \{v_t\}_{t=1}^{T_v}$,由于音频帧率(通常 100fps)高于视频帧率(25fps),需先对齐到统一时间轴。 AV-HuBERT 自监督目标:对融合后的表示 $\mathbf{H} = f_\theta(\mathbf{A}, \mathbf{V})$,预测离线 K-means 聚类得到的伪标签 $\hat{z}_t$: $$\mathcal{L}_{AV} = -\sum_{t \in \mathcal{M}} \log p_\theta(\hat{z}_t \mid \mathbf{H}_{\backslash \mathcal{M}})$$ 其中 $\mathcal{M}$ 为随机掩码位置集合,$\mathbf{H}_{\backslash \mathcal{M}}$ 表示未掩码的上下文。关键设计在于:掩码仅施加在音频流上,视频流保持完整,强迫模型从视觉信息中恢复被遮蔽的音频语义。 视素引导损失(VisG 扩展):引入视素分类辅助任务,设视素标签为 $y^{vis}$,视觉编码器输出为 $\mathbf{V}^{enc}$: $$\mathcal{L}_{vis} = \text{CrossEntropy}(W_{vis} \cdot \mathbf{V}^{enc},\ y^{vis})$$ 总损失为 $\mathcal{L} = \mathcal{L}_{ASR} + \lambda \mathcal{L}_{vis}$,其中 $\lambda$ 平衡两个目标。视素标签将44个英语音素映射到约14个视觉可区分类别(如 /p,b,m/ 共享同一唇形),这种有损映射恰好对应视觉信息的物理极限,避免模型被迫学习视觉上不可区分的细粒度差异。 融合机制:早期融合(Early Fusion)直接拼接 $[\mathbf{A}; \mathbf{V}]$ 后送入 Transformer;晚期融合(Late Fusion)分别编码后加权求和 $\alpha \cdot \mathbf{H}^A + (1-\alpha) \cdot \mathbf{H}^V$,其中 $\alpha$ 可由噪声估计动态调整。
视听语音识别系统的整体逻辑是:用视频流提供"口型先验",用音频流提供"声学证据",通过自监督预训练学习两者的对齐关系,再用 LLM 解码器注入语言先验,三层信息互补形成鲁棒识别。
音频流:原始波形经 80维 Mel 滤波器组得到声学特征,再通过 1D CNN 下采样;视频流:以嘴部 ROI(通常 96×96 像素)为输入,经 3D ResNet(如 ResNet-18 with 3D Conv 第一层)提取时空特征,输出 25fps 的视觉特征向量。为什么用 3D Conv:唇部运动是时序连续的,单帧静态特征无法捕捉开合速度等动态信息,3D Conv 天然建模短时时序依赖。
由于音视频帧率不同,视频特征通过线性插值或重复采样对齐到音频时间轴。融合策略分三类:①特征拼接(简单但有效):$\mathbf{H}_t = [\mathbf{a}_t; \mathbf{v}_t]$;②交叉注意力:以音频查询视频键值,$\text{Attn}(\mathbf{Q}^A, \mathbf{K}^V, \mathbf{V}^V)$;③动态权重融合:根据实时 SNR 估计动态调整 $\alpha$,低 SNR 时增大视觉权重。AV-HuBERT 采用方案①,简洁高效。
预训练阶段无需任何转录标注。具体流程:①对音频流随机掩码(掩码率约 50%),视频流保持完整;②将融合特征送入 Transformer 编码器;③用离线 K-means(聚类数 K=100~500)生成伪标签;④用掩码位置的输出预测对应伪标签(类似 BERT 的 MLM)。关键洞察:当音频被掩码时,模型只能依靠视频信息来预测该时刻的"声音类别",这强制建立了视听对齐。迭代训练中,伪标签质量随模型提升而提升,形成自举循环。
在视觉编码器顶部添加轻量分类头,预测当前帧对应的视素类别。视素是音素的视觉等价物——英语约 44 个音素可归并为 14 个视觉可区分类别(例如双唇音 /p,b,m/ 在视觉上无法区分)。这一辅助任务的价值在于:①为视觉编码器提供语音学约束,防止其学习与语音无关的面部特征;②明确告知模型视觉信息的"分辨率上限",避免过拟合视觉上不可区分的细节。
将编码器输出通过线性投影层映射到 LLM 的嵌入空间,使用 Whisper 或 LLaMA 作为解码器进行有监督微调。关键工程问题:LLM 的语言先验可能"压制"声学证据——当 LLM 对某个词有强烈偏好时,即使声学/视觉证据指向另一个词,LLM 也可能输出错误结果。VisG 论文的核心贡献之一就是通过消融实验量化了"语言建模贡献"与"视听编码贡献"的相对比例,发现 LLM 解码器贡献了约 40% 的性能提升,视听编码器贡献约 60%。
AV-HuBERT 已成为视听语音识别领域的标准基线,被 Meta、Google、Microsoft 等公司的语音产品研究所引用。在实际部署中,视听融合对视频会议降噪(如 Zoom、Teams 的噪声抑制)、无障碍字幕生成(为听障人士服务)、车载语音助手(引擎噪声场景)具有直接价值。随着端侧摄像头普及,视听 ASR 将成为下一代语音交互的标配能力,其自监督预训练范式也为多模态基础模型提供了方法论参考。
当前核心开放问题:①说话人无关的唇部建模——不同人种、胡须、口罩遮挡导致视觉特征分布漂移;②实时低延迟推理——视频流处理引入额外计算开销,端侧部署困难;③跨语言视素迁移——英语视素体系无法直接迁移到声调语言(如普通话);④音视频不同步鲁棒性——网络抖动导致的视听时间偏移如何在线校正。