人类对话天然是全双工的——说话者可以同时发声、打断、重叠,而机器对话系统长期被迫退化为半双工的"乒乓模式",根本动因是:如何让模型在连续时间流中同时感知和生成语音,而非等待对方停止。
社会学家 Harvey Sacks、Emanuel Schegloff 和 Gail Jefferson 在 1974 年发表的《A Simplest Systematics for the Organization of Turn-Taking for Conversation》奠定了轮流说话(turn-taking)的理论框架。他们发现人类对话存在"转换相关位置"(Transition Relevance Place, TRP),说话者通过韵律、句法、视线等多模态信号预测对方何时结束。这一发现揭示了对话的本质不是"等待沉默",而是"预测意图"——这成为后来所有计算模型的理论基石。
早期语音对话系统(如 AT&T 的 DARPA Communicator)依赖能量阈值和固定静音时长(通常 500ms–800ms)判断说话结束,称为端点检测(End-Point Detection, EPD)。这种方式导致系统响应延迟高达 1–2 秒,且无法处理填充词("um"、"uh")和短暂停顿。Stiefelhagen 等人在 2002 年的多模态会议系统中尝试引入视觉信号辅助轮次预测,但计算代价过高,难以实时部署。
随着深度学习兴起,研究者开始用 LSTM 对说话人轮次进行序列建模。Skantze(2017)在《Towards a General, Continuous Model of Turn-taking in Spoken Dialogue Systems》中提出连续轮次预测模型,用声学特征(F0、能量、语速)预测说话人何时会停止,延迟降至 200ms 以内。与此同时,语音活动检测(VAD)从简单的能量检测演进为基于 RNN 的序列标注,Silero VAD(2021)将实时 VAD 推向工业级精度。
GPT-4o(2024)的语音模式首次向公众展示了真正的全双工交互——模型可以在用户说话时被打断、实时调整语气。其背后的核心是将语音流建模为连续 token 序列,用自回归模型同时处理输入和输出流。Google 的 AudioPaLM、Meta 的 Spirit LM 以及 ICASSP 2026 挑战赛所关注的系统,都在探索如何在单一神经网络中统一"听"与"说"的时间流,使系统具备真正的并发感知-生成能力。这标志着对话系统从状态机范式向连续时间神经过程的根本性跃迁。
全双工系统的核心数学挑战是在同一时间轴上联合建模两个说话人的语音流。 设两个说话人的语音信号为 $x_A(t)$ 和 $x_B(t)$,混合观测为 $y(t) = x_A(t) + x_B(t) + \epsilon(t)$,其中 $\epsilon(t)$ 为噪声。 轮次预测的核心是建模转换概率。定义在时刻 $t$ 发生说话人切换的概率为: $$P(\text{switch} \mid h_t) = \sigma(W_s \cdot h_t + b_s)$$ 其中 $h_t$ 是编码了历史声学特征(F0轨迹、能量包络、语速)的隐状态向量,$\sigma$ 为 sigmoid 函数。$h_t$ 通常由双向 LSTM 或 Transformer 编码: $$h_t = \text{Encoder}(x_{t-T:t}, \text{prosody}_{t-T:t})$$ 并发生成的难点在于因果约束:系统在生成 $\hat{x}_B(t)$ 时只能看到 $t$ 时刻之前的 $x_A$。用自回归框架表达为: $$P(\hat{x}_B^{(1:T)}) = \prod_{t=1}^{T} P(\hat{x}_B^{(t)} \mid x_A^{(1:t)}, \hat{x}_B^{(1:t-1)})$$ 这与标准语音合成的区别在于:条件 $x_A^{(1:t)}$ 是实时流入的,而非预先给定的完整序列。因此模型必须在每个时间步做出"继续生成"还是"停止让步"的决策,形成一个在线决策过程,可用强化学习中的策略梯度来优化响应延迟与自然度之间的权衡。
全双工对话系统的整体逻辑是:将对话建模为两条并行的因果语音流,通过实时感知对方状态来动态调度自身的生成行为,而非等待显式的"结束信号"。
系统以极低延迟(通常 20–80ms 帧移)持续将输入语音编码为紧凑表示。为什么不等完整句子?因为全双工的核心价值在于亚句子级响应——人类平均在对方句子结束前 200ms 就开始规划回应。实现上通常使用流式 Conformer 或 Causal Transformer,配合 chunk-wise 注意力(每次只看固定窗口的历史帧),确保编码延迟可控。关键参数:chunk size 通常为 40–160ms,是延迟与上下文的权衡点。
在声学编码之上,系统持续预测三类事件的概率:①对方即将结束(TRP 检测);②对方在填充词/短暂停(不应打断);③对方在主动邀请回应(back-channel 信号)。为什么需要区分这三类?因为简单的 VAD 只能检测"有无声音",无法区分"思考中的停顿"和"真正的结束"。现代系统用多任务学习同时预测这三个标签,共享底层声学编码器,各任务有独立的分类头。韵律特征(F0下降、能量衰减、语速减慢)是最强的 TRP 预测信号。
系统维护一个"生成缓冲区":当 TRP 概率超过阈值时,触发语音合成模块开始生成回应的前几个 token(预生成,pre-generation)。若对方继续说话(TRP 预测错误),则丢弃缓冲区并重置;若对方确实停止,则无缝衔接输出,实现接近零延迟的响应。这类似于 CPU 的分支预测——提前执行最可能的路径,错误时回滚。关键工程细节:预生成的 token 数量(look-ahead budget)是延迟与计算代价的核心超参,通常为 50–200ms 的音频。
当系统正在生成语音时,若检测到用户开始说话(能量突增 + VAD 激活),系统需要决定:①继续说完当前句子;②立即停止让步;③发出简短的 back-channel("嗯"、"对")表示在听。这一决策由一个轻量级在线策略网络控制,输入为当前生成进度、用户语音能量、以及对话历史的语义状态。训练信号来自人类对话数据中的自然打断标注,或通过强化学习优化用户满意度代理指标。
全双工系统最隐蔽的难点是"语义状态漂移":系统在预生成回应时,对方可能说出改变语义方向的内容,导致已生成的语音与新语境不符。解决方案是维护一个可回滚的语义状态缓存,每隔固定时间步将当前对话语义状态做快照,一旦检测到语义跳变(通过嵌入距离衡量),触发生成内容的重新规划。这是全双工系统区别于简单流式 TTS 的核心工程挑战。
全双工对话建模是语音 AI 从"工具"走向"伙伴"的关键技术门槛。GPT-4o 语音模式的惊艳体验本质上来自全双工能力——它能在用户说话时被打断并立即调整,这在半双工系统中根本不可能实现。在客服机器人、语音助手、实时翻译、远程医疗问诊等场景中,全双工能力直接决定用户体验的自然度。ICASSP 2026 专门设立挑战赛,说明学界已将其视为下一个核心基准任务。
当前核心开放问题:①如何在端到端模型中统一"听"与"说"而不引入额外延迟(现有系统仍有 150–300ms 感知延迟);②多说话人重叠场景下的语义解缠仍不稳定;③如何在低资源语言中获取足够的全双工对话标注数据;④情感状态的实时同步——系统如何感知并响应用户的情绪变化而非仅响应内容。