知识讲堂 · Jae Daily

算法理论第一讲

潜在空间推理原理

潜在空间推理就像一位建筑师在脑中用三维模型思考空间关系，最终才把结果画成二维图纸——真正的思考发生在连续的内部模型里，语言只是最后的"打印"操作。

历史演进

语言模型的核心矛盾在于：人类语言是离散符号，但思维过程是连续流动的——这一张力驱动了从符号主义到连续潜在空间的整个演进。

1986

分布式表示的诞生

Hinton 在"Distributed Representations"中首次系统论证：符号不应是原子单元，而应被分解为连续向量空间中的激活模式。这一思想奠定了"意义可以几何化"的哲学基础——两个相近概念在向量空间中距离更近，这是后来所有潜在空间工作的根本前提。

2013

Word2Vec 与语义几何的验证

Mikolov 等人发现 $\vec{king} - \vec{man} + \vec{woman} \approx \vec{queen}$，这不只是一个有趣的演示，而是第一次在大规模实验中证明：语言的语义关系可以被编码为潜在空间中的线性几何结构。这使"潜在空间有内在逻辑"从假说变成了可验证的事实。

2014-2016

VAE 与 Seq2Seq：潜在空间作为信息瓶颈

Kingma & Welling 提出变分自编码器（VAE），将潜在空间正式定义为一个概率分布族，引入了"编码-采样-解码"的三段式范式。同期，Sutskever 等人的 Seq2Seq 模型将整个输入序列压缩为单一上下文向量，这是语言模型第一次将"句子级语义"显式存储在连续潜在空间中。尽管后来被注意力机制取代，但这一压缩思想从未消亡。

2017-2019

Transformer 与隐式潜在空间

Vaswani 等人的 Transformer 表面上是 token-by-token 的，但其每一层的隐状态实际上是一个高维连续潜在空间的点。Tenney、Jawahar 等人的探针实验（2019）系统证明：句法信息在低层潜在空间中编码，语义信息在高层编码——Transformer 的层级结构是一个隐式的潜在空间层级。

2022-2024

思维链与潜在推理的分裂

Chain-of-Thought（Wei et al., 2022）通过显式 token 序列模拟推理，但随即引发了一个深刻问题：模型真正的"推理"发生在 token 层面还是隐状态层面？Anthropic 的机械可解释性研究（2023-2024）发现，模型在生成 token 之前，其残差流中已经完成了大量语义计算——token 只是最终的"读出"操作，而非推理本身。

2025-2026

潜在空间原生推理的兴起

Meta 的 COCONUT（Chain of Continuous Thought）、谷歌的 Pause Token 等工作开始直接在潜在空间中执行推理步骤，跳过 token 化过程。这标志着语言模型从"用 token 思考"向"在连续空间中思考、用 token 表达"的范式转变。

核心思想

潜在空间推理的本质是：将离散符号序列映射到高维连续流形上，在该流形的几何结构中执行计算（插值、变换、搜索），再将结果解码回可读符号——推理的真正载体是几何，而非语言。

数学结构

设输入序列 $x = (x_1, \ldots, x_T)$，编码器将其映射到潜在向量 $z \in \mathbb{R}^d$： $$z = f_\theta(x) = \text{Enc}_\theta(x)$$ 在 VAE 框架下，潜在空间被赋予概率结构： $$q_\phi(z|x) = \mathcal{N}(\mu_\phi(x),\ \text{diag}(\sigma^2_\phi(x)))$$ 训练目标为 ELBO（证据下界）： $$\mathcal{L} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - D_{\text{KL}}(q_\phi(z|x) \| p(z))$$ 第一项是重建损失，迫使潜在编码保留足够信息；第二项是正则项，迫使潜在分布接近标准正态，从而使空间连续可插值。这个 KL 项是关键设计选择——没有它，编码器会将每个样本映射到孤立点，空间失去几何意义。在 Transformer 的残差流视角下，第 $l$ 层的隐状态可写为： $$h^{(l)} = h^{(l-1)} + \text{Attn}^{(l)}(h^{(l-1)}) + \text{FFN}^{(l)}(h^{(l-1)})$$ 这是一个在 $\mathbb{R}^d$ 中的迭代精化过程。每一层的 $h^{(l)}$ 都是潜在空间中的一个点，层与层之间的跳跃连接保证了梯度流动，同时使每层的"修正量"可被解释为潜在空间中的位移向量 $\Delta h$。潜在空间的线性探针实验验证了几何结构：若存在线性分类器 $w$ 使得 $w^\top h^{(l)}$ 能预测某语言属性（如句法依存关系），则该属性被线性编码在第 $l$ 层潜在空间中。

工作机制

潜在空间推理的整体逻辑是：将推理问题转化为潜在流形上的几何操作，通过编码→操作→解码三阶段完成从问题到答案的映射，而非逐 token 生成中间步骤。

Step 1语义压缩编码

输入文本经过编码器（Transformer 或专用编码网络）被压缩为低维连续向量 $z$。这一步的关键设计问题是：压缩到多少维？压缩过度会丢失细节，压缩不足则潜在空间失去结构。实践中常用信息瓶颈原理（Tishby et al.）指导维度选择：最优 $z$ 应在保留与任务相关信息的同时最大化压缩率。对于语言模型，这一步通常是隐式的——Transformer 的最后一层隐状态即为潜在表示，无需显式压缩。

Step 2潜在空间几何操作

在潜在空间中执行推理，具体形式取决于任务： - 插值：$z_{\text{new}} = \lambda z_A + (1-\lambda) z_B$，用于风格混合、概念融合； - 方向操作：$z' = z + \alpha \cdot \Delta$，其中 $\Delta$ 是某属性的方向向量（如情感方向），用于可控生成； - 搜索/优化：在潜在空间中用梯度下降寻找满足约束的点，用于逆向生成； - 隐式推理步骤（COCONUT 风格）：将下一步推理的"思考"直接表示为潜在向量，而非强制解码为 token，再将该向量作为下一步的输入。这一步之所以比 token 级推理更强大，是因为连续空间允许任意精度的中间状态，而 token 词表是有限离散的，无法精确表达所有中间概念。

Step 3潜在空间的结构验证与对齐

训练过程中需要保证潜在空间的几何结构有意义。常用方法包括：对比学习（将语义相似样本的潜在向量拉近）、正则化（KL 散度、谱正则化）、以及探针训练（验证特定属性是否线性可分）。没有这一步，潜在空间可能是"折叠的"——表面上是连续空间，实际上语义相邻点在几何上相距甚远。

Step 4条件解码与读出

从潜在向量 $z$ 解码回输出序列，通常使用自回归解码器：$p(y|z) = \prod_t p(y_t | y_{

Step 5潜在推理链（前沿）

COCONUT 等工作将上述流程扩展为多步：$z_0 \to z_1 \to \ldots \to z_K \to y$，每个 $z_i$ 是一个"思考步骤"的潜在表示。与 CoT 不同，这些中间步骤不被解码为 token，因此不受词表约束，可以表达更丰富的中间状态。实现上，通过在训练时用特殊的"思考 token"占位，推理时将其替换为潜在向量的前向传播结果。

长远价值

潜在空间推理是现代深度学习的基础范式，渗透在几乎所有主流系统中：Stable Diffusion 的 latent diffusion、GPT 系列的隐状态分析、语音合成中的风格迁移（如 VALL-E 的声学提示编码）、多模态对齐（CLIP 的共享潜在空间）。它的长远价值在于：只要我们需要在离散符号世界和连续计算世界之间架桥，潜在空间就是不可绕过的核心抽象。未来的多模态大模型、具身智能的感知-行动循环，都将在统一潜在空间中运作。

前沿动向

当前核心开放问题：①潜在空间的可解释性——如何系统性地理解高维流形的局部几何结构？②潜在推理的训练稳定性——COCONUT 类方法在长链推理时梯度消失严重；③跨模态潜在对齐——如何保证视觉、语音、文本的潜在空间在语义上真正对齐而非仅表面相关；④潜在空间的组合性——如何支持结构化的逻辑组合操作。

工程·思维第二讲

mRNA模型极低成本训练

▶ YouTube ▶ B站 ↗ 原始论文

用 165 美元训练 25 物种 mRNA 模型，就像发现所有人类语言的字母表加起来只有 64 个字母——词表极小这一事实让原本需要超级计算机的任务，变成了一台普通服务器周末就能跑完的活儿。

历史演进

科学机器学习长期面临一个结构性困境：生物序列数据稀缺且昂贵，但模型训练的算力成本又居高不下——这一矛盾催生了"如何用最小资源训练最有用的生物基础模型"这一工程命题。

2018-2020

生物序列语言模型的诞生

受 BERT 启发，Rives 等人（Meta AI）于 2019 年提出 ESM（Evolutionary Scale Modeling），将蛋白质序列视为"语言"，用掩码语言模型目标在数百万蛋白质序列上预训练。ESM 证明了一个关键命题：进化压力筛选出的生物序列具有类似自然语言的统计规律，可以用同样的自监督学习范式建模。但 ESM 的训练成本高达数十万美元级别，只有大型机构才能负担。

2021-2022

RNA 与 DNA 模型的兴起与成本困境

随后出现了针对 RNA 序列的基础模型尝试（如 RNA-FM、Nucleotide Transformer），以及针对 DNA 的 DNABERT。这些模型普遍面临同一问题：跨物种数据分布差异巨大，直接混合训练效果差；而分物种训练成本又成倍增加。多数团队只能选择单物种或少数物种，严重限制了模型的泛化能力。

2023

mRNA 的特殊性被重新认识

mRNA 不同于基因组 DNA——它是功能性的中间产物，直接决定蛋白质合成，且在不同物种间具有相对保守的结构特征（5'UTR、编码区、3'UTR、poly-A 尾）。COVID-19 疫苗的成功使 mRNA 工程成为热点，随之而来的是对 mRNA 序列设计的计算需求爆炸式增长。研究者开始意识到：mRNA 的模块化结构使其比基因组 DNA 更适合跨物种建模。

2024-2025

极低成本训练的工程突破

社区开始系统性地探索在极低预算下训练跨物种生物基础模型的可能性。关键工程洞见逐渐浮现：①mRNA 序列的词表远小于自然语言（仅 4 个碱基 + 特殊 token），tokenization 效率极高；②跨物种的保守区域（如密码子偏好性）可以作为天然的"跨语言对齐"信号，无需额外标注；③小批量、长序列、低学习率的训练配置在生物序列上比 NLP 标准配置更稳定；④公开数据库（NCBI RefSeq、Ensembl）提供了足够覆盖 25+ 物种的高质量 mRNA 序列，无需昂贵的私有数据。165 美元完成 25 物种 mRNA 语言模型训练的报告，正是这一系列工程优化积累的结果——它不是偶然，而是方法论成熟的标志。

2025-2026

科学 ML 民主化的工程范式转变

这一事件引发了更广泛的讨论：生物基础模型是否真的需要大机构的资源？社区开始系统整理"科学 ML 极低成本训练"的工程 checklist，包括：数据去冗余策略、序列长度分桶、混合精度训练在生物序列上的适配、以及如何用课程学习（先单物种后跨物种）降低训练不稳定性。

核心思想

用极低成本训练跨物种生物序列模型的核心工程洞见是：生物序列的词表极小、结构保守性提供天然对齐信号、公开数据库已足够丰富——这三点叠加使得"小词表+长序列+公开数据"的配置能以百美元级成本达到原本需要数万美元的效果。

数学结构

生物序列语言模型的训练目标通常是掩码语言模型（MLM）损失： $$\mathcal{L}_{\text{MLM}} = -\sum_{i \in \mathcal{M}} \log p_\theta(x_i | x_{\setminus \mathcal{M}})$$ 其中 $\mathcal{M}$ 是被掩码的位置集合，$x_{\setminus \mathcal{M}}$ 是未被掩码的上下文。计算成本的核心公式（Chinchilla 定律的生物序列版本）： $$C \approx 6 \cdot N \cdot D$$ 其中 $C$ 是总浮点运算数（FLOPs），$N$ 是模型参数量，$D$ 是训练 token 数。对于 mRNA 模型，词表大小 $|V| \approx 64$（密码子级 tokenization）或 $|V| = 4$（碱基级），远小于 NLP 的 $|V| \approx 50000$。这使得 embedding 层参数量 $N_{\text{emb}} = |V| \times d$ 极小，同等参数预算下可以将更多容量分配给 Transformer 层。跨物种训练的数据混合比例优化：设物种 $s$ 的数据量为 $n_s$，混合权重为 $w_s$，则有效训练分布为 $p(x) = \sum_s w_s p_s(x)$。实践中常用温度采样：$w_s \propto n_s^{1/T}$，$T > 1$ 时上采样小物种数据，防止大物种（如人类）主导训练，这对跨物种泛化至关重要。 GPU 小时成本估算：$\text{Cost} = \frac{C}{\text{GPU\_FLOPS} \times \text{MFU}} \times \text{price\_per\_hour}$，其中 MFU（模型浮点利用率）在生物序列短批量训练中通常只有 0.3-0.5，是成本优化的主要抓手。

工作机制

极低成本跨物种 mRNA 模型训练的整体逻辑是：通过词表压缩、数据精选、序列分桶和混合精度四个层面的协同优化，将原本需要数万美元的训练任务压缩到百美元量级，同时不牺牲跨物种泛化能力。

Step 1Tokenization 策略选择

mRNA 序列的基本单元是核苷酸（A/U/G/C），但直接用碱基级 tokenization 会产生极长序列（人类 mRNA 平均约 2000 nt）。更优的选择是密码子级 tokenization：将每 3 个碱基（一个密码子）作为一个 token，词表大小从 4 压缩到 64（20 种氨基酸对应的密码子 + 终止密码子 + 特殊 token）。这一选择不是任意的——密码子是 mRNA 的自然功能单元，密码子级 tokenization 使模型天然对齐生物学语义，同时将序列长度缩短 3 倍，显著降低注意力计算的二次复杂度 $O(L^2)$。

Step 2数据精选与去冗余

NCBI RefSeq 等公开数据库包含大量冗余序列（同一基因的多个转录本、高度同源的直系同源基因）。直接训练会导致模型过拟合到高频序列模式。工程实践是：用 CD-HIT 或 MMseqs2 在序列相似度 90% 阈值下去冗余，保留多样性最大的子集。对于 25 个物种，去冗余后的有效训练集通常在 500 万到 2000 万序列之间，足以支撑中等规模模型（100M-500M 参数）的充分训练，而无需昂贵的私有数据。

Step 3序列分桶与动态批处理

mRNA 序列长度分布极不均匀（从数百到数万 nt），直接 padding 到最大长度会浪费大量计算。工程解法是序列长度分桶（Bucketing）：将相近长度的序列分到同一批次，每个桶内 padding 到桶内最大长度。这一策略可将有效 token 利用率从 40% 提升到 85% 以上，直接对应 2 倍以上的训练效率提升。实现上，使用 PyTorch 的 `DistributedSampler` 配合自定义 `BatchSampler` 即可实现，无需修改模型代码。

Step 4跨物种课程学习

直接混合 25 个物种训练会导致早期训练不稳定——模型同时面对人类、酵母、拟南芥等差异巨大的序列分布，损失震荡严重。工程解法是两阶段课程：第一阶段在数据最丰富的 3-5 个模式物种（人类、小鼠、斑马鱼等）上预热训练，让模型学习 mRNA 的基本语法；第二阶段引入全部 25 个物种，用温度采样混合（$T=2$）保证小物种被充分学习。这一策略将最终的跨物种零样本泛化性能提升约 15-20%，且不增加总训练 token 数。

Step 5混合精度与梯度检查点的协同

在 A100/H100 上使用 BF16 混合精度训练，生物序列模型的数值稳定性优于 FP16（因为 BF16 的指数位更多，能处理 mRNA 嵌入中偶发的大梯度）。对于超过 GPU 显存的长序列，启用梯度检查点（Gradient Checkpointing）以时间换空间：重新计算前向传播的中间激活而非存储它们，显存占用降低约 60%，训练速度损失约 20%。在 165 美元的预算约束下，这一权衡是必要的——它允许在单张 A100（约 3 美元/小时）上训练原本需要多卡的模型规模。

长远价值

这一工程范式的意义超越了 mRNA 本身：它证明了科学基础模型的训练成本可以被系统性地压缩到个人研究者可负担的量级。直接影响包括：推动了生物信息学社区的民主化（不再只有 DeepMind、Meta 能做基础模型）；为低资源物种（非模式生物）的基因组研究提供了工具；其工程方法论（词表压缩、分桶、课程学习）可直接迁移到化学分子、蛋白质、基因组等其他科学序列领域。

前沿动向

当前开放问题：①密码子级 tokenization 是否最优，还是应该用 BPE 自适应学习生物序列的词表？②跨物种训练中如何处理物种特异性的非编码区（UTR）——它们对翻译效率至关重要但跨物种保守性低；③如何将极低成本训练的 mRNA 模型与蛋白质结构预测（AlphaFold）对接，实现端到端的序列-结构-功能预测；④训练数据的质量注释（如翻译效率实验数据）如何以最小成本融入预训练。

潜在空间推理原理

mRNA模型极低成本训练

往期讲解档案 37 个知识点