知识讲堂 · Jae Daily

算法理论第一讲

信息瓶颈原理演进

信息瓶颈就像一个优秀的新闻编辑：把一篇万字报道压缩成200字摘要，但必须保留所有影响读者判断的关键事实，删掉的只是与结论无关的细节。

历史演进

信息瓶颈（Information Bottleneck, IB）诞生的根本动因是：如何从信息论角度严格定义"好的表示"——即在压缩输入的同时最大程度保留与任务相关的信息，从而为表示学习提供一个有数学基础的目标函数。

1959年

率失真理论奠基

Shannon 在《Coding Theorems for a Discrete Source with a Fidelity Criterion》中建立率失真理论（Rate-Distortion Theory），证明了在给定失真约束下信息压缩的理论极限 $R(D)$。这是 IB 的直接前身：率失真理论关心"用多少比特重建输入"，而 IB 关心的是"用多少比特预测标签"。两者的本质区别在于相关性目标的替换——从重建转向预测。

1999年

Tishby 提出信息瓶颈框架

Naftali Tishby、Fernando Pereira 和 William Bialek 在《The Information Bottleneck Method》（UAI 1999）中正式提出 IB 框架。核心思想是：给定输入 $X$ 和标签 $Y$，寻找一个压缩表示 $T$，使得 $I(X;T)$ 尽量小（压缩）而 $I(T;Y)$ 尽量大（保留相关性）。他们用拉格朗日乘子将两个目标合并，并给出迭代求解算法（Blahut-Arimoto 类算法）。这是第一次将"好的特征"定义为信息论意义上的最优压缩。

2017年

Tishby & Schwartz-Ziv 的深度学习 IB 假说

Tishby 在 ITW 2017 发表《Opening the Black Box of Deep Neural Networks via Information》，提出深度神经网络的训练过程可以用 IB 平面（$I(X;T)$ vs $I(T;Y)$）来解释，认为 SGD 训练分为两个阶段：先拟合（fitting）再压缩（compression）。这一假说引发了巨大争议，Saxe 等人（ICLR 2018）随后指出压缩阶段依赖激活函数选择，并非普遍现象，但这场争论极大推动了学界对神经网络表示的信息论分析。

2017年

变分信息瓶颈（VIB）

Alemi 等人（Google Brain，ICLR 2017）发表《Deep Variational Information Bottleneck》，将 IB 目标与变分推断结合，用神经网络参数化编码器 $q_\phi(T|X)$ 和解码器 $p_\theta(Y|T)$，并用 KL 散度上界替代难以计算的互信息，使 IB 目标可以端到端梯度优化。VIB 本质上是 $\beta$-VAE 的有监督版本，为后续大量工作提供了实用框架。

2019年至今

音视频与多模态 IB 的扩展

IB 思想被广泛引入语音、音视频表示学习领域。包括：用 IB 约束去除说话人信息保留内容（用于语音转换）、用边界感知 IB 在唱歌风格转换中防止风格泄漏（如今日论文 [24] 所示）、以及在音视频对比学习中用 IB 控制跨模态信息流。这一方向的核心挑战是如何在有限数据下精确估计互信息。

核心思想

信息瓶颈本质上是在做一件事：找到输入 $X$ 的最小充分统计量 $T$——压缩掉与标签 $Y$ 无关的所有信息，同时保留预测 $Y$ 所需的全部信息，是率失真理论从"重建"到"预测"的一次根本性转向。

数学结构

IB 的优化目标是一个约束优化问题，用拉格朗日乘子 $\beta$ 将其转化为无约束形式： $$\mathcal{L}_{IB} = I(T; Y) - \beta \cdot I(X; T)$$ 其中 $I(\cdot;\cdot)$ 表示互信息，$T$ 是从 $X$ 提取的压缩表示，$Y$ 是预测目标，$\beta > 0$ 控制压缩与保留的权衡。互信息定义为：$I(X;T) = \mathbb{E}_{p(x,t)}\left[\log \frac{p(t|x)}{p(t)}\right]$ 由于直接计算互信息在连续高维空间中不可行，VIB（Alemi et al., 2017）引入变分下界： $$I(T;Y) \geq \mathbb{E}_{p(x,y)}\mathbb{E}_{q(t|x)}[\log q_\theta(y|t)]$$ $$I(X;T) \leq \mathbb{E}_{p(x)}\left[D_{KL}(q_\phi(t|x) \| r(t))\right]$$ 其中 $q_\phi(t|x)$ 是参数化编码器（通常输出高斯分布的均值和方差），$r(t)$ 是先验分布（通常取标准正态 $\mathcal{N}(0,I)$），$q_\theta(y|t)$ 是解码器。最终可优化的目标为： $$\mathcal{L}_{VIB} = \mathbb{E}_{q_\phi(t|x)}[\log q_\theta(y|t)] - \beta \cdot D_{KL}(q_\phi(t|x) \| r(t))$$ 这与 $\beta$-VAE 的 ELBO 形式完全一致，区别在于重建项被替换为判别项 $\log q_\theta(y|t)$。$\beta=1$ 时退化为标准 VAE 的有监督版本；$\beta \to 0$ 时退化为普通判别模型；$\beta \to \infty$ 时 $T$ 退化为与 $X$ 无关的常数。这一参数的几何意义是在 IB 平面上沿最优曲线移动的速率。

工作机制

VIB 的整体工作逻辑是：用一个随机编码器将输入映射到瓶颈分布，通过 KL 散度惩罚控制瓶颈的"宽度"，再用解码器从瓶颈重建预测目标，三者联合端到端训练。

Step 1随机编码器参数化

编码器 $f_\phi: X \to (\mu, \sigma)$ 将输入映射为高斯分布的参数，而非确定性向量。为什么要用随机编码器而非确定性映射？因为确定性映射的互信息 $I(X;T)$ 在连续空间中要么为 0 要么为无穷，无法有效约束。引入随机性后，$I(X;T)$ 由 $\sigma$ 的大小隐式控制：$\sigma$ 越大，$T$ 对 $X$ 的依赖越弱，压缩越强。实现细节：编码器输出 $\mu_\phi(x) \in \mathbb{R}^d$ 和 $\log\sigma_\phi(x) \in \mathbb{R}^d$，采样时用重参数化技巧 $t = \mu + \sigma \odot \epsilon$，$\epsilon \sim \mathcal{N}(0,I)$，保证梯度可以反传。

Step 2KL 散度计算（压缩项）

对每个样本计算 $D_{KL}(q_\phi(t|x) \| \mathcal{N}(0,I))$，在高斯假设下有解析解：$D_{KL} = \frac{1}{2}\sum_{j=1}^d (\mu_j^2 + \sigma_j^2 - \log\sigma_j^2 - 1)$。这一项惩罚编码器将不同输入映射到差异过大的分布，迫使网络只保留对预测有用的信息。关键设计选择：先验选 $\mathcal{N}(0,I)$ 而非数据边际分布 $p(t)$，是因为后者难以计算，而前者给出 KL 的解析上界，且在实践中效果良好。

Step 3解码器优化（相关性项）

解码器 $g_\theta: T \to \hat{Y}$ 从瓶颈表示预测标签，优化 $\mathbb{E}[\log q_\theta(y|t)]$，即最大化条件似然。对分类任务这等价于交叉熵损失，对回归任务等价于 MSE。由于 $t$ 是随机采样的，解码器被迫学习对瓶颈噪声鲁棒的预测函数，这天然提供了正则化效果。实现中通常对每个样本采样多次（Monte Carlo 估计），但实践中采样一次已足够。

Step 4$\beta$ 的调度与边界感知扩展

$\beta$ 不仅是超参数，更是控制表示"粒度"的旋钮。在语音/音频应用中（如今日论文 [24] 的唱歌风格转换），研究者引入"边界感知"机制：在音素/音节边界处动态调整 $\beta$，使边界处的表示更加压缩（去除跨边界的风格泄漏），边界内部保留更多细节。具体实现：用边界检测器输出边界概率 $b_t \in [0,1]$，令 $\beta_t = \beta_{base} + \alpha \cdot b_t$，在边界处施加更强的 KL 惩罚。这是 IB 从静态超参数到动态自适应的重要演进。

Step 5互信息估计的替代方案

除 VIB 的变分上下界外，近年还有 MINE（Mutual Information Neural Estimation，Belghazi et al., ICML 2018）直接用神经网络估计互信息，以及 CPC（Contrastive Predictive Coding）用对比损失作为互信息下界的代理。在音视频多模态场景中，CPC 类方法更常用，因为它不需要显式的生成模型。

python # VIB 核心实现示意 class VIBEncoder(nn.Module):     def forward(self, x):         mu, log_sigma = self.net(x).chunk(2, dim=-1)         sigma = log_sigma.exp()         # 重参数化采样         t = mu + sigma * torch.randn_like(sigma)         # KL 散度（压缩项）         kl = 0.5 * (mu**2 + sigma**2 - log_sigma*2 - 1).sum(-1).mean()         return t, kl  # 总损失 loss = cross_entropy(decoder(t), y) + beta * kl

长远价值

VIB 已成为表示学习的核心工具之一，在语音转换（去除说话人身份保留内容）、说话人匿名化、音视频去噪、以及多模态对齐中广泛应用。Google Brain 将其用于对抗样本鲁棒性研究，Meta AI 将 IB 思想融入自监督学习框架（如 data2vec）。在工业界，Spotify、字节跳动的音乐推荐系统中也有 IB 启发的解耦表示设计。其价值在于提供了一个有理论保证的正则化框架，而非启发式 dropout。

前沿动向

当前热点包括：①非高斯先验下的 IB（用 Flow 或 VQ 替代高斯瓶颈）；②图结构数据上的 IB（Graph IB）；③大语言模型的 IB 解释——Transformer 的注意力层是否实现了某种 IB 压缩？④互信息估计的样本效率问题（高维时 MINE 方差极大）；⑤条件 IB 用于多模态对齐中的模态特异性信息分离，仍是开放问题。

工程·思维第二讲

Safetensors格式工程哲学

▶ YouTube ▶ B站 ↗ 原始论文

Safetensors 就像把"可以藏暗器的锦盒"换成了"透明玻璃盒"——你一眼就能看清里面装的是什么，而且玻璃盒本身的结构决定了它根本没有夹层可以藏东西，安全性来自设计而非检查。

历史演进

Safetensors 诞生的根本动因是：pickle 格式在机器学习模型序列化中存在根本性的安全漏洞和性能瓶颈，而整个 AI 工程生态迫切需要一个"无聊但正确"的替代方案。

2008年前后

pickle 的原罪

Python 的 pickle 格式自 1990 年代起就是 Python 对象序列化的事实标准。PyTorch 的 `.pt`/`.pth` 文件本质上是 pickle 文件，加载时会执行文件中嵌入的任意 Python 字节码。这意味着：下载并加载一个恶意模型文件，等价于在你的机器上执行任意代码。2022 年，安全研究员 Yannic Kilcher 等人公开演示了通过 HuggingFace Hub 上传恶意 `.pt` 文件实现远程代码执行（RCE）的完整攻击链。这不是理论漏洞——HuggingFace 平台每天有数百万次模型下载，攻击面极大。

2022年

HuggingFace 设计并发布 Safetensors

HuggingFace 工程师（主要是 Nicolas Patry）设计了 Safetensors 格式，核心设计原则只有一个：格式中不能包含任何可执行代码。文件结构极其简单：前8字节是 header 长度（小端 uint64），随后是 JSON header（描述每个张量的名称、dtype、shape、数据偏移量），最后是原始二进制张量数据的连续存储。JSON 是纯数据格式，不可执行；原始二进制数据是数字，不可执行。整个格式的安全性来自于"没有任何机制可以执行代码"这一结构性保证，而非依赖沙箱或扫描。

2022-2023年

性能发现：mmap 带来的意外红利

Safetensors 的另一个关键设计是：张量数据在文件中按原始内存布局存储，且每个张量的起始偏移量对齐到8字节边界。这使得操作系统的内存映射（mmap）可以直接将文件页映射到进程地址空间，无需将整个文件读入内存。实测数据显示，在加载 LLaMA-7B（~13GB）时，Safetensors 比 pickle 快 76.6 倍（HuggingFace 官方 benchmark，2023）。更重要的是，多进程加载同一模型时，mmap 的页面可以被操作系统在进程间共享（Copy-on-Write），显著降低多副本部署的内存占用。

2023年

生态快速收敛

Safetensors 在不到一年内成为 HuggingFace Hub 的默认格式，Transformers、Diffusers、PEFT 等主流库全部切换。Stability AI、Mistral AI 发布的模型也默认使用 Safetensors。2024 年，GGUF（llama.cpp 的格式）、MLX（Apple 的格式）均借鉴了 Safetensors 的核心设计哲学：header 与数据分离、零拷贝可寻址。

2025年

加入 PyTorch 基金会

Safetensors 正式加入 PyTorch 基金会（即今日博客 [20]），标志着它从 HuggingFace 的内部工具演变为整个 PyTorch 生态的基础设施组件，与 torch.compile、TorchInductor 等处于同等地位。这是一个格式标准从"某公司的选择"演变为"行业基础设施"的典型案例。

核心思想

Safetensors 本质上是一个"无聊的正确工程决策"：用最简单的文件结构（JSON header + 原始二进制）彻底消除 pickle 的代码执行能力，同时因为结构简单反而获得了 mmap 零拷贝加载的性能红利——安全性和性能都来自同一个设计原则：格式越简单越好。

数学结构

N/A（Safetensors 的核心是工程设计而非数学，但以下给出文件格式的精确规范）文件二进制布局：

[8 bytes: header_size (uint64 LE)] [header_size bytes: JSON] [tensor data...]

JSON header 结构：

json {   "tensor_name": {     "dtype": "F32",     "shape": [1024, 4096],     "data_offsets": [0, 16777216]   },   "__metadata__": {"format": "pt"} }

`data_offsets` 是相对于数据区起始位置的字节偏移 $[start, end)$，满足： $$offset_{start} \equiv 0 \pmod{8}$$ 即8字节对齐，保证在大多数硬件上的原子访问和 SIMD 加载效率。张量 $i$ 的字节大小：$size_i = \prod_j shape_i[j] \times sizeof(dtype_i)$ 总文件大小：$8 + |header_{JSON}| + \sum_i size_i$（加上必要的对齐填充）这个"数学"的意义在于：整个格式可以在不执行任何代码的情况下被完全解析——只需读8字节整数、解析 JSON、做指针算术。

工作机制

Safetensors 的整体工作逻辑是：先读 header 建立张量目录，再按需用 mmap 将张量数据直接映射到内存，整个过程零拷贝、零代码执行、可并行。

Step 1Header 解析（O(1) 定位任意张量）

加载器首先读取文件前8字节，解析出 `header_size`（小端 uint64），然后读取随后 `header_size` 字节的 JSON 并解析。这一步的关键设计决策是：为什么用 JSON 而不是 protobuf/flatbuffers？ 答案是可调试性——JSON 可以用任何文本编辑器查看，格式错误可以被人类直接发现，且 JSON 解析器在所有语言中都有成熟实现，降低了跨语言实现的门槛（Rust、Python、JavaScript、C++ 均有官方实现）。Header 解析完成后，加载器拥有所有张量的完整目录，可以 $O(1)$ 定位任意张量，无需顺序扫描文件。

Step 2mmap 映射（零拷贝的关键）

数据区通过 `mmap(2)` 系统调用映射到进程地址空间。操作系统不会立即将文件内容读入物理内存，而是建立虚拟地址到文件页的映射，只有当程序实际访问某个地址时才触发缺页中断（page fault）并按需加载。这意味着：①加载一个 70B 模型的"打开"操作几乎是瞬时的；②如果只使用模型的部分层（如推理时的 KV cache 分析），未访问的页永远不会被读入内存；③多个进程加载同一文件时，操作系统的页缓存（page cache）自动共享物理页，多副本部署的内存开销接近单副本。关键参数：`MAP_SHARED` vs `MAP_PRIVATE`——推理时用 `MAP_SHARED` 最大化共享；需要修改权重（如 LoRA 合并）时用 `MAP_PRIVATE`（Copy-on-Write）。

Step 3张量视图构建（零拷贝的实现）

基于 mmap 地址和 header 中的 `data_offsets`，直接构建张量对象，其数据指针指向 mmap 区域，不发生任何内存拷贝。在 PyTorch 中，这通过 `torch.frombuffer()` 或直接操作 `Storage` 实现：

python import mmap, json, struct, torch  with open("model.safetensors", "rb") as f:     header_size = struct.unpack("<Q", f.read(8))[0]     header = json.loads(f.read(header_size))     # mmap 整个文件     mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)  data_start = 8 + header_size for name, meta in header.items():     if name == "__metadata__": continue     start, end = meta["data_offsets"]     # 零拷贝：直接从 mmap 构建张量     tensor = torch.frombuffer(         mm, dtype=torch.float32,         offset=data_start + start,         count=(end - start) // 4     ).reshape(meta["shape"])

Step 4并行分片加载（大模型工程实践）

对于多 GPU 分布式推理，Safetensors 的 header-data 分离设计天然支持并行加载：所有进程先读取同一个 header（极小，通常 < 1MB），各自计算自己负责的张量分片的文件偏移量，然后并行 `pread(2)`（位置读取，无需 seek 锁）各自的数据区。HuggingFace 的 `accelerate` 库正是利用这一特性实现了多 GPU 的并行权重加载，将 70B 模型的加载时间从分钟级降至秒级。关键实现细节：`pread` 是线程安全的，而 `fseek+fread` 不是，这是 Safetensors 能够安全并行加载的底层保证。

Step 5安全验证层（防御纵深）

除了结构性安全（无可执行代码），Safetensors 还内置了完整性检查：①验证所有张量的 `data_offsets` 不重叠；②验证总数据大小与文件实际大小一致；③验证 dtype 是白名单中的合法类型（F32/F16/BF16/I32/I8/U8/BOOL/F64/I64/I16/U16/U32/U64/F8_E4M3/F8_E5M2）。这些检查在 header 解析阶段完成，在任何数据被访问之前，确保格式畸形的文件被提前拒绝。

长远价值

Safetensors 已成为 AI 模型分发的事实标准。HuggingFace Hub 上超过 90% 的新上传模型使用 Safetensors 格式（2024年数据）。它直接影响了 GGUF（llama.cpp）、MLX（Apple）、ONNX 新版本的格式设计。在工业部署中，Safetensors 的 mmap 特性使得 Kubernetes 环境下的模型热加载成为可能——多个 Pod 共享同一个 PVC 上的模型文件，物理内存占用接近单副本。加入 PyTorch 基金会后，它将成为 torch.save 的长期替代方案。

前沿动向

当前开放问题：①流式加载支持——当前 mmap 需要完整文件，对象存储（S3/GCS）上的远程加载仍需全量下载；②加密支持——安全环境下需要对权重加密，但加密破坏了 mmap 的零拷贝特性，两者存在根本张力；③稀疏张量支持——当前格式只支持稠密张量，MoE 模型的稀疏权重需要额外封装；④版本控制与增量更新——LoRA 权重合并后如何高效更新文件而不重写全量数据。

信息瓶颈原理演进

Safetensors格式工程哲学

往期讲解档案 49 个知识点