My VitePress Site

下面按优先级整理。你可以先从 A、B、C、D 四组开始，不要一开始就啃所有论文。

A. 机械可解释性 / Mechanistic Interpretability 基础

资源	用途
TransformerLens	入门首选工具。用于读取 transformer 内部 activation、hook、patching、替换中间层状态。适合先在 GPT-2、小模型上练手。(GitHub)
Getting Started in Mechanistic Interpretability	入门路线图，包含 TransformerLens、ARENA 教程、induction head、activation patching 等。(jbloomaus.github.io)
Anthropic Transformer Circuits	机械可解释性经典系列：mathematical framework、induction heads、superposition、toy models。适合理解这个领域的理论范式。(Reddit)
Neel Nanda 机械可解释性访谈/讲解	比论文更适合建立研究直觉，尤其是 superposition、grokking、linear representation、activation patching。(YouTube)

优先学习顺序：

text

Transformer 基础
→ TransformerLens
→ activation patching
→ induction heads
→ superposition
→ SAE
→ circuit discovery
→ VLM / multimodal interpretability

B. Sparse Autoencoder / SAE 资源

资源	用途
SAELens	当前做 SAE 最常见的实践工具之一，用于训练和分析 sparse autoencoder。(claudeskill.wiki)
ai-safety-foundation/sparse_autoencoder	另一个 SAE 工具库，适合看实现细节。(GitHub)
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models	视觉模型 SAE，很适合你从 VLM/视觉可解释性切入。(Hugging Face)
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models	直接针对 VLM/CLIP 的 SAE 论文，和你想做的方向高度相关。(Hugging Face)
Probing the Representational Power of Sparse Autoencoders in Vision Models	视觉、多模态、diffusion 等方向的 SAE 表征能力研究。(Hugging Face)

建议你不要一开始就训练很大的 SAE。先在：

text

CLIP / ViT / LLaVA-7B 某一层 activation

上做小实验。

C. 多模态机制可解释性综述

资源	用途
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models	多模态机械可解释性综述，覆盖 CLIP、VLM、text-to-image 等多模态基础模型。适合作为领域地图。(Hugging Face)
Survey on the Role of Mechanistic Interpretability in Generative AI	更宽泛的生成式 AI 可解释性综述，适合理解安全、对齐、模型审计的关系。(MDPI)

重点读法：不要从头到尾精读。先看：

text

taxonomy
methods
open problems
multimodal-specific challenges

D. 开源多模态模型

这些适合做实验。不要碰闭源模型做“内部机制”研究，因为拿不到 activation 和权重。

模型	适合用途
LLaVA	最经典的开源 VLM 系列，适合做 mechanistic analysis、幻觉分析、图文对齐分析。
Qwen2.5-VL	强开源 VLM，支持图像、文档、图表、视频、GUI/agent 任务；官方发布 3B、7B、72B 版本。(Qwen)
InternVL	开源多模态系列，常用于 MLLM benchmark。(Reddit)
MiniCPM-V / MiniCPM-o	小尺寸多模态模型，适合资源有限时做实验；MiniCPM-V Hugging Face 页面有使用方式。(Hugging Face)

我建议实验优先级：

text

LLaVA-1.5-7B
→ Qwen2.5-VL-3B/7B
→ MiniCPM-V
→ InternVL

如果显存有限，先用 3B/7B 量化版本做黑盒/半白盒实验；如果要 hook activation，最好用非过度封装的 PyTorch/HF 版本。

E. 多模态幻觉 / 安全 Benchmark

Benchmark	用途
POPE / H-POPE	对象幻觉评估。H-POPE 进一步评估对象存在性和细粒度属性幻觉。(arXiv)
HallusionBench	视觉幻觉 + 语言幻觉 + 图像上下文推理，非常适合研究“模型到底是看图还是凭先验猜”。(GitHub)
MME	综合 MLLM 评估，覆盖 perception 和 cognition 14 个子任务。(MME Benchmark)
Video-MME	视频多模态理解 benchmark，适合研究长视频、时序理解、多帧推理。(GitHub)
MMMU	多学科专家级多模态推理 benchmark，适合研究图表、科学、医学、工程类视觉推理。(Reddit)
CDH-Bench	2026 新 benchmark，研究 commonsense-driven hallucination：当视觉证据和常识冲突时，模型是否会被常识带偏。(arXiv)

你的方向最应该先看：

text

POPE / H-POPE
HallusionBench
MME
MMMU

F. 建议关注的具体研究题

比较适合你：

1. VLM 对象幻觉的内部机制

核心问题：

text

模型说图里有不存在的物体时，
是视觉 encoder 没看清，
还是 projector 对齐失败，
还是 LLM 语言先验压过视觉证据？

可用方法：

text

image patch masking
activation patching
logit lens
linear probe
SAE feature analysis
attention/activation attribution

可用数据：

text

POPE
H-POPE
HallusionBench
COCO-based object hallucination set

2. VLM 是否真的使用图像证据

核心问题：

text

回答某个问题时，模型到底依赖图像区域，还是依赖文本先验？

实验设计：

text

原图 + 问题
遮挡关键区域 + 问题
替换背景 + 问题
只给文本问题
给错误图像 + 正确文本暗示
activation patching: correct run → wrong run

这个方向可验证性强，容易写成论文。

3. 多模态推理错误归因

核心问题：

text

VLM 做错图表/几何/医学图题，
到底是感知错、OCR 错、对齐错，还是语言推理错？

实验拆解：

text

image only
image + OCR
image + structured scene graph
text-only ground truth description

如果 text-only 版本正确、image 版本错误，说明瓶颈大概率在视觉解析或跨模态对齐。

4. SAE 解释 VLM 的视觉-语言特征

核心问题：

text

VLM 内部是否存在“对象”“属性”“空间关系”“否定”“不确定性”“幻觉风险”特征？

做法：

text

收集某层 hidden states
训练 SAE
找高激活样本
自动/人工解释 feature
做 feature intervention
看输出是否改变

这个更接近你说的“白盒逆向”。

G. 社区 / 跟踪领域动态

资源	用途
Hugging Face Papers	跟踪最新 arXiv 多模态、SAE、VLM 论文。上面很多 paper page 会聚合代码、讨论和模型。(Hugging Face)
TransformerLens GitHub / Docs	实操和 issue 区能看到很多 mech interp 研究者的问题。(GitHub)
Anthropic interpretability blog / Transformer Circuits	机械可解释性核心阵地之一。(Reddit)
LocalLLaMA / open-source VLM 社区	适合跟踪开源 VLM、部署、量化、显存需求，但研究结论要谨慎看。(Reddit)

H. 你可以按这个路线开始

第 1 阶段：2–3 周

目标：能 hook 一个 transformer 的 activation。

学：

text

TransformerLens
activation patching
logit lens
basic probing

模型：

text

GPT-2 small
Pythia-70M/160M

不要一开始就上 VLM。

第 2 阶段：3–5 周

目标：复现一个小型 mechanistic interpretability 实验。

做：

text

induction head
activation patching
causal tracing
linear probe

第 3 阶段：4–8 周

目标：转向 VLM。

模型：

text

LLaVA-1.5-7B
Qwen2.5-VL-3B/7B
MiniCPM-V

任务：

text

POPE / HallusionBench 上的 object hallucination

方法：

text

遮挡图像区域
替换图像
记录 hidden states
训练 probe 预测是否会 hallucinate

第 4 阶段：进阶

目标：做 SAE。

路径：

text

先在 CLIP/ViT 上训练 SAE
再在 LLaVA/Qwen2.5-VL 的 projector 后或 LLM hidden states 上训练 SAE
最后做 feature intervention

最推荐你先打开的 8 个资源

TransformerLens：机械可解释性实践入口。(GitHub)
Getting Started in Mechanistic Interpretability：入门路线图。(jbloomaus.github.io)
Anthropic Transformer Circuits：理论核心。(Reddit)
SAELens / SAE 工具链：做 sparse feature 分解。(claudeskill.wiki)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models：多模态可解释性地图。(Hugging Face)
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models：VLM + SAE 重点论文。(Hugging Face)
HallusionBench：多模态幻觉研究首选 benchmark。(GitHub)
Qwen2.5-VL：当前较强的开源 VLM 实验对象。(Qwen)

Minisql

Log

Tmp

A. 机械可解释性 / Mechanistic Interpretability 基础

B. Sparse Autoencoder / SAE 资源

C. 多模态机制可解释性综述

D. 开源多模态模型

E. 多模态幻觉 / 安全 Benchmark

F. 建议关注的具体研究题

1. VLM 对象幻觉的内部机制

2. VLM 是否真的使用图像证据

3. 多模态推理错误归因

4. SAE 解释 VLM 的视觉-语言特征

G. 社区 / 跟踪领域动态

H. 你可以按这个路线开始

第 1 阶段：2–3 周

第 2 阶段：3–5 周

第 3 阶段：4–8 周

第 4 阶段：进阶

最推荐你先打开的 8 个资源

Log

A. 机械可解释性 / Mechanistic Interpretability 基础 ​

B. Sparse Autoencoder / SAE 资源 ​

C. 多模态机制可解释性综述 ​

D. 开源多模态模型 ​

E. 多模态幻觉 / 安全 Benchmark ​

F. 建议关注的具体研究题 ​

1. VLM 对象幻觉的内部机制 ​

2. VLM 是否真的使用图像证据 ​

3. 多模态推理错误归因 ​

4. SAE 解释 VLM 的视觉-语言特征 ​

G. 社区 / 跟踪领域动态 ​

H. 你可以按这个路线开始 ​

第 1 阶段：2–3 周 ​

第 2 阶段：3–5 周 ​

第 3 阶段：4–8 周 ​

第 4 阶段：进阶 ​

最推荐你先打开的 8 个资源 ​

A. 机械可解释性 / Mechanistic Interpretability 基础

B. Sparse Autoencoder / SAE 资源

C. 多模态机制可解释性综述

D. 开源多模态模型

E. 多模态幻觉 / 安全 Benchmark

F. 建议关注的具体研究题

1. VLM 对象幻觉的内部机制

2. VLM 是否真的使用图像证据

3. 多模态推理错误归因

4. SAE 解释 VLM 的视觉-语言特征

G. 社区 / 跟踪领域动态

H. 你可以按这个路线开始

第 1 阶段：2–3 周

第 2 阶段：3–5 周

第 3 阶段：4–8 周

第 4 阶段：进阶

最推荐你先打开的 8 个资源