Appearance
下面按优先级整理。你可以先从 A、B、C、D 四组开始,不要一开始就啃所有论文。
A. 机械可解释性 / Mechanistic Interpretability 基础
| 资源 | 用途 |
|---|---|
| TransformerLens | 入门首选工具。用于读取 transformer 内部 activation、hook、patching、替换中间层状态。适合先在 GPT-2、小模型上练手。(GitHub) |
| Getting Started in Mechanistic Interpretability | 入门路线图,包含 TransformerLens、ARENA 教程、induction head、activation patching 等。(jbloomaus.github.io) |
| Anthropic Transformer Circuits | 机械可解释性经典系列:mathematical framework、induction heads、superposition、toy models。适合理解这个领域的理论范式。(Reddit) |
| Neel Nanda 机械可解释性访谈/讲解 | 比论文更适合建立研究直觉,尤其是 superposition、grokking、linear representation、activation patching。(YouTube) |
优先学习顺序:
text
Transformer 基础
→ TransformerLens
→ activation patching
→ induction heads
→ superposition
→ SAE
→ circuit discovery
→ VLM / multimodal interpretabilityB. Sparse Autoencoder / SAE 资源
| 资源 | 用途 |
|---|---|
| SAELens | 当前做 SAE 最常见的实践工具之一,用于训练和分析 sparse autoencoder。(claudeskill.wiki) |
| ai-safety-foundation/sparse_autoencoder | 另一个 SAE 工具库,适合看实现细节。(GitHub) |
| Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models | 视觉模型 SAE,很适合你从 VLM/视觉可解释性切入。(Hugging Face) |
| Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models | 直接针对 VLM/CLIP 的 SAE 论文,和你想做的方向高度相关。(Hugging Face) |
| Probing the Representational Power of Sparse Autoencoders in Vision Models | 视觉、多模态、diffusion 等方向的 SAE 表征能力研究。(Hugging Face) |
建议你不要一开始就训练很大的 SAE。先在:
text
CLIP / ViT / LLaVA-7B 某一层 activation上做小实验。
C. 多模态机制可解释性综述
| 资源 | 用途 |
|---|---|
| A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models | 多模态机械可解释性综述,覆盖 CLIP、VLM、text-to-image 等多模态基础模型。适合作为领域地图。(Hugging Face) |
| Survey on the Role of Mechanistic Interpretability in Generative AI | 更宽泛的生成式 AI 可解释性综述,适合理解安全、对齐、模型审计的关系。(MDPI) |
重点读法:不要从头到尾精读。先看:
text
taxonomy
methods
open problems
multimodal-specific challengesD. 开源多模态模型
这些适合做实验。不要碰闭源模型做“内部机制”研究,因为拿不到 activation 和权重。
| 模型 | 适合用途 |
|---|---|
| LLaVA | 最经典的开源 VLM 系列,适合做 mechanistic analysis、幻觉分析、图文对齐分析。 |
| Qwen2.5-VL | 强开源 VLM,支持图像、文档、图表、视频、GUI/agent 任务;官方发布 3B、7B、72B 版本。(Qwen) |
| InternVL | 开源多模态系列,常用于 MLLM benchmark。(Reddit) |
| MiniCPM-V / MiniCPM-o | 小尺寸多模态模型,适合资源有限时做实验;MiniCPM-V Hugging Face 页面有使用方式。(Hugging Face) |
我建议实验优先级:
text
LLaVA-1.5-7B
→ Qwen2.5-VL-3B/7B
→ MiniCPM-V
→ InternVL如果显存有限,先用 3B/7B 量化版本做黑盒/半白盒实验;如果要 hook activation,最好用非过度封装的 PyTorch/HF 版本。
E. 多模态幻觉 / 安全 Benchmark
| Benchmark | 用途 |
|---|---|
| POPE / H-POPE | 对象幻觉评估。H-POPE 进一步评估对象存在性和细粒度属性幻觉。(arXiv) |
| HallusionBench | 视觉幻觉 + 语言幻觉 + 图像上下文推理,非常适合研究“模型到底是看图还是凭先验猜”。(GitHub) |
| MME | 综合 MLLM 评估,覆盖 perception 和 cognition 14 个子任务。(MME Benchmark) |
| Video-MME | 视频多模态理解 benchmark,适合研究长视频、时序理解、多帧推理。(GitHub) |
| MMMU | 多学科专家级多模态推理 benchmark,适合研究图表、科学、医学、工程类视觉推理。(Reddit) |
| CDH-Bench | 2026 新 benchmark,研究 commonsense-driven hallucination:当视觉证据和常识冲突时,模型是否会被常识带偏。(arXiv) |
你的方向最应该先看:
text
POPE / H-POPE
HallusionBench
MME
MMMUF. 建议关注的具体研究题
比较适合你:
1. VLM 对象幻觉的内部机制
核心问题:
text
模型说图里有不存在的物体时,
是视觉 encoder 没看清,
还是 projector 对齐失败,
还是 LLM 语言先验压过视觉证据?可用方法:
text
image patch masking
activation patching
logit lens
linear probe
SAE feature analysis
attention/activation attribution可用数据:
text
POPE
H-POPE
HallusionBench
COCO-based object hallucination set2. VLM 是否真的使用图像证据
核心问题:
text
回答某个问题时,模型到底依赖图像区域,还是依赖文本先验?实验设计:
text
原图 + 问题
遮挡关键区域 + 问题
替换背景 + 问题
只给文本问题
给错误图像 + 正确文本暗示
activation patching: correct run → wrong run这个方向可验证性强,容易写成论文。
3. 多模态推理错误归因
核心问题:
text
VLM 做错图表/几何/医学图题,
到底是感知错、OCR 错、对齐错,还是语言推理错?实验拆解:
text
image only
image + OCR
image + structured scene graph
text-only ground truth description如果 text-only 版本正确、image 版本错误,说明瓶颈大概率在视觉解析或跨模态对齐。
4. SAE 解释 VLM 的视觉-语言特征
核心问题:
text
VLM 内部是否存在“对象”“属性”“空间关系”“否定”“不确定性”“幻觉风险”特征?做法:
text
收集某层 hidden states
训练 SAE
找高激活样本
自动/人工解释 feature
做 feature intervention
看输出是否改变这个更接近你说的“白盒逆向”。
G. 社区 / 跟踪领域动态
| 资源 | 用途 |
|---|---|
| Hugging Face Papers | 跟踪最新 arXiv 多模态、SAE、VLM 论文。上面很多 paper page 会聚合代码、讨论和模型。(Hugging Face) |
| TransformerLens GitHub / Docs | 实操和 issue 区能看到很多 mech interp 研究者的问题。(GitHub) |
| Anthropic interpretability blog / Transformer Circuits | 机械可解释性核心阵地之一。(Reddit) |
| LocalLLaMA / open-source VLM 社区 | 适合跟踪开源 VLM、部署、量化、显存需求,但研究结论要谨慎看。(Reddit) |
H. 你可以按这个路线开始
第 1 阶段:2–3 周
目标:能 hook 一个 transformer 的 activation。
学:
text
TransformerLens
activation patching
logit lens
basic probing模型:
text
GPT-2 small
Pythia-70M/160M不要一开始就上 VLM。
第 2 阶段:3–5 周
目标:复现一个小型 mechanistic interpretability 实验。
做:
text
induction head
activation patching
causal tracing
linear probe第 3 阶段:4–8 周
目标:转向 VLM。
模型:
text
LLaVA-1.5-7B
Qwen2.5-VL-3B/7B
MiniCPM-V任务:
text
POPE / HallusionBench 上的 object hallucination方法:
text
遮挡图像区域
替换图像
记录 hidden states
训练 probe 预测是否会 hallucinate第 4 阶段:进阶
目标:做 SAE。
路径:
text
先在 CLIP/ViT 上训练 SAE
再在 LLaVA/Qwen2.5-VL 的 projector 后或 LLM hidden states 上训练 SAE
最后做 feature intervention最推荐你先打开的 8 个资源
TransformerLens:机械可解释性实践入口。(GitHub)
Getting Started in Mechanistic Interpretability:入门路线图。(jbloomaus.github.io)
Anthropic Transformer Circuits:理论核心。(Reddit)
SAELens / SAE 工具链:做 sparse feature 分解。(claudeskill.wiki)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models:多模态可解释性地图。(Hugging Face)
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models:VLM + SAE 重点论文。(Hugging Face)
HallusionBench:多模态幻觉研究首选 benchmark。(GitHub)
Qwen2.5-VL:当前较强的开源 VLM 实验对象。(Qwen)