Appearance
研究方向:多模态大模型逆向、白盒机制、黑盒逆向、可解释性与安全 主线:
深度学习基础
→ Transformer / ViT / CLIP / LLaVA 架构
→ 白盒可解释性
→ 多模态表征分析
→ 黑盒模型审计
→ 多模态安全与逆向工程侧重点应放在:
- Transformer 与多模态架构
- 机制可解释性
- 表征分析
- 黑盒行为探测
- 多模态安全 传统软件逆向、CUDA、推理框架、模型文件格式可以学,但不应喧宾夺主。
下面按学习优先级整理。你的主线应是:
深度学习基础 → Transformer / ViT / CLIP / VLM 架构 → 机制可解释性 → 多模态表征分析 → 黑盒审计 / 安全逆向 → 可复现实验与作品集。
1. 课程网站
A. 深度学习 / 视觉 / NLP 基础
| 资源 | 价值 | 建议 |
|---|---|---|
| Stanford CS231n: Deep Learning for Computer Vision | 视觉模型、CNN、ViT、训练调试、视觉任务基础。课程强调实现、训练和调试神经网络,适合作为多模态视觉侧地基。(CS231n) | 必学,重点看 backprop、CNN、ViT、detection、visual representation。 |
| Stanford CS224N: NLP with Deep Learning | NLP、Transformer、LLM 基础。课程包含 PyTorch 作业、LLM 相关内容,适合作为语言模型侧地基。(Stanford University) | 必学,重点看 word vectors、attention、Transformers、generation。 |
| MIT 6.S191: Introduction to Deep Learning | 快速建立深度学习全局图景,视频、slides、labs 较完整。(YouTube) | 入门补课用,不够深入,不能替代 CS231n/CS224n。 |
| Full Stack Deep Learning | 工程化、实验管理、数据管理、部署、监控,对做可复现项目和作品集很有用。课程材料免费。(Full Stack Deep Learning) | 后期做项目时看,不是理论主线。 |
B. 机制可解释性 / 模型逆向核心课程
| 资源 | 价值 | 建议 |
|---|---|---|
| ARENA: Alignment Research Engineer Accelerator | 当前最适合自学机制可解释性的实战课程之一,Chapter 1 专门讲 Transformer Interpretability,包含大量 hands-on Python 练习。(Learn Mechanistic Interpretability) | 你的主线课程。先学 TransformerLens,再做 activation patching / ablation。 |
| Transformer Circuits / Anthropic | 机制可解释性的经典系列,目标是把 Transformer 逆向成可理解的计算电路;《A Mathematical Framework for Transformer Circuits》是核心入口。(Anthropic) | 读慢一点,配合代码实验,否则容易停留在概念层。 |
2. 必读论文 / 技术报告
A. 多模态模型架构
| 论文 | 为什么重要 | 优先级 |
|---|---|---|
| CLIP: Connecting Text and Images | 图文对比学习、共享 embedding 空间、zero-shot 分类,是理解现代 VLM 的起点。OpenAI 官方页面说明 CLIP 通过自然语言监督学习视觉概念,并可用自然语言类别名做 zero-shot 识别。(GitHub) | S |
| Flamingo: a Visual Language Model for Few-Shot Learning | 代表性视觉语言模型,重点是如何连接预训练视觉模型和语言模型,并处理交错图文/视频输入。(Hugging Face) | S |
| BLIP-2 | 典型“冻结视觉编码器 + 冻结 LLM + 中间模块桥接”的架构,适合理解多模态投影/对齐。Salesforce 介绍其目标是让 LLM 能 ingest and understand images。(Salesforce) | S |
| LLaVA: Visual Instruction Tuning | 开源多模态指令微调的经典基线,连接 vision encoder 与 LLM,是你做白盒实验最适合的对象之一。(Hugging Face) | S |
| Qwen2.5-VL Technical Report | 较新的强开源 VLM 系列,覆盖动态分辨率、文档理解、视觉定位、视频理解等能力。(Hugging Face) | A |
B. 机制可解释性 / 白盒逆向
| 论文 / 系列 | 为什么重要 | 优先级 |
|---|---|---|
| A Mathematical Framework for Transformer Circuits | Transformer 机制可解释性的基础框架,重点是 QK/OV circuit、attention head 的可解释分解。(Anthropic) | S |
| Toy Models of Superposition | 理解 polysemantic neurons、superposition、SAE 为什么必要。 | S |
| In-context Learning and Induction Heads | 理解 induction head、复制机制、上下文学习电路。 | S |
| Interpreting Attention Layer Outputs with Sparse Autoencoders | 将 SAE 用于 attention layer outputs,显示 SAE 可用于解释 attention head 的多重角色,并分析 GPT-2 Small 中 attention head 的 polysemanticity。(arXiv) | A |
| Disentangling Dense Embeddings with Sparse Autoencoders | 将 SAE 用于 dense embeddings,适合你以后扩展到 CLIP / VLM embedding 分解。(arXiv) | A |
注意:机制可解释性领域大量高质量工作以 blog / notebook / preprint 形式存在,不全是顶会论文。这不是缺点,但你要区分“可复现证据”和“漂亮叙事”。
C. 多模态幻觉 / 安全 / 黑盒审计
| 论文 / 资源 | 为什么重要 | 优先级 |
|---|---|---|
| Hallucination of Multimodal Large Language Models: A Survey | 系统总结 MLLM 幻觉的原因、评估、缓解方法,适合确定研究问题。(Hugging Face) | S |
| Evaluating Object Hallucination in Large Vision-Language Models / POPE | 经典对象幻觉评测,提出 polling-based query 方法评估 VLM 是否生成图像中不存在的对象。(arXiv) | S |
| Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models | 多模态安全逆向代表作,研究图像通道与文本通道组合导致的跨模态 jailbreak 风险。只建议用于防御性研究、授权测试和模型审计。(Hugging Face) | A |
| LMMs-Eval / LMMS-EVAL | 大规模多模态评测框架,覆盖 50+ 任务和多模型评测,适合做黑盒能力边界分析。(arXiv) | A |
| MME Benchmark | 多模态大模型综合评测,覆盖感知与认知 14 个子任务,适合做模型对比和错误归因。(mme-benchmark.github.io) | A |
3. 工具链
A. 白盒可解释性工具
| 工具 | 用途 | 链接 |
|---|---|---|
| TransformerLens | GPT-style Transformer 机制可解释性核心工具,可缓存、编辑、替换内部激活。官方说明其目标是 reverse engineer trained transformers from weights。(GitHub) | 必用 |
| SAELens | 训练和分析 sparse autoencoders,可与 TransformerLens、Hugging Face、NNsight 等配合,用于分解模型激活。(PyPI) | 必用 |
| NNsight | 读取、修改模型中间激活,支持本地 PyTorch 模型和远程大模型,适合做 causal intervention。(NNSight) | 必用 |
| pyvene | StanfordNLP 的 intervention library,适合做 causal abstraction、knowledge localization、activation intervention。(arXiv) | A |
| Captum | PyTorch 可解释性库,支持 Integrated Gradients、Grad-CAM、saliency、TCAV 等,且支持多模态输入。(captum.ai) | A |
| PyTorch hooks | 自己抓取 activation / gradient 的基础能力。PyTorch + hooks 是做白盒逆向的底层技能。(PyTorch Documentation) | 必会 |
B. 多模态模型与评测工具
| 工具 / Repo | 用途 | 链接 |
|---|---|---|
| OpenAI CLIP | CLIP 官方实现,适合做图文 embedding、zero-shot、对齐分析。(GitHub) | 入门首选 |
| OpenCLIP | 大量开源 CLIP checkpoint,支持 LAION/DataComp 等训练源,适合做系统实验。(GitHub) | 必用 |
| LLaVA | 最适合白盒分析的开源 VLM 基线之一。(Hugging Face) | 必用 |
| LLaVAR | 面向 text-rich image / OCR 场景的 LLaVA 变体,适合研究视觉文本理解与 OCR prompt injection。(llavar.github.io) | A |
| LMMS-Eval | 多模态模型统一评测框架,可做黑盒模型能力图谱。(arXiv) | A |
| MME / MME-RealWorld | 多模态 benchmark,MME-RealWorld 包含高分辨率真实场景,适合测试细粒度感知。(GitHub) | A |
C. 黑盒审计 / Red Teaming 工具
| 工具 | 用途 | 注意 |
|---|---|---|
| garak | LLM vulnerability scanner,可探测 hallucination、data leakage、prompt injection、jailbreak 等问题。(garak.ai) | 只测自己或授权系统。 |
| promptfoo | Prompt / agent / RAG 评测与 red teaming,可用于 CI/CD;支持多模型对比和漏洞扫描。(GitHub) | 适合工程化黑盒评测。 |
| OpenAI Evals | LLM/system eval 框架,适合构造自定义行为测试集。(GitHub) | 用于系统评测。 |
| Inspect AI | UK AI Security Institute 开源评测框架,支持 coding、agentic tasks、reasoning、knowledge、behavior、multimodal understanding 等评测。(Inspect) | 适合严肃评测项目。 |
4. 其它重要网站 / 资料库
| 资源 | 用途 |
|---|---|
| Transformer Circuits | 机制可解释性核心阅读库。(Anthropic) |
| Learn Mechanistic Interpretability | 课程、ARENA、学习路径入口。(Learn Mechanistic Interpretability) |
| Hugging Face Papers | 跟踪 VLM、SAE、MLLM hallucination、benchmark 新论文。上面已有 LLaVA、Flamingo、Qwen2.5-VL、MME 等页面。(Hugging Face) |
| VQA Dataset | 视觉问答经典数据集,包含 COCO 图像、问题、多个 ground-truth answers,适合做 VLM 行为分析。(Visual Question Answering) |
| POPE | 对象幻觉评估数据与代码,适合做第一个多模态幻觉项目。(arXiv) |
5. 可实践项目
下面这些项目按难度递进。建议每个项目都产出:GitHub repo + 实验报告 + 可复现实验脚本 + 图表 + 失败案例分析。
项目 1:CLIP 图文 embedding 逆向分析
目标:理解 CLIP 的图文对齐空间。
做法:
用 OpenAI CLIP 或 OpenCLIP 提取 image/text embeddings。
构造若干 prompt templates,例如:
“a photo of a dog”
“a blurry photo of a dog”
“a drawing of a dog”
比较不同 prompt 对分类结果的影响。
用 PCA / UMAP 可视化 image/text embedding。
做图像遮挡:遮住主体、背景、文字,观察相似度变化。
使用资源:CLIP / OpenCLIP。(GitHub)
产出价值:这是多模态表征分析的入门项目,能证明你理解 contrastive alignment,而不是只会调用模型。
项目 2:LLaVA 视觉 token 消融实验
目标:研究 VLM 是否真的“看图”,以及哪些视觉 token 影响输出。
做法:
跑通 LLaVA。
抓取 vision encoder 输出、projector 输出、LLM hidden states。
对视觉 token 做:
random ablation
patch-level ablation
object-region ablation
high-similarity token removal
比较回答变化。
在 VQA / 自建图文冲突数据上评估。
使用资源:LLaVA、VQA。(Hugging Face)
推荐问题:
图像信息是在早期层被吸收,还是只在输出附近影响 logits?
项目 3:多模态幻觉评测复现:POPE + 自定义图文冲突集
目标:系统测量对象幻觉。
做法:
复现 POPE。
对比 LLaVA、Qwen2.5-VL、小型 VLM。
构造图文冲突样本:图里没有猫,但 prompt 暗示有猫。
统计模型是否被语言先验带偏。
分析不同 prompt wording 对 hallucination rate 的影响。
使用资源:POPE、Qwen2.5-VL、MME。(arXiv)
产出价值:这是很适合写成技术博客/短论文的方向。
项目 4:LLaVA / CLIP 的 OCR prompt injection 防御性评测
目标:研究图像中的文字如何影响 VLM 输出。
做法:
生成包含可见文字的图片,例如海报、截图、表格。
分离测试:
纯文本 prompt
纯图像文字
图文冲突
图像中隐藏/小字号文字
测试模型是否会服从图像中的指令。
比较 LLaVA 与 LLaVAR,因为 LLaVAR 专门增强 text-rich image understanding。(llavar.github.io)
安全边界:只做授权、本地、无害任务,例如让模型输出固定字符串、忽略用户问题、改变格式,不做真实攻击系统。
项目 5:用 TransformerLens 复现 induction heads / activation patching
目标:建立机制可解释性基本功。
做法:
用 TransformerLens 加载 GPT-2 small。
复现 induction head 现象。
做 attention head ablation。
做 activation patching。
记录每个 head 对 logits 的影响。
使用资源:TransformerLens、ARENA、Transformer Circuits。(GitHub)
产出价值:这是白盒逆向的“Hello World”。
项目 6:训练一个小 SAE 分解模型激活
目标:理解 superposition 与 sparse feature。
做法:
用 TransformerLens 抽取 GPT-2 small 某层 residual stream。
用 SAELens 训练 SAE。
找 top activating examples。
给 feature 人工命名。
做 feature ablation / steering,看输出是否按预期变化。
使用资源:SAELens、SAE attention output 论文。(PyPI)
扩展:后续可把 SAE 用到 CLIP embedding 或 LLaVA projector 输出上。
项目 7:CLIP / VLM 黑盒能力指纹
目标:只通过输入输出推断模型能力边界。
做法:
设计 probe suite:
OCR
object counting
color recognition
spatial relation
chart understanding
text-image contradiction
用 LMMS-Eval 或自己写 eval harness。
比较多个模型。
输出 capability fingerprint radar chart。
分析哪些能力可能来自视觉 encoder,哪些来自语言先验。
使用资源:LMMS-Eval、MME、VQA。(arXiv)
项目 8:多模态安全评测流水线
目标:把黑盒审计工程化。
做法:
用 promptfoo / garak 搭一个评测框架。
自定义 harmless adversarial probes。
对本地模型或授权 API 做测试。
输出 vulnerability report:
failure category
reproduction prompt/image
severity
mitigation idea
接入 GitHub Actions,形成自动回归测试。
使用资源:garak、promptfoo、Inspect AI。(garak.ai)
注意:这个项目应定位为防御性 AI security / model auditing,不要做未授权系统测试。
6. 推荐学习顺序
第 0 阶段:补基础
MIT 6.S191 快速过一遍。(YouTube)
CS231n 重点学视觉模型。(CS231n)
CS224N 重点学 Transformer / LLM。(Stanford University)
第 1 阶段:多模态架构
按顺序读:
CLIP
BLIP-2
Flamingo
LLaVA
Qwen2.5-VL
对应实践:
CLIP embedding 分析
LLaVA 跑通
VQA / MME 小规模评测
第 2 阶段:白盒机制可解释性
按顺序做:
ARENA Chapter 1
TransformerLens induction heads
activation patching
attention head ablation
SAE 入门
把方法迁移到 VLM
第 3 阶段:黑盒审计与安全逆向
按顺序做:
POPE 幻觉评测
图文冲突集
OCR prompt injection 防御性评测
LMMS-Eval / MME 批量评测
promptfoo / garak 自动化报告
7. 最值得优先做的 3 个作品集项目
如果目标是就业竞争力 + 研究潜力,我建议优先做这三个:
1. LLaVA Visual Token Causal Analysis
关键词:VLM、activation、ablation、causal intervention、vision token。
成果形式:
GitHub repo
实验报告
图表:layer/token contribution heatmap
失败案例库
价值:最贴近“白盒逆向 + 多模态理解”。
2. Multimodal Hallucination Benchmarking with POPE/MME
关键词:hallucination、VLM evaluation、black-box probing、language prior。
成果形式:
支持多个 VLM 的评测脚本
自动生成报告
对比表格
prompt sensitivity analysis
价值:容易做出完整、可展示、可复现的结果。
3. SAE for CLIP / LLaVA Projector Representations
关键词:SAE、superposition、representation disentanglement、multimodal embedding。
成果形式:
训练 SAE
feature dashboard
top activating examples
feature ablation
steering experiment
价值:研究味最强,也最能体现你不是只做 benchmark,而是在理解内部机制。
8. 总体判断
你的方向最准确的定位是:
Multimodal AI Reverse Engineering + Mechanistic Interpretability + Black-box Model Auditing
资源优先级应是:
CS231n / CS224N:打视觉与语言模型基础。
CLIP / BLIP-2 / Flamingo / LLaVA:理解多模态架构。
ARENA / TransformerLens / Transformer Circuits:进入白盒机制可解释性。
SAELens / NNsight / pyvene:做干预、分解、因果实验。
POPE / MME / LMMS-Eval / garak / promptfoo:做黑盒审计、安全评测与工程化。