研究方向：多模态大模型逆向、白盒机制、黑盒逆向、可解释性与安全主线：

深度学习基础
→ Transformer / ViT / CLIP / LLaVA 架构
→ 白盒可解释性
→ 多模态表征分析
→ 黑盒模型审计
→ 多模态安全与逆向工程

侧重点应放在：

Transformer 与多模态架构
机制可解释性
表征分析
黑盒行为探测
多模态安全 传统软件逆向、CUDA、推理框架、模型文件格式可以学，但不应喧宾夺主。

下面按学习优先级整理。你的主线应是：

深度学习基础 → Transformer / ViT / CLIP / VLM 架构 → 机制可解释性 → 多模态表征分析 → 黑盒审计 / 安全逆向 → 可复现实验与作品集。

1. 课程网站

A. 深度学习 / 视觉 / NLP 基础

资源	价值	建议
Stanford CS231n: Deep Learning for Computer Vision	视觉模型、CNN、ViT、训练调试、视觉任务基础。课程强调实现、训练和调试神经网络，适合作为多模态视觉侧地基。(CS231n)	必学，重点看 backprop、CNN、ViT、detection、visual representation。
Stanford CS224N: NLP with Deep Learning	NLP、Transformer、LLM 基础。课程包含 PyTorch 作业、LLM 相关内容，适合作为语言模型侧地基。(Stanford University)	必学，重点看 word vectors、attention、Transformers、generation。
MIT 6.S191: Introduction to Deep Learning	快速建立深度学习全局图景，视频、slides、labs 较完整。(YouTube)	入门补课用，不够深入，不能替代 CS231n/CS224n。
Full Stack Deep Learning	工程化、实验管理、数据管理、部署、监控，对做可复现项目和作品集很有用。课程材料免费。(Full Stack Deep Learning)	后期做项目时看，不是理论主线。

B. 机制可解释性 / 模型逆向核心课程

资源	价值	建议
ARENA: Alignment Research Engineer Accelerator	当前最适合自学机制可解释性的实战课程之一，Chapter 1 专门讲 Transformer Interpretability，包含大量 hands-on Python 练习。(Learn Mechanistic Interpretability)	你的主线课程。先学 TransformerLens，再做 activation patching / ablation。
Transformer Circuits / Anthropic	机制可解释性的经典系列，目标是把 Transformer 逆向成可理解的计算电路；《A Mathematical Framework for Transformer Circuits》是核心入口。(Anthropic)	读慢一点，配合代码实验，否则容易停留在概念层。

2. 必读论文 / 技术报告

A. 多模态模型架构

论文	为什么重要	优先级
CLIP: Connecting Text and Images	图文对比学习、共享 embedding 空间、zero-shot 分类，是理解现代 VLM 的起点。OpenAI 官方页面说明 CLIP 通过自然语言监督学习视觉概念，并可用自然语言类别名做 zero-shot 识别。(GitHub)	S
Flamingo: a Visual Language Model for Few-Shot Learning	代表性视觉语言模型，重点是如何连接预训练视觉模型和语言模型，并处理交错图文/视频输入。(Hugging Face)	S
BLIP-2	典型“冻结视觉编码器 + 冻结 LLM + 中间模块桥接”的架构，适合理解多模态投影/对齐。Salesforce 介绍其目标是让 LLM 能 ingest and understand images。(Salesforce)	S
LLaVA: Visual Instruction Tuning	开源多模态指令微调的经典基线，连接 vision encoder 与 LLM，是你做白盒实验最适合的对象之一。(Hugging Face)	S
Qwen2.5-VL Technical Report	较新的强开源 VLM 系列，覆盖动态分辨率、文档理解、视觉定位、视频理解等能力。(Hugging Face)	A

B. 机制可解释性 / 白盒逆向

论文 / 系列	为什么重要	优先级
A Mathematical Framework for Transformer Circuits	Transformer 机制可解释性的基础框架，重点是 QK/OV circuit、attention head 的可解释分解。(Anthropic)	S
Toy Models of Superposition	理解 polysemantic neurons、superposition、SAE 为什么必要。	S
In-context Learning and Induction Heads	理解 induction head、复制机制、上下文学习电路。	S
Interpreting Attention Layer Outputs with Sparse Autoencoders	将 SAE 用于 attention layer outputs，显示 SAE 可用于解释 attention head 的多重角色，并分析 GPT-2 Small 中 attention head 的 polysemanticity。(arXiv)	A
Disentangling Dense Embeddings with Sparse Autoencoders	将 SAE 用于 dense embeddings，适合你以后扩展到 CLIP / VLM embedding 分解。(arXiv)	A

注意：机制可解释性领域大量高质量工作以 blog / notebook / preprint 形式存在，不全是顶会论文。这不是缺点，但你要区分“可复现证据”和“漂亮叙事”。

C. 多模态幻觉 / 安全 / 黑盒审计

论文 / 资源	为什么重要	优先级
Hallucination of Multimodal Large Language Models: A Survey	系统总结 MLLM 幻觉的原因、评估、缓解方法，适合确定研究问题。(Hugging Face)	S
Evaluating Object Hallucination in Large Vision-Language Models / POPE	经典对象幻觉评测，提出 polling-based query 方法评估 VLM 是否生成图像中不存在的对象。(arXiv)	S
Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models	多模态安全逆向代表作，研究图像通道与文本通道组合导致的跨模态 jailbreak 风险。只建议用于防御性研究、授权测试和模型审计。(Hugging Face)	A
LMMs-Eval / LMMS-EVAL	大规模多模态评测框架，覆盖 50+ 任务和多模型评测，适合做黑盒能力边界分析。(arXiv)	A
MME Benchmark	多模态大模型综合评测，覆盖感知与认知 14 个子任务，适合做模型对比和错误归因。(mme-benchmark.github.io)	A

3. 工具链

A. 白盒可解释性工具

工具	用途	链接
TransformerLens	GPT-style Transformer 机制可解释性核心工具，可缓存、编辑、替换内部激活。官方说明其目标是 reverse engineer trained transformers from weights。(GitHub)	必用
SAELens	训练和分析 sparse autoencoders，可与 TransformerLens、Hugging Face、NNsight 等配合，用于分解模型激活。(PyPI)	必用
NNsight	读取、修改模型中间激活，支持本地 PyTorch 模型和远程大模型，适合做 causal intervention。(NNSight)	必用
pyvene	StanfordNLP 的 intervention library，适合做 causal abstraction、knowledge localization、activation intervention。(arXiv)	A
Captum	PyTorch 可解释性库，支持 Integrated Gradients、Grad-CAM、saliency、TCAV 等，且支持多模态输入。(captum.ai)	A
PyTorch hooks	自己抓取 activation / gradient 的基础能力。PyTorch + hooks 是做白盒逆向的底层技能。(PyTorch Documentation)	必会

B. 多模态模型与评测工具

工具 / Repo	用途	链接
OpenAI CLIP	CLIP 官方实现，适合做图文 embedding、zero-shot、对齐分析。(GitHub)	入门首选
OpenCLIP	大量开源 CLIP checkpoint，支持 LAION/DataComp 等训练源，适合做系统实验。(GitHub)	必用
LLaVA	最适合白盒分析的开源 VLM 基线之一。(Hugging Face)	必用
LLaVAR	面向 text-rich image / OCR 场景的 LLaVA 变体，适合研究视觉文本理解与 OCR prompt injection。(llavar.github.io)	A
LMMS-Eval	多模态模型统一评测框架，可做黑盒模型能力图谱。(arXiv)	A
MME / MME-RealWorld	多模态 benchmark，MME-RealWorld 包含高分辨率真实场景，适合测试细粒度感知。(GitHub)	A

C. 黑盒审计 / Red Teaming 工具

工具	用途	注意
garak	LLM vulnerability scanner，可探测 hallucination、data leakage、prompt injection、jailbreak 等问题。(garak.ai)	只测自己或授权系统。
promptfoo	Prompt / agent / RAG 评测与 red teaming，可用于 CI/CD；支持多模型对比和漏洞扫描。(GitHub)	适合工程化黑盒评测。
OpenAI Evals	LLM/system eval 框架，适合构造自定义行为测试集。(GitHub)	用于系统评测。
Inspect AI	UK AI Security Institute 开源评测框架，支持 coding、agentic tasks、reasoning、knowledge、behavior、multimodal understanding 等评测。(Inspect)	适合严肃评测项目。

4. 其它重要网站 / 资料库

资源	用途
Transformer Circuits	机制可解释性核心阅读库。(Anthropic)
Learn Mechanistic Interpretability	课程、ARENA、学习路径入口。(Learn Mechanistic Interpretability)
Hugging Face Papers	跟踪 VLM、SAE、MLLM hallucination、benchmark 新论文。上面已有 LLaVA、Flamingo、Qwen2.5-VL、MME 等页面。(Hugging Face)
VQA Dataset	视觉问答经典数据集，包含 COCO 图像、问题、多个 ground-truth answers，适合做 VLM 行为分析。(Visual Question Answering)
POPE	对象幻觉评估数据与代码，适合做第一个多模态幻觉项目。(arXiv)

5. 可实践项目

下面这些项目按难度递进。建议每个项目都产出：GitHub repo + 实验报告 + 可复现实验脚本 + 图表 + 失败案例分析。

项目 1：CLIP 图文 embedding 逆向分析

目标：理解 CLIP 的图文对齐空间。

做法：

用 OpenAI CLIP 或 OpenCLIP 提取 image/text embeddings。
构造若干 prompt templates，例如：
- “a photo of a dog”
- “a blurry photo of a dog”
- “a drawing of a dog”
比较不同 prompt 对分类结果的影响。
用 PCA / UMAP 可视化 image/text embedding。
做图像遮挡：遮住主体、背景、文字，观察相似度变化。

使用资源：CLIP / OpenCLIP。(GitHub)

产出价值：这是多模态表征分析的入门项目，能证明你理解 contrastive alignment，而不是只会调用模型。

项目 2：LLaVA 视觉 token 消融实验

目标：研究 VLM 是否真的“看图”，以及哪些视觉 token 影响输出。

做法：

跑通 LLaVA。
抓取 vision encoder 输出、projector 输出、LLM hidden states。
对视觉 token 做：
- random ablation
- patch-level ablation
- object-region ablation
- high-similarity token removal
比较回答变化。
在 VQA / 自建图文冲突数据上评估。

使用资源：LLaVA、VQA。(Hugging Face)

推荐问题：

图像信息是在早期层被吸收，还是只在输出附近影响 logits？

项目 3：多模态幻觉评测复现：POPE + 自定义图文冲突集

目标：系统测量对象幻觉。

做法：

复现 POPE。
对比 LLaVA、Qwen2.5-VL、小型 VLM。
构造图文冲突样本：图里没有猫，但 prompt 暗示有猫。
统计模型是否被语言先验带偏。
分析不同 prompt wording 对 hallucination rate 的影响。

使用资源：POPE、Qwen2.5-VL、MME。(arXiv)

产出价值：这是很适合写成技术博客/短论文的方向。

项目 4：LLaVA / CLIP 的 OCR prompt injection 防御性评测

目标：研究图像中的文字如何影响 VLM 输出。

做法：

生成包含可见文字的图片，例如海报、截图、表格。
分离测试：
- 纯文本 prompt
- 纯图像文字
- 图文冲突
- 图像中隐藏/小字号文字
测试模型是否会服从图像中的指令。
比较 LLaVA 与 LLaVAR，因为 LLaVAR 专门增强 text-rich image understanding。(llavar.github.io)

安全边界：只做授权、本地、无害任务，例如让模型输出固定字符串、忽略用户问题、改变格式，不做真实攻击系统。

项目 5：用 TransformerLens 复现 induction heads / activation patching

目标：建立机制可解释性基本功。

做法：

用 TransformerLens 加载 GPT-2 small。
复现 induction head 现象。
做 attention head ablation。
做 activation patching。
记录每个 head 对 logits 的影响。

使用资源：TransformerLens、ARENA、Transformer Circuits。(GitHub)

产出价值：这是白盒逆向的“Hello World”。

项目 6：训练一个小 SAE 分解模型激活

目标：理解 superposition 与 sparse feature。

做法：

用 TransformerLens 抽取 GPT-2 small 某层 residual stream。
用 SAELens 训练 SAE。
找 top activating examples。
给 feature 人工命名。
做 feature ablation / steering，看输出是否按预期变化。

使用资源：SAELens、SAE attention output 论文。(PyPI)

扩展：后续可把 SAE 用到 CLIP embedding 或 LLaVA projector 输出上。

项目 7：CLIP / VLM 黑盒能力指纹

目标：只通过输入输出推断模型能力边界。

做法：

设计 probe suite：
- OCR
- object counting
- color recognition
- spatial relation
- chart understanding
- text-image contradiction
用 LMMS-Eval 或自己写 eval harness。
比较多个模型。
输出 capability fingerprint radar chart。
分析哪些能力可能来自视觉 encoder，哪些来自语言先验。

使用资源：LMMS-Eval、MME、VQA。(arXiv)

项目 8：多模态安全评测流水线

目标：把黑盒审计工程化。

做法：

用 promptfoo / garak 搭一个评测框架。
自定义 harmless adversarial probes。
对本地模型或授权 API 做测试。
输出 vulnerability report：
- failure category
- reproduction prompt/image
- severity
- mitigation idea
接入 GitHub Actions，形成自动回归测试。

使用资源：garak、promptfoo、Inspect AI。(garak.ai)

注意：这个项目应定位为防御性 AI security / model auditing，不要做未授权系统测试。

6. 推荐学习顺序

第 0 阶段：补基础

MIT 6.S191 快速过一遍。(YouTube)
CS231n 重点学视觉模型。(CS231n)
CS224N 重点学 Transformer / LLM。(Stanford University)

第 1 阶段：多模态架构

按顺序读：

CLIP
BLIP-2
Flamingo
LLaVA
Qwen2.5-VL

对应实践：

CLIP embedding 分析
LLaVA 跑通
VQA / MME 小规模评测

第 2 阶段：白盒机制可解释性

按顺序做：

ARENA Chapter 1
TransformerLens induction heads
activation patching
attention head ablation
SAE 入门
把方法迁移到 VLM

第 3 阶段：黑盒审计与安全逆向

按顺序做：

POPE 幻觉评测
图文冲突集
OCR prompt injection 防御性评测
LMMS-Eval / MME 批量评测
promptfoo / garak 自动化报告

7. 最值得优先做的 3 个作品集项目

如果目标是就业竞争力 + 研究潜力，我建议优先做这三个：

1. LLaVA Visual Token Causal Analysis

关键词：VLM、activation、ablation、causal intervention、vision token。

成果形式：

GitHub repo
实验报告
图表：layer/token contribution heatmap
失败案例库

价值：最贴近“白盒逆向 + 多模态理解”。

2. Multimodal Hallucination Benchmarking with POPE/MME

关键词：hallucination、VLM evaluation、black-box probing、language prior。

成果形式：

支持多个 VLM 的评测脚本
自动生成报告
对比表格
prompt sensitivity analysis

价值：容易做出完整、可展示、可复现的结果。

3. SAE for CLIP / LLaVA Projector Representations

关键词：SAE、superposition、representation disentanglement、multimodal embedding。

成果形式：

训练 SAE
feature dashboard
top activating examples
feature ablation
steering experiment

价值：研究味最强，也最能体现你不是只做 benchmark，而是在理解内部机制。

8. 总体判断

你的方向最准确的定位是：

Multimodal AI Reverse Engineering + Mechanistic Interpretability + Black-box Model Auditing

资源优先级应是：

CS231n / CS224N：打视觉与语言模型基础。
CLIP / BLIP-2 / Flamingo / LLaVA：理解多模态架构。
ARENA / TransformerLens / Transformer Circuits：进入白盒机制可解释性。
SAELens / NNsight / pyvene：做干预、分解、因果实验。
POPE / MME / LMMS-Eval / garak / promptfoo：做黑盒审计、安全评测与工程化。

Minisql

Log

Tmp

1. 课程网站

A. 深度学习 / 视觉 / NLP 基础

B. 机制可解释性 / 模型逆向核心课程

2. 必读论文 / 技术报告

A. 多模态模型架构

B. 机制可解释性 / 白盒逆向

C. 多模态幻觉 / 安全 / 黑盒审计

3. 工具链

A. 白盒可解释性工具

B. 多模态模型与评测工具

C. 黑盒审计 / Red Teaming 工具

4. 其它重要网站 / 资料库

5. 可实践项目

项目 1：CLIP 图文 embedding 逆向分析

项目 2：LLaVA 视觉 token 消融实验

项目 3：多模态幻觉评测复现：POPE + 自定义图文冲突集

项目 4：LLaVA / CLIP 的 OCR prompt injection 防御性评测

项目 5：用 TransformerLens 复现 induction heads / activation patching

项目 6：训练一个小 SAE 分解模型激活

项目 7：CLIP / VLM 黑盒能力指纹

项目 8：多模态安全评测流水线

6. 推荐学习顺序

第 0 阶段：补基础

第 1 阶段：多模态架构

第 2 阶段：白盒机制可解释性

第 3 阶段：黑盒审计与安全逆向

7. 最值得优先做的 3 个作品集项目

1. LLaVA Visual Token Causal Analysis

2. Multimodal Hallucination Benchmarking with POPE/MME

3. SAE for CLIP / LLaVA Projector Representations

8. 总体判断

Log

1. 课程网站 ​

A. 深度学习 / 视觉 / NLP 基础 ​

B. 机制可解释性 / 模型逆向核心课程 ​

2. 必读论文 / 技术报告 ​

A. 多模态模型架构 ​

B. 机制可解释性 / 白盒逆向 ​

C. 多模态幻觉 / 安全 / 黑盒审计 ​

3. 工具链 ​

A. 白盒可解释性工具 ​

B. 多模态模型与评测工具 ​

C. 黑盒审计 / Red Teaming 工具 ​

4. 其它重要网站 / 资料库 ​

5. 可实践项目 ​

项目 1：CLIP 图文 embedding 逆向分析 ​

项目 2：LLaVA 视觉 token 消融实验 ​

项目 3：多模态幻觉评测复现：POPE + 自定义图文冲突集 ​

项目 4：LLaVA / CLIP 的 OCR prompt injection 防御性评测 ​

项目 5：用 TransformerLens 复现 induction heads / activation patching ​

项目 6：训练一个小 SAE 分解模型激活 ​

项目 7：CLIP / VLM 黑盒能力指纹 ​

项目 8：多模态安全评测流水线 ​

6. 推荐学习顺序 ​

第 0 阶段：补基础 ​

第 1 阶段：多模态架构 ​

第 2 阶段：白盒机制可解释性 ​

第 3 阶段：黑盒审计与安全逆向 ​

7. 最值得优先做的 3 个作品集项目 ​

1. LLaVA Visual Token Causal Analysis ​

2. Multimodal Hallucination Benchmarking with POPE/MME ​

3. SAE for CLIP / LLaVA Projector Representations ​

8. 总体判断 ​

1. 课程网站

A. 深度学习 / 视觉 / NLP 基础

B. 机制可解释性 / 模型逆向核心课程

2. 必读论文 / 技术报告

A. 多模态模型架构

B. 机制可解释性 / 白盒逆向

C. 多模态幻觉 / 安全 / 黑盒审计

3. 工具链

A. 白盒可解释性工具

B. 多模态模型与评测工具

C. 黑盒审计 / Red Teaming 工具

4. 其它重要网站 / 资料库

5. 可实践项目

项目 1：CLIP 图文 embedding 逆向分析

项目 2：LLaVA 视觉 token 消融实验

项目 3：多模态幻觉评测复现：POPE + 自定义图文冲突集

项目 4：LLaVA / CLIP 的 OCR prompt injection 防御性评测

项目 5：用 TransformerLens 复现 induction heads / activation patching

项目 6：训练一个小 SAE 分解模型激活

项目 7：CLIP / VLM 黑盒能力指纹

项目 8：多模态安全评测流水线

6. 推荐学习顺序

第 0 阶段：补基础

第 1 阶段：多模态架构

第 2 阶段：白盒机制可解释性

第 3 阶段：黑盒审计与安全逆向

7. 最值得优先做的 3 个作品集项目

1. LLaVA Visual Token Causal Analysis

2. Multimodal Hallucination Benchmarking with POPE/MME

3. SAE for CLIP / LLaVA Projector Representations

8. 总体判断