Skip to content

研究方向:多模态大模型逆向、白盒机制、黑盒逆向、可解释性与安全 主线:

深度学习基础
→ Transformer / ViT / CLIP / LLaVA 架构
→ 白盒可解释性
→ 多模态表征分析
→ 黑盒模型审计
→ 多模态安全与逆向工程

侧重点应放在:

  1. Transformer 与多模态架构
  2. 机制可解释性
  3. 表征分析
  4. 黑盒行为探测
  5. 多模态安全 传统软件逆向、CUDA、推理框架、模型文件格式可以学,但不应喧宾夺主。

下面按学习优先级整理。你的主线应是:

深度学习基础 → Transformer / ViT / CLIP / VLM 架构 → 机制可解释性 → 多模态表征分析 → 黑盒审计 / 安全逆向 → 可复现实验与作品集。


1. 课程网站

A. 深度学习 / 视觉 / NLP 基础

资源价值建议
Stanford CS231n: Deep Learning for Computer Vision视觉模型、CNN、ViT、训练调试、视觉任务基础。课程强调实现、训练和调试神经网络,适合作为多模态视觉侧地基。(CS231n)必学,重点看 backprop、CNN、ViT、detection、visual representation。
Stanford CS224N: NLP with Deep LearningNLP、Transformer、LLM 基础。课程包含 PyTorch 作业、LLM 相关内容,适合作为语言模型侧地基。(Stanford University)必学,重点看 word vectors、attention、Transformers、generation。
MIT 6.S191: Introduction to Deep Learning快速建立深度学习全局图景,视频、slides、labs 较完整。(YouTube)入门补课用,不够深入,不能替代 CS231n/CS224n。
Full Stack Deep Learning工程化、实验管理、数据管理、部署、监控,对做可复现项目和作品集很有用。课程材料免费。(Full Stack Deep Learning)后期做项目时看,不是理论主线。

B. 机制可解释性 / 模型逆向核心课程

资源价值建议
ARENA: Alignment Research Engineer Accelerator当前最适合自学机制可解释性的实战课程之一,Chapter 1 专门讲 Transformer Interpretability,包含大量 hands-on Python 练习。(Learn Mechanistic Interpretability)你的主线课程。先学 TransformerLens,再做 activation patching / ablation。
Transformer Circuits / Anthropic机制可解释性的经典系列,目标是把 Transformer 逆向成可理解的计算电路;《A Mathematical Framework for Transformer Circuits》是核心入口。(Anthropic)读慢一点,配合代码实验,否则容易停留在概念层。

2. 必读论文 / 技术报告

A. 多模态模型架构

论文为什么重要优先级
CLIP: Connecting Text and Images图文对比学习、共享 embedding 空间、zero-shot 分类,是理解现代 VLM 的起点。OpenAI 官方页面说明 CLIP 通过自然语言监督学习视觉概念,并可用自然语言类别名做 zero-shot 识别。(GitHub)S
Flamingo: a Visual Language Model for Few-Shot Learning代表性视觉语言模型,重点是如何连接预训练视觉模型和语言模型,并处理交错图文/视频输入。(Hugging Face)S
BLIP-2典型“冻结视觉编码器 + 冻结 LLM + 中间模块桥接”的架构,适合理解多模态投影/对齐。Salesforce 介绍其目标是让 LLM 能 ingest and understand images。(Salesforce)S
LLaVA: Visual Instruction Tuning开源多模态指令微调的经典基线,连接 vision encoder 与 LLM,是你做白盒实验最适合的对象之一。(Hugging Face)S
Qwen2.5-VL Technical Report较新的强开源 VLM 系列,覆盖动态分辨率、文档理解、视觉定位、视频理解等能力。(Hugging Face)A

B. 机制可解释性 / 白盒逆向

论文 / 系列为什么重要优先级
A Mathematical Framework for Transformer CircuitsTransformer 机制可解释性的基础框架,重点是 QK/OV circuit、attention head 的可解释分解。(Anthropic)S
Toy Models of Superposition理解 polysemantic neurons、superposition、SAE 为什么必要。S
In-context Learning and Induction Heads理解 induction head、复制机制、上下文学习电路。S
Interpreting Attention Layer Outputs with Sparse Autoencoders将 SAE 用于 attention layer outputs,显示 SAE 可用于解释 attention head 的多重角色,并分析 GPT-2 Small 中 attention head 的 polysemanticity。(arXiv)A
Disentangling Dense Embeddings with Sparse Autoencoders将 SAE 用于 dense embeddings,适合你以后扩展到 CLIP / VLM embedding 分解。(arXiv)A

注意:机制可解释性领域大量高质量工作以 blog / notebook / preprint 形式存在,不全是顶会论文。这不是缺点,但你要区分“可复现证据”和“漂亮叙事”。


C. 多模态幻觉 / 安全 / 黑盒审计

论文 / 资源为什么重要优先级
Hallucination of Multimodal Large Language Models: A Survey系统总结 MLLM 幻觉的原因、评估、缓解方法,适合确定研究问题。(Hugging Face)S
Evaluating Object Hallucination in Large Vision-Language Models / POPE经典对象幻觉评测,提出 polling-based query 方法评估 VLM 是否生成图像中不存在的对象。(arXiv)S
Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models多模态安全逆向代表作,研究图像通道与文本通道组合导致的跨模态 jailbreak 风险。只建议用于防御性研究、授权测试和模型审计。(Hugging Face)A
LMMs-Eval / LMMS-EVAL大规模多模态评测框架,覆盖 50+ 任务和多模型评测,适合做黑盒能力边界分析。(arXiv)A
MME Benchmark多模态大模型综合评测,覆盖感知与认知 14 个子任务,适合做模型对比和错误归因。(mme-benchmark.github.io)A

3. 工具链

A. 白盒可解释性工具

工具用途链接
TransformerLensGPT-style Transformer 机制可解释性核心工具,可缓存、编辑、替换内部激活。官方说明其目标是 reverse engineer trained transformers from weights。(GitHub)必用
SAELens训练和分析 sparse autoencoders,可与 TransformerLens、Hugging Face、NNsight 等配合,用于分解模型激活。(PyPI)必用
NNsight读取、修改模型中间激活,支持本地 PyTorch 模型和远程大模型,适合做 causal intervention。(NNSight)必用
pyveneStanfordNLP 的 intervention library,适合做 causal abstraction、knowledge localization、activation intervention。(arXiv)A
CaptumPyTorch 可解释性库,支持 Integrated Gradients、Grad-CAM、saliency、TCAV 等,且支持多模态输入。(captum.ai)A
PyTorch hooks自己抓取 activation / gradient 的基础能力。PyTorch + hooks 是做白盒逆向的底层技能。(PyTorch Documentation)必会

B. 多模态模型与评测工具

工具 / Repo用途链接
OpenAI CLIPCLIP 官方实现,适合做图文 embedding、zero-shot、对齐分析。(GitHub)入门首选
OpenCLIP大量开源 CLIP checkpoint,支持 LAION/DataComp 等训练源,适合做系统实验。(GitHub)必用
LLaVA最适合白盒分析的开源 VLM 基线之一。(Hugging Face)必用
LLaVAR面向 text-rich image / OCR 场景的 LLaVA 变体,适合研究视觉文本理解与 OCR prompt injection。(llavar.github.io)A
LMMS-Eval多模态模型统一评测框架,可做黑盒模型能力图谱。(arXiv)A
MME / MME-RealWorld多模态 benchmark,MME-RealWorld 包含高分辨率真实场景,适合测试细粒度感知。(GitHub)A

C. 黑盒审计 / Red Teaming 工具

工具用途注意
garakLLM vulnerability scanner,可探测 hallucination、data leakage、prompt injection、jailbreak 等问题。(garak.ai)只测自己或授权系统。
promptfooPrompt / agent / RAG 评测与 red teaming,可用于 CI/CD;支持多模型对比和漏洞扫描。(GitHub)适合工程化黑盒评测。
OpenAI EvalsLLM/system eval 框架,适合构造自定义行为测试集。(GitHub)用于系统评测。
Inspect AIUK AI Security Institute 开源评测框架,支持 coding、agentic tasks、reasoning、knowledge、behavior、multimodal understanding 等评测。(Inspect)适合严肃评测项目。

4. 其它重要网站 / 资料库

资源用途
Transformer Circuits机制可解释性核心阅读库。(Anthropic)
Learn Mechanistic Interpretability课程、ARENA、学习路径入口。(Learn Mechanistic Interpretability)
Hugging Face Papers跟踪 VLM、SAE、MLLM hallucination、benchmark 新论文。上面已有 LLaVA、Flamingo、Qwen2.5-VL、MME 等页面。(Hugging Face)
VQA Dataset视觉问答经典数据集,包含 COCO 图像、问题、多个 ground-truth answers,适合做 VLM 行为分析。(Visual Question Answering)
POPE对象幻觉评估数据与代码,适合做第一个多模态幻觉项目。(arXiv)

5. 可实践项目

下面这些项目按难度递进。建议每个项目都产出:GitHub repo + 实验报告 + 可复现实验脚本 + 图表 + 失败案例分析


项目 1:CLIP 图文 embedding 逆向分析

目标:理解 CLIP 的图文对齐空间。

做法

  1. 用 OpenAI CLIP 或 OpenCLIP 提取 image/text embeddings。

  2. 构造若干 prompt templates,例如:

    • “a photo of a dog”

    • “a blurry photo of a dog”

    • “a drawing of a dog”

  3. 比较不同 prompt 对分类结果的影响。

  4. 用 PCA / UMAP 可视化 image/text embedding。

  5. 做图像遮挡:遮住主体、背景、文字,观察相似度变化。

使用资源:CLIP / OpenCLIP。(GitHub)

产出价值:这是多模态表征分析的入门项目,能证明你理解 contrastive alignment,而不是只会调用模型。


项目 2:LLaVA 视觉 token 消融实验

目标:研究 VLM 是否真的“看图”,以及哪些视觉 token 影响输出。

做法

  1. 跑通 LLaVA。

  2. 抓取 vision encoder 输出、projector 输出、LLM hidden states。

  3. 对视觉 token 做:

    • random ablation

    • patch-level ablation

    • object-region ablation

    • high-similarity token removal

  4. 比较回答变化。

  5. 在 VQA / 自建图文冲突数据上评估。

使用资源:LLaVA、VQA。(Hugging Face)

推荐问题

图像信息是在早期层被吸收,还是只在输出附近影响 logits?


项目 3:多模态幻觉评测复现:POPE + 自定义图文冲突集

目标:系统测量对象幻觉。

做法

  1. 复现 POPE。

  2. 对比 LLaVA、Qwen2.5-VL、小型 VLM。

  3. 构造图文冲突样本:图里没有猫,但 prompt 暗示有猫。

  4. 统计模型是否被语言先验带偏。

  5. 分析不同 prompt wording 对 hallucination rate 的影响。

使用资源:POPE、Qwen2.5-VL、MME。(arXiv)

产出价值:这是很适合写成技术博客/短论文的方向。


项目 4:LLaVA / CLIP 的 OCR prompt injection 防御性评测

目标:研究图像中的文字如何影响 VLM 输出。

做法

  1. 生成包含可见文字的图片,例如海报、截图、表格。

  2. 分离测试:

    • 纯文本 prompt

    • 纯图像文字

    • 图文冲突

    • 图像中隐藏/小字号文字

  3. 测试模型是否会服从图像中的指令。

  4. 比较 LLaVA 与 LLaVAR,因为 LLaVAR 专门增强 text-rich image understanding。(llavar.github.io)

安全边界:只做授权、本地、无害任务,例如让模型输出固定字符串、忽略用户问题、改变格式,不做真实攻击系统。


项目 5:用 TransformerLens 复现 induction heads / activation patching

目标:建立机制可解释性基本功。

做法

  1. 用 TransformerLens 加载 GPT-2 small。

  2. 复现 induction head 现象。

  3. 做 attention head ablation。

  4. 做 activation patching。

  5. 记录每个 head 对 logits 的影响。

使用资源:TransformerLens、ARENA、Transformer Circuits。(GitHub)

产出价值:这是白盒逆向的“Hello World”。


项目 6:训练一个小 SAE 分解模型激活

目标:理解 superposition 与 sparse feature。

做法

  1. 用 TransformerLens 抽取 GPT-2 small 某层 residual stream。

  2. 用 SAELens 训练 SAE。

  3. 找 top activating examples。

  4. 给 feature 人工命名。

  5. 做 feature ablation / steering,看输出是否按预期变化。

使用资源:SAELens、SAE attention output 论文。(PyPI)

扩展:后续可把 SAE 用到 CLIP embedding 或 LLaVA projector 输出上。


项目 7:CLIP / VLM 黑盒能力指纹

目标:只通过输入输出推断模型能力边界。

做法

  1. 设计 probe suite:

    • OCR

    • object counting

    • color recognition

    • spatial relation

    • chart understanding

    • text-image contradiction

  2. 用 LMMS-Eval 或自己写 eval harness。

  3. 比较多个模型。

  4. 输出 capability fingerprint radar chart。

  5. 分析哪些能力可能来自视觉 encoder,哪些来自语言先验。

使用资源:LMMS-Eval、MME、VQA。(arXiv)


项目 8:多模态安全评测流水线

目标:把黑盒审计工程化。

做法

  1. 用 promptfoo / garak 搭一个评测框架。

  2. 自定义 harmless adversarial probes。

  3. 对本地模型或授权 API 做测试。

  4. 输出 vulnerability report:

    • failure category

    • reproduction prompt/image

    • severity

    • mitigation idea

  5. 接入 GitHub Actions,形成自动回归测试。

使用资源:garak、promptfoo、Inspect AI。(garak.ai)

注意:这个项目应定位为防御性 AI security / model auditing,不要做未授权系统测试。


6. 推荐学习顺序

第 0 阶段:补基础

  1. MIT 6.S191 快速过一遍。(YouTube)

  2. CS231n 重点学视觉模型。(CS231n)

  3. CS224N 重点学 Transformer / LLM。(Stanford University)


第 1 阶段:多模态架构

按顺序读:

  1. CLIP

  2. BLIP-2

  3. Flamingo

  4. LLaVA

  5. Qwen2.5-VL

对应实践:

  • CLIP embedding 分析

  • LLaVA 跑通

  • VQA / MME 小规模评测


第 2 阶段:白盒机制可解释性

按顺序做:

  1. ARENA Chapter 1

  2. TransformerLens induction heads

  3. activation patching

  4. attention head ablation

  5. SAE 入门

  6. 把方法迁移到 VLM


第 3 阶段:黑盒审计与安全逆向

按顺序做:

  1. POPE 幻觉评测

  2. 图文冲突集

  3. OCR prompt injection 防御性评测

  4. LMMS-Eval / MME 批量评测

  5. promptfoo / garak 自动化报告


7. 最值得优先做的 3 个作品集项目

如果目标是就业竞争力 + 研究潜力,我建议优先做这三个:

1. LLaVA Visual Token Causal Analysis

关键词:VLM、activation、ablation、causal intervention、vision token。

成果形式:

  • GitHub repo

  • 实验报告

  • 图表:layer/token contribution heatmap

  • 失败案例库

价值:最贴近“白盒逆向 + 多模态理解”。


2. Multimodal Hallucination Benchmarking with POPE/MME

关键词:hallucination、VLM evaluation、black-box probing、language prior。

成果形式:

  • 支持多个 VLM 的评测脚本

  • 自动生成报告

  • 对比表格

  • prompt sensitivity analysis

价值:容易做出完整、可展示、可复现的结果。


3. SAE for CLIP / LLaVA Projector Representations

关键词:SAE、superposition、representation disentanglement、multimodal embedding。

成果形式:

  • 训练 SAE

  • feature dashboard

  • top activating examples

  • feature ablation

  • steering experiment

价值:研究味最强,也最能体现你不是只做 benchmark,而是在理解内部机制。


8. 总体判断

你的方向最准确的定位是:

Multimodal AI Reverse Engineering + Mechanistic Interpretability + Black-box Model Auditing

资源优先级应是:

  1. CS231n / CS224N:打视觉与语言模型基础。

  2. CLIP / BLIP-2 / Flamingo / LLaVA:理解多模态架构。

  3. ARENA / TransformerLens / Transformer Circuits:进入白盒机制可解释性。

  4. SAELens / NNsight / pyvene:做干预、分解、因果实验。

  5. POPE / MME / LMMS-Eval / garak / promptfoo:做黑盒审计、安全评测与工程化。