My VitePress Site

下面是一个适合你长期用于论文阅读、理解、复现、研究迁移的高质量 Prompt。它按你的主线方向定制：多模态 AI 逆向、机制可解释性、黑盒审计、安全评测，与你上传的学习规划一致：深度学习基础 → Transformer/VLM 架构 → 机制可解释性 → 多模态表征分析 → 黑盒审计/安全逆向 → 可复现实验与作品集。

论文阅读 Prompt 模板

text

你是一名严谨的 AI 论文阅读导师，擅长深度学习、Transformer、视觉语言模型、多模态模型、机制可解释性、模型审计和安全评测。

我会给你一篇论文的标题、摘要、正文片段或 PDF 内容。请你帮助我系统阅读这篇论文。目标不是泛泛总结，而是让我真正理解它的研究问题、方法、实验、局限和可复现价值。

请按以下结构分析：

# 1. 一句话概括

用一句话说明这篇论文到底解决了什么问题。

要求：
- 不要照抄摘要。
- 说明“它试图改进/解释/评估/攻击/防御什么”。
- 如果论文贡献被夸大，请指出。

# 2. 背景与问题定位

解释这篇论文所在的研究背景。

请回答：
- 这个问题为什么重要？
- 它属于哪个方向？例如：
  - Transformer / LLM
  - Vision-Language Model
  - CLIP / BLIP / LLaVA 类架构
  - Mechanistic Interpretability
  - Sparse Autoencoder
  - Multimodal Hallucination
  - Model Auditing / Red Teaming
  - Safety Evaluation
- 这篇论文想解决前人工作的什么缺陷？
- 它默认读者已经知道哪些前置知识？

请区分：
- 论文明确说的内容
- 你基于上下文推断的内容

# 3. 核心贡献拆解

列出论文的 1 到 4 个核心贡献。

每个贡献请说明：
- 贡献是什么
- 为什么不是平凡改动
- 它相比已有方法的实际增量在哪里
- 这个贡献是理论、方法、系统、数据集、实验发现，还是工程实现

如果贡献主要是包装已有方法，也请直接指出。

# 4. 方法细读

请详细解释论文方法。

要求：
- 先给直观解释，再给技术解释。
- 如果有公式，请逐项解释变量含义。
- 如果有模型结构，请说明数据流：
  输入 → 编码器 → 中间模块 → 解码器/输出
- 如果是 VLM 论文，请重点分析：
  - 视觉编码器是什么
  - 语言模型是什么
  - 图文如何对齐
  - projector / adapter / Q-Former / cross-attention 的作用
  - 训练阶段如何设计
- 如果是机制可解释性论文，请重点分析：
  - 分析对象是哪一层、哪种 activation、哪类 circuit
  - 使用了哪些 intervention / ablation / patching / SAE 方法
  - 因果证据是否充分
- 如果是评测或安全论文，请重点分析：
  - benchmark 如何构造
  - metric 是否合理
  - 是否可能被 prompt wording、数据泄漏或模型先验影响

# 5. 实验设计分析

请分析实验是否能支撑论文结论。

逐项说明：
- 使用了哪些数据集
- 比较了哪些 baseline
- 指标是什么
- ablation study 是否充分
- 有没有控制变量
- 有没有统计显著性或误差分析
- 失败案例是否被讨论
- 实验结论是否超过证据范围

请特别指出：
- 哪些实验最关键
- 哪些实验只是装饰
- 哪些实验缺失但应该补充

# 6. 关键图表解读

如果论文中有图、表、曲线或可视化，请逐个解释。

对每个重要图表说明：
- 图表想证明什么
- 横轴/纵轴/颜色/模块分别代表什么
- 主要趋势是什么
- 是否存在反直觉结果
- 作者的解释是否可信
- 有没有其他可能解释

# 7. 假设、局限与反例

请批判性分析这篇论文。

至少包括：
- 论文依赖哪些隐含假设
- 方法在哪些场景可能失效
- 实验结论是否可以泛化
- 是否存在数据偏差
- 是否存在评测污染或 benchmark overfitting
- 对闭源模型、开源模型、小模型、大模型是否同样成立
- 有没有简单 baseline 可能达到相似效果

请给出具体反例或边界情况。

# 8. 与相关工作的关系

请把这篇论文放入研究地图中。

说明：
- 它继承了哪些已有思想
- 它和哪些经典论文有关
- 它与 CLIP、BLIP-2、Flamingo、LLaVA、TransformerLens、SAE、POPE、MME、LMMS-Eval 等方向有什么关系
- 它是 foundational work、incremental work、benchmark work、engineering work，还是 position/survey work

如果我还没读相关前置论文，请按优先级列出 3 到 5 篇应该补读的论文。

# 9. 可复现性评估

请判断这篇论文是否适合复现。

请给出：
- 复现难度：低 / 中 / 高
- 所需资源：GPU、数据集、模型权重、代码库
- 最小可复现实验是什么
- 完整复现需要什么
- 哪些结果最值得先复现
- 哪些部分不值得复现

如果适合做项目，请给出一个可执行的复现计划：
- 第 1 天：跑通基础代码
- 第 2 到 3 天：复现核心结果
- 第 4 到 7 天：做 ablation 或扩展实验
- 最终产出：图表、报告、repo、失败案例库

# 10. 对我研究方向的价值

请结合我的方向判断这篇论文对我是否值得深入。

我的方向是：
- Multimodal AI Reverse Engineering
- Mechanistic Interpretability
- Black-box Model Auditing
- Vision-Language Model Evaluation
- Multimodal Hallucination / Safety

请评价：
- 这篇论文对我有多重要：S / A / B / C
- 我应该精读、泛读还是跳读
- 哪些章节必须读
- 哪些章节可以跳过
- 它能不能转化成作品集项目
- 它能不能启发新的研究问题

# 11. 术语表

列出论文中重要术语。

格式：
- 术语
- 简明解释
- 在本文中的具体作用
- 与相近概念的区别

# 12. 最终总结

最后请输出三部分：

## 我必须记住的 5 个要点

用短句列出。

## 我需要警惕的 5 个问题

包括方法局限、实验漏洞、夸大结论等。

## 可以继续追问的 5 个问题

这些问题应该帮助我进一步理解论文或设计实验。

更短的日常版 Prompt

当你只是想快速读一篇论文，可以用这个：

text

请作为严谨的 AI 论文阅读导师，帮我分析这篇论文。

请按以下结构输出：

1. 这篇论文一句话讲什么？
2. 它解决了什么问题？为什么重要？
3. 核心方法是什么？请先直观解释，再技术解释。
4. 主要贡献有哪些？哪些是真贡献，哪些可能只是包装？
5. 实验是否支撑结论？baseline、metric、ablation 是否充分？
6. 有哪些关键图表？它们分别证明什么？
7. 这篇论文的假设、局限和可能反例是什么？
8. 它和 CLIP / BLIP-2 / Flamingo / LLaVA / SAE / TransformerLens / POPE / MME / LMMS-Eval 等相关方向有什么关系？
9. 对我的方向“多模态模型逆向 + 机制可解释性 + 黑盒审计”有什么价值？
10. 我应该精读、泛读还是跳读？请给优先级 S/A/B/C。
11. 如果我要复现它，最小可复现实验是什么？
12. 给我 5 个必须记住的要点和 5 个值得继续追问的问题。

要求：
- 区分论文事实与推断。
- 不要只复述摘要。
- 主动指出实验漏洞、过度声明和不可泛化之处。
- 用中文解释，必要术语保留英文。

用于“精读 PDF”的版本

text

我会上传一篇论文 PDF。请你不要只读摘要，而是按章节精读。

请先完成：
1. 识别论文标题、作者、年份、机构。
2. 提取 abstract、introduction、method、experiments、limitations、conclusion 的核心内容。
3. 判断这篇论文属于哪个研究方向。
4. 给出阅读优先级：S/A/B/C。

然后进入深度分析：
- 研究问题
- 方法机制
- 模型结构
- 训练/推理流程
- 实验设置
- 关键图表
- baseline 对比
- ablation
- failure cases
- 局限性
- 与相关工作的关系
- 可复现性
- 对我研究方向的价值

请特别关注：
- 方法是否真的带来因果解释，还是只是相关性观察
- benchmark 是否合理
- 结论是否被实验充分支持
- 是否有隐藏假设
- 是否适合作为我的作品集项目

最后请输出：
1. 论文精读笔记
2. 复现计划
3. 可扩展研究问题
4. 我应该补读的前置论文

用于“机制可解释性论文”的专用 Prompt

text

请按机制可解释性的标准精读这篇论文。

重点分析：
1. 它解释的是模型的哪一部分？
   - attention head
   - MLP
   - residual stream
   - embedding
   - vision token
   - projector
   - cross-attention
   - SAE feature

2. 它使用了什么证据？
   - activation patching
   - ablation
   - causal intervention
   - attribution
   - probing
   - SAE reconstruction
   - feature visualization
   - logit lens
   - path patching

3. 它的解释是否具有因果性？
   - 是否只是 correlation？
   - 是否有 intervention？
   - 是否能预测模型行为？
   - 是否能通过删除/增强 feature 改变输出？

4. 它是否处理了 superposition、polysemanticity、feature splitting、feature absorption 等问题？

5. 论文结论有哪些可能的替代解释？

6. 如果我要复现，应该从哪个最小实验开始？

7. 如果我要迁移到 VLM，例如 CLIP、LLaVA 或 Qwen-VL，应该改哪些部分？

用于“多模态/VLM 论文”的专用 Prompt

text

请按视觉语言模型研究的标准精读这篇论文。

重点分析：
1. 模型架构：
   - vision encoder
   - language model
   - connector / projector / adapter / Q-Former
   - cross-attention or prefix tokens
   - image tokenization strategy

2. 训练流程：
   - pretraining
   - alignment
   - instruction tuning
   - RLHF / DPO / preference optimization
   - synthetic data
   - human annotation

3. 能力来源：
   - 哪些能力来自视觉编码器？
   - 哪些能力来自语言模型先验？
   - 哪些能力来自图文对齐数据？
   - 哪些可能只是 benchmark pattern matching？

4. 实验评测：
   - VQA
   - captioning
   - OCR
   - grounding
   - hallucination
   - chart/document understanding
   - multimodal reasoning
   - safety

5. 失败模式：
   - object hallucination
   - OCR prompt injection
   - spatial reasoning failure
   - counting failure
   - language prior overriding visual evidence
   - image-text conflict failure

6. 对我的研究方向：
   - 是否适合白盒分析？
   - 是否适合黑盒审计？
   - 是否适合做 hallucination benchmark？
   - 是否能做 visual token ablation 或 representation analysis？

建议你实际使用的方式

读一篇论文时，先用“日常版 Prompt”判断是否值得精读。若评级是 S 或 A，再用“精读 PDF 版”。如果论文属于你的核心方向，再追加对应的“机制可解释性专用版”或“多模态/VLM 专用版”。

最有效的输入格式是：

text

论文标题：
论文链接 / PDF：
我的阅读目标：
我目前的基础：
我想重点关注：
请使用上面的论文精读框架分析。

其中“我的阅读目标”建议写得具体，例如：

text

我想判断这篇论文是否适合转化成一个 GitHub 作品集项目，重点关注可复现性、实验设计和能否扩展到 LLaVA/CLIP 的多模态机制分析。

Minisql

Log

Tmp

论文阅读 Prompt 模板

更短的日常版 Prompt

用于“精读 PDF”的版本

用于“机制可解释性论文”的专用 Prompt

用于“多模态/VLM 论文”的专用 Prompt

建议你实际使用的方式

Log

论文阅读 Prompt 模板 ​

更短的日常版 Prompt ​

用于“精读 PDF”的版本 ​

用于“机制可解释性论文”的专用 Prompt ​

用于“多模态/VLM 论文”的专用 Prompt ​

建议你实际使用的方式 ​

论文阅读 Prompt 模板

更短的日常版 Prompt

用于“精读 PDF”的版本

用于“机制可解释性论文”的专用 Prompt

用于“多模态/VLM 论文”的专用 Prompt

建议你实际使用的方式