Appearance
下面是按“能直接开干”整理的资源包。优先级标记:
P0:立刻用,3 个月内核心。
P1:6 个月内用。
P2:研究/进阶用。
慎用:名气大,但不适合当前阶段直接复现或全量训练。
0. 建议执行顺序
text
P0-1: CS231n / MIT 6.S191 / D2L 作为 DL+CV 启动
P0-2: CS224n Transformer/NLP 章节
P0-3: Mini-CLIP 图文检索复现
P0-4: BLIP / BLIP-2 / LLaVA 论文阅读
P1-1: VQA / ScienceQA / DocVQA / ChartQA 评测项目
P1-2: SmolVLM 或 Qwen2.5-VL LoRA 微调
P1-3: VLMEvalKit 跑 MMBench / MMMU / HallusionBench 子集
P2-1: 自建中文文档图表/幻觉 benchmark
P2-2: 写技术报告 / benchmark report / workshop paper 草稿1. 课程链接
1.1 主线课程
| 优先级 | 课程 | 用途 | 重点做什么 | 链接 |
|---|---|---|---|---|
| P0 | Stanford CS231n: Deep Learning for Computer Vision | CV/DL 主线 | assignment 1–3,重点是 PyTorch、CNN、Transformer、训练调试 | 课程主页与 assignments:(CS231n) |
| P0 | Stanford CS224n: NLP with Deep Learning | Transformer/LLM 基础 | word2vec、dependency parsing、Transformer、QA/fine-tuning | 课程主页与作业目录:(Stanford University) |
| P0 | MIT 6.S191: Introduction to Deep Learning | 快速补 DL 全局 | 神经网络、CNN、RNN/Transformer、生成模型 lab | 官网、视频、lab repo:(MIT Deep Learning 6.S191) |
| P1 | CMU 11-777 Multimodal Machine Learning | 多模态理论主线 | alignment、fusion、representation learning、temporal multimodal modeling | 课程主页、YouTube、repo:(cmu-mmml.github.io) |
| P1 | Full Stack Deep Learning | 工程化与部署 | experiment management、testing、data、deployment、web demo | 课程主页、实验管理、部署:(fullstackdeeplearning.com) |
1.2 可替代/补充课程
| 优先级 | 课程 | 适合场景 | 链接 |
|---|---|---|---|
| P1 | UMich EECS 498-007 / 598-005: Deep Learning for Computer Vision | 如果 CS231n 作业不顺,换这个;PyTorch 友好,工程作业强 | 课程页与 assignment:(EECS Department) |
| P1 | Berkeley CS182 Deep Learning | 想补更理论化的 DL 视角 | 课程页与视频:(cs182sp21.github.io) |
| P0/P1 | Hugging Face Vision-Language Models 教程 | 快速上手 VLM 调用、任务分类、模型选择 | VLM intro 与 tasks:(Hugging Face) |
| P0 | Karpathy Neural Networks: Zero to Hero | 对反向传播/Transformer 实现不踏实的人 | repo:(GitHub) |
2. 可直接做的作业与练习
2.1 必做作业
| 优先级 | 作业 | 产出目标 | 链接 |
|---|---|---|---|
| P0 | CS231n Assignment 1 | kNN、SVM、Softmax、Two-layer Net,建立 shape/debug 直觉 | (CS231n) |
| P0 | CS231n Assignment 2 | CNN、BatchNorm、Dropout、PyTorch/TensorFlow | (CS231n) |
| P0 | CS231n Assignment 3 | RNN/Transformer、attention、GAN/SSL 等视年份而定 | (CS231n) |
| P0 | CS224n Assignment 1–4 | word vectors、word2vec、dependency parsing、machine translation、Transformer | (Stanford University) |
| P1 | FSDL Lab 4 | 用 W&B 做实验管理 | (fullstackdeeplearning.com) |
| P1 | FSDL Lab 7 / Deployment | 把模型做成 web demo | (fullstackdeeplearning.com) |
2.2 参考答案仓库:只用于卡住时对照,不要先看
| 资源 | 用途 | 链接 |
|---|---|---|
| CS231n solutions repo | 对照实现思路、inline questions 写法 | (GitHub) |
| CS224n solution/example repo | 卡住时查作业结构,不建议直接抄 | (GitHub) |
| UMich EECS498 solutions | 学习 PyTorch 作业组织方式 | (GitHub) |
| Berkeley CS182 self-study repo | 参考自学记录与作业组织 | (GitHub) |
3. 必读/复现论文与仓库
3.1 P0:第一批必须读且适合小规模复现
| 论文 | 读什么 | 官方/常用代码 | 复现建议 |
|---|---|---|---|
| CLIP: Learning Transferable Visual Models From Natural Language Supervision | 双塔结构、contrastive loss、zero-shot、prompt、image-text retrieval | OpenAI CLIP;OpenCLIP;CLIP benchmark (arXiv) | 第一篇复现。用 Flickr30k/COCO 子集做 Mini-CLIP |
| ViT: Vision Transformer | patch embedding、position embedding、CLS token、数据规模影响 | 可用 timm / HF transformers,不必从官方 repo 开始 | 作为 CS231n/CLIP visual encoder 前置 |
| Attention Is All You Need | self-attention、multi-head、mask、positional encoding | 可自己手写 mini Transformer | 只需小实现,不建议做大项目 |
| ViLT | 早期“简化视觉特征提取”的 VLP 思路 | 官方 repo 在论文摘要中给出,HF/MMF 也有实现入口 (arXiv) | 适合读,不一定复现全训练 |
| ALBEF | align-before-fuse、contrastive + cross attention、momentum distillation | Salesforce ALBEF;OpenReview 也列出代码 (arXiv) | 可复现 image-text retrieval 子任务 |
3.2 P1:VLM/MLLM 核心论文
| 论文 | 读什么 | 仓库/入口 | 复现建议 |
|---|---|---|---|
| BLIP | caption bootstrapping、unified understanding/generation | Salesforce BLIP;注意 README 标明该 repo deprecated,建议转 LAVIS (arXiv) | 用 LAVIS 跑 retrieval/caption/VQA |
| BLIP-2 | frozen vision encoder + frozen LLM + Q-Former | LAVIS BLIP-2 项目入口在论文 PDF 中列出;HF 有 BLIP-2 model card (arXiv) | 不建议全训;可做推理、微调、消融复刻 |
| Flamingo | interleaved image-text、few-shot multimodal learning、cross-attention | 原论文;OpenFlamingo 开源框架 (arXiv) | 慎用。读架构,不做全量复现 |
| LLaVA: Visual Instruction Tuning | visual instruction tuning、GPT-generated instruction data、projector+LLM | 官方项目页与 repo (arXiv) | 做 LoRA/小数据评测,不做全量训练 |
| Qwen2.5-VL Technical Report | dynamic resolution、文档解析、图表、视频、定位能力 | 技术报告、官方 blog、HF model (arXiv) | 适合做评测/微调/应用项目 |
| InternVL3 | native multimodal pre-training、开源 MLLM 系列 | InternVL repo、InternVL3 blog、arXiv html (GitHub) | 适合评测和阅读,不建议全训 |
| SmolVLM | 小型开源 VLM、消费级 GPU 友好 | HF SmolVLM blog、SmolLM repo、Transformers docs (Hugging Face) | 强烈适合你的 4060/4090 |
3.3 P2:进阶阅读,不建议早期复现
| 论文/方向 | 为什么读 | 链接 |
|---|---|---|
| SigLIP / SigLIP2 | CLIP-style encoder 的改进;SigLIP 用 sigmoid loss,不依赖全局 softmax 归一化 | HF docs、SigLIP2 paper/blog、model card (Hugging Face) |
| OpenFlamingo | 学开源团队如何复刻闭源大模型思想 | (GitHub) |
| InternVL3.5 | 看前沿开源 MLLM 的 RL、推理效率、部署拆分思路 | (arXiv) |
| HallusionBench | 研究 VLM hallucination / visual illusion 的典型 benchmark 写法 | (arXiv) |
4. 数据集与 benchmark
4.1 图文检索 / Captioning
| 数据集 | 用途 | 链接 |
|---|---|---|
| Flickr30k | Mini-CLIP、image-text retrieval、caption retrieval | LAVIS dataset card 说明其有 31k+ images,每张图 5 个 captions:(GitHub) |
| Flickr30k Entities | grounding / phrase localization / entity alignment | 官方页:(bryanplummer.com) |
| MS COCO Captions | captioning、retrieval、evaluation server | COCO Captions 论文说明使用 BLEU、METEOR、ROUGE、CIDEr;CodaLab evaluation server 可用:(arXiv) |
| pycocoevalcap | 本地算 COCO caption 指标 | (GitHub) |
4.2 VQA / 多模态推理
| 数据集 | 用途 | 链接 |
|---|---|---|
| VQA v2 | 标准视觉问答;包含图像、问题、多个答案 | VQA 官网说明其问题需要 vision、language、commonsense:(Visual Question Answering) |
| ScienceQA | 多模态科学问答、CoT/explanation、教育推理任务 | 官方 repo、项目页、leaderboard:(GitHub) |
| LLaVA ScienceQA conversion | 把 ScienceQA 转成 LLaVA conversation format | (GitHub) |
| MMMU | 大学级跨学科多模态推理 benchmark,11.5K 问题 | 官方 repo/project/HF dataset:(GitHub) |
4.3 文档、OCR、图表
| 数据集 | 用途 | 链接 |
|---|---|---|
| DocVQA | 文档图像问答;答案通常是文档中的文本 span | 官网与 dataset page:(docvqa.org) |
| TextVQA | 场景文字理解,需要读图中文字 | 官网/repo:(textvqa.org) |
| OCR-VQA | 读图中文字,book cover QA;论文称约 207k images / 1M QA | 官网与论文:(ocr-vqa.github.io) |
| ChartQA | 图表问答,视觉+逻辑推理 | 官方 repo:(GitHub) |
| ChartQAPro | 更难、更真实的 chart QA;带 evaluation instructions | (GitHub) |
| RefChartQA | 图表 QA grounding,答案要能定位到视觉元素 | (GitHub) |
| Donut | OCR-free document understanding Transformer,适合作为文档理解 baseline | (GitHub) |
4.4 MLLM 综合评测
| Benchmark | 用途 | 链接 |
|---|---|---|
| MME | 感知+认知 14 个子任务;适合快速评测 VLM | (GitHub) |
| MMBench | LVLM 多模态理解评测集合 | (GitHub) |
| MMMU | 专家级多学科多模态推理 | (GitHub) |
| HallusionBench | 语言幻觉 + 视觉错觉诊断;346 images、1129 questions | (arXiv) |
| Video-MME | 视频 MLLM 评测;900 videos、2700 QA、254 hours | (video-mme.github.io) |
5. 工具、框架、训练/评测仓库
5.1 训练与模型库
| 工具 | 用途 | 链接 |
|---|---|---|
| OpenAI CLIP | CLIP 官方推理/zero-shot 基线 | (GitHub) |
| OpenCLIP | 更适合训练/复现实验的 CLIP 开源实现 | (GitHub) |
| CLIP_benchmark | 标准化评测 CLIP-like 模型,支持 zero-shot classification/retrieval/captioning | (GitHub) |
| LAVIS | 语言-视觉研究一站式库;支持 retrieval、captioning、VQA、多模态分类等 | (GitHub) |
| Hugging Face Transformers | VLM 推理、模型加载、SmolVLM/SigLIP/Qwen 等生态 | SmolVLM docs、SigLIP docs:(GitHub) |
| TRL VLM cookbook | Qwen2-VL / SmolVLM / grounding / preference optimization 微调 | (Hugging Face) |
| LLaMA-Factory | 低代码微调平台,含多模态实践入口 | (GitHub) |
5.2 评测工具
| 工具 | 用途 | 链接 |
|---|---|---|
| VLMEvalKit | MLLM 评测工具;目标是让 LVLM evaluation 可复现;支持多模型多 benchmark | (GitHub) |
| OpenCompass / MMBench | 综合评测生态,VLMEvalKit 与 MMBench 结合 | (GitHub) |
| pycocoevalcap | captioning 本地指标 | (GitHub) |
5.3 推荐模型入口
| 模型 | 用途 | 链接 |
|---|---|---|
| Qwen2.5-VL-7B-Instruct | 文档、图表、OCR、定位、通用 VQA;4090 可做量化/LoRA | (Hugging Face) |
| SmolVLM | 低显存 VLM fine-tuning/部署,适合消费级 GPU | (Hugging Face) |
| InternVL | 强开源 MLLM,对比评测用 | (GitHub) |
| BLIP-2 OPT-2.7B | 经典 VLM baseline | (Hugging Face) |
| SigLIP / SigLIP2 | 图文 encoder baseline | (Hugging Face) |
6. 可直接开干的项目清单
项目 A:Mini-CLIP 图文检索复现
等级:B → A
论文:CLIP。
仓库:OpenAI CLIP、OpenCLIP、CLIP_benchmark。(arXiv)
数据集:Flickr30k、COCO Captions。(GitHub)
指标:Recall@1/5/10、MRR、zero-shot 分类准确率。
必做:
实现 CLIP loss。
训练小模型。
对比 OpenAI CLIP / OpenCLIP pretrained。
做 hard negative 分析。
做 Gradio/HF Space demo。
升级到 A:加入中文 caption、hard negative mining、failure taxonomy、可复现实验表。
项目 B:BLIP/BLIP-2 视觉语言任务基线
等级:B
论文:BLIP、BLIP-2。(arXiv)
仓库:LAVIS,优先于 deprecated BLIP repo。(GitHub)
数据集:COCO captions、Flickr30k、VQA v2。
指标:CIDEr/BLEU/METEOR/ROUGE、VQA accuracy、Recall@K。
必做:
跑 BLIP/BLIP-2 inference。
在一个小数据集上 fine-tune 或 evaluate。
写一篇“BLIP vs BLIP-2 结构差异与实验复现”。
升级到 A:做多任务比较:retrieval/caption/VQA,同一评测框架下比较。
项目 C:ScienceQA 多模态推理评测
等级:B → A
数据集:ScienceQA。(GitHub)
参考:LLaVA ScienceQA conversion。(GitHub)
模型:Qwen2.5-VL、SmolVLM、InternVL、LLaVA。
指标:overall accuracy、subject/category accuracy、explanation quality。
必做:
zero-shot baseline。
prompt ablation。
OCR/no-OCR 或 image/no-image ablation。
错误类型统计。
升级到 A:加入 LoRA 微调、跨模型评测、解释质量分析。
项目 D:文档/图表理解 VLM Benchmark
等级:A → S
数据集:DocVQA、ChartQA、TextVQA、OCR-VQA。(docvqa.org)
Baseline:
OCR + LLM。
Qwen2.5-VL zero-shot。
InternVL zero-shot。
SmolVLM fine-tuned。
Donut/OCR-free document baseline。(GitHub)
指标:EM/F1、numeric tolerance、citation accuracy、latency、VRAM。
必做:
统一数据格式。
统一 eval script。
错误分类:OCR 错误、表格结构错误、图表数值错误、幻觉。
发布 leaderboard-style README。
升级到 S:构造中文/业务文档公开子集 + evaluation harness + model comparison。
项目 E:VLM 幻觉诊断 benchmark
等级:S 候选
参考:HallusionBench。(arXiv)
模型:Qwen2.5-VL、InternVL、LLaVA、SmolVLM、闭源 API 可选。
指标:accuracy、pair consistency、yes/no bias、hallucination rate。
必做:
复跑 HallusionBench 子集。
统计 failure modes。
构造中文/文档/图表 hallucination 小集。
写 benchmark report。
升级到 S:数据质量高、协议严格、别人能复用。
项目 F:SmolVLM / Qwen2.5-VL LoRA 微调
等级:B → A
参考 cookbook:HF Qwen2-VL fine-tuning、SmolVLM consumer GPU fine-tuning。(Hugging Face)
工具:TRL、Transformers、LLaMA-Factory。(GitHub)
数据:ScienceQA、DocVQA 子集、自建 LLaVA-format 数据。
必做:
zero-shot baseline。
LoRA/QLoRA。
数据量 ablation。
prompt format ablation。
训练成本报告。
升级到 A:不是“微调成功”,而是证明何时微调有效、何时无效。
7. 可参考的高价值仓库组织
| 仓库 | 学什么 | 链接 |
|---|---|---|
| OpenCLIP | 训练配置、模型 registry、CLIP 训练工程 | (GitHub) |
| CLIP_benchmark | benchmark 组织、任务抽象、评测输出 | (GitHub) |
| LAVIS | 多任务、多数据集、多模型统一接口 | (GitHub) |
| VLMEvalKit | 大规模评测工具结构、模型 adapter、benchmark adapter | (GitHub) |
| LLaVA | MLLM 项目组织、数据转换、训练/评测脚本 | (GitHub) |
| InternVL | 大型开源 MLLM repo 的 release、model zoo、eval 组织 | (GitHub) |
| ScienceQA | 数据集 repo、leaderboard、论文配套代码组织 | (GitHub) |
| HallusionBench | benchmark repo 写法、evaluation script、failure taxonomy | (GitHub) |
| Donut | 文档理解模型 repo 组织、inference/fine-tuning 结构 | (GitHub) |
8. 论文写法、博客写法、报告写法参考
8.1 高质量技术博客
| 资源 | 学什么 | 链接 |
|---|---|---|
| Lilian Weng: Generalized Visual Language Models | VLM survey 型博客如何组织:问题、模型谱系、机制、局限 | (Lil'Log) |
| Chip Huyen: Multimodality and Large Multimodal Models | 工程+研究结合的多模态介绍写法 | (Chip Huyen) |
| Jay Alammar: Illustrated Transformer | 复杂模型可视化解释写法 | (jalammar.github.io) |
| Eugene Yan: ML design docs | 工程设计文档结构、Why/What/How 思路 | (eugeneyan.com) |
| Eugene Yan applied-ml | 生产级 ML 论文/博客案例库 | (GitHub) |
8.2 论文/报告写法应该模仿谁
| 类型 | 参考 | 模仿点 |
|---|---|---|
| 复现报告 | CLIP / BLIP / BLIP-2 | 摘要清楚、实验表清楚、任务覆盖清楚 |
| benchmark paper | HallusionBench、MMMU、DocVQA、ChartQA | 数据构造、任务分类、评测协议、错误分析 |
| 工具论文 | LAVIS、VLMEvalKit | API 设计、支持任务列表、可复现实验 |
| 工程博客 | FSDL、Eugene Yan | 设计权衡、失败案例、部署考虑 |
9. 可参考的“类似高价值工作”
9.1 Benchmark 类
| 工作 | 为什么值得参考 | 链接 |
|---|---|---|
| MMMU | 多学科、多模态、专家级推理;数据构造和 leaderboard 设计值得学 | (GitHub) |
| HallusionBench | failure-oriented benchmark,非常适合个人小团队模仿 | (arXiv) |
| DocVQA | 文档图像问答标准任务,适合做企业场景项目 | (docvqa.org) |
| ChartQA / ChartQAPro | 图表理解,适合做“VLM 是否真的会读图表”项目 | (GitHub) |
| Video-MME | 如果后期扩展视频 VLM,可参考其数据覆盖和时长设计 | (video-mme.github.io) |
9.2 工具类
| 工作 | 为什么值得参考 | 链接 |
|---|---|---|
| VLMEvalKit | “把评测做成工具”是 S 级项目方向 | (GitHub) |
| LAVIS | “统一模型+任务+数据集接口”的工程参考 | (GitHub) |
| OpenCLIP | 可复现 CLIP 训练和 scaling law 相关实验 | (GitHub) |
| pycocoevalcap | captioning 评测工具写法 | (GitHub) |
10. 你的本地/服务器可执行项目包
10.1 RTX 4060 可做
| 项目 | 模型 | 数据 | 说明 |
|---|---|---|---|
| Mini-CLIP 小规模训练 | ResNet18/ViT-tiny + small text encoder | Flickr30k 子集 | batch 小,重点看 loss/Recall |
| SmolVLM inference/demo | SmolVLM | 自己图片/ScienceQA 小集 | 适合 HF Space |
| ScienceQA zero-shot eval | Qwen2.5-VL 3B/SmolVLM | ScienceQA mini | 适合先做评测框架 |
| OCR+LLM baseline | PaddleOCR/Tesseract + 小 LLM/API | DocVQA/ChartQA 子集 | 不训练也能做强 baseline |
10.2 RTX 4090 可做
| 项目 | 模型 | 数据 | 说明 |
|---|---|---|---|
| Qwen2.5-VL 7B 量化推理 | Qwen2.5-VL-7B | DocVQA/ChartQA/ScienceQA | 做评测和 demo |
| SmolVLM SFT/LoRA | SmolVLM | 1k–10k 自建/公开 QA | HF cookbook 明确面向 consumer GPU fine-tuning (Hugging Face) |
| Qwen2-VL/Qwen2.5-VL LoRA | Qwen2-VL/Qwen2.5-VL | LLaVA-format 数据 | 参考 HF TRL cookbook / LLaMA-Factory (Hugging Face) |
| VLMEvalKit 多模型评测 | Qwen/InternVL/LLaVA/SmolVLM | MME/MMBench/MMMU 子集 | 评测项目核心 |
10.3 AutoDL/A100 才考虑
| 项目 | 说明 |
|---|---|
| Qwen2-VL 7B full fine-tune | 成本高,不建议早期做 |
| LLaVA 较大规模训练 | 官方 LLaVA 全量训练资源要求远高于单卡消费级,早期只做 LoRA/adapter |
| 大规模 OpenCLIP 训练 | 只做小规模 scaling law 复刻,不追求 SOTA |
11. 最小资源清单:避免过载版
只保留这些就能开始:
课程:CS231n + CS224n selected lectures + CMU 11-777 selected lectures。(CS231n)
第一论文:CLIP。(arXiv)
第一代码库:OpenCLIP + CLIP_benchmark。(GitHub)
第一数据集:Flickr30k + COCO Captions。(GitHub)
第一评测工具:VLMEvalKit。(GitHub)
第一 VLM 微调参考:HF SmolVLM fine-tuning cookbook。(Hugging Face)
第一高质量写作参考:Lilian Weng VLM blog + Eugene Yan ML design docs。(Lil'Log)
12. 不建议现在投入太多的资源
| 资源/方向 | 原因 |
|---|---|
| Flamingo 全量复现 | 数据和算力过高;当前更适合读论文和看 OpenFlamingo |
| InternVL/Qwen2.5-VL 全量预训练 | 工业级工程,不适合个人复现 |
| 只做 Hugging Face pipeline demo | 认可度低,必须加评测、baseline、错误分析 |
| 过早做视频/3D/机器人多模态 | 主线会散;等图文/VQA/文档理解项目稳定后再扩展 |
| 只刷课程证书 | 对就业和研究证明力弱于可复现实验仓库 |
13. 你应该建立的本地书签目录
text
01_courses/
CS231n
CS224n
MIT_6S191
CMU_11777
FSDL
02_papers_core/
CLIP
ViLT
ALBEF
BLIP
BLIP2
Flamingo
LLaVA
Qwen2.5VL
InternVL
SmolVLM
SigLIP
03_repos/
openai_CLIP
open_clip
CLIP_benchmark
LAVIS
LLaVA
VLMEvalKit
LLaMA_Factory
HF_TRL_cookbook
04_datasets/
Flickr30k
COCO_Captions
VQAv2
ScienceQA
DocVQA
TextVQA
OCR_VQA
ChartQA
MMMU
HallusionBench
05_writing_examples/
LilianWeng_VLM
ChipHuyen_Multimodal
JayAlammar_Transformer
EugeneYan_MLDesignDocs
06_projects/
mini_clip_retrieval
scienceqa_vlm_eval
doc_chart_vqa_benchmark
smolvlm_lora
vlm_hallucination_benchmark最先开干的组合仍然是:
text
CS231n Assignment 1–2
+ CLIP paper
+ OpenCLIP
+ Flickr30k
+ Recall@K evaluation
+ failure cases
+ README/report/demo这条线最短、最稳、最容易从学习型项目升级成可展示项目。