Skip to content

下面是按“能直接开干”整理的资源包。优先级标记:

  • P0:立刻用,3 个月内核心。

  • P1:6 个月内用。

  • P2:研究/进阶用。

  • 慎用:名气大,但不适合当前阶段直接复现或全量训练。


0. 建议执行顺序

text
P0-1: CS231n / MIT 6.S191 / D2L 作为 DL+CV 启动
P0-2: CS224n Transformer/NLP 章节
P0-3: Mini-CLIP 图文检索复现
P0-4: BLIP / BLIP-2 / LLaVA 论文阅读
P1-1: VQA / ScienceQA / DocVQA / ChartQA 评测项目
P1-2: SmolVLM 或 Qwen2.5-VL LoRA 微调
P1-3: VLMEvalKit 跑 MMBench / MMMU / HallusionBench 子集
P2-1: 自建中文文档图表/幻觉 benchmark
P2-2: 写技术报告 / benchmark report / workshop paper 草稿

1. 课程链接

1.1 主线课程

优先级课程用途重点做什么链接
P0Stanford CS231n: Deep Learning for Computer VisionCV/DL 主线assignment 1–3,重点是 PyTorch、CNN、Transformer、训练调试课程主页与 assignments:(CS231n)
P0Stanford CS224n: NLP with Deep LearningTransformer/LLM 基础word2vec、dependency parsing、Transformer、QA/fine-tuning课程主页与作业目录:(Stanford University)
P0MIT 6.S191: Introduction to Deep Learning快速补 DL 全局神经网络、CNN、RNN/Transformer、生成模型 lab官网、视频、lab repo:(MIT Deep Learning 6.S191)
P1CMU 11-777 Multimodal Machine Learning多模态理论主线alignment、fusion、representation learning、temporal multimodal modeling课程主页、YouTube、repo:(cmu-mmml.github.io)
P1Full Stack Deep Learning工程化与部署experiment management、testing、data、deployment、web demo课程主页、实验管理、部署:(fullstackdeeplearning.com)

1.2 可替代/补充课程

优先级课程适合场景链接
P1UMich EECS 498-007 / 598-005: Deep Learning for Computer Vision如果 CS231n 作业不顺,换这个;PyTorch 友好,工程作业强课程页与 assignment:(EECS Department)
P1Berkeley CS182 Deep Learning想补更理论化的 DL 视角课程页与视频:(cs182sp21.github.io)
P0/P1Hugging Face Vision-Language Models 教程快速上手 VLM 调用、任务分类、模型选择VLM intro 与 tasks:(Hugging Face)
P0Karpathy Neural Networks: Zero to Hero对反向传播/Transformer 实现不踏实的人repo:(GitHub)

2. 可直接做的作业与练习

2.1 必做作业

优先级作业产出目标链接
P0CS231n Assignment 1kNN、SVM、Softmax、Two-layer Net,建立 shape/debug 直觉(CS231n)
P0CS231n Assignment 2CNN、BatchNorm、Dropout、PyTorch/TensorFlow(CS231n)
P0CS231n Assignment 3RNN/Transformer、attention、GAN/SSL 等视年份而定(CS231n)
P0CS224n Assignment 1–4word vectors、word2vec、dependency parsing、machine translation、Transformer(Stanford University)
P1FSDL Lab 4用 W&B 做实验管理(fullstackdeeplearning.com)
P1FSDL Lab 7 / Deployment把模型做成 web demo(fullstackdeeplearning.com)

2.2 参考答案仓库:只用于卡住时对照,不要先看

资源用途链接
CS231n solutions repo对照实现思路、inline questions 写法(GitHub)
CS224n solution/example repo卡住时查作业结构,不建议直接抄(GitHub)
UMich EECS498 solutions学习 PyTorch 作业组织方式(GitHub)
Berkeley CS182 self-study repo参考自学记录与作业组织(GitHub)

3. 必读/复现论文与仓库

3.1 P0:第一批必须读且适合小规模复现

论文读什么官方/常用代码复现建议
CLIP: Learning Transferable Visual Models From Natural Language Supervision双塔结构、contrastive loss、zero-shot、prompt、image-text retrievalOpenAI CLIP;OpenCLIP;CLIP benchmark (arXiv)第一篇复现。用 Flickr30k/COCO 子集做 Mini-CLIP
ViT: Vision Transformerpatch embedding、position embedding、CLS token、数据规模影响可用 timm / HF transformers,不必从官方 repo 开始作为 CS231n/CLIP visual encoder 前置
Attention Is All You Needself-attention、multi-head、mask、positional encoding可自己手写 mini Transformer只需小实现,不建议做大项目
ViLT早期“简化视觉特征提取”的 VLP 思路官方 repo 在论文摘要中给出,HF/MMF 也有实现入口 (arXiv)适合读,不一定复现全训练
ALBEFalign-before-fuse、contrastive + cross attention、momentum distillationSalesforce ALBEF;OpenReview 也列出代码 (arXiv)可复现 image-text retrieval 子任务

3.2 P1:VLM/MLLM 核心论文

论文读什么仓库/入口复现建议
BLIPcaption bootstrapping、unified understanding/generationSalesforce BLIP;注意 README 标明该 repo deprecated,建议转 LAVIS (arXiv)用 LAVIS 跑 retrieval/caption/VQA
BLIP-2frozen vision encoder + frozen LLM + Q-FormerLAVIS BLIP-2 项目入口在论文 PDF 中列出;HF 有 BLIP-2 model card (arXiv)不建议全训;可做推理、微调、消融复刻
Flamingointerleaved image-text、few-shot multimodal learning、cross-attention原论文;OpenFlamingo 开源框架 (arXiv)慎用。读架构,不做全量复现
LLaVA: Visual Instruction Tuningvisual instruction tuning、GPT-generated instruction data、projector+LLM官方项目页与 repo (arXiv)做 LoRA/小数据评测,不做全量训练
Qwen2.5-VL Technical Reportdynamic resolution、文档解析、图表、视频、定位能力技术报告、官方 blog、HF model (arXiv)适合做评测/微调/应用项目
InternVL3native multimodal pre-training、开源 MLLM 系列InternVL repo、InternVL3 blog、arXiv html (GitHub)适合评测和阅读,不建议全训
SmolVLM小型开源 VLM、消费级 GPU 友好HF SmolVLM blog、SmolLM repo、Transformers docs (Hugging Face)强烈适合你的 4060/4090

3.3 P2:进阶阅读,不建议早期复现

论文/方向为什么读链接
SigLIP / SigLIP2CLIP-style encoder 的改进;SigLIP 用 sigmoid loss,不依赖全局 softmax 归一化HF docs、SigLIP2 paper/blog、model card (Hugging Face)
OpenFlamingo学开源团队如何复刻闭源大模型思想(GitHub)
InternVL3.5看前沿开源 MLLM 的 RL、推理效率、部署拆分思路(arXiv)
HallusionBench研究 VLM hallucination / visual illusion 的典型 benchmark 写法(arXiv)

4. 数据集与 benchmark

4.1 图文检索 / Captioning

数据集用途链接
Flickr30kMini-CLIP、image-text retrieval、caption retrievalLAVIS dataset card 说明其有 31k+ images,每张图 5 个 captions:(GitHub)
Flickr30k Entitiesgrounding / phrase localization / entity alignment官方页:(bryanplummer.com)
MS COCO Captionscaptioning、retrieval、evaluation serverCOCO Captions 论文说明使用 BLEU、METEOR、ROUGE、CIDEr;CodaLab evaluation server 可用:(arXiv)
pycocoevalcap本地算 COCO caption 指标(GitHub)

4.2 VQA / 多模态推理

数据集用途链接
VQA v2标准视觉问答;包含图像、问题、多个答案VQA 官网说明其问题需要 vision、language、commonsense:(Visual Question Answering)
ScienceQA多模态科学问答、CoT/explanation、教育推理任务官方 repo、项目页、leaderboard:(GitHub)
LLaVA ScienceQA conversion把 ScienceQA 转成 LLaVA conversation format(GitHub)
MMMU大学级跨学科多模态推理 benchmark,11.5K 问题官方 repo/project/HF dataset:(GitHub)

4.3 文档、OCR、图表

数据集用途链接
DocVQA文档图像问答;答案通常是文档中的文本 span官网与 dataset page:(docvqa.org)
TextVQA场景文字理解,需要读图中文字官网/repo:(textvqa.org)
OCR-VQA读图中文字,book cover QA;论文称约 207k images / 1M QA官网与论文:(ocr-vqa.github.io)
ChartQA图表问答,视觉+逻辑推理官方 repo:(GitHub)
ChartQAPro更难、更真实的 chart QA;带 evaluation instructions(GitHub)
RefChartQA图表 QA grounding,答案要能定位到视觉元素(GitHub)
DonutOCR-free document understanding Transformer,适合作为文档理解 baseline(GitHub)

4.4 MLLM 综合评测

Benchmark用途链接
MME感知+认知 14 个子任务;适合快速评测 VLM(GitHub)
MMBenchLVLM 多模态理解评测集合(GitHub)
MMMU专家级多学科多模态推理(GitHub)
HallusionBench语言幻觉 + 视觉错觉诊断;346 images、1129 questions(arXiv)
Video-MME视频 MLLM 评测;900 videos、2700 QA、254 hours(video-mme.github.io)

5. 工具、框架、训练/评测仓库

5.1 训练与模型库

工具用途链接
OpenAI CLIPCLIP 官方推理/zero-shot 基线(GitHub)
OpenCLIP更适合训练/复现实验的 CLIP 开源实现(GitHub)
CLIP_benchmark标准化评测 CLIP-like 模型,支持 zero-shot classification/retrieval/captioning(GitHub)
LAVIS语言-视觉研究一站式库;支持 retrieval、captioning、VQA、多模态分类等(GitHub)
Hugging Face TransformersVLM 推理、模型加载、SmolVLM/SigLIP/Qwen 等生态SmolVLM docs、SigLIP docs:(GitHub)
TRL VLM cookbookQwen2-VL / SmolVLM / grounding / preference optimization 微调(Hugging Face)
LLaMA-Factory低代码微调平台,含多模态实践入口(GitHub)

5.2 评测工具

工具用途链接
VLMEvalKitMLLM 评测工具;目标是让 LVLM evaluation 可复现;支持多模型多 benchmark(GitHub)
OpenCompass / MMBench综合评测生态,VLMEvalKit 与 MMBench 结合(GitHub)
pycocoevalcapcaptioning 本地指标(GitHub)

5.3 推荐模型入口

模型用途链接
Qwen2.5-VL-7B-Instruct文档、图表、OCR、定位、通用 VQA;4090 可做量化/LoRA(Hugging Face)
SmolVLM低显存 VLM fine-tuning/部署,适合消费级 GPU(Hugging Face)
InternVL强开源 MLLM,对比评测用(GitHub)
BLIP-2 OPT-2.7B经典 VLM baseline(Hugging Face)
SigLIP / SigLIP2图文 encoder baseline(Hugging Face)

6. 可直接开干的项目清单

项目 A:Mini-CLIP 图文检索复现

  • 等级:B → A

  • 论文:CLIP。

  • 仓库:OpenAI CLIP、OpenCLIP、CLIP_benchmark。(arXiv)

  • 数据集:Flickr30k、COCO Captions。(GitHub)

  • 指标:Recall@1/5/10、MRR、zero-shot 分类准确率。

  • 必做:

    1. 实现 CLIP loss。

    2. 训练小模型。

    3. 对比 OpenAI CLIP / OpenCLIP pretrained。

    4. 做 hard negative 分析。

    5. 做 Gradio/HF Space demo。

  • 升级到 A:加入中文 caption、hard negative mining、failure taxonomy、可复现实验表。

项目 B:BLIP/BLIP-2 视觉语言任务基线

  • 等级:B

  • 论文:BLIP、BLIP-2。(arXiv)

  • 仓库:LAVIS,优先于 deprecated BLIP repo。(GitHub)

  • 数据集:COCO captions、Flickr30k、VQA v2。

  • 指标:CIDEr/BLEU/METEOR/ROUGE、VQA accuracy、Recall@K。

  • 必做:

    1. 跑 BLIP/BLIP-2 inference。

    2. 在一个小数据集上 fine-tune 或 evaluate。

    3. 写一篇“BLIP vs BLIP-2 结构差异与实验复现”。

  • 升级到 A:做多任务比较:retrieval/caption/VQA,同一评测框架下比较。

项目 C:ScienceQA 多模态推理评测

  • 等级:B → A

  • 数据集:ScienceQA。(GitHub)

  • 参考:LLaVA ScienceQA conversion。(GitHub)

  • 模型:Qwen2.5-VL、SmolVLM、InternVL、LLaVA。

  • 指标:overall accuracy、subject/category accuracy、explanation quality。

  • 必做:

    1. zero-shot baseline。

    2. prompt ablation。

    3. OCR/no-OCR 或 image/no-image ablation。

    4. 错误类型统计。

  • 升级到 A:加入 LoRA 微调、跨模型评测、解释质量分析。

项目 D:文档/图表理解 VLM Benchmark

  • 等级:A → S

  • 数据集:DocVQA、ChartQA、TextVQA、OCR-VQA。(docvqa.org)

  • Baseline:

    1. OCR + LLM。

    2. Qwen2.5-VL zero-shot。

    3. InternVL zero-shot。

    4. SmolVLM fine-tuned。

    5. Donut/OCR-free document baseline。(GitHub)

  • 指标:EM/F1、numeric tolerance、citation accuracy、latency、VRAM。

  • 必做:

    1. 统一数据格式。

    2. 统一 eval script。

    3. 错误分类:OCR 错误、表格结构错误、图表数值错误、幻觉。

    4. 发布 leaderboard-style README。

  • 升级到 S:构造中文/业务文档公开子集 + evaluation harness + model comparison。

项目 E:VLM 幻觉诊断 benchmark

  • 等级:S 候选

  • 参考:HallusionBench。(arXiv)

  • 模型:Qwen2.5-VL、InternVL、LLaVA、SmolVLM、闭源 API 可选。

  • 指标:accuracy、pair consistency、yes/no bias、hallucination rate。

  • 必做:

    1. 复跑 HallusionBench 子集。

    2. 统计 failure modes。

    3. 构造中文/文档/图表 hallucination 小集。

    4. 写 benchmark report。

  • 升级到 S:数据质量高、协议严格、别人能复用。

项目 F:SmolVLM / Qwen2.5-VL LoRA 微调

  • 等级:B → A

  • 参考 cookbook:HF Qwen2-VL fine-tuning、SmolVLM consumer GPU fine-tuning。(Hugging Face)

  • 工具:TRL、Transformers、LLaMA-Factory。(GitHub)

  • 数据:ScienceQA、DocVQA 子集、自建 LLaVA-format 数据。

  • 必做:

    1. zero-shot baseline。

    2. LoRA/QLoRA。

    3. 数据量 ablation。

    4. prompt format ablation。

    5. 训练成本报告。

  • 升级到 A:不是“微调成功”,而是证明何时微调有效、何时无效。


7. 可参考的高价值仓库组织

仓库学什么链接
OpenCLIP训练配置、模型 registry、CLIP 训练工程(GitHub)
CLIP_benchmarkbenchmark 组织、任务抽象、评测输出(GitHub)
LAVIS多任务、多数据集、多模型统一接口(GitHub)
VLMEvalKit大规模评测工具结构、模型 adapter、benchmark adapter(GitHub)
LLaVAMLLM 项目组织、数据转换、训练/评测脚本(GitHub)
InternVL大型开源 MLLM repo 的 release、model zoo、eval 组织(GitHub)
ScienceQA数据集 repo、leaderboard、论文配套代码组织(GitHub)
HallusionBenchbenchmark repo 写法、evaluation script、failure taxonomy(GitHub)
Donut文档理解模型 repo 组织、inference/fine-tuning 结构(GitHub)

8. 论文写法、博客写法、报告写法参考

8.1 高质量技术博客

资源学什么链接
Lilian Weng: Generalized Visual Language ModelsVLM survey 型博客如何组织:问题、模型谱系、机制、局限(Lil'Log)
Chip Huyen: Multimodality and Large Multimodal Models工程+研究结合的多模态介绍写法(Chip Huyen)
Jay Alammar: Illustrated Transformer复杂模型可视化解释写法(jalammar.github.io)
Eugene Yan: ML design docs工程设计文档结构、Why/What/How 思路(eugeneyan.com)
Eugene Yan applied-ml生产级 ML 论文/博客案例库(GitHub)

8.2 论文/报告写法应该模仿谁

类型参考模仿点
复现报告CLIP / BLIP / BLIP-2摘要清楚、实验表清楚、任务覆盖清楚
benchmark paperHallusionBench、MMMU、DocVQA、ChartQA数据构造、任务分类、评测协议、错误分析
工具论文LAVIS、VLMEvalKitAPI 设计、支持任务列表、可复现实验
工程博客FSDL、Eugene Yan设计权衡、失败案例、部署考虑

9. 可参考的“类似高价值工作”

9.1 Benchmark 类

工作为什么值得参考链接
MMMU多学科、多模态、专家级推理;数据构造和 leaderboard 设计值得学(GitHub)
HallusionBenchfailure-oriented benchmark,非常适合个人小团队模仿(arXiv)
DocVQA文档图像问答标准任务,适合做企业场景项目(docvqa.org)
ChartQA / ChartQAPro图表理解,适合做“VLM 是否真的会读图表”项目(GitHub)
Video-MME如果后期扩展视频 VLM,可参考其数据覆盖和时长设计(video-mme.github.io)

9.2 工具类

工作为什么值得参考链接
VLMEvalKit“把评测做成工具”是 S 级项目方向(GitHub)
LAVIS“统一模型+任务+数据集接口”的工程参考(GitHub)
OpenCLIP可复现 CLIP 训练和 scaling law 相关实验(GitHub)
pycocoevalcapcaptioning 评测工具写法(GitHub)

10. 你的本地/服务器可执行项目包

10.1 RTX 4060 可做

项目模型数据说明
Mini-CLIP 小规模训练ResNet18/ViT-tiny + small text encoderFlickr30k 子集batch 小,重点看 loss/Recall
SmolVLM inference/demoSmolVLM自己图片/ScienceQA 小集适合 HF Space
ScienceQA zero-shot evalQwen2.5-VL 3B/SmolVLMScienceQA mini适合先做评测框架
OCR+LLM baselinePaddleOCR/Tesseract + 小 LLM/APIDocVQA/ChartQA 子集不训练也能做强 baseline

10.2 RTX 4090 可做

项目模型数据说明
Qwen2.5-VL 7B 量化推理Qwen2.5-VL-7BDocVQA/ChartQA/ScienceQA做评测和 demo
SmolVLM SFT/LoRASmolVLM1k–10k 自建/公开 QAHF cookbook 明确面向 consumer GPU fine-tuning (Hugging Face)
Qwen2-VL/Qwen2.5-VL LoRAQwen2-VL/Qwen2.5-VLLLaVA-format 数据参考 HF TRL cookbook / LLaMA-Factory (Hugging Face)
VLMEvalKit 多模型评测Qwen/InternVL/LLaVA/SmolVLMMME/MMBench/MMMU 子集评测项目核心

10.3 AutoDL/A100 才考虑

项目说明
Qwen2-VL 7B full fine-tune成本高,不建议早期做
LLaVA 较大规模训练官方 LLaVA 全量训练资源要求远高于单卡消费级,早期只做 LoRA/adapter
大规模 OpenCLIP 训练只做小规模 scaling law 复刻,不追求 SOTA

11. 最小资源清单:避免过载版

只保留这些就能开始:

  1. 课程:CS231n + CS224n selected lectures + CMU 11-777 selected lectures。(CS231n)

  2. 第一论文:CLIP。(arXiv)

  3. 第一代码库:OpenCLIP + CLIP_benchmark。(GitHub)

  4. 第一数据集:Flickr30k + COCO Captions。(GitHub)

  5. 第一评测工具:VLMEvalKit。(GitHub)

  6. 第一 VLM 微调参考:HF SmolVLM fine-tuning cookbook。(Hugging Face)

  7. 第一高质量写作参考:Lilian Weng VLM blog + Eugene Yan ML design docs。(Lil'Log)


12. 不建议现在投入太多的资源

资源/方向原因
Flamingo 全量复现数据和算力过高;当前更适合读论文和看 OpenFlamingo
InternVL/Qwen2.5-VL 全量预训练工业级工程,不适合个人复现
只做 Hugging Face pipeline demo认可度低,必须加评测、baseline、错误分析
过早做视频/3D/机器人多模态主线会散;等图文/VQA/文档理解项目稳定后再扩展
只刷课程证书对就业和研究证明力弱于可复现实验仓库

13. 你应该建立的本地书签目录

text
01_courses/
  CS231n
  CS224n
  MIT_6S191
  CMU_11777
  FSDL

02_papers_core/
  CLIP
  ViLT
  ALBEF
  BLIP
  BLIP2
  Flamingo
  LLaVA
  Qwen2.5VL
  InternVL
  SmolVLM
  SigLIP

03_repos/
  openai_CLIP
  open_clip
  CLIP_benchmark
  LAVIS
  LLaVA
  VLMEvalKit
  LLaMA_Factory
  HF_TRL_cookbook

04_datasets/
  Flickr30k
  COCO_Captions
  VQAv2
  ScienceQA
  DocVQA
  TextVQA
  OCR_VQA
  ChartQA
  MMMU
  HallusionBench

05_writing_examples/
  LilianWeng_VLM
  ChipHuyen_Multimodal
  JayAlammar_Transformer
  EugeneYan_MLDesignDocs

06_projects/
  mini_clip_retrieval
  scienceqa_vlm_eval
  doc_chart_vqa_benchmark
  smolvlm_lora
  vlm_hallucination_benchmark

最先开干的组合仍然是:

text
CS231n Assignment 1–2
+ CLIP paper
+ OpenCLIP
+ Flickr30k
+ Recall@K evaluation
+ failure cases
+ README/report/demo

这条线最短、最稳、最容易从学习型项目升级成可展示项目。