下面是按“能直接开干”整理的资源包。优先级标记：

P0：立刻用，3 个月内核心。
P1：6 个月内用。
P2：研究/进阶用。
慎用：名气大，但不适合当前阶段直接复现或全量训练。

0. 建议执行顺序

text

P0-1: CS231n / MIT 6.S191 / D2L 作为 DL+CV 启动
P0-2: CS224n Transformer/NLP 章节
P0-3: Mini-CLIP 图文检索复现
P0-4: BLIP / BLIP-2 / LLaVA 论文阅读
P1-1: VQA / ScienceQA / DocVQA / ChartQA 评测项目
P1-2: SmolVLM 或 Qwen2.5-VL LoRA 微调
P1-3: VLMEvalKit 跑 MMBench / MMMU / HallusionBench 子集
P2-1: 自建中文文档图表/幻觉 benchmark
P2-2: 写技术报告 / benchmark report / workshop paper 草稿

1. 课程链接

1.1 主线课程

优先级	课程	用途	重点做什么	链接
P0	Stanford CS231n: Deep Learning for Computer Vision	CV/DL 主线	assignment 1–3，重点是 PyTorch、CNN、Transformer、训练调试	课程主页与 assignments：(CS231n)
P0	Stanford CS224n: NLP with Deep Learning	Transformer/LLM 基础	word2vec、dependency parsing、Transformer、QA/fine-tuning	课程主页与作业目录：(Stanford University)
P0	MIT 6.S191: Introduction to Deep Learning	快速补 DL 全局	神经网络、CNN、RNN/Transformer、生成模型 lab	官网、视频、lab repo：(MIT Deep Learning 6.S191)
P1	CMU 11-777 Multimodal Machine Learning	多模态理论主线	alignment、fusion、representation learning、temporal multimodal modeling	课程主页、YouTube、repo：(cmu-mmml.github.io)
P1	Full Stack Deep Learning	工程化与部署	experiment management、testing、data、deployment、web demo	课程主页、实验管理、部署：(fullstackdeeplearning.com)

1.2 可替代/补充课程

优先级	课程	适合场景	链接
P1	UMich EECS 498-007 / 598-005: Deep Learning for Computer Vision	如果 CS231n 作业不顺，换这个；PyTorch 友好，工程作业强	课程页与 assignment：(EECS Department)
P1	Berkeley CS182 Deep Learning	想补更理论化的 DL 视角	课程页与视频：(cs182sp21.github.io)
P0/P1	Hugging Face Vision-Language Models 教程	快速上手 VLM 调用、任务分类、模型选择	VLM intro 与 tasks：(Hugging Face)
P0	Karpathy Neural Networks: Zero to Hero	对反向传播/Transformer 实现不踏实的人	repo：(GitHub)

2. 可直接做的作业与练习

2.1 必做作业

优先级	作业	产出目标	链接
P0	CS231n Assignment 1	kNN、SVM、Softmax、Two-layer Net，建立 shape/debug 直觉	(CS231n)
P0	CS231n Assignment 2	CNN、BatchNorm、Dropout、PyTorch/TensorFlow	(CS231n)
P0	CS231n Assignment 3	RNN/Transformer、attention、GAN/SSL 等视年份而定	(CS231n)
P0	CS224n Assignment 1–4	word vectors、word2vec、dependency parsing、machine translation、Transformer	(Stanford University)
P1	FSDL Lab 4	用 W&B 做实验管理	(fullstackdeeplearning.com)
P1	FSDL Lab 7 / Deployment	把模型做成 web demo	(fullstackdeeplearning.com)

2.2 参考答案仓库：只用于卡住时对照，不要先看

资源	用途	链接
CS231n solutions repo	对照实现思路、inline questions 写法	(GitHub)
CS224n solution/example repo	卡住时查作业结构，不建议直接抄	(GitHub)
UMich EECS498 solutions	学习 PyTorch 作业组织方式	(GitHub)
Berkeley CS182 self-study repo	参考自学记录与作业组织	(GitHub)

3. 必读/复现论文与仓库

3.1 P0：第一批必须读且适合小规模复现

论文	读什么	官方/常用代码	复现建议
CLIP: Learning Transferable Visual Models From Natural Language Supervision	双塔结构、contrastive loss、zero-shot、prompt、image-text retrieval	OpenAI CLIP；OpenCLIP；CLIP benchmark (arXiv)	第一篇复现。用 Flickr30k/COCO 子集做 Mini-CLIP
ViT: Vision Transformer	patch embedding、position embedding、CLS token、数据规模影响	可用 timm / HF transformers，不必从官方 repo 开始	作为 CS231n/CLIP visual encoder 前置
Attention Is All You Need	self-attention、multi-head、mask、positional encoding	可自己手写 mini Transformer	只需小实现，不建议做大项目
ViLT	早期“简化视觉特征提取”的 VLP 思路	官方 repo 在论文摘要中给出，HF/MMF 也有实现入口 (arXiv)	适合读，不一定复现全训练
ALBEF	align-before-fuse、contrastive + cross attention、momentum distillation	Salesforce ALBEF；OpenReview 也列出代码 (arXiv)	可复现 image-text retrieval 子任务

3.2 P1：VLM/MLLM 核心论文

论文	读什么	仓库/入口	复现建议
BLIP	caption bootstrapping、unified understanding/generation	Salesforce BLIP；注意 README 标明该 repo deprecated，建议转 LAVIS (arXiv)	用 LAVIS 跑 retrieval/caption/VQA
BLIP-2	frozen vision encoder + frozen LLM + Q-Former	LAVIS BLIP-2 项目入口在论文 PDF 中列出；HF 有 BLIP-2 model card (arXiv)	不建议全训；可做推理、微调、消融复刻
Flamingo	interleaved image-text、few-shot multimodal learning、cross-attention	原论文；OpenFlamingo 开源框架 (arXiv)	慎用。读架构，不做全量复现
LLaVA: Visual Instruction Tuning	visual instruction tuning、GPT-generated instruction data、projector+LLM	官方项目页与 repo (arXiv)	做 LoRA/小数据评测，不做全量训练
Qwen2.5-VL Technical Report	dynamic resolution、文档解析、图表、视频、定位能力	技术报告、官方 blog、HF model (arXiv)	适合做评测/微调/应用项目
InternVL3	native multimodal pre-training、开源 MLLM 系列	InternVL repo、InternVL3 blog、arXiv html (GitHub)	适合评测和阅读，不建议全训
SmolVLM	小型开源 VLM、消费级 GPU 友好	HF SmolVLM blog、SmolLM repo、Transformers docs (Hugging Face)	强烈适合你的 4060/4090

3.3 P2：进阶阅读，不建议早期复现

论文/方向	为什么读	链接
SigLIP / SigLIP2	CLIP-style encoder 的改进；SigLIP 用 sigmoid loss，不依赖全局 softmax 归一化	HF docs、SigLIP2 paper/blog、model card (Hugging Face)
OpenFlamingo	学开源团队如何复刻闭源大模型思想	(GitHub)
InternVL3.5	看前沿开源 MLLM 的 RL、推理效率、部署拆分思路	(arXiv)
HallusionBench	研究 VLM hallucination / visual illusion 的典型 benchmark 写法	(arXiv)

4. 数据集与 benchmark

4.1 图文检索 / Captioning

数据集	用途	链接
Flickr30k	Mini-CLIP、image-text retrieval、caption retrieval	LAVIS dataset card 说明其有 31k+ images，每张图 5 个 captions：(GitHub)
Flickr30k Entities	grounding / phrase localization / entity alignment	官方页：(bryanplummer.com)
MS COCO Captions	captioning、retrieval、evaluation server	COCO Captions 论文说明使用 BLEU、METEOR、ROUGE、CIDEr；CodaLab evaluation server 可用：(arXiv)
pycocoevalcap	本地算 COCO caption 指标	(GitHub)

4.2 VQA / 多模态推理

数据集	用途	链接
VQA v2	标准视觉问答；包含图像、问题、多个答案	VQA 官网说明其问题需要 vision、language、commonsense：(Visual Question Answering)
ScienceQA	多模态科学问答、CoT/explanation、教育推理任务	官方 repo、项目页、leaderboard：(GitHub)
LLaVA ScienceQA conversion	把 ScienceQA 转成 LLaVA conversation format	(GitHub)
MMMU	大学级跨学科多模态推理 benchmark，11.5K 问题	官方 repo/project/HF dataset：(GitHub)

4.3 文档、OCR、图表

数据集	用途	链接
DocVQA	文档图像问答；答案通常是文档中的文本 span	官网与 dataset page：(docvqa.org)
TextVQA	场景文字理解，需要读图中文字	官网/repo：(textvqa.org)
OCR-VQA	读图中文字，book cover QA；论文称约 207k images / 1M QA	官网与论文：(ocr-vqa.github.io)
ChartQA	图表问答，视觉+逻辑推理	官方 repo：(GitHub)
ChartQAPro	更难、更真实的 chart QA；带 evaluation instructions	(GitHub)
RefChartQA	图表 QA grounding，答案要能定位到视觉元素	(GitHub)
Donut	OCR-free document understanding Transformer，适合作为文档理解 baseline	(GitHub)

4.4 MLLM 综合评测

Benchmark	用途	链接
MME	感知+认知 14 个子任务；适合快速评测 VLM	(GitHub)
MMBench	LVLM 多模态理解评测集合	(GitHub)
MMMU	专家级多学科多模态推理	(GitHub)
HallusionBench	语言幻觉 + 视觉错觉诊断；346 images、1129 questions	(arXiv)
Video-MME	视频 MLLM 评测；900 videos、2700 QA、254 hours	(video-mme.github.io)

5. 工具、框架、训练/评测仓库

5.1 训练与模型库

工具	用途	链接
OpenAI CLIP	CLIP 官方推理/zero-shot 基线	(GitHub)
OpenCLIP	更适合训练/复现实验的 CLIP 开源实现	(GitHub)
CLIP_benchmark	标准化评测 CLIP-like 模型，支持 zero-shot classification/retrieval/captioning	(GitHub)
LAVIS	语言-视觉研究一站式库；支持 retrieval、captioning、VQA、多模态分类等	(GitHub)
Hugging Face Transformers	VLM 推理、模型加载、SmolVLM/SigLIP/Qwen 等生态	SmolVLM docs、SigLIP docs：(GitHub)
TRL VLM cookbook	Qwen2-VL / SmolVLM / grounding / preference optimization 微调	(Hugging Face)
LLaMA-Factory	低代码微调平台，含多模态实践入口	(GitHub)

5.2 评测工具

工具	用途	链接
VLMEvalKit	MLLM 评测工具；目标是让 LVLM evaluation 可复现；支持多模型多 benchmark	(GitHub)
OpenCompass / MMBench	综合评测生态，VLMEvalKit 与 MMBench 结合	(GitHub)
pycocoevalcap	captioning 本地指标	(GitHub)

5.3 推荐模型入口

模型	用途	链接
Qwen2.5-VL-7B-Instruct	文档、图表、OCR、定位、通用 VQA；4090 可做量化/LoRA	(Hugging Face)
SmolVLM	低显存 VLM fine-tuning/部署，适合消费级 GPU	(Hugging Face)
InternVL	强开源 MLLM，对比评测用	(GitHub)
BLIP-2 OPT-2.7B	经典 VLM baseline	(Hugging Face)
SigLIP / SigLIP2	图文 encoder baseline	(Hugging Face)

6. 可直接开干的项目清单

项目 A：Mini-CLIP 图文检索复现

等级：B → A
论文：CLIP。
仓库：OpenAI CLIP、OpenCLIP、CLIP_benchmark。(arXiv)
数据集：Flickr30k、COCO Captions。(GitHub)
指标：Recall@1/5/10、MRR、zero-shot 分类准确率。
必做：
1. 实现 CLIP loss。
2. 训练小模型。
3. 对比 OpenAI CLIP / OpenCLIP pretrained。
4. 做 hard negative 分析。
5. 做 Gradio/HF Space demo。
升级到 A：加入中文 caption、hard negative mining、failure taxonomy、可复现实验表。

项目 B：BLIP/BLIP-2 视觉语言任务基线

等级：B
论文：BLIP、BLIP-2。(arXiv)
仓库：LAVIS，优先于 deprecated BLIP repo。(GitHub)
数据集：COCO captions、Flickr30k、VQA v2。
指标：CIDEr/BLEU/METEOR/ROUGE、VQA accuracy、Recall@K。
必做：
1. 跑 BLIP/BLIP-2 inference。
2. 在一个小数据集上 fine-tune 或 evaluate。
3. 写一篇“BLIP vs BLIP-2 结构差异与实验复现”。
升级到 A：做多任务比较：retrieval/caption/VQA，同一评测框架下比较。

项目 C：ScienceQA 多模态推理评测

等级：B → A
数据集：ScienceQA。(GitHub)
参考：LLaVA ScienceQA conversion。(GitHub)
模型：Qwen2.5-VL、SmolVLM、InternVL、LLaVA。
指标：overall accuracy、subject/category accuracy、explanation quality。
必做：
1. zero-shot baseline。
2. prompt ablation。
3. OCR/no-OCR 或 image/no-image ablation。
4. 错误类型统计。
升级到 A：加入 LoRA 微调、跨模型评测、解释质量分析。

项目 D：文档/图表理解 VLM Benchmark

等级：A → S
数据集：DocVQA、ChartQA、TextVQA、OCR-VQA。(docvqa.org)
Baseline：
1. OCR + LLM。
2. Qwen2.5-VL zero-shot。
3. InternVL zero-shot。
4. SmolVLM fine-tuned。
5. Donut/OCR-free document baseline。(GitHub)
指标：EM/F1、numeric tolerance、citation accuracy、latency、VRAM。
必做：
1. 统一数据格式。
2. 统一 eval script。
3. 错误分类：OCR 错误、表格结构错误、图表数值错误、幻觉。
4. 发布 leaderboard-style README。
升级到 S：构造中文/业务文档公开子集 + evaluation harness + model comparison。

项目 E：VLM 幻觉诊断 benchmark

等级：S 候选
参考：HallusionBench。(arXiv)
模型：Qwen2.5-VL、InternVL、LLaVA、SmolVLM、闭源 API 可选。
指标：accuracy、pair consistency、yes/no bias、hallucination rate。
必做：
1. 复跑 HallusionBench 子集。
2. 统计 failure modes。
3. 构造中文/文档/图表 hallucination 小集。
4. 写 benchmark report。
升级到 S：数据质量高、协议严格、别人能复用。

项目 F：SmolVLM / Qwen2.5-VL LoRA 微调

等级：B → A
参考 cookbook：HF Qwen2-VL fine-tuning、SmolVLM consumer GPU fine-tuning。(Hugging Face)
工具：TRL、Transformers、LLaMA-Factory。(GitHub)
数据：ScienceQA、DocVQA 子集、自建 LLaVA-format 数据。
必做：
1. zero-shot baseline。
2. LoRA/QLoRA。
3. 数据量 ablation。
4. prompt format ablation。
5. 训练成本报告。
升级到 A：不是“微调成功”，而是证明何时微调有效、何时无效。

7. 可参考的高价值仓库组织

仓库	学什么	链接
OpenCLIP	训练配置、模型 registry、CLIP 训练工程	(GitHub)
CLIP_benchmark	benchmark 组织、任务抽象、评测输出	(GitHub)
LAVIS	多任务、多数据集、多模型统一接口	(GitHub)
VLMEvalKit	大规模评测工具结构、模型 adapter、benchmark adapter	(GitHub)
LLaVA	MLLM 项目组织、数据转换、训练/评测脚本	(GitHub)
InternVL	大型开源 MLLM repo 的 release、model zoo、eval 组织	(GitHub)
ScienceQA	数据集 repo、leaderboard、论文配套代码组织	(GitHub)
HallusionBench	benchmark repo 写法、evaluation script、failure taxonomy	(GitHub)
Donut	文档理解模型 repo 组织、inference/fine-tuning 结构	(GitHub)

8. 论文写法、博客写法、报告写法参考

8.1 高质量技术博客

资源	学什么	链接
Lilian Weng: Generalized Visual Language Models	VLM survey 型博客如何组织：问题、模型谱系、机制、局限	(Lil'Log)
Chip Huyen: Multimodality and Large Multimodal Models	工程+研究结合的多模态介绍写法	(Chip Huyen)
Jay Alammar: Illustrated Transformer	复杂模型可视化解释写法	(jalammar.github.io)
Eugene Yan: ML design docs	工程设计文档结构、Why/What/How 思路	(eugeneyan.com)
Eugene Yan applied-ml	生产级 ML 论文/博客案例库	(GitHub)

8.2 论文/报告写法应该模仿谁

类型	参考	模仿点
复现报告	CLIP / BLIP / BLIP-2	摘要清楚、实验表清楚、任务覆盖清楚
benchmark paper	HallusionBench、MMMU、DocVQA、ChartQA	数据构造、任务分类、评测协议、错误分析
工具论文	LAVIS、VLMEvalKit	API 设计、支持任务列表、可复现实验
工程博客	FSDL、Eugene Yan	设计权衡、失败案例、部署考虑

9. 可参考的“类似高价值工作”

9.1 Benchmark 类

工作	为什么值得参考	链接
MMMU	多学科、多模态、专家级推理；数据构造和 leaderboard 设计值得学	(GitHub)
HallusionBench	failure-oriented benchmark，非常适合个人小团队模仿	(arXiv)
DocVQA	文档图像问答标准任务，适合做企业场景项目	(docvqa.org)
ChartQA / ChartQAPro	图表理解，适合做“VLM 是否真的会读图表”项目	(GitHub)
Video-MME	如果后期扩展视频 VLM，可参考其数据覆盖和时长设计	(video-mme.github.io)

9.2 工具类

工作	为什么值得参考	链接
VLMEvalKit	“把评测做成工具”是 S 级项目方向	(GitHub)
LAVIS	“统一模型+任务+数据集接口”的工程参考	(GitHub)
OpenCLIP	可复现 CLIP 训练和 scaling law 相关实验	(GitHub)
pycocoevalcap	captioning 评测工具写法	(GitHub)

10. 你的本地/服务器可执行项目包

10.1 RTX 4060 可做

项目	模型	数据	说明
Mini-CLIP 小规模训练	ResNet18/ViT-tiny + small text encoder	Flickr30k 子集	batch 小，重点看 loss/Recall
SmolVLM inference/demo	SmolVLM	自己图片/ScienceQA 小集	适合 HF Space
ScienceQA zero-shot eval	Qwen2.5-VL 3B/SmolVLM	ScienceQA mini	适合先做评测框架
OCR+LLM baseline	PaddleOCR/Tesseract + 小 LLM/API	DocVQA/ChartQA 子集	不训练也能做强 baseline

10.2 RTX 4090 可做

项目	模型	数据	说明
Qwen2.5-VL 7B 量化推理	Qwen2.5-VL-7B	DocVQA/ChartQA/ScienceQA	做评测和 demo
SmolVLM SFT/LoRA	SmolVLM	1k–10k 自建/公开 QA	HF cookbook 明确面向 consumer GPU fine-tuning (Hugging Face)
Qwen2-VL/Qwen2.5-VL LoRA	Qwen2-VL/Qwen2.5-VL	LLaVA-format 数据	参考 HF TRL cookbook / LLaMA-Factory (Hugging Face)
VLMEvalKit 多模型评测	Qwen/InternVL/LLaVA/SmolVLM	MME/MMBench/MMMU 子集	评测项目核心

10.3 AutoDL/A100 才考虑

项目	说明
Qwen2-VL 7B full fine-tune	成本高，不建议早期做
LLaVA 较大规模训练	官方 LLaVA 全量训练资源要求远高于单卡消费级，早期只做 LoRA/adapter
大规模 OpenCLIP 训练	只做小规模 scaling law 复刻，不追求 SOTA

11. 最小资源清单：避免过载版

只保留这些就能开始：

课程：CS231n + CS224n selected lectures + CMU 11-777 selected lectures。(CS231n)
第一论文：CLIP。(arXiv)
第一代码库：OpenCLIP + CLIP_benchmark。(GitHub)
第一数据集：Flickr30k + COCO Captions。(GitHub)
第一评测工具：VLMEvalKit。(GitHub)
第一 VLM 微调参考：HF SmolVLM fine-tuning cookbook。(Hugging Face)
第一高质量写作参考：Lilian Weng VLM blog + Eugene Yan ML design docs。(Lil'Log)

12. 不建议现在投入太多的资源

资源/方向	原因
Flamingo 全量复现	数据和算力过高；当前更适合读论文和看 OpenFlamingo
InternVL/Qwen2.5-VL 全量预训练	工业级工程，不适合个人复现
只做 Hugging Face pipeline demo	认可度低，必须加评测、baseline、错误分析
过早做视频/3D/机器人多模态	主线会散；等图文/VQA/文档理解项目稳定后再扩展
只刷课程证书	对就业和研究证明力弱于可复现实验仓库

13. 你应该建立的本地书签目录

text

01_courses/
  CS231n
  CS224n
  MIT_6S191
  CMU_11777
  FSDL

02_papers_core/
  CLIP
  ViLT
  ALBEF
  BLIP
  BLIP2
  Flamingo
  LLaVA
  Qwen2.5VL
  InternVL
  SmolVLM
  SigLIP

03_repos/
  openai_CLIP
  open_clip
  CLIP_benchmark
  LAVIS
  LLaVA
  VLMEvalKit
  LLaMA_Factory
  HF_TRL_cookbook

04_datasets/
  Flickr30k
  COCO_Captions
  VQAv2
  ScienceQA
  DocVQA
  TextVQA
  OCR_VQA
  ChartQA
  MMMU
  HallusionBench

05_writing_examples/
  LilianWeng_VLM
  ChipHuyen_Multimodal
  JayAlammar_Transformer
  EugeneYan_MLDesignDocs

06_projects/
  mini_clip_retrieval
  scienceqa_vlm_eval
  doc_chart_vqa_benchmark
  smolvlm_lora
  vlm_hallucination_benchmark

最先开干的组合仍然是：

text

CS231n Assignment 1–2
+ CLIP paper
+ OpenCLIP
+ Flickr30k
+ Recall@K evaluation
+ failure cases
+ README/report/demo

这条线最短、最稳、最容易从学习型项目升级成可展示项目。

Log

0. 建议执行顺序 ​

1. 课程链接 ​

1.1 主线课程 ​

1.2 可替代/补充课程 ​

2. 可直接做的作业与练习 ​

2.1 必做作业 ​

2.2 参考答案仓库：只用于卡住时对照，不要先看 ​

3. 必读/复现论文与仓库 ​

3.1 P0：第一批必须读且适合小规模复现 ​

3.2 P1：VLM/MLLM 核心论文 ​

3.3 P2：进阶阅读，不建议早期复现 ​

4. 数据集与 benchmark ​

4.1 图文检索 / Captioning ​

4.2 VQA / 多模态推理 ​

4.3 文档、OCR、图表 ​

4.4 MLLM 综合评测 ​

5. 工具、框架、训练/评测仓库 ​

5.1 训练与模型库 ​

5.2 评测工具 ​

5.3 推荐模型入口 ​

6. 可直接开干的项目清单 ​

项目 A：Mini-CLIP 图文检索复现 ​

项目 B：BLIP/BLIP-2 视觉语言任务基线 ​

项目 C：ScienceQA 多模态推理评测 ​

项目 D：文档/图表理解 VLM Benchmark ​

项目 E：VLM 幻觉诊断 benchmark ​

项目 F：SmolVLM / Qwen2.5-VL LoRA 微调 ​

7. 可参考的高价值仓库组织 ​

8. 论文写法、博客写法、报告写法参考 ​

8.1 高质量技术博客 ​

8.2 论文/报告写法应该模仿谁 ​

9. 可参考的“类似高价值工作” ​

9.1 Benchmark 类 ​

9.2 工具类 ​

10. 你的本地/服务器可执行项目包 ​

10.1 RTX 4060 可做 ​

10.2 RTX 4090 可做 ​

10.3 AutoDL/A100 才考虑 ​

11. 最小资源清单：避免过载版 ​

12. 不建议现在投入太多的资源 ​

13. 你应该建立的本地书签目录 ​

0. 建议执行顺序

1. 课程链接

1.1 主线课程

1.2 可替代/补充课程

2. 可直接做的作业与练习

2.1 必做作业

2.2 参考答案仓库：只用于卡住时对照，不要先看

3. 必读/复现论文与仓库

3.1 P0：第一批必须读且适合小规模复现

3.2 P1：VLM/MLLM 核心论文

3.3 P2：进阶阅读，不建议早期复现

4. 数据集与 benchmark

4.1 图文检索 / Captioning

4.2 VQA / 多模态推理

4.3 文档、OCR、图表

4.4 MLLM 综合评测

5. 工具、框架、训练/评测仓库

5.1 训练与模型库

5.2 评测工具

5.3 推荐模型入口

6. 可直接开干的项目清单

项目 A：Mini-CLIP 图文检索复现

项目 B：BLIP/BLIP-2 视觉语言任务基线

项目 C：ScienceQA 多模态推理评测

项目 D：文档/图表理解 VLM Benchmark

项目 E：VLM 幻觉诊断 benchmark

项目 F：SmolVLM / Qwen2.5-VL LoRA 微调

7. 可参考的高价值仓库组织

8. 论文写法、博客写法、报告写法参考

8.1 高质量技术博客

8.2 论文/报告写法应该模仿谁

9. 可参考的“类似高价值工作”

9.1 Benchmark 类

9.2 工具类

10. 你的本地/服务器可执行项目包

10.1 RTX 4060 可做

10.2 RTX 4090 可做

10.3 AutoDL/A100 才考虑

11. 最小资源清单：避免过载版

12. 不建议现在投入太多的资源

13. 你应该建立的本地书签目录