以下路线默认把“多模态大模型”收敛为 视觉-语言大模型 / Vision-Language Models, VLM / MLLM，即图像、文档、视频与语言模型结合。音频、多模态机器人、3D/具身智能暂列为后续扩展，否则路线会失控。

1. 方向定位与能力地图

能力	最低要求	进阶要求	可验证产出
数学基础	线代、概率、微积分；理解矩阵乘法、梯度、MLE、交叉熵	信息论、优化、注意力机制、对比学习目标、KL/CE、LoRA低秩近似	手写 Transformer / CLIP loss 推导笔记；训练曲线解释
编程与工程基础	Python、PyTorch、Linux、conda、Git、CUDA 基本排错	DDP、混合精度、数据流水线、实验管理、Docker、API/demo	可复现实验仓库；`train.py/eval.py/configs` 完整
机器学习基础	监督学习、过拟合、交叉验证、指标	calibration、OOD、retrieval、ranking、ablation	baseline 对比实验报告
深度学习基础	MLP/CNN/RNN/Transformer、反向传播、优化器	ViT、LLM fine-tuning、PEFT、RLHF/DPO基本概念	从零实现小模型；微调开源模型
方向核心知识	image encoder + projector + LLM；caption/VQA/retrieval	CLIP、BLIP/BLIP-2、Flamingo、LLaVA、Qwen-VL/InternVL、文档/视频理解	复现 CLIP 或 LLaVA-mini；跑通 MME/MMBench/MMMU 子集
论文阅读能力	能读懂问题、模型结构、loss、实验表	能识别实验缺口、隐含假设、数据泄漏、评价偏差	每篇论文 1–2 页结构化读书报告
实验设计能力	有 baseline、有指标、有消融	控制变量、统计重复、failure cases、误差分类	WandB/MLflow 日志；实验矩阵；可复现表格
工程部署能力	Gradio/HF Space/FastAPI demo	Docker、量化、推理加速、批处理、监控	在线 demo；API；Docker 镜像；延迟/显存报告
研究创新能力	能改一个模块并证明有效	能提出问题、构造 benchmark、系统比较	技术报告、benchmark、workshop/arXiv/open-source tool

你现在的优势：数学基础够用、GPU 条件不错、开发工具链较强。主要短板大概率是：DL 训练直觉、论文阅读、实验设计、可复现工程规范。

2. 高质量学习资源筛选

推荐度	课程	定位
S	Stanford CS231n	计算机视觉与深度学习主线
S	Stanford CS224n	NLP/Transformer/LLM 基础
S	CMU 11-777 Multimodal Machine Learning	多模态核心理论与论文
A	MIT 6.S191	快速补齐深度学习整体框架
A	Full Stack Deep Learning	工程化、部署、实验管理

2.1 Stanford CS231n: Deep Learning for Computer Vision

学校/教师：Stanford，计算机视觉方向经典课程。
课程状态：官网仍维护，2026 页面已有 assignments，课程说明强调 hands-on assignments 和 final project。(CS231n)
适合人群：有数学和 Python 基础、想进入视觉/多模态的人。
先修要求：Python、线代、概率、基础 ML。
优点：视觉 backbone、CNN、ViT、训练技巧、assignment 质量高。
局限：不是专门讲 VLM；需要自己接到 CLIP/LLaVA。
训练能力：视觉编码器、训练调参、PyTorch工程。
就业贡献：高。CV/VLM 岗位非常认可。
研究贡献：中高。为读 CLIP、ViT、BLIP 打基础。
推荐程度：S。建议作为第一主课。

2.2 Stanford CS224n: NLP with Deep Learning

学校/教师：Stanford。
课程状态：课程主页说明涵盖 NLP 深度学习与 LLM，包含 lectures、assignments、final project，使用 PyTorch。(Stanford University)
适合人群：准备理解 Transformer、LLM、instruction tuning 的人。
先修要求：Python、概率、线代、基础 DL。
优点：从词向量到 Transformer，再到 LLM；作业体系成熟。
局限：多模态内容少，需要与 CS231n/CMU 11-777 配合。
训练能力：语言建模、attention、sequence modeling。
就业贡献：高。LLM 基础是多模态岗位默认要求。
研究贡献：高。没有 NLP/LLM 基础很难读 MLLM 论文。
推荐程度：S。

2.3 CMU 11-777 Multimodal Machine Learning

学校/教师：CMU。
课程状态：2024 课程页明确聚焦 text、audio、images/videos、action 等模态整合；课程主页说明涵盖 multimodal alignment、fusion、heterogeneous representation learning、multi-stream temporal modeling。(CMU MMML)
适合人群：已有 DL/CV/NLP 基础后进入多模态研究。
先修要求：ML、DL、PyTorch、论文阅读能力。
优点：方向正、论文导向、概念框架完整。
局限：不适合作为零基础第一课；作业/视频可用性可能随年份变化。
训练能力：多模态对齐、融合、建模、研究阅读。
就业贡献：中高。能把简历从“会调模型”拉到“懂方向”。
研究贡献：高。
推荐程度：S，但应排在 CS231n/CS224n 之后。

2.4 MIT 6.S191 Introduction to Deep Learning

课程状态：官网称其覆盖深度学习基础、NLP、CV、生物等应用，并含 labs；2026 版视频已发布。(MIT Deep Learning 6.S191)
适合人群：需要快速建立 DL 全局图的人。
优点：短、现代、上手快。
局限：深度不够，不能替代 CS231n/CS224n。
训练能力：DL 概念启动、快速实验。
就业贡献：中。
研究贡献：低到中。
推荐程度：A，适合作为前 2 周 bootcamp。

2.5 Full Stack Deep Learning

课程状态：2022 课程主页包含开发基础设施、实验管理、测试、数据管理、部署、持续学习等模块；部署课强调尽早部署最小可行模型。(Full Stack Deep Learning)
适合人群：想把模型变成可展示产品/系统的人。
先修要求：基础 DL、Python 工程。
优点：工程化视角强，弥补“只会 notebook”的短板。
局限：不是 VLM 专课；部分工具链可能需替换为当前主流。
训练能力：MLOps、deployment、testing、data pipeline。
就业贡献：高。
研究贡献：中。
推荐程度：A。

3. 教材与参考资料

类型	书/资料	适合阶段	评价
入门/主教材	Dive into Deep Learning	0–3 个月	代码、数学、讲解结合；官方称支持 PyTorch/NumPy/MXNet/JAX/TensorFlow，并被多国高校采用。(Dive into Deep Learning)
标准教材	Understanding Deep Learning, Simon Prince	1–6 个月	MIT Press 开放获取，定位为理论与实践之间的现代 DL 教材。(UDL Book)
经典参考	Deep Learning, Goodfellow/Bengio/Courville	3–12 个月	官方在线版完整免费，适合作为数学和理论参考，不适合作为第一本实操书。(Deep Learning Book)
NLP/LLM	Speech and Language Processing, Jurafsky & Martin, 3rd draft	2–12 个月	2026 draft 已更新，覆盖 NLP、LLM、ASR/TTS 等。(Stanford University)
工程实践	Full Stack Deep Learning materials	3–12 个月	适合补实验管理、部署、测试、数据管理。(Full Stack Deep Learning)
论文阅读	Papers with Code + arXiv + 官方 repo	全阶段	用来查 baseline、指标、代码状态；不要只读二手博客。

如果只能选一本主教材：Dive into Deep Learning。原因：你不是纯理论起步，而是要高质量产出；D2L 更适合把数学、PyTorch、实验连接起来。Goodfellow 更适合查理论，Prince 更适合系统理解现代 DL。

4. 最小化学习组合

最小组合

1 门主课程：Stanford CS231n。
1 本主教材：Dive into Deep Learning。
3 个辅助资料：
1. Stanford CS224n 的 Transformer/LLM 相关 lectures。
2. CMU 11-777 的 multimodal alignment/fusion 章节。
3. Hugging Face VLM 教程，作为模型调用、微调、demo 工具参考；HF 教程明确介绍 VLM 用于 image captioning、VQA、multimodal reasoning。(Hugging Face)
1 个核心项目：Mini-CLIP + Retrieval + Failure Analysis + HF Demo。

为什么足够启动

因为多模态大模型的最小闭环是：

视觉编码器 → 文本编码器/LLM → 对齐目标 → 数据集 → 评价指标 → demo → 报告。

CLIP 是最适合新手复现的入口：论文提出用图文对预测任务学习可迁移视觉模型，影响极大。(arXiv)

暂时不建议

直接训练 LLaVA 全量版：原 repo 提到训练使用 8 张 80GB A100；你的 4090 适合 LoRA/小规模复现，不适合硬怼全量训练。(GitHub)
直接读 Flamingo 并复现：架构和数据成本都偏高。
一开始上 RLHF/RLVR：会分散主线。
同时学音频、视频、3D、机器人：会稀释产出。

5. 成长阶段设计

阶段 1：DL 与视觉基础补齐

时间：3–5 周。
目标：能独立训练、调试、解释小型 CV/DL 模型。
内容：PyTorch、反向传播、CNN、ViT 基础、优化器、正则化。
资源：MIT 6.S191 + CS231n 前半。
必做练习：CS231n assignment 1–2；D2L MLP/CNN/attention 章节。
项目：CIFAR-10/Imagenette 分类器，含 ResNet/ViT-tiny 对比。
论文：AlexNet、ResNet、ViT。
产出：GitHub repo + 训练日志 + 误差分析。
完成标准：第三方能运行；有 baseline；有 ablation。
常见误区：只看课不写训练代码；只报 accuracy 不分析错误。

阶段 2：NLP/Transformer/LLM 基础

时间：4–6 周。
目标：理解 Transformer、tokenization、attention、fine-tuning。
内容：word embeddings、seq2seq、attention、Transformer、instruction tuning 概念。
资源：CS224n；Jurafsky & Martin。
必做练习：实现 mini Transformer；微调小型文本分类/QA。
项目：小型文本检索或 QA baseline。
论文：Attention Is All You Need、BERT、GPT 系列概要、T5。
产出：Transformer 从零实现笔记 + fine-tuning 报告。
完成标准：能解释 attention mask、KV cache、CE loss、teacher forcing。

阶段 3：经典视觉-语言方法

时间：6–8 周。
目标：掌握 CLIP/BLIP/BLIP-2 这条主线。
内容：对比学习、image-text retrieval、captioning、VQA。
资源：CMU 11-777；CLIP/BLIP/BLIP-2 论文。
必做练习：复现 CLIP loss；做 Flickr30k/COCO 子集 retrieval。
项目：Mini-CLIP retrieval benchmark。
数据集：Flickr30k、MS COCO captions。
指标：Recall@K、MRR、CIDEr/BLEU/METEOR/ROUGE/SPICE。COCO caption 论文说明其 evaluation server 使用 BLEU、METEOR、ROUGE、CIDEr 等指标。(arXiv)
产出：复现报告 + HF Space 检索 demo。
完成标准：有 zero-shot/fine-tune 对比、failure cases。

阶段 4：多模态大模型与指令微调

时间：6–10 周。
目标：理解 VLM = vision encoder + projector/Q-former + LLM 的工程与训练逻辑。
内容：LLaVA、BLIP-2、Qwen2.5-VL、InternVL、SmolVLM。
推荐论文：BLIP-2、LLaVA、Qwen2.5-VL、InternVL3。
说明：Qwen2.5-VL 报告强调文档解析、图表/表格理解、长视频理解、定位能力等；InternVL3 报告强调 native multimodal pre-training。(arXiv)
项目：基于 Qwen2.5-VL/SmolVLM 的领域数据微调或评测。
指标：MME、MMBench、MMMU、ScienceQA 子集。
产出：评测工具链 + LoRA 微调报告。
完成标准：不是“调 API demo”，而是有任务定义、数据、baseline、消融、错误类型统计。

阶段 5：独立项目与可展示系统

时间：8–12 周。
目标：形成 A 级求职项目。
内容：数据清洗、模型选择、微调、评测、部署、文档。
项目方向：文档图表理解、中文场景 VQA、医学/工业/教育图文问答、VLM hallucination benchmark。
产出：GitHub + blog + technical report + HF Space + 简历条目。
完成标准：第三方可复现；有 demo；有对比实验。

阶段 6：研究产出

时间：3–6 个月持续。
目标：形成 S 级候选：benchmark、开源工具、workshop paper、arXiv 技术报告。
内容：问题发现、数据构造、系统评测、方法改进。
产出：survey/benchmark/toolkit/复现+改进报告。
完成标准：别人愿意引用、复用或在 issue/PR 中互动。

6. 项目路线：从学习型项目到认可型项目

项目分级总览

等级	项目	原始等级	升级路径
C	CIFAR/Imagenette ResNet-ViT 对比	C	加完整实验、错误分析、训练脚本可升 B
B	Mini-CLIP 图文检索复现	B	加 benchmark、中文数据、hard negative、demo 可升 A
A	VLM 文档图表问答系统	A	构造公开 benchmark + leaderboard 可升 S
B/A	LLaVA/SmolVLM LoRA 微调	B/A	有真实任务、系统评测、消融才是 A
S	VLM 幻觉/视觉错觉诊断 benchmark	S 候选	数据质量和评测协议决定上限
A/S	多模态 RAG for technical documents	A/S	若做成通用开源工具可 S
B/A	论文复现：BLIP/BLIP-2/LLaVA-mini	B/A	加改进和系统分析可 A

项目 1：Mini-CLIP 图文检索复现

等级：B → A。
目标：复现 CLIP 的核心 contrastive learning。
技术栈：PyTorch、timm/open_clip、FAISS、WandB、Gradio。
数据集：Flickr30k、COCO captions 子集。
baseline：预训练 CLIP zero-shot；随机初始化双塔；image-only/text-only baseline。
难点：batch size、temperature、hard negative、数据清洗。
差异化：中文 caption 扩展、hard negative mining、领域图文数据。
评估：Recall@1/5/10、MRR、embedding 可视化、failure taxonomy。
交付物：训练代码、eval 脚本、模型卡、HF Space、报告。
就业价值：证明你理解对齐训练，不只是调包。
研究价值：可延伸到 retrieval robustness。
推荐程度：最高。

项目 2：VQA/ScienceQA 小型多模态推理系统

等级：B → A。
数据集：ScienceQA。该数据集约 21k 多模态选择题，并包含 lecture/explanation 标注。(arXiv)
baseline：BLIP-2、LLaVA、Qwen2.5-VL zero-shot；文本-only；图像-only。
难点：prompt 敏感、解释质量、答案抽取。
差异化：对比 CoT/no-CoT、OCR/no-OCR、检索增强/no-RAG。
评估：accuracy、per-category accuracy、explanation faithfulness 人工小样本评估。
交付物：评测脚本、错误分析报告、demo。
就业价值：能展示 VLM evaluation 能力。
研究价值：可进入 multimodal reasoning。

项目 3：文档图表理解 VLM Benchmark

等级：A → S。
目标：评测 VLM 对表格、图表、PDF 截图、发票/报告的理解。
技术栈：Qwen2.5-VL、InternVL、OCR、LayoutParser、PaddleOCR/Tesseract、Gradio、FastAPI。
数据集：DocVQA、ChartQA、公开财报图表，或自建小规模中文图表集。
baseline：OCR+LLM、Qwen2.5-VL zero-shot、InternVL、SmolVLM。
难点：数据标注、答案归一化、视觉定位、表格结构。
差异化：中文场景、真实业务文档、可复现 evaluation harness。
评估：EM/F1、数值误差、表格结构准确率、latency、显存。
交付物：benchmark repo、leaderboard、技术报告、demo。
就业价值：强，贴近企业场景。
研究价值：强，有 S 级潜力。
推荐程度：高。

项目 4：LLaVA-mini / SmolVLM LoRA 微调

等级：B/A，取决于实验质量。
目标：用小数据完成领域 VLM instruction tuning。
数据集：LLaVA-format 自建数据、ScienceQA 子集、OCR QA 数据。
baseline：zero-shot VLM；LoRA；QLoRA；不同视觉分辨率。
难点：显存、数据质量、过拟合、评测污染。
差异化：小模型低成本微调、中文领域任务、系统评测。
评估：task accuracy、hallucination rate、human eval 小样本、推理成本。
交付物：LoRA adapter、训练脚本、模型卡、demo。
就业价值：高。
研究价值：中到高。

项目 5：VLM 幻觉诊断与 Failure Case Benchmark

等级：S 候选。
背景：HallusionBench 关注语言幻觉与视觉错觉，并包含 346 张图像、1129 个专家问题。(arXiv)
目标：构建中文/特定领域 hallucination benchmark。
baseline：GPT-4o/Claude/Qwen-VL/InternVL/LLaVA/SmolVLM。
难点：题目质量、标注一致性、避免泄漏。
差异化：中文 OCR、图表、工业缺陷、医学常识边界。
评估：accuracy、pair consistency、refusal correctness、hallucination taxonomy。
交付物：数据集、评测脚本、leaderboard、报告。
就业价值：高，尤其模型评测/安全/应用岗位。
研究价值：很高。

项目 6：多模态 RAG for Technical Documents

等级：A → S。
目标：给 PDF/图片/表格/图示建立检索问答系统。
技术栈：VLM、OCR、layout parser、embedding、FAISS/Qdrant、FastAPI、Gradio。
baseline：text-only RAG；OCR+LLM；VLM direct QA。
难点：chunking、layout、图表引用、答案可溯源。
差异化：citation grounding、图表区域定位、失败样例集。
评估：answer F1、citation accuracy、retrieval recall、latency、cost。
交付物：可部署系统、benchmark、技术报告。
就业价值：很高。
研究价值：中高，若 benchmark 做好可 S。

7. 研究型 work-on list

| # | 问题 | 价值 | 个人可行性 | 最小实验 | 可能产出 |
|---|---|---|---|---|
| 1 | 小模型 VLM 在文档理解中的能力边界 | 企业需求强 | 高 | Qwen2.5-VL/SmolVLM 在 DocVQA/ChartQA 子集评测 | benchmark/report/demo |
| 2 | OCR+LLM vs end-to-end VLM | 工程决策价值高 | 高 | 同数据集比较两条 pipeline | 技术报告 |
| 3 | 中文图表问答 benchmark | 中文资源少 | 中高 | 100–500 条中文图表 QA | benchmark |
| 4 | VLM hallucination taxonomy | 研究价值高 | 中 | 基于 HallusionBench 扩展中文样例 | survey/benchmark |
| 5 | Hard negative 对 CLIP 检索的影响 | 经典且可控 | 高 | Flickr30k 构造 hard negatives | 复现+改进报告 |
| 6 | 低显存 VLM 微调策略比较 | 与个人设备匹配 | 高 | LoRA/QLoRA/freeze projector 对比 | blog/report |
| 7 | VLM 对细粒度空间关系的失败模式 | 长期开放问题 | 中 | 构造 left/right/counting 数据 | workshop paper 候选 |
| 8 | 多模态 RAG 的 citation grounding | 企业落地关键 | 中 | PDF 问答 + 区域引用评测 | 开源工具 |
| 9 | Prompting 对 VLM 评测稳定性的影响 | 评测可靠性问题 | 高 | 多 prompt、多 seed、多模型 | benchmark note |
| 10 | VLM 在长图/长视频上的信息遗忘 | 近期方向 | 中 | 视频 QA 子集 + frame sampling 对比 | 技术报告 |
| 11 | Chart-to-code/Chart-to-table 能力评测 | 文档自动化价值高 | 中 | 图表转 CSV/JSON | benchmark |
| 12 | 多模态模型的 refusal 与不确定性表达 | 安全与可靠性 | 中 | 加入不可回答问题 | workshop paper |
| 13 | Synthetic data 对 VLM 微调的收益 | 数据工程价值 | 中 | GPT/VLM 生成 QA，对比人工小集 | report |
| 14 | 视觉 grounding 与答案正确性的关系 | 研究价值高 | 中 | 要求 bbox/point + answer | 技术报告 |
| 15 | 小模型 on-device VLM demo | 工程展示强 | 高 | SmolVLM 量化部署 | open-source demo |

优先前五：1、2、4、6、8。它们兼顾就业、研究和算力可行性。

8. 论文阅读与复现路线

入门经典

ResNet：读 residual connection、退化问题、实验表。
ViT：读 patch embedding、position embedding、数据规模依赖。
Transformer：读 self-attention、multi-head、positional encoding。
CLIP：读 contrastive objective、zero-shot transfer、数据规模与评价。CLIP 用自然语言监督学习可迁移视觉模型，是 VLM 主线起点。(arXiv)

方向核心论文

论文	读什么	是否适合复现
CLIP	双塔、InfoNCE、zero-shot、prompt	适合，做 mini 版
BLIP	caption bootstrapping、encoder-decoder 统一框架	中等
BLIP-2	frozen image encoder + frozen LLM + Q-Former，降低预训练成本	适合部分复现
Flamingo	cross-attention、few-shot VLM、interleaved data	不适合新手全复现
LLaVA	visual instruction tuning、GPT-generated instruction data	适合 LoRA/mini 复现
Qwen2.5-VL	dynamic resolution、document/chart/video 能力	适合评测，不适合全训
InternVL3	native multimodal pre-training	适合读和评测，不适合全训

BLIP 论文提出统一理解与生成任务的 VLP 框架，并通过 captioner/filter 处理 noisy web captions；BLIP-2 进一步用冻结视觉编码器和冻结 LLM，通过轻量 Querying Transformer 降低训练成本。(arXiv)

适合第一篇复现

CLIP mini-reproduction。

原因：目标函数清晰、数据可控、评价指标清楚、算力可承受、可扩展成 A 级项目。

不适合新手复现

Flamingo 全量训练：数据、模型、算力都过高。
Qwen2.5-VL/InternVL3 全量预训练：工业级资源。
大规模 MMBench/MMMU 榜单复现：成本高，且模型 API/闭源版本不稳定。

复现报告模板

text

# Paper Reproduction Report

## 1. Paper Problem
- 原问题
- 为什么重要
- 原文假设

## 2. Method Summary
- 模型结构
- loss/objective
- training pipeline
- inference pipeline

## 3. Implementation Details
- framework/version
- hardware
- dataset preprocessing
- hyperparameters
- seed
- checkpoint
- known deviations

## 4. Dataset
- source
- split
- sample count
- license
- cleaning rules

## 5. Baselines
- random / simple heuristic
- official pretrained
- prior method
- ablated variant

## 6. Metrics
- primary metric
- secondary metric
- cost metric: latency, VRAM, training time

## 7. Reproduction Results
- original result
- reproduced result
- gap
- possible reasons

## 8. Ablation
- data size
- model size
- loss variant
- learning rate
- batch size
- prompt format

## 9. Failure Cases
- case table
- error taxonomy
- visual examples
- interpretation

## 10. Improvement Ideas
- low-risk engineering improvement
- medium-risk method change
- high-risk research hypothesis

## 11. Conclusion
- what was reproduced
- what was not reproduced
- what was learned
- next experiment

9. 证据型产出设计

9.1 GitHub 项目结构

text

project/
  README.md
  LICENSE
  requirements.txt / environment.yml
  pyproject.toml
  configs/
  data/
    README.md
    download.py
  src/
    models/
    datasets/
    training/
    evaluation/
    utils/
  scripts/
    train.sh
    eval.sh
    demo.sh
  notebooks/
    exploratory.ipynb
  experiments/
    results.csv
    ablations.md
  reports/
    reproduction_report.md
    technical_report.pdf
  assets/
    figures/
    failure_cases/
  demo/
    app.py
  tests/

好标准：一条命令能跑 baseline，一条命令能评测；README 有数据、指标、结果、失败案例。
差标准：只有 notebook、没有 seed、没有指标、没有环境、没有报告。

9.2 README 结构

text

# 项目名

## Problem
## Key Results
## Demo
## Method
## Dataset
## Baselines
## Metrics
## Installation
## Reproduce
## Experiments
## Ablation
## Failure Cases
## Limitations
## Citation / Acknowledgement

让别人 30 秒判断能力：顶部放问题定义、结果表、demo gif、复现命令。

9.3 实验报告结构

实验目的
假设
数据
模型
baseline
指标
实验矩阵
主结果
消融
failure cases
结论
下一步

9.4 技术博客结构

问题背景
为什么不能只调 API
方法直觉
实现关键点
实验结果
坑与排错
失败案例
代码链接
可复现说明

9.5 portfolio 页面结构

个人定位：VLM / multimodal evaluation / applied ML。
Featured Projects：3 个即可。
Research Notes：论文复现和 survey。
Open Source：PR、issues、工具。
Demos：HF Space / video。
Resume：PDF。
Contact。

9.6 HF Space / Demo 页面结构

任务说明
模型说明
输入输出示例
限制说明
数据来源
指标结果
GitHub 链接
模型卡/风险说明

9.7 简历项目描述结构

text

Mini-CLIP Image-Text Retrieval Benchmark | PyTorch, FAISS, Gradio
- Implemented CLIP-style contrastive training on Flickr30k/COCO subsets with reproducible configs and evaluation scripts.
- Compared pretrained CLIP, randomly initialized dual encoder, and fine-tuned variants using Recall@1/5/10 and MRR.
- Built a Hugging Face Space demo and documented 50+ failure cases with taxonomy and ablation results.

差简历写法：
“使用 LLaVA 实现图像问答 demo。”
这等于调包，信息量过低。

10. 认可路径与发布策略

产出	就业认可	研究认可	难度	风险	当前优先级
GitHub 完整项目	高	中	中	中	1
开源 PR	高	中	中	中	3
HF demo	中高	低中	低中	低	2
Kaggle/竞赛	中	低中	中	中	6
技术博客	中	中	低中	低	4
论文复现	中	中高	中	中	5
Survey	中	中	中	中	8
Benchmark	高	高	高	中高	7
arXiv	中高	中高	高	高	后期
Workshop paper	中高	高	高	高	后期
正式会议论文	高	极高	极高	极高	长期
课程证书	低中	低	低	低	低
刷题成绩	中，偏算法岗	低	中	低	视岗位
数学笔记	低	低中	中	低	辅助

优先级：

A 级 GitHub 项目
HF demo
实验报告/技术博客
论文复现
开源 PR
benchmark / survey
workshop / arXiv

课程证书、数学笔记、纯 notebook demo 不应作为核心竞争力。

11. 反伪学习机制

每周必须产出

1 个可运行 commit。
1 个实验表格。
1 篇短读书/论文笔记。
3–5 个 failure cases。
1 个下周实验假设。

每月必须完成

1 个小项目或一个大项目 milestone。
1 篇公开技术文章。
1 次复现报告更新。
1 个 demo 或可视化结果。
1 次 README 重构。

判断没有真正理解

不能不用库写出 loss。
不能解释 tensor shape。
换数据集就跑不通。
只知道“效果变好”，不知道为什么。
不能说清 baseline 是否公平。
不能解释失败案例。

判断项目没有价值

没有明确问题。
没有 baseline。
没有指标。
没有对比实验。
没有失败分析。
没有第三方复现路径。
只是“调用某模型做了一个 demo”。

判断论文没读懂

说不清作者解决的问题。
说不清方法相对 baseline 的变化。
说不清主要实验表每一列的含义。
不能指出论文的限制。
不能设计一个最小复现实验。

用输出倒逼输入

学习前先写目标交付物：

text

本周目标不是“学 CLIP”，而是：
1. 写出 CLIP loss 推导；
2. 在 5k 图文对上训练 mini-CLIP；
3. 报告 Recall@1/5/10；
4. 展示 20 个错误检索样例；
5. 写一篇复现笔记。

12. 3 个月、6 个月、12 个月计划

3 个月最小可行路线

月份	目标	学习	项目	论文	发布物
第 1 月	DL/CV 基础	MIT 6.S191 + CS231n 前半	CIFAR/Imagenette baseline	ResNet、ViT、Transformer	GitHub repo + 训练报告
第 2 月	Transformer/NLP 基础	CS224n 重点章节	mini Transformer / text retrieval	BERT、CLIP	技术博客 1 篇
第 3 月	图文对齐	CMU 11-777 入门 + CLIP	Mini-CLIP retrieval	CLIP、BLIP	HF Space + 复现报告

3 个月验收：
你应拥有一个 B+/A- 项目：Mini-CLIP retrieval，有完整代码、指标、demo、报告。

6 个月竞争力提升路线

月份	目标	产出
1	DL/CV 基础	CV baseline 项目
2	NLP/Transformer	Transformer 实现笔记
3	CLIP 复现	Mini-CLIP + demo
4	VQA/Captioning	ScienceQA 或 COCO caption baseline
5	VLM 微调	SmolVLM/Qwen2.5-VL LoRA 评测
6	A 级工程项目	文档/图表 VQA 系统 + 技术报告

6 个月验收：
至少 2 个可展示项目，其中 1 个达到 A 级。简历可写“VLM evaluation / fine-tuning / deployment”。

12 个月研究与作品集路线

阶段	时间	目标	产出
基础	1–2 月	DL/CV/NLP 补齐	2 个基础 repo
对齐	3–4 月	CLIP/BLIP 主线	复现报告
VLM	5–6 月	LLaVA/BLIP-2/Qwen-VL	微调与评测项目
工程	7–8 月	文档/图表/多模态 RAG	A 级系统
研究	9–10 月	benchmark 或 failure analysis	S 级候选
发布	11–12 月	整理作品集、投稿/开源	portfolio、blog series、workshop/arXiv 尝试

12 个月验收：

3–4 个 GitHub 项目。
2 个 HF demos。
6–10 篇技术博客/复现报告。
1 个 benchmark 或系统评测工具。
1 篇长技术报告或 workshop paper 草稿。

13. 最终建议

1. 第一门课

Stanford CS231n。
理由：多模态大模型的视觉侧是硬基础，CS231n 作业和项目最能训练工程与实验能力。

2. 第一个项目

Mini-CLIP Image-Text Retrieval。
理由：问题清楚、指标清楚、算力可控、可展示、可扩展。

3. 第一篇复现论文

CLIP: Learning Transferable Visual Models From Natural Language Supervision。(arXiv)

4. 第一篇技术文章

《从零复现 Mini-CLIP：图文对齐、InfoNCE、Recall@K 与失败案例分析》

5. 最应该避免的 5 个坑

一上来调 LLaVA/Qwen-VL demo，然后误以为懂多模态。
只看课程，不做可复现实验。
项目没有 baseline 和指标。
论文只看中文解读，不读实验表和 appendix。
同时追太多方向：VLM、视频、音频、Agent、RL、3D、机器人一起学。

6. 当前性价比最高的 work-on list 前 5 项

Mini-CLIP 图文检索复现。
OCR+LLM vs VLM 文档问答评测。
SmolVLM/Qwen2.5-VL 小模型低成本微调比较。
VLM hallucination 中文小 benchmark。
多模态 RAG for technical documents。

14. 项目验收标准：15 项硬门槛

每个项目最终按以下 checklist 验收：

检查项	C 级	B 级	A 级	S 级
问题定义	有	清楚	有应用/研究价值	可形成新 benchmark/工具
baseline	无/弱	有简单 baseline	多个强 baseline	系统公平比较
数据集说明	简略	split 清楚	license/清洗/偏差说明	可复用数据卡
指标	单指标	主指标明确	多维指标	标准化评测协议
实验记录	截图	表格	WandB/MLflow/config	完整可追踪
对比实验	无	有	公平充分	可作为 leaderboard
ablation	无	1–2 个	系统消融	支撑研究结论
failure cases	无	少量	分类分析	形成 taxonomy
可运行代码	notebook	scripts	package 化	可作为工具
环境配置	缺失	requirements	Docker/conda	CI/test
README	简单	可读	复现完整	文档优秀
demo	无	本地	HF/网页/API	被他人使用
第三方复现	难	可尝试	基本可复现	高可复现
简历价值	弱	可写	强	核心亮点
扩展潜力	低	技术报告	benchmark/tool	paper/open-source ecosystem

硬规则：没有 baseline、指标、复现说明的项目，不应进入简历核心项目区。

Log

1. 方向定位与能力地图 ​

2. 高质量学习资源筛选 ​

推荐课程总表 ​

2.1 Stanford CS231n: Deep Learning for Computer Vision ​

2.2 Stanford CS224n: NLP with Deep Learning ​

2.3 CMU 11-777 Multimodal Machine Learning ​

2.4 MIT 6.S191 Introduction to Deep Learning ​

2.5 Full Stack Deep Learning ​

3. 教材与参考资料 ​

4. 最小化学习组合 ​

最小组合 ​

为什么足够启动 ​

暂时不建议 ​

5. 成长阶段设计 ​

阶段 1：DL 与视觉基础补齐 ​

阶段 2：NLP/Transformer/LLM 基础 ​

阶段 3：经典视觉-语言方法 ​

阶段 4：多模态大模型与指令微调 ​

阶段 5：独立项目与可展示系统 ​

阶段 6：研究产出 ​

6. 项目路线：从学习型项目到认可型项目 ​

项目分级总览 ​

项目 1：Mini-CLIP 图文检索复现 ​

项目 2：VQA/ScienceQA 小型多模态推理系统 ​

项目 3：文档图表理解 VLM Benchmark ​

项目 4：LLaVA-mini / SmolVLM LoRA 微调 ​

项目 5：VLM 幻觉诊断与 Failure Case Benchmark ​

项目 6：多模态 RAG for Technical Documents ​

7. 研究型 work-on list ​

8. 论文阅读与复现路线 ​

入门经典 ​

方向核心论文 ​

适合第一篇复现 ​

不适合新手复现 ​

复现报告模板 ​

9. 证据型产出设计 ​

9.1 GitHub 项目结构 ​

9.2 README 结构 ​

9.3 实验报告结构 ​

9.4 技术博客结构 ​

9.5 portfolio 页面结构 ​

9.6 HF Space / Demo 页面结构 ​

9.7 简历项目描述结构 ​

10. 认可路径与发布策略 ​

11. 反伪学习机制 ​

每周必须产出 ​

每月必须完成 ​

判断没有真正理解 ​

判断项目没有价值 ​

判断论文没读懂 ​

用输出倒逼输入 ​

12. 3 个月、6 个月、12 个月计划 ​

3 个月最小可行路线 ​

6 个月竞争力提升路线 ​

12 个月研究与作品集路线 ​

13. 最终建议 ​

1. 第一门课 ​

2. 第一个项目 ​

3. 第一篇复现论文 ​

4. 第一篇技术文章 ​

5. 最应该避免的 5 个坑 ​

6. 当前性价比最高的 work-on list 前 5 项 ​

14. 项目验收标准：15 项硬门槛 ​

推荐执行顺序 ​

1. 方向定位与能力地图

2. 高质量学习资源筛选

推荐课程总表

2.1 Stanford CS231n: Deep Learning for Computer Vision

2.2 Stanford CS224n: NLP with Deep Learning

2.3 CMU 11-777 Multimodal Machine Learning

2.4 MIT 6.S191 Introduction to Deep Learning

2.5 Full Stack Deep Learning

3. 教材与参考资料

4. 最小化学习组合

最小组合

为什么足够启动

暂时不建议

5. 成长阶段设计

阶段 1：DL 与视觉基础补齐

阶段 2：NLP/Transformer/LLM 基础

阶段 3：经典视觉-语言方法

阶段 4：多模态大模型与指令微调

阶段 5：独立项目与可展示系统

阶段 6：研究产出

6. 项目路线：从学习型项目到认可型项目

项目分级总览

项目 1：Mini-CLIP 图文检索复现

项目 2：VQA/ScienceQA 小型多模态推理系统

项目 3：文档图表理解 VLM Benchmark

项目 4：LLaVA-mini / SmolVLM LoRA 微调

项目 5：VLM 幻觉诊断与 Failure Case Benchmark

项目 6：多模态 RAG for Technical Documents

7. 研究型 work-on list

8. 论文阅读与复现路线

入门经典

方向核心论文

适合第一篇复现

不适合新手复现

复现报告模板

9. 证据型产出设计

9.1 GitHub 项目结构

9.2 README 结构

9.3 实验报告结构

9.4 技术博客结构

9.5 portfolio 页面结构

9.6 HF Space / Demo 页面结构

9.7 简历项目描述结构

10. 认可路径与发布策略

11. 反伪学习机制

每周必须产出

每月必须完成

判断没有真正理解

判断项目没有价值

判断论文没读懂

用输出倒逼输入

12. 3 个月、6 个月、12 个月计划

3 个月最小可行路线

6 个月竞争力提升路线

12 个月研究与作品集路线

13. 最终建议

1. 第一门课

2. 第一个项目

3. 第一篇复现论文

4. 第一篇技术文章

5. 最应该避免的 5 个坑

6. 当前性价比最高的 work-on list 前 5 项

14. 项目验收标准：15 项硬门槛

推荐执行顺序