Skip to content

以下路线默认把“多模态大模型”收敛为 视觉-语言大模型 / Vision-Language Models, VLM / MLLM,即图像、文档、视频与语言模型结合。音频、多模态机器人、3D/具身智能暂列为后续扩展,否则路线会失控。


1. 方向定位与能力地图

能力最低要求进阶要求可验证产出
数学基础线代、概率、微积分;理解矩阵乘法、梯度、MLE、交叉熵信息论、优化、注意力机制、对比学习目标、KL/CE、LoRA低秩近似手写 Transformer / CLIP loss 推导笔记;训练曲线解释
编程与工程基础Python、PyTorch、Linux、conda、Git、CUDA 基本排错DDP、混合精度、数据流水线、实验管理、Docker、API/demo可复现实验仓库;train.py/eval.py/configs 完整
机器学习基础监督学习、过拟合、交叉验证、指标calibration、OOD、retrieval、ranking、ablationbaseline 对比实验报告
深度学习基础MLP/CNN/RNN/Transformer、反向传播、优化器ViT、LLM fine-tuning、PEFT、RLHF/DPO基本概念从零实现小模型;微调开源模型
方向核心知识image encoder + projector + LLM;caption/VQA/retrievalCLIP、BLIP/BLIP-2、Flamingo、LLaVA、Qwen-VL/InternVL、文档/视频理解复现 CLIP 或 LLaVA-mini;跑通 MME/MMBench/MMMU 子集
论文阅读能力能读懂问题、模型结构、loss、实验表能识别实验缺口、隐含假设、数据泄漏、评价偏差每篇论文 1–2 页结构化读书报告
实验设计能力有 baseline、有指标、有消融控制变量、统计重复、failure cases、误差分类WandB/MLflow 日志;实验矩阵;可复现表格
工程部署能力Gradio/HF Space/FastAPI demoDocker、量化、推理加速、批处理、监控在线 demo;API;Docker 镜像;延迟/显存报告
研究创新能力能改一个模块并证明有效能提出问题、构造 benchmark、系统比较技术报告、benchmark、workshop/arXiv/open-source tool

你现在的优势:数学基础够用、GPU 条件不错、开发工具链较强。主要短板大概率是:DL 训练直觉、论文阅读、实验设计、可复现工程规范。


2. 高质量学习资源筛选

推荐课程总表

推荐度课程定位
SStanford CS231n计算机视觉与深度学习主线
SStanford CS224nNLP/Transformer/LLM 基础
SCMU 11-777 Multimodal Machine Learning多模态核心理论与论文
AMIT 6.S191快速补齐深度学习整体框架
AFull Stack Deep Learning工程化、部署、实验管理

2.1 Stanford CS231n: Deep Learning for Computer Vision

  • 学校/教师:Stanford,计算机视觉方向经典课程。

  • 课程状态:官网仍维护,2026 页面已有 assignments,课程说明强调 hands-on assignments 和 final project。(CS231n)

  • 适合人群:有数学和 Python 基础、想进入视觉/多模态的人。

  • 先修要求:Python、线代、概率、基础 ML。

  • 优点:视觉 backbone、CNN、ViT、训练技巧、assignment 质量高。

  • 局限:不是专门讲 VLM;需要自己接到 CLIP/LLaVA。

  • 训练能力:视觉编码器、训练调参、PyTorch工程。

  • 就业贡献:高。CV/VLM 岗位非常认可。

  • 研究贡献:中高。为读 CLIP、ViT、BLIP 打基础。

  • 推荐程度:S。建议作为第一主课。

2.2 Stanford CS224n: NLP with Deep Learning

  • 学校/教师:Stanford。

  • 课程状态:课程主页说明涵盖 NLP 深度学习与 LLM,包含 lectures、assignments、final project,使用 PyTorch。(Stanford University)

  • 适合人群:准备理解 Transformer、LLM、instruction tuning 的人。

  • 先修要求:Python、概率、线代、基础 DL。

  • 优点:从词向量到 Transformer,再到 LLM;作业体系成熟。

  • 局限:多模态内容少,需要与 CS231n/CMU 11-777 配合。

  • 训练能力:语言建模、attention、sequence modeling。

  • 就业贡献:高。LLM 基础是多模态岗位默认要求。

  • 研究贡献:高。没有 NLP/LLM 基础很难读 MLLM 论文。

  • 推荐程度:S

2.3 CMU 11-777 Multimodal Machine Learning

  • 学校/教师:CMU。

  • 课程状态:2024 课程页明确聚焦 text、audio、images/videos、action 等模态整合;课程主页说明涵盖 multimodal alignment、fusion、heterogeneous representation learning、multi-stream temporal modeling。(CMU MMML)

  • 适合人群:已有 DL/CV/NLP 基础后进入多模态研究。

  • 先修要求:ML、DL、PyTorch、论文阅读能力。

  • 优点:方向正、论文导向、概念框架完整。

  • 局限:不适合作为零基础第一课;作业/视频可用性可能随年份变化。

  • 训练能力:多模态对齐、融合、建模、研究阅读。

  • 就业贡献:中高。能把简历从“会调模型”拉到“懂方向”。

  • 研究贡献:

  • 推荐程度:S,但应排在 CS231n/CS224n 之后。

2.4 MIT 6.S191 Introduction to Deep Learning

  • 课程状态:官网称其覆盖深度学习基础、NLP、CV、生物等应用,并含 labs;2026 版视频已发布。(MIT Deep Learning 6.S191)

  • 适合人群:需要快速建立 DL 全局图的人。

  • 优点:短、现代、上手快。

  • 局限:深度不够,不能替代 CS231n/CS224n。

  • 训练能力:DL 概念启动、快速实验。

  • 就业贡献:中。

  • 研究贡献:低到中。

  • 推荐程度:A,适合作为前 2 周 bootcamp。

2.5 Full Stack Deep Learning

  • 课程状态:2022 课程主页包含开发基础设施、实验管理、测试、数据管理、部署、持续学习等模块;部署课强调尽早部署最小可行模型。(Full Stack Deep Learning)

  • 适合人群:想把模型变成可展示产品/系统的人。

  • 先修要求:基础 DL、Python 工程。

  • 优点:工程化视角强,弥补“只会 notebook”的短板。

  • 局限:不是 VLM 专课;部分工具链可能需替换为当前主流。

  • 训练能力:MLOps、deployment、testing、data pipeline。

  • 就业贡献:

  • 研究贡献:中。

  • 推荐程度:A


3. 教材与参考资料

类型书/资料适合阶段评价
入门/主教材Dive into Deep Learning0–3 个月代码、数学、讲解结合;官方称支持 PyTorch/NumPy/MXNet/JAX/TensorFlow,并被多国高校采用。(Dive into Deep Learning)
标准教材Understanding Deep Learning, Simon Prince1–6 个月MIT Press 开放获取,定位为理论与实践之间的现代 DL 教材。(UDL Book)
经典参考Deep Learning, Goodfellow/Bengio/Courville3–12 个月官方在线版完整免费,适合作为数学和理论参考,不适合作为第一本实操书。(Deep Learning Book)
NLP/LLMSpeech and Language Processing, Jurafsky & Martin, 3rd draft2–12 个月2026 draft 已更新,覆盖 NLP、LLM、ASR/TTS 等。(Stanford University)
工程实践Full Stack Deep Learning materials3–12 个月适合补实验管理、部署、测试、数据管理。(Full Stack Deep Learning)
论文阅读Papers with Code + arXiv + 官方 repo全阶段用来查 baseline、指标、代码状态;不要只读二手博客。

如果只能选一本主教材:Dive into Deep Learning。原因:你不是纯理论起步,而是要高质量产出;D2L 更适合把数学、PyTorch、实验连接起来。Goodfellow 更适合查理论,Prince 更适合系统理解现代 DL。


4. 最小化学习组合

最小组合

  • 1 门主课程:Stanford CS231n。

  • 1 本主教材:Dive into Deep Learning。

  • 3 个辅助资料

    1. Stanford CS224n 的 Transformer/LLM 相关 lectures。

    2. CMU 11-777 的 multimodal alignment/fusion 章节。

    3. Hugging Face VLM 教程,作为模型调用、微调、demo 工具参考;HF 教程明确介绍 VLM 用于 image captioning、VQA、multimodal reasoning。(Hugging Face)

  • 1 个核心项目Mini-CLIP + Retrieval + Failure Analysis + HF Demo

为什么足够启动

因为多模态大模型的最小闭环是:

视觉编码器 → 文本编码器/LLM → 对齐目标 → 数据集 → 评价指标 → demo → 报告。

CLIP 是最适合新手复现的入口:论文提出用图文对预测任务学习可迁移视觉模型,影响极大。(arXiv)

暂时不建议

  • 直接训练 LLaVA 全量版:原 repo 提到训练使用 8 张 80GB A100;你的 4090 适合 LoRA/小规模复现,不适合硬怼全量训练。(GitHub)

  • 直接读 Flamingo 并复现:架构和数据成本都偏高。

  • 一开始上 RLHF/RLVR:会分散主线。

  • 同时学音频、视频、3D、机器人:会稀释产出。


5. 成长阶段设计

阶段 1:DL 与视觉基础补齐

  • 时间:3–5 周。

  • 目标:能独立训练、调试、解释小型 CV/DL 模型。

  • 内容:PyTorch、反向传播、CNN、ViT 基础、优化器、正则化。

  • 资源:MIT 6.S191 + CS231n 前半。

  • 必做练习:CS231n assignment 1–2;D2L MLP/CNN/attention 章节。

  • 项目:CIFAR-10/Imagenette 分类器,含 ResNet/ViT-tiny 对比。

  • 论文:AlexNet、ResNet、ViT。

  • 产出:GitHub repo + 训练日志 + 误差分析。

  • 完成标准:第三方能运行;有 baseline;有 ablation。

  • 常见误区:只看课不写训练代码;只报 accuracy 不分析错误。

阶段 2:NLP/Transformer/LLM 基础

  • 时间:4–6 周。

  • 目标:理解 Transformer、tokenization、attention、fine-tuning。

  • 内容:word embeddings、seq2seq、attention、Transformer、instruction tuning 概念。

  • 资源:CS224n;Jurafsky & Martin。

  • 必做练习:实现 mini Transformer;微调小型文本分类/QA。

  • 项目:小型文本检索或 QA baseline。

  • 论文:Attention Is All You Need、BERT、GPT 系列概要、T5。

  • 产出:Transformer 从零实现笔记 + fine-tuning 报告。

  • 完成标准:能解释 attention mask、KV cache、CE loss、teacher forcing。

阶段 3:经典视觉-语言方法

  • 时间:6–8 周。

  • 目标:掌握 CLIP/BLIP/BLIP-2 这条主线。

  • 内容:对比学习、image-text retrieval、captioning、VQA。

  • 资源:CMU 11-777;CLIP/BLIP/BLIP-2 论文。

  • 必做练习:复现 CLIP loss;做 Flickr30k/COCO 子集 retrieval。

  • 项目:Mini-CLIP retrieval benchmark。

  • 数据集:Flickr30k、MS COCO captions。

  • 指标:Recall@K、MRR、CIDEr/BLEU/METEOR/ROUGE/SPICE。COCO caption 论文说明其 evaluation server 使用 BLEU、METEOR、ROUGE、CIDEr 等指标。(arXiv)

  • 产出:复现报告 + HF Space 检索 demo。

  • 完成标准:有 zero-shot/fine-tune 对比、failure cases。

阶段 4:多模态大模型与指令微调

  • 时间:6–10 周。

  • 目标:理解 VLM = vision encoder + projector/Q-former + LLM 的工程与训练逻辑。

  • 内容:LLaVA、BLIP-2、Qwen2.5-VL、InternVL、SmolVLM。

  • 推荐论文:BLIP-2、LLaVA、Qwen2.5-VL、InternVL3。

  • 说明:Qwen2.5-VL 报告强调文档解析、图表/表格理解、长视频理解、定位能力等;InternVL3 报告强调 native multimodal pre-training。(arXiv)

  • 项目:基于 Qwen2.5-VL/SmolVLM 的领域数据微调或评测。

  • 指标:MME、MMBench、MMMU、ScienceQA 子集。

  • 产出:评测工具链 + LoRA 微调报告。

  • 完成标准:不是“调 API demo”,而是有任务定义、数据、baseline、消融、错误类型统计。

阶段 5:独立项目与可展示系统

  • 时间:8–12 周。

  • 目标:形成 A 级求职项目。

  • 内容:数据清洗、模型选择、微调、评测、部署、文档。

  • 项目方向:文档图表理解、中文场景 VQA、医学/工业/教育图文问答、VLM hallucination benchmark。

  • 产出:GitHub + blog + technical report + HF Space + 简历条目。

  • 完成标准:第三方可复现;有 demo;有对比实验。

阶段 6:研究产出

  • 时间:3–6 个月持续。

  • 目标:形成 S 级候选:benchmark、开源工具、workshop paper、arXiv 技术报告。

  • 内容:问题发现、数据构造、系统评测、方法改进。

  • 产出:survey/benchmark/toolkit/复现+改进报告。

  • 完成标准:别人愿意引用、复用或在 issue/PR 中互动。


6. 项目路线:从学习型项目到认可型项目

项目分级总览

等级项目原始等级升级路径
CCIFAR/Imagenette ResNet-ViT 对比C加完整实验、错误分析、训练脚本可升 B
BMini-CLIP 图文检索复现B加 benchmark、中文数据、hard negative、demo 可升 A
AVLM 文档图表问答系统A构造公开 benchmark + leaderboard 可升 S
B/ALLaVA/SmolVLM LoRA 微调B/A有真实任务、系统评测、消融才是 A
SVLM 幻觉/视觉错觉诊断 benchmarkS 候选数据质量和评测协议决定上限
A/S多模态 RAG for technical documentsA/S若做成通用开源工具可 S
B/A论文复现:BLIP/BLIP-2/LLaVA-miniB/A加改进和系统分析可 A

项目 1:Mini-CLIP 图文检索复现

  • 等级:B → A

  • 目标:复现 CLIP 的核心 contrastive learning。

  • 技术栈:PyTorch、timm/open_clip、FAISS、WandB、Gradio。

  • 数据集:Flickr30k、COCO captions 子集。

  • baseline:预训练 CLIP zero-shot;随机初始化双塔;image-only/text-only baseline。

  • 难点:batch size、temperature、hard negative、数据清洗。

  • 差异化:中文 caption 扩展、hard negative mining、领域图文数据。

  • 评估:Recall@1/5/10、MRR、embedding 可视化、failure taxonomy。

  • 交付物:训练代码、eval 脚本、模型卡、HF Space、报告。

  • 就业价值:证明你理解对齐训练,不只是调包。

  • 研究价值:可延伸到 retrieval robustness。

  • 推荐程度:最高

项目 2:VQA/ScienceQA 小型多模态推理系统

  • 等级:B → A

  • 数据集:ScienceQA。该数据集约 21k 多模态选择题,并包含 lecture/explanation 标注。(arXiv)

  • baseline:BLIP-2、LLaVA、Qwen2.5-VL zero-shot;文本-only;图像-only。

  • 难点:prompt 敏感、解释质量、答案抽取。

  • 差异化:对比 CoT/no-CoT、OCR/no-OCR、检索增强/no-RAG。

  • 评估:accuracy、per-category accuracy、explanation faithfulness 人工小样本评估。

  • 交付物:评测脚本、错误分析报告、demo。

  • 就业价值:能展示 VLM evaluation 能力。

  • 研究价值:可进入 multimodal reasoning。

项目 3:文档图表理解 VLM Benchmark

  • 等级:A → S

  • 目标:评测 VLM 对表格、图表、PDF 截图、发票/报告的理解。

  • 技术栈:Qwen2.5-VL、InternVL、OCR、LayoutParser、PaddleOCR/Tesseract、Gradio、FastAPI。

  • 数据集:DocVQA、ChartQA、公开财报图表,或自建小规模中文图表集。

  • baseline:OCR+LLM、Qwen2.5-VL zero-shot、InternVL、SmolVLM。

  • 难点:数据标注、答案归一化、视觉定位、表格结构。

  • 差异化:中文场景、真实业务文档、可复现 evaluation harness。

  • 评估:EM/F1、数值误差、表格结构准确率、latency、显存。

  • 交付物:benchmark repo、leaderboard、技术报告、demo。

  • 就业价值:强,贴近企业场景。

  • 研究价值:强,有 S 级潜力。

  • 推荐程度:

项目 4:LLaVA-mini / SmolVLM LoRA 微调

  • 等级:B/A,取决于实验质量。

  • 目标:用小数据完成领域 VLM instruction tuning。

  • 数据集:LLaVA-format 自建数据、ScienceQA 子集、OCR QA 数据。

  • baseline:zero-shot VLM;LoRA;QLoRA;不同视觉分辨率。

  • 难点:显存、数据质量、过拟合、评测污染。

  • 差异化:小模型低成本微调、中文领域任务、系统评测。

  • 评估:task accuracy、hallucination rate、human eval 小样本、推理成本。

  • 交付物:LoRA adapter、训练脚本、模型卡、demo。

  • 就业价值:高。

  • 研究价值:中到高。

项目 5:VLM 幻觉诊断与 Failure Case Benchmark

  • 等级:S 候选

  • 背景:HallusionBench 关注语言幻觉与视觉错觉,并包含 346 张图像、1129 个专家问题。(arXiv)

  • 目标:构建中文/特定领域 hallucination benchmark。

  • baseline:GPT-4o/Claude/Qwen-VL/InternVL/LLaVA/SmolVLM。

  • 难点:题目质量、标注一致性、避免泄漏。

  • 差异化:中文 OCR、图表、工业缺陷、医学常识边界。

  • 评估:accuracy、pair consistency、refusal correctness、hallucination taxonomy。

  • 交付物:数据集、评测脚本、leaderboard、报告。

  • 就业价值:高,尤其模型评测/安全/应用岗位。

  • 研究价值:很高。

项目 6:多模态 RAG for Technical Documents

  • 等级:A → S

  • 目标:给 PDF/图片/表格/图示建立检索问答系统。

  • 技术栈:VLM、OCR、layout parser、embedding、FAISS/Qdrant、FastAPI、Gradio。

  • baseline:text-only RAG;OCR+LLM;VLM direct QA。

  • 难点:chunking、layout、图表引用、答案可溯源。

  • 差异化:citation grounding、图表区域定位、失败样例集。

  • 评估:answer F1、citation accuracy、retrieval recall、latency、cost。

  • 交付物:可部署系统、benchmark、技术报告。

  • 就业价值:很高。

  • 研究价值:中高,若 benchmark 做好可 S。


7. 研究型 work-on list

| # | 问题 | 价值 | 个人可行性 | 最小实验 | 可能产出 |
|---|---|---|---|---|
| 1 | 小模型 VLM 在文档理解中的能力边界 | 企业需求强 | 高 | Qwen2.5-VL/SmolVLM 在 DocVQA/ChartQA 子集评测 | benchmark/report/demo |
| 2 | OCR+LLM vs end-to-end VLM | 工程决策价值高 | 高 | 同数据集比较两条 pipeline | 技术报告 |
| 3 | 中文图表问答 benchmark | 中文资源少 | 中高 | 100–500 条中文图表 QA | benchmark |
| 4 | VLM hallucination taxonomy | 研究价值高 | 中 | 基于 HallusionBench 扩展中文样例 | survey/benchmark |
| 5 | Hard negative 对 CLIP 检索的影响 | 经典且可控 | 高 | Flickr30k 构造 hard negatives | 复现+改进报告 |
| 6 | 低显存 VLM 微调策略比较 | 与个人设备匹配 | 高 | LoRA/QLoRA/freeze projector 对比 | blog/report |
| 7 | VLM 对细粒度空间关系的失败模式 | 长期开放问题 | 中 | 构造 left/right/counting 数据 | workshop paper 候选 |
| 8 | 多模态 RAG 的 citation grounding | 企业落地关键 | 中 | PDF 问答 + 区域引用评测 | 开源工具 |
| 9 | Prompting 对 VLM 评测稳定性的影响 | 评测可靠性问题 | 高 | 多 prompt、多 seed、多模型 | benchmark note |
| 10 | VLM 在长图/长视频上的信息遗忘 | 近期方向 | 中 | 视频 QA 子集 + frame sampling 对比 | 技术报告 |
| 11 | Chart-to-code/Chart-to-table 能力评测 | 文档自动化价值高 | 中 | 图表转 CSV/JSON | benchmark |
| 12 | 多模态模型的 refusal 与不确定性表达 | 安全与可靠性 | 中 | 加入不可回答问题 | workshop paper |
| 13 | Synthetic data 对 VLM 微调的收益 | 数据工程价值 | 中 | GPT/VLM 生成 QA,对比人工小集 | report |
| 14 | 视觉 grounding 与答案正确性的关系 | 研究价值高 | 中 | 要求 bbox/point + answer | 技术报告 |
| 15 | 小模型 on-device VLM demo | 工程展示强 | 高 | SmolVLM 量化部署 | open-source demo |

优先前五:1、2、4、6、8。它们兼顾就业、研究和算力可行性。


8. 论文阅读与复现路线

入门经典

  1. ResNet:读 residual connection、退化问题、实验表。

  2. ViT:读 patch embedding、position embedding、数据规模依赖。

  3. Transformer:读 self-attention、multi-head、positional encoding。

  4. CLIP:读 contrastive objective、zero-shot transfer、数据规模与评价。CLIP 用自然语言监督学习可迁移视觉模型,是 VLM 主线起点。(arXiv)

方向核心论文

论文读什么是否适合复现
CLIP双塔、InfoNCE、zero-shot、prompt适合,做 mini 版
BLIPcaption bootstrapping、encoder-decoder 统一框架中等
BLIP-2frozen image encoder + frozen LLM + Q-Former,降低预训练成本适合部分复现
Flamingocross-attention、few-shot VLM、interleaved data不适合新手全复现
LLaVAvisual instruction tuning、GPT-generated instruction data适合 LoRA/mini 复现
Qwen2.5-VLdynamic resolution、document/chart/video 能力适合评测,不适合全训
InternVL3native multimodal pre-training适合读和评测,不适合全训

BLIP 论文提出统一理解与生成任务的 VLP 框架,并通过 captioner/filter 处理 noisy web captions;BLIP-2 进一步用冻结视觉编码器和冻结 LLM,通过轻量 Querying Transformer 降低训练成本。(arXiv)

适合第一篇复现

CLIP mini-reproduction

原因:目标函数清晰、数据可控、评价指标清楚、算力可承受、可扩展成 A 级项目。

不适合新手复现

  • Flamingo 全量训练:数据、模型、算力都过高。

  • Qwen2.5-VL/InternVL3 全量预训练:工业级资源。

  • 大规模 MMBench/MMMU 榜单复现:成本高,且模型 API/闭源版本不稳定。

复现报告模板

text
# Paper Reproduction Report

## 1. Paper Problem
- 原问题
- 为什么重要
- 原文假设

## 2. Method Summary
- 模型结构
- loss/objective
- training pipeline
- inference pipeline

## 3. Implementation Details
- framework/version
- hardware
- dataset preprocessing
- hyperparameters
- seed
- checkpoint
- known deviations

## 4. Dataset
- source
- split
- sample count
- license
- cleaning rules

## 5. Baselines
- random / simple heuristic
- official pretrained
- prior method
- ablated variant

## 6. Metrics
- primary metric
- secondary metric
- cost metric: latency, VRAM, training time

## 7. Reproduction Results
- original result
- reproduced result
- gap
- possible reasons

## 8. Ablation
- data size
- model size
- loss variant
- learning rate
- batch size
- prompt format

## 9. Failure Cases
- case table
- error taxonomy
- visual examples
- interpretation

## 10. Improvement Ideas
- low-risk engineering improvement
- medium-risk method change
- high-risk research hypothesis

## 11. Conclusion
- what was reproduced
- what was not reproduced
- what was learned
- next experiment

9. 证据型产出设计

9.1 GitHub 项目结构

text
project/
  README.md
  LICENSE
  requirements.txt / environment.yml
  pyproject.toml
  configs/
  data/
    README.md
    download.py
  src/
    models/
    datasets/
    training/
    evaluation/
    utils/
  scripts/
    train.sh
    eval.sh
    demo.sh
  notebooks/
    exploratory.ipynb
  experiments/
    results.csv
    ablations.md
  reports/
    reproduction_report.md
    technical_report.pdf
  assets/
    figures/
    failure_cases/
  demo/
    app.py
  tests/

好标准:一条命令能跑 baseline,一条命令能评测;README 有数据、指标、结果、失败案例。
差标准:只有 notebook、没有 seed、没有指标、没有环境、没有报告。

9.2 README 结构

text
# 项目名

## Problem
## Key Results
## Demo
## Method
## Dataset
## Baselines
## Metrics
## Installation
## Reproduce
## Experiments
## Ablation
## Failure Cases
## Limitations
## Citation / Acknowledgement

让别人 30 秒判断能力:顶部放问题定义、结果表、demo gif、复现命令。

9.3 实验报告结构

  • 实验目的

  • 假设

  • 数据

  • 模型

  • baseline

  • 指标

  • 实验矩阵

  • 主结果

  • 消融

  • failure cases

  • 结论

  • 下一步

9.4 技术博客结构

  • 问题背景

  • 为什么不能只调 API

  • 方法直觉

  • 实现关键点

  • 实验结果

  • 坑与排错

  • 失败案例

  • 代码链接

  • 可复现说明

9.5 portfolio 页面结构

  • 个人定位:VLM / multimodal evaluation / applied ML。

  • Featured Projects:3 个即可。

  • Research Notes:论文复现和 survey。

  • Open Source:PR、issues、工具。

  • Demos:HF Space / video。

  • Resume:PDF。

  • Contact。

9.6 HF Space / Demo 页面结构

  • 任务说明

  • 模型说明

  • 输入输出示例

  • 限制说明

  • 数据来源

  • 指标结果

  • GitHub 链接

  • 模型卡/风险说明

9.7 简历项目描述结构

text
Mini-CLIP Image-Text Retrieval Benchmark | PyTorch, FAISS, Gradio
- Implemented CLIP-style contrastive training on Flickr30k/COCO subsets with reproducible configs and evaluation scripts.
- Compared pretrained CLIP, randomly initialized dual encoder, and fine-tuned variants using Recall@1/5/10 and MRR.
- Built a Hugging Face Space demo and documented 50+ failure cases with taxonomy and ablation results.

差简历写法:
“使用 LLaVA 实现图像问答 demo。”
这等于调包,信息量过低。


10. 认可路径与发布策略

产出就业认可研究认可难度风险当前优先级
GitHub 完整项目1
开源 PR3
HF demo中高低中低中2
Kaggle/竞赛低中6
技术博客低中4
论文复现中高5
Survey8
Benchmark中高7
arXiv中高中高后期
Workshop paper中高后期
正式会议论文极高极高极高长期
课程证书低中
刷题成绩中,偏算法岗视岗位
数学笔记低中辅助

优先级:

  1. A 级 GitHub 项目

  2. HF demo

  3. 实验报告/技术博客

  4. 论文复现

  5. 开源 PR

  6. benchmark / survey

  7. workshop / arXiv

课程证书、数学笔记、纯 notebook demo 不应作为核心竞争力。


11. 反伪学习机制

每周必须产出

  • 1 个可运行 commit。

  • 1 个实验表格。

  • 1 篇短读书/论文笔记。

  • 3–5 个 failure cases。

  • 1 个下周实验假设。

每月必须完成

  • 1 个小项目或一个大项目 milestone。

  • 1 篇公开技术文章。

  • 1 次复现报告更新。

  • 1 个 demo 或可视化结果。

  • 1 次 README 重构。

判断没有真正理解

  • 不能不用库写出 loss。

  • 不能解释 tensor shape。

  • 换数据集就跑不通。

  • 只知道“效果变好”,不知道为什么。

  • 不能说清 baseline 是否公平。

  • 不能解释失败案例。

判断项目没有价值

  • 没有明确问题。

  • 没有 baseline。

  • 没有指标。

  • 没有对比实验。

  • 没有失败分析。

  • 没有第三方复现路径。

  • 只是“调用某模型做了一个 demo”。

判断论文没读懂

  • 说不清作者解决的问题。

  • 说不清方法相对 baseline 的变化。

  • 说不清主要实验表每一列的含义。

  • 不能指出论文的限制。

  • 不能设计一个最小复现实验。

用输出倒逼输入

学习前先写目标交付物:

text
本周目标不是“学 CLIP”,而是:
1. 写出 CLIP loss 推导;
2. 在 5k 图文对上训练 mini-CLIP;
3. 报告 Recall@1/5/10;
4. 展示 20 个错误检索样例;
5. 写一篇复现笔记。

12. 3 个月、6 个月、12 个月计划

3 个月最小可行路线

月份目标学习项目论文发布物
第 1 月DL/CV 基础MIT 6.S191 + CS231n 前半CIFAR/Imagenette baselineResNet、ViT、TransformerGitHub repo + 训练报告
第 2 月Transformer/NLP 基础CS224n 重点章节mini Transformer / text retrievalBERT、CLIP技术博客 1 篇
第 3 月图文对齐CMU 11-777 入门 + CLIPMini-CLIP retrievalCLIP、BLIPHF Space + 复现报告

3 个月验收:
你应拥有一个 B+/A- 项目:Mini-CLIP retrieval,有完整代码、指标、demo、报告。

6 个月竞争力提升路线

月份目标产出
1DL/CV 基础CV baseline 项目
2NLP/TransformerTransformer 实现笔记
3CLIP 复现Mini-CLIP + demo
4VQA/CaptioningScienceQA 或 COCO caption baseline
5VLM 微调SmolVLM/Qwen2.5-VL LoRA 评测
6A 级工程项目文档/图表 VQA 系统 + 技术报告

6 个月验收:
至少 2 个可展示项目,其中 1 个达到 A 级。简历可写“VLM evaluation / fine-tuning / deployment”。

12 个月研究与作品集路线

阶段时间目标产出
基础1–2 月DL/CV/NLP 补齐2 个基础 repo
对齐3–4 月CLIP/BLIP 主线复现报告
VLM5–6 月LLaVA/BLIP-2/Qwen-VL微调与评测项目
工程7–8 月文档/图表/多模态 RAGA 级系统
研究9–10 月benchmark 或 failure analysisS 级候选
发布11–12 月整理作品集、投稿/开源portfolio、blog series、workshop/arXiv 尝试

12 个月验收:

  • 3–4 个 GitHub 项目。

  • 2 个 HF demos。

  • 6–10 篇技术博客/复现报告。

  • 1 个 benchmark 或系统评测工具。

  • 1 篇长技术报告或 workshop paper 草稿。


13. 最终建议

1. 第一门课

Stanford CS231n
理由:多模态大模型的视觉侧是硬基础,CS231n 作业和项目最能训练工程与实验能力。

2. 第一个项目

Mini-CLIP Image-Text Retrieval
理由:问题清楚、指标清楚、算力可控、可展示、可扩展。

3. 第一篇复现论文

CLIP: Learning Transferable Visual Models From Natural Language Supervision。(arXiv)

4. 第一篇技术文章

《从零复现 Mini-CLIP:图文对齐、InfoNCE、Recall@K 与失败案例分析》

5. 最应该避免的 5 个坑

  1. 一上来调 LLaVA/Qwen-VL demo,然后误以为懂多模态。

  2. 只看课程,不做可复现实验。

  3. 项目没有 baseline 和指标。

  4. 论文只看中文解读,不读实验表和 appendix。

  5. 同时追太多方向:VLM、视频、音频、Agent、RL、3D、机器人一起学。

6. 当前性价比最高的 work-on list 前 5 项

  1. Mini-CLIP 图文检索复现。

  2. OCR+LLM vs VLM 文档问答评测。

  3. SmolVLM/Qwen2.5-VL 小模型低成本微调比较。

  4. VLM hallucination 中文小 benchmark。

  5. 多模态 RAG for technical documents。


14. 项目验收标准:15 项硬门槛

每个项目最终按以下 checklist 验收:

检查项C 级B 级A 级S 级
问题定义清楚有应用/研究价值可形成新 benchmark/工具
baseline无/弱有简单 baseline多个强 baseline系统公平比较
数据集说明简略split 清楚license/清洗/偏差说明可复用数据卡
指标单指标主指标明确多维指标标准化评测协议
实验记录截图表格WandB/MLflow/config完整可追踪
对比实验公平充分可作为 leaderboard
ablation1–2 个系统消融支撑研究结论
failure cases少量分类分析形成 taxonomy
可运行代码notebookscriptspackage 化可作为工具
环境配置缺失requirementsDocker/condaCI/test
README简单可读复现完整文档优秀
demo本地HF/网页/API被他人使用
第三方复现可尝试基本可复现高可复现
简历价值可写核心亮点
扩展潜力技术报告benchmark/toolpaper/open-source ecosystem

硬规则:没有 baseline、指标、复现说明的项目,不应进入简历核心项目区。


推荐执行顺序

text
Week 1–2: MIT 6.S191 + PyTorch/D2L 快速补齐
Week 3–6: CS231n assignments + CV baseline repo
Week 7–9: CS224n Transformer 重点 + mini Transformer
Week 10–12: Mini-CLIP 复现 + retrieval demo + report
Month 4–6: VQA/ScienceQA + VLM evaluation + 文档图表理解项目
Month 7–12: benchmark / 多模态 RAG / hallucination research track

最重要的判断标准不是“学了多少”,而是:

你能否拿出一个陌生人可以运行、评测、质疑、复现、引用的项目。