Appearance
阶段 0:现在到 2026/04/15
目标:搭好环境,定主线,不再摇摆
你要完成:
安装并熟悉
conda/uv/pip配好 Jupyter / VS Code / Git / GitHub
建一个统一 repo 模板
确定主框架:PyTorch + scikit-learn + LightGBM/CatBoost
确定主学习材料:D2L + fast.ai + PyTorch 官方教程
截止建议:2026/04/15
产出:
1 个环境配置文档
1 个你自己的训练脚手架 repo
1 个最简单的 MNIST / tabular baseline repo
阶段 1:2026/04/15 到 2026/05/31
目标:完成 ML/DL 基础闭环,能独立跑 baseline
你要完成:
D2L 前半部分
PyTorch basics 全跑一遍
fast.ai 至少前 3~4 课
自己从头写 2 个项目:
一个 tabular classification/regression
一个简单 MLP/CNN 训练流程
截止建议:2026/05/31
你应该达到的能力:
会自己写 Dataset / training loop
会做 train/valid split
会记录实验
会保存模型和提交结果
产出:
GitHub 上 至少 3 个干净 repo
每个 repo 都有 README、结果、复现实验步骤
这一步没做完,别急着想论文。
阶段 2:2026/05/01 到 2026/07/31
目标:认真打 2~3 个 Kaggle 比赛,练实验完整性
你可以直接打 Kaggle 的月度 Playground。官方说明它就是轻量、适合练手、每月一场。(Kaggle)
建议你在这个阶段完成:
至少 2 场 Playground
每场都做:
baseline notebook
feature engineering notebook
model comparison notebook
简短复盘文档
截止建议:2026/07/31
量化目标:
至少一次进 前 20%
至少一次做出完整 ensemble
至少一篇像样的 discussion / writeup
你真正要练出来的是:
CV 设计
leakage 防范
feature importance / SHAP / error analysis
notebook 表达能力
阶段 3:2026/06/15 到 2026/09/15
目标:从“比赛选手”转成“研究项目作者”
你要做的不是另起炉灶,而是从你的比赛经验里抽一个研究问题。
推荐你从下面挑一个:
非平稳 tabular/time-series 上的稳健训练
时序 split 下的模型失效检测
表示学习对 structured data 的帮助
ranking objective vs regression objective 的对比
漂移环境下的 online recalibration
截止建议:2026/09/15
到这个时间点,你应该有:
题目
baseline
相关工作列表
初步实验
失败案例分析
产出:
一份 4~6 页的内部 draft
一份实验日志
一份图表初稿
阶段 4:2026/09/15 到 2026/11/15
目标:把项目写成第一版论文
你要完成:
引言
相关工作
方法
实验
ablation
failure analysis
局限性
截止建议:2026/11/15
这时候你要先把论文当成“能发 arXiv/能投 workshop/能给导师看”的版本。
别一开始就幻想顶会 oral。
阶段 5:2026/11/15 到 2027/02/15
目标:投稿、改稿、并行准备求职材料
你要完成:
一版公开可展示的论文稿
一个配套代码仓库
一页项目总结 slide
简历里的量化研究叙事
再打 1~2 个比赛,补充作品集
截止建议:2027/02/15
到这时,你手里最好有:
1 篇在投/已公开预印本
3~5 个强 repo
3 场以上比赛经历
1 个非常能讲的研究项目