Skip to content

resources:

  • 《动手学深度学习》(花书的简化版,免费)

  • Fast.ai的《Practical Deep Learning》课程

  • 吴恩达深度学习专项(Coursera)

  • Stanford CS224N讲座(YouTube)

  • "Attention is All You Need" 论文解读

  • Jay Alammar的博客(超好的Transformer可视化)

  • 李宏毅的Transformer教程(中文,讲得很清楚)

  • Hugging Face官方教程(最好的资源)

  • 《BERT预训练语言模型》论文

  • Hugging Face的course.huggingface.co(免费在线课程)

做项目(2-3个):

  • 项目1:文本分类(用BERT做新闻分类)

  • 项目2:命名实体识别(用预训练模型做中文NER)

  • 项目3:问答系统或对话系统(稍微复杂点的)

  • 核心目标:有3个拿得出手的项目,放到GitHub

  • 各大LLM的技术博客(OpenAI、Anthropic、Meta等)

  • arXiv上的最新论文

  • 李宏毅的LLM课程

  • 各种LLM微调指南

  • 研究方向选择(从下面选一个)

  • 阅读该方向的10-20篇论文

  • 设计实验验证想法

  • 写成论文

大语言模型方向

  • 大模型的微调优化
  • Prompt工程改进
  • LLM的知识增强(RAG)
  • 多模态大模型
  • 大模型的推理能力

热门论文主题:

  • LoRA和参数高效微调(Parameter Efficient Fine-tuning)
  • 知识蒸馏到小模型
  • 量化和模型压缩
  • 指令微调(Instruction Fine-tuning)

3.1 快速入门路线(3-4个月,能找工作)

第1个月:基础深度学习

  • 学习内容:

    • Python编程基础(如果还不会)
    • 深度学习基本概念(神经网络、反向传播、优化器)
    • PyTorch框架基础
  • 学习资源:

  • 学习时间:100-120小时

  • 核心掌握:能用PyTorch实现基本的神经网络

第2个月:NLP基础和Transformer

  • 学习内容:

    • RNN、LSTM、GRU基础
    • 注意力机制(Attention)
    • Transformer架构(这是关键!)
    • 位置编码、多头注意力等细节
  • 学习资源:

  • 学习时间:80-100小时

  • 核心掌握:理解Transformer的原理,能从零实现简单的Transformer

第3个月:预训练模型和微调

  • 学习内容:

    • BERT原理和用法
    • Hugging Face库使用
    • 预训练模型微调
    • 常见NLP任务(分类、序列标注等)
  • 学习资源:

  • 学习时间:80-100小时

  • 核心掌握:能用Hugging Face快速做各种NLP任务

第4个月:做项目和准备面试

  • 学习时间:80-120小时

总计: 340-440小时(约2-3个月全职,或3-4个月兼职)


3.2 深度学习路线(6-8个月,做研究)

前3个月:基础学习(同上)

第4-5个月:高阶概念

  • 学习内容:

    • 大语言模型的原理(GPT如何工作)
    • 微调技术深入(LoRA、QLoRA等)
    • 提示工程(Prompt Engineering)
    • 检索增强生成(RAG)
    • 人类反馈强化学习(RLHF)
  • 学习资源:

  • 学习时间:100-120小时

第6-8个月:做研究

  • 研究方向选择(从下面选一个)
  • 阅读该方向的10-20篇论文
  • 设计实验验证想法
  • 写成论文