Post

A roadmap to learn LLMs from scratch

A roadmap to learn LLMs from scratch

前言

维度与层次

AI大模型技术雷达图从能力角度分为以下几个维度:

  • 大模型基本概念和原理
  • 模型架构
  • 大模型高阶应用
  • 大模型实战
  • 算力 针对这几个维度中众多的技术点,有偏重地推荐为两个层次: 关键知识技能: 表格中标蓝加粗字体为关键的知识技能与技术点; 扩展知识技能: 未标蓝加粗的内容为推荐的扩展内容,在掌握了关键知识技能的基础上,根据业务的不同可以有选择性地挑选学习;

    雷达图的应用建议

  • 知道(1)分:能说清楚是什么,解决什么问题,了解技术对应的社区的使用情况和学习路径。
  • 会用(2)分:实现过对应技术的”QuickStart”,知道技术的适用场景,能照猫画虎实现需求。
  • 熟练(3)分:能够在业务场景中用最佳实践解决问题,形成自己的方法论和套路。
  • 掌握(4)分:熟悉技术背后原理,研究过源码,能够解决疑难问题(故障、性能优化以及扩展)。

大模型基本概念和原理

模型架构

知识技能技术点知道会用熟练掌握
小模型架构小模型架构多层感知机(Multilayer Perceptron, MLP)Long Short-Term Memory, LSTMLeNetAlexNetVGGNetConditional GAN, CGANDeep Convolutional GAN, DCGAN  
大模型架构大型卷积神经网络(Large Convolutional Neural Networks)ResNetInceptionEfficientNet   
 大型循环神经网络(Large Recurrent Neural Networks)深层 LSTM(Deep LSTM)深层 GRU(Deep GRU)   
 TransformersTransformerBERT(Bidirectional Encoder Representations from Transformers)GPT(Generative Pre-trained Transformer)T5(Text-to-Text Transfer Transformer)BART(Bidirectional and Auto-Regressive Transformers)GPT Modelsmulti head机制昇思MindSpore技术公开课·Transformer昇思MindSpore技术公开课·BERT
 大型生成对抗网络(Large Generative Adversarial Networks)StyleGANBigGAN   
 自监督学习模型(Self-Supervised Learning Models)SimCLRMoCoBYOL(Bootstrap Your Own Latent)   
 多模态模型(Multimodal Models)中文多模态数据集「悟空」中文图文表征预训练模型Chinese-CLIP  

大模型高阶应用

大模型实战

This post is licensed under CC BY 4.0 by the author.