Colossal-AI多节点训练实战
环境准备 使用双节点(90.91.33.64,90.91.33.65)训练,需在每个节点上部署相同的环境。 环境 CUDA=11.3 Python = 3.9.17 Pytorch = 1.11.0 创建虚拟环境 conda create -n colossal-AI python=3.9 安装Pytorch conda install pytorch==1.11.0 to...
环境准备 使用双节点(90.91.33.64,90.91.33.65)训练,需在每个节点上部署相同的环境。 环境 CUDA=11.3 Python = 3.9.17 Pytorch = 1.11.0 创建虚拟环境 conda create -n colossal-AI python=3.9 安装Pytorch conda install pytorch==1.11.0 to...
Calculon介绍 什么是Calculon? Calulon是LLM的参数化分析性能模型,用于指导high-level算法架构协同设计研究。 Calculon的性能 可以在大约1毫秒内估计给定LLM、系统配置和软件执行策略的时间和资源使用情况,允许探索具有数十亿这样的配置的大型设计空间。 Calculon使用什么技术? Calculon使用张量并行(TP)、管道并行(PP)和数...
Ceph是一个对象(Object)式存储系统,它把每一个待管理的数据流(例如一个文件)切分为一到多个固定大小的对象数据,并以其为原子单元完成数据存取。 Ceph架构 RADOS: 对象数据的底层存储服务,是由多个主机(host)组成的存储集群; LIBRADOS:是RADOS存储集群的API,它支持C、C++、Java、Python、Ruby和PH...
Ceph介绍 Ceph存储简介 Ceph是一个可靠、自动均衡、自动恢复的分布式存储系统,通常可用于对象存储,块设备存储和文件系统存储。 Ceph在存储的时候充分利用存储节点的计算能力,在存储每一个数据时都会通过计算得出该数据的位置,尽量的分布均衡。 Ceph存储组件 Ceph核心组件包括: OSD Monitor MDS OSD:英文全称为Object Stora...
人工智能系统 近年来,人工智能特别是深度学习技术得到了飞速发展,这背后离不开计算机硬件和软件系统的不断进步。在可见的未来,人工智能技术的发展仍将依赖于计算机系统和人工智能相结合的共同创新模式。需要注意的是,计算机系统现在正以更大的规模和更高的复杂性来赋能于人工智能,这背后不仅需要更多的系统上的创新,更需要系统性的思维和方法论。与此同时,人工智能也反过来为设计复杂系统提供支持。其中,“AI ...
Intro to Large Language Models 在讲大语言模型之前首先讲讲什么是语言模型吧! 什么是语言模型? 语言模型是一种机器学习模型,旨在预测和生成合理的语言。例如,语句自动补全背后就是语言模型。这些模型用来估计一个token或一系列token在一个较长的token序列中出现的概率。考虑下面的句子: When I hear rain on my roof, I _...
Restful风格 REST 成熟度模型 参考: https://martinfowler.com/articles/richardsonMaturityModel.html URI命名围绕资源进行设计 用http方法表示动作: GET,POST,PUT,DELETE,PATCH 资源名称简短有意义(但不是简写),是具体的,不是抽象的 ✔️/users 、 /role...
概述 为实现“统一技术栈、安全、高效上云&用云”,为应用现代化使能,Meta系列产品统一构建SaaS Foundation。 CRM 公共业务服务 作为 Meta SaaS Foundation 针对 CRM产品的补充,针对CRM的共性需求构建出的一组公共数据、公共能力及增值业务的服务。 CRM 公共业务服务 是Meta CRM所有Cloud的开发时的公共底座与运行时依赖的公共...
Hello world!
前言 维度与层次 AI大模型技术雷达图从能力角度分为以下几个维度: 大模型基本概念和原理 模型架构 大模型高阶应用 大模型实战 算力 针对这几个维度中众多的技术点,有偏重地推荐为两个层次: 关键知识技能: 表格中标蓝加粗字体为关键的知识技能与技术点; 扩展知识技能: 未标蓝加粗的内容为推荐的扩展内容,在掌握了关键知识技能的基础上,根据业务的不同可以有选择性地挑选学习;...