AI-Infra: ML System学习计划

用户7013

2024年12月1日修改

AI-Infra是什么?

AI-Infra =  机器学习系统(模型工程) +  支持AI业务的各种基础设施(大数据组件/异构数据库/特征处理组件);​

机器学习系统负责模型的表达,训练,存储,推理,运维;  但是模型想要成为对业务有价值的产品，还需要结合必要的数据采集/处理组件，以及补偿功能, 这些共同实现了一个AI产品; ​

AI-Infra 从技术演进的历史看,起源于对大规模的数据集挖掘(GFS/MapRedeuce), 直到现在的模型工程，再到AI产品;​

一开始互联网应用仅仅是提供信息聚合的能力，但随着应用与人更加频繁的交互，产生大量的数据，只需要通过简单的sql就可以统计出有价值的信息，这些信息让互联网应用产生巨大的价值, 随着业务逐渐复杂，规模的增加，简单的sql已经无法满足需求，各种AI算法(聚类/支持向量机)成为了挖掘数据价值的关键技术，分布式基础设施的完善，更大的算力更多的机器使得神经网络成为数据挖掘的主流算法, 但神经网络的结构千变万化，算法工程师开发神经网络需要 懂算法，懂分布式系统工程，要求非常之高，学习期间(本硕博)很难学到如此精深； 因此如何让算法工程师只关注模型结构，无需关注其他任何落地细节，成为了一个独立的领域，就是机器学习系统;​

算法用python写模型，模型训练和推理需要最大化算力的利用，需要CPP来细粒度的控制异构硬件, 通过将模型抽象为中间态的 DAG计算图，实现了python 表达模型，cpp运行模型; 集合了性能与灵活性, 这就需要一套计算图的编译系统，编译组件会将python编译为计算图，训练就是神经网络的反向传播，推理就是神经网络的前向传播；​

所以需要有一个独立的计算图解释器，能够解释计算图的执行，并且计算图解释器被嵌入训练或推理框架中，实现模型的训练与推理功能，随着模型变得越来越复杂越来越大，如何保障模型在线学习，实时更新就又变得充满挑战； 这就需要一套完整的模型存储机制，以及复杂的分布式集群控制逻辑; ​

一方面我们需要让算法工程师更加灵活的表达模型结构，这就需要提供细粒度的算子抽象，但训练和推理都要追求计算性能，算子粒度越细性能可能就越差，因此编译系统就又多了一个图优化的步骤，需要根据训练与推理的业务要求，对计算图进行优化，以保证算子的合理利用; ​

可以发现机器学习系统在不同业务规模，不同时期其内涵是不断变化的，但无论技术如何演进，AI-Infra的目标却是一致的，因此根据其存在的目的加以定义: ​

❤️

 通过合理利用算力，将数据转换为模型并使模型创造业务价值的系统，就是AI-Infra;​

为什么要学习AI-Infra?

ai-infra 即 人工智能基础设施，在各大公司内部处于核心的战略地位，是一个中台式的组织(极度关注业务，极度理解技术); 为算法工程师提供, 应用人工智能必要的软硬件基础设施;  算法仅需关注模型结构的设计，关注业务指标的效果; 其他一切落地工作均由 AI-Infra负责，可以说 ai infra 作为算法的工作平台，决定了模型效果的天花板; ​

 AI 变得越来越重要，因为AI技术在大规模的降低交易成本, 交易成本的降低让之前无法满足的需求被满足，创造了新需求，新的想象空间;  未来十年AI业务的规模必然空前发展; 基于这个假设, 可知: AI需要比以往任何软件系统都要更加复杂的基础设施，来支持  数据/算力/模型 三者的高效转换。​

         AI-Infra的最终目标就是 使AI技术大规模落地:  使用更大，更多样化的数据集，利用更大更多的异构硬件,压榨出更多算力，表达更多复杂多变的模型结构, 对于AI-Infra 企业更多的业务场景使用AI技术创造价值，就是AI-Infra的价值；  所以AI Infra的价值必须放在企业的视角去看:​

📌

模型驱动产品功能的迭代，产品创造用户价值，用户使用产品产生交易，创造数据与收益，收益带来更多的算力，更多的数据通过算力转换为更强的模型，模型进一步强化产品功能; ​

产品的广告营销成本也是非常高的，但从产品视角看，广告营销未来也是一个高度AI化的产品(字节/腾讯)。​

当然本次分享，仅强调AI-Infra领域的 ML system部分，即模型工程； 事实上AI-Infra还要包括更大范围内的AI基础设施，本次仅讨论其核心部分，后续在逐步扩展;​

Step1: 前置基础

非阻塞:  无需全部学完才能进行下一阶段，可同步学习提高效率 |  阻塞: 必须学完，才能学习下一阶段;​

•

数学基础 = 【非阻塞】+ 【Mathematics for Machine Learning 以本书为大纲去学习】+ 【∞】

•

操作系统 = 【阻塞】+ 【NJU OS(必学)+ UCB CS162(可选)+ MIT6.828(可选)】+ 【500小时】

•

编程基础 = 【阻塞】+ 【CS106L(C++,必学)】+ 【20小时】

•

分布式系统 = 【阻塞】+ 【CS149(并行计算,必学) +MIT6824(分布式系统,可选)】+ 【300小时】

•

数据处理 = 【非阻塞】+ 【Data8+Data100】+ 【100小时】

前置必学基础，至少需要300小时的高质量学习时间, 之前就有相关经验的同学可以跳过掌握的部分;​

🏝️

对于已经工作的人来说,时间是最宝贵的资源,选择与工作最相关的部分开始学习,在工作中使用才是最佳实践​

Step2: ML System 的学习框架

学习从效用的角度可以划分为，工具性学习与目的性学习； 所谓工具性学习是为了提高在本领域做事的正确性及效率，能够解决某个领域的问题； 而目的性学习则是提高你在本领域的判断力;  越到后期，目的性学习越加重要；而目的性学习也往往缺乏体系化的课程去学习，很多时候都要在事上炼，通过这种划分我们也能够发现，如果你仅在工具性学习上投资时间，那么往往你只能在本领域正确的做事，而难以做正确的事; 但工具性学习往往是有门槛的，他需要投入大量的时间去苦练基本功，所以往往是区分行内和行外人的主要标准;  但对于行内人来说，对目的性学习的投资，则是一个分水岭;  目的性学习是需要努力思考而非工作的行动,但思考绝大多数情况却是一无所获,需要克服这种徒劳的困惑;​

		能力模型	基础(超越外行)	进阶(超越内行)
工具性学习	机器学习	• 能手推神经网络(包括常见复杂网络)公式 • 能解释清楚常见机器学习算法原理 • 至少掌握一种业务领域的经典模型结构 • 能够估算常见模型的内存/显存占用/计算量/通信量	有趣/前沿进展 1. 李宏毅机器学习(21/22) 2. 李宏毅机器学习2024 实际应用/案例分析 3. 吴恩达机器学习 4. 吴恩达深度学习	深入/体系化学习 1. 林轩田机器学习基石(国语) 2. 机器学习技法（林轩田） 3. 统计学习方法 (第2版) 4. 深度学习 5. Mathematics for Machine Learning
		模型表达	• 能使用 tensorflow的estimator/keras API 构建模型并完成训练/导出/应用 • 能使用 PyTorch 构建模型并完成训练/导出/应用 • PaddlePaddle 也可以掌握一下，学习资料比较多	1. PyTorch-Chinese/pyTorch-examples 2. Keras 3 API 文档/Keras - examples/estimator教程 3. 机器学习算法竞赛实战	1. Kaggle大数据竞赛 2. 阿里天池大赛 3. 发表论文及技术专利 4. 落地SOTA论文并在工作中拿到收益
		模型训练	• tensorflow/PyTorch/Megatron-LM/DeepSpeed 等主流开源训练框架，熟悉其源码及工作原理 • 部署/运维大规模分布式集群进行分布式模型训练 • 能够对超大规模训练任务进行调试/调优; • 有自主研发/改进现有训练引擎的能力, 推动训练引擎多快好省的持续发展; • 深入理解，在线/离线/流式训练等多个场景的运行原理	1. 训练框架: tensorflow全面介绍/tensorflow原理分析/tensorflow源码阅读/社区/一点 PyTorch 源码阅读心得/Megatron-LM 源码阅读/DeepSpeed 源码阅读/JAX社区官网 2. 分布式系统: 1. 分布式存储系统: HDFS/spark/flink/ray/K8S等大数据/云原生平台 2. 分布式计算系统: 并行(模型/数据)/异步/多机/多卡分布式训练任务 3. 有流式/在线训练系统方面的构建与优化经验 4. 深度学习模型优化与加速: 压缩/蒸馏/量化/剪枝/低秩分解/参数共享等 3. 机器学习范式: 深度学习/强化学习/迁移学习等不同方法	• 选择一个开源社区,为解决其中感兴趣的issues提交代码,逐渐参与开源事业,提交核心PR/发表相应的论文和专利; • 通过对超大规模训练任务(复杂的工业级模型)进行调试/调优,总结出方法论 • 能够自主设计并实现训练引擎核心部分，端到端的完成大规模训练任务 • 跟进最新的机器学习训练范式并落地
		模型导出	• 理解多种模型存储/传输格式的差异,优劣 • 熟悉多种模型存储格式的转换原理,可手写实现 • 能自主研发/改进模型存储/传输格式,改进系统	1. savemodel/onnx/pth 结构分析/各种模型存储格式相互转换工具 2. 了解 ps 架构 / ps 源码/有能力手写一个工业级的PS项目 3. byteps源码 / xdl ps源码/设计一种平台化的模型存储系统
		模型部署	• 理解模型分发/部署的工作流程与原理 • 基于现有业务场景与主要矛盾能够改进分发部署流程/性能 • 对实现跨平台，多端无感知的部署模式，有一定的技术储备	1. BeeGFS / P2P分发 / HDFS 文件系统 2. docker/k8s/SRE/云原生/理解使用流程 3. 对如何加速模型分发速度与稳定性有方案积累 4. 对模型流式更新/在线训练场景下模型部署有方案
		模型推理	• 对模型应用的性能/成本/稳定性/效果最终负责 • 能通过对分布式系统/服务端编程/计算图编译/算子开发等手段改进模型应用的表现 • 熟悉高性能计算领域, CUDA编程,压榨各种异构硬件性能，综合治理模型与硬件异构化与数据多样性所带来的复杂性; • 支持参数量更大,计算更复杂,多机多卡多阶段的复杂模型推理系统建设	1. 异构硬件:GPU架构演进/NVIDIA公开课/昇腾计算/FPGA+ML 2. 异构计算: CUDA 编程：基础与实践/CUDA编程/cuda 大师班 3. AI编译器: MLIR / triton-lang / TVM / XLA / tensRT/OpenAI triton分享 4. 推理框架: tf / pytorch / onnx runtime/TensorRT/https://github.com/NVIDIA/TensorRT-LLM 5. 推理服务: tfserving/trition/Ray Serve/ VLLM / online ps/ 流式更新	• 参与开源项目的建设 • 积累超大规模推理集群的调试/调优经验 • 能够自主设计并实现推理引擎的核心部分，端到端的完成大规模推理任务落地 • 跟进最新的机器学习推理范式并落地 • 在性能/成本/稳定性的基础上,追求技术先进性
		模型运维	• 中心化部署的模型，需要开发者对模型提供持续的运维服务 • 稠密参数/稀疏参数的服务器运维 (全量/流式) * (迁移/扩缩容/回滚/更新/预案) • 熟悉模型SRE pipeline工具链,能自主研发模型系统控制面组件，支持自动化容灾运维机制的建设;	1. 谷歌SRE学习社区 2. MLOPS Zoomcamp 3. Machine Learning Operations (MLOps): Overview, Definition, and Architecture 4. 机器学习系统的工程实践 5. MLOPS 学习清单
目的性学习	业务场景	• 至少精通一种当前主流AI应用端到端全局运行时的构建原理 (搜索/广告/推荐/CV/大模型/AI工具链(审核/理解/打标/风控)) • 能够识别当前业务发展中的主要瓶颈,用技术手段解决,带领业务获得突破 • 将技术本身当作一种业务，以创业者的心态做事(产/运/研视角) • 对一项变更所引发的用户行为的改变有正确的判断	1. 搜/广/推/用增相关业界分享资料 2. twitter 开源的工业界推荐算法 3. 阿里巴巴算法框架 4. 对所在公司的上下游全链路,全面且深入的理解 5. 关键迭代:可信赖的线上对照实验 \| 实验设计与分析	1. 产品豆瓣热门Top10 2. 影响力《从'为什么'开始》 3. 营销《你的顾客需要一个好故事》 4. 事上炼《精益创业》 5. 打造团队《团队协作的五大障碍》
		技术视野	• 能对齐业界最佳实践/能理解学界前沿思想，与自身业界结合找到新的项目增长点，主动规划与落地 • 有跨学科的迁移能力,可以将其他领域成果中有效部分迁移到本领域获得技术突破;	1. 关注近3-5年的论文 -> AI 方向的一些科研工具 2. Github 趋势排行榜 3. 了解其他学科的的学界进展,不要仅局限在计算机/数学/AI等领域	让写作促进跨学科学习: 卡片笔记法 \| 一种生产力引擎
		判断力	• 主动设计技术路线，决定在哪个技术领域投入资源，以求在未来保持团队的技术先进性; • 保持对技术的独立判断，有自己的方法论，能够准确预测技术变化所带来的各个方面的影响，基于此做出合理推断并落地 • 总是能够抓住关键问题，以最小成本解决最大问题,坚持做低成本高收益的事情，在时间/精力成本不变的前提下，产出最大化 • 批判性思维,独立思考,追求正确的反共识的能力，所谓正确的反共识，与大众持有相反且正确的观点; 基于这种观点去做事，往往在未来会取得极高的回报; • 超脱于技术的自我遮蔽性，在更大的领域利用技术取得成就，真正的用技术去塑造社会;	技术判断 1. 尝试规划半年的技术路径,并通过认知升级(阅读/交流)不断调整 2. 参与问题讨论,输出技术判断,找到关键问题并解决通用判断 1. 作出判断并勇于承担后果,大量练习判断并总结方法, 在更通用的场景去锻炼自己的判断力《判断力》 2. 批判性思维:浙江大学/同济大学/学会提问/金字塔原理
		判断力

AI-Infra: ML System学习计划​

AI-Infra: ML System学习计划