用户7013用户7013 | | 能力模型 | 基础(超越外行) | 进阶(超越内行) | |
工具性学习 | 机器学习 | • 能手推神经网络(包括常见复杂网络)公式 • 能解释清楚常见机器学习算法原理 • 至少掌握一种业务领域的经典模型结构 • 能够估算常见模型的内存/显存占用/计算量/通信量 | |||
| 模型表达 | • 能使用 tensorflow的estimator/keras API 构建模型并完成训练/导出/应用 • 能使用 PyTorch 构建模型并完成训练/导出/应用 • PaddlePaddle 也可以掌握一下,学习资料比较多 | |||
| 模型训练 | • tensorflow/PyTorch/Megatron-LM/DeepSpeed 等主流开源训练框架,熟悉其源码及工作原理 • 部署/运维大规模分布式集群进行分布式模型训练 • 能够对超大规模训练任务进行调试/调优; • 有自主研发/改进现有训练引擎的能力, 推动训练引擎多快好省的持续发展; • 深入理解,在线/离线/流式训练等多个场景的运行原理 | 3. 机器学习范式: 深度学习/强化学习/迁移学习等不同方法 | • 选择一个开源社区,为解决其中感兴趣的issues提交代码,逐渐参与开源事业,提交核心PR/发表相应的论文和专利; • 通过对超大规模训练任务(复杂的工业级模型)进行调试/调优,总结出方法论 • 能够自主设计并实现训练引擎核心部分,端到端的完成大规模训练任务 • 跟进最新的机器学习训练范式并落地 | |
| 模型导出 | • 理解多种模型存储/传输格式的差异,优劣 • 熟悉多种模型存储格式的转换原理,可手写实现 • 能自主研发/改进模型存储/传输格式,改进系统 | | ||
| 模型部署 | • 理解模型分发/部署的工作流程与原理 • 基于现有业务场景与主要矛盾能够改进分发部署流程/性能 • 对实现跨平台,多端无感知的部署模式,有一定的技术储备 | 1. BeeGFS / P2P分发 / HDFS 文件系统 2. docker/k8s/SRE/云原生/理解使用流程 3. 对如何加速模型分发速度与稳定性有方案积累 4. 对模型流式更新/在线训练场景下模型部署有方案 | | |
| 模型推理 | • 对模型应用的 性能/成本/稳定性/效果 最终负责 • 能通过对分布式系统/服务端编程/计算图编译/算子开发 等手段改进模型应用的表现 • 熟悉高性能计算领域, CUDA编程,压榨各种异构硬件性能,综合治理模型与硬件异构化与数据多样性所带来的复杂性; • 支持参数量更大,计算更复杂,多机多卡多阶段的复杂模型推理系统建设 | 2. 3. 4. | • 参与开源项目的建设 • 积累超大规模推理集群的调试/调优经验 • 能够自主设计并实现推理引擎的核心部分,端到端的完成大规模推理任务落地 • 跟进最新的机器学习推理范式并落地 • 在性能/成本/稳定性的基础上,追求技术先进性 | |
| 模型运维 | • 中心化部署的模型,需要开发者对模型提供持续的运维服务 • 稠密参数/稀疏参数的服务器运维 (全量/流式) * (迁移/扩缩容/回滚/更新/预案) • 熟悉模型SRE pipeline工具链,能自主研发模型系统控制面组件,支持自动化容灾运维机制的建设; | | ||
目的性学习 | 业务场景 | • 至少精通一种当前主流AI应用端到端全局运行时的构建原理 (搜索/广告/推荐/CV/大模型/AI工具链(审核/理解/打标/风控)) • 能够识别当前业务发展中的主要瓶颈,用技术手段解决,带领业务获得突破 • 将技术本身当作一种业务,以创业者的心态做事(产/运/研视角) • 对一项变更所引发的用户行为的改变有正确的判断 | 3. 4. 对所在公司的上下游全链路,全面且深入的理解 5. | ||
| 技术视野 | • 能对齐业界最佳实践/能理解学界前沿思想,与自身业界结合找到新的项目增长点,主动规划与落地 • 有跨学科的迁移能力,可以将其他领域成果中有效部分迁移到本领域获得技术突破; | |||
| 判断力 | • 主动设计技术路线,决定在哪个技术领域投入资源,以求在未来保持团队的技术先进性; • 保持对技术的独立判断,有自己的方法论,能够准确预测技术变化所带来的各个方面的影响,基于此做出合理推断并落地 • 总是能够抓住关键问题,以最小成本解决最大问题,坚持做低成本高收益的事情,在时间/精力成本不变的前提下,产出最大化 • 批判性思维,独立思考,追求正确的反共识的能力,所谓正确的反共识,与大众持有相反且正确的观点; 基于这种观点去做事,往往在未来会取得极高的回报; • 超脱于技术的自我遮蔽性,在更大的领域利用技术取得成就,真正的用技术去塑造社会; | | ||
| | | | | |
| |||||