LLM Infra 入门手册：How to Scale Your Model

基于 Google DeepMind《How to Scale Your Model》定制化中文导读
面向背景：预训练研究员 | 熟悉 Scaling Law / 数据管线 / 模型架构
工具栈：训练用 Megatron-LM，推理用 SGLang

学习路线图（13天）

Day	章节	优先级	预计时间
1-2	第1章：硬件基础 — GPU 与 TPU 是什么	⭐⭐⭐	3h
2	第2章：性能分析基石 — Roofline 模型	⭐⭐⭐	2h
3	第3章：内存层级与带宽 — 数据如何流动	⭐⭐⭐	2h
3-4	第4章：芯片互联与集群拓扑	⭐⭐⭐	2.5h
4	第5章：Sharded Matrices 上篇 — 集合通信原语	⭐⭐⭐	2h
5	第6章：Sharded Matrices 下篇 — 分片矩阵乘法	⭐⭐⭐	3h

Day	章节	优先级	预计时间
6	第7章：Transformer FLOPs/参数量/内存精确计算	⭐⭐	2.5h
7-8	第8章：训练并行策略 — DP/FSDP/TP/PP	⭐⭐⭐	4h
9	第9章：实战 — 训练 LLaMA 3 的分片决策	⭐⭐	2h
9-10	第10章：推理基础 — Prefill vs Generation	⭐⭐⭐	3h
10-11	第11章：推理优化 — KV Cache / Batching / 量化	⭐⭐⭐	3h
11-12	第12章：实战 — Serving LLaMA 3	⭐⭐	2h
13	第13章：性能调优 — Profiling 与调试	⭐	2h

本手册中的标记含义：

📋 背景知识 — 你可能不了解的前置概念

🔗 与你的联系 — 将新概念与你已有的 CV/预训练经验关联

🛠️ 实践：Megatron — 该知识点在 Megatron-LM 中的对应实现和使用技巧

🛠️ 实践：SGLang — 该知识点在 SGLang 推理引擎中的对应实现