Notes and thoughts on research, engineering, and everything in between.
LLM Infra 快速参考卡片
LLM Infra 入门手册:How to Scale Your Model
本章目标:了解 JAX 的并行编程 API,作为理解 TPU 编程范式的补充。如果你主要使用 PyTorch/Megatron,此章可选读。 对应原书:Chapter 10 (Programming TPUs in JAX...
本章目标:了解如何使用 Profiler 定位训练/推理中的性能瓶颈,包括 XLA/JAX profiler 和 NVIDIA 工具。 对应原书:Chapter 9 (How to Profile TPU Programs...
本章目标:将推理理论应用到 LLaMA 3-70B 的实际 serving 中,分析延迟/吞吐量权衡,给出 SGLang 的实际部署配置。 对应原书:Chapter 8 (Serving LLaMA 3-70B on TP...
本章目标:掌握现代 LLM 推理引擎的核心优化技术,理解它们各自解决什么问题,以及如何设计一个高效的推理系统。 对应原书:Chapter 7 (All About Transformer Inference) 下半部分 优...
本章目标:理解 LLM 推理的两个阶段(Prefill 和 Generation)为何性能特性完全不同,掌握推理中的核心瓶颈和关键指标。 对应原书:Chapter 7 (All About Transformer Infe...
本章目标:将前几章的理论应用到具体模型(LLaMA 3)上,做端到端的训练配置推演和成本估算。 对应原书:Chapter 6 (Training LLaMA 3 on TPUs) 优先级:⭐⭐ 中 | 建议时间:Day 9...
本章目标:掌握 LLM 训练的四大并行策略,理解每种策略的通信开销推导、适用场景和最优组合方式。 对应原书:Chapter 5 (How to Parallelize a Transformer for Training)...
本章目标:精确计算 Transformer 每一层的参数量、FLOPs 和内存占用,建立”Transformer = 一系列已知大小的矩阵乘法”的量化直觉。 对应原书:Chapter 4 (All the Transfor...
本章目标:理解当矩阵被分片到多个设备上时,如何高效地完成矩阵乘法,以及不同分片方式对通信开销的影响。 对应原书:Chapter 3 (Sharded Matrices and How to Multiply Them) 优...
本章目标:理解分布式训练/推理中最常用的几种通信操作(AllReduce、AllGather、ReduceScatter、AllToAll),以及它们的时间开销。 对应原书:Chapter 3 (Sharded Matri...
本章目标:理解多芯片如何连接成集群,不同互联方式(ICI/NVLink/InfiniBand/DCN)的带宽差异,以及拓扑结构如何影响并行策略。 对应原书:Chapter 2 (TPU Networking) + Chap...
本章目标:理解加速器内部的内存层级(HBM → Cache → 计算单元),以及数据搬运如何成为性能瓶颈。 对应原书:Chapter 2 (TPU internals) + Chapter 12 (GPU memory) ...
本章目标:掌握 Roofline 模型——用一个简单框架判断任何算法在硬件上是”算力瓶颈”还是”带宽瓶颈”,并通过大量习题建立定量分析直觉。 对应原书:Chapter 1 (All About Rooflines) 建议时...
本章目标:理解现代 ML 加速器(GPU/TPU)的核心组成部件,建立”芯片 = 计算单元 + 内存”的心智模型。 对应原书:Chapter 2 (TPUs) + Chapter 12 (GPUs) 优先级:⭐⭐⭐ 高 |...