Learning Notes

Notes and thoughts on research, engineering, and everything in between.

2026

LLM Infra 快速参考卡片

LLM Infra 快速参考卡片

May 06
LLM Infra Scaling

LLM Infra 入门手册:How to Scale Your Model — 中文导读

LLM Infra 入门手册:How to Scale Your Model

May 06
LLM Infra Scaling

Scaling Book 入门第 14 章:JAX 并行编程入门(选读)

本章目标:了解 JAX 的并行编程 API,作为理解 TPU 编程范式的补充。如果你主要使用 PyTorch/Megatron,此章可选读。 对应原书:Chapter 10 (Programming TPUs in JAX...

May 06
LLM Infra Scaling

Scaling Book 入门第 13 章:性能调优 — Profiling 与调试

本章目标:了解如何使用 Profiler 定位训练/推理中的性能瓶颈,包括 XLA/JAX profiler 和 NVIDIA 工具。 对应原书:Chapter 9 (How to Profile TPU Programs...

May 06
LLM Infra Scaling

Scaling Book 入门第 12 章:实战 — Serving LLaMA 3

本章目标:将推理理论应用到 LLaMA 3-70B 的实际 serving 中,分析延迟/吞吐量权衡,给出 SGLang 的实际部署配置。 对应原书:Chapter 8 (Serving LLaMA 3-70B on TP...

May 06
LLM Infra Scaling

Scaling Book 入门第 11 章:推理优化 — KV Cache / Continuous Batching / 量化

本章目标:掌握现代 LLM 推理引擎的核心优化技术,理解它们各自解决什么问题,以及如何设计一个高效的推理系统。 对应原书:Chapter 7 (All About Transformer Inference) 下半部分 优...

May 06
LLM Infra Scaling

Scaling Book 入门第 10 章:推理基础 — Prefill vs Generation

本章目标:理解 LLM 推理的两个阶段(Prefill 和 Generation)为何性能特性完全不同,掌握推理中的核心瓶颈和关键指标。 对应原书:Chapter 7 (All About Transformer Infe...

May 06
LLM Infra Scaling

Scaling Book 入门第 9 章:实战 — 训练 LLaMA 3 的分片决策

本章目标:将前几章的理论应用到具体模型(LLaMA 3)上,做端到端的训练配置推演和成本估算。 对应原书:Chapter 6 (Training LLaMA 3 on TPUs) 优先级:⭐⭐ 中 | 建议时间:Day 9...

May 06
LLM Infra Scaling

Scaling Book 第 8 章:训练并行策略 — DP / FSDP / TP / PP

本章目标:掌握 LLM 训练的四大并行策略,理解每种策略的通信开销推导、适用场景和最优组合方式。 对应原书:Chapter 5 (How to Parallelize a Transformer for Training)...

May 06
LLM Infra Scaling

Scaling Book 入门第 7 章:Transformer FLOPs/参数量/内存精确计算

本章目标:精确计算 Transformer 每一层的参数量、FLOPs 和内存占用,建立”Transformer = 一系列已知大小的矩阵乘法”的量化直觉。 对应原书:Chapter 4 (All the Transfor...

May 06
LLM Infra Scaling

Scaling Book 入门第 6 章:分片矩阵乘法 — 分布式计算的核心

本章目标:理解当矩阵被分片到多个设备上时,如何高效地完成矩阵乘法,以及不同分片方式对通信开销的影响。 对应原书:Chapter 3 (Sharded Matrices and How to Multiply Them) 优...

May 06
LLM Infra Scaling

Scaling Book 入门第 5 章:集合通信原语

本章目标:理解分布式训练/推理中最常用的几种通信操作(AllReduce、AllGather、ReduceScatter、AllToAll),以及它们的时间开销。 对应原书:Chapter 3 (Sharded Matri...

May 06
LLM Infra Scaling

Scaling Book 入门第 4 章:芯片互联与集群拓扑

本章目标:理解多芯片如何连接成集群,不同互联方式(ICI/NVLink/InfiniBand/DCN)的带宽差异,以及拓扑结构如何影响并行策略。 对应原书:Chapter 2 (TPU Networking) + Chap...

May 06
LLM Infra Scaling

Scaling Book 入门第 3 章:内存层级与带宽 — 数据如何流动

本章目标:理解加速器内部的内存层级(HBM → Cache → 计算单元),以及数据搬运如何成为性能瓶颈。 对应原书:Chapter 2 (TPU internals) + Chapter 12 (GPU memory) ...

May 06
LLM Infra Scaling

Scaling Book 第 2 章:性能分析基石 — Roofline 模型

本章目标:掌握 Roofline 模型——用一个简单框架判断任何算法在硬件上是”算力瓶颈”还是”带宽瓶颈”,并通过大量习题建立定量分析直觉。 对应原书:Chapter 1 (All About Rooflines) 建议时...

May 06
LLM Infra Scaling

Scaling Book 入门第 1 章:硬件基础 — GPU 与 TPU 是什么

本章目标:理解现代 ML 加速器(GPU/TPU)的核心组成部件,建立”芯片 = 计算单元 + 内存”的心智模型。 对应原书:Chapter 2 (TPUs) + Chapter 12 (GPUs) 优先级:⭐⭐⭐ 高 |...

May 06
LLM Infra Scaling