Blog | Huabin Liu

Why Muon Works

调研 Muon 优化器为什么能 work、相比 AdamW 的优劣、开源大模型如何使用 Muon，以及在 Megatron 中落地 Muon 的工程要点。

Jul 07 13 min

Pretraining Optimizer Megatron

从 DFlash 到 dLLM Self-Spec（四）：Self-Spec dLLM & AR Uni-Model

从 I-DLM 和 Nemotron tri-mode 出发，分析 dLLM / AR unified model 如何在同一个模型内实现 self-spec，以及 serving 侧的 KV、scheduler 和 phase switching 瓶颈。

Jun 29 17 min

Infra Speculative Decoding dLLM

从 DFlash 到 dLLM Self-Spec（三）：DSpark 的半自回归 Draft 与负载感知 Verify

结合 DeepSeek DSpark、DeepSpec 代码和论文，解释半自回归 draft 与 confidence-scheduled verification 如何服务化。

Jun 29 11 min

Infra Speculative Decoding

从 DFlash 到 dLLM Self-Spec（二）：SGLang Spec V2 实现剖析

结合 SGLang Spec V2 源码路径，拆解 DFlash decode、target verify、KV injection、overlap、FutureMap 和 KV over-allocation 如何协同。

Jun 29 7 min

Infra Speculative Decoding SGLang

从 DFlash 到 dLLM Self-Spec（一）：算法收益如何落到 Serving 加速

从 DFlash 的 block draft、target verify、KV injection 和 SGLang Spec V2 出发，解释投机解码的算法收益如何在真实 serving 中兑现。

Jun 29 14 min

Infra Speculative Decoding

Towards Better Tokenizer (3): 固定分词之外，最新 Tokenizer 研究在关心什么

梳理 2026 年 tokenizer 相关研究趋势：模型与 tokenizer co-design、tokenizer-free、动态 tokenization、多语种 token tax、旧 tokenizer 适配、工具/图/action tokenization 和多模态接口。

Jun 22 8 min

Tokenizer survey Pretraining

Towards Better Tokenizer (4): 多模态大模型如何把世界变成 Token

从 image token、audio token、video token、media placeholder、processor、position encoding 和原生多模态设计出发，讨论多模态大模型 tokenizer 的设计取舍。

Jun 22 19 min

Tokenizer Multimodal Pretraining

Towards Better Tokenizer (2): Agentic Tokenizer，工具调用、思考过程与模型协议

从工具调用、thinking token、chat template 和 parser 的角度，分析 agentic 模型为什么需要自己的 tokenizer 协议，以及 Qwen、DeepSeek、GLM、Kimi、MiMo、Gemma 的设计差异。

Jun 22 12 min

Tokenizer Agent Pretraining

2025-2026开源LLM演进综述：From Scaling to Agentic system

梳理 2025-2026 年开源、开放权重和开放报告 LLM 在 MoE、长上下文、RL、Agentic 系统和多模态方向的演进。

Jun 13 88 min

survey

Towards Better Tokenizer (1): 如何设计一个好的 Tokenizer

从压缩率、训练效率、工程兼容性、协议表达和长期演进能力出发，总结面向中文、代码、长上下文和 Agent 模型的 tokenizer 设计方法。

Jun 13 11 min

Tokenizer Pretraining

LLM Infra 快速参考卡片

May 06 1 min

Infra Scaling Book

LLM Infra 入门手册：How to Scale Your Model — 中文导读

LLM Infra 入门手册：How to Scale Your Model

May 06 1 min

Infra Scaling Book

Scaling Book 入门第 13 章：性能调优 — Profiling 与调试

本章目标：了解如何使用 Profiler 定位训练/推理中的性能瓶颈，包括 XLA/JAX profiler 和 NVIDIA 工具。对应原书：Chapter 9 (How to Profile TPU Programs) 改写范围...

May 06 12 min

Infra Scaling Book

Scaling Book 入门第 12 章：实战 — Serving LLaMA 3

本章目标：将推理理论应用到 LLaMA 3-70B 的实际 serving 中，分析延迟/吞吐量权衡，给出 SGLang 的实际部署配置。对应原书：Chapter 8 (Serving LLaMA 3-70B on TPUs) 改写...

May 06 14 min

Infra Scaling Book

Scaling Book 入门第 11 章：推理优化 — KV Cache / Continuous Batching / 量化

本章目标：掌握现代 LLM 推理引擎的核心优化技术，理解它们各自解决什么问题，以及如何设计一个高效的推理系统。对应原书：Chapter 7 (All About Transformer Inference) 下半部分改写范围：承接...

May 06 12 min

Infra Scaling Book

Scaling Book 入门第 10 章：推理基础 — Prefill vs Generation

本章目标：理解 LLM 推理的两个阶段（Prefill 和 Generation）为何性能特性完全不同，掌握推理中的核心瓶颈和关键指标。对应原书：Chapter 7 (All About Transformer Inference)...

May 06 14 min

Infra Scaling Book

Scaling Book 入门第 9 章：实战 — 训练 LLaMA 3 的分片决策

本章目标：将前几章的理论应用到具体模型（LLaMA 3）上，做端到端的训练配置推演和成本估算。对应原书：Chapter 6 (Training LLaMA 3 on TPUs) 改写范围：原书案例基于 TPU；这里保留 LLaMA ...

May 06 11 min

Infra Scaling Book

Scaling Book 第 8 章：训练并行策略 — DP / FSDP / TP / PP

本章目标：掌握 LLM 训练的四大并行策略，理解每种策略的通信开销推导、适用场景和最优组合方式。对应原书：Chapter 5 (How to Parallelize a Transformer for Training) 改写范围：...

May 06 12 min

Infra Scaling Book

Scaling Book 入门第 7 章：Transformer FLOPs/参数量/内存精确计算

本章目标：精确计算 Transformer 每一层的参数量、FLOPs 和内存占用，建立”Transformer = 一系列已知大小的矩阵乘法”的量化直觉。对应原书：Chapter 4 (All the Transformer Ma...

May 06 13 min

Infra Scaling Book

Scaling Book 入门第 6 章：Sharded Matrices 下篇 — 分片矩阵乘法

本章目标：承接第 5 章的通信原语，理解当矩阵被分片到多个设备上时，如何高效完成矩阵乘法，以及不同分片方式为什么会触发 AllGather、ReduceScatter 或 AllReduce。对应原书：Chapter 3 (Shar...

May 06 11 min

Infra Scaling Book

Scaling Book 入门第 5 章：Sharded Matrices 上篇 — 集合通信原语

本章目标：先把分布式计算里的通信”积木”讲清楚：AllReduce、AllGather、ReduceScatter、AllToAll 分别做什么，以及它们的时间开销如何估算。下一章再把这些积木组合成分片矩阵乘法。对应原书：Chapt...

May 06 13 min

Infra Scaling Book

Scaling Book 入门第 4 章：芯片互联与集群拓扑

本章目标：理解多芯片如何连接成集群，不同互联方式（ICI/NVLink/InfiniBand/DCN）的带宽差异，以及拓扑结构如何影响并行策略。对应原书：Chapter 2 (TPU Networking) + Chapter 12...

May 06 15 min

Infra Scaling Book

Scaling Book 入门第 3 章：内存层级与带宽 — 数据如何流动

本章目标：理解加速器内部的内存层级（HBM → Cache → 计算单元），以及数据搬运如何成为性能瓶颈。对应原书：Chapter 2 (TPU internals) + Chapter 12 (GPU memory) 改写范围：原...

May 06 13 min

Infra Scaling Book

Scaling Book 第 2 章：性能分析基石 — Roofline 模型

本章目标：掌握 Roofline 模型——用一个简单框架判断任何算法在硬件上是”算力瓶颈”还是”带宽瓶颈”，并通过大量习题建立定量分析直觉。对应原书：Chapter 1 (All About Rooflines) 改写范围：基本沿原...

May 06 14 min

Infra Scaling Book

Scaling Book 入门第 1 章：硬件基础 — GPU 与 TPU 是什么

本章目标：理解现代 ML 加速器（GPU/TPU）的核心组成部件，建立”芯片 = 计算单元 + 内存”的心智模型。对应原书：Chapter 2 (TPUs) + Chapter 12 (GPUs) 改写范围：原书主线是 TPU 硬件...

May 06 16 min

Infra Scaling Book

Learning Notes

2026

Why Muon Works

从 DFlash 到 dLLM Self-Spec（四）：Self-Spec dLLM & AR Uni-Model

从 DFlash 到 dLLM Self-Spec（三）：DSpark 的半自回归 Draft 与负载感知 Verify

从 DFlash 到 dLLM Self-Spec（二）：SGLang Spec V2 实现剖析

从 DFlash 到 dLLM Self-Spec（一）：算法收益如何落到 Serving 加速

Towards Better Tokenizer (3): 固定分词之外，最新 Tokenizer 研究在关心什么

Towards Better Tokenizer (4): 多模态大模型如何把世界变成 Token

Towards Better Tokenizer (2): Agentic Tokenizer，工具调用、思考过程与模型协议

2025-2026开源LLM演进综述：From Scaling to Agentic system

Towards Better Tokenizer (1): 如何设计一个好的 Tokenizer

LLM Infra 快速参考卡片

LLM Infra 入门手册：How to Scale Your Model — 中文导读

Scaling Book 入门第 13 章：性能调优 — Profiling 与调试

Scaling Book 入门第 12 章：实战 — Serving LLaMA 3

Scaling Book 入门第 11 章：推理优化 — KV Cache / Continuous Batching / 量化

Scaling Book 入门第 10 章：推理基础 — Prefill vs Generation

Scaling Book 入门第 9 章：实战 — 训练 LLaMA 3 的分片决策

Scaling Book 第 8 章：训练并行策略 — DP / FSDP / TP / PP

Scaling Book 入门第 7 章：Transformer FLOPs/参数量/内存精确计算

Scaling Book 入门第 6 章：Sharded Matrices 下篇 — 分片矩阵乘法

Scaling Book 入门第 5 章：Sharded Matrices 上篇 — 集合通信原语

Scaling Book 入门第 4 章：芯片互联与集群拓扑

Scaling Book 入门第 3 章：内存层级与带宽 — 数据如何流动

Scaling Book 第 2 章：性能分析基石 — Roofline 模型

Scaling Book 入门第 1 章：硬件基础 — GPU 与 TPU 是什么