GPU 推理速度计算器 · TPS Calculator
在线估算大语言模型(LLM)在各类 GPU 上的推理速度(TPS)、显存占用与延迟的免费工具。支持 348+ 主流开源模型,覆盖 170+ GPU。
核心功能
- TPS 估算:Decode/Prefill 每秒 Token 数,支持多框架效率建模
- 显存计算:权重占用、KV Cache、系统开销及 OOM 风险预警
- 延迟指标:TTFT(首 Token 时延)、TPOT(每输出 Token 时延)、端到端总延迟
- Roofline 分析:识别推理瓶颈(带宽受限 vs 算力受限)
- 多卡支持:Tensor Parallel 通信效率建模
- 模型排行榜:给定 GPU,一键查看所有模型速度排名
支持的 GPU
覆盖 170+ GPU,包括 NVIDIA H100/A100/H200/RTX 4090、AMD MI300X/RX 7900 XTX、Apple M1/M2/M3/M4 全系列、Intel Gaudi 2/3、昇腾 910B/910C 等国产芯片。
支持的模型
覆盖 348+ 主流开源模型:DeepSeek-R1(671B MoE)、DeepSeek-V3、Qwen3(0.6B–235B)、Qwen2.5、Llama 3.1/3.2/3.3(1B–405B)、Gemma 2/3、Mistral/Mixtral、ChatGLM/GLM-4、Baichuan、Yi、Falcon、Phi、Bloom 等。
支持的量化精度
FP32、BF16、FP16、FP8、INT8、INT4、Q6_K、Q5_K、Q4_K、Q3_K、Q2_K、INT2
支持的推理框架
vLLM、TensorRT-LLM、llama.cpp、MLX、SGLang、TGI(Text Generation Inference)