# TPS Calculator — GPU 推理速度计算器 > 在线估算大语言模型(LLM)在各类 GPU 上的推理速度(TPS)、显存占用与延迟的免费工具。支持 348+ 主流开源模型,覆盖 170+ GPU。 TPS Calculator 是一款面向 AI 工程师、研究人员和开发者的 GPU 推理性能估算工具。用户无需实际部署,即可快速得到给定 GPU + 模型 + 量化精度组合下的性能预估数据,辅助硬件选型、成本预估和部署方案设计。 ## 核心功能 - **TPS 估算**:Decode/Prefill 每秒 Token 数(token/s),支持多框架效率建模 - **显存计算**:权重占用、KV Cache、系统开销,以及 OOM 风险预警 - **延迟指标**:TTFT(首 Token 时延)、TPOT(每输出 Token 时延)、端到端总延迟 - **Roofline 分析**:识别推理瓶颈(带宽受限 vs 算力受限) - **多卡支持**:Tensor Parallel 通信效率建模 - **模型排行榜**:给定 GPU 配置,一键查看所有模型的可运行速度排名 ## 支持范围 ### GPU 覆盖 170+ GPU,包括: - **NVIDIA**:H100 SXM/PCIe、A100、H200、RTX 4090/4080/4070、L40S、L4、T4 等 - **AMD**:RX 7900 XTX、MI300X、MI250X 等 - **Apple Silicon**:M1/M2/M3/M4 全系列 - **Intel**:Arc A770、Gaudi 2/3 等 - **国产芯片**:昇腾 910B/910C、天数 TU140、沐曦 C500 等 ### 模型 覆盖 348+ 主流开源模型,包括: - **DeepSeek 系列**:DeepSeek-R1(671B MoE)、DeepSeek-V3、DeepSeek-R1-Distill 全系列 - **Qwen 系列**:Qwen3(0.6B–235B)、Qwen2.5、QwQ-32B 等 - **Meta Llama 系列**:Llama 3.1/3.2/3.3(1B–405B) - **Google 系列**:Gemma 2/3(2B–27B)、Gemini 等 - **Mistral / Mixtral 系列** - **GLM 系列**:ChatGLM、GLM-4、GLM-Z1 等 - **Baichuan、Yi、Falcon、Phi、Bloom** 等百余款模型 ### 量化精度 FP32、BF16、FP16、FP8、INT8、INT4、Q6_K、Q5_K、Q4_K、Q3_K、Q2_K、INT2 ### 推理框架 vLLM、TensorRT-LLM、llama.cpp、MLX、SGLang、TGI(Text Generation Inference) ## 页面结构 - [首页 / 计算器](https://tps.bunai.com/):输入 GPU + 模型 + 参数,即时估算推理性能 - [模型排行榜](https://tps.bunai.com/ranking):给定 GPU,查看所有可运行模型的速度排名 - [支持列表](https://tps.bunai.com/library):查询已支持的所有 GPU 和模型的详细参数 ## 常见问题 **TPS 是什么?** TPS(Tokens Per Second)即每秒生成的 Token 数量,是衡量 LLM 推理速度的核心指标。TPS 越高,模型响应越快。相关指标还有 TTFT(首 Token 延迟)和 TPOT(每输出 Token 延迟)。 **DeepSeek-R1 671B 需要多少显存?在 H100 上跑多快?** DeepSeek-R1(671B MoE)BF16 精度约需 1342 GB 显存,FP8 量化约需 671 GB(8 张 H100 SXM),INT4 量化约需 336 GB。8 张 H100 SXM FP8 精度下 vLLM Decode TPS 约 200–400 token/s(batch=1)。 **DeepSeek-V3 685B 在 H100 上的推理速度?** DeepSeek-V3(685B MoE)在 8 张 H100 SXM FP8 下,vLLM Decode TPS 约 150–350 token/s。其 MLA 注意力机制使 KV Cache 显存占用极低,可支持更长上下文。 **Llama 3.1 70B 在 A100 上推理速度?** Llama-3.1-70B 在单张 A100 80GB(INT4 量化,约 35 GB)vLLM Decode TPS 约 400–600 token/s;BF16 需 2 张 A100。 **Llama 3.3 70B 在 RTX 4090 上能运行吗?** 单张 RTX 4090(24 GB)无法运行 INT4(约 35 GB),需 2 张或使用 Q3_K(约 24 GB)勉强放入,llama.cpp 约 30–50 token/s。 **Qwen3 235B 在 H100 上的速度?** Qwen3-235B-A22B(MoE,激活参数 22B)在 4 张 H100 SXM BF16 下,vLLM Decode TPS 约 300–600 token/s。 **Qwen2.5 72B 在 A100 上的速度?** Qwen2.5-72B 在 2 张 A100 80GB(BF16)下 vLLM TPS 约 300–500 token/s;INT4 单卡 A100 约 400–700 token/s。 **Qwen2.5 7B 在 RTX 4090 上跑多快?** Qwen2.5-7B 在 RTX 4090(BF16,约 14 GB)vLLM Decode TPS 约 800–1200 token/s,是本地高速推理的优选。 **RTX 4090 能跑多大模型?** RTX 4090(24 GB):BF16 支持约 13B,INT4 约 34B,Q2_K 极限压缩可尝试 70B(质量下降明显)。 **RTX 4090 和 A100 推理速度对比?** A100 SXM 带宽 2 TB/s,RTX 4090 约 1 TB/s。相同配置下 A100 Decode TPS 约是 RTX 4090 的 1.8–2 倍,但 A100 显存更大(80 GB vs 24 GB)。 **H100 和 A100 推理速度对比?** H100 SXM 带宽 3.35 TB/s,A100 约 2 TB/s,H100 快约 1.6 倍。加上 FP8 原生支持,LLM 推理综合性能 H100 通常是 A100 的 2–3 倍。 **QwQ 32B 在 RTX 3090 上能运行吗?** RTX 3090(24 GB)单卡可运行 QwQ-32B Q4_K 量化(约 18 GB),llama.cpp 约 25–40 token/s。 **Gemma 3 27B 在 A100 上推理速度?** Gemma-3-27B 在单张 A100 80GB(BF16,约 54 GB)vLLM TPS 约 600–900 token/s。Gemma-3 的混合注意力机制使 KV Cache 比同规模模型小约 5 倍。 **Mistral 7B 在 RTX 4080 上的速度?** RTX 4080(16 GB,717 GB/s 带宽),Mistral-7B BF16(约 14 GB)vLLM TPS 约 500–700 token/s,llama.cpp Q4_K 约 150–200 token/s。 **Apple M3 Max 能跑 Llama 3 吗?** M3 Max(128 GB 统一内存,400 GB/s 带宽)可运行 Llama-3.1-70B Q4_K(约 40 GB),llama.cpp/MLX 约 30–50 token/s;Llama-3.2-3B BF16 约 200+ token/s。 **部署 70B 模型需要几张 GPU?** 以 Llama-3.1-70B 为例:BF16 需 2 张 A100/H100 80GB 或 6 张 RTX 4090;INT4 量化可单张 A100 80GB 或 2 张 RTX 4090 运行。 **昇腾 910B 跑 LLM 速度如何?** 昇腾 910B(64 GB HBM2e,约 2 TB/s 带宽)理论推理速度与 A100 同量级,支持 Qwen、Llama 等主流模型。 **vLLM 和 llama.cpp 速度差多少?** vLLM 适合服务端批量推理,高并发吞吐量约是 llama.cpp 的 5–10 倍;单用户 batch=1 场景两者差距缩小。llama.cpp 支持 CPU+GPU 混合,适合本地和边缘部署。 ## 技术实现 基于 Roofline 模型和公开的 GPU 硬件规格(显存带宽、算力峰值)进行理论性能上界估算,结合各推理框架的实测效率系数修正。计算结果为参考估算值,实际性能受系统环境、驱动版本等因素影响。 - 前端:Vue 3 + Vite + Tailwind CSS - 开源地址:https://github.com/adiudiuu/tps