Question 1

TPS 是什么？LLM 推理速度如何衡量？

Accepted Answer

TPS（Tokens Per Second）即每秒生成的 Token 数量，是衡量大语言模型（LLM）推理速度的核心指标。TPS 越高，模型响应越快。通常还关注 TTFT（首 Token 延迟）和 TPOT（每输出 Token 延迟）。TPS Calculator 可一键计算给定 GPU + 模型 + 量化组合的理论 TPS 上界。

Question 2

DeepSeek-R1 671B 在 H100 上的推理速度是多少？

Accepted Answer

DeepSeek-R1（671B MoE）在 8 张 H100 SXM（FP8 量化，约 336 GB 显存）下，使用 vLLM 框架的 Decode TPS 理论上界约 200–400 token/s（batch=1）。BF16 全精度约需 1342 GB 显存，需 16 张以上 H100。TPS Calculator 可计算不同卡数和量化精度下的精确估算值。

Question 3

DeepSeek-R1 671B 需要多少显存？

Accepted Answer

DeepSeek-R1（671B MoE，BF16 精度）权重约需 1342 GB 显存，FP8 量化约需 671 GB，INT4 量化约需 336 GB。通常需要 8 张 H100 SXM 80GB（FP8）或更多。TPS Calculator 支持精确计算包含 KV Cache 在内的总显存需求。

Question 4

DeepSeek-V3 在 H100 上跑多快？

Accepted Answer

DeepSeek-V3（685B MoE）与 DeepSeek-R1 规模相当。在 8 张 H100 SXM（FP8 量化）下，vLLM 框架 Decode TPS 理论上界约 150–350 token/s。DeepSeek-V3 采用 MLA 注意力机制，KV Cache 显存占用远低于传统 MHA，可支持更长上下文。

Question 5

Llama 3.1 70B 在 A100 上的推理速度是多少？

Accepted Answer

Llama-3.1-70B 在单张 A100 80GB 上，BF16 精度（约 140 GB 显存）需要 2 张，INT4 量化（约 35 GB）可在单张 A100 上运行，vLLM 框架 Decode TPS 约 400–600 token/s（batch=1）。TPS Calculator 支持精确估算不同批大小下的吞吐量。

Question 6

Llama 3.3 70B 在 RTX 4090 上能跑多快？

Accepted Answer

Llama-3.3-70B 在单张 RTX 4090（24 GB）上需要 INT4 量化（约 35 GB），超出显存，需要 2 张 RTX 4090 或使用 Q3_K/Q2_K 量化压缩到 24 GB 以内。单卡 Q3_K 量化下 llama.cpp 约 30–50 token/s。2 张 RTX 4090（INT4）约 60–100 token/s。

Question 7

Qwen3 235B A22B 在 H100 上跑多快？

Accepted Answer

Qwen3-235B-A22B（MoE 架构，激活参数 22B）在 4 张 H100 SXM（BF16，约 470 GB 显存）下，vLLM 框架 Decode TPS 理论上界约 300–600 token/s。由于 MoE 激活参数较少，实际计算量接近 22B 模型，显存带宽效率更高。

Question 8

Qwen2.5 72B 在 A100 上推理速度是多少？

Accepted Answer

Qwen2.5-72B 在 2 张 A100 80GB（BF16，约 144 GB）下，vLLM 框架 Decode TPS 约 300–500 token/s。INT4 量化可在单张 A100 运行，TPS 约 400–700 token/s（带宽受限）。TPS Calculator 支持 Tensor Parallel 多卡通信效率建模。

Question 9

Qwen2.5 7B 在 RTX 4090 上跑多快？

Accepted Answer

Qwen2.5-7B 在 RTX 4090（24 GB，1.0 TB/s 带宽）上，BF16 精度（约 14 GB）vLLM Decode TPS 约 800–1200 token/s，llama.cpp Q4_K 量化约 200–300 token/s。小模型在 RTX 4090 上带宽利用率极高，是本地部署的高性价比选择。

Question 10

RTX 4090 能跑多大的 LLM？

Accepted Answer

RTX 4090 拥有 24 GB GDDR6X 显存（1.0 TB/s 带宽）。BF16 精度下可运行约 13B 以内的模型；INT4/Q4_K 量化下可运行约 34B；使用 Q2_K 极限压缩可尝试 70B。推荐配置：7B–13B BF16 高质量推理，34B INT4 兼顾质量与速度。TPS Calculator 可精确计算每种组合是否 OOM。

Question 11

RTX 4090 和 A100 推理速度差多少？

Accepted Answer

A100 80GB SXM 内存带宽约 2 TB/s，RTX 4090 约 1 TB/s，带宽是推理（Decode）速度的决定因素。相同模型相同量化下，A100 Decode TPS 约是 RTX 4090 的 1.8–2 倍。但 A100 显存更大（80 GB vs 24 GB），能运行更大模型，且支持 NVLink 多卡互联。

Question 12

H100 和 A100 推理速度差多少？

Accepted Answer

H100 SXM 内存带宽 3.35 TB/s，A100 SXM 约 2 TB/s，H100 约快 1.6–1.7 倍。同时 H100 支持 FP8 原生量化，可在基本不损失精度的情况下将显存减半、吞吐提升近 2 倍。对于 LLM 推理，H100 综合性能通常是 A100 的 2–3 倍。

Question 13

QwQ 32B 在 RTX 3090 上能运行吗？

Accepted Answer

QwQ-32B 在 BF16 精度下约需 64 GB 显存，单张 RTX 3090（24 GB）不够。INT4/Q4_K 量化约需 18 GB，可在单张 RTX 3090 上运行，llama.cpp 框架 Decode TPS 约 25–40 token/s。2 张 RTX 3090（NVLink 或 CPU 卸载）可运行 INT8 量化，速度约 40–60 token/s。

Question 14

Gemma 3 27B 在 A100 上推理速度是多少？

Accepted Answer

Gemma-3-27B 在单张 A100 80GB（BF16，约 54 GB）下，vLLM 框架 Decode TPS 约 600–900 token/s。Gemma-3 采用混合注意力（全局注意力 + 局部滑动窗口），KV Cache 占用比同规模 Dense 模型小约 5 倍，可支持更长上下文。

Question 15

Mistral 7B 在 RTX 4080 上跑多快？

Accepted Answer

Mistral-7B 在 RTX 4080（16 GB，717 GB/s 带宽）上，BF16 精度（约 14 GB，刚好可放入）vLLM Decode TPS 约 500–700 token/s，llama.cpp Q4_K 约 150–200 token/s。RTX 4080 显存偏小，推荐 7B 及以下模型使用 BF16，13B 以上需 INT4 量化。

Question 16

Apple M3 Max 能跑 Llama 3 吗？速度如何？

Accepted Answer

Apple M3 Max（128 GB 统一内存，400 GB/s 带宽）支持运行 Llama-3.1-70B Q4_K 量化（约 40 GB），使用 llama.cpp 或 MLX 框架约 30–50 token/s；Llama-3.2-3B BF16（约 6 GB）约 200+ token/s。M3 Max 是目前本地运行大模型性价比最高的消费级平台之一。

Question 17

vLLM 和 llama.cpp 推理速度差多少？

Accepted Answer

vLLM 针对服务端批处理优化，适合高并发场景（batch≥4），GPU 利用率高；llama.cpp 适合本地单用户/CPU+GPU 混合部署，batch=1 时两者差距缩小。以 Llama-3.1-8B 在 RTX 4090 BF16 为例：vLLM batch=1 约 800 TPS，llama.cpp Q4_K 约 200 TPS。高并发时 vLLM 优势更明显（吞吐量可达 5–10 倍）。

Question 18

部署 70B 大模型需要几张 GPU？

Accepted Answer

以 Llama-3.1-70B 为例：BF16 精度约需 140 GB 显存，需 2 张 A100/H100 80GB 或 6 张 RTX 4090；INT4 量化约 35 GB，可在 1 张 A100 80GB 或 2 张 RTX 4090 上运行。MoE 模型（如 Mixtral 8x7B）激活参数只有 13B，INT4 量化约 26 GB，单张 RTX 4090 内运行。TPS Calculator 可自动计算最少卡数需求。

Question 19

国产 GPU 昇腾 910B 跑 LLM 速度怎么样？

Accepted Answer

华为昇腾 910B 拥有 64 GB HBM2e 显存，内存带宽约 2 TB/s，算力与 A100 接近。在 MindIE/vLLM（昇腾版）框架下运行 Llama/Qwen 系列模型，理论推理速度与 A100 同量级。TPS Calculator 支持昇腾 910B/910C 的 TPS 和显存占用估算。

GPU 推理速度计算器 · TPS Calculator

核心功能

支持的 GPU

支持的模型

支持的量化精度

支持的推理框架

页面