GPU 推理速度计算器 · TPS Calculator

在线估算大语言模型(LLM)在各类 GPU 上的推理速度(TPS)、显存占用与延迟的免费工具。支持 348+ 主流开源模型,覆盖 170+ GPU。

核心功能

支持的 GPU

覆盖 170+ GPU,包括 NVIDIA H100/A100/H200/RTX 4090、AMD MI300X/RX 7900 XTX、Apple M1/M2/M3/M4 全系列、Intel Gaudi 2/3、昇腾 910B/910C 等国产芯片。

支持的模型

覆盖 348+ 主流开源模型:DeepSeek-R1(671B MoE)、DeepSeek-V3、Qwen3(0.6B–235B)、Qwen2.5、Llama 3.1/3.2/3.3(1B–405B)、Gemma 2/3、Mistral/Mixtral、ChatGLM/GLM-4、Baichuan、Yi、Falcon、Phi、Bloom 等。

支持的量化精度

FP32、BF16、FP16、FP8、INT8、INT4、Q6_K、Q5_K、Q4_K、Q3_K、Q2_K、INT2

支持的推理框架

vLLM、TensorRT-LLM、llama.cpp、MLX、SGLang、TGI(Text Generation Inference)

页面