大模型性能压测实战：工具选型与指标解析

张开发

• 2026/5/23 20:57:23 • 15 分钟阅读

分享文章

1. 为什么大模型需要性能压测第一次给大模型做压测时我盯着监控面板上跳动的数字直发懵——明明单个请求响应很快为什么用户量上来就卡成PPT这个问题困扰了我整整两周直到用对了压测工具才发现问题出在GPU显存带宽的隐性瓶颈上。大模型服务就像高速公路单辆车跑得再快也代表不了高峰期的通行能力。性能压测就是模拟不同车流量下的真实表现帮我们找到三个关键答案系统能承受多少并发响应速度是否符合预期资源利用率是否合理去年我们团队上线某1.5B参数的行业模型时就遇到过典型场景开发环境测试单个请求首token延迟(TTFT)仅120ms但上线后用户反馈打字卡顿。用Locust模拟50并发才发现TTFT暴增到800ms以上。后来通过分析压测数据发现是KV缓存策略有问题调整后性能提升了40%。2. 压测工具三剑客实战对比2.1 Locust灵活轻量的万能选手这个用Python写的开源工具是我的压测首选它的优势就像瑞士军刀——简单但啥都能干。安装只要一行命令pip install locust写测试脚本就像写普通Python代码。比如测试文生图接口from locust import HttpUser, task class ImageGenUser(HttpUser): task def generate_image(self): prompt 一只穿着宇航服的柴犬 self.client.post(/v1/images, json{prompt: prompt})启动测试时有个实用技巧先用--headless模式快速验证locust -f test.py --headless -u 100 -r 10 -t 5m这个命令会模拟100个用户每秒增加10个持续5分钟。我特别喜欢它的实时Web界面能直观看到吞吐量曲线和异常请求分布。2.2 SGLang Bench专业级推理测试利器当需要测试批量推理性能时SGLang自带的bench工具就派上用场了。它直接挂钩底层推理引擎能精准测量GPU计算效率。比如测试A100显卡上的吞吐量python -m sglang.bench_one_batch_server \ --model deepseek-r1 \ --batch-size 8 \ --input-len 512 \ --output-len 1024最近在测试70B模型时发现个有趣现象当batch_size从1增加到8时TPOT单token生成时间从85ms降到22ms但继续增大到16时反而回升到35ms。这说明显存带宽成了新瓶颈这个发现直接影响了我们的实例选型。2.3 EvalScope全栈评测专家魔搭社区的这款工具特别适合需要综合评估的场景。除了性能压测还能做质量评估。安装时记得加上性能组件pip install evalscope[perf]它的智能渐进式测试设计很实用会自动从低并发开始试探系统极限。这是我常用的测试模板from evalscope.perf import StressTest tester StressTest( endpointhttp://127.0.0.1:8000, model_namedeepseek-r1, test_cases[long_text, code_gen], max_concurrency32 ) tester.run()上个月用这套方案帮客户发现了一个隐藏bug当请求包含特殊unicode字符时并发处理会出现内存泄漏。这种场景在单次测试中很难复现只有长时间压力测试才会暴露。3. 关键指标背后的秘密3.1 吞吐量成本的生命线Input TPS和Output TPS这两个指标直接关系着运营成本。我们做过测算当Output TPS从500提升到2000时单次API调用成本下降62%。但要注意虚假的高吞吐——有次测试显示TPS高达3000实际是客户端超时导致请求堆积真正的有效吞吐只有800。这个计算公式帮我避开很多坑真实TPS (成功请求数 × 平均输出长度) / 测试时长3.2 TTFT与TPOT用户体验的温度计首token延迟(TTFT)决定用户的第一印象。实测发现当TTFT超过500ms时用户流失率明显上升。而TPOT单token时间影响阅读流畅度建议控制在30-50ms以内。有个反直觉的发现增大上下文窗口会显著影响TTFT。测试显示当上下文从2k增加到8k时TTFT从150ms升至420ms这是因为attention计算量呈平方级增长。3.3 并发数走钢丝的艺术并发不是越高越好。我们在H100上测试发现当并发从16增加到64时吞吐量提升3倍但TPOT从28ms恶化到95ms。最佳平衡点通常在GPU利用率70%-80%时出现。这个监控命令帮我快速定位瓶颈nvidia-smi --query-gpuutilization.gpu,memory.used --formatcsv -l 14. 避坑指南血泪换来的经验第一次做压测时我犯过把所有请求参数固定化的错误结果缓存命中率虚高测试数据完全失真。现在我们会用动态参数生成器prompts [f第{i}条测试数据 for i in range(1000)]另一个常见误区是忽略环境一致性。有次测试结果波动很大最后发现是K8s集群自动伸缩干扰。现在我们会固定测试机与服务的物理距离关闭后台监控服务预热GPU至少5分钟内存泄漏检测也很关键这个脚本帮我抓过多次问题while true; do kubectl top pod; sleep 5; done最惊险的一次是压测时GPU显存耗尽导致机器重启。现在我们会设置安全阈值# 在Locust中添加熔断机制 from locust import events events.request.add_listener def check_memory(response, **kwargs): if CUDA out of memory in response.text: runner.quit()压测完成后我会用这个分析模板快速生成报告import pandas as pd def analyze_logs(log_file): df pd.read_csv(log_file) p99 df[latency].quantile(0.99) print(f最大TPS: {df[tps].max()}) print(fP99延迟: {p99}ms)