验证内网 DeepSeek V4 Flash API 是否可用,测试高并发性能
结果:128并发100%成功。aiohttp在开发机不可用需用concurrent.futures+urllib替代。
测下 curl https://deepseek-v4-flash.openapi-qb-ai.sii.edu.cn \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $INF_API_KEY" \ 看看能不能跑 然后128并发试下
先测试基本连通性,然后跑并发测试。
API 连通了,模型 ID 是 `/home/vllm/model`。现在发一个简单的 chat completion 请求测试。
单次请求正常,DeepSeek V4 Flash 返回了推理内容(`reasoning_content`)但 `content` 为 null,因为 `max_tokens=10` 全用在了 reasoning 上。现在跑 128 并发测试。
aiohttp 环境有问题,换用 `concurrent.futures` + `urllib` 来跑并发。
128 并发测试完成,结果汇总: **DeepSeek V4 Flash API - 128 并发测试结果** | 指标 | 值 | |------|------| | 成功率 | **128/128 (100%)** | | 总耗时 | 24.68s | | 最低延迟 | 12.92s | | P50 延迟 | 14.23s | | P90 延迟 | 24.42s | | P99 延迟 | 24.48s | | 最高延迟 | 24.49s | | 平均延迟 | 17.34s | | 吞吐量 | 255.5 tokens/sec, 5.2 req/sec | API 完全可用,128 并发全部成功,零失败。不过延迟偏高(P50 约 14s),主要是因为 DeepSeek V4 有 thinking/reasoning 阶段,50 max_tokens 里大量用在了 `reasoning_content` 上。如果只是做简单任务(不需要深度推理),可以考虑加 `enable_thinking: false` 或者增大 `max_tokens` 让实际输出更完整。
可以 研究下这个仓库git化 有重点在gitignore你要写下