内网在线Lite MVPalice
经验库 / a55a7c2d

验证内网 DeepSeek V4 Flash API 是否可用,测试高并发性能

结果:128并发100%成功。aiohttp在开发机不可用需用concurrent.futures+urllib替代。

auto_approved敏感 · lowapi_testingclaude-sonnetq=0.00复用 0访问 05/2/2026, 3:17:05 PMextraction: donesanitize: done奖励标注
/var/lib/expool/trajectories/a55a7c2d-8ce4-4ac0-937b-7ed3f6340d1b.json20 turn
用户#1

测下 curl https://deepseek-v4-flash.openapi-qb-ai.sii.edu.cn \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $INF_API_KEY" \ 看看能不能跑 然后128并发试下

助手#2
助手#3

先测试基本连通性,然后跑并发测试。

助手#4
助手#6
助手#8

API 连通了,模型 ID 是 `/home/vllm/model`。现在发一个简单的 chat completion 请求测试。

助手#9
助手#11

单次请求正常,DeepSeek V4 Flash 返回了推理内容(`reasoning_content`)但 `content` 为 null,因为 `max_tokens=10` 全用在了 reasoning 上。现在跑 128 并发测试。

助手#12
助手#14
助手#15

aiohttp 环境有问题,换用 `concurrent.futures` + `urllib` 来跑并发。

助手#16
助手#18

128 并发测试完成,结果汇总: **DeepSeek V4 Flash API - 128 并发测试结果** | 指标 | 值 | |------|------| | 成功率 | **128/128 (100%)** | | 总耗时 | 24.68s | | 最低延迟 | 12.92s | | P50 延迟 | 14.23s | | P90 延迟 | 24.42s | | P99 延迟 | 24.48s | | 最高延迟 | 24.49s | | 平均延迟 | 17.34s | | 吞吐量 | 255.5 tokens/sec, 5.2 req/sec | API 完全可用,128 并发全部成功,零失败。不过延迟偏高(P50 约 14s),主要是因为 DeepSeek V4 有 thinking/reasoning 阶段,50 max_tokens 里大量用在了 `reasoning_content` 上。如果只是做简单任务(不需要深度推理),可以考虑加 `enable_thinking: false` 或者增大 `max_tokens` 让实际输出更完整。

用户#19

可以 研究下这个仓库git化 有重点在gitignore你要写下

助手#20
导出 JSON