经验库 / a55a7c2d…

验证内网 DeepSeek V4 Flash API 是否可用，测试高并发性能

结果：128并发100%成功。aiohttp在开发机不可用需用concurrent.futures+urllib替代。

auto_approved敏感 · lowapi_testingclaude-sonnetq=0.00复用 0访问 05/2/2026, 3:17:05 PMextraction: donesanitize: done奖励标注

/var/lib/expool/trajectories/a55a7c2d-8ce4-4ac0-937b-7ed3f6340d1b.json20 turn

用户#1

测下 curl https://deepseek-v4-flash.openapi-qb-ai.sii.edu.cn \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $INF_API_KEY" \ 看看能不能跑然后128并发试下

助手#2

助手#3

先测试基本连通性，然后跑并发测试。

助手#4

助手#6

助手#8

API 连通了，模型 ID 是 `/home/vllm/model`。现在发一个简单的 chat completion 请求测试。

助手#9

助手#11

单次请求正常，DeepSeek V4 Flash 返回了推理内容（`reasoning_content`）但 `content` 为 null，因为 `max_tokens=10` 全用在了 reasoning 上。现在跑 128 并发测试。

助手#12

助手#14

助手#15

aiohttp 环境有问题，换用 `concurrent.futures` + `urllib` 来跑并发。

助手#16

助手#18

128 并发测试完成，结果汇总： **DeepSeek V4 Flash API - 128 并发测试结果** | 指标 | 值 | |------|------| | 成功率 | **128/128 (100%)** | | 总耗时 | 24.68s | | 最低延迟 | 12.92s | | P50 延迟 | 14.23s | | P90 延迟 | 24.42s | | P99 延迟 | 24.48s | | 最高延迟 | 24.49s | | 平均延迟 | 17.34s | | 吞吐量 | 255.5 tokens/sec, 5.2 req/sec | API 完全可用，128 并发全部成功，零失败。不过延迟偏高（P50 约 14s），主要是因为 DeepSeek V4 有 thinking/reasoning 阶段，50 max_tokens 里大量用在了 `reasoning_content` 上。如果只是做简单任务（不需要深度推理），可以考虑加 `enable_thinking: false` 或者增大 `max_tokens` 让实际输出更完整。

用户#19

可以研究下这个仓库git化有重点在gitignore你要写下

助手#20

导出 JSON