# 老版本
python3 benchmarks/benchmark_serving.py --model /nvme1n1/models/Qwen/Qwen3-235B-A22B/ --served-model-name Qwen3-235B --backend vllm --endpoint /v1/completions --host 192.168.16.240 --port 1025 --dataset-name random --random-input-len 1024 --random-output-len 1024 --max-concurrency 1 --num-prompts 1 --ignore-eos
# 新版本
vllm bench serve --model /nvme1n1/models/Qwen/Qwen3-235B-A22B/ --served-model-name Qwen3-235B --backend vllm --endpoint /v1/completions --host 192.168.16.240 --port 1025 --dataset-name random --random-input-len 1024 --random-output-len 1024 --max-concurrency 1 --num-prompts 1 --ignore-eos