启动服务

ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 vllm serve /data/models/Qwen/Qwen2.5-VL-7B-Instruct/ --served-model-name Qwen2.5-VL-7B --tensor-parallel-size 8 --max-model-len 32768 --gpu-memory-utilization 0.9 --host 0.0.0.0 --port 8000 --disable-log-requests

vllm serve /data2/models/Qwen/Qwen3-VL-32B-Instruct/ --served-model-name Qwen3-VL --tensor-parallel-size 8 --max-model-len 32768 --max-num-seqs 64 --gpu-memory-utilization 0.97 --host 0.0.0.0 --port 8000 --disable-log-requests --async-scheduling --no-enable-prefix-caching --trust-remote-code