不要看网上的教程先下torch,tranform这些依赖,直接下vllm就行了,Vllm官方文档也说了:“vLLM 的 wheel 与 PyTorch 是配套编译的,如果你已经安装了其他版本 Torch,可能会产生 ABI(二进制)兼容问题,建议在全新的环境中直接安装 vLLM。”
但是直接下载0.8.x版本的Vllm时也会出错,这个有老哥也踩坑了:vllm启动qwen3出错AttributeError: Qwen2Tokenizer has no attribute all_special_tokens_extended. Did you me_人工智能_大强想进步-AI编程社区
要更换transformers为4.51.1 ~ 5.0.0之间,为了稳妥,推荐一并安装:
pip install \
transformers==4.52.4 \
tokenizers==0.21.1
这样就可以正常启动了,经过测试,流式输出支持:curl -N http://127.0.0.1:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model":"Qwen2.5-7B-Instruct",
"stream":true,
"messages":[
{
"role":"user",
"content":"请介绍一下你自己。"
}
]
}'