通义千问1.8B-GPTQ-Int4实战手册：从镜像启动到Chainlit自定义UI开发-平芜编程栈

通义千问1.8B-GPTQ-Int4实战手册：从镜像启动到Chainlit自定义UI开发

想快速体验一个轻量级但功能强大的中文对话AI吗？今天，我们就来手把手带你玩转通义千问1.8B-GPTQ-Int4模型。这个模型经过量化处理，对硬件要求友好，同时保留了不错的对话能力。更重要的是，我们将不满足于简单的命令行调用，而是通过Chainlit框架，为它打造一个美观、交互流畅的Web界面，让你能像使用ChatGPT网页版一样与它对话。

整个过程就像搭积木：先启动一个预装好所有环境的“盒子”（镜像），然后验证里面的AI“大脑”（模型）是否正常工作，最后为这个大脑设计一个漂亮的“操作面板”（Web UI）。无论你是AI应用开发者，还是对部署AI服务感兴趣的技术爱好者，这篇实战指南都将带你走完全程。

1. 环境准备：认识我们的“工具箱”

在开始动手之前，我们先快速了解一下这次实战要用到的核心“工具”。这能帮助你理解每一步在做什么，而不是机械地复制命令。

通义千问1.8B-Chat-GPTQ-Int4模型：这是我们服务的“大脑”。简单来说，它是一个专门用于对话的中文语言模型。“1.8B”代表它有18亿个参数，属于轻量级模型，对算力要求不高。“Chat”意味着它经过对话数据训练，擅长理解和生成对话。“GPTQ-Int4”是一种先进的模型压缩技术，能将模型“瘦身”到原来的四分之一左右，大幅降低内存占用和计算需求，同时尽可能保持原有的性能。这让我们在普通的云服务器或本地机器上也能流畅运行它。

vLLM推理引擎：这是驱动“大脑”高效工作的“引擎”。vLLM是一个专为大规模语言模型设计的高性能推理和服务框架。它的核心优势在于采用了PagedAttention技术，可以像操作系统管理内存一样，高效地管理模型运行时的显存，从而显著提升吞吐量（单位时间内处理的请求数）。用这个引擎来部署我们的模型，能获得更快的响应速度和更高的并发处理能力。

Chainlit框架：这是我们将要打造的“操作面板”。Chainlit是一个专门为构建类似ChatGPT的对话式AI应用而设计的开源Python框架。它抽象了WebSocket通信、会话管理、消息流式输出等复杂的前后端交互逻辑，让开发者可以用很少的Python代码，就构建出功能完善、界面美观的聊天界面。我们用它来包裹vLLM服务，提供一个用户友好的访问入口。

整个流程的架构非常清晰：用户通过Chainlit的Web界面发送问题，Chainlit后端将问题转发给vLLM服务，vLLM调用通义千问模型进行推理生成答案，最后答案流式地返回并显示在Web界面上。

2. 启动与验证：让“大脑”和“引擎”转起来

假设你已经获取并启动了一个预装了上述所有环境的Docker镜像。现在，我们进入容器内部，看看一切是否就绪。

2.1 检查模型服务状态

模型部署通常需要一些时间加载权重到内存或显存中。我们需要确认vLLM服务是否已经成功启动并加载了我们的通义千问模型。

一个最直接的方法是查看服务的日志。在容器的终端（例如WebShell）中，执行以下命令：

cat /root/workspace/llm.log

这条命令会显示vLLM服务启动的日志文件内容。你需要关注日志的末尾部分，寻找类似下面的关键信息：

INFO 07-28 10:30:15 llm_engine.py:721] Initializing an LLM engine (vLLM version 0.3.3)... INFO 07-28 10:30:15 llm_engine.py:722] Engine args: model='/path/to/qwen1.5-1.8b-chat-gptq-int4', ... INFO 07-28 10:30:20 model_runner.py:405] Loading model weights took 4.8 GB INFO 07-28 10:30:22 llm_engine.py:827] LLM engine is ready. INFO 07-28 10:30:22 api_server.py:1273] Started server process [1] INFO 07-28 10:30:22 api_server.py:1278] Waiting for application startup. INFO 07-28 10:30:22 api_server.py:1293] Application startup complete. INFO 07-28 10:30:22 api_server.py:1298] Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

当你看到LLM engine is ready.和Uvicorn running on http://0.0.0.0:8000这样的日志时，恭喜你！这表示vLLM引擎已经成功初始化，模型权重加载完毕，并且一个API服务已经在容器的8000端口上监听请求了。我们的“大脑”和“引擎”已经准备就绪。

2.2 使用预置Chainlit界面快速验证

为了让你能立即体验，镜像通常预置了一个最简单的Chainlit应用来连接这个vLLM服务。我们启动它来做个快速测试。

首先，确保你处于包含Chainlit应用文件（通常是app.py）的目录，然后运行：

chainlit run app.py

命令执行后，终端会输出一个本地访问地址，例如http://localhost:7860或http://0.0.0.0:7860。在你的浏览器中打开这个地址。

你会看到一个简洁的聊天界面。在底部的输入框里，尝试问它一些问题，比如：

“你好，请介绍一下你自己。”
“用Python写一个计算斐波那契数列的函数。”
“今天天气怎么样？”

如果一切正常，你应该能看到模型思考的动画（或“正在输入…”的提示），然后答案会一段一段地显示出来。这个流式输出的体验正是Chainlit和vLLM配合带来的效果。

这个预置界面完成了最基本的功能：连接后端、发送消息、接收并显示流式回复。但这可能还不是你想要的最终样子。接下来，我们就进入最有趣的部分——自定义这个UI。

3. 自定义Chainlit UI：打造专属聊天界面

Chainlit的强大之处在于其高度的可定制性。我们可以通过修改一个名为chainlit.md的配置文件和一个Python主文件（如app.py），来改变UI的方方面面。下面我们来看几个常见的定制场景。

3.1 定制应用元信息与侧边栏

chainlit.md文件是Chainlit应用的“说明书”和“装饰手册”。它采用Markdown语法，允许你定义应用启动时的欢迎信息、侧边栏内容等。

# 欢迎使用我的通义千问助手 这是一个基于Qwen1.5-1.8B-Chat-GPTQ-Int4模型构建的智能对话助手，专注于提供高效、准确的中文对话服务。 ## 功能特点 - **轻量高效**：采用4-bit量化模型，响应迅速。 - **对话流畅**：针对中文聊天场景优化。 - **易于集成**：提供标准的API接口。 ## 使用示例 你可以尝试询问： - 技术问题解答 - 创意文案撰写 - 代码片段生成 - 日常聊天对话 --- *提示：模型知识截止于2023年7月，对于最新事件可能无法知晓。*

将上述内容保存为chainlit.md，放在你的应用同级目录下。当你下次启动Chainlit应用时，主聊天区域上方会显示“欢迎使用我的通义千问助手”作为欢迎信息，点击界面上的侧边栏按钮，则会展开一个面板，显示“功能特点”和“使用示例”等内容。这极大地提升了应用的专业度和用户体验。

3.2 深入定制应用逻辑与界面元素

真正的魔法发生在app.py这个Python文件中。在这里，我们可以通过Chainlit提供的装饰器和函数，精细控制聊天逻辑和UI组件。

首先，我们需要建立与vLLM服务的连接。通常我们会使用openai兼容的客户端库，因为vLLM的API与OpenAI API格式兼容。

import chainlit as cl from openai import AsyncOpenAI import os # 配置vLLM服务器的地址，假设它在同一容器的8000端口 vllm_base_url = "http://localhost:8000/v1" # 由于vLLM不强制要求API Key，这里可以任意填写或留空 vllm_api_key = "not-needed" # 创建异步的OpenAI客户端，指向我们的vLLM服务 client = AsyncOpenAI(base_url=vllm_base_url, api_key=vllm_api_key)

接下来，定义整个聊天会话的起点。使用@cl.on_chat_start装饰器，这个函数内的代码会在每个新聊天会话开始时执行。我们可以在这里设置一些会话状态，或者发送一条欢迎消息。

@cl.on_chat_start async def start_chat(): # 设置一个会话状态，比如模型名称，方便后续使用 cl.user_session.set("model", "Qwen1.5-1.8B-Chat-GPTQ-Int4") # 发送一条系统欢迎消息，并让它显示在消息列表中 welcome_msg = f"您好！我是基于{cl.user_session.get('model')}模型的AI助手。很高兴为您服务，请问有什么可以帮您？" await cl.Message(content=welcome_msg, author="助手").send()

然后，是最核心的部分：处理用户消息并获取模型回复。使用@cl.on_message装饰器，这个函数会异步处理用户发送的每一条消息。

@cl.on_message async def handle_message(message: cl.Message): """ 处理用户消息，调用vLLM服务并流式返回响应。 """ # 1. 获取当前会话的模型设置 model_name = cl.user_session.get("model") # 2. 创建一个Chainlit消息对象用于流式输出，先显示“思考中”提示 msg = cl.Message(content="", author="助手") await msg.send() # 3. 准备调用vLLM的请求参数 # vLLM的ChatCompletion接口与OpenAI兼容 stream = await client.chat.completions.create( model=model_name, messages=[ {"role": "system", "content": "你是一个乐于助人的AI助手。"}, # 系统提示词，定义助手行为 {"role": "user", "content": message.content} # 用户当前问题 ], stream=True, # 关键！启用流式输出 max_tokens=1024, # 控制生成答案的最大长度 temperature=0.7, # 控制生成随机性，0.0最确定，1.0最随机 ) # 4. 流式处理响应 async for chunk in stream: if chunk.choices[0].delta.content is not None: # 将模型返回的每一个文本片段追加到消息中 await msg.stream_token(chunk.choices[0].delta.content) # 5. 流式传输完成，更新最终消息状态 await msg.update()

这段代码做了以下几件关键事情：

启用流式传输 (stream=True)：这是实现打字机效果的关键。模型生成一个词元（token）就返回一个词元，而不是等整个答案生成完再一次性返回。
使用msg.stream_token()：Chainlit提供的这个方法，能将每个词元实时地推送到前端界面，实现逐字打印的效果。
系统提示词：我们通过messages参数中的system角色，给模型一个初始指令，这可以微妙地影响其回答风格，比如让它更“乐于助人”。

3.3 添加高级交互功能

Chainlit还支持更丰富的交互。例如，我们可以在每条模型回复后面添加“点赞”、“点踩”的反馈按钮，或者让用户选择不同的对话模式。

下面是一个添加反馈按钮的示例：

@cl.on_message async def handle_message_with_feedback(message: cl.Message): # ... (前面的代码与上面handle_message类似，用于获取流式回复并显示在msg中) ... # 假设msg是最终显示助手回复的消息对象 # 在消息更新完成后，附加一组操作按钮 actions = [ cl.Action(name="like", value="true", label=" 有帮助"), cl.Action(name="dislike", value="false", label=" 没帮助"), ] await msg.update(actions=actions) # 定义一个处理按钮点击的回调函数 @cl.action_callback("like") async def on_action_like(action: cl.Action): # 当用户点击“点赞”时，可以记录日志或更新数据库 await cl.Message(content="感谢您的反馈！").send() # 移除按钮，避免重复点击 await action.remove() @cl.action_callback("dislike") async def on_action_dislike(action: cl.Action): # 当用户点击“点踩”时，可以邀请用户提供更多反馈 await cl.Message(content="抱歉让您失望了。请告诉我如何改进？").send() await action.remove()

通过这些定制，你的Chainlit应用就从一个小工具，变成了一个功能相对完善、用户体验良好的AI对话产品原型。

4. 部署与优化建议

当你完成了本地开发和测试后，可能会考虑更正式的部署。这里有一些简单的建议：

端口与访问：确保容器内的vLLM服务端口（如8000）和Chainlit服务端口（如7860）映射到了宿主机的相应端口，或者允许外部访问。
生产环境配置：对于生产环境，你可能需要通过环境变量来管理配置（如模型路径、API密钥），而不是硬编码在代码里。Chainlit支持从.env文件读取配置。
性能监控：可以简单地在app.py中记录每个请求的耗时和token使用量，这对了解服务负载和优化有帮助。
错误处理：在上述代码中添加try...except块，以优雅地处理vLLM服务不可用或网络错误等情况，给用户友好的错误提示。