Lychee Rerank MM快速上手:Streamlit界面各模块功能详解与输入格式规范
1. 系统概述
Lychee Rerank MM是一款基于Qwen2.5-VL构建的高性能多模态重排序系统,由哈工大(深圳)自然语言处理团队开发。该系统专门用于解决多模态检索场景中查询与文档之间的精准语义匹配问题。
2. 核心功能模块解析
2.1 多模态重排序能力
系统支持四种核心匹配模式:
- 文本-文本:传统文本查询与文本文档的匹配
- 图像-文本:图像查询与文本文档的匹配
- 文本-图像:文本查询与图像文档的匹配
- 图文-图文:混合内容查询与混合内容文档的匹配
2.2 双模式交互界面
2.2.1 单条分析模式
适合精细调试场景,提供:
- 查询与文档的详细相关性得分
- 可视化分析图表
- 交互式结果展示
2.2.2 批量重排序模式
适合生产环境使用,支持:
- 一次性输入多个文档
- 自动排序并输出结果列表
- 批量处理效率优化
3. 快速启动指南
3.1 环境准备
确保满足以下条件:
- Python 3.10+
- NVIDIA显卡(建议A10/A100/RTX 3090以上)
- 16-20GB显存空间
3.2 启动步骤
- 进入项目根目录
- 执行启动命令:
bash /root/build/start.sh - 浏览器访问:
http://localhost:8080
4. 输入格式规范详解
4.1 任务指令设置
推荐使用标准指令格式:
Given a web search query, retrieve relevant passages that answer the query.
4.2 查询输入规范
支持三种查询类型:
纯文本查询:
- 直接输入自然语言问题或描述
- 示例:"展示不同品种的猫的图片"
图像查询:
- 上传图片文件(JPG/PNG)
- 系统自动提取视觉特征
图文混合查询:
- 结合文本描述和图像
- 示例:上传产品图片并附加"寻找类似款式的沙发"
4.3 文档输入规范
4.3.1 单条模式
支持:
- 纯文本文档
- 图文混合文档
- 格式自由度高
4.3.2 批量模式
当前优化为多行纯文本输入:
- 每行一个文档
- 支持CSV格式导入
- 最大支持1000条/批次
5. 评分机制解析
5.1 评分原理
系统通过计算输出序列中特定token的概率来判定相关性:
- 分析"yes"和"no"的Logits概率
- 综合计算最终得分
5.2 得分解读
- 范围:0到1之间
- 阈值:
0.5:通常视为正相关
- <0.5:通常视为负相关
- 应用建议:
- 0.8+:强相关,优先展示
- 0.6-0.8:中等相关,可考虑
- <0.5:通常过滤
6. 性能优化建议
6.1 硬件配置
- 最低要求:16GB显存
- 推荐配置:24GB+显存
- 支持显卡类型:NVIDIA A10/A100/RTX 3090+
6.2 图像处理
- 自动调整分辨率
- 超大图像会降低处理速度
- 建议预处理为1024x1024以内
6.3 内存管理
- 内置显存清理机制
- 支持模型缓存
- 长时间运行稳定
7. 总结与进阶指导
Lychee Rerank MM通过Streamlit提供了友好的交互界面,使多模态重排序任务变得简单直观。对于希望深入使用的开发者,建议:
- 从单条分析模式开始熟悉系统
- 逐步尝试不同的模态组合
- 批量处理前先进行小规模测试
- 关注显存使用情况
- 根据业务需求调整相关性阈值
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。