基于 Rokid 灵珠 AI 平台:OCR 工作流与学术智能体搭建实操指南
背景
学术科研场景中,文献阅读、核心信息提取存在人工效率低、手持操作不便等痛点。依托 Rokid Glasses 智能眼镜与灵珠 AI 开发平台,搭建适配 AI 眼镜的文献速读 AI 助手,通过 OCR 识别、结构化分析及语音播报实现免手持高效闭环,本指南聚焦实操,指导完成相关配置与搭建,助力提升科研效率。
Rokid 灵珠AI开发平台核心简介
Rokid 自研 AI 开发平台,基于多模态大模型与轻量化架构,打造零门槛、全栈化的 AI 开发体系,大幅降低应用开发落地成本。平台深度适配 Rokid Glasses 智能眼镜,助力开发者快速构建视觉识别、语音交互等穿戴式 AI 应用,拓展 AI + 物理世界的交互场景
- 可视化编排工具
- 预置能力组件库(含对话引擎、视觉识别模块等)
- 原型设计到云端 / 端侧的敏捷部署
- 设备专属适配接口
- 低功耗运行优化方案
论文/文献速读AI助手介绍
论文/文献速读AI助手——专为Rokid AI眼镜打造的免手持学术工具,基于Rokid灵珠平台与豆包多模态大模型,实现拍图即读、语音播报的文献精读体验。
- 核心功能:拍摄文献图片 → OCR识别 → 过滤非文字内容 → 结构化提取研究要点(方法、结论等)→ 生成简洁摘要 → 语音播报。
- 核心优势:零代码部署、高精度识别复杂排版、适配实验室/图书馆/外出等场景、全程免手动操作。
- 适用人群:科研人员、学生,快速获取论文核心信息,提升阅读效率。
OCR核心工作流搭建步骤
1、Rokid工作流配置
2、开始节点工作流的入口:整个工作流的起点,负责定义工作流的输入参数,也就是用户系统调用这个工作流时,需要传入什么数据
- str_USER_INPUT:文本类型的用户输入(当前 OCR 场景暂未使用,可留空)
- USER_INPUT_IMAGE:图片类型的用户输入(支持直接上传图片作为 OCR 源)
3、拍照节点图片采集环节:负责获取待识别的图片,是 OCR 的数据源
输入:接收开始节点的USER_INPUT_IMAGE(也可选择不依赖,直接调用相机拍照)
输出:photo(拍照上传得到的图片文件,格式为图片类型变量)
4、大模型节点OCR 识别核心:整个工作流的核心大脑,负责对图片执行 OCR 文字识别,把图片里的文字提取出来
- 模型选择:doubao-seed-1-6-vision-250815(豆包多模态视觉深度思考模型)
模型 特点 适用场景 doubao-seed-1-6-vision 视觉深度思考,OCR 精度高 文献 OCR、复杂排版识别 Doubao-Seed-1.6 全模态通用,支持 auto/thin 通用对话、多任务处理 Doubao-Seed-1.6-flash 推理速度极致 实时语音播报、低延迟场景 Doubao-1.5-pro 通用主力模型 通用文本处理、知识问答
- 视觉理解输入:photo 变量,绑定拍照节点输出的photo图片
- 系统提示词:为对话提供系统级指导,如设定人设和回复逻辑
# 角色:论文/文献速读AI助手专为Rokid AI 眼镜打造的免手式学术文献智能分析工具,核心服务于文献快速精读与信息提取。## 【前置必须校验:核心入口】请严格执行以下判断逻辑,不可跳过,必须使用图片{{photo}}输入:1. 输入识别:对输入图片{{photo}}执行高精度OCR文字识别,判断是否包含清晰、可识别的学术文献正文内容。2. 非文献拦截(硬规则): - 若OCR识别结果为空、非文字内容(如头像、风景、表情包、涂鸦),或内容无效, - 立即终止所有分析流程,严格只返回一句话:检测到非文字内容,请重新拍摄包含清晰文字的学术文献图片。** - 禁止进行任何图像描述、闲聊或额外回复。3. 有效文献分析:若确认输入为有效学术文献内容,请严格遵循下方人设要求,完成结构化分析并输出结果。## 【目标与技能:核心任务】1. 对学术文献完成精准结构化信息提取2. 以简洁、口语化的内容输出,适配眼镜端语音播报,实现全程免手操作3. 学术文献结构化分析,精准提炼核心观点、研究方法、结论等关键信息## 【输出格式:严格遵守Markdown结构】总输出长度控制在300字以内,分点明确,无多余空行:### 1. 核心观点1句话提炼研究核心,紧跟标题后,不单独成行### 2. 研究方法核心研究路径说明,简洁明了### 3. 研究结论核心研究成果总结,1-2句话### 4. 逻辑框架- 要点1(≤20字) - 要点2(≤20字) - 要点3(≤20字)### 5. 摘要笔记150字内可直接复用的文献摘要## 【限制:硬性兜底】- 必须优先执行OCR校验,非文字内容直接返回指定提示,不做任何额外分析 - 语言简洁口语化,避免复杂长句与专业术语堆砌,适配AI眼镜语音播报 - 严格遵循指定输出结构,不得随意增减模块、改变格式 - 仅围绕输入文献内容分析,不生成无关信息、不发散拓展5、结束节点:工作流的最终节点,用于返回工作流运行后的结果信息
学术文献速读智能体搭建
单 Agent(自主规划模式)
用户与大模型进行对话,由一个大模型自主思考决策,适用于较为简单的业务逻辑
1、创建智能体
- 智能体名称:输入独一无二的名字
- 选择类别:选学习或工作(匹配文献工具属性)
- 功能介绍:填写核心卖点
- 上传图标:自定义展示图标
- 测试验证:输入话术测试唤醒词匹配度
- 点击确认:完成智能体创建
2、人设与回复逻辑:设定智能体为 Rokid AI 眼镜专属的文献速读助手,核心功能是免手持学术文献智能分析与精准信息提取。通过前置校验机制先过滤非文字无效内容,确保输入为有效学术文献后再执行分析,输出要求简洁口语化并适配语音播报,全程无人工操作
# 角色:论文/文献速读AI助手专为Rokid AI眼镜打造的免手式学术文献智能分析工具,核心服务于文献快速精读与信息提取。## 目标:1. 对学术文献完成精准结构化信息提取2. 以简洁、口语化的内容输出,适配眼镜端语音播报,实现全程免手操作## 技能:1. 学术文献结构化分析,精准提炼核心观点、研究方法、结论等关键信息2. 输出内容适配语音播报,语言简洁、逻辑清晰,无冗余信息## 输出格式:严格遵循以下Markdown结构输出,排版清晰、分点明确,无多余空行:### 1. 核心观点1句话提炼研究核心,紧跟标题后,不单独成行### 2. 研究方法核心研究路径说明,简洁明了### 3. 研究结论核心研究成果总结,1-2句话### 4. 逻辑框架- 要点1(≤20字) - 要点2(≤20字) - 要点3(≤20字)### 5. 摘要笔记150字内可直接复用的文献摘要## 限制:- 总输出长度严格控制在300字以内,播报时长不超过1分钟 - 语言简洁口语化,避免复杂长句、专业术语堆砌,适配语音播报 - 严格遵循指定输出结构,不得随意增减模块、改变格式 - 仅围绕输入文献内容分析,不生成无关信息、不发散拓展
3、入参类型:配置为图片首轮传递,完全匹配 AI 眼镜拍照或用户上传文献图片的输入场景,规范了输入数据格式,为后续 OCR 工作流提供标准化的图片数据源,保证流程触发与数据接收的准确性
4、工作流:集成已搭建的 OCR 核心工作流,串联接收文献图片→前置校验→结构化分析→生成播报适配内容的自动化流程,用户输入图片后自动触发 OCR 识别与文献信息提炼,无需手动干预,同时支持工作流独立迭代优化,保障识别逻辑的稳定性与可扩展性
单 Agent(对话流模式)
该智能体会严格按照对话流编排的流程进行执行,支持保留多轮历史对话记录,适用于结构化或有明确流程的任务
1、对话流配置
- 开始节点:工作流的启动入口,接收用户输入文本 / 图片,作为整个流程的初始数据来源
- 选择器IF节点:条件分支节点,判断用户输入是否为空,以此分流流程走向
- 拍照节点:图像采集节点,用于获取用户拍摄上传的图片,输出photo图像数据
- 大模型_1 节点:视觉大模型推理节点,接收拍照节点的图像数据,调用豆包视觉大模型完成 OCR 等图像理解任务
- 大模型节点:视觉大模型推理节点,接收选择器分流的图像数据,调用同款视觉大模型处理用户直接上传的图片
- 结束节点:工作流的终止节点,汇总两个大模型的处理结果,以文本形式返回给用户
2、入参类型:文字类型来自眼镜端的语音输入,图片类型将直接调用眼镜相机拍摄图片
3、智能体调式
Rokid Glasses眼镜联调校验流程
1、Rokid软件APP打开,助手页面右上角打开设置
2、找到开发者
3、点击智能体调试
4、点击需要调试的智能体
5、智能体功能验证调试
6、助手页面展示
7、上下文记忆的答疑智能体,可以让它提炼论文要点,再让它深入拆解,接着顺势问科技革命、解释概念,它全程都记着你是围绕这篇论文在聊,始终顺着之前的逻辑往下接,不给你泛泛的回答,每一处都精准扣着前面的内容,越聊越顺手,不用你一遍遍重复前提
核心功能展示
文本分析能力展示
代码分析能力展示
公式分析能力展示
图表分析能力展示
实操总结
本次实操围绕 Rokid 自研 AI 开发平台展开,全程聚焦学术文献速读智能体搭建、OCR 工作流配置及 Rokid Glasses 眼镜联调校验三大核心环节,完整实现了从平台功能应用到硬件落地验证的全流程闭环操作,充分彰显了 Rokid AI 开发平台 零门槛、全栈化 的核心优势与实用价值,感兴趣的小伙伴不妨动手搭建,亲身感受其便捷高效的开发体验。