news 2026/2/27 23:23:52

我要搞个ai程序操控鼠标,截取屏幕,识别刀路,给ai一个刀路寻找规则的prompt,然后ai自己去按规则顺序点亮刀路

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我要搞个ai程序操控鼠标,截取屏幕,识别刀路,给ai一个刀路寻找规则的prompt,然后ai自己去按规则顺序点亮刀路

要实现一个 AI 程序,能够操控鼠标、截取屏幕、识别刀路(CNC 加工路径)、根据规则顺序点亮刀路,这实际上是一个典型的“视觉-语言-动作”闭环系统。该系统融合了图像识别、多模态大模型推理、以及自动化控制三大模块。下面我将从整体架构、关键技术选型、核心 Prompt 设计、以及具体实现建议四个方面进行详细说明。


一、整体系统架构

整个系统可划分为以下四个层级:

  1. 屏幕捕获层:使用pyautogui.screenshot()OpenCV+mss实时截图;
  2. 图像理解层:利用多模态大模型(如 Qwen3-VL-30B)对截图中的刀路图进行语义解析;
  3. 规则推理层:通过精心设计的 Prompt 引导 AI 按照加工逻辑(如“先外轮廓后内腔”、“由粗到精”等)生成刀路执行序列;
  4. 动作执行层:使用pyautogui控制鼠标依次点击/高亮刀路节点。

此架构与文献

12

中提到的“让工业图纸开口说话”的思路高度一致——不是简单 OCR 提取线条,而是让 AI “理解”刀路背后的工艺意图。

二、关键技术选型建议

1. 屏幕截图与预处理

  • 使用mss库高效截屏(比pyautogui更快);
  • 若刀路图来自 CAM 软件(如 Mastercam、UG),可直接导出为高清 PNG/PDF,避免屏幕反光或 UI 干扰;
  • 可加入超分辨率(如 Real-ESRGAN)提升老旧图纸清晰度

    12

2. 刀路识别模型

  • 首选 Qwen3-VL-30B:支持高分辨率输入,能理解 CAD 图纸中的几何关系、标注、图层语义

    12

  • 替代方案:若无 API 权限,可用开源模型如DonutPix2Struct微调刀路识别任务;
  • 不推荐纯 OCR + 规则引擎:无法处理手绘草图、模糊扫描件或多图层叠加场景

    12

3. 鼠标控制

  • 使用pyautogui实现点击、移动、拖拽;
  • 若需更高精度(如亚像素定位),可结合 OpenCV 模板匹配二次校准坐标

    1


三、核心 Prompt 设计(刀路寻找规则)

这是整个系统成败的关键。Prompt 必须明确告诉 AI:

  • 什么是刀路(连续的加工轨迹线);
  • 加工优先级规则(工艺知识);
  • 输出格式(结构化坐标序列)。

示例 Prompt(适用于 Qwen3-VL-30B):

text

编辑

你是一位资深 CNC 工艺工程师。请分析这张刀路图(G代码可视化结果或CAM软件截图),并按以下规则生成刀具路径的执行顺序: 【规则】 1. 优先加工外轮廓,再加工内腔; 2. 同一类特征中,先加工大尺寸特征,再加工小尺寸特征; 3. 孔加工按直径从大到小排序; 4. 避免空行程过长,尽量就近连续加工; 5. 若存在多个独立区域,按从左到右、从上到下的阅读顺序处理。 【输出要求】 - 识别所有刀路起点(用红色圆圈标记的位置); - 按上述规则排序,输出一个有序列表; - 每项格式为:{"step": 1, "x": 120.5, "y": 85.2, "type": "outer_contour"} - 坐标单位为像素,原点在图像左上角; - 若无法确定类型,标注为 "unknown"; - 不要解释,只输出 JSON 列表。

这种 Prompt 结构借鉴了

12

中“提问即编程”的思想——通过自然语言注入领域知识,引导模型做专业推理而非简单图像标注。

四、实现流程与代码框架

python

编辑

import pyautogui import mss import requests # 假设 Qwen3-VL-30B 通过 API 调用 import json # 1. 截图 with mss.mss() as sct: screenshot = sct.grab(sct.monitors[1]) screenshot.save("toolpath.png") # 2. 调用 AI 模型 response = requests.post( "https://api.qwen.ai/v1/vl", headers={"Authorization": "Bearer YOUR_KEY"}, files={"image": open("toolpath.png", "rb")}, data={"prompt": YOUR_PROMPT_ABOVE} ) # 3. 解析刀路序列 toolpath_seq = json.loads(response.json()["text"]) # 4. 逐一点亮(模拟点击) for step in toolpath_seq: x, y = step["x"], step["y"] pyautogui.moveTo(x, y, duration=0.2) pyautogui.click() pyautogui.sleep(0.5) # 模拟加工停顿

注意:实际坐标需根据屏幕 DPI 和图像缩放比例进行映射

2


五、进阶优化方向

  1. 动态反馈学习:若 AI 点错位置,人工纠正后将(图像, 正确序列)作为新样本微调模型

    11

  2. 多图联动:同时上传“刀路图 + 工件3D视图”,让 AI 验证路径是否干涉

    12

  3. 安全机制:加入“确认弹窗”防止误操作真实机床(仅用于仿真环境);
  4. 集成 CAM 软件插件:直接读取 .dxf 或 .nc 文件,跳过截图步骤,提升精度。

总结

你提出的“AI 自主点亮刀路”本质上是智能制造中“感知-决策-执行”闭环的微型实现。借助 Qwen3-VL-30B 这类多模态大模型,我们不再需要手动编写复杂的图像处理规则,而是通过自然语言注入工艺知识,让 AI 像老师傅一样“看图识路”。配合pyautogui的自动化控制,即可构建一个低成本、高智能的刀路验证助手。

正如

11

所述:“AI 让设备拥有了火眼金睛和智慧大脑”——你的项目正是这一理念的绝佳实践。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/21 18:12:04

告别手动回复,Open-AutoGLM让你的日均处理量翻5倍!

第一章:告别手动回复,Open-AutoGLM如何重塑消息处理效率在现代企业通信中,高频、重复的消息响应正逐渐成为效率瓶颈。Open-AutoGLM 作为一款基于大语言模型的自动化消息处理框架,通过语义理解与智能生成技术,实现了对邮…

作者头像 李华
网站建设 2026/2/23 18:59:36

3种必知的Open-AutoGLM多用户部署模式,提升团队效率90%

第一章:Open-AutoGLM多用户协作配置概述Open-AutoGLM 是一个面向多用户协同开发的开源自动化大语言模型管理框架,支持权限隔离、任务队列共享与分布式执行。其核心设计目标是实现团队内部高效、安全的模型调用与流程编排,适用于科研团队、企业…

作者头像 李华
网站建设 2026/2/14 21:42:44

Open-AutoGLM应用快速适配实战(99%工程师忽略的3个关键点)

第一章:Open-AutoGLM应用更新快速适配概述 随着大模型生态的快速发展,Open-AutoGLM 作为一款支持自动化推理与任务编排的开源框架,其版本迭代频率显著提升。为确保上层应用在框架更新后仍能稳定运行并快速集成新特性,构建高效的更…

作者头像 李华
网站建设 2026/2/27 15:15:31

Open-AutoGLM协作配置实战指南(从零搭建高可用多用户环境)

第一章:Open-AutoGLM协作配置实战指南概述 在当前自动化与大模型融合发展的技术趋势下,Open-AutoGLM 作为支持智能任务生成与协同执行的开源框架,正逐步成为开发者构建高效 AI 工作流的核心工具。本章聚焦于 Open-AutoGLM 的协作配置实践路径…

作者头像 李华
网站建设 2026/2/17 7:24:06

Open-AutoGLM表情包收集实战(从零到百万级数据沉淀)

第一章:Open-AutoGLM表情包收集实战(从零到百万级数据沉淀)在构建大规模多模态模型训练数据时,高质量的表情包图像与对应文本描述的配对数据尤为关键。Open-AutoGLM 作为开源自动化图文生成框架,支持通过语义驱动策略从…

作者头像 李华