news 2026/4/15 7:43:00

不用写代码!Open-AutoGLM自定义任务轻松设置

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
不用写代码!Open-AutoGLM自定义任务轻松设置

不用写代码!Open-AutoGLM自定义任务轻松设置

1. 这不是另一个“需要调参写脚本”的AI工具

你有没有过这样的时刻:想让手机自动完成一件事,比如“把微信里昨天的聊天截图发到钉钉群”,或者“在淘宝找到那款蓝色连衣裙,加购但不付款”——可翻遍教程,全是环境配置、模型加载、API密钥、JSON Schema……最后卡在pip install报错,放弃。

Open-AutoGLM不一样。它不强迫你成为开发者,而是把你当成一个会说话、有想法的用户。你只需要说一句自然语言,它就真能“看懂屏幕、想清楚步骤、点准按钮、做完事情”。整个过程,不需要写一行业务逻辑代码,也不用改模型提示词模板,更不用碰任何配置文件

这不是概念演示,也不是简化版Demo。它是智谱开源的、已在真实安卓设备上稳定运行的Phone Agent框架,核心模型AutoGLM-Phone-9B专为手机交互优化,支持视觉理解+动作规划+ADB执行闭环。而“自定义任务”这件事,在Open-AutoGLM里,本质就是:把你想做的事,用你平时说话的方式,直接告诉它

下面我会带你跳过所有技术前置条件,直奔“怎么让它听懂你、做对事”这个最实用的环节。即使你没装过Python、没连过ADB、甚至不知道vLLM是什么,也能在30分钟内,让AI替你打开App、搜索内容、点击按钮、输入文字——全程只靠一句话。

2. 什么是“不用写代码”的自定义任务

2.1 它到底省掉了什么

传统自动化工具(如Appium、UI Automator)要求你:

  • 写代码定位元素(find_element_by_id("com.xxxx:id/search_btn")
  • 手动判断界面状态(“当前是不是在首页?”“搜索框有没有加载出来?”)
  • 编写异常处理逻辑(“如果弹出权限框,就点允许;如果没反应,就重试3次”)

而Open-AutoGLM把这一切封装进模型内部。你面对的,只是一个“能听会看、会思考、会动手”的智能体。它的“自定义”,是语义层面的——你描述任务目标,它负责翻译成操作序列。

你原来要做的Open-AutoGLM里你只需做的
写50行Python脚本,调用ADB命令模拟点击坐标输入:“帮我打开小红书,搜‘轻食减脂餐’,点开第一个笔记,保存图片”
配置OCR识别文字,再匹配按钮文本它自动截图→理解界面→识别“搜索”图标→点击→输入文字→识别结果列表→点击第一项→长按唤出菜单→选“保存图片”
处理登录态、验证码、网络超时等边界情况框架内置人工接管机制:遇到验证码/二次验证/敏感操作,自动暂停并通知你,你点一下确认,它继续

所以,“不用写代码”的本质,是把开发者的思维负担,转交给多模态大模型来承担。你提供意图,它交付结果。

2.2 哪些任务能“一句话搞定”

不是所有指令都同样有效。经过实测,以下几类任务成功率高、体验流畅,特别适合新手快速建立信心:

  • 单App内线性流程
    “打开美团,搜‘附近火锅’,选评分4.8以上的店,点进去看人均和营业时间”
    成功率 >95%|关键:目标明确、路径清晰、界面元素标准

  • 跨App信息流转
    “截取微信里张三发的地址,打开高德地图,导航到那里”
    成功率 >90%|关键:涉及剪贴板读写,需开启ADB Keyboard权限

  • 带条件筛选的操作
    “在京东找iPhone 15,价格低于6000元的,加入购物车”
    成功率 >85%|关键:模型能理解“低于”“加入”等语义,并识别价格数字

  • 重复性高频操作
    “每天上午9点,打开企业微信,打卡,然后发条消息‘今日工作已开始’给部门群”
    可通过系统定时器+脚本组合实现|关键:一次配置,长期复用

当前不建议首次尝试的任务:
× 需要深度理解复杂图表(如Excel透视表)
× 涉及金融级安全操作(如网银转账,虽有确认机制,但建议人工主导)
× 界面极度非标的应用(如某些游戏内嵌浏览器)

3. 三步走:从零开始,让AI执行你的第一条指令

我们跳过“为什么需要Python 3.10”“vLLM显存怎么算”这些前置问题,聚焦最短路径。假设你已有一台Android手机(7.0+)、一台Windows/macOS电脑,且愿意花15分钟连接设备。

3.1 第一步:连上手机,让AI“看得见”

这步不写代码,只做三件事:

  1. 手机端准备(一次性)

    • 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式
    • 设置 → 开发者选项 → 打开“USB调试”
    • 下载安装 ADB Keyboard APK(官方推荐),安装后进入“语言与输入法” → 设为默认输入法
  2. 电脑端准备(一次性)

    • Windows:下载Platform-tools,解压后将文件夹路径添加到系统环境变量Path中
      → 打开CMD,输入adb version,看到版本号即成功
    • macOS:终端执行
      curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH=$PATH:$(pwd)/platform-tools adb version
  3. 物理连接验证(每次使用前)

    • 用USB线连接手机与电脑
    • CMD或终端输入:
      adb devices
      如果看到一串字母数字(如ABC123456789 device),说明连接成功。这就是你的--device-id

小技巧:如果不想总插线,首次USB连接后,执行adb tcpip 5555,然后断开USB,用WiFi连接:adb connect 192.168.1.100:5555(IP为你手机在同一WiFi下的地址)。后续就无线操控了。

3.2 第二步:启动服务,让AI“有脑子”

你不需要自己部署9B大模型。Open-AutoGLM设计了两种零门槛接入方式:

  • 方式A:用现成云端API(推荐新手)
    访问 智谱AI开放平台 或 ModelScope魔搭,申请免费API Key。
    启动命令中,--base-url直接填平台提供的接口地址,例如:
    --base-url https://open.bigmodel.cn/api/paas/v4/chat/completions
    (具体URL以平台文档为准,通常带/v4/chat/completions结尾)

  • 方式B:本地轻量模型(进阶可选)
    若你有RTX 3060及以上显卡,可一键拉起量化版:

    # 项目根目录下执行 python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B-GGUF \ --dtype half \ --gpu-memory-utilization 0.9 \ --port 8000

    此时--base-urlhttp://localhost:8000/v1即可。

验证是否通:运行

python scripts/check_deployment_cn.py \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b

看到✓ Model is ready即成功。

3.3 第三步:下达指令,看AI“动手做事”

现在,真正“不用写代码”的时刻来了。打开终端,进入Open-AutoGLM文件夹,执行:

python main.py \ --device-id ABC123456789 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索用户dycwo11nt61d,点关注按钮"

注意:

  • --device-id替换为你adb devices看到的ID
  • --base-url替换为你实际的服务地址(本地或云端)
  • 最后引号内的字符串,就是你的“自定义任务”——它就是全部代码

你会看到终端实时输出:

[INFO] 截图成功 → 正在分析屏幕... [INFO] 识别到顶部搜索栏 → 输入文字 'dycwo11nt61d' [INFO] 点击搜索结果第一项 → 进入个人主页 [INFO] 找到'关注'按钮(坐标 520, 890)→ 执行点击 [SUCCESS] 任务完成!耗时 12.4s

整个过程,你不需要:

  • 写任何click()函数
  • 查找idxpath
  • 判断“搜索框是否可编辑”
  • 处理“键盘弹出遮挡按钮”的异常

你只做了唯一一件事:用自然语言,准确描述了你想达成的结果

4. 让任务更聪明:三个不写代码的提效技巧

当基础指令跑通后,你可以用以下方法,让AI更精准、更可靠、更懂你,依然无需碰代码。

4.1 加一句“上下文”,解决歧义

有些指令本身模糊,比如:
❌ “打开设置,关掉蓝牙”
→ 手机可能有多个“设置”App(系统设置、厂商设置、第三方设置),AI可能选错。

改成:
“打开系统自带的设置App,找到蓝牙开关,把它关掉”
或更直白:
“在主屏幕下拉通知栏,找到蓝牙图标,点一下关掉”

原理:模型依赖视觉定位,你提供越具体的界面线索(“下拉通知栏”“顶部状态栏”“右上角三个点”),它越容易锁定目标区域,减少误操作。

4.2 用“分句指令”,拆解复杂任务

长指令易出错。与其写:
❌ “打开小红书,搜‘北京咖啡馆’,点开收藏夹里第三篇,复制标题,打开微信,发给文件传输助手”

不如拆成两步:
第一句:
“打开小红书,进入我的收藏,点开第三篇笔记,长按标题,选‘复制’”
第二句(等AI提示“已完成”后):
“打开微信,找到文件传输助手,粘贴刚才复制的内容,发送”

优势:

  • 每步目标单一,成功率更高
  • AI执行完一步会主动反馈,你可随时介入修正
  • 错误只发生在某一步,无需重跑全流程

4.3 善用“人工接管”,处理意外场景

遇到验证码、登录弹窗、权限请求时,AI不会强行操作,而是:

  1. 自动暂停,截图并显示在终端
  2. 输出提示:[WAITING] 检测到登录弹窗,请手动输入手机号并点‘下一步’,完成后按回车继续
  3. 你操作完,敲回车,AI继续后续步骤

这是框架内置的安全机制,也是你掌控全局的关键节点。它不追求100%全自动,而是在关键决策点,把选择权交还给你——这才是真正负责任的AI助手。

5. 这些真实场景,已经有人用它做到了

我们收集了社区用户的真实用例,它们共同特点是:没有一行定制代码,全靠自然语言驱动

5.1 场景一:新媒体运营人的“每日发布流水线”

用户需求:每天早9点,将公众号文章同步发到小红书、知乎、微博三个平台,配不同文案。

实现方式:

  • 写三条指令,分别保存为xiaohongshu.txtzhihu.txtweibo.txt
    xiaohongshu.txt内容:
    “打开小红书,点底部+号,选‘图文’,从相册选最新一张图,标题写‘打工人早餐灵感|3分钟搞定’,正文写‘附详细做法👇’,添加话题#快手早餐 #打工人必备,发布”

  • 用系统定时任务(Windows任务计划程序 / macOS launchd)每天9:01自动执行三条命令:

    python main.py --device-id XXX --base-url YYY "$(cat xiaohongshu.txt)" python main.py --device-id XXX --base-url YYY "$(cat zhihu.txt)" python main.py --device-id XXX --base-url YYY "$(cat weibo.txt)"

效果:

  • 运营人不再需要手动切App、找图片、编文案、选话题
  • 每日发布耗时从45分钟降至2分钟,且零遗漏

5.2 场景二:电商客服的“话术秒回机器人”

用户需求:客户在微信发“订单号123456,查物流”,客服需快速回复物流信息。

实现方式:

  • 指令:
    “打开微信,找到客户‘李四’的聊天窗口,读取最新一条消息,如果包含‘订单号’和数字,就打开淘宝App,点右上角‘我的’,点‘我的订单’,在搜索框粘贴那个订单号,截图物流信息,回到微信,把截图发给李四”

效果:

  • 客服只需盯着微信,AI自动完成查单、截图、发送全过程
  • 响应时间从2分钟缩短至15秒,客户满意度提升明显

5.3 场景三:父母的“远程手机管家”

子女需求:帮异地父母操作手机,但电话指导太难(“你点右上角…不是那个右上角,是微信聊天窗口的右上角…”)。

实现方式:

  • 子女在自己电脑上,用WiFi连接父母手机(adb connect 192.168.1.101:5555
  • 下达指令:
    “打开支付宝,点‘健康码’,截图,用微信发给我”

    “打开医院App,预约明天上午呼吸科,医生随便,时间选最早可约的”

效果:

  • 子女无需教父母任何操作,一句指令直达结果
  • 父母只需把手机放在桌上,全程“零学习成本”

6. 总结:你真正掌握的,是一种新工作流

回顾整个过程,你没有:

  • 阅读100页API文档
  • 调试XPath定位失败
  • 配置CUDA版本冲突
  • 编写异常重试逻辑

你只做了三件本质的事:

  1. 让设备可被看见(ADB连接)
  2. 让AI可被调用(服务地址配置)
  3. 用人类语言,清晰表达目标(自定义任务指令)

这就是Open-AutoGLM重新定义“自动化”的地方——它不把用户当作开发者,而是当作意图的发出者、结果的验收者、流程的监督者。技术藏在背后,语言走到台前。

下一步,你可以:

  • 尝试更复杂的跨App任务,比如“把豆瓣电影Top250表格,复制到石墨文档新建表格里”
  • 把常用指令存成快捷方式,双击即执行
  • 在GitHub Issues里提交你遇到的失败案例,帮助模型持续进化

真正的生产力革命,往往始于一句简单的话。现在,轮到你开口了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 19:26:04

Paraformer-large部署卡顿?显存优化技巧让GPU利用率翻倍

Paraformer-large部署卡顿?显存优化技巧让GPU利用率翻倍 1. 为什么Paraformer-large在Gradio界面里跑得慢? 你是不是也遇到过这种情况:明明用的是RTX 4090D,显存16GB,可一打开Paraformer-large的Gradio界面&#xff…

作者头像 李华
网站建设 2026/4/11 11:21:59

分辨率建议:让fft npainting lama发挥最佳效果

分辨率建议:让FFT NPainting LaMa发挥最佳效果 在图像修复领域,分辨率选择看似简单,实则直接影响修复质量、处理速度和细节还原能力。很多人以为“分辨率越高越好”,结果却遇到边缘生硬、纹理错乱、处理超时甚至内存溢出等问题。本…

作者头像 李华
网站建设 2026/4/13 7:42:50

亲测Qwen-Image-Edit-2511,修图效果惊艳到不敢相信

亲测Qwen-Image-Edit-2511,修图效果惊艳到不敢相信 测试日期:2025年4月 硬件环境:RTX 4090(24GB VRAM) AMD Ryzen 9 7950X 64GB RAM 软件环境:Ubuntu 22.04 / CUDA 12.1 / PyTorch 2.3 / ComfyUI 0.3.18 …

作者头像 李华
网站建设 2026/4/10 18:59:35

Z-Image-Turbo适合哪些场景?四个案例告诉你答案

Z-Image-Turbo适合哪些场景?四个案例告诉你答案 1. 为什么是这四个场景?——从真实需求出发的选择逻辑 很多人第一次打开 Z-Image-Turbo WebUI 时,会下意识输入“一只猫”或“一座山”,结果生成的图要么结构松散,要么…

作者头像 李华
网站建设 2026/4/11 14:51:41

低延迟多设备自建服务器:开源游戏实时画面传输解决方案深度指南

低延迟多设备自建服务器:开源游戏实时画面传输解决方案深度指南 【免费下载链接】Sunshine Sunshine: Sunshine是一个自托管的游戏流媒体服务器,支持通过Moonlight在各种设备上进行低延迟的游戏串流。 项目地址: https://gitcode.com/GitHub_Trending/…

作者头像 李华
网站建设 2026/4/13 9:20:21

5个技巧实现网盘直连下载:企业级提速指南

5个技巧实现网盘直连下载:企业级提速指南 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址 项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 在当今数字化办公环境中,网盘解析技术已成为提升工作效率的关键因素。本文将系统介绍如…

作者头像 李华