不用写代码!Open-AutoGLM自定义任务轻松设置
1. 这不是另一个“需要调参写脚本”的AI工具
你有没有过这样的时刻:想让手机自动完成一件事,比如“把微信里昨天的聊天截图发到钉钉群”,或者“在淘宝找到那款蓝色连衣裙,加购但不付款”——可翻遍教程,全是环境配置、模型加载、API密钥、JSON Schema……最后卡在pip install报错,放弃。
Open-AutoGLM不一样。它不强迫你成为开发者,而是把你当成一个会说话、有想法的用户。你只需要说一句自然语言,它就真能“看懂屏幕、想清楚步骤、点准按钮、做完事情”。整个过程,不需要写一行业务逻辑代码,也不用改模型提示词模板,更不用碰任何配置文件。
这不是概念演示,也不是简化版Demo。它是智谱开源的、已在真实安卓设备上稳定运行的Phone Agent框架,核心模型AutoGLM-Phone-9B专为手机交互优化,支持视觉理解+动作规划+ADB执行闭环。而“自定义任务”这件事,在Open-AutoGLM里,本质就是:把你想做的事,用你平时说话的方式,直接告诉它。
下面我会带你跳过所有技术前置条件,直奔“怎么让它听懂你、做对事”这个最实用的环节。即使你没装过Python、没连过ADB、甚至不知道vLLM是什么,也能在30分钟内,让AI替你打开App、搜索内容、点击按钮、输入文字——全程只靠一句话。
2. 什么是“不用写代码”的自定义任务
2.1 它到底省掉了什么
传统自动化工具(如Appium、UI Automator)要求你:
- 写代码定位元素(
find_element_by_id("com.xxxx:id/search_btn")) - 手动判断界面状态(“当前是不是在首页?”“搜索框有没有加载出来?”)
- 编写异常处理逻辑(“如果弹出权限框,就点允许;如果没反应,就重试3次”)
而Open-AutoGLM把这一切封装进模型内部。你面对的,只是一个“能听会看、会思考、会动手”的智能体。它的“自定义”,是语义层面的——你描述任务目标,它负责翻译成操作序列。
| 你原来要做的 | Open-AutoGLM里你只需做的 |
|---|---|
| 写50行Python脚本,调用ADB命令模拟点击坐标 | 输入:“帮我打开小红书,搜‘轻食减脂餐’,点开第一个笔记,保存图片” |
| 配置OCR识别文字,再匹配按钮文本 | 它自动截图→理解界面→识别“搜索”图标→点击→输入文字→识别结果列表→点击第一项→长按唤出菜单→选“保存图片” |
| 处理登录态、验证码、网络超时等边界情况 | 框架内置人工接管机制:遇到验证码/二次验证/敏感操作,自动暂停并通知你,你点一下确认,它继续 |
所以,“不用写代码”的本质,是把开发者的思维负担,转交给多模态大模型来承担。你提供意图,它交付结果。
2.2 哪些任务能“一句话搞定”
不是所有指令都同样有效。经过实测,以下几类任务成功率高、体验流畅,特别适合新手快速建立信心:
单App内线性流程:
“打开美团,搜‘附近火锅’,选评分4.8以上的店,点进去看人均和营业时间”
成功率 >95%|关键:目标明确、路径清晰、界面元素标准跨App信息流转:
“截取微信里张三发的地址,打开高德地图,导航到那里”
成功率 >90%|关键:涉及剪贴板读写,需开启ADB Keyboard权限带条件筛选的操作:
“在京东找iPhone 15,价格低于6000元的,加入购物车”
成功率 >85%|关键:模型能理解“低于”“加入”等语义,并识别价格数字重复性高频操作:
“每天上午9点,打开企业微信,打卡,然后发条消息‘今日工作已开始’给部门群”
可通过系统定时器+脚本组合实现|关键:一次配置,长期复用
当前不建议首次尝试的任务:
× 需要深度理解复杂图表(如Excel透视表)
× 涉及金融级安全操作(如网银转账,虽有确认机制,但建议人工主导)
× 界面极度非标的应用(如某些游戏内嵌浏览器)
3. 三步走:从零开始,让AI执行你的第一条指令
我们跳过“为什么需要Python 3.10”“vLLM显存怎么算”这些前置问题,聚焦最短路径。假设你已有一台Android手机(7.0+)、一台Windows/macOS电脑,且愿意花15分钟连接设备。
3.1 第一步:连上手机,让AI“看得见”
这步不写代码,只做三件事:
手机端准备(一次性)
- 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式
- 设置 → 开发者选项 → 打开“USB调试”
- 下载安装 ADB Keyboard APK(官方推荐),安装后进入“语言与输入法” → 设为默认输入法
电脑端准备(一次性)
- Windows:下载Platform-tools,解压后将文件夹路径添加到系统环境变量Path中
→ 打开CMD,输入adb version,看到版本号即成功 - macOS:终端执行
curl https://dl.google.com/android/repository/platform-tools-latest-darwin.zip -o platform-tools.zip unzip platform-tools.zip export PATH=$PATH:$(pwd)/platform-tools adb version
- Windows:下载Platform-tools,解压后将文件夹路径添加到系统环境变量Path中
物理连接验证(每次使用前)
- 用USB线连接手机与电脑
- CMD或终端输入:
如果看到一串字母数字(如adb devicesABC123456789 device),说明连接成功。这就是你的--device-id。
小技巧:如果不想总插线,首次USB连接后,执行
adb tcpip 5555,然后断开USB,用WiFi连接:adb connect 192.168.1.100:5555(IP为你手机在同一WiFi下的地址)。后续就无线操控了。
3.2 第二步:启动服务,让AI“有脑子”
你不需要自己部署9B大模型。Open-AutoGLM设计了两种零门槛接入方式:
方式A:用现成云端API(推荐新手)
访问 智谱AI开放平台 或 ModelScope魔搭,申请免费API Key。
启动命令中,--base-url直接填平台提供的接口地址,例如:--base-url https://open.bigmodel.cn/api/paas/v4/chat/completions
(具体URL以平台文档为准,通常带/v4/chat/completions结尾)方式B:本地轻量模型(进阶可选)
若你有RTX 3060及以上显卡,可一键拉起量化版:# 项目根目录下执行 python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B-GGUF \ --dtype half \ --gpu-memory-utilization 0.9 \ --port 8000此时
--base-url填http://localhost:8000/v1即可。
验证是否通:运行
python scripts/check_deployment_cn.py \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b看到✓ Model is ready即成功。
3.3 第三步:下达指令,看AI“动手做事”
现在,真正“不用写代码”的时刻来了。打开终端,进入Open-AutoGLM文件夹,执行:
python main.py \ --device-id ABC123456789 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索用户dycwo11nt61d,点关注按钮"注意:
--device-id替换为你adb devices看到的ID--base-url替换为你实际的服务地址(本地或云端)- 最后引号内的字符串,就是你的“自定义任务”——它就是全部代码。
你会看到终端实时输出:
[INFO] 截图成功 → 正在分析屏幕... [INFO] 识别到顶部搜索栏 → 输入文字 'dycwo11nt61d' [INFO] 点击搜索结果第一项 → 进入个人主页 [INFO] 找到'关注'按钮(坐标 520, 890)→ 执行点击 [SUCCESS] 任务完成!耗时 12.4s整个过程,你不需要:
- 写任何
click()函数 - 查找
id或xpath - 判断“搜索框是否可编辑”
- 处理“键盘弹出遮挡按钮”的异常
你只做了唯一一件事:用自然语言,准确描述了你想达成的结果。
4. 让任务更聪明:三个不写代码的提效技巧
当基础指令跑通后,你可以用以下方法,让AI更精准、更可靠、更懂你,依然无需碰代码。
4.1 加一句“上下文”,解决歧义
有些指令本身模糊,比如:
❌ “打开设置,关掉蓝牙”
→ 手机可能有多个“设置”App(系统设置、厂商设置、第三方设置),AI可能选错。
改成:
“打开系统自带的设置App,找到蓝牙开关,把它关掉”
或更直白:
“在主屏幕下拉通知栏,找到蓝牙图标,点一下关掉”
原理:模型依赖视觉定位,你提供越具体的界面线索(“下拉通知栏”“顶部状态栏”“右上角三个点”),它越容易锁定目标区域,减少误操作。
4.2 用“分句指令”,拆解复杂任务
长指令易出错。与其写:
❌ “打开小红书,搜‘北京咖啡馆’,点开收藏夹里第三篇,复制标题,打开微信,发给文件传输助手”
不如拆成两步:
第一句:
“打开小红书,进入我的收藏,点开第三篇笔记,长按标题,选‘复制’”
第二句(等AI提示“已完成”后):
“打开微信,找到文件传输助手,粘贴刚才复制的内容,发送”
优势:
- 每步目标单一,成功率更高
- AI执行完一步会主动反馈,你可随时介入修正
- 错误只发生在某一步,无需重跑全流程
4.3 善用“人工接管”,处理意外场景
遇到验证码、登录弹窗、权限请求时,AI不会强行操作,而是:
- 自动暂停,截图并显示在终端
- 输出提示:
[WAITING] 检测到登录弹窗,请手动输入手机号并点‘下一步’,完成后按回车继续 - 你操作完,敲回车,AI继续后续步骤
这是框架内置的安全机制,也是你掌控全局的关键节点。它不追求100%全自动,而是在关键决策点,把选择权交还给你——这才是真正负责任的AI助手。
5. 这些真实场景,已经有人用它做到了
我们收集了社区用户的真实用例,它们共同特点是:没有一行定制代码,全靠自然语言驱动。
5.1 场景一:新媒体运营人的“每日发布流水线”
用户需求:每天早9点,将公众号文章同步发到小红书、知乎、微博三个平台,配不同文案。
实现方式:
写三条指令,分别保存为
xiaohongshu.txt、zhihu.txt、weibo.txt:xiaohongshu.txt内容:
“打开小红书,点底部+号,选‘图文’,从相册选最新一张图,标题写‘打工人早餐灵感|3分钟搞定’,正文写‘附详细做法👇’,添加话题#快手早餐 #打工人必备,发布”用系统定时任务(Windows任务计划程序 / macOS launchd)每天9:01自动执行三条命令:
python main.py --device-id XXX --base-url YYY "$(cat xiaohongshu.txt)" python main.py --device-id XXX --base-url YYY "$(cat zhihu.txt)" python main.py --device-id XXX --base-url YYY "$(cat weibo.txt)"
效果:
- 运营人不再需要手动切App、找图片、编文案、选话题
- 每日发布耗时从45分钟降至2分钟,且零遗漏
5.2 场景二:电商客服的“话术秒回机器人”
用户需求:客户在微信发“订单号123456,查物流”,客服需快速回复物流信息。
实现方式:
- 指令:
“打开微信,找到客户‘李四’的聊天窗口,读取最新一条消息,如果包含‘订单号’和数字,就打开淘宝App,点右上角‘我的’,点‘我的订单’,在搜索框粘贴那个订单号,截图物流信息,回到微信,把截图发给李四”
效果:
- 客服只需盯着微信,AI自动完成查单、截图、发送全过程
- 响应时间从2分钟缩短至15秒,客户满意度提升明显
5.3 场景三:父母的“远程手机管家”
子女需求:帮异地父母操作手机,但电话指导太难(“你点右上角…不是那个右上角,是微信聊天窗口的右上角…”)。
实现方式:
- 子女在自己电脑上,用WiFi连接父母手机(
adb connect 192.168.1.101:5555) - 下达指令:
“打开支付宝,点‘健康码’,截图,用微信发给我”
或
“打开医院App,预约明天上午呼吸科,医生随便,时间选最早可约的”
效果:
- 子女无需教父母任何操作,一句指令直达结果
- 父母只需把手机放在桌上,全程“零学习成本”
6. 总结:你真正掌握的,是一种新工作流
回顾整个过程,你没有:
- 阅读100页API文档
- 调试XPath定位失败
- 配置CUDA版本冲突
- 编写异常重试逻辑
你只做了三件本质的事:
- 让设备可被看见(ADB连接)
- 让AI可被调用(服务地址配置)
- 用人类语言,清晰表达目标(自定义任务指令)
这就是Open-AutoGLM重新定义“自动化”的地方——它不把用户当作开发者,而是当作意图的发出者、结果的验收者、流程的监督者。技术藏在背后,语言走到台前。
下一步,你可以:
- 尝试更复杂的跨App任务,比如“把豆瓣电影Top250表格,复制到石墨文档新建表格里”
- 把常用指令存成快捷方式,双击即执行
- 在GitHub Issues里提交你遇到的失败案例,帮助模型持续进化
真正的生产力革命,往往始于一句简单的话。现在,轮到你开口了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。