Computer Use 和 Browser Bridge
Axiomate 不只会读写代码和运行命令,也可以在需要时连接本机桌面和浏览器能力。这里的重点不是简单“看图点鼠标”,而是 Axiomate 可以结合本地元素识别、窗口信息、控件位置和输入事件,让不支持图片识别的模型也能完成一部分电脑控制任务。
快速上手阶段需要先理解两个概念:
- Computer Use:让 Axiomate 操作本机桌面环境,例如截图、鼠标、键盘、窗口、剪贴板和本地元素等。
- Browser Bridge:让 Axiomate 连接一个隔离的本地 Chromium 浏览器,通过浏览器调试协议读取页面、点击元素、填写表单、查看 console、截图等。
它们都属于“让 Axiomate 看见并操作外部界面”的能力,但适合的场景不同。Computer Use 的优势在于使用本机能力补足模型限制:即使当前 AI 模型本身不能识别图片,也可以通过 Axiomate 提供的本地元素和操作工具理解界面结构并执行动作。
什么时候用 Computer Use
Computer Use 更适合桌面级操作,例如:
- 查看当前屏幕或某个应用窗口。
- 操作没有命令行接口的桌面应用。
- 需要键盘、鼠标、剪贴板配合的流程。
- 检查安装器、系统弹窗、原生 GUI 状态。
Computer Use 面向真实桌面环境,动作更接近用户亲自操作电脑。因此,涉及登录、敏感信息、外部发送或不可逆操作时,应格外确认。
什么时候用 Browser Bridge
Browser Bridge 更适合网页和前端调试,例如:
- 打开本地预览站点,检查页面内容和交互。
- 读取页面 accessibility tree,按按钮、文本、label 等语义定位元素。
- 查看 browser console,定位前端错误。
- 对页面截图,检查布局、弹窗、图片和响应式效果。
- 填写表单或点击链接,验证用户流程。
Browser Bridge 需要本机已经安装 Chrome/Chromium 系浏览器。推荐安装 Google Chrome。
Browser Bridge 使用隔离的 Chromium profile,不会接管用户正在使用的真实浏览器登录态,也不会使用用户浏览器扩展。它适合安全地调试本地页面和公开网页。
两者怎么选
| 场景 | 优先使用 |
|---|---|
| 检查网站页面、前端交互、console 错误 | Browser Bridge |
| 查看本地应用窗口、安装器或系统弹窗 | Computer Use |
| 需要按语义查找网页按钮、输入框、链接 | Browser Bridge |
| 需要操作非网页 GUI | Computer Use |
| 只需要读写代码、运行测试 | 通常不需要这两者 |
和权限的关系
Computer Use 和 Browser Bridge 暴露的是更接近真实用户操作的能力。Axiomate 调用这些工具时,仍然会经过当前权限模式和审批流程。
建议:
- 让 Axiomate 先说明要操作哪个窗口或网页。
- 对登录、付款、发消息、提交表单、删除数据等动作保持确认。
- 调试网页时优先使用 Browser Bridge,而不是直接操作用户真实浏览器。
- 如果只是看代码或运行测试,不要主动启用桌面/浏览器操作。
快速例子
如果你想检查本地预览页面,可以这样说:
打开本地预览页面,检查快速上手侧栏里是否出现新文章,并看一下浏览器 console 有没有错误。
Axiomate 通常会优先使用 Browser Bridge,因为这是网页调试场景。
如果你想检查安装器界面,可以这样说:
看一下当前安装器窗口,确认下一步按钮是否可用。
这类任务通常需要 Computer Use,因为目标是桌面窗口而不是网页。