Computer Use 和 Browser Bridge

Axiomate 不只会读写代码和运行命令,也可以在需要时连接本机桌面和浏览器能力。这里的重点不是简单“看图点鼠标”,而是 Axiomate 可以结合本地元素识别、窗口信息、控件位置和输入事件,让不支持图片识别的模型也能完成一部分电脑控制任务。

快速上手阶段需要先理解两个概念:

  • Computer Use:让 Axiomate 操作本机桌面环境,例如截图、鼠标、键盘、窗口、剪贴板和本地元素等。
  • Browser Bridge:让 Axiomate 连接一个隔离的本地 Chromium 浏览器,通过浏览器调试协议读取页面、点击元素、填写表单、查看 console、截图等。

它们都属于“让 Axiomate 看见并操作外部界面”的能力,但适合的场景不同。Computer Use 的优势在于使用本机能力补足模型限制:即使当前 AI 模型本身不能识别图片,也可以通过 Axiomate 提供的本地元素和操作工具理解界面结构并执行动作。

什么时候用 Computer Use

Computer Use 更适合桌面级操作,例如:

  • 查看当前屏幕或某个应用窗口。
  • 操作没有命令行接口的桌面应用。
  • 需要键盘、鼠标、剪贴板配合的流程。
  • 检查安装器、系统弹窗、原生 GUI 状态。

Computer Use 面向真实桌面环境,动作更接近用户亲自操作电脑。因此,涉及登录、敏感信息、外部发送或不可逆操作时,应格外确认。

什么时候用 Browser Bridge

Browser Bridge 更适合网页和前端调试,例如:

  • 打开本地预览站点,检查页面内容和交互。
  • 读取页面 accessibility tree,按按钮、文本、label 等语义定位元素。
  • 查看 browser console,定位前端错误。
  • 对页面截图,检查布局、弹窗、图片和响应式效果。
  • 填写表单或点击链接,验证用户流程。

Browser Bridge 需要本机已经安装 Chrome/Chromium 系浏览器。推荐安装 Google Chrome

Browser Bridge 使用隔离的 Chromium profile,不会接管用户正在使用的真实浏览器登录态,也不会使用用户浏览器扩展。它适合安全地调试本地页面和公开网页。

两者怎么选

场景优先使用
检查网站页面、前端交互、console 错误Browser Bridge
查看本地应用窗口、安装器或系统弹窗Computer Use
需要按语义查找网页按钮、输入框、链接Browser Bridge
需要操作非网页 GUIComputer Use
只需要读写代码、运行测试通常不需要这两者

和权限的关系

Computer Use 和 Browser Bridge 暴露的是更接近真实用户操作的能力。Axiomate 调用这些工具时,仍然会经过当前权限模式和审批流程。

建议:

  • 让 Axiomate 先说明要操作哪个窗口或网页。
  • 对登录、付款、发消息、提交表单、删除数据等动作保持确认。
  • 调试网页时优先使用 Browser Bridge,而不是直接操作用户真实浏览器。
  • 如果只是看代码或运行测试,不要主动启用桌面/浏览器操作。

快速例子

如果你想检查本地预览页面,可以这样说:

打开本地预览页面,检查快速上手侧栏里是否出现新文章,并看一下浏览器 console 有没有错误。

Axiomate 通常会优先使用 Browser Bridge,因为这是网页调试场景。

如果你想检查安装器界面,可以这样说:

看一下当前安装器窗口,确认下一步按钮是否可用。

这类任务通常需要 Computer Use,因为目标是桌面窗口而不是网页。