跳到内容
文档

功能 · 4 分钟阅读

Agent Mode

Agent Mode 用来应付一切超过一句话的活儿。说一声「hey agent」,或者抛出一个明显需要多个步骤的任务,Katchy 会派出一个后台会话,负责规划、执行、检查自己的工作,最后把结果显示在你光标旁边的一张小停靠卡上。

agent 能做什么

  • 在你授权过的任何位置读写文件。
  • 执行命令行,git、npm、curl、python,凡是在 PATH 里的都行。
  • 打开应用,点击、拖动、输入(需要启用 Computer Use)。
  • 上网搜索、跟着链接走。
  • 保留记忆,每完成一项任务都会留下日志,未来的会话都能知道发生过什么。

agent 不能做什么

  • 碰你没给过的 macOS 权限之外的任何东西。
  • 使用没交给它的凭证。
  • 撑过 Katchy 退出,关掉应用会把进行中的 agent 干净地停下来。

停靠卡

agent 工作期间,你会在光标旁边看到一张小卡片,上面有:

  • 任务标题(自动生成,名词在前,比如「提醒事项整理」,而不是「能不能麻烦你……」)
  • 当前阶段,规划中 / 执行中 / 撰写回复 / 完成
  • 一行实时进度,显示最新的命令行指令或助手片段
  • 任务结束时给出的下一步建议

点卡片可以看完整对话记录,也可以直接按「停止 / 关闭」,根本不用打开仪表盘。

语音 + agent 的组合拳

这两种模式天生就是搭配着用的。语音在前台(一问一答),agent 在后台(长任务)。一个典型的循环:

  1. 语音:「这个测试为什么过不了?」
  2. 听完答案,想一想。
  3. 交接:「hey agent,把 auth/session.ts 里缺的 import 补上,然后重跑测试。」
  4. 继续干下一件事。停靠卡完成时会闪一下。

破坏性操作会先问一下

删除、发送、发布、覆盖,这些破坏性动作默认都会先请你确认。其它操作都能用平常的 Cmd-Z 撤回。随时可以用同一个 Control + Option 快捷键把 agent 停下来。

也可作为 纯 markdown.

下一篇 , 功能

Agent 引擎:Codex 与 Hermes

Agent Mode 由两种引擎驱动。Codex 是打磨好的默认选项。Hermes 是开源、完全本地的另一种选择。这里说说各自什么时候更合适。