Katchy is a free menu-bar AI assistant for macOS. Hold Control and Option, talk, and Katchy answers questions about whatever is on your screen, routing each one to the best of GPT, Claude, or Gemini.

Four modes from one hotkey: push-to-talk voice, screen-aware answers that see what is on your Mac, a cursor overlay that points right at the answer, and background agents that handle multi-step tasks across Files, Mail, the browser, and AppleScript.

How much does Katchy cost?

Katchy is free forever with gentle in-app ads. Katchy Pro shows far fewer ads and unlocks unlimited questions and agent runs for €19.99 per month or €215.89 per year (about 10% cheaper than monthly).

Yes. Katchy is free forever, including 100 questions and 35 agent runs a month across all three AI models. Pro lifts those limits and shows fewer ads.

What do I need to run Katchy?

macOS 14.2 or later on Apple Silicon or Intel, and about 860 MB of space. No account or sign-up is needed to download it.

Which AI models does Katchy use?

GPT, Claude, and Gemini. Katchy routes each question to whichever model handles it best, all from one menu-bar app.

Katchy is local-first. Transcription runs on-device where possible, and your screen is only captured when you ask for help; it never leaves your Mac unless a question needs it.

Download it free for macOS at heyyykatchy.com/download.

一份田野指南第 01 卷 · 2026

Katchy 是怎么运作的。

一个快捷键。四个小阶段。三个前沿模型。一篇关于交互模型的短文，这个模型让一款友好、免费、原生的 macOS 应用，安静地完成几乎所有你能说出口的事。

下载 Katchy 阅读流水线

本地优先 · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon 和 Intel

01交互的问题
02一次请求的解剖
03技术栈，层层剖开
04路由器的判断
05三个大脑，一个菜单栏
06Agent 能做什么
07在该本地的地方本地

开始之前的小注

向广大读者致歉：这个项目我们才做了一周，所以你可能会撞上一两个 bug。我们修得很快，也非常、非常感激你来看看。:D

界面的形状决定了什么是可能的。聊天让我们思考。工具调用让我们建造。Agent 终于让模型触碰你正在看的同一块屏幕。所有有趣的事都活在那第三个时代里，Katchy 是我们能造出的、通往它的最小、最安静、最 Macintosh 形状的窗。

这一页的其余部分，是引擎盖下的导览。你按下按键到答案抵达耳边之间发生了什么。为什么我们根据你的问题路由到不同的前沿模型。哪些东西从不离开你的 Mac。我们尽量写得短。

01b · 论点

协作真正
需要的东西。

属性 01

共同在场

我们共享同一个对象。Katchy 看的就是你看的同一个窗口、同一段、同一个 Figma 框。它不是从描述里猜，它读的是你正读的像素。

在 Katchy 里
ScreenCaptureKit 单帧，限定在活动显示器上。

属性 02

同时性

反馈在工作进行中给出，而不是之后。Katchy 在你停止说话的那一刻就回答，趁问题还热着，没有提交按钮、没有 spinner、没有邮件长链。

在 Katchy 里
从快捷键到第一个 token，约 80 毫秒。

属性 03

并行性

两边可以同时做事。你继续打字，Agent 在重命名 47 张截图。Katchy 继续推理，你在滚动。谁都不用等谁。

在 Katchy 里
主线程外的 Agent 循环，随时可用 ⌘ . 取消。

我们读过什么

三个属性，几乎一字不差地取自 Thinking Machines 关于交互模型的文章。他们认为，真正的协作，和人、和代码、和任何东西，都需要这三者同时存在。今天大多数 AI 系统是为自主运行调校的，完全错过了它们。Katchy 完全建立在交互这一面。

01 · 交互的问题

和计算机
说话的
三个时代。

1.0聊天

你打字，模型回复。你复制、粘贴、在标签页之间切换。强大，但模型只知道你告诉它的，永远碰不到你看到的东西。

全是思考。没有手，没有眼。

2.0工具使用

模型开始调用 API。读这个文件。搜这个数据库。发这封邮件。很棒，但你还是得自己用代码把每个工具串起来。

有真功夫，但你是管道工。

3.0Agent

模型看着你的屏幕，心里有计划，采取行动，检查自己的成果，只有真正需要时才问你。Katchy 就活在这里。

Katchy 活的地方。

插曲 · 带宽问题

“就像用邮件而
不是当面
解决分歧。”
- Thinking Machines，论协作的瓶颈

聊天是一条单线：在你打字结束之前，模型什么都感觉不到；在它写完之前，你什么都感觉不到。通道很窄。语音加一张新鲜的截图，是一条宽得多的通道，这就是 Katchy 选择说话而不是打字的原因。

02 · 一次请求的解剖

在那八十
毫秒里
发生了什么。

每个请求都走相同的四阶段流水线。点击某个阶段，或者只是看着，图表每隔几秒自动循环，在你接管的那一刻停下。

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

CoreAudio capture at 16 kHz mono
On-device Whisper transcription when supported
Voice activity detection trims dead air before upload
Buffer is discarded the moment the request finishes

02b · 架构

交互模型
在前。背景
模型在后。

前 · 同步

交互
模型。

在你说话时一直在场。把对话保留在短期记忆里。识别你是在思考、让位还是打断。在大约一次眨眼的时间内回应。

按住说话的音频 + 一张截图。
流式 token，绝不是“请稍候”。
用 ⌘ . 可中途取消。

后 · 异步

背景
模型。

承担缓慢、持续的工作。一个多步 Agent 循环，带着工具：文件系统、AppleScript、Shortcuts、浏览器。计划、行动、回看自己的输出、再来一次。完成后回头汇报。

跑在主线程之外，绝不卡住 UI。
与前端共享对话上下文。
最终结果以菜单栏的安静通知到达。

这就是 Thinking Machines 提出的两段式架构的微型版。交互模型给你小模型的响应速度。背景模型给你大模型的规划力和工具使用。它们共享上下文，缝合处你看不到。

03 · 技术栈，层层剖开

四个小巧、无聊、
名字起得极好的
Apple 框架。

01 · 听

按住说话

按住 Control 和 Option。macOS 通过 CoreAudio 在本地采集音频。波形尽可能在设备上转写，然后裁剪，只有需要前沿模型时才发送出去。

02 · 看

你屏幕的一个快照

当问题需要上下文时，ScreenCaptureKit 抓取单帧、范围明确的画面。Katchy 从不流式传输视频、从不持续录制、从不在答完后保存截图。

03 · 想

对的大脑干对的活

Katchy 把请求路由到最合适的前沿模型。长 PDF 给 Claude。视觉密集的给 Gemini。代码和快速编辑给 GPT。路由器来选，你只管不动。

04 · 做

光标 + Agent，在你的菜单栏

一键足够时，友好的三角箭头指向答案。需要十次点击时，多步 Agent 在后台运行。两者共享同一份记忆，你停它们也停。

04 · 路由器的判断

一句话进来，
正确的大脑
接手。

一个小分类器读取你的转录和页面 token，然后把每个请求派发到最合适的模型。你自己试几个，路由器会显示它的思路。

试问一个问题

路由决策

“总结我刚打开的这份60页PDF”

OpenAIGPT

AnthropicClaude

GoogleGemini

Multi-stepAgent

选它的原因：长上下文，对结构化文档的细致推理。

05 · 三个大脑，一个菜单栏

不同的问题
值得不同的
模型。

OpenAI

GPT

用在快速编辑、代码审查，以及你希望一句半就把答案返回的结构化改写。

精炼改写
代码审查
快速编辑

Anthropic

Claude

用在长文档、谨慎推理，以及任何你宁可没答案也不想要一个自信但错的答案的场景。

长上下文
谨慎推理
细腻写作

Google

Gemini

用在屏幕信息密集的时刻、图表、幻灯片，以及视觉占了一半问题的情况。

视觉
图表和幻灯
出活快

06 · 能力

一份你可以直接
说出口的简短菜单。

读和写

“把那份 60 页 PDF 总结一下”
阅读
“起草一份礼貌的拒绝”
写作
“写一份简短的 changelog”
写作
“翻译成西班牙语”
写作
“继续昨天的草稿”
写作
“生成本周小结”
写作

文件和系统

“重命名 47 张截图”
文件
“清理桌面”
文件
“从这个 CSV 里拉数据”
数字
“把这些转成 PNG”
文件
“打开最后一张截图”
文件
“把 Spotify 钉到菜单栏”
系统
“这条命令是做什么的？”
终端
“把这个转成表格”
数字

日常流程

“整理收件箱”
邮件
“用 Cursor 打开这个”
代码
“改下 standup 时间”
日历
“按人脸给这些照片打标签”
照片
“把 Slack 静音一小时”
专注
“这个文件改了什么？”
代码
“把这个加到提醒事项”
任务
“找到那份我丢的 PDF”
搜索

以及其他任何事

这只是本周的几个。真正的清单，是你指着屏幕能用嘴说出的任何事。其余的交给 Agent。

06 · 数字

一款安静的
Agent 型应用
能拿出的成绩。

3

前沿模型，集中在一个菜单栏

0

我们自己拥有的服务器，永远是零

1

快捷键就是整个 UI

~ 80 MB

硬盘空间承载这一切

80 ms

从快捷键松开到第一个 token

0

文件离开你的 Mac，直到你开口

07 · 横跨你整台 Mac

同一个循环。每个应用。
每个工作流。

08 · 在该本地的地方本地

未经询问，
你的屏幕不会
离开你的 Mac。

默认本地。

音频被采集到 RAM，请求一完成就丢弃。截图留在内存里。会话存在你的 Application Support 文件夹，不在服务器上。

尽可能小的负载。

路由器会把音频裁剪到只剩说话部分，从任何截图里遮掉菜单栏和 Dock，绝不发送模型不需要的对话历史。

自带密钥。

Anthropic、OpenAI 和 Google 的密钥住在你的 macOS 钥匙串里。我们从不看到它们。你随时可以取走或更换。

每一步都可取消。

⌘ . 可在半路停下请求。Agent 每次循环都会检查取消标志。没有“请等我们收拾一下”。

09 · 一份简短书单

站在
四对
肩膀上。

Metis

Scott 的实践智慧概念。随机、直觉、本地。在不确定性高、正确答案取决于现场时合适的推理。Agent 需要它。

哈耶克的知识问题

重要的知识活在特定时空的具体情境里。此刻你眼前的屏幕，正是那种知识。Katchy 读它。

苦涩的教训

Sutton。手工系统会被通用能力 + 规模超越。所以我们让表面无聊且名字起得好，把硬活留给前沿模型。

口承文化

Ong 谈口头交流的参与性。声音比往框里打字更接近自然协作。按住说话不是噱头，它是正确的界面。

脚注

瓶颈
当下的前沿模型大多为「自治、长时运行」优化。最近一份前沿模型卡承认「以交互式、同步、手放键盘的方式使用时，模型的收益不够清晰」。真实工作大多是交互的。Katchy 正是为这种情形而建。
带宽
聊天是一根单线：在你打字结束前，模型什么都感觉不到；在它写完前，你也什么都感觉不到。Thinking Machines 称之为人机协作的狭窄通道。语音加一张新鲜截图就宽得多。
交互模型 + 后台模型
他们的两段式架构：一个保持在场、同步的交互模型；一个异步承担更长时程工作的后台模型。Katchy 干净地映射上去：菜单栏是交互模型，Agent 循环是后台模型，二者共享上下文。

最后一件事

一个快捷键。
整个界面。

下载 3 分钟。一个组合键要记。零欧元，从今天起每天，直到宇宙热寂。

下载 Katchy 返回首页

macOS 14.2+ · Apple Silicon 和 Intel · ~860 MB

Katchy 是怎么运作的。

协作真正需要的东西。

共同在场

同时性

并行性

和计算机说话的三个时代。

在那八十毫秒里发生了什么。

Press ⌃ ⌥. Talk like a human.

交互模型在前。背景模型在后。

交互模型。

背景模型。

四个小巧、无聊、名字起得极好的Apple 框架。

按住 说话

你屏幕的 一个快照

对的大脑 干对的活

光标 + Agent， 在你的菜单栏

一句话进来，正确的大脑接手。

不同的问题值得不同的模型。

GPT