特性 01
共在
私たちは同じ対象を共有します。Katchyはあなたが見ているのと同じウィンドウ、同じ段落、同じFigmaフレームを見ます。説明から推測しているのではなく、あなたが読んでいるピクセルを読んでいます。
Katchyでは
ScreenCaptureKitの単一フレーム、アクティブディスプレイに限定。
ひとつのショートカット。小さな4つのステージ。3つのフロンティアモデル。声に出して言える、ほぼ何でも静かにこなしてくれる、フレンドリーで無料のネイティブmacOSアプリ。その背後にあるインタラクションモデルについての短いエッセイ。
ローカルファースト · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon と Intel
始める前にひと言
幅広い読者のみなさんへお詫びを:このプロジェクトはまだ一週間目なので、バグに出くわすかもしれません。すぐに直します。来てくれて本当に、本当にありがとう。:D
インターフェースのかたちが、何が可能かを決めます。チャットは私たちに考えさせ、ツール使用は私たちに作らせ、エージェントはとうとうモデルにあなたと同じ画面を触らせました。面白いことはすべてその第三の時代にあり、Katchyはそこへの最も小さく、最も穏やかで、最もMacintoshらしい窓として作りました。
このページの残りは舞台裏のガイドです。キーを押してから答えが耳に届くまでに何が起きるのか。なぜ質問の内容によって違うフロンティアモデルにルーティングするのか。何があなたのMacから出ないのか。なるべく短くまとめました。
01b · 論旨
特性 01
私たちは同じ対象を共有します。Katchyはあなたが見ているのと同じウィンドウ、同じ段落、同じFigmaフレームを見ます。説明から推測しているのではなく、あなたが読んでいるピクセルを読んでいます。
Katchyでは
ScreenCaptureKitの単一フレーム、アクティブディスプレイに限定。
特性 02
作業中のフィードバック、後ではなく。Katchyはあなたが話し終えた瞬間に答えます。質問がまだ温かいうちに,送信ボタンも、スピナーも、メールチェーンもなく。
Katchyでは
ショートカットから最初のトークンまで、約80ミリ秒。
特性 03
二人とも同時に物事ができます。エージェントが47枚のスクリーンショットの名前を変えている間、あなたは打ち続けます。あなたがスクロールしている間、Katchyは推論し続けます。順番を待つ必要はありません。
Katchyでは
メインスレッド外のエージェントループ、⌘ . でいつでもキャンセル可能。
読んだもの
Thinking Machinesのインタラクションモデルに関するエッセイから、ほぼそのまま借りた3つの特性。人とでも、コードとでも、何とでも、本物のコラボレーションには3つが同時に必要だと主張します。今日のAIシステムの多くは自律動作向けに調整され、これらを完全に見落としています。Katchyはインタラクティブなケースのために作られています。
01 · インタラクションの問題
あなたが打つと、モデルが返す。コピーして、ペーストして、タブを行き来する。強力ですが、モデルはあなたが伝えたことしか知らず、あなたが見えるものには絶対触れられません。
考えるだけ。手なし。目なし。
モデルがAPIを呼び始めました。このファイルを読む。このデータベースを検索する。このメールを送る。素晴らしい、でも全部のツールを自分でコードでつなぐ必要がありました。
本物の力、でも配管はあなた。
モデルがあなたの画面を見て、計画を頭に置き、行動し、自分の仕事を確認し、本当に必要な時だけあなたに尋ねます。Katchyはここに生きています。
Katchyが生きる場所。
幕間 · 帯域幅の問題
「対面ではなく
メールで
意見の食い違いを解決するようなもの。」
チャットは一本の糸:あなたが書き終わるまでモデルは何も感じず、モデルが書き終わるまであなたも何も感じません。チャンネルは狭い。声と新鮮なスクリーンショットの組み合わせはもっと広いチャンネルで、それがKatchyが打つ代わりに話す理由です。
02 · ひとつのリクエストの解剖
すべてのリクエストは同じ4段階のパイプラインを通ります。ステージをクリックしてもいいし、ただ見ているだけでもいい、ダイアグラムは数秒ごとに自動で巡回し、あなたが操作した瞬間に止まります。
The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.
02b · アーキテクチャ
前 · 同期
あなたが話している間、ずっとそこにいます。会話を短期記憶に保ち、あなたが考え中か、譲っているか、割り込んでいるかを追います。まばたきの時間くらいで答えます。
後ろ · 非同期
遅く長い作業を引き受けます。ファイルシステム、AppleScript、Shortcuts、ブラウザなどのツールを持つ多段のエージェントループ。計画し、行動し、自分の出力を読み返し、もう一度試します。終わったら報告します。
これはThinking Machinesが提案する二部構成のアーキテクチャの縮小版です。インタラクションモデルが小さなモデルの応答速度を与え、バックグラウンドモデルが大きなモデルの計画力とツール使用を与えます。文脈を共有し、つなぎ目は見えません。
03 · スタック、レイヤーごとに

01 · 聞く
ControlとOptionを押し続けます。macOSがCoreAudioでローカルに音声を取り込みます。波形は可能ならデバイス上で文字起こしされ、その後トリミングされ、フロンティアモデルが必要な時だけ送信されます。

02 · 見る
質問に文脈が必要な時、ScreenCaptureKitが単一の絞ったフレームを取ります。Katchyは動画をストリーミングせず、連続録画もせず、回答後にスクリーンショットを保存しません。

03 · 考える
Katchyはリクエストを最も適したフロンティアモデルにルーティングします。長いPDFはClaudeへ。視覚的な作業はGeminiへ。コードと素早い編集はGPTへ。ルーターが選び、あなたは静かにしているだけ。

04 · 動く
ワンクリックで十分な時は、優しい三角が答えを指します。10クリック必要な時は、複数ステップのエージェントがバックグラウンドで動きます。両方とも記憶を共有し、あなたが終わると終わります。
04 · ルーターの判断
小さな分類器があなたの書き起こしとページのトークンを読み、それぞれのリクエストを最も合うモデルに割り振ります。いくつか試してみてください、ルーターは仕事を見せます。
質問を試す
“いま開いたこの60ページのPDFを要約して”
この選択の理由: 長いコンテキスト、構造化された文書への入念な推論。
05 · 3つの頭脳、ひとつのメニューバー
OpenAI
素早い編集、コードレビュー、文と半分で返ってきてほしい構造的な書き直しのために、ここに来ます。
Anthropic
長い文書、注意深い推論、自信たっぷりに間違えた答えを避けたい場面のために、ここに来ます。
画面重視の瞬間、チャート、スライド、ビジュアルが質問の半分を占める場合のために、ここに来ます。
06 · できること
読み書き
“あの60ページのPDFを要約する”
読む
“丁寧な「いいえ」を起草する”
書く
“簡単なチェンジログを書く”
書く
“スペイン語に翻訳”
書く
“昨日の下書きを再開”
書く
“週間サマリーを生成”
書く
ファイルとシステム
“47枚のスクリーンショットの名前を変える”
ファイル
“デスクトップを片付ける”
ファイル
“このCSVからデータを引き出す”
数値
“これらをPNGに変換”
ファイル
“最後のスクリーンショットを開く”
ファイル
“Spotifyをメニューバーに固定”
システム
“このコマンドは何をする?”
ターミナル
“これを表に変換”
数値
毎日の流れ
“受信箱を仕分ける”
メール
“これをCursorで開く”
コード
“スタンドアップを組み直す”
カレンダー
“これらの写真を顔でタグ付け”
写真
“Slackを1時間ミュート”
集中
“このファイルで何が変わった?”
コード
“これをリマインダーに追加”
タスク
“失くしたあのPDFを探す”
検索
そして、それ以外も全部
これらは今週のいくつかです。本当のリストは、画面を指差しながら声で言えることなら何でも。残りはエージェントがやります。
06 · 数字で見る
一つのメニューバーにフロンティアモデル
私たちが所有するサーバー、決して
ショートカットがUI全体
全てを置くディスク容量
ショートカットから最初のトークンまで
あなたが頼むまでMacから出るファイル
07 · あなたのMac全体で






08 · 肝心なところはローカルで
音声はRAMに取り込まれ、リクエストが終わった瞬間に捨てられます。スクリーンショットはメモリにとどまります。会話はサーバーではなくApplication Supportフォルダに置かれます。
ルーターは音声を話した部分だけに切り詰め、どのスクリーンショットからもメニューバーとDockをマスクし、モデルが必要としない会話履歴は決して送りません。
Anthropic、OpenAI、Googleの鍵はあなたのmacOSキーチェーンに置かれます。私たちが見ることはありません。いつでも引き出したり差し替えたりできます。
⌘ . でリクエストを途中で止められます。エージェントは毎ループでキャンセルフラグを確認します。「片付け中、しばらくお待ちください」はありません。
09 · 短い読書リスト
Scottの実践知の概念。確率的、直感的、ローカル。不確実性が高く、正しい答えがその部屋に依存する時にふさわしい推論。エージェントにはそれが必要です。
重要な知識は時と場所の特定の状況に住んでいます。今、あなたの目の前の画面が、まさにその知識です。Katchyはそれを読みます。
Sutton。手作りのシステムは一般的な能力+スケールに追い越されます。だから表面は退屈で名前がよく、ハードな部分はフロンティアモデルに任せます。
Ongが説く口頭コミュニケーションの参加的な性質。声は箱に打つよりも自然な協働に近いです。Push-to-talkはトリックではありません,正しいインターフェースです。
脚注
ボトルネック
今日のフロンティアモデルは「自律的、長時間」の使用に最適化されています。最近のフロンティアモデルカードは「インタラクティブで同期的、手をキーボードに置くパターンで使う時、モデルの利益は明確ではなかった」と認めています。本物の仕事のほとんどはインタラクティブです。Katchyはそのケースのために真っ直ぐに作られています。
帯域幅
チャットは一本の糸:あなたが打ち終わるまでモデルは何も感じず、モデルが書き終わるまであなたは何も感じません。Thinking Machinesはこれを人間とAIの協働のための狭いチャンネルと呼びます。声と新鮮なスクリーンショットの組み合わせは、はるかに広いチャンネルです。
インタラクションモデル + バックグラウンドモデル
彼らの提案するアーキテクチャは二つの半分を持ちます。存在し続け同期するインタラクションモデル。より長い視野の作業を非同期で引き受けるバックグラウンドモデル。Katchyはきれいにマップします:メニューバーがインタラクションモデル、エージェントループがバックグラウンドモデル、コンテキストを共有します。
最後にひとつ
ダウンロードは3分。覚えるのは一つのキーの組み合わせ。今から宇宙の熱的死まで、毎日0ユーロ。