コンテンツにスキップ
katchyfor mac
フィールドガイドVol. 01 · 2026

Katchyの仕組み。

ひとつのショートカット。小さな4つのステージ。3つのフロンティアモデル。声に出して言える、ほぼ何でも静かにこなしてくれる、フレンドリーで無料のネイティブmacOSアプリ。その背後にあるインタラクションモデルについての短いエッセイ。

ローカルファースト · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon と Intel

始める前にひと言

幅広い読者のみなさんへお詫びを:このプロジェクトはまだ一週間目なので、バグに出くわすかもしれません。すぐに直します。来てくれて本当に、本当にありがとう。:D

インターフェースのかたちが、何が可能かを決めます。チャットは私たちに考えさせ、ツール使用は私たちに作らせ、エージェントはとうとうモデルにあなたと同じ画面を触らせました。面白いことはすべてその第三の時代にあり、Katchyはそこへの最も小さく、最も穏やかで、最もMacintoshらしい窓として作りました。

このページの残りは舞台裏のガイドです。キーを押してから答えが耳に届くまでに何が起きるのか。なぜ質問の内容によって違うフロンティアモデルにルーティングするのか。何があなたのMacから出ないのか。なるべく短くまとめました。

01b · 論旨

コラボレーションに
本当に必要なもの。

特性 01

共在

私たちは同じ対象を共有します。Katchyはあなたが見ているのと同じウィンドウ、同じ段落、同じFigmaフレームを見ます。説明から推測しているのではなく、あなたが読んでいるピクセルを読んでいます。

Katchyでは
ScreenCaptureKitの単一フレーム、アクティブディスプレイに限定。

特性 02

同時代性

作業中のフィードバック、後ではなく。Katchyはあなたが話し終えた瞬間に答えます。質問がまだ温かいうちに,送信ボタンも、スピナーも、メールチェーンもなく。

Katchyでは
ショートカットから最初のトークンまで、約80ミリ秒。

特性 03

同時性

二人とも同時に物事ができます。エージェントが47枚のスクリーンショットの名前を変えている間、あなたは打ち続けます。あなたがスクロールしている間、Katchyは推論し続けます。順番を待つ必要はありません。

Katchyでは
メインスレッド外のエージェントループ、⌘ . でいつでもキャンセル可能。

読んだもの

Thinking Machinesのインタラクションモデルに関するエッセイから、ほぼそのまま借りた3つの特性。人とでも、コードとでも、何とでも、本物のコラボレーションには3つが同時に必要だと主張します。今日のAIシステムの多くは自律動作向けに調整され、これらを完全に見落としています。Katchyはインタラクティブなケースのために作られています。

01 · インタラクションの問題

コンピュータと
話す3つの
時代。

1.0チャット

あなたが打つと、モデルが返す。コピーして、ペーストして、タブを行き来する。強力ですが、モデルはあなたが伝えたことしか知らず、あなたが見えるものには絶対触れられません。

考えるだけ。手なし。目なし。

2.0ツール使用

モデルがAPIを呼び始めました。このファイルを読む。このデータベースを検索する。このメールを送る。素晴らしい、でも全部のツールを自分でコードでつなぐ必要がありました。

本物の力、でも配管はあなた。

3.0エージェント

モデルがあなたの画面を見て、計画を頭に置き、行動し、自分の仕事を確認し、本当に必要な時だけあなたに尋ねます。Katchyはここに生きています。

Katchyが生きる場所。

幕間 · 帯域幅の問題

「対面ではなく
メールで 意見の食い違いを解決するようなもの。」

- Thinking Machines、コラボレーションのボトルネックについて

チャットは一本の糸:あなたが書き終わるまでモデルは何も感じず、モデルが書き終わるまであなたも何も感じません。チャンネルは狭い。声と新鮮なスクリーンショットの組み合わせはもっと広いチャンネルで、それがKatchyが打つ代わりに話す理由です。

02 · ひとつのリクエストの解剖

あの八十
ミリ秒で
起こること。

すべてのリクエストは同じ4段階のパイプラインを通ります。ステージをクリックしてもいいし、ただ見ているだけでもいい、ダイアグラムは数秒ごとに自動で巡回し、あなたが操作した瞬間に止まります。

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · アーキテクチャ

インタラクションモデル
が前に。バックグラウンド
モデルが後ろに。

前 · 同期

インタラクション
モデル。

あなたが話している間、ずっとそこにいます。会話を短期記憶に保ち、あなたが考え中か、譲っているか、割り込んでいるかを追います。まばたきの時間くらいで答えます。

  • プッシュトゥトーク音声+スクリーンショット1枚。
  • ストリーミングトークン、決して「お待ちください」とは言わない。
  • ⌘ . で途中キャンセル可能。

後ろ · 非同期

バックグラウンド
モデル。

遅く長い作業を引き受けます。ファイルシステム、AppleScript、Shortcuts、ブラウザなどのツールを持つ多段のエージェントループ。計画し、行動し、自分の出力を読み返し、もう一度試します。終わったら報告します。

  • メインスレッドの外で動き、UIを止めません。
  • 会話の文脈を前と共有します。
  • 最終結果はメニューバーの静かな通知として届きます。

これはThinking Machinesが提案する二部構成のアーキテクチャの縮小版です。インタラクションモデルが小さなモデルの応答速度を与え、バックグラウンドモデルが大きなモデルの計画力とツール使用を与えます。文脈を共有し、つなぎ目は見えません。

03 · スタック、レイヤーごとに

小さくて、地味で、
とても良い名前の
Appleの4つのフレームワーク。

01 · 聞く

押して 話す

ControlとOptionを押し続けます。macOSがCoreAudioでローカルに音声を取り込みます。波形は可能ならデバイス上で文字起こしされ、その後トリミングされ、フロンティアモデルが必要な時だけ送信されます。

02 · 見る

あなたの画面の 一枚のスナップ

質問に文脈が必要な時、ScreenCaptureKitが単一の絞ったフレームを取ります。Katchyは動画をストリーミングせず、連続録画もせず、回答後にスクリーンショットを保存しません。

03 · 考える

仕事に合った 正しい頭脳

Katchyはリクエストを最も適したフロンティアモデルにルーティングします。長いPDFはClaudeへ。視覚的な作業はGeminiへ。コードと素早い編集はGPTへ。ルーターが選び、あなたは静かにしているだけ。

04 · 動く

カーソル+エージェント、 メニューバーに

ワンクリックで十分な時は、優しい三角が答えを指します。10クリック必要な時は、複数ステップのエージェントがバックグラウンドで動きます。両方とも記憶を共有し、あなたが終わると終わります。

04 · ルーターの判断

ひとつの文が入って、
正しい頭脳が
それに当たる。

小さな分類器があなたの書き起こしとページのトークンを読み、それぞれのリクエストを最も合うモデルに割り振ります。いくつか試してみてください、ルーターは仕事を見せます。

質問を試す

ルーターの判断

いま開いたこの60ページのPDFを要約して

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

この選択の理由: 長いコンテキスト、構造化された文書への入念な推論。

05 · 3つの頭脳、ひとつのメニューバー

違う質問には
違うモデルが
ふさわしい。

OpenAI

GPT

素早い編集、コードレビュー、文と半分で返ってきてほしい構造的な書き直しのために、ここに来ます。

  • 締まった書き直し
  • コードレビュー
  • 素早い編集

Anthropic

Claude

長い文書、注意深い推論、自信たっぷりに間違えた答えを避けたい場面のために、ここに来ます。

  • 長いコンテキスト
  • 注意深い推論
  • ニュアンスのある執筆

Google

Gemini

画面重視の瞬間、チャート、スライド、ビジュアルが質問の半分を占める場合のために、ここに来ます。

  • 視覚
  • チャートとスライド
  • 速い応答

06 · できること

そのまま声で言える 小さなメニュー。

読み書き

  • あの60ページのPDFを要約する

    読む

  • 丁寧な「いいえ」を起草する

    書く

  • 簡単なチェンジログを書く

    書く

  • スペイン語に翻訳

    書く

  • 昨日の下書きを再開

    書く

  • 週間サマリーを生成

    書く

ファイルとシステム

  • 47枚のスクリーンショットの名前を変える

    ファイル

  • デスクトップを片付ける

    ファイル

  • このCSVからデータを引き出す

    数値

  • これらをPNGに変換

    ファイル

  • 最後のスクリーンショットを開く

    ファイル

  • Spotifyをメニューバーに固定

    システム

  • このコマンドは何をする?

    ターミナル

  • これを表に変換

    数値

毎日の流れ

  • 受信箱を仕分ける

    メール

  • これをCursorで開く

    コード

  • スタンドアップを組み直す

    カレンダー

  • これらの写真を顔でタグ付け

    写真

  • Slackを1時間ミュート

    集中

  • このファイルで何が変わった?

    コード

  • これをリマインダーに追加

    タスク

  • 失くしたあのPDFを探す

    検索

そして、それ以外も全部

これらは今週のいくつかです。本当のリストは、画面を指差しながら声で言えることなら何でも。残りはエージェントがやります。

06 · 数字で見る

静かなエージェント型
アプリが対峙する
数字。

3

一つのメニューバーにフロンティアモデル

0

私たちが所有するサーバー、決して

1

ショートカットがUI全体

~ 80 MB

全てを置くディスク容量

80 ms

ショートカットから最初のトークンまで

0

あなたが頼むまでMacから出るファイル

07 · あなたのMac全体で

同じループ。あらゆるアプリ。
あらゆるワークフロー。

08 · 肝心なところはローカルで

あなたの画面は
勝手にMacを
出ません。

  1. 01

    ローカルがデフォルト。

    音声はRAMに取り込まれ、リクエストが終わった瞬間に捨てられます。スクリーンショットはメモリにとどまります。会話はサーバーではなくApplication Supportフォルダに置かれます。

  2. 02

    ペイロードは可能な限り小さく。

    ルーターは音声を話した部分だけに切り詰め、どのスクリーンショットからもメニューバーとDockをマスクし、モデルが必要としない会話履歴は決して送りません。

  3. 03

    鍵は自分のものを持ち込む。

    Anthropic、OpenAI、Googleの鍵はあなたのmacOSキーチェーンに置かれます。私たちが見ることはありません。いつでも引き出したり差し替えたりできます。

  4. 04

    どの段階でもキャンセル可能。

    ⌘ . でリクエストを途中で止められます。エージェントは毎ループでキャンセルフラグを確認します。「片付け中、しばらくお待ちください」はありません。

09 · 短い読書リスト

4組の肩の
上に
立っています。

  1. 01

    メティス

    Scottの実践知の概念。確率的、直感的、ローカル。不確実性が高く、正しい答えがその部屋に依存する時にふさわしい推論。エージェントにはそれが必要です。

  2. 02

    ハイエクの知識問題

    重要な知識は時と場所の特定の状況に住んでいます。今、あなたの目の前の画面が、まさにその知識です。Katchyはそれを読みます。

  3. 03

    苦い教訓

    Sutton。手作りのシステムは一般的な能力+スケールに追い越されます。だから表面は退屈で名前がよく、ハードな部分はフロンティアモデルに任せます。

  4. 04

    口承性

    Ongが説く口頭コミュニケーションの参加的な性質。声は箱に打つよりも自然な協働に近いです。Push-to-talkはトリックではありません,正しいインターフェースです。

脚注

  • ボトルネック

    今日のフロンティアモデルは「自律的、長時間」の使用に最適化されています。最近のフロンティアモデルカードは「インタラクティブで同期的、手をキーボードに置くパターンで使う時、モデルの利益は明確ではなかった」と認めています。本物の仕事のほとんどはインタラクティブです。Katchyはそのケースのために真っ直ぐに作られています。

  • 帯域幅

    チャットは一本の糸:あなたが打ち終わるまでモデルは何も感じず、モデルが書き終わるまであなたは何も感じません。Thinking Machinesはこれを人間とAIの協働のための狭いチャンネルと呼びます。声と新鮮なスクリーンショットの組み合わせは、はるかに広いチャンネルです。

  • インタラクションモデル + バックグラウンドモデル

    彼らの提案するアーキテクチャは二つの半分を持ちます。存在し続け同期するインタラクションモデル。より長い視野の作業を非同期で引き受けるバックグラウンドモデル。Katchyはきれいにマップします:メニューバーがインタラクションモデル、エージェントループがバックグラウンドモデル、コンテキストを共有します。

最後にひとつ

ひとつのショートカット。
インターフェース全部。

ダウンロードは3分。覚えるのは一つのキーの組み合わせ。今から宇宙の熱的死まで、毎日0ユーロ。

Katchyをダウンロードホームに戻る

macOS 14.2+ · Apple Silicon と Intel · ~860 MB