Přejít na obsah
katchyfor mac
Terénní průvodceSvazek 01 · 2026

Jak Katchy funguje.

Jedna klávesová zkratka. Čtyři malé fáze. Tři špičkové modely. Krátká esej o interakčním modelu za přátelskou, zdarma šířenou nativní macOS aplikací, která potichu zvládne skoro vše, co dokážeš popsat nahlas.

Nejprve lokálně · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon a Intel

Poznámka, než začneme

S omluvou širokému publiku: na projektu jsme teprve týden, takže můžeš narazit na jeden či dva bugy. Záplatujeme rychle a jsme moc, moc vděční, že ses zastavil. :D

Tvar rozhraní rozhoduje, co je možné. Chat nás přiměl přemýšlet. Použití nástrojů nás přimělo stavět. Agenti konečně nechali model dotýkat se stejné obrazovky jako ty. Všechno zajímavé žije v té třetí éře a Katchy je nejmenší, nejklidnější a nejvíce macintoshovsky tvarované okno do ní, jaké jsme dokázali udělat.

Zbytek stránky je průvodce pod kapotou. Co se děje mezi tvým stisknutím klávesy a odpovědí v uchu. Proč podle dotazu směrujeme na jiný špičkový model. Co nikdy neopustí tvůj Mac. Snažili jsme se krátce.

01b · Teze

Co spolupráce
doopravdy potřebuje.

Vlastnost 01

Spolupřítomnost

Sdílíme stejný objekt. Katchy se dívá na stejné okno, stejný odstavec, stejný snímek Figmy jako ty. Nehadí podle popisu, čte stejné pixely jako ty.

V Katchy
ScreenCaptureKit, jediný snímek, omezený na aktivní displej.

Vlastnost 02

Současnost

Zpětná vazba během práce, ne potom. Katchy odpovídá ve chvíli, kdy přestaneš mluvit, dokud je otázka ještě teplá, žádné tlačítko odeslat, žádný spinner, žádný řetězec e-mailů.

V Katchy
Od zkratky k prvnímu tokenu, přibližně 80 milisekund.

Vlastnost 03

Souběžnost

Oba můžeme dělat věci současně. Ty pokračuješ v psaní, zatímco agent přejmenovává 47 snímků. Katchy pokračuje v uvažování, zatímco ty rolujeme. Nikdo nemusí čekat na svou řadu.

V Katchy
Smyčka agenta mimo hlavní vlákno, kdykoli zrušitelná pomocí ⌘ .

Co jsme četli

Tři vlastnosti, téměř doslovně z eseje Thinking Machines o interakčních modelech. Tvrdí, že skutečná spolupráce, s lidmi, s kódem, s čímkoli, vyžaduje všechny tři najednou. Většina dnešních AI systémů je vyladěná na autonomní provoz a zcela je přehlíží. Katchy je postavená přímo pro interaktivní případ.

01 · Problém interakce

Tři éry
mluvení s
počítačem.

1.0Chat

Ty píšeš, model píše zpátky. Kopíruješ, vkládáš, skáčeš mezi záložkami. Mocné, ale model ví jen to, co mu řekneš, a nikdy se nemůže dotknout toho, co vidíš.

Jen myšlenka. Bez rukou. Bez očí.

2.0Použití nástrojů

Modely začaly volat API. Přečti tento soubor. Hledej v této databázi. Pošli tento e-mail. Báječné, ale stále jsi musel každý nástroj propojit sám v kódu.

Skutečná síla, ale instalatér jsi ty.

3.0Agenti

Model sleduje tvou obrazovku, drží plán v hlavě, jedná, kontroluje svou práci a ptá se tě jen tehdy, když opravdu potřebuje. Tady žije Katchy.

Kde Katchy žije.

Mezihra · problém šířky pásma

„Jako řešit neshody
e-mailem místo tváří v tvář."

- Thinking Machines, o úzkém hrdle spolupráce

Chat je jediná nit: dokud nedopíšeš, model nic nevnímá; dokud nedopíše on, ty nevnímáš nic. Kanál je úzký. Hlas plus čerstvý snímek obrazovky je mnohem širší kanál, a proto Katchy mluví místo psaní.

02 · Anatomie jednoho požadavku

Co se stane
v těch osmdesáti
milisekundách.

Každý požadavek prochází stejnou čtyřstupňovou pipeline. Klikni na fázi nebo se jen dívej, diagram sám cyklicky postupuje každých pár sekund a zastaví se ve chvíli, kdy převezmeš.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architektura

Interakční model
vepředu. Pozadí
vzadu.

Přední · synchronně

Interakční
model.

Zůstává u tebe, když mluvíš. Drží rozhovor v krátkodobé paměti. Sleduje, jestli přemýšlíš, předáváš slovo, nebo skáčeš do řeči. Odpovídá zhruba za mrknutí oka.

  • Push-to-talk zvuk + jeden snímek obrazovky.
  • Streamované tokeny, nikdy „okamžik prosím".
  • Lze zrušit za letu pomocí ⌘ .

Zadní · asynchronně

Model
v pozadí.

Bere si pomalou, vytrvalou práci. Vícekroková agentní smyčka s nástroji: souborový systém, AppleScript, Shortcuts, prohlížeč. Plánuje, jedná, čte vlastní výstup, zkouší znovu. Hlásí se, když je hotovo.

  • Běží mimo hlavní vlákno, nikdy neblokuje UI.
  • Sdílí kontext rozhovoru s přední částí.
  • Výsledek dorazí jako tiché upozornění v liště nabídek.

Tohle je dvousložková architektura, kterou navrhuje Thinking Machines, v miniatuře. Interakční model ti dává odezvu malého modelu. Pozadí ti dává plánování a nástroje velkého. Sdílejí kontext. Švy nikdy nevidíš.

03 · Stack, vrstva po vrstvě

Čtyři malé, nudné,
naprosto skvěle pojmenované
frameworky od Apple.

01 · Naslouchá

Podrž a mluv

Podrž Control a Option. macOS zachytává zvuk lokálně přes CoreAudio. Vlna se přepisuje na zařízení, pokud to jde, pak se zkrátí a odešle jen tehdy, když je potřeba špičkový model.

02 · Vidí

Snímek tvé obrazovky

Když otázka potřebuje kontext, ScreenCaptureKit pořídí jediný cílený snímek. Katchy nikdy nestreamuje video, nikdy nenahrává nepřetržitě, nikdy neukládá snímky po odpovědi.

03 · Myslí

Správný mozek pro úkol

Katchy směruje požadavek tomu špičkovému modelu, který to zvládne nejlépe. Dlouhá PDF Claudovi. Vizuální úkoly Geminimu. Kód a rychlé úpravy GPT. Router vybírá, ty zůstáváš v klidu.

04 · Jedná

Kurzor + agenti, ve tvé liště nabídek

Přátelský trojúhelník ukazuje na odpověď, když stačí jedno kliknutí. Vícekrokový agent běží na pozadí, když je potřeba deset. Oba sdílejí paměť, oba se vypínají s tebou.

04 · Rozhodnutí routeru

Přijde jedna věta,
správný mozek
se toho ujme.

Malý klasifikátor přečte tvůj přepis a tokeny stránky a pošle každý požadavek modelu, který se hodí nejlépe. Vyzkoušej si pár sám, router ukazuje svou práci.

Vyzkoušejte otázku

Rozhodnutí routeru

Shrň tento 60stránkový PDF, který jsem právě otevřel

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Proč právě tenhle: Dlouhý kontext, pečlivé uvažování nad strukturovaným dokumentem.

05 · Tři mozky, jedna lišta nabídek

Různé otázky
si zaslouží různé
modely.

OpenAI

GPT

Jde sem na rychlé úpravy, code review a ten typ strukturovaného přepisování, kdy chceš odpověď zpátky v půldruhé větě.

  • Sevřené přepisy
  • Code review
  • Rychlé úpravy

Anthropic

Claude

Jde sem na dlouhé dokumenty, opatrné uvažování a vše, kde radši nechceš sebevědomě špatnou odpověď.

  • Dlouhý kontext
  • Opatrné uvažování
  • Nuancované psaní

Google

Gemini

Jde sem na obrazovkově náročné chvíle, grafy, slidy a případy, kdy je vizuál polovinou otázky.

  • Vidění
  • Grafy a slidy
  • Rychlá odpověď

06 · Schopnosti

Krátké menu věcí, které prostě řekneš.

Čtení a psaní

  • Shrň ten PDF na 60 stran

    Čtení

  • Sestav zdvořilé ne

    Psaní

  • Napiš rychlý changelog

    Psaní

  • Přelož do španělštiny

    Psaní

  • Pokračuj ve včerejším konceptu

    Psaní

  • Vygeneruj týdenní shrnutí

    Psaní

Soubory a systém

  • Přejmenuj 47 snímků

    Soubory

  • Ukliď plochu

    Soubory

  • Vytáhni data z tohoto CSV

    Čísla

  • Převeď tyto do PNG

    Soubory

  • Otevři poslední snímek

    Soubory

  • Připni Spotify k liště nabídek

    Systém

  • Co dělá tento příkaz?

    Terminál

  • Převeď to do tabulky

    Čísla

Denní tok

  • Setřiď doručenou poštu

    Pošta

  • Otevři to v Cursor

    Kód

  • Přesuň standup

    Kalendář

  • Označ tyto fotky podle obličeje

    Fotky

  • Ztlum Slack na hodinu

    Soustředění

  • Co se v tomto souboru změnilo?

    Kód

  • Přidej to do Připomínek

    Úkoly

  • Najdi ten PDF, co jsem ztratil

    Vyhledávání

A cokoli dalšího

Pár ukázek z tohoto týdne. Skutečný seznam je vše, co umíš říct nahlas a ukázat na obrazovku. Zbytek udělají agenti.

06 · V číslech

S čím se srovnává
klidná agentní
aplikace.

3

špičkové modely v jedné liště nabídek

0

serverů, které vlastníme, nikdy

1

klávesová zkratka je celé UI

~ 80 MB

místa na disku, abychom to celé hostili

80 ms

od uvolnění zkratky k prvnímu tokenu

0

souborů opouští tvůj Mac, dokud nepožádáš

07 · Napříč celým tvým Macem

Stejná smyčka. Každá aplikace.
Každý workflow.

08 · Lokálně tam, kde záleží

Tvoje obrazovka
neopustí Mac,
aniž bys řekl.

  1. 01

    Lokálně ve výchozím nastavení.

    Zvuk se zachytí do RAM a vyhodí v okamžiku, kdy požadavek skončí. Snímky zůstávají v paměti. Konverzace žijí ve tvé složce Application Support, ne na serveru.

  2. 02

    Nejmenší možný payload.

    Router ořeže audio jen na mluvenou část, maskuje lištu nabídek a dock z jakéhokoli snímku a nikdy neposílá historii, kterou model nepotřebuje.

  3. 03

    Přines si vlastní klíče.

    Klíče Anthropic, OpenAI a Google žijí v tvé macOS klíčence. My je nikdy nevidíme. Kdykoli si je můžeš vytáhnout nebo vyměnit.

  4. 04

    Lze zrušit v každém kroku.

    ⌘ . zastaví požadavek za letu. Agenti kontrolují flag pro zrušení v každém kole. Není žádné „počkej, dokud nedouklízíme".

09 · Krátký seznam četby

Stojíme na
čtyřech párech
ramen.

  1. 01

    Metis

    Scottův pojem praktického vědění. Stochastický, intuitivní, lokální. Uvažování, které sedí, když je nejistota vysoká a správná odpověď závisí na místnosti. Agenti to potřebují.

  2. 02

    Hayekův problém znalostí

    Důležité vědění žije v konkrétních okolnostech času a místa. Obrazovka před tebou právě teď je přesně tato znalost. Katchy ji čte.

  3. 03

    Hořká lekce

    Sutton. Ručně dělané systémy je předbíhá obecná schopnost + měřítko. Proto držíme povrch nudný a dobře pojmenovaný a tvrdou část necháváme špičkovým modelům.

  4. 04

    Ústnost

    Ong o participativní povaze ústní komunikace. Hlas je blíž přirozené spolupráci než psaní do okénka. Push-to-talk není trik, je to správné rozhraní.

Poznámky

  • Úzké místo

    Dnešní špičkové modely jsou optimalizovány pro "autonomní, dlouhotrvající" použití. Nedávný model-card přiznává, že "při interaktivním, synchronním používání s rukama na klávesnici byly výhody modelu méně jasné". Většina skutečné práce je interaktivní. Katchy je postavená přímo pro tento případ.

  • Šířka pásma

    Chat je jedna nit: dokud nedopíšeš, model nic nevnímá; dokud on nedopíše, ty nic nevnímáš. Thinking Machines tomu říká úzký kanál pro spolupráci člověka a AI. Hlas plus čerstvý snímek je mnohem širší kanál.

  • Interakční model + model pozadí

    Jejich navržená architektura má dvě poloviny. Interakční model, který zůstává přítomný a synchronní. Model pozadí, který bere delší práci asynchronně. Katchy sedí čistě: lišta nabídek je interakční model, smyčka agenta je model pozadí, a sdílejí kontext.

Poslední věc

Jedna klávesová zkratka.
Celé rozhraní.

Tři minuty na stažení. Jeden akord k zapamatování. Nula eur, každý den od teď až do tepelné smrti vesmíru.

Stáhnout KatchyZpět na hlavní stránku

macOS 14.2+ · Apple Silicon a Intel · ~860 MB