Vlastnost 01
Spolupřítomnost
Sdílíme stejný objekt. Katchy se dívá na stejné okno, stejný odstavec, stejný snímek Figmy jako ty. Nehadí podle popisu, čte stejné pixely jako ty.
V Katchy
ScreenCaptureKit, jediný snímek, omezený na aktivní displej.
Jedna klávesová zkratka. Čtyři malé fáze. Tři špičkové modely. Krátká esej o interakčním modelu za přátelskou, zdarma šířenou nativní macOS aplikací, která potichu zvládne skoro vše, co dokážeš popsat nahlas.
Nejprve lokálně · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon a Intel
Poznámka, než začneme
S omluvou širokému publiku: na projektu jsme teprve týden, takže můžeš narazit na jeden či dva bugy. Záplatujeme rychle a jsme moc, moc vděční, že ses zastavil. :D
Tvar rozhraní rozhoduje, co je možné. Chat nás přiměl přemýšlet. Použití nástrojů nás přimělo stavět. Agenti konečně nechali model dotýkat se stejné obrazovky jako ty. Všechno zajímavé žije v té třetí éře a Katchy je nejmenší, nejklidnější a nejvíce macintoshovsky tvarované okno do ní, jaké jsme dokázali udělat.
Zbytek stránky je průvodce pod kapotou. Co se děje mezi tvým stisknutím klávesy a odpovědí v uchu. Proč podle dotazu směrujeme na jiný špičkový model. Co nikdy neopustí tvůj Mac. Snažili jsme se krátce.
01b · Teze
Vlastnost 01
Sdílíme stejný objekt. Katchy se dívá na stejné okno, stejný odstavec, stejný snímek Figmy jako ty. Nehadí podle popisu, čte stejné pixely jako ty.
V Katchy
ScreenCaptureKit, jediný snímek, omezený na aktivní displej.
Vlastnost 02
Zpětná vazba během práce, ne potom. Katchy odpovídá ve chvíli, kdy přestaneš mluvit, dokud je otázka ještě teplá, žádné tlačítko odeslat, žádný spinner, žádný řetězec e-mailů.
V Katchy
Od zkratky k prvnímu tokenu, přibližně 80 milisekund.
Vlastnost 03
Oba můžeme dělat věci současně. Ty pokračuješ v psaní, zatímco agent přejmenovává 47 snímků. Katchy pokračuje v uvažování, zatímco ty rolujeme. Nikdo nemusí čekat na svou řadu.
V Katchy
Smyčka agenta mimo hlavní vlákno, kdykoli zrušitelná pomocí ⌘ .
Co jsme četli
Tři vlastnosti, téměř doslovně z eseje Thinking Machines o interakčních modelech. Tvrdí, že skutečná spolupráce, s lidmi, s kódem, s čímkoli, vyžaduje všechny tři najednou. Většina dnešních AI systémů je vyladěná na autonomní provoz a zcela je přehlíží. Katchy je postavená přímo pro interaktivní případ.
01 · Problém interakce
Ty píšeš, model píše zpátky. Kopíruješ, vkládáš, skáčeš mezi záložkami. Mocné, ale model ví jen to, co mu řekneš, a nikdy se nemůže dotknout toho, co vidíš.
Jen myšlenka. Bez rukou. Bez očí.
Modely začaly volat API. Přečti tento soubor. Hledej v této databázi. Pošli tento e-mail. Báječné, ale stále jsi musel každý nástroj propojit sám v kódu.
Skutečná síla, ale instalatér jsi ty.
Model sleduje tvou obrazovku, drží plán v hlavě, jedná, kontroluje svou práci a ptá se tě jen tehdy, když opravdu potřebuje. Tady žije Katchy.
Kde Katchy žije.
Mezihra · problém šířky pásma
„Jako řešit neshody
e-mailem místo
tváří v tvář."
Chat je jediná nit: dokud nedopíšeš, model nic nevnímá; dokud nedopíše on, ty nevnímáš nic. Kanál je úzký. Hlas plus čerstvý snímek obrazovky je mnohem širší kanál, a proto Katchy mluví místo psaní.
02 · Anatomie jednoho požadavku
Každý požadavek prochází stejnou čtyřstupňovou pipeline. Klikni na fázi nebo se jen dívej, diagram sám cyklicky postupuje každých pár sekund a zastaví se ve chvíli, kdy převezmeš.
The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.
02b · Architektura
Přední · synchronně
Zůstává u tebe, když mluvíš. Drží rozhovor v krátkodobé paměti. Sleduje, jestli přemýšlíš, předáváš slovo, nebo skáčeš do řeči. Odpovídá zhruba za mrknutí oka.
Zadní · asynchronně
Bere si pomalou, vytrvalou práci. Vícekroková agentní smyčka s nástroji: souborový systém, AppleScript, Shortcuts, prohlížeč. Plánuje, jedná, čte vlastní výstup, zkouší znovu. Hlásí se, když je hotovo.
Tohle je dvousložková architektura, kterou navrhuje Thinking Machines, v miniatuře. Interakční model ti dává odezvu malého modelu. Pozadí ti dává plánování a nástroje velkého. Sdílejí kontext. Švy nikdy nevidíš.
03 · Stack, vrstva po vrstvě

01 · Naslouchá
Podrž Control a Option. macOS zachytává zvuk lokálně přes CoreAudio. Vlna se přepisuje na zařízení, pokud to jde, pak se zkrátí a odešle jen tehdy, když je potřeba špičkový model.

02 · Vidí
Když otázka potřebuje kontext, ScreenCaptureKit pořídí jediný cílený snímek. Katchy nikdy nestreamuje video, nikdy nenahrává nepřetržitě, nikdy neukládá snímky po odpovědi.

03 · Myslí
Katchy směruje požadavek tomu špičkovému modelu, který to zvládne nejlépe. Dlouhá PDF Claudovi. Vizuální úkoly Geminimu. Kód a rychlé úpravy GPT. Router vybírá, ty zůstáváš v klidu.

04 · Jedná
Přátelský trojúhelník ukazuje na odpověď, když stačí jedno kliknutí. Vícekrokový agent běží na pozadí, když je potřeba deset. Oba sdílejí paměť, oba se vypínají s tebou.
04 · Rozhodnutí routeru
Malý klasifikátor přečte tvůj přepis a tokeny stránky a pošle každý požadavek modelu, který se hodí nejlépe. Vyzkoušej si pár sám, router ukazuje svou práci.
Vyzkoušejte otázku
“Shrň tento 60stránkový PDF, který jsem právě otevřel”
Proč právě tenhle: Dlouhý kontext, pečlivé uvažování nad strukturovaným dokumentem.
05 · Tři mozky, jedna lišta nabídek
OpenAI
Jde sem na rychlé úpravy, code review a ten typ strukturovaného přepisování, kdy chceš odpověď zpátky v půldruhé větě.
Anthropic
Jde sem na dlouhé dokumenty, opatrné uvažování a vše, kde radši nechceš sebevědomě špatnou odpověď.
Jde sem na obrazovkově náročné chvíle, grafy, slidy a případy, kdy je vizuál polovinou otázky.
06 · Schopnosti
Čtení a psaní
“Shrň ten PDF na 60 stran”
Čtení
“Sestav zdvořilé ne”
Psaní
“Napiš rychlý changelog”
Psaní
“Přelož do španělštiny”
Psaní
“Pokračuj ve včerejším konceptu”
Psaní
“Vygeneruj týdenní shrnutí”
Psaní
Soubory a systém
“Přejmenuj 47 snímků”
Soubory
“Ukliď plochu”
Soubory
“Vytáhni data z tohoto CSV”
Čísla
“Převeď tyto do PNG”
Soubory
“Otevři poslední snímek”
Soubory
“Připni Spotify k liště nabídek”
Systém
“Co dělá tento příkaz?”
Terminál
“Převeď to do tabulky”
Čísla
Denní tok
“Setřiď doručenou poštu”
Pošta
“Otevři to v Cursor”
Kód
“Přesuň standup”
Kalendář
“Označ tyto fotky podle obličeje”
Fotky
“Ztlum Slack na hodinu”
Soustředění
“Co se v tomto souboru změnilo?”
Kód
“Přidej to do Připomínek”
Úkoly
“Najdi ten PDF, co jsem ztratil”
Vyhledávání
A cokoli dalšího
Pár ukázek z tohoto týdne. Skutečný seznam je vše, co umíš říct nahlas a ukázat na obrazovku. Zbytek udělají agenti.
06 · V číslech
špičkové modely v jedné liště nabídek
serverů, které vlastníme, nikdy
klávesová zkratka je celé UI
místa na disku, abychom to celé hostili
od uvolnění zkratky k prvnímu tokenu
souborů opouští tvůj Mac, dokud nepožádáš
07 · Napříč celým tvým Macem






08 · Lokálně tam, kde záleží
Zvuk se zachytí do RAM a vyhodí v okamžiku, kdy požadavek skončí. Snímky zůstávají v paměti. Konverzace žijí ve tvé složce Application Support, ne na serveru.
Router ořeže audio jen na mluvenou část, maskuje lištu nabídek a dock z jakéhokoli snímku a nikdy neposílá historii, kterou model nepotřebuje.
Klíče Anthropic, OpenAI a Google žijí v tvé macOS klíčence. My je nikdy nevidíme. Kdykoli si je můžeš vytáhnout nebo vyměnit.
⌘ . zastaví požadavek za letu. Agenti kontrolují flag pro zrušení v každém kole. Není žádné „počkej, dokud nedouklízíme".
09 · Krátký seznam četby
Scottův pojem praktického vědění. Stochastický, intuitivní, lokální. Uvažování, které sedí, když je nejistota vysoká a správná odpověď závisí na místnosti. Agenti to potřebují.
Důležité vědění žije v konkrétních okolnostech času a místa. Obrazovka před tebou právě teď je přesně tato znalost. Katchy ji čte.
Sutton. Ručně dělané systémy je předbíhá obecná schopnost + měřítko. Proto držíme povrch nudný a dobře pojmenovaný a tvrdou část necháváme špičkovým modelům.
Ong o participativní povaze ústní komunikace. Hlas je blíž přirozené spolupráci než psaní do okénka. Push-to-talk není trik, je to správné rozhraní.
Poznámky
Úzké místo
Dnešní špičkové modely jsou optimalizovány pro "autonomní, dlouhotrvající" použití. Nedávný model-card přiznává, že "při interaktivním, synchronním používání s rukama na klávesnici byly výhody modelu méně jasné". Většina skutečné práce je interaktivní. Katchy je postavená přímo pro tento případ.
Šířka pásma
Chat je jedna nit: dokud nedopíšeš, model nic nevnímá; dokud on nedopíše, ty nic nevnímáš. Thinking Machines tomu říká úzký kanál pro spolupráci člověka a AI. Hlas plus čerstvý snímek je mnohem širší kanál.
Interakční model + model pozadí
Jejich navržená architektura má dvě poloviny. Interakční model, který zůstává přítomný a synchronní. Model pozadí, který bere delší práci asynchronně. Katchy sedí čistě: lišta nabídek je interakční model, smyčka agenta je model pozadí, a sdílejí kontext.
Poslední věc
Tři minuty na stažení. Jeden akord k zapamatování. Nula eur, každý den od teď až do tepelné smrti vesmíru.