Prejsť na obsah
katchyfor mac
Terénny sprievodcaZväzok 01 · 2026

Ako Katchy funguje.

Jedna klávesová skratka. Štyri malé fázy. Tri špičkové modely. Krátka esej o modeli interakcie za priateľskou, zdarma šírenou natívnou macOS aplikáciou, ktorá potichu zvládne takmer všetko, čo dokážeš opísať nahlas.

Najprv lokálne · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon a Intel

Poznámka pred štartom

S ospravedlnením širokej verejnosti: na projekte sme len týždeň, takže môžeš naraziť na nejaký bug či dva. Záplatujeme rýchlo a sme veľmi, veľmi vďační, že si sa zastavil. :D

Tvar rozhrania rozhoduje, čo je možné. Chat nás prinútil premýšľať. Používanie nástrojov nás prinútilo stavať. Agenti konečne nechali model dotýkať sa rovnakej obrazovky ako ty. Všetko zaujímavé žije v tretej ére a Katchy je najmenšie, najpokojnejšie a najviac macintoshovsky tvarované okno do nej, aké sme dokázali spraviť.

Zvyšok stránky je sprievodca pod kapotou. Čo sa deje medzi tvojím stlačením klávesu a odpoveďou v uchu. Prečo podľa otázky smerujeme na iný špičkový model. Čo nikdy neopustí tvoj Mac. Snažili sme sa krátko.

01b · Téza

Čo spolupráca
naozaj potrebuje.

Vlastnosť 01

Spolupresnosť

Zdieľame ten istý objekt. Katchy pozerá na rovnaké okno, rovnaký odsek, rovnaký snímok Figmy ako ty. Nehadí podľa popisu, číta tie isté pixely ako ty.

V Katchy
ScreenCaptureKit, jedna snímka, obmedzená na aktívny displej.

Vlastnosť 02

Súčasnosť

Spätná väzba počas práce, nie po nej. Katchy odpovedá vo chvíli, keď prestaneš hovoriť, kým je otázka ešte teplá, žiadne tlačidlo odoslať, žiadny spinner, žiadny reťazec e-mailov.

V Katchy
Od skratky k prvému tokenu, asi 80 milisekúnd.

Vlastnosť 03

Súbežnosť

Obaja môžeme robiť veci súčasne. Ty pokračuješ v písaní, kým agent premenováva 47 snímok. Katchy pokračuje v uvažovaní, kým ty roluješ. Nikto nemusí čakať na svoj rad.

V Katchy
Slučka agenta mimo hlavného vlákna, kedykoľvek zrušiteľná pomocou ⌘ .

Čo sme čítali

Tri vlastnosti, takmer doslovne z eseje Thinking Machines o modeloch interakcie. Tvrdia, že skutočná spolupráca, s ľuďmi, s kódom, s čímkoľvek, vyžaduje všetky tri naraz. Väčšina dnešných AI systémov je vyladená na autonómnu prevádzku a úplne ich míňa. Katchy je postavená priamo pre interaktívny prípad.

01 · Problém interakcie

Tri éry
rozprávania sa s
počítačom.

1.0Chat

Ty píšeš, model píše späť. Kopíruješ, vkladáš, skáčeš medzi kartami. Mocné, no model vie len to, čo mu povieš, a nikdy sa nemôže dotknúť toho, čo vidíš.

Iba myšlienka. Bez rúk. Bez očí.

2.0Použitie nástrojov

Modely začali volať API. Prečítaj tento súbor. Hľadaj v tejto databáze. Pošli tento e-mail. Báječné, ale stále si musel každý nástroj spojiť sám v kóde.

Skutočná sila, ale inštalatér si ty.

3.0Agenti

Model sleduje tvoju obrazovku, drží plán v hlave, koná, kontroluje vlastnú prácu a pýta sa ťa len vtedy, keď to naozaj potrebuje. Tu žije Katchy.

Kde Katchy žije.

Medzihra · problém šírky pásma

„Ako riešiť spory
e-mailom miesto tvárou v tvár."

- Thinking Machines, o úzkom hrdle spolupráce

Chat je jedna niť: kým nedopíšeš, model nič nevníma; kým nedopíše on, nič nevnímaš ty. Kanál je úzky. Hlas plus čerstvý screenshot je oveľa širší kanál, a preto Katchy hovorí, namiesto písania.

02 · Anatómia jednej požiadavky

Čo sa deje
v tých osemdesiatich
milisekundách.

Každá požiadavka ide tým istým štvor-fázovým pipeline-om. Klikni na fázu alebo sa len pozeraj, diagram sám cykluje každých pár sekúnd a zastaví sa vo chvíli, keď prevezmeš.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architektúra

Interakčný model
vpredu. Model pozadia
vzadu.

Predok · synchrónne

Interakčný
model.

Ostáva pri tebe, kým hovoríš. Drží rozhovor v krátkodobej pamäti. Vníma, či premýšľaš, púšťaš slovo, alebo prerušuješ. Odpovedá zhruba za žmurkanie oka.

  • Push-to-talk zvuk + jeden screenshot.
  • Streamované tokeny, nikdy „chvíľu strpenia".
  • Dá sa zrušiť za letu pomocou ⌘ .

Zadok · asynchrónne

Model
v pozadí.

Berie si pomalú, dlhšiu prácu. Viackrokový agentský cyklus s nástrojmi: súborový systém, AppleScript, Shortcuts, prehliadač. Plánuje, koná, číta vlastný výstup, skúša znova. Hlási sa, keď je hotovo.

  • Beží mimo hlavného vlákna, nikdy neblokuje UI.
  • Zdieľa kontext rozhovoru s predkom.
  • Konečný výsledok dorazí ako tiché upozornenie v lište menu.

Toto je dvojdielna architektúra, ktorú navrhuje Thinking Machines, v miniatúre. Interakčný model ti dáva odozvu malého modelu. Model v pozadí ti dáva plánovanie a nástroje veľkého. Zdieľajú kontext. Švy nikdy nevidíš.

03 · Stack, vrstva po vrstve

Štyri malé, nudné,
skvelo pomenované
frameworky od Apple.

01 · Počúva

Podrž a hovor

Podrž Control a Option. macOS zachytáva zvuk lokálne cez CoreAudio. Vlna sa prepisuje na zariadení, keď je to možné, potom sa orezáva a posiela len vtedy, ak je potrebný špičkový model.

02 · Vidí

Snímka tvojej obrazovky

Keď otázka potrebuje kontext, ScreenCaptureKit vezme jedinú cielenú snímku. Katchy nikdy nestreamuje video, nikdy nenahráva nepretržite, nikdy neukladá snímky po odpovedi.

03 · Myslí

Správny mozog na úlohu

Katchy smeruje žiadosť tomu špičkovému modelu, ktorý to zvládne najlepšie. Dlhé PDF Claudovi. Vizuálne úlohy Geminimu. Kód a rýchle úpravy GPT. Router vyberá, ty zostávaš v pokoji.

04 · Koná

Kurzor + agenti, v tvojej lište menu

Priateľský trojuholník ukazuje na odpoveď, keď stačí jeden klik. Viackrokový agent beží na pozadí, keď je potrebných desať. Obaja zdieľajú pamäť, obaja sa vypínajú s tebou.

04 · Rozhodnutie routera

Príde jedna veta,
správny mozog
sa toho ujme.

Malý klasifikátor prečíta tvoj prepis a tokeny stránky a pošle každú požiadavku tomu modelu, čo sa hodí najlepšie. Skús pár sám, router ukazuje svoju prácu.

Vyskúšajte otázku

Rozhodnutie routera

Zhrň tento 60-stranový PDF, ktorý som práve otvoril

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Prečo práve tento: Dlhý kontext, dôkladné uvažovanie nad štruktúrovaným dokumentom.

05 · Tri mozgy, jedna lišta menu

Rôzne otázky
si zaslúžia rôzne
modely.

OpenAI

GPT

Ide sem na rýchle úpravy, code review a ten typ štruktúrovaného prepisovania, kde chceš odpoveď späť za vetu a pol.

  • Stiesnené prepisy
  • Code review
  • Rýchle úpravy

Anthropic

Claude

Ide sem na dlhé dokumenty, opatrné uvažovanie a všetko, kde radšej nechceš sebavedomú zlú odpoveď.

  • Dlhý kontext
  • Opatrné uvažovanie
  • Niansované písanie

Google

Gemini

Ide sem na obrazovkovo náročné chvíle, grafy, slidy a prípady, kde je vizuál polovicou otázky.

  • Zrak
  • Grafy a slidy
  • Rýchla odpoveď

06 · Schopnosti

Krátke menu vecí, ktoré jednoducho povieš.

Čítanie a písanie

  • Zhrň ten PDF na 60 stranách

    Čítanie

  • Zostav zdvorilé nie

    Písanie

  • Napíš rýchly changelog

    Písanie

  • Prelož do španielčiny

    Písanie

  • Pokračuj v včerajšom konceptu

    Písanie

  • Vygeneruj týždenné zhrnutie

    Písanie

Súbory a systém

  • Premenuj 47 snímok

    Súbory

  • Uprac plochu

    Súbory

  • Vytiahni dáta z tohto CSV

    Čísla

  • Konvertuj tieto na PNG

    Súbory

  • Otvor poslednú snímku

    Súbory

  • Pripni Spotify do lišty menu

    Systém

  • Čo robí tento príkaz?

    Terminál

  • Preveď to do tabuľky

    Čísla

Denný tok

  • Roztrieď doručenú poštu

    Pošta

  • Otvor to v Cursore

    Kód

  • Presuň standup

    Kalendár

  • Označ tieto fotky podľa tváre

    Fotky

  • Stíš Slack na hodinu

    Sústredenie

  • Čo sa v tomto súbore zmenilo?

    Kód

  • Pridaj to do Pripomienok

    Úlohy

  • Nájdi ten PDF, čo som stratil

    Vyhľadávanie

A čokoľvek iné

Pár z tohto týždňa. Skutočný zoznam je všetko, čo dokážeš povedať nahlas a ukázať na obrazovku. Zvyšok urobia agenti.

06 · V číslach

S čím sa porovnáva
tichá agentná
aplikácia.

3

špičkové modely v jednej lište menu

0

serverov, ktoré vlastníme, nikdy

1

klávesová skratka je celé UI

~ 80 MB

miesta na disku na hostenie všetkého

80 ms

od uvoľnenia skratky k prvému tokenu

0

súborov opúšťa tvoj Mac, kým nepožiadaš

07 · Naprieč celým tvojím Macom

Rovnaký cyklus. Každá aplikácia.
Každý workflow.

08 · Lokálne tam, kde záleží

Tvoja obrazovka
neopustí Mac,
bez tvojho vedomia.

  1. 01

    Lokálne ako predvolené.

    Zvuk sa zachytí do RAM a zahodí vo chvíli, keď požiadavka skončí. Snímky obrazovky ostávajú v pamäti. Konverzácie žijú v tvojom priečinku Application Support, nie na serveri.

  2. 02

    Najmenší možný payload.

    Router oreže audio len na hovorenú časť, maskuje lištu menu a dock zo všetkých snímok a nikdy neposiela históriu, ktorú model nepotrebuje.

  3. 03

    Prines si vlastné kľúče.

    Kľúče Anthropic, OpenAI a Google žijú v tvojej macOS kľúčenke. My ich nikdy nevidíme. Kedykoľvek si ich môžeš vytiahnuť alebo vymeniť.

  4. 04

    Dá sa zrušiť v každom kroku.

    ⌘ . zastaví požiadavku za letu. Agenti kontrolujú flag zrušenia pri každom kole. Žiadne „počkaj, kým upraceme".

09 · Krátky zoznam čítania

Stojíme na
štyroch pároch
pliec.

  1. 01

    Metis

    Scottov pojem praktického poznania. Stochastický, intuitívny, lokálny. Uvažovanie, ktoré sedí, keď je neistota vysoká a správna odpoveď závisí od miestnosti. Agenti to potrebujú.

  2. 02

    Hayekov problém poznatkov

    Dôležité poznanie žije v konkrétnych okolnostiach času a miesta. Obrazovka pred tebou práve teraz je presne tento poznatok. Katchy ho číta.

  3. 03

    Trpká lekcia

    Sutton. Ručne robené systémy ich predbieha všeobecná schopnosť + mierka. Preto držíme povrch nudný a dobre pomenovaný a tvrdú časť necháme špičkovým modelom.

  4. 04

    Ústnosť

    Ong o participatívnej povahe ústnej komunikácie. Hlas je bližšie k prirodzenej spolupráci ako písanie do okienka. Push-to-talk nie je trik, je to správne rozhranie.

Poznámky

  • Úzke miesto

    Dnešné špičkové modely sú optimalizované na "autonómne, dlhotrvajúce" použitie. Nedávna karta modelu priznáva, že "pri interaktívnom, synchrónnom používaní s rukami na klávesnici boli výhody modelu menej zrejmé". Väčšina skutočnej práce je interaktívna. Katchy je postavený priamo pre tento prípad.

  • Šírka pásma

    Chat je jedna niť: kým nedopíšeš, model nič nevníma; kým on nedopíše, ty nič nevnímáš. Thinking Machines to nazýva úzky kanál pre spoluprácu človeka a AI. Hlas plus čerstvý snímok je oveľa širší kanál.

  • Interakčný model + model pozadia

    Ich navrhnutá architektúra má dve polovice. Interakčný model, ktorý zostáva prítomný a synchrónny. Model pozadia, ktorý berie dlhšiu prácu asynchrónne. Katchy sedí čisto: lišta menu je interakčný model, slučka agenta je model pozadia, a zdieľajú kontext.

Posledná vec

Jedna klávesová skratka.
Celé rozhranie.

Tri minúty na stiahnutie. Jeden akord na zapamätanie. Nula eur, každý deň od teraz až po tepelnú smrť vesmíru.

Stiahnuť KatchySpäť na hlavnú stránku

macOS 14.2+ · Apple Silicon a Intel · ~860 MB