Vlastnosť 01
Spolupresnosť
Zdieľame ten istý objekt. Katchy pozerá na rovnaké okno, rovnaký odsek, rovnaký snímok Figmy ako ty. Nehadí podľa popisu, číta tie isté pixely ako ty.
V Katchy
ScreenCaptureKit, jedna snímka, obmedzená na aktívny displej.
Jedna klávesová skratka. Štyri malé fázy. Tri špičkové modely. Krátka esej o modeli interakcie za priateľskou, zdarma šírenou natívnou macOS aplikáciou, ktorá potichu zvládne takmer všetko, čo dokážeš opísať nahlas.
Najprv lokálne · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon a Intel
Poznámka pred štartom
S ospravedlnením širokej verejnosti: na projekte sme len týždeň, takže môžeš naraziť na nejaký bug či dva. Záplatujeme rýchlo a sme veľmi, veľmi vďační, že si sa zastavil. :D
Tvar rozhrania rozhoduje, čo je možné. Chat nás prinútil premýšľať. Používanie nástrojov nás prinútilo stavať. Agenti konečne nechali model dotýkať sa rovnakej obrazovky ako ty. Všetko zaujímavé žije v tretej ére a Katchy je najmenšie, najpokojnejšie a najviac macintoshovsky tvarované okno do nej, aké sme dokázali spraviť.
Zvyšok stránky je sprievodca pod kapotou. Čo sa deje medzi tvojím stlačením klávesu a odpoveďou v uchu. Prečo podľa otázky smerujeme na iný špičkový model. Čo nikdy neopustí tvoj Mac. Snažili sme sa krátko.
01b · Téza
Vlastnosť 01
Zdieľame ten istý objekt. Katchy pozerá na rovnaké okno, rovnaký odsek, rovnaký snímok Figmy ako ty. Nehadí podľa popisu, číta tie isté pixely ako ty.
V Katchy
ScreenCaptureKit, jedna snímka, obmedzená na aktívny displej.
Vlastnosť 02
Spätná väzba počas práce, nie po nej. Katchy odpovedá vo chvíli, keď prestaneš hovoriť, kým je otázka ešte teplá, žiadne tlačidlo odoslať, žiadny spinner, žiadny reťazec e-mailov.
V Katchy
Od skratky k prvému tokenu, asi 80 milisekúnd.
Vlastnosť 03
Obaja môžeme robiť veci súčasne. Ty pokračuješ v písaní, kým agent premenováva 47 snímok. Katchy pokračuje v uvažovaní, kým ty roluješ. Nikto nemusí čakať na svoj rad.
V Katchy
Slučka agenta mimo hlavného vlákna, kedykoľvek zrušiteľná pomocou ⌘ .
Čo sme čítali
Tri vlastnosti, takmer doslovne z eseje Thinking Machines o modeloch interakcie. Tvrdia, že skutočná spolupráca, s ľuďmi, s kódom, s čímkoľvek, vyžaduje všetky tri naraz. Väčšina dnešných AI systémov je vyladená na autonómnu prevádzku a úplne ich míňa. Katchy je postavená priamo pre interaktívny prípad.
01 · Problém interakcie
Ty píšeš, model píše späť. Kopíruješ, vkladáš, skáčeš medzi kartami. Mocné, no model vie len to, čo mu povieš, a nikdy sa nemôže dotknúť toho, čo vidíš.
Iba myšlienka. Bez rúk. Bez očí.
Modely začali volať API. Prečítaj tento súbor. Hľadaj v tejto databáze. Pošli tento e-mail. Báječné, ale stále si musel každý nástroj spojiť sám v kóde.
Skutočná sila, ale inštalatér si ty.
Model sleduje tvoju obrazovku, drží plán v hlave, koná, kontroluje vlastnú prácu a pýta sa ťa len vtedy, keď to naozaj potrebuje. Tu žije Katchy.
Kde Katchy žije.
Medzihra · problém šírky pásma
„Ako riešiť spory
e-mailom miesto
tvárou v tvár."
Chat je jedna niť: kým nedopíšeš, model nič nevníma; kým nedopíše on, nič nevnímaš ty. Kanál je úzky. Hlas plus čerstvý screenshot je oveľa širší kanál, a preto Katchy hovorí, namiesto písania.
02 · Anatómia jednej požiadavky
Každá požiadavka ide tým istým štvor-fázovým pipeline-om. Klikni na fázu alebo sa len pozeraj, diagram sám cykluje každých pár sekúnd a zastaví sa vo chvíli, keď prevezmeš.
The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.
02b · Architektúra
Predok · synchrónne
Ostáva pri tebe, kým hovoríš. Drží rozhovor v krátkodobej pamäti. Vníma, či premýšľaš, púšťaš slovo, alebo prerušuješ. Odpovedá zhruba za žmurkanie oka.
Zadok · asynchrónne
Berie si pomalú, dlhšiu prácu. Viackrokový agentský cyklus s nástrojmi: súborový systém, AppleScript, Shortcuts, prehliadač. Plánuje, koná, číta vlastný výstup, skúša znova. Hlási sa, keď je hotovo.
Toto je dvojdielna architektúra, ktorú navrhuje Thinking Machines, v miniatúre. Interakčný model ti dáva odozvu malého modelu. Model v pozadí ti dáva plánovanie a nástroje veľkého. Zdieľajú kontext. Švy nikdy nevidíš.
03 · Stack, vrstva po vrstve

01 · Počúva
Podrž Control a Option. macOS zachytáva zvuk lokálne cez CoreAudio. Vlna sa prepisuje na zariadení, keď je to možné, potom sa orezáva a posiela len vtedy, ak je potrebný špičkový model.

02 · Vidí
Keď otázka potrebuje kontext, ScreenCaptureKit vezme jedinú cielenú snímku. Katchy nikdy nestreamuje video, nikdy nenahráva nepretržite, nikdy neukladá snímky po odpovedi.

03 · Myslí
Katchy smeruje žiadosť tomu špičkovému modelu, ktorý to zvládne najlepšie. Dlhé PDF Claudovi. Vizuálne úlohy Geminimu. Kód a rýchle úpravy GPT. Router vyberá, ty zostávaš v pokoji.

04 · Koná
Priateľský trojuholník ukazuje na odpoveď, keď stačí jeden klik. Viackrokový agent beží na pozadí, keď je potrebných desať. Obaja zdieľajú pamäť, obaja sa vypínajú s tebou.
04 · Rozhodnutie routera
Malý klasifikátor prečíta tvoj prepis a tokeny stránky a pošle každú požiadavku tomu modelu, čo sa hodí najlepšie. Skús pár sám, router ukazuje svoju prácu.
Vyskúšajte otázku
“Zhrň tento 60-stranový PDF, ktorý som práve otvoril”
Prečo práve tento: Dlhý kontext, dôkladné uvažovanie nad štruktúrovaným dokumentom.
05 · Tri mozgy, jedna lišta menu
OpenAI
Ide sem na rýchle úpravy, code review a ten typ štruktúrovaného prepisovania, kde chceš odpoveď späť za vetu a pol.
Anthropic
Ide sem na dlhé dokumenty, opatrné uvažovanie a všetko, kde radšej nechceš sebavedomú zlú odpoveď.
Ide sem na obrazovkovo náročné chvíle, grafy, slidy a prípady, kde je vizuál polovicou otázky.
06 · Schopnosti
Čítanie a písanie
“Zhrň ten PDF na 60 stranách”
Čítanie
“Zostav zdvorilé nie”
Písanie
“Napíš rýchly changelog”
Písanie
“Prelož do španielčiny”
Písanie
“Pokračuj v včerajšom konceptu”
Písanie
“Vygeneruj týždenné zhrnutie”
Písanie
Súbory a systém
“Premenuj 47 snímok”
Súbory
“Uprac plochu”
Súbory
“Vytiahni dáta z tohto CSV”
Čísla
“Konvertuj tieto na PNG”
Súbory
“Otvor poslednú snímku”
Súbory
“Pripni Spotify do lišty menu”
Systém
“Čo robí tento príkaz?”
Terminál
“Preveď to do tabuľky”
Čísla
Denný tok
“Roztrieď doručenú poštu”
Pošta
“Otvor to v Cursore”
Kód
“Presuň standup”
Kalendár
“Označ tieto fotky podľa tváre”
Fotky
“Stíš Slack na hodinu”
Sústredenie
“Čo sa v tomto súbore zmenilo?”
Kód
“Pridaj to do Pripomienok”
Úlohy
“Nájdi ten PDF, čo som stratil”
Vyhľadávanie
A čokoľvek iné
Pár z tohto týždňa. Skutočný zoznam je všetko, čo dokážeš povedať nahlas a ukázať na obrazovku. Zvyšok urobia agenti.
06 · V číslach
špičkové modely v jednej lište menu
serverov, ktoré vlastníme, nikdy
klávesová skratka je celé UI
miesta na disku na hostenie všetkého
od uvoľnenia skratky k prvému tokenu
súborov opúšťa tvoj Mac, kým nepožiadaš
07 · Naprieč celým tvojím Macom






08 · Lokálne tam, kde záleží
Zvuk sa zachytí do RAM a zahodí vo chvíli, keď požiadavka skončí. Snímky obrazovky ostávajú v pamäti. Konverzácie žijú v tvojom priečinku Application Support, nie na serveri.
Router oreže audio len na hovorenú časť, maskuje lištu menu a dock zo všetkých snímok a nikdy neposiela históriu, ktorú model nepotrebuje.
Kľúče Anthropic, OpenAI a Google žijú v tvojej macOS kľúčenke. My ich nikdy nevidíme. Kedykoľvek si ich môžeš vytiahnuť alebo vymeniť.
⌘ . zastaví požiadavku za letu. Agenti kontrolujú flag zrušenia pri každom kole. Žiadne „počkaj, kým upraceme".
09 · Krátky zoznam čítania
Scottov pojem praktického poznania. Stochastický, intuitívny, lokálny. Uvažovanie, ktoré sedí, keď je neistota vysoká a správna odpoveď závisí od miestnosti. Agenti to potrebujú.
Dôležité poznanie žije v konkrétnych okolnostiach času a miesta. Obrazovka pred tebou práve teraz je presne tento poznatok. Katchy ho číta.
Sutton. Ručne robené systémy ich predbieha všeobecná schopnosť + mierka. Preto držíme povrch nudný a dobre pomenovaný a tvrdú časť necháme špičkovým modelom.
Ong o participatívnej povahe ústnej komunikácie. Hlas je bližšie k prirodzenej spolupráci ako písanie do okienka. Push-to-talk nie je trik, je to správne rozhranie.
Poznámky
Úzke miesto
Dnešné špičkové modely sú optimalizované na "autonómne, dlhotrvajúce" použitie. Nedávna karta modelu priznáva, že "pri interaktívnom, synchrónnom používaní s rukami na klávesnici boli výhody modelu menej zrejmé". Väčšina skutočnej práce je interaktívna. Katchy je postavený priamo pre tento prípad.
Šírka pásma
Chat je jedna niť: kým nedopíšeš, model nič nevníma; kým on nedopíše, ty nič nevnímáš. Thinking Machines to nazýva úzky kanál pre spoluprácu človeka a AI. Hlas plus čerstvý snímok je oveľa širší kanál.
Interakčný model + model pozadia
Ich navrhnutá architektúra má dve polovice. Interakčný model, ktorý zostáva prítomný a synchrónny. Model pozadia, ktorý berie dlhšiu prácu asynchrónne. Katchy sedí čisto: lišta menu je interakčný model, slučka agenta je model pozadia, a zdieľajú kontext.
Posledná vec
Tri minúty na stiahnutie. Jeden akord na zapamätanie. Nula eur, každý deň od teraz až po tepelnú smrť vesmíru.