Ugrás a tartalomra
katchyfor mac
Terepkönyv01. kötet · 2026

Így működik a Katchy.

Egy gyorsbillentyű. Négy apró lépcső. Három frontier-modell. Rövid esszé az interakciós modellről egy barátságos, ingyenes, natív macOS-alkalmazás mögött, amely csendben szinte mindent megtesz, amit hangosan le tudsz írni.

Először helyben · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon és Intel

Egy jegyzet még az indulás előtt

Bocsánat a nagyközönségtől: csak egy hete csináljuk ezt a projektet, szóval belefuthatsz egy-két bugba. Gyorsan foltozunk és nagyon, nagyon hálásak vagyunk, hogy benéztél. :D

A felület formája dönti el, mi lehetséges. A chat gondolkodásra késztetett. Az eszközhasználat építésre. Az ügynökök végre megengedték a modellnek, hogy ugyanazt a képernyőt érintse, mint te. Minden vicces dolog a harmadik korszakban él, és a Katchy a legkisebb, legnyugodtabb, leginkább Macintosh-formájú ablak, amit oda nyitni tudtunk.

Az oldal többi része a motorháztető alatti útmutató. Mi történik a billentyű leütése és a fülbe érkező válasz között. Miért irányítunk a kérdéstől függően más-más frontier-modellhez. Mi az, ami soha nem hagyja el a Macet. Próbáltuk röviden tartani.

01b · A tézis

Mit kíván
valójában az együttműködés.

Tulajdonság 01

Együtt-jelenlét

Ugyanazt az objektumot osztjuk. A Katchy ugyanazt az ablakot, ugyanazt a bekezdést, ugyanazt a Figma-kockát nézi, mint te. Nem leírásból találgat, ugyanazokat a pixeleket olvassa, amit te.

A Katchyben
ScreenCaptureKit egy képkockára, aktív kijelzőre korlátozva.

Tulajdonság 02

Egyidejűség

Visszajelzés munka közben, nem utána. A Katchy abban a pillanatban válaszol, amikor abbahagyod a beszédet, amíg a kérdés még meleg, nincs küldés gomb, nincs spinner, nincs e-mail-szál.

A Katchyben
A gyorsbillentyűtől az első tokenig: kb. 80 milliszekundum.

Tulajdonság 03

Párhuzamosság

Mindketten csinálhatunk dolgokat egyszerre. Te tovább gépelsz, miközben egy ügynök átnevez 47 képernyőképet. A Katchy tovább gondolkodik, miközben te görgetsz. Senkinek nem kell várnia a sorára.

A Katchyben
Ügynök-loop a fő szálon kívül, bármikor megszakítható ⌘ . -tel.

Mit olvastunk

Három tulajdonság, szinte szó szerint a Thinking Machines interakciós modellekről szóló esszéjéből. Azt állítják, hogy az igazi együttműködés, emberekkel, kóddal, bármivel, mindhármat együtt igényli. A mai AI-rendszerek többsége autonóm működésre van hangolva, és teljesen lemarad róluk. A Katchy egyenesen az interaktív esetre épült.

01 · Az interakció problémája

Három korszak
a számítógéppel
beszélgetésben.

1.0Chat

Te írsz, a modell visszaír. Másolsz, beillesztesz, ugrálsz a fülek között. Erős, de a modell csak azt tudja, amit elmondasz neki, és sosem érhet hozzá ahhoz, amit te látsz.

Csak gondolat. Sem kéz, sem szem.

2.0Eszközhasználat

A modellek elkezdtek API-kat hívni. Olvasd el ezt a fájlt. Keress ebben az adatbázisban. Küldd el ezt az e-mailt. Csodálatos, de minden eszközt magadnak kellett összekötnöd a kódban.

Valódi erő, de a vízvezeték te vagy.

3.0Ügynökök

A modell figyeli a képernyődet, fejben tart egy tervet, cselekszik, ellenőrzi a saját munkáját és csak akkor kérdez tőled, ha tényleg szüksége van rád. Itt él a Katchy.

Ahol a Katchy él.

Közjáték · a sávszélesség-probléma

„Mintha vitát rendeznél
e-mailen át, nem pedig személyesen."

- Thinking Machines, az együttműködés szűk keresztmetszetéről

A chat egyetlen szál: amíg nem végzel a gépeléssel, a modell semmit sem érzékel; amíg ő nem végez, te semmit. A csatorna szűk. A hang plusz egy friss képernyőfotó sokkal szélesebb csatorna, ezért beszél a Katchy és nem gépel.

02 · Egy kérés anatómiája

Mi történik
abban a nyolcvan
ezredmásodpercben.

Minden kérés ugyanazon a négylépcsős pipeline-on megy át. Kattints egy lépcsőre vagy csak figyelj, a diagram néhány másodpercenként magától vált, és abban a pillanatban megáll, amint átveszed.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architektúra

Interakciós modell
elöl. Háttér-
modell hátul.

Elöl · szinkron

Az interakciós
modell.

Veled marad, amíg beszélsz. Rövid távú memóriában tartja a beszélgetést. Érzékeli, gondolkodsz-e, átadod a szót, vagy közbeszólsz. Nagyjából egy pillantás alatt válaszol.

  • Push-to-talk hang + egyetlen képernyőfotó.
  • Streamelt tokenek, soha nem „kérlek várj".
  • Menet közben megszakítható ⌘ .-tel.

Hátul · aszinkron

A háttér-
modell.

A lassú, kitartó munkát viszi. Többlépéses ügynökhurok eszközökkel: fájlrendszer, AppleScript, Shortcuts, böngésző. Tervez, cselekszik, újraolvassa a saját kimenetét, megpróbálja újra. Jelez, ha elkészült.

  • A fő szálon kívül fut, sosem akasztja meg a UI-t.
  • Megosztja a beszélgetés kontextusát az elejével.
  • A végeredmény csendes menüsor-értesítésként érkezik.

Ez a Thinking Machines által javasolt kétfős architektúra kicsiben. Az interakciós modell egy kis modell válaszidejét adja. A háttérmodell egy nagy modell tervezését és eszközhasználatát. Megosztják a kontextust. A varrásokat sosem látod.

03 · A stack, rétegről rétegre

Négy kicsi, unalmas,
rendkívül jól elnevezett
Apple-keretrendszer.

01 · Figyel

Tartsd és beszélj

Tartsd a Control és Option billentyűt. A macOS helyben rögzíti a hangot a CoreAudio segítségével. A hullámforma a készüléken átírásra kerül, ha lehet, majd levágódik és csak akkor küldjük el, ha frontier-modell kell.

02 · Lát

Egy pillanatkép a képernyődről

Amikor a kérdéshez kontextus kell, a ScreenCaptureKit egyetlen, célzott képkockát készít. A Katchy soha nem streamel videót, nem rögzít folyamatosan, nem tárol képernyőképeket a válasz után.

03 · Gondolkodik

A megfelelő agy a munkához

A Katchy oda küldi a kérést, ahova a legjobban illik. Hosszú PDF-ek Claude-nak. Vizuális feladatok Geminiek. Kód és gyors szerkesztések GPT-nek. A router választ, te nyugton maradsz.

04 · Cselekszik

Kurzor + ügynökök, a menüsorodban

Egy barátságos háromszög mutat a válaszra, ha egy kattintás elég. Több lépéses ügynök fut a háttérben, ha tíz kell. Mindkettő ugyanazt a memóriát osztja, mindkettő kikapcsol veled.

04 · A router döntése

Egy mondat be,
a megfelelő agy
veszi át.

Egy kis osztályozó elolvassa az átírást és az oldal tokenjeit, majd a legmegfelelőbb modellhez küldi a kérést. Próbálj ki párat, a router mutatja a munkáját.

Próbálj ki egy kérdést

Útválasztó döntése

Foglald össze ezt a 60 oldalas PDF-et, amit most nyitottam meg

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Miért éppen ez: Hosszú kontextus, alapos érvelés egy strukturált dokumentum felett.

05 · Három agy, egy menüsor

Különböző kérdések
különböző modelleket
érdemelnek.

OpenAI

GPT

Erre jön a gyors szerkesztésekért, code review-ért és az olyan strukturált átírásért, ahol másfél mondatban szeretnéd vissza a választ.

  • Feszes átírások
  • Code review
  • Gyors szerkesztések

Anthropic

Claude

Erre jön a hosszú dokumentumokért, óvatos érvelésért és mindenért, ahol nem szeretnél magabiztosan rossz választ.

  • Hosszú kontextus
  • Óvatos érvelés
  • Árnyalt írás

Google

Gemini

Erre jön a képernyő-igényes pillanatokért, diagramokért, slide-okért és olyan esetekért, ahol a vizuális a kérdés fele.

  • Látás
  • Diagramok és slide-ok
  • Gyors visszacsatolás

06 · Képességek

Rövid étlap dolgokról, amelyeket egyszerűen kimondhatsz.

Olvasás és írás

  • Foglald össze azt a 60 oldalas PDF-et

    Olvasás

  • Fogalmazz egy udvarias nemet

    Írás

  • Írj egy gyors changelog-ot

    Írás

  • Fordítsd spanyolra

    Írás

  • Folytasd a tegnapi vázlatot

    Írás

  • Készíts heti összefoglalót

    Írás

Fájlok és rendszer

  • Nevezz át 47 képernyőképet

    Fájlok

  • Pakold ki az asztalt

    Fájlok

  • Húzd ki az adatokat ebből a CSV-ből

    Számok

  • Konvertáld ezeket PNG-re

    Fájlok

  • Nyisd meg az utolsó képernyőképet

    Fájlok

  • Rögzítsd a Spotifyt a menüsorra

    Rendszer

  • Mit csinál ez a parancs?

    Terminál

  • Alakítsd át táblázattá

    Számok

Napi folyam

  • Rendszerezd a beérkezett leveleket

    Levelek

  • Nyisd meg ezt Cursorban

    Kód

  • Tedd át a standupot

    Naptár

  • Címkézd ezeket a fotókat arc alapján

    Fotók

  • Némítsd a Slacket egy órára

    Fókusz

  • Mi változott ebben a fájlban?

    Kód

  • Tedd a Emlékeztetőkbe

    Feladatok

  • Találd meg azt a PDF-et, amit elvesztettem

    Keresés

És minden más

Pár példa erről a hétről. A valódi lista minden, amit hangosan ki tudsz mondani, miközben a képernyőre mutatsz. A többit az ügynökök elintézik.

06 · Számokban

Mivel mérhető
egy higgadt ügynöki
alkalmazás.

3

frontier-modell egyetlen menüsorban

0

saját szerverünk, sosem

1

gyorsbillentyű az egész UI

~ 80 MB

lemezterület, hogy az egészet tárolja

80 ms

a billentyűtől az első tokenig

0

fájl hagyja el a Macedet, amíg nem kéred

07 · Az egész Macen át

Ugyanaz a hurok. Minden app.
Minden munkafolyamat.

08 · Helyben, ahol számít

A képernyőd nem hagyja el
a Macet,
ha nem kéred.

  1. 01

    Alapból helyben.

    A hangot RAM-ba rögzítjük, és abban a pillanatban eldobjuk, amikor a kérés véget ér. A képernyőfotók a memóriában maradnak. A beszélgetések az Application Support mappádban élnek, nem szerveren.

  2. 02

    A lehető legkisebb payload.

    A router a hangot csak a beszélt részig vágja, kimaszkolja a menüsort és a dockot bármilyen képernyőfotóból, és sosem küld olyan beszélgetéstörténetet, amire a modellnek nincs szüksége.

  3. 03

    Hozd a saját kulcsaidat.

    Az Anthropic-, OpenAI- és Google-kulcsok a macOS kulcskarikádban élnek. Mi sosem látjuk őket. Bármikor kihúzhatod vagy cserélheted.

  4. 04

    Minden lépésnél megszakítható.

    ⌘ . a menet közben megállítja a kérést. Az ügynökök minden körben ellenőrzik a megszakítási zászlót. Nincs „várj, amíg rendet teszünk".

09 · Rövid olvasmánylista

Négy
vállpáron
állunk.

  1. 01

    Métisz

    Scott gyakorlati tudás fogalma. Sztochasztikus, intuitív, helyi. Olyan érvelés, ami akkor passzol, ha a bizonytalanság nagy és a helyes válasz a helyiségtől függ. Az ügynököknek szüksége van rá.

  2. 02

    Hayek tudásproblémája

    A fontos tudás az idő és hely sajátos körülményeiben él. Az előtted lévő képernyő most pontosan ez a tudás. A Katchy olvassa azt.

  3. 03

    A keserű lecke

    Sutton. A kézzel készített rendszereket lehagyja az általános képesség + méret. Ezért tartjuk a felületet unalmasnak és jól elnevezettnek, a kemény részt pedig a frontier-modellekre bízzuk.

  4. 04

    Szóbeliség

    Ong a szóbeli kommunikáció részvételi természetéről. A hang közelebb áll a természetes együttműködéshez, mint a dobozba gépelés. A push-to-talk nem trükk, ez a megfelelő interfész.

Lábjegyzetek

  • A szűk keresztmetszet

    A mai frontier-modellek „autonóm, hosszan futó" használatra vannak optimalizálva. Egy friss modellkártya bevallja, hogy „amikor interaktívan, szinkron módon, billentyűzeten kéznél használtuk, a modell előnyei kevésbé voltak egyértelműek". A valódi munka nagy része interaktív. A Katchy pont erre az esetre épült.

  • Sávszélesség

    A chat egyetlen szál: amíg te nem fejezted be a gépelést, a modell nem érzékel semmit; amíg ő nem fejezte be a generálást, te sem érzékelsz semmit. A Thinking Machines ezt szűk csatornának hívja az ember-AI együttműködéshez. Hang + friss képernyőkép sokkal szélesebb csatorna.

  • Interakciós modell + háttérmodell

    A javasolt architektúrájuk két felére bontható. Egy interakciós modell, ami jelen marad és szinkronban van. Egy háttérmodell, ami a hosszabb távú munkát aszinkron végzi. A Katchy tisztán illeszkedik: a menüsor az interakciós modell, az ügynök-loop a háttérmodell, és megosztják a kontextust.

Egy utolsó dolog

Egy gyorsbillentyű.
Az egész felület.

Három perc letölteni. Egy akkord megjegyezni. Nulla euró, mindennap mostantól a világegyetem hőhalálig.

Töltsd le a KatchytVissza a főoldalra

macOS 14.2+ · Apple Silicon és Intel · ~860 MB