Pāriet uz saturu
katchyfor mac
Lauka rokasgrāmataSējums 01 · 2026

Kā Katchy strādā.

Viens īsinājumtaustiņš. Četri mazi posmi. Trīs priekšgala modeļi. Īsa eseja par mijiedarbības modeli, kas slēpjas aiz draudzīgas, bezmaksas, vietējās macOS lietotnes, kura klusi paveic gandrīz visu, ko vari aprakstīt skaļi.

Vispirms vietēji · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon un Intel

Piezīme pirms sākam

Atvainojamies plašai auditorijai: šim projektam ir tikai nedēļa, tāpēc vari uzdurties uz vienu vai diviem bug. Lāpām ātri un esam ļoti, ļoti pateicīgi, ka iegriezies. :D

Saskarnes forma izlemj, kas ir iespējams. Čats lika mums domāt. Rīku izmantošana lika būvēt. Aģenti beidzot ļāva modelim pieskarties tam pašam ekrānam, ko redzi tu. Viss interesantais dzīvo šajā trešajā ērā, un Katchy ir mazākais, klusākais, visvairāk Macintosh formas logs uz to, ko mēs spējām uztaisīt.

Pārējā lapa ir ceļvedis zem motora pārsega. Kas notiek starp brīdi, kad tu nospiedi taustiņu, un kad atbilde nonāk tavā ausī. Kāpēc atkarībā no jautājuma maršrutējam uz citu priekšgala modeli. Kas nekad nepamet tavu Mac. Centāmies īsi.

01b · Tēze

Kas sadarbībai
patiešām vajadzīgs.

Īpašība 01

Līdzklātbūtne

Mēs dalāmies ar to pašu objektu. Katchy skatās uz to pašu logu, to pašu rindkopu, to pašu Figma kadru, ko tu. Tā neizdomā no apraksta, tā lasa tos pašus pikseļus, ko tu.

Katchy iekšā
ScreenCaptureKit, viens kadrs, ierobežots aktīvajam ekrānam.

Īpašība 02

Vienlaicība

Atgriezeniskā saite darba laikā, ne pēc. Katchy atbild brīdī, kad pārstāj runāt, kamēr jautājums vēl ir silts, bez sūtīšanas pogas, bez riņķi, bez e-pasta ķēdes.

Katchy iekšā
No taustiņa līdz pirmajam tokenam, apmēram 80 milisekundes.

Īpašība 03

Paralēlums

Mēs abi varam darīt lietas vienlaikus. Tu turpini rakstīt, kamēr aģents pārdēvē 47 ekrānuzņēmumus. Katchy turpina domāt, kamēr tu ritini. Nevienam nav jāgaida sava kārta.

Katchy iekšā
Aģenta cikls ārpus galvenā pavediena, jebkurā brīdī atceļams ar ⌘ .

Ko lasījām

Trīs īpašības, gandrīz burtiski paņemtas no Thinking Machines esejas par mijiedarbības modeļiem. Viņi apgalvo, ka īsta sadarbība, ar cilvēkiem, ar kodu, ar jebko, prasa visas trīs reizē. Lielākā daļa mūsdienu AI sistēmu ir noskaņotas autonomai darbībai un tās pilnībā palaiž garām. Katchy ir uzbūvēta tieši interaktīvajam gadījumam.

01 · Mijiedarbības problēma

Trīs ēras,
kā runāt ar
datoru.

1.0Tērzēšana

Tu raksti, modelis atbild. Tu kopē, ielīmē, lec starp cilnēm. Spēcīgi, bet modelis zina tikai to, ko tu pasaki, un nekad nevar pieskarties tam, ko tu redzi.

Tikai doma. Bez rokām. Bez acīm.

2.0Rīku izmantošana

Modeļi sāka izsaukt API. Nolasi šo failu. Meklē šajā datubāzē. Nosūti šo e-pastu. Brīnišķīgi, bet tev tomēr katrs rīks bija jāsavieno paša kodā.

Īsts spēks, bet santehniķis esi tu.

3.0Aģenti

Modelis skatās tavā ekrānā, prātā tur plānu, darbojas, pārbauda savu darbu un jautā tev tikai tad, kad tiešām vajag. Šeit dzīvo Katchy.

Kur dzīvo Katchy.

Starpspēle · joslas platuma problēma

“Kā risināt domstarpības
ar e-pastu, nevis klātienē.”

- Thinking Machines, par sadarbības šauro vietu

Čats ir viens diegs: kamēr tu neesi beidzis rakstīt, modelis neko neuztver; kamēr tas nav beidzis rakstīt, neko neuztver tu. Kanāls šaurs. Balss plus svaigs ekrānuzņēmums ir daudz platāks kanāls, un tāpēc Katchy runā, nevis raksta.

02 · Viena pieprasījuma anatomija

Kas notiek
tajās astoņdesmit
milisekundēs.

Katrs pieprasījums iet caur to pašu četru posmu konveijeru. Klikšķini uz posma vai vienkārši skaties, diagramma pati maina posmus ik pēc dažām sekundēm un apstājas brīdī, kad tu pārņem vadību.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arhitektūra

Mijiedarbības modelis
priekšā. Fona
modelis aiz tā.

Priekšpuse · sinhroni

Mijiedarbības
modelis.

Paliek klāt, kamēr tu runā. Tur sarunu īstermiņa atmiņā. Pamana, vai tu domā, dod vārdu, vai pārtrauc. Atbild aptuveni mirkļa garumā.

  • Push-to-talk audio + viens ekrānuzņēmums.
  • Plūstoši tokeni, nekad “lūdzu, gaidi”.
  • Var atcelt lidojumā ar ⌘ .

Aizmugure · asinhroni

Fona
modelis.

Uzņemas lēno, ilgstošo darbu. Daudzpakāpju aģenta cikls ar rīkiem: failu sistēma, AppleScript, Shortcuts, pārlūks. Plāno, rīkojas, pārlasa savu izvadi, mēģina vēlreiz. Ziņo, kad ir pabeidzis.

  • Strādā ārpus galvenā pavediena, nekad nebloķē UI.
  • Dalās ar sarunas kontekstu ar priekšu.
  • Galarezultāts atnāk kā kluss izvēlnes joslas paziņojums.

Tā ir Thinking Machines piedāvātā divdaļīgā arhitektūra miniatūrā. Mijiedarbības modelis dod tev maza modeļa atbildes ātrumu. Fona modelis, liela modeļa plānošanu un rīku izmantošanu. Tie dalās kontekstā. Šuvas tu neredz.

03 · Steks, slānis pēc slāņa

Četri mazi, garlaicīgi,
ārkārtīgi labi nosaukti
Apple ietvari.

01 · Klausās

Tur un runā

Tur Control un Option. macOS lokāli tver audio caur CoreAudio. Vilnis, ja iespējams, tiek transkribēts ierīcē, tad apgriezts un nosūtīts tikai tad, ja vajag priekšgala modeli.

02 · Redz

Tava ekrāna uzņēmums

Kad jautājumam vajag kontekstu, ScreenCaptureKit paņem vienu mērķtiecīgu kadru. Katchy nekad neplūdo video, nekad neraksta nepārtraukti, nekad neglabā ekrānuzņēmumus pēc atbildes.

03 · Domā

Pareizās smadzenes darbam

Katchy maršrutē pieprasījumu uz to priekšgala modeli, kurš to apstrādās vislabāk. Gari PDF, Claude. Vizuālie darbi, Gemini. Kods un ātri labojumi, GPT. Maršrutētājs izvēlas, tu paliec nekustīgs.

04 · Darbojas

Kursors + aģenti, tavā izvēlnes joslā

Draudzīgs trīsstūris norāda uz atbildi, kad pietiek ar vienu klikšķi. Daudzpakāpju aģents darbojas fonā, kad vajag desmit. Abi dalās ar atmiņu, abi izslēdzas līdz ar tevi.

04 · Maršrutētāja lēmums

Ienāk teikums,
īstās smadzenes
ķeras klāt.

Mazs klasifikators izlasa tavu atšifrējumu un lapas tokenus, tad nosūta katru pieprasījumu modelim, kas der vislabāk. Pamēģini pats, maršrutētājs rāda savu darbu.

Izmēģiniet jautājumu

Maršrutētāja lēmums

Apkopo šo 60 lappušu PDF, ko tikko atvēru

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Kāpēc tieši šis: Garš konteksts, rūpīga argumentācija strukturētā dokumentā.

05 · Trīs smadzenes, viena izvēlnes josla

Dažādiem jautājumiem
pienākas dažādi
modeļi.

OpenAI

GPT

Iet šurp ātriem labojumiem, koda pārskatīšanai un strukturētai pārrakstīšanai, kad gribi atbildi pusotrā teikumā.

  • Cieši pārrakstījumi
  • Koda pārskats
  • Ātri labojumi

Anthropic

Claude

Iet šurp gariem dokumentiem, uzmanīgai domāšanai un visam, kur labāk nepiekrist pārliecinātam, bet aplamam atbildei.

  • Garš konteksts
  • Uzmanīga domāšana
  • Niansēta rakstīšana

Google

Gemini

Iet šurp ar ekrānu pilniem brīžiem, diagrammām, slaidiem un gadījumiem, kad vizuālā daļa ir puse jautājuma.

  • Redze
  • Diagrammas un slaidi
  • Ātra reakcija

06 · Iespējas

Īsa ēdienkarte ar lietām, kuras vari vienkārši pateikt.

Lasīšana un rakstīšana

  • Sastādi tā 60 lapu PDF kopsavilkumu

    Lasīšana

  • Uzraksti pieklājīgu „nē"

    Rakstīšana

  • Uzraksti ātru changelog

    Rakstīšana

  • Iztulko uz spāņu

    Rakstīšana

  • Turpini vakardienas melnrakstu

    Rakstīšana

  • Ģenerē iknedēļas kopsavilkumu

    Rakstīšana

Faili un sistēma

  • Pārdēvē 47 ekrānuzņēmumus

    Faili

  • Sakārto darbvirsmu

    Faili

  • Izvelc datus no šī CSV

    Skaitļi

  • Konvertē šos uz PNG

    Faili

  • Atver pēdējo ekrānuzņēmumu

    Faili

  • Piesprauz Spotify izvēlnes joslai

    Sistēma

  • Ko šī komanda dara?

    Termināls

  • Pārvērt to tabulā

    Skaitļi

Ikdienas plūsma

  • Sakārto iesūtni

    Pasts

  • Atver to Cursor

    Kods

  • Pārceļ standupu

    Kalendārs

  • Atzīmē šīs fotogrāfijas pēc sejas

    Fotoattēli

  • Izslēdz Slack uz stundu

    Fokuss

  • Kas mainījās šajā failā?

    Kods

  • Pievieno atgādinājumiem

    Uzdevumi

  • Atrod to PDF, ko pazaudēju

    Meklēšana

Un viss pārējais

Šīs ir tikai dažas no šīs nedēļas. Īstais saraksts ir viss, ko vari pateikt skaļi, rādot uz ekrānu. Pārējo izdara aģenti.

06 · Skaitļos

Ar ko mērojas
mierīga aģentiska
lietotne.

3

priekšgala modeļi vienā izvēlnes joslā

0

serveru, kas pieder mums, nekad

1

īsinājumtaustiņš ir visa UI

~ 80 MB

diska, lai to visu tur

80 ms

no taustiņa atlaišanas līdz pirmajam tokenam

0

failu pamet tavu Mac, līdz tu palūdz

07 · Pa visu tavu Mac

Tas pats cikls. Katra lietotne.
Katra darbplūsma.

08 · Vietēji tur, kur svarīgi

Tavs ekrāns nepamet
tavu Mac,
neprasot.

  1. 01

    Vietēji pēc noklusējuma.

    Audio tiek tverts RAM un izmests brīdī, kad pieprasījums beidzas. Ekrānuzņēmumi paliek atmiņā. Sarunas dzīvo tavā Application Support mapē, nevis uz servera.

  2. 02

    Mazākā iespējamā krava.

    Maršrutētājs apgriež audio līdz tikai runas daļai, nomaskē izvēlnes joslu un dock no jebkura ekrānuzņēmuma un nekad nesūta sarunas vēsturi, ko modelim nevajag.

  3. 03

    Atnes savas atslēgas.

    Anthropic, OpenAI un Google atslēgas dzīvo tavā macOS Keychain. Mēs tās neredzam. Vari izvilkt vai mainīt jebkurā brīdī.

  4. 04

    Var atcelt katrā solī.

    ⌘ . aptur pieprasījumu lidojumā. Aģenti katrā ciklā pārbauda atcelšanas karogu. Nav nekāda “lūdzu, gaidi, kamēr sakārtosim”.

09 · Īss lasāmā saraksts

Stāvam uz
četrām plecu
pārim.

  1. 01

    Metis

    Skota praktisko zināšanu jēdziens. Stohastisks, intuitīvs, lokāls. Domāšana, kas der, kad neskaidrība ir liela un pareizā atbilde atkarīga no istabas. Aģentiem to vajag.

  2. 02

    Hajeka zināšanu problēma

    Svarīgās zināšanas dzīvo konkrētajos laika un vietas apstākļos. Ekrāns tavā priekšā tieši tagad ir tieši tās zināšanas. Katchy to lasa.

  3. 03

    Rūgtā mācība

    Sutton. Ar rokām būvētas sistēmas pārspēj vispārējā spēja + mērogs. Tāpēc virsmu turam garlaicīgu un labi nosauktu, bet smago darbu atstājam priekšgala modeļiem.

  4. 04

    Mutiskums

    Ongs par mutiskās komunikācijas līdzdalības raksturu. Balss ir tuvāka dabīgai sadarbībai nekā rakstīšana lodziņā. Push-to-talk nav triks, tā ir pareiza saskarne.

Piezīmes

  • Šaurā vieta

    Mūsdienu priekšgala modeļi ir optimizēti „autonomai, ilgstošai" izmantošanai. Nesen kartiņā tika atzīts, ka „interaktīvā, sinhronā, rokas-uz-tastatūras režīmā modeļa ieguvumi bija mazāk skaidri". Lielākā daļa īstā darba ir interaktīva. Katchy ir uzbūvēta tieši šim gadījumam.

  • Joslas platums

    Tērzēšana ir viena pavediens: kamēr tu nepabeidz rakstīt, modelis neko neuztver; kamēr viņš nepabeidz, neko neuztver tu. Thinking Machines to sauc par šauru kanālu cilvēka-AI sadarbībai. Balss plus svaigs ekrānuzņēmums ir daudz platāks.

  • Mijiedarbības modelis + fona modelis

    Viņu piedāvātā arhitektūra sastāv no divām pusēm. Mijiedarbības modelis, kas paliek klāt un sinhrons. Fona modelis, kas asinhroni veic ilgāka horizonta darbu. Katchy atspoguļojas tīri: izvēlnes josla ir mijiedarbības modelis, aģenta cikls, fona modelis, un tie dalās kontekstā.

Pēdējais

Viens īsinājumtaustiņš.
Visa saskarne.

Trīs minūtes lejupielādēt. Viens akords, ko atcerēties. Nulle eiro, katru dienu no tagad līdz visuma siltumnāvei.

Lejupielādēt KatchyAtpakaļ uz sākumlapu

macOS 14.2+ · Apple Silicon un Intel · ~860 MB