Treci la conținut
katchyfor mac
Un ghid de terenVolumul 01 · 2026

Cum funcționează Katchy.

O singură scurtătură. Patru pași mici. Trei modele de frontieră. Un eseu scurt despre modelul de interacțiune din spatele unei aplicații macOS native, prietenoase și gratuite, care face în liniște aproape tot ce poți descrie cu voce tare.

Local mai întâi · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon și Intel

O notă înainte de a începe

Cerem scuze publicului larg: suntem la o săptămână în acest proiect, așa că s-ar putea să dai peste un bug sau două. Le repară rapid și suntem foarte, foarte recunoscători că ai venit să te uiți. :D

Forma interfeței decide ce este posibil. Chatul ne-a făcut să gândim. Folosirea uneltelor ne-a făcut să construim. Agenții au lăsat în sfârșit modelul să atingă același ecran ca tine. Tot ce e amuzant trăiește în această a treia eră, iar Katchy este cea mai mică, cea mai liniștită și cea mai Macintosh-formată fereastră înspre ea pe care am reușit să o facem.

Restul paginii este ghidul de sub capotă. Ce se întâmplă între apăsarea unei taste și răspunsul care îți ajunge la ureche. De ce direcționăm spre un alt model de frontieră în funcție de întrebare. Ce nu părăsește niciodată Mac-ul tău. Am încercat să fie scurt.

01b · Teza

De ce are nevoie
cu adevărat colaborarea.

Proprietate 01

Coprezență

Împărtășim același obiect. Katchy se uită la aceeași fereastră, același paragraf, același cadru Figma ca tine. Nu ghicește dintr-o descriere, citește aceiași pixeli ca tine.

În Katchy
ScreenCaptureKit, un singur cadru, limitat la ecranul activ.

Proprietate 02

Contemporaneitate

Feedback în timpul muncii, nu după. Katchy răspunde în momentul în care încetezi să vorbești, cât întrebarea e încă caldă, fără buton de trimitere, fără spinner, fără lanț de e-mailuri.

În Katchy
De la scurtătură la primul token, cam 80 milisecunde.

Proprietate 03

Simultaneitate

Putem face amândoi lucruri în același timp. Tu continui să scrii în timp ce un agent redenumește 47 de capturi. Katchy continuă să raționeze cât tu derulezi. Niciunul nu trebuie să aștepte rândul.

În Katchy
Loop de agent în afara firului principal, anulabil cu ⌘ . în orice moment.

Ce am citit

Trei proprietăți, luate aproape cuvânt cu cuvânt din eseul Thinking Machines despre modele de interacțiune. Ei susțin că o colaborare reală, cu oameni, cu cod, cu orice, cere toate trei în același timp. Cele mai multe sisteme AI de azi sunt acordate pentru operare autonomă și le ratează complet. Katchy e construit direct pentru cazul interactiv.

01 · Problema interacțiunii

Trei ere
în care vorbim cu
un calculator.

1.0Chat

Tu scrii, modelul răspunde. Copiezi, lipești, sari între file. Puternic, dar modelul știe doar ce îi spui și nu poate atinge niciodată ce vezi.

Doar gând. Fără mâini. Fără ochi.

2.0Folosirea uneltelor

Modelele au început să apeleze API-uri. Citește acest fișier. Caută în această bază. Trimite acest e-mail. Minunat, dar tot trebuia să conectezi fiecare unealtă singur în cod.

Putere reală, dar instalatorul ești tu.

3.0Agenți

Modelul se uită la ecranul tău, ține un plan în minte, acționează, își verifică munca și te întreabă doar când are nevoie cu adevărat. Aici locuiește Katchy.

Unde locuiește Katchy.

Interludiu · problema lățimii de bandă

„Ca și cum ai rezolva neînțelegeri
prin e-mail în loc de față în față."

- Thinking Machines, despre îngustimea colaborării

Chatul este un singur fir: până nu termini de scris, modelul nu percepe nimic; până nu termină el de scris, nu percepi nimic. Canalul este îngust. Vocea plus o captură proaspătă este un canal mult mai larg, și de aceea Katchy vorbește în loc să scrie.

02 · Anatomia unei cereri

Ce se întâmplă
în acele optzeci
de milisecunde.

Fiecare cerere trece prin același pipeline cu patru etape. Apasă pe o etapă sau doar uită-te, diagrama avansează singură la fiecare câteva secunde și se oprește în clipa în care preiei.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arhitectură

Model de interacțiune
în față. Model de
fundal în spate.

Față · sincron

Modelul de
interacțiune.

Rămâne prezent cât timp vorbești. Ține conversația în memorie pe termen scurt. Sesizează dacă te gândești, dai cuvântul sau întrerupi. Răspunde în aproximativ timpul unei clipiri.

  • Audio push-to-talk + o singură captură de ecran.
  • Tokeni transmiși live, niciodată „te rog așteaptă".
  • Se poate anula din zbor cu ⌘ .

Spate · asincron

Modelul
de fundal.

Se ocupă de munca lentă și prelungită. O buclă de agent multi-pas cu unelte: sistem de fișiere, AppleScript, Shortcuts, browser. Planifică, acționează, își recitește propria ieșire, încearcă din nou. Raportează când termină.

  • Rulează în afara firului principal, nu blochează UI-ul.
  • Împarte contextul conversației cu cel din față.
  • Rezultatul final apare ca o notificare discretă în bara de meniu.

Asta este arhitectura în două părți propusă de Thinking Machines, în miniatură. Modelul de interacțiune îți dă reactivitatea unui model mic. Modelul de fundal îți dă planificarea și uneltele unui model mare. Împart contextul. Cusăturile nu le vezi.

03 · Stiva, strat cu strat

Patru framework-uri Apple
mici, plictisitoare,
extrem de bine numite.

01 · Ascultă

Ține și vorbește

Ține Control și Option. macOS captează audio local prin CoreAudio. Forma de undă se transcrie pe dispozitiv dacă se poate, apoi se decupează și se trimite doar dacă e nevoie de un model de frontieră.

02 · Vede

O imagine a ecranului tău

Când întrebarea are nevoie de context, ScreenCaptureKit ia un singur cadru țintit. Katchy nu transmite niciodată video, nu înregistrează continuu, nu stochează capturi după răspuns.

03 · Gândește

Creierul potrivit pentru sarcină

Katchy direcționează cererea către modelul de frontieră care o rezolvă cel mai bine. PDF-uri lungi la Claude. Sarcini vizuale la Gemini. Cod și edits rapide la GPT. Routerul alege, tu stai liniștit.

04 · Acționează

Cursor + agenți, în bara ta de meniu

Un triunghi prietenos arată răspunsul când e suficient un click. Un agent multi-pas rulează în fundal când sunt necesare zece. Amândoi împart memorie, amândoi se opresc cu tine.

04 · Decizia routerului

Intră o propoziție,
creierul potrivit
se ocupă.

Un clasificator mic îți citește transcrierea și tokenii paginii și trimite fiecare cerere modelului care se potrivește cel mai bine. Încearcă câteva, routerul își arată munca.

Încearcă o întrebare

Decizia routerului

Rezumă acest PDF de 60 de pagini pe care tocmai l-am deschis

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

De ce tocmai aceasta: Context lung, raționament atent asupra unui document structurat.

05 · Trei creiere, o bară de meniu

Întrebări diferite
merită modele
diferite.

OpenAI

GPT

Vine aici pentru edits rapide, code review și genul de rescriere structurată în care vrei răspunsul înapoi într-o propoziție și jumătate.

  • Rescrieri strânse
  • Code review
  • Edits rapide

Anthropic

Claude

Vine aici pentru documente lungi, raționament atent și orice unde preferi să nu primești un răspuns sigur dar greșit.

  • Context lung
  • Raționament atent
  • Scriere nuanțată

Google

Gemini

Vine aici pentru momente cu ecran greu, grafice, slide-uri și cazuri unde vizualul e jumătate din întrebare.

  • Vedere
  • Grafice și slide-uri
  • Răspuns rapid

06 · Capabilități

Un meniu scurt cu lucruri pe care pur și simplu le poți spune.

Citit și scris

  • Rezumă acel PDF de 60 de pagini

    Citit

  • Schițează un nu politicos

    Scris

  • Scrie un changelog rapid

    Scris

  • Tradu în spaniolă

    Scris

  • Reia ciorna de ieri

    Scris

  • Generează un recap săptămânal

    Scris

Fișiere și sistem

  • Redenumește 47 de capturi

    Fișiere

  • Fă ordine pe desktop

    Fișiere

  • Trage datele din acest CSV

    Numere

  • Convertește acestea în PNG

    Fișiere

  • Deschide ultima captură

    Fișiere

  • Fixează Spotify în bara de meniu

    Sistem

  • Ce face această comandă?

    Terminal

  • Convertește asta într-un tabel

    Numere

Flux zilnic

  • Sortează inboxul

    Mail

  • Deschide asta în Cursor

    Cod

  • Reprogramează standup-ul

    Calendar

  • Etichetează aceste poze după chip

    Fotografii

  • Setează Slack pe mut o oră

    Focalizare

  • Ce s-a schimbat în acest fișier?

    Cod

  • Adaugă asta la Memento

    Sarcini

  • Găsește acel PDF pe care l-am pierdut

    Căutare

Și orice altceva

Astea sunt câteva din săptămâna asta. Lista adevărată e orice poți spune cu voce tare arătând spre ecran. Restul îl fac agenții.

06 · În cifre

Cu ce se măsoară
o aplicație agentică
liniștită.

3

modele de frontieră într-o bară de meniu

0

servere pe care le deținem, vreodată

1

scurtătură e tot UI-ul

~ 80 MB

spațiu pe disc pentru tot

80 ms

de la scurtătură la primul token

0

fișiere îți părăsesc Mac-ul până nu ceri

07 · Pe tot Mac-ul tău

Aceeași buclă. Fiecare aplicație.
Fiecare flux de lucru.

08 · Local acolo unde contează

Ecranul tău
nu părăsește Mac-ul,
fără să spui.

  1. 01

    Local implicit.

    Audio este capturat în RAM și aruncat în clipa în care cererea se termină. Capturile rămân în memorie. Conversațiile trăiesc în folderul tău Application Support, nu pe un server.

  2. 02

    Cel mai mic payload posibil.

    Routerul taie audio doar la partea vorbită, maschează bara de meniu și dock-ul din orice captură și nu trimite niciodată istoric pe care modelul nu îl cere.

  3. 03

    Adu-ți propriile chei.

    Cheile Anthropic, OpenAI și Google trăiesc în Keychain-ul tău macOS. Noi nu le vedem niciodată. Le poți scoate sau roti oricând.

  4. 04

    Se poate anula la fiecare pas.

    ⌘ . oprește o cerere în zbor. Agenții verifică steagul de anulare la fiecare buclă. Nu există „așteaptă să facem ordine".

09 · O scurtă listă de lecturi

Stăm pe
patru perechi
de umeri.

  1. 01

    Metis

    Conceptul lui Scott despre cunoaștere practică. Stocastic, intuitiv, local. Raționament potrivit când incertitudinea e mare și răspunsul corect depinde de încăpere. Agenții au nevoie de el.

  2. 02

    Problema cunoașterii la Hayek

    Cunoașterea importantă trăiește în circumstanțele particulare de timp și loc. Ecranul din fața ta acum e exact această cunoaștere. Katchy o citește.

  3. 03

    Lecția amară

    Sutton. Sistemele făcute manual sunt depășite de capacitatea generală + scară. De asta ținem suprafața plictisitoare și bine denumită, lăsând partea grea modelelor de frontieră.

  4. 04

    Oralitate

    Ong despre natura participativă a comunicării orale. Vocea e mai aproape de colaborarea naturală decât scrisul într-o casetă. Push-to-talk nu e un truc, e interfața corectă.

Note

  • Strâmtoarea

    Modelele de frontieră de azi sunt optimizate pentru utilizare „autonomă, de lungă durată". O fișă recentă de model recunoaște că „atunci când e folosit interactiv, sincron, cu mâinile pe tastatură, beneficiile modelului erau mai puțin clare". Cea mai mare parte a muncii reale e interactivă. Katchy e construit fix pentru acest caz.

  • Lățime de bandă

    Chatul e un singur fir: până nu termini de scris, modelul nu percepe nimic; până nu termină de generat, nu percepi nimic. Thinking Machines numește asta un canal îngust pentru colaborarea om-AI. Vocea + un screenshot proaspăt e un canal mult mai larg.

  • Model de interacțiune + model de fundal

    Arhitectura propusă are două jumătăți. Un model de interacțiune care rămâne prezent și sincron. Un model de fundal care preia munca pe orizont mai lung, asincron. Katchy se mapează curat: bara de meniu e modelul de interacțiune, loopul de agent e modelul de fundal, și împart contextul.

Un ultim lucru

O singură scurtătură.
Toată interfața.

Trei minute să o descarci. Un acord de reținut. Zero euro, în fiecare zi de acum până la moartea termică a universului.

Descarcă KatchyÎnapoi la pagina principală

macOS 14.2+ · Apple Silicon și Intel · ~860 MB