Naar inhoud springen
katchyfor mac
Een veldgidsVolume 01 · 2026

Hoe Katchy werkt.

Eén sneltoets. Vier kleine stappen. Drie frontiermodellen. Een kort essay over het interactiemodel achter een vriendelijke, gratis, native macOS-app die in stilte bijna alles doet wat je hardop kunt beschrijven.

Lokaal eerst · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon en Intel

Een notitie vooraf

Excuses aan het brede publiek: we zijn nog maar een week bezig, dus je kunt een bug of twee tegenkomen. We patchen snel, en we zijn enorm dankbaar dat je langskomt. :D

De vorm van de interface bepaalt wat mogelijk is. Chat liet ons nadenken. Toolgebruik liet ons bouwen. Agents lieten het model eindelijk hetzelfde scherm aanraken dat jij ziet. Alles wat leuk is, leeft in dat derde tijdperk, en Katchy is het kleinste, rustigste, meest Macintosh-vormige raampje daar­naartoe dat we konden maken.

De rest van deze pagina is de gids onder de motorkap. Wat er gebeurt tussen jouw toetsdruk en het antwoord in je oor. Waarom we per vraag naar een ander frontiermodel routeren. Wat nooit van je Mac afgaat. We probeerden het kort te houden.

01b · De these

Wat samenwerking
echt nodig heeft.

Eigenschap 01

Mede-aanwezigheid

We delen hetzelfde object. Katchy kijkt naar hetzelfde venster, dezelfde alinea, hetzelfde Figma-frame als jij. Het raadt niet vanaf een beschrijving, het leest dezelfde pixels die jij leest.

In Katchy
ScreenCaptureKit één frame, beperkt tot het actieve scherm.

Eigenschap 02

Gelijktijdigheid

Feedback terwijl het werk gebeurt, niet erna. Katchy antwoordt op het moment dat je stopt met praten, terwijl de vraag nog warm is, geen verzendknop, geen spinner, geen e-mailthread.

In Katchy
Van sneltoets tot eerste token: ongeveer 80 milliseconden.

Eigenschap 03

Parallelliteit

We kunnen allebei tegelijk dingen doen. Jij typt door terwijl een agent 47 screenshots hernoemt. Katchy blijft redeneren terwijl jij scrollt. Niemand hoeft op de ander te wachten.

In Katchy
Agent-loop buiten de hoofdthread, op elk moment annuleerbaar met ⌘ .

Wat we lazen

Drie eigenschappen, vrijwel letterlijk uit het essay van Thinking Machines over interactiemodellen. Ze stellen dat echte samenwerking, met mensen, met code, met wat dan ook, alle drie tegelijk vereist. De meeste huidige AI-systemen zijn afgestemd op autonoom werken en missen ze volledig. Katchy is regelrecht gebouwd voor het interactieve geval.

01 · Het interactieprobleem

Drie tijdperken
van praten met
een computer.

1.0Chat

Jij typt, het model typt terug. Je kopieert, plakt, springt tussen tabs. Krachtig, maar het model weet alleen wat jij vertelt en kan nooit aanraken wat jij ziet.

Alleen gedachten. Geen handen. Geen ogen.

2.0Toolgebruik

Modellen begonnen API's aan te roepen. Lees dit bestand. Zoek in deze database. Stuur deze e-mail. Geweldig, maar je moest nog steeds elke tool zelf in code aan elkaar knopen.

Echte kracht, maar het loodgieten doe jij.

3.0Agents

Het model kijkt naar je scherm, houdt een plan in z'n hoofd, handelt, controleert zichzelf en vraagt je alleen als het echt nodig is. Hier woont Katchy.

Waar Katchy woont.

Intermezzo · het bandbreedteprobleem

“Net als ruzies oplossen
via e-mail in plaats van in persoon.”

- Thinking Machines, over de bottleneck van samenwerking

Chat is één draadje: tot jij klaar bent met typen, voelt het model niets; tot het klaar is met typen, voel jij niets. Het kanaal is smal. Stem plus een verse screenshot is een veel breder kanaal, daarom praat Katchy in plaats van te typen.

02 · Anatomie van één verzoek

Wat er gebeurt
in die tachtig
milliseconden.

Elk verzoek gaat door dezelfde pipeline van vier fasen. Klik op een fase of kijk gewoon, het diagram cyclet vanzelf elke paar seconden en stopt op het moment dat jij overneemt.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architectuur

Interactiemodel
vooraan. Achtergrond-
model erachter.

Voor · synchroon

Het interactie-
model.

Blijft aanwezig terwijl je praat. Houdt het gesprek in korte­termijn­geheugen. Merkt of je nadenkt, het woord geeft of onderbreekt. Antwoordt in ongeveer de tijd die je nodig hebt om te knipperen.

  • Push-to-talk-audio + één screenshot.
  • Gestreamde tokens, nooit "even wachten".
  • Annuleerbaar onderweg met ⌘ .

Achter · asynchroon

Het achter-
grondmodel.

Neemt het langzame, langdurige werk op zich. Een multi-step agentlus met tools: bestandssysteem, AppleScript, Shortcuts, browser. Plant, handelt, leest de eigen output terug, probeert opnieuw. Meldt zich als het klaar is.

  • Loopt buiten de hoofdthread, blokkeert de UI nooit.
  • Deelt de gesprekscontext met het voorste deel.
  • Het eindresultaat komt binnen als een stille menubalk-melding.

Dit is de tweedelige architectuur die Thinking Machines voorstelt, in miniatuur. Het interactiemodel geeft je de reactietijd van een klein model. Het achtergrondmodel geeft je de planning en het toolgebruik van een groot model. Ze delen context. De naden zie je nooit.

03 · De stack, laag voor laag

Vier kleine, saaie,
extreem goed
benoemde Apple-frameworks.

01 · Luistert

Houd vast en praat

Houd Control en Option vast. macOS legt audio lokaal vast via CoreAudio. De golfvorm wordt waar mogelijk op het apparaat getranscribeerd, daarna ingekort en alleen verstuurd als een frontiermodel nodig is.

02 · Ziet

Een snapshot van je scherm

Als de vraag context nodig heeft, pakt ScreenCaptureKit één gericht frame. Katchy streamt nooit video, neemt nooit continu op, bewaart nooit screenshots na het antwoord.

03 · Denkt

Het juiste brein voor de klus

Katchy stuurt het verzoek naar het frontiermodel dat het 't best afhandelt. Lange PDF's naar Claude. Visuele taken naar Gemini. Code en snelle edits naar GPT. De router kiest, jij blijft stil.

04 · Handelt

Cursor + agents, in je menubalk

Een vriendelijk driehoekje wijst naar het antwoord als één klik genoeg is. Een multi-step agent draait op de achtergrond als er tien nodig zijn. Beide delen geheugen, beide stoppen met jou.

04 · De beslissing van de router

Eén zin erin,
het juiste brein
erop.

Een kleine classifier leest je transcript en de pagina-tokens en stuurt elk verzoek naar het model dat het best past. Probeer er een paar, de router laat zijn werk zien.

Stel een vraag

Routerbeslissing

Vat deze pdf van 60 pagina's samen die ik net heb geopend

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Waarom deze: Lange context, zorgvuldig redeneren over een gestructureerd document.

05 · Drie breinen, één menubalk

Verschillende vragen
verdienen verschillende
modellen.

OpenAI

GPT

Komt hier voor snelle edits, code review en het soort gestructureerde herschrijving waar je het antwoord in anderhalve zin terug wilt.

  • Strakke herschrijvingen
  • Code review
  • Snelle edits

Anthropic

Claude

Komt hier voor lange documenten, zorgvuldig redeneren en alles waar je liever geen zelfverzekerd fout antwoord hebt.

  • Lange context
  • Zorgvuldig redeneren
  • Genuanceerd schrijven

Google

Gemini

Komt hier voor schermrijke momenten, grafieken, slides en gevallen waarin het visuele de helft van de vraag is.

  • Zicht
  • Grafieken en slides
  • Snelle reactie

06 · Mogelijkheden

Een korte menukaart van dingen die je gewoon kunt zeggen.

Lezen en schrijven

  • Vat die PDF van 60 pagina's samen

    Lezen

  • Schrijf een beleefd nee

    Schrijven

  • Schrijf een snelle changelog

    Schrijven

  • Vertaal naar Spaans

    Schrijven

  • Hervat de concept van gisteren

    Schrijven

  • Genereer een wekelijks overzicht

    Schrijven

Bestanden en systeem

  • Hernoem 47 screenshots

    Bestanden

  • Ruim je bureaublad op

    Bestanden

  • Haal data uit deze CSV

    Cijfers

  • Converteer deze naar PNG

    Bestanden

  • Open de laatste screenshot

    Bestanden

  • Maak Spotify vast aan de menubalk

    Systeem

  • Wat doet dit commando?

    Terminal

  • Zet dit om in een tabel

    Cijfers

Dagelijkse flow

  • Trieer je inbox

    Mail

  • Open dit in Cursor

    Code

  • Verschuif de standup

    Agenda

  • Tag deze foto's op gezicht

    Foto's

  • Dempt Slack een uur

    Focus

  • Wat is er in dit bestand veranderd?

    Code

  • Voeg dit toe aan Herinneringen

    Taken

  • Vind die PDF die ik kwijt ben

    Zoeken

En al het andere

Dit zijn er een paar van deze week. De echte lijst is alles wat je hardop kunt zeggen terwijl je naar je scherm wijst. De rest doen de agents.

06 · In cijfers

Waarmee een rustige
agentic app
zich meet.

3

frontiermodellen in één menubalk

0

servers waarvan we eigenaar zijn, ooit

1

sneltoets is de hele UI

~ 80 MB

schijfruimte om het allemaal te herbergen

80 ms

van sneltoets-omhoog tot eerste token

0

bestanden verlaten je Mac tot je het vraagt

07 · Over je hele Mac

Dezelfde loop. Elke app.
Elke workflow.

08 · Lokaal waar het ertoe doet

Je scherm verlaat
je Mac niet,
ongevraagd.

  1. 01

    Lokaal als standaard.

    Audio wordt in RAM opgenomen en weggegooid op het moment dat het verzoek klaar is. Screenshots blijven in het geheugen. Gesprekken leven in je Application Support-map, niet op een server.

  2. 02

    Kleinste mogelijke payload.

    De router knipt audio tot enkel het gesproken deel, maskeert menubalk en dock van elke screenshot, en stuurt nooit gesprekshistorie die het model niet nodig heeft.

  3. 03

    Neem je eigen keys mee.

    Anthropic-, OpenAI- en Google-keys leven in je macOS-sleutelhanger. Wij zien ze nooit. Je haalt ze er op elk moment uit of vervangt ze.

  4. 04

    Op elke stap te annuleren.

    ⌘ . stopt een verzoek onderweg. Agents controleren de annuleervlag bij elke loop. Geen "even wachten terwijl we opruimen".

09 · Een korte leeslijst

Op de schouders
van vier
paar staan.

  1. 01

    Metis

    Scotts begrip van praktische kennis. Stochastisch, intuïtief, lokaal. Redeneren dat past wanneer onzekerheid hoog is en het juiste antwoord van de kamer afhangt. Agents hebben het nodig.

  2. 02

    Hayeks kennisprobleem

    Belangrijke kennis leeft in de specifieke omstandigheden van tijd en plaats. Het scherm voor je, nu, is precies die kennis. Katchy leest hem.

  3. 03

    De bittere les

    Sutton. Handgemaakte systemen worden ingehaald door algemene capaciteit + schaal. Daarom houden we het oppervlak saai en goed benoemd, en laten we het zware werk over aan frontiermodellen.

  4. 04

    Oraliteit

    Ong over het participatieve karakter van mondelinge communicatie. Stem ligt dichter bij natuurlijke samenwerking dan typen in een vakje. Push-to-talk is geen truc, het is de juiste interface.

Voetnoten

  • De bottleneck

    De frontiermodellen van vandaag zijn geoptimaliseerd voor "autonoom, langdurig" gebruik. Een recente modelkaart erkent dat "bij interactief, synchroon gebruik met handen op het toetsenbord de voordelen van het model minder duidelijk waren". Het meeste echte werk is interactief. Katchy is precies daarvoor gebouwd.

  • Bandbreedte

    Chat is één draad: zolang jij niet klaar bent met typen, neemt het model niets waar; zolang het niet klaar is met genereren, neem jij niets waar. Thinking Machines noemt dit een smal kanaal voor mens-AI-samenwerking. Stem plus een verse screenshot is een veel breder kanaal.

  • Interactiemodel + achtergrondmodel

    Hun voorgestelde architectuur heeft twee helften. Een interactiemodel dat aanwezig en synchroon blijft. Een achtergrondmodel dat langere-termijnwerk asynchroon oppakt. Katchy past er strak op: de menubalk is het interactiemodel, de agent-loop is het achtergrondmodel, en ze delen context.

Nog één ding

Eén sneltoets.
De hele interface.

Drie minuten om te downloaden. Eén akkoord om te onthouden. Nul euro, elke dag vanaf nu tot de warmtedood van het universum.

Download KatchyTerug naar de homepage

macOS 14.2+ · Apple Silicon en Intel · ~860 MB