Gå til indhold
katchyfor mac
En feltguideBind 01 · 2026

Sådan virker Katchy.

Én genvej. Fire små trin. Tre frontiermodeller. Et kort essay om interaktionsmodellen bag en venlig, gratis, native macOS-app, der i stilhed gør næsten alt, du kan beskrive højt.

Lokalt først · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon og Intel

En note inden vi starter

Med undskyldning til det brede publikum: vi er kun en uge inde i projektet, så du kan støde på en bug eller to. Vi patcher hurtigt og er virkelig, virkelig taknemmelige for, at du kiggede forbi. :D

Grænsefladens form afgør, hvad der er muligt. Chat fik os til at tænke. Værktøjsbrug fik os til at bygge. Agenter lod endelig modellen røre den samme skærm som dig. Alt det sjove bor i den tredje æra, og Katchy er det mindste, roligste, mest Macintosh-formede vindue ind, vi kunne lave.

Resten af siden er guiden under motorhjelmen. Hvad der sker mellem at du trykker på en tast og svaret når dit øre. Hvorfor vi router til forskellige frontiermodeller alt efter spørgsmålet. Hvad der aldrig forlader din Mac. Vi prøvede at holde det kort.

01b · Tesen

Hvad samarbejde
virkelig kræver.

Egenskab 01

Samtidighed i rum

Vi deler samme objekt. Katchy kigger på samme vindue, samme afsnit, samme Figma-billede som dig. Den gætter ikke ud fra en beskrivelse, den læser de pixels, du læser.

I Katchy
ScreenCaptureKit, ét billede, begrænset til den aktive skærm.

Egenskab 02

Samtidighed i tid

Feedback mens arbejdet foregår, ikke bagefter. Katchy svarer i det øjeblik, du holder op med at tale, mens spørgsmålet stadig er varmt, ingen send-knap, ingen spinner, ingen mailtråd.

I Katchy
Fra genvej til første token, cirka 80 millisekunder.

Egenskab 03

Parallelitet

Vi kan begge to gøre ting på samme tid. Du skriver videre, mens en agent omdøber 47 skærmbilleder. Katchy bliver ved med at ræsonnere, mens du scroller. Ingen skal vente sin tur.

I Katchy
Agent-loop uden for hovedtråden, kan annulleres med ⌘ . når som helst.

Hvad vi læste

Tre egenskaber, taget næsten ord for ord fra Thinking Machines' essay om interaktionsmodeller. De argumenterer for, at ægte samarbejde, med mennesker, med kode, med hvad som helst, kræver alle tre på en gang. De fleste AI-systemer i dag er trimmet til autonom drift og misser dem helt. Katchy er bygget direkte til det interaktive tilfælde.

01 · Interaktionsproblemet

Tre æraer
med at tale med
en computer.

1.0Chat

Du skriver, modellen skriver tilbage. Du kopierer, indsætter, hopper mellem faner. Stærkt, men modellen ved kun det, du fortæller, og kan aldrig røre det, du ser.

Kun tanke. Ingen hænder. Ingen øjne.

2.0Værktøjsbrug

Modeller begyndte at kalde API'er. Læs denne fil. Søg i denne database. Send denne mail. Vidunderligt, men du skulle stadig binde hvert værktøj sammen selv i kode.

Rigtig kraft, men VVS'en er dig.

3.0Agenter

Modellen kigger på din skærm, holder en plan i hovedet, handler, tjekker sit eget arbejde og spørger dig kun, når den virkelig skal. Her bor Katchy.

Hvor Katchy bor.

Mellemspil · båndbredde-problemet

“Som at løse uenigheder
via mail i stedet for ansigt til ansigt.”

- Thinking Machines, om samarbejdets flaskehals

Chat er én tråd: indtil du er færdig med at skrive, fornemmer modellen ingenting; indtil den er færdig, fornemmer du ingenting. Kanalen er smal. Stemme plus et frisk screenshot er en langt bredere kanal, og det er grunden til, at Katchy taler i stedet for at skrive.

02 · Anatomien af én forespørgsel

Hvad der sker
i de firs
millisekunder.

Hver forespørgsel går gennem samme firetrinspipeline. Klik på et trin eller bare se på, diagrammet cykler selv hvert par sekunder og stopper i det øjeblik, du overtager.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arkitektur

Interaktionsmodel
foran. Baggrunds-
model bagved.

Foran · synkront

Interaktions-
modellen.

Bliver til stede, mens du taler. Holder samtalen i korttidshukommelsen. Mærker, om du tænker, giver ordet eller afbryder. Svarer omtrent på et øjeblik.

  • Push-to-talk-lyd + ét screenshot.
  • Streamede tokens, aldrig “vent venligst”.
  • Kan annulleres undervejs med ⌘ .

Bagved · asynkront

Baggrunds-
modellen.

Tager det langsomme, lange arbejde. Et multi-trins agentloop med værktøjer: filsystem, AppleScript, Shortcuts, browser. Planlægger, handler, læser sit eget output, prøver igen. Melder tilbage, når det er færdigt.

  • Kører uden for hovedtråden, blokerer aldrig UI'et.
  • Deler samtalekonteksten med fronten.
  • Det endelige resultat lander som en stille menulinje-notifikation.

Det er den todelte arkitektur, Thinking Machines foreslår, i miniature. Interaktionsmodellen giver dig en lille models respons. Baggrundsmodellen giver dig en stor models planlægning og værktøjsbrug. De deler kontekst. Sømmen ser du aldrig.

03 · Stakken, lag for lag

Fire små, kedelige,
ekstremt velnavngivne
Apple-frameworks.

01 · Lytter

Hold og tal

Hold Control og Option. macOS fanger lyd lokalt via CoreAudio. Bølgeformen transskriberes på enheden når muligt, klippes så til og sendes kun, hvis en frontiermodel kræves.

02 · Ser

Et øjebliksbillede af din skærm

Når spørgsmålet kræver kontekst, tager ScreenCaptureKit et enkelt, målrettet billede. Katchy streamer aldrig video, optager aldrig kontinuerligt, gemmer aldrig skærmbilleder efter svaret.

03 · Tænker

Den rette hjerne til opgaven

Katchy ruter forespørgslen til den frontiermodel, der klarer det bedst. Lange PDF'er til Claude. Visuelle opgaver til Gemini. Kode og hurtige rettelser til GPT. Routeren vælger, du står stille.

04 · Handler

Markør + agenter, i din menulinje

En venlig trekant peger på svaret, når ét klik er nok. En agent med flere trin kører i baggrunden, når der skal ti til. Begge deler samme hukommelse, begge stopper med dig.

04 · Routerens beslutning

Én sætning ind,
den rigtige hjerne
tager den.

En lille klassifikator læser din transskription og sidens tokens og sender hver forespørgsel til den model, der passer bedst. Prøv et par stykker, routeren viser sit arbejde.

Prøv et spørgsmål

Router-beslutning

Opsummer denne 60-siders PDF, jeg lige har åbnet

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Hvorfor netop denne: Lang kontekst, omhyggelig ræsonnement over et struktureret dokument.

05 · Tre hjerner, én menulinje

Forskellige spørgsmål
fortjener forskellige
modeller.

OpenAI

GPT

Går herhen til hurtige rettelser, code review og den slags struktureret omskrivning, hvor du vil have svaret tilbage på halvanden sætning.

  • Stramme omskrivninger
  • Code review
  • Hurtige rettelser

Anthropic

Claude

Går herhen til lange dokumenter, omhyggelig ræsonnement og alt det, hvor du hellere vil undvære et selvsikkert forkert svar.

  • Lang kontekst
  • Omhyggelig ræsonnement
  • Nuanceret skrivning

Google

Gemini

Går herhen til skærmtunge øjeblikke, diagrammer, slides og tilfælde, hvor det visuelle er halvdelen af spørgsmålet.

  • Syn
  • Diagrammer og slides
  • Hurtig levering

06 · Evner

En kort menukort med ting, du bare kan sige.

Læse og skrive

  • Resumér den PDF på 60 sider

    Læsning

  • Skriv et høfligt nej

    Skrivning

  • Skriv en hurtig changelog

    Skrivning

  • Oversæt til spansk

    Skrivning

  • Genoptag gårsdagens udkast

    Skrivning

  • Generer en ugentlig opsummering

    Skrivning

Filer og system

  • Omdøb 47 skærmbilleder

    Filer

  • Ryd op på skrivebordet

    Filer

  • Træk data ud af denne CSV

    Tal

  • Konvertér disse til PNG

    Filer

  • Åbn sidste skærmbillede

    Filer

  • Fastgør Spotify til menulinjen

    System

  • Hvad gør den kommando?

    Terminal

  • Konvertér det her til en tabel

    Tal

Daglig flow

  • Sortér din indbakke

    Mail

  • Åbn det her i Cursor

    Kode

  • Omplaner standuppen

    Kalender

  • Tag disse fotos efter ansigt

    Fotos

  • Dæmp Slack i en time

    Fokus

  • Hvad ændrede sig i denne fil?

    Kode

  • Føj det til Påmindelser

    Opgaver

  • Find den PDF jeg tabte

    Søg

Og alt andet

Det er nogle få fra denne uge. Den rigtige liste er alt, hvad du kan sige højt, mens du peger på skærmen. Resten klarer agenterne.

06 · I tal

Hvad en stille
agentisk app
måler sig med.

3

frontiermodeller i én menulinje

0

servere vi ejer, nogensinde

1

genvej er hele UI'et

~ 80 MB

diskplads til at huse det hele

80 ms

fra genvej-op til første token

0

filer forlader din Mac, indtil du spørger

07 · På tværs af hele din Mac

Samme loop. Hver app.
Hver workflow.

08 · Lokalt hvor det tæller

Din skærm forlader
ikke din Mac,
uden at du beder om det.

  1. 01

    Lokalt som standard.

    Lyden fanges i RAM og smides væk i det øjeblik forespørgslen slutter. Screenshots bliver i hukommelsen. Samtaler bor i din Application Support-mappe, ikke på en server.

  2. 02

    Mindst mulig payload.

    Routeren klipper lyden til kun den talte del, masker menulinjen og dock væk fra ethvert screenshot og sender aldrig samtalehistorik, modellen ikke har brug for.

  3. 03

    Tag dine egne nøgler med.

    Nøgler til Anthropic, OpenAI og Google bor i din macOS-nøglering. Vi ser dem aldrig. Du kan trække dem eller rotere dem når som helst.

  4. 04

    Kan annulleres i hvert trin.

    ⌘ . stopper en forespørgsel undervejs. Agenter tjekker annullér-flaget i hver runde. Der er intet “vent mens vi rydder op”.

09 · En kort læseliste

Vi står på
fire par
skuldre.

  1. 01

    Metis

    Scotts begreb om praktisk viden. Stokastisk, intuitiv, lokal. Ræsonnement der passer, når usikkerheden er høj og det rigtige svar afhænger af rummet. Agenter har brug for det.

  2. 02

    Hayeks vidensproblem

    Vigtig viden lever i særlige omstændigheder af tid og sted. Skærmen foran dig nu er præcis den viden. Katchy læser den.

  3. 03

    Den bitre lektie

    Sutton. Håndlavede systemer bliver overhalet af generel kapacitet + skala. Derfor holder vi overfladen kedelig og veldøbt og lader frontiermodellerne tage den hårde del.

  4. 04

    Mundtlighed

    Ong om den deltagende natur af mundtlig kommunikation. Stemme er tættere på naturligt samarbejde end at skrive i en boks. Push-to-talk er ikke et trick, det er den rette grænseflade.

Fodnoter

  • Flaskehalsen

    Dagens frontiermodeller er optimeret til "autonom, langvarig" brug. Et nyt model-kort indrømmer, at "når den bruges interaktivt, synkront, med hænder på tastaturet, var modellens fordele mindre tydelige". Det meste rigtige arbejde er interaktivt. Katchy er bygget netop til den situation.

  • Båndbredde

    Chat er én tråd: indtil du er færdig med at skrive, opfatter modellen intet; indtil den er færdig med at generere, opfatter du intet. Thinking Machines kalder det en smal kanal for menneske-AI-samarbejde. Stemme + et nyt skærmbillede er en meget bredere kanal.

  • Interaktionsmodel + baggrundsmodel

    Deres foreslåede arkitektur har to halvdele. En interaktionsmodel der bliver til stede og synkron. En baggrundsmodel der tager længerevarende arbejde asynkront. Katchy passer rent: menulinjen er interaktionsmodellen, agent-loopet er baggrundsmodellen, og de deler kontekst.

En sidste ting

Én genvej.
Hele grænsefladen.

Tre minutter at hente. Én akkord at huske. Nul euro, hver dag fra nu og indtil universets varmedød.

Hent KatchyTilbage til forsiden

macOS 14.2+ · Apple Silicon og Intel · ~860 MB