Hopp til innhold
katchyfor mac
En feltguideBind 01 · 2026

Slik fungerer Katchy.

Én snarvei. Fire små steg. Tre frontiermodeller. Et kort essay om interaksjonsmodellen bak en vennlig, gratis, native macOS-app som stille gjør nesten alt du kan beskrive høyt.

Lokalt først · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon og Intel

En liten merknad først

Med unnskyldning til det brede publikum: vi er bare en uke inne i prosjektet, så du kan støte på en bug eller to. Vi fikser raskt og er veldig, veldig takknemlige for at du tittet innom. :D

Grensesnittets form bestemmer hva som er mulig. Chat fikk oss til å tenke. Verktøybruk fikk oss til å bygge. Agenter lot endelig modellen røre den samme skjermen som du gjør. Alt det morsomme bor i den tredje epoken, og Katchy er det minste, roligste, mest Macintosh-formede vinduet inn vi klarte å lage.

Resten av siden er guiden under panseret. Hva som skjer mellom at du trykker på en tast og svaret kommer i øret ditt. Hvorfor vi router til ulike frontiermodeller etter spørsmålet. Hva som aldri forlater Macen din. Vi prøvde å holde det kort.

01b · Tesen

Hva samarbeid
egentlig trenger.

Egenskap 01

Samtid

Vi deler samme objekt. Katchy ser på samme vindu, samme avsnitt, samme Figma-bilde som deg. Den gjetter ikke ut fra en beskrivelse, den leser de samme pikslene som du.

I Katchy
ScreenCaptureKit, ett bilde, begrenset til aktiv skjerm.

Egenskap 02

Samtidighet

Tilbakemelding mens arbeidet skjer, ikke etterpå. Katchy svarer i øyeblikket du slutter å snakke, mens spørsmålet ennå er varmt, ingen send-knapp, ingen spinner, ingen mailtråd.

I Katchy
Fra snarvei til første token, ca. 80 millisekunder.

Egenskap 03

Parallellitet

Vi kan begge gjøre ting samtidig. Du fortsetter å skrive mens en agent gir 47 skjermbilder nye navn. Katchy fortsetter å resonnere mens du scroller. Ingen trenger å vente på tur.

I Katchy
Agent-loop utenfor hovedtråden, kan avbrytes med ⌘ . når som helst.

Hva vi leste

Tre egenskaper, nesten ord for ord fra Thinking Machines' essay om interaksjonsmodeller. De mener at ekte samarbeid, med mennesker, med kode, med alt, krever alle tre samtidig. De fleste AI-systemer i dag er innstilt på autonom drift og bommer fullstendig. Katchy er bygget rett mot det interaktive tilfellet.

01 · Interaksjonsproblemet

Tre epoker
av å snakke med
en datamaskin.

1.0Chat

Du skriver, modellen skriver tilbake. Du kopierer, limer inn, hopper mellom faner. Kraftig, men modellen vet bare det du forteller, og kan aldri ta på det du ser.

Bare tanke. Ingen hender. Ingen øyne.

2.0Verktøybruk

Modeller begynte å kalle API-er. Les denne filen. Søk i denne databasen. Send denne mailen. Fantastisk, men du måtte fortsatt koble hvert verktøy sammen selv i kode.

Ekte kraft, men rørleggeren er deg.

3.0Agenter

Modellen ser på skjermen din, holder en plan i hodet, handler, sjekker eget arbeid og spør deg bare når den virkelig trenger det. Her bor Katchy.

Der Katchy bor.

Mellomspill · båndbredde-problemet

“Som å løse uenighet
via e-post i stedet for ansikt til ansikt.”

- Thinking Machines, om samarbeidets flaskehals

Chat er én tråd: helt til du er ferdig med å skrive, oppfatter modellen ingenting; helt til den er ferdig, oppfatter du ingenting. Kanalen er smal. Stemme pluss et ferskt skjermbilde er en mye bredere kanal, og det er derfor Katchy snakker i stedet for å skrive.

02 · Anatomien til én forespørsel

Hva som skjer
i de åtti
millisekundene.

Hver forespørsel går gjennom samme fire-stegs pipeline. Klikk på et steg eller bare se på, diagrammet sykler selv hvert få sekund og stopper i samme øyeblikk du tar over.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arkitektur

Interaksjonsmodell
foran. Bakgrunns-
modell bak.

Foran · synkront

Interaksjons-
modellen.

Holder seg til stede mens du snakker. Holder samtalen i korttidsminnet. Merker om du tenker, gir ordet eller avbryter. Svarer omtrent på ett blunk.

  • Push-to-talk-lyd + ett skjermbilde.
  • Strømmede tokens, aldri “vennligst vent”.
  • Kan avbrytes underveis med ⌘ .

Bak · asynkront

Bakgrunns-
modellen.

Tar det langsomme, langvarige arbeidet. En agentløkke i flere steg med verktøy: filsystem, AppleScript, Shortcuts, nettleser. Planlegger, handler, leser sin egen output, prøver igjen. Melder fra når det er ferdig.

  • Kjører utenfor hovedtråden, blokkerer aldri UI-et.
  • Deler samtalekonteksten med fronten.
  • Sluttresultatet kommer som et stille menylinjevarsel.

Dette er den todelte arkitekturen Thinking Machines foreslår, i miniatyr. Interaksjonsmodellen gir deg en liten modells respons. Bakgrunnsmodellen gir deg en stor modells planlegging og verktøybruk. De deler kontekst. Sømmen ser du aldri.

03 · Stacken, lag for lag

Fire små, kjedelige,
veldig godt navngitte
Apple-rammeverk.

01 · Lytter

Hold og snakk

Hold Control og Option. macOS fanger lyd lokalt via CoreAudio. Bølgeformen transkriberes på enheten når mulig, klippes så til og sendes bare hvis det trengs en frontiermodell.

02 · Ser

Et øyeblikksbilde av skjermen din

Når spørsmålet trenger kontekst, tar ScreenCaptureKit ett målrettet bilde. Katchy strømmer aldri video, tar aldri opp kontinuerlig, lagrer aldri skjermbilder etter svaret.

03 · Tenker

Riktig hjerne for jobben

Katchy ruter forespørselen til den frontiermodellen som tar det best. Lange PDF-er til Claude. Visuelle oppgaver til Gemini. Kode og raske rettelser til GPT. Routeren velger, du står stille.

04 · Handler

Markør + agenter, i menylinjen din

En vennlig trekant peker på svaret når ett klikk holder. En agent med flere trinn kjører i bakgrunnen når det trengs ti. Begge deler minne, begge stopper med deg.

04 · Routerens beslutning

Én setning inn,
riktig hjerne
tar saken.

En liten klassifikator leser transkripsjonen din og sidens tokens og sender hver forespørsel til den modellen som passer best. Prøv et par, routeren viser arbeidet sitt.

Prøv et spørsmål

Ruterbeslutning

Oppsummer denne 60-siders PDF-en jeg nettopp åpnet

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Hvorfor akkurat denne: Lang kontekst, nøye resonnement over et strukturert dokument.

05 · Tre hjerner, én menylinje

Ulike spørsmål
fortjener ulike
modeller.

OpenAI

GPT

Går hit for raske rettelser, code review og den slags strukturert omskriving der du vil ha svaret tilbake på halvannen setning.

  • Stramme omskrivinger
  • Code review
  • Raske rettelser

Anthropic

Claude

Går hit for lange dokumenter, forsiktig resonnering og alt der du heller ikke vil ha et selvsikkert feil svar.

  • Lang kontekst
  • Forsiktig resonnering
  • Nyansert skriving

Google

Gemini

Går hit for skjermtunge øyeblikk, diagrammer, slides og tilfeller der det visuelle er halve spørsmålet.

  • Syn
  • Diagrammer og slides
  • Rask retur

06 · Evner

En kort meny med ting du bare kan si.

Lese og skrive

  • Sammendrag av den 60-siders PDF-en

    Lesing

  • Skriv et høflig nei

    Skriving

  • Skriv en rask changelog

    Skriving

  • Oversett til spansk

    Skriving

  • Ta opp gårsdagens utkast

    Skriving

  • Lag en ukentlig oppsummering

    Skriving

Filer og system

  • Endre navn på 47 skjermbilder

    Filer

  • Rydd skrivebordet

    Filer

  • Hent data fra denne CSV-en

    Tall

  • Konverter disse til PNG

    Filer

  • Åpne siste skjermbilde

    Filer

  • Fest Spotify til menylinjen

    System

  • Hva gjør denne kommandoen?

    Terminal

  • Konverter dette til en tabell

    Tall

Daglig flyt

  • Sorter innboksen

    Mail

  • Åpne dette i Cursor

    Kode

  • Flytt standupen

    Kalender

  • Tagg disse bildene etter ansikt

    Bilder

  • Demp Slack i en time

    Fokus

  • Hva endret seg i denne filen?

    Kode

  • Legg dette til i Påminnelser

    Oppgaver

  • Finn den PDF-en jeg mistet

    Søk

Og alt annet

Dette er noen fra denne uka. Den ekte listen er alt du kan si høyt mens du peker på skjermen. Resten gjør agentene.

06 · I tall

Hva en rolig
agentisk app
måler seg mot.

3

frontiermodeller i én menylinje

0

servere vi eier, noen gang

1

snarvei er hele UI-en

~ 80 MB

diskplass for alt

80 ms

fra snarvei-opp til første token

0

filer forlater Macen din til du ber om det

07 · Over hele Macen din

Samme loop. Hver app.
Hver arbeidsflyt.

08 · Lokalt der det teller

Skjermen din forlater
ikke Macen din,
ubedt.

  1. 01

    Lokalt som standard.

    Lyden fanges i RAM og kastes i det øyeblikket forespørselen er ferdig. Skjermbilder blir i minnet. Samtaler bor i mappen Application Support, ikke på en server.

  2. 02

    Minst mulig payload.

    Routeren klipper lyden til kun den talte delen, skjuler menylinjen og dock fra ethvert skjermbilde og sender aldri samtalehistorikk modellen ikke trenger.

  3. 03

    Ta med dine egne nøkler.

    Anthropic-, OpenAI- og Google-nøkler bor i macOS-nøkkelringen din. Vi ser dem aldri. Du kan trekke dem ut eller bytte dem når som helst.

  4. 04

    Kan avbrytes på hvert steg.

    ⌘ . stopper en forespørsel underveis. Agentene sjekker avbryt-flagget på hver runde. Det er ingen “vent mens vi rydder”.

09 · En kort leseliste

Vi står på
fire par
skuldre.

  1. 01

    Metis

    Scotts begrep om praktisk kunnskap. Stokastisk, intuitiv, lokal. Resonnering som passer når usikkerhet er høy og det riktige svaret avhenger av rommet. Agenter trenger det.

  2. 02

    Hayeks kunnskapsproblem

    Viktig kunnskap bor i de spesielle omstendighetene av tid og sted. Skjermen foran deg nå er nettopp den kunnskapen. Katchy leser den.

  3. 03

    Den bitre lærdommen

    Sutton. Håndlagde systemer blir forbigått av generell kapasitet + skala. Derfor holder vi overflaten kjedelig og godt navngitt, og lar frontiermodellene ta den tunge biten.

  4. 04

    Muntlighet

    Ong om den deltakende naturen til muntlig kommunikasjon. Stemme er nærmere naturlig samarbeid enn å skrive i en boks. Push-to-talk er ikke et triks, det er det riktige grensesnittet.

Fotnoter

  • Flaskehalsen

    Dagens frontiermodeller er optimalisert for "autonom, langtidsbruk". Et nylig modellkort innrømmer at "når brukt interaktivt, synkront, med hendene på tastaturet var modellens fordeler mindre tydelige". Det meste reelle arbeidet er interaktivt. Katchy er bygget akkurat for det tilfellet.

  • Båndbredde

    Chat er én tråd: helt til du er ferdig med å skrive, oppfatter modellen ingenting; helt til den er ferdig, oppfatter du ingenting. Thinking Machines kaller det en smal kanal for menneske-AI-samarbeid. Stemme + et ferskt skjermbilde er en mye bredere kanal.

  • Interaksjonsmodell + bakgrunnsmodell

    Deres foreslåtte arkitektur har to halvdeler. En interaksjonsmodell som blir til stede og synkron. En bakgrunnsmodell som tar lengre arbeid asynkront. Katchy passer rent: menylinjen er interaksjonsmodellen, agent-loopen er bakgrunnsmodellen, og de deler kontekst.

En siste ting

Én snarvei.
Hele grensesnittet.

Tre minutter å laste ned. Én tastekombinasjon å huske. Null euro, hver dag fra nå til universets varmedød.

Last ned KatchyTilbake til forsiden

macOS 14.2+ · Apple Silicon og Intel · ~860 MB