Hoppa till innehåll
katchyfor mac
En fältguideVolym 01 · 2026

Så funkar Katchy.

En snabbtangent. Fyra små steg. Tre toppmodeller. En kort essä om interaktionsmodellen bakom en vänlig, gratis, native macOS-app som tyst gör nästan allt du kan beskriva högt.

Lokalt först · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon och Intel

En not innan vi börjar

Med ursäkt till den breda publiken: vi är bara en vecka in i det här projektet, så du kan stöta på en bug eller två. Vi patchar snabbt och är väldigt, väldigt tacksamma att du tittade in. :D

Gränssnittets form avgör vad som är möjligt. Chatt fick oss att tänka. Verktygsanvändning fick oss att bygga. Agenter lät äntligen modellen röra samma skärm som du. Allt roligt bor i den tredje eran, och Katchy är det minsta, lugnaste, mest Macintosh-formade fönstret in i den vi lyckades bygga.

Resten av sidan är guiden under huven. Vad som händer mellan att du trycker på en tangent och svaret når ditt öra. Varför vi routar till olika toppmodeller beroende på frågan. Vad som aldrig lämnar din Mac. Vi försökte hålla det kort.

01b · Tesen

Vad samarbete
verkligen behöver.

Egenskap 01

Närvaro

Vi delar samma objekt. Katchy tittar på samma fönster, samma stycke, samma Figma-ruta som du. Den gissar inte utifrån en beskrivning, den läser samma pixlar som du.

I Katchy
ScreenCaptureKit, en bildruta, begränsad till aktiv skärm.

Egenskap 02

Samtidighet i tid

Återkoppling medan jobbet pågår, inte efteråt. Katchy svarar i ögonblicket du slutar prata, medan frågan fortfarande är varm, ingen skicka-knapp, ingen spinner, ingen mailkedja.

I Katchy
Från tangent till första token, ungefär 80 millisekunder.

Egenskap 03

Parallellitet

Vi kan båda göra saker samtidigt. Du fortsätter skriva medan en agent döper om 47 skärmdumpar. Katchy fortsätter resonera medan du scrollar. Ingen behöver vänta på sin tur.

I Katchy
Agent-loop utanför huvudtråden, avbryts med ⌘ . när som helst.

Vad vi läste

Tre egenskaper, nästan ordagrant tagna från Thinking Machines essä om interaktionsmodeller. De menar att riktigt samarbete, med människor, med kod, med vad som helst, kräver alla tre samtidigt. De flesta dagens AI-system är finjusterade för autonom drift och missar dem helt. Katchy är byggt rakt mot det interaktiva fallet.

01 · Interaktionsproblemet

Tre epoker
av att prata med
en dator.

1.0Chatt

Du skriver, modellen skriver tillbaka. Du kopierar, klistrar, hoppar mellan flikar. Kraftfullt, men modellen vet bara det du berättar och kan aldrig röra det du ser.

Bara tanke. Inga händer. Inga ögon.

2.0Verktygsanvändning

Modeller började kalla API:er. Läs den här filen. Sök i den här databasen. Skicka det här mailet. Underbart, men du fick fortfarande koppla ihop varje verktyg själv i kod.

Riktig kraft, men rörmokeriet är du.

3.0Agenter

Modellen tittar på din skärm, håller en plan i huvudet, agerar, kollar sitt eget arbete och frågar dig bara när det verkligen behövs. Här bor Katchy.

Där Katchy bor.

Mellanspel · bandbreddsproblemet

“Som att lösa tvister
via e-post i stället för personligen.”

- Thinking Machines, om samarbetets flaskhals

Chatt är en enda tråd: tills du är klar med att skriva uppfattar modellen ingenting; tills den är klar uppfattar du ingenting. Kanalen är smal. Röst plus en färsk skärmdump är en mycket bredare kanal, och därför pratar Katchy i stället för att skriva.

02 · Anatomin för en förfrågan

Vad som händer
i de åttio
millisekunderna.

Varje förfrågan går igenom samma fyrstegspipeline. Klicka på ett steg eller bara titta, diagrammet cyklar automatiskt med några sekunders mellanrum och stannar i det ögonblick du tar över.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arkitektur

Interaktionsmodell
framtill. Bakgrunds-
modell baktill.

Fram · synkront

Interaktions-
modellen.

Stannar kvar medan du talar. Håller samtalet i korttidsminnet. Märker om du tänker, lämnar ordet eller avbryter. Svarar ungefär på den tid det tar att blinka.

  • Push-to-talk-ljud + en skärmdump.
  • Strömmade tokens, aldrig “vänligen vänta”.
  • Avbrytbar i farten med ⌘ .

Bak · asynkront

Bakgrunds-
modellen.

Tar det långsamma, uthålliga arbetet. En agentloop i flera steg med verktyg: filsystem, AppleScript, Shortcuts, webbläsare. Planerar, agerar, läser sin egen output, försöker igen. Hör av sig när det är klart.

  • Kör utanför huvudtråden, blockerar aldrig UI.
  • Delar samtalskontexten med framsidan.
  • Slutresultatet kommer som en lugn menyrad-notis.

Det är den tvådelade arkitektur Thinking Machines föreslår, i miniatyr. Interaktionsmodellen ger dig en liten modells snabbhet. Bakgrundsmodellen ger dig en stor modells planering och verktyg. De delar kontext. Sömmen ser du aldrig.

03 · Stacken, lager för lager

Fyra små, tråkiga,
extremt välbenämnda
Apple-ramverk.

01 · Lyssnar

Håll och prata

Håll Control och Option. macOS fångar ljud lokalt via CoreAudio. Vågformen transkriberas på enheten när det går, klipps sen och skickas bara om det behövs en toppmodell.

02 · Ser

En ögonblicksbild av din skärm

När frågan behöver kontext tar ScreenCaptureKit en enda, riktad bildruta. Katchy streamar aldrig video, spelar aldrig in kontinuerligt, sparar aldrig skärmdumpar efter svaret.

03 · Tänker

Rätt hjärna för jobbet

Katchy routar förfrågan till den toppmodell som hanterar den bäst. Långa PDF:er till Claude. Visuella uppgifter till Gemini. Kod och snabba edits till GPT. Routern väljer, du står still.

04 · Agerar

Pekare + agenter, i din menyrad

En vänlig triangel pekar på svaret när ett klick räcker. En agent i flera steg kör i bakgrunden när det krävs tio. Båda delar minnet, båda stänger med dig.

04 · Routerns beslut

En mening in,
rätt hjärna
tar hand om den.

En liten klassificerare läser din transkription och sidans tokens och skickar varje förfrågan till den modell som passar bäst. Prova själv, routern visar sitt arbete.

Prova en fråga

Routerbeslut

Sammanfatta den här 60-sidiga PDF:en jag just öppnade

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Varför just den här: Lång kontext, noggrant resonemang över ett strukturerat dokument.

05 · Tre hjärnor, en menyrad

Olika frågor
förtjänar olika
modeller.

OpenAI

GPT

Går hit för snabba edits, code review och det där strukturerade omskrivandet där du vill ha svaret i en mening och en halv.

  • Strama omskrivningar
  • Code review
  • Snabba edits

Anthropic

Claude

Går hit för långa dokument, försiktigt resonemang och allt där du hellre slipper ett självsäkert felaktigt svar.

  • Lång kontext
  • Försiktigt resonemang
  • Nyanserat skrivande

Google

Gemini

Går hit för skärmtunga stunder, grafer, slides och fall där det visuella är halva frågan.

  • Syn
  • Grafer och slides
  • Snabb leverans

06 · Förmågor

En kort meny med saker du bara kan säga.

Läsa och skriva

  • Sammanfatta den där PDF:en på 60 sidor

    Läsa

  • Skriv ett artigt nej

    Skriva

  • Skriv en snabb changelog

    Skriva

  • Översätt till spanska

    Skriva

  • Återuppta gårdagens utkast

    Skriva

  • Skapa en veckosammanfattning

    Skriva

Filer och system

  • Döp om 47 skärmdumpar

    Filer

  • Städa skrivbordet

    Filer

  • Dra ut data ur den här CSV:n

    Tal

  • Konvertera de här till PNG

    Filer

  • Öppna senaste skärmdumpen

    Filer

  • Fäst Spotify i menyraden

    System

  • Vad gör det här kommandot?

    Terminal

  • Konvertera det här till en tabell

    Tal

Dagligt flöde

  • Sortera inkorgen

    Mail

  • Öppna det här i Cursor

    Kod

  • Flytta standupen

    Kalender

  • Tagga de här bilderna på ansikte

    Foton

  • Tysta Slack i en timme

    Fokus

  • Vad ändrades i den här filen?

    Kod

  • Lägg till det här i Påminnelser

    Uppgifter

  • Hitta den där PDF:en jag tappade

    Sök

Och allt annat

Det är några från den här veckan. Den riktiga listan är allt du kan säga högt medan du pekar på skärmen. Resten gör agenterna.

06 · I siffror

Vad en lugn
agentisk app
mäter sig mot.

3

toppmodeller i en menyrad

0

servrar vi äger, någonsin

1

snabbtangent är hela UI:t

~ 80 MB

diskutrymme för alltihop

80 ms

från tangent-upp till första token

0

filer lämnar din Mac förrän du ber

07 · Över hela din Mac

Samma loop. Varje app.
Varje arbetsflöde.

08 · Lokalt där det räknas

Din skärm lämnar
inte din Mac
utan att du säger till.

  1. 01

    Lokalt som standard.

    Ljudet fångas i RAM och slängs i det ögonblick förfrågan är klar. Skärmdumpar stannar i minnet. Konversationer bor i din Application Support-mapp, inte på en server.

  2. 02

    Minsta möjliga payload.

    Routern klipper ljudet till bara den talade delen, maskar bort menyrad och dock från varje skärmdump och skickar aldrig samtalshistorik som modellen inte behöver.

  3. 03

    Ta med egna nycklar.

    Anthropic-, OpenAI- och Google-nycklar bor i din macOS-nyckelring. Vi ser dem aldrig. Du kan dra ut eller byta dem när du vill.

  4. 04

    Avbrytbar i varje steg.

    ⌘ . stoppar en förfrågan i farten. Agenterna kollar avbryt-flaggan i varje runda. Inget “vänta medan vi städar”.

09 · En kort läslista

Vi står på
fyra par
axlar.

  1. 01

    Metis

    Scotts begrepp om praktisk kunskap. Stokastisk, intuitiv, lokal. Resonemang som passar när osäkerheten är hög och rätt svar beror på rummet. Agenter behöver det.

  2. 02

    Hayeks kunskapsproblem

    Viktig kunskap lever i de särskilda omständigheterna av tid och plats. Skärmen framför dig nu är precis den kunskapen. Katchy läser den.

  3. 03

    Den bittra lärdomen

    Sutton. Handgjorda system blir omsprungna av generell kapacitet + skala. Därför håller vi ytan tråkig och välnamngiven, och låter toppmodellerna ta det tunga.

  4. 04

    Muntlighet

    Ong om den deltagande karaktären i muntlig kommunikation. Rösten ligger närmare naturligt samarbete än att skriva i en ruta. Push-to-talk är inget trick, det är rätt gränssnitt.

Fotnoter

  • Flaskhalsen

    Dagens toppmodeller är optimerade för "autonom, långkörande" användning. Ett färskt modellkort medger att "vid interaktiv, synkron användning med händer på tangentbordet var modellens vinster mindre tydliga". Det mesta riktiga jobbet är interaktivt. Katchy är byggt rakt för det fallet.

  • Bandbredd

    Chatt är en enda tråd: tills du är klar med att skriva uppfattar modellen ingenting; tills den är klar med att generera uppfattar du ingenting. Thinking Machines kallar det en smal kanal för människa-AI-samarbete. Röst + en färsk skärmdump är en mycket bredare kanal.

  • Interaktionsmodell + bakgrundsmodell

    Deras föreslagna arkitektur har två halvor. En interaktionsmodell som stannar närvarande och synkron. En bakgrundsmodell som tar längre arbete asynkront. Katchy passar rent: menyraden är interaktionsmodellen, agent-loopen är bakgrundsmodellen, och de delar kontext.

En sista sak

En snabbtangent.
Hela gränssnittet.

Tre minuter att ladda ner. Ett ackord att komma ihåg. Noll euro, varje dag från nu till universums värmedöd.

Hämta KatchyTillbaka till startsidan

macOS 14.2+ · Apple Silicon och Intel · ~860 MB