Zum Inhalt springen
katchyfor mac
Ein FeldführerAusgabe 01 · 2026

So funktioniert Katchy.

Ein Shortcut. Vier kleine Stufen. Drei Frontier-Modelle. Ein kurzer Essay über das Interaktionsmodell hinter einer freundlichen, kostenlosen, nativen macOS-App, die fast alles still erledigt, was du laut beschreiben kannst.

Lokal zuerst · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon und Intel

Eine Notiz vorab

Mit Entschuldigung an das breite Publikum: Wir sind erst eine Woche an diesem Projekt, also könnte dir der eine oder andere Bug begegnen. Wir patchen schnell und sind sehr, sehr dankbar, dass du vorbeigeschaut hast. :D

Die Form der Oberfläche entscheidet, was möglich ist. Chat brachte uns zum Denken. Tool-Use brachte uns zum Bauen. Agents ließen das Modell endlich denselben Bildschirm berühren wie du. Alles Lustige lebt in dieser dritten Ära, und Katchy ist das kleinste, ruhigste, am stärksten Macintosh-geformte Fenster hinein, das wir hinbekommen haben.

Der Rest dieser Seite ist der Unter-der-Haube-Guide. Was passiert zwischen dem Tastendruck und der Antwort in deinem Ohr. Warum wir je nach Frage auf ein anderes Frontier-Modell routen. Was deinen Mac nie verlässt. Wir haben versucht, es kurz zu halten.

01b · Die These

Was Zusammenarbeit
wirklich braucht.

Eigenschaft 01

Mit-Anwesenheit

Wir teilen dasselbe Objekt. Katchy schaut auf dasselbe Fenster, denselben Absatz, dasselbe Figma-Frame wie du. Sie rät nicht aus einer Beschreibung, sie liest die Pixel, die du liest.

In Katchy
ScreenCaptureKit Einzelframe, beschränkt auf das aktive Display.

Eigenschaft 02

Gleichzeitigkeit

Feedback während der Arbeit, nicht danach. Katchy antwortet in dem Moment, in dem du aufhörst zu sprechen, während die Frage noch warm ist, kein Senden-Button, kein Spinner, kein E-Mail-Thread.

In Katchy
Vom Shortcut zum ersten Token: ungefähr 80 Millisekunden.

Eigenschaft 03

Parallelität

Wir können beide gleichzeitig Dinge tun. Du tippst weiter, während ein Agent 47 Screenshots umbenennt. Katchy denkt weiter, während du scrollst. Niemand muss warten.

In Katchy
Agentenschleife außerhalb des Hauptthreads, jederzeit per ⌘ . abbrechbar.

Was wir gelesen haben

Drei Eigenschaften, fast wortwörtlich aus dem Essay von Thinking Machines über Interaktionsmodelle übernommen. Sie argumentieren, dass echte Zusammenarbeit, mit Menschen, mit Code, mit allem, alle drei gleichzeitig braucht. Die meisten KI-Systeme von heute sind auf autonomen Betrieb getrimmt und verfehlen sie komplett. Katchy ist klar für den interaktiven Fall gebaut.

01 · Das Interaktionsproblem

Drei Ären,
mit einem Computer
zu sprechen.

1.0Chat

Du tippst, das Modell tippt zurück. Du kopierst, fügst ein, springst zwischen Tabs. Mächtig, aber das Modell weiß nur, was du ihm sagst, und kann nie anfassen, was du siehst.

Nur Gedanken. Keine Hände. Keine Augen.

2.0Tool-Use

Modelle riefen APIs auf. Lies diese Datei. Such diese Datenbank. Sende diese E-Mail. Wunderbar, aber du musstest immer noch jedes Tool selbst im Code verkabeln.

Echte Power, aber du bist die Klempnerei.

3.0Agents

Das Modell schaut auf deinen Bildschirm, hält einen Plan im Kopf, handelt, prüft seine eigene Arbeit und fragt nur, wenn es dich wirklich braucht. Hier lebt Katchy.

Wo Katchy lebt.

Interludium · das Bandbreiten-Problem

„Wie Konflikte per
E-Mail klären statt von Angesicht zu Angesicht."

- Thinking Machines, über den Engpass der Zusammenarbeit

Chat ist ein einziger Faden: bis du mit Tippen fertig bist, nimmt das Modell nichts wahr; bis es mit Schreiben fertig ist, nimmst du nichts wahr. Der Kanal ist schmal. Stimme plus ein frischer Screenshot ist viel breiter, und der Grund, warum Katchy spricht, statt zu tippen.

02 · Anatomie einer Anfrage

Was passiert
in den achtzig
Millisekunden.

Jede Anfrage fließt durch dieselbe vierstufige Pipeline. Klick eine Stufe an oder schau einfach zu: Das Diagramm rotiert alle paar Sekunden von allein und stoppt in dem Moment, in dem du übernimmst.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architektur

Interaktionsmodell
vorn. Hintergrund-
modell hinten.

Vorne · synchron

Das Interaktions-
modell.

Bleibt präsent, während du sprichst. Hält das Gespräch im Kurzzeitgedächtnis. Erkennt, ob du denkst, freigibst oder unterbrichst. Antwortet ungefähr in der Zeit eines Wimpernschlags.

  • Push-to-Talk-Audio + ein Screenshot.
  • Gestreamte Tokens, niemals "einen Moment".
  • Mit ⌘ . mittendrin abbrechbar.

Hinten · asynchron

Das Hintergrund-
modell.

Übernimmt die langsame, ausdauernde Arbeit. Eine mehrstufige Agentenschleife mit Werkzeugen: Dateisystem, AppleScript, Shortcuts, Browser. Plant, handelt, liest die eigene Ausgabe wieder, versucht es nochmal. Meldet sich, wenn fertig.

  • Läuft außerhalb des Hauptthreads, blockiert die UI nie.
  • Teilt den Gesprächskontext mit dem Frontend.
  • Das Endergebnis kommt als leise Menüleisten-Benachrichtigung an.

Das ist die zweiteilige Architektur, die Thinking Machines vorschlägt, in Miniatur. Das Interaktionsmodell gibt dir die Reaktionsfähigkeit eines kleinen Modells. Das Hintergrundmodell gibt dir die Planung und den Werkzeuggebrauch eines großen. Sie teilen den Kontext. Die Nähte siehst du nie.

03 · Der Stack, Schicht für Schicht

Vier kleine, langweilige,
extrem gut benannte
Apple-Frameworks.

01 · Hören

Push to talk

Halte Control und Option. macOS nimmt Audio lokal über CoreAudio auf. Die Waveform wird, wo möglich, on-device transkribiert, dann gekürzt und nur gesendet, wenn ein Frontier-Modell gebraucht wird.

02 · Sehen

Ein Schnappschuss deines bildschirms

Wenn die Frage Kontext braucht, holt ScreenCaptureKit ein einzelnes, gezieltes Frame. Katchy streamt nie Video, zeichnet nie durchgehend auf, speichert nie Screenshots nach der Antwort.

03 · Denken

Das richtige Hirn für den job

Katchy routet die Anfrage zum Frontier-Modell, das sie am besten erledigt. Lange PDFs zu Claude. Vision-Lastiges zu Gemini. Code und schnelle Edits zu GPT. Der Router wählt, du bleibst still.

04 · Handeln

Cursor + Agents, in deiner menüleiste

Ein freundliches Dreieck zeigt auf die Antwort, wenn ein Klick reicht. Ein mehrstufiger Agent läuft im Hintergrund, wenn es zehn Klicks braucht. Beide teilen den Speicher, beide hören mit dir auf.

04 · Die Router-Entscheidung

Ein Satz rein,
das richtige Hirn
kümmert sich.

Ein kleiner Klassifikator liest deine Transkription und die Page-Tokens, dann schickt er jede Anfrage zum am besten passenden Modell. Probier selbst ein paar, der Router zeigt seine Arbeit.

Stelle eine Frage

Router-Entscheidung

Fasse dieses 60-seitige PDF zusammen, das ich gerade geöffnet habe

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Warum diese: Langer Kontext, sorgfältiges Schlussfolgern über ein strukturiertes Dokument.

05 · Drei Gehirne, eine Menüleiste

Verschiedene Fragen
verdienen verschiedene
Modelle.

OpenAI

GPT

Geht hier für schnelle Edits, Code-Review und die Art strukturierten Umschreibens, wo du die Antwort in eineinhalb Sätzen willst.

  • Knappe Umschriften
  • Code-Review
  • Schnelle Edits

Anthropic

Claude

Geht hier für lange Dokumente, sorgfältiges Denken und alles, wo du keine selbstbewusst falsche Antwort willst.

  • Langer Kontext
  • Sorgfältiges Denken
  • Nuanciertes Schreiben

Google

Gemini

Geht hier für bildlastige Momente, Charts, Slides und Fälle, in denen das Visuelle die halbe Frage ist.

  • Vision
  • Charts und Slides
  • Schnelle Antworten

06 · Fähigkeiten

Eine kurze Karte von Dingen, die du einfach sagen kannst.

Lesen & Schreiben

  • Fasse das 60-Seiten-PDF zusammen

    Lesen

  • Entwirf ein höfliches Nein

    Schreiben

  • Schreib ein schnelles Changelog

    Schreiben

  • Übersetze ins Spanische

    Schreiben

  • Setze den gestrigen Entwurf fort

    Schreiben

  • Generiere einen Wochenrückblick

    Schreiben

Dateien & System

  • Benenne 47 Screenshots um

    Dateien

  • Räum den Schreibtisch auf

    Dateien

  • Zieh Daten aus dieser CSV

    Zahlen

  • Wandle diese in PNG um

    Dateien

  • Öffne den letzten Screenshot

    Dateien

  • Hefte Spotify an die Menüleiste

    System

  • Was macht dieser Befehl?

    Terminal

  • Wandle das in eine Tabelle um

    Zahlen

Alltäglicher Fluss

  • Räume deinen Posteingang

    Mail

  • Öffne das in Cursor

    Code

  • Verschiebe das Standup

    Kalender

  • Tagge diese Fotos nach Gesicht

    Fotos

  • Schalte Slack eine Stunde stumm

    Fokus

  • Was hat sich in dieser Datei geändert?

    Code

  • Füge das den Erinnerungen hinzu

    Aufgaben

  • Finde dieses verlorene PDF

    Suche

Und alles andere

Das ist ein Auszug aus dieser Woche. Die echte Liste ist alles, was du laut sagen kannst, während du auf deinen Bildschirm zeigst. Den Rest machen die Agents.

06 · In Zahlen

Womit sich eine ruhige
agentische App
messen lässt.

3

Frontier-Modelle in einer Menüleiste

0

Server, die uns je gehören

1

Shortcut ist die gesamte UI

~ 80 MB

Plattenplatz für das Ganze

80 ms

vom Shortcut bis zum ersten Token

0

Dateien verlassen deinen Mac, bis du fragst

07 · Über deinen ganzen Mac

Gleiche Schleife. Jede App.
Jeder Workflow.

08 · Lokal, wo es zählt

Dein Bildschirm verlässt
deinen Mac nicht,
ungefragt.

  1. 01

    Lokal als Standard.

    Audio wird in RAM aufgenommen und in dem Moment verworfen, in dem die Anfrage fertig ist. Screenshots bleiben im Speicher. Gespräche leben in deinem Application-Support-Ordner, nicht auf einem Server.

  2. 02

    Kleinstes mögliches Payload.

    Der Router schneidet das Audio auf den gesprochenen Teil zu, maskiert Menüleiste und Dock aus jedem Screenshot raus und schickt nie Gesprächs-Historie, die das Modell nicht braucht.

  3. 03

    Bring deine eigenen Keys mit.

    Anthropic-, OpenAI- und Google-Keys leben in deinem macOS-Schlüsselbund. Wir sehen sie nie. Du kannst sie jederzeit ziehen oder rotieren.

  4. 04

    An jeder Stelle abbrechbar.

    ⌘ . stoppt eine Anfrage mitten im Flug. Agents prüfen das Cancel-Flag in jedem Loop. Es gibt kein "bitte warten, wir räumen noch auf".

09 · Eine kurze Leseliste

Auf vier
Schulterpaaren
stehend.

  1. 01

    Metis

    Scotts Konzept des praktischen Wissens. Stochastisch, intuitiv, lokal. Denken, das passt, wenn die Unsicherheit hoch ist und die richtige Antwort vom Raum abhängt. Agents brauchen es.

  2. 02

    Hayeks Wissensproblem

    Wichtiges Wissen lebt in den besonderen Umständen von Zeit und Ort. Der Bildschirm vor dir, jetzt, ist genau dieses Wissen. Katchy liest es.

  3. 03

    Die Bittere Lektion

    Sutton. Handgemachte Systeme werden von allgemeiner Fähigkeit + Skalierung überholt. Also halten wir die Oberfläche langweilig und gut benannt und lassen die Frontier-Modelle die harte Arbeit machen.

  4. 04

    Mündlichkeit

    Ong über den partizipativen Charakter mündlicher Kommunikation. Stimme ist näher an natürlicher Zusammenarbeit als das Tippen in eine Box. Push-to-Talk ist kein Trick, es ist die richtige Schnittstelle.

Fußnoten

  • Der Engpass

    Heutige Frontier-Modelle sind auf „autonomen, lang laufenden" Einsatz optimiert. Ein aktueller Frontier-Model-Card räumt ein, dass „bei interaktivem, synchronem, händen-auf-tastatur-Muster der Nutzen weniger klar war". Die meiste echte Arbeit ist interaktiv. Katchy ist genau dafür gebaut.

  • Bandbreite

    Chat ist ein einziger Faden: bis du fertig getippt hast, nimmt das Modell nichts wahr; bis es fertig ist, nimmst du nichts wahr. Thinking Machines nennt das einen schmalen Kanal für Mensch-KI-Zusammenarbeit. Stimme + frischer Screenshot ist ein viel breiterer.

  • Interaktionsmodell + Hintergrundmodell

    Ihre vorgeschlagene Architektur hat zwei Hälften. Ein Interaktionsmodell, das präsent und synchron bleibt. Ein Hintergrundmodell, das längere Arbeit asynchron übernimmt. Katchy passt sauber: Menüleiste ist das Interaktionsmodell, die Agentenschleife ist das Hintergrundmodell, sie teilen Kontext.

Eine letzte Sache

Ein Shortcut.
Die ganze Oberfläche.

Drei Minuten zum Laden. Ein Akkord zum Merken. Null Euro, jeden Tag von jetzt bis zum Wärmetod des Universums.

Katchy ladenZurück zur Startseite

macOS 14.2+ · Apple Silicon und Intel · ~860 MB