Aller au contenu
katchyfor mac
Un guide de terrainVolume 01 · 2026

Comment fonctionne Katchy.

Un raccourci. Quatre petites étapes. Trois modèles de pointe. Un court essai sur le modèle d'interaction derrière une application macOS native, amicale et gratuite qui fait, en silence, presque tout ce que tu peux décrire à voix haute.

Local d'abord · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon et Intel

Une note avant de commencer

Toutes nos excuses au grand public : nous n'avons qu'une semaine sur ce projet, donc tu pourrais tomber sur un bug ou deux. On corrige vite, et on est très, très reconnaissants que tu sois venu jeter un œil. :D

La forme de l'interface décide ce qui est possible. Le chat nous a fait réfléchir. L'usage d'outils nous a fait construire. Les agents ont enfin laissé le modèle toucher le même écran que toi. Tout ce qui est amusant vit dans cette troisième ère, et Katchy est la fenêtre la plus petite, la plus calme et la plus Macintosh que nous ayons pu fabriquer pour y entrer.

Le reste de cette page est le guide sous le capot. Ce qui se passe entre le moment où tu presses une touche et celui où la réponse arrive dans ton oreille. Pourquoi nous routons vers un modèle de pointe différent selon ce que tu as demandé. Ce qui ne quitte jamais ton Mac. On a essayé de faire court.

01b · La thèse

Ce dont la collaboration
a vraiment besoin.

Propriété 01

Coprésence

On partage le même objet. Katchy regarde la même fenêtre, le même paragraphe, le même frame Figma que toi. Elle ne devine pas à partir d'une description, elle lit les pixels que tu lis.

Dans Katchy
ScreenCaptureKit un seul frame, limité à l'écran actif.

Propriété 02

Contemporanéité

Du feedback pendant le travail, pas après. Katchy répond au moment où tu arrêtes de parler, pendant que la question est encore chaude, pas de bouton envoyer, pas de spinner, pas de fil d'e-mails.

Dans Katchy
Du raccourci au premier token : environ 80 millisecondes.

Propriété 03

Simultanéité

On peut faire des choses en même temps tous les deux. Tu continues de taper pendant qu'un agent renomme 47 captures. Katchy continue de raisonner pendant que tu scrolles. Personne n'attend son tour.

Dans Katchy
Boucle d'agent hors du thread principal, annulable à tout moment avec ⌘ .

Ce que nous avons lu

Trois propriétés, reprises presque mot pour mot de l'essai de Thinking Machines sur les modèles d'interaction. Ils soutiennent qu'une vraie collaboration, avec des gens, avec du code, avec n'importe quoi, exige les trois à la fois. La plupart des systèmes d'IA d'aujourd'hui sont réglés pour fonctionner de façon autonome et passent complètement à côté. Katchy est conçu directement pour le cas interactif.

01 · Le problème de l'interaction

Trois ères
à parler à
un ordinateur.

1.0Chat

Tu tapes, le modèle répond. Tu copies, tu colles, tu sautes d'onglet en onglet. Puissant, mais le modèle ne sait que ce que tu lui dis et ne peut jamais toucher ce que tu vois.

Tout pensé. Pas de mains. Pas d'yeux.

2.0Usage d'outils

Les modèles ont commencé à appeler des APIs. Lis ce fichier. Cherche dans cette base. Envoie cet e-mail. Génial, mais c'était à toi de tout brancher en code.

Vraie puissance, mais tu es la tuyauterie.

3.0Agents

Le modèle regarde ton écran, garde un plan en tête, agit, vérifie son propre travail et ne te demande que quand il a vraiment besoin de toi. C'est ici que vit Katchy.

Là où vit Katchy.

Interlude · le problème de la bande passante

“Comme régler des désaccords
par e-mail au lieu qu'en personne.”

- Thinking Machines, sur le goulot d'étranglement de la collaboration

Le chat est un seul fil : tant que tu n'as pas fini d'écrire, le modèle ne perçoit rien ; tant qu'il n'a pas fini d'écrire, toi tu ne perçois rien. Le canal est étroit. La voix plus une capture d'écran fraîche, c'est un canal beaucoup plus large, et c'est pour ça que Katchy parle au lieu de taper.

02 · Anatomie d'une requête

Ce qui se passe
dans les quatre-vingts
millisecondes.

Chaque requête traverse le même pipeline à quatre étapes. Clique sur une étape ou regarde simplement, le diagramme tourne tout seul toutes les quelques secondes et s'arrête dès que tu prends la main.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architecture

Modèle d'interaction
devant. Modèle de fond
derrière.

Devant · synchrone

Le modèle
d'interaction.

Reste présent pendant que tu parles. Garde la conversation en mémoire à court terme. Détecte si tu réfléchis, cèdes la parole ou interromps. Répond à peu près en un battement de cils.

  • Audio push-to-talk + une seule capture.
  • Tokens en streaming, jamais "merci de patienter".
  • Annulable en plein vol avec ⌘ .

Derrière · asynchrone

Le modèle
de fond.

Prend en charge le travail lent et soutenu. Une boucle d'agent multi-étapes avec outils : système de fichiers, AppleScript, Shortcuts, navigateur. Planifie, agit, relit sa propre sortie, recommence. Fait son rapport quand c'est fini.

  • Tourne hors du thread principal, ne bloque jamais l'UI.
  • Partage le contexte de conversation avec le devant.
  • Le résultat final arrive comme une discrète notification dans la barre de menus.

C'est l'architecture en deux parties que propose Thinking Machines, en miniature. Le modèle d'interaction te donne la réactivité d'un petit modèle. Le modèle de fond te donne la planification et l'usage d'outils d'un grand. Ils partagent le contexte. Tu ne vois jamais les coutures.

03 · La pile, couche par couche

Quatre petits frameworks
Apple, ennuyeux,
extrêmement bien nommés.

01 · Écoute

Tiens et parle

Maintiens Control et Option. macOS capture l'audio en local via CoreAudio. La forme d'onde est transcrite sur l'appareil quand c'est possible, puis rognée et envoyée uniquement si un modèle de pointe est nécessaire.

02 · Voit

Un instantané de ton écran

Quand la question a besoin de contexte, ScreenCaptureKit prend un unique frame ciblé. Katchy ne streame jamais la vidéo, n'enregistre jamais en continu, ne stocke jamais les captures après la réponse.

03 · Pense

Le bon cerveau pour la tâche

Katchy route la requête vers le modèle de pointe qui la gère le mieux. Longs PDF à Claude. Tâches visuelles à Gemini. Code et éditions rapides à GPT. Le routeur choisit, tu restes immobile.

04 · Agit

Curseur + agents, dans ta barre des menus

Un triangle amical pointe vers la réponse quand un clic suffit. Un agent multi-étapes tourne en arrière-plan quand il en faut dix. Tous deux partagent la même mémoire, tous deux s'arrêtent quand toi.

04 · La décision du routeur

Une phrase entre,
le bon cerveau
s'en occupe.

Un petit classificateur lit ta transcription et les tokens de la page, puis dispatch chaque requête vers le modèle qui convient le mieux. Essaie quelques exemples toi-même, le routeur montre son travail.

Essayez une question

Décision du routeur

Résume ce PDF de 60 pages que je viens d'ouvrir

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Pourquoi celui-ci : Contexte long, raisonnement attentif sur un document structuré.

05 · Trois cerveaux, une barre de menus

Des questions différentes
méritent des modèles
différents.

OpenAI

GPT

Vient ici pour les éditions rapides, la revue de code et le genre de réécriture structurée où tu veux la réponse en une phrase et demie.

  • Réécritures serrées
  • Revue de code
  • Éditions rapides

Anthropic

Claude

Vient ici pour les longs documents, le raisonnement prudent et tout ce où tu préfères ne pas avoir une réponse fausse sûre d'elle.

  • Contexte long
  • Raisonnement prudent
  • Écriture nuancée

Google

Gemini

Vient ici pour les moments très visuels, les graphiques, les slides et les cas où l'image est la moitié de la question.

  • Vision
  • Graphiques et slides
  • Rapidité

06 · Capacités

Un court menu de choses que tu peux juste dire.

Lire et écrire

  • Résume ce PDF de 60 pages

    Lecture

  • Rédige un non poli

    Écriture

  • Écris un changelog rapide

    Écriture

  • Traduis en espagnol

    Écriture

  • Reprends le brouillon d'hier

    Écriture

  • Génère un récap hebdo

    Écriture

Fichiers et système

  • Renomme 47 captures

    Fichiers

  • Range ton Bureau

    Fichiers

  • Sors les données de ce CSV

    Nombres

  • Convertis ceux-ci en PNG

    Fichiers

  • Ouvre la dernière capture

    Fichiers

  • Épingle Spotify dans la barre des menus

    Système

  • Que fait cette commande ?

    Terminal

  • Convertis ça en tableau

    Nombres

Flux quotidien

  • Trie ta boîte de réception

    Mail

  • Ouvre ça dans Cursor

    Code

  • Reprogramme le standup

    Agenda

  • Tague ces photos par visage

    Photos

  • Mets Slack en sourdine une heure

    Concentration

  • Qu'est-ce qui a changé dans ce fichier ?

    Code

  • Ajoute ça aux Rappels

    Tâches

  • Trouve ce PDF que j'ai perdu

    Recherche

Et tout le reste

Ce sont quelques exemples de la semaine. La vraie liste, c'est tout ce que tu peux dire à voix haute en pointant ton écran. Les agents font le reste.

06 · En chiffres

À quoi ressemble
une app agentique
et tranquille.

3

modèles de pointe dans une seule barre des menus

0

serveur qu'on possède, jamais

1

raccourci pour toute l'interface

~ 80 Mo

de disque pour tout héberger

80 ms

du raccourci au premier token

0

fichier ne quitte ton Mac sans que tu demandes

07 · Sur tout ton Mac

Même boucle. Chaque app.
Chaque workflow.

08 · Local là où ça compte

Ton écran ne quitte
jamais ton Mac
sans qu'on te le demande.

  1. 01

    Local par défaut.

    L'audio est capturé en RAM et jeté à l'instant où la requête se termine. Les captures restent en mémoire. Les conversations vivent dans ton dossier Application Support, pas sur un serveur.

  2. 02

    Le plus petit payload possible.

    Le routeur coupe l'audio juste à la partie parlée, masque la barre de menus et le dock de toute capture, et n'envoie jamais d'historique de conversation dont le modèle n'a pas besoin.

  3. 03

    Apporte tes propres clés.

    Les clés Anthropic, OpenAI et Google vivent dans ton Trousseau macOS. Nous ne les voyons jamais. Tu peux les retirer ou les changer à tout moment.

  4. 04

    Annulable à chaque étape.

    ⌘ . arrête une requête en plein vol. Les agents vérifient le drapeau d'annulation à chaque tour. Pas de "merci de patienter pendant qu'on range".

09 · Une courte liste de lecture

Debout sur
quatre paires
d'épaules.

  1. 01

    Metis

    Le concept de savoir pratique chez Scott. Stochastique, intuitif, local. Un raisonnement adapté quand l'incertitude est haute et que la bonne réponse dépend de la pièce. Les agents en ont besoin.

  2. 02

    Le problème de la connaissance de Hayek

    Le savoir important vit dans les circonstances particulières de temps et de lieu. L'écran devant toi, maintenant, c'est exactement ce savoir-là. Katchy le lit.

  3. 03

    La leçon amère

    Sutton. Les systèmes faits main se font dépasser par la capacité générale + l'échelle. Donc on garde la surface ennuyeuse et bien nommée, et on laisse les modèles de pointe faire le gros du travail.

  4. 04

    Oralité

    Ong sur la nature participative de la communication orale. La voix est plus proche de la collaboration naturelle que taper dans une boîte. Push-to-talk n'est pas une astuce, c'est la bonne interface.

Notes

  • Le goulot d'étranglement

    Les modèles de pointe d'aujourd'hui sont optimisés pour un usage « autonome, longue durée ». Une récente fiche de modèle admet que « utilisé en interactif, synchrone, mains sur clavier, les bénéfices du modèle étaient moins clairs ». La majorité du travail réel est interactif. Katchy est construit pile pour ce cas.

  • Bande passante

    Le chat est un fil unique : tant que tu n'as pas fini de taper, le modèle ne perçoit rien ; tant qu'il n'a pas fini, tu ne perçois rien. Thinking Machines appelle ça un canal étroit pour la collaboration humain-IA. La voix + une capture fraîche est un canal bien plus large.

  • Modèle d'interaction + modèle de fond

    Leur architecture proposée a deux moitiés. Un modèle d'interaction qui reste présent et synchrone. Un modèle de fond qui prend le travail à horizon plus long en asynchrone. Katchy s'aligne proprement : la barre des menus est le modèle d'interaction, la boucle d'agent est le modèle de fond, et ils partagent le contexte.

Une dernière chose

Un raccourci.
Toute l'interface.

Trois minutes pour télécharger. Un accord à retenir. Zéro euro, chaque jour d'ici à la mort thermique de l'univers.

Télécharger KatchyRetour à l'accueil

macOS 14.2+ · Apple Silicon et Intel · ~860 Mo