Vai al contenuto
katchyfor mac
Una guida sul campoVolume 01 · 2026

Come funziona Katchy.

Una scorciatoia. Quattro piccole tappe. Tre modelli di frontiera. Un breve saggio sul modello di interazione dietro un'app nativa macOS, gentile e gratuita, che fa, in silenzio, quasi tutto quello che riesci a descrivere a voce.

Locale prima · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon e Intel

Una nota prima di iniziare

Scusandoci con il vasto pubblico: siamo a solo una settimana dall'inizio di questo progetto, quindi potresti imbatterti in un bug o due. Sistemiamo in fretta, e siamo molto, molto grati che tu sia passato a dare un'occhiata. :D

La forma dell'interfaccia decide cosa è possibile. La chat ci ha fatto pensare. L'uso degli strumenti ci ha fatto costruire. Gli agenti hanno finalmente lasciato che il modello toccasse lo stesso schermo che vedi tu. Tutto il divertente vive in quella terza era, e Katchy è la finestra più piccola, più calma e più "Macintosh" che siamo riusciti a costruire per accederci.

Il resto di questa pagina è la guida sotto il cofano. Cosa succede tra il momento in cui premi un tasto e quello in cui la risposta arriva al tuo orecchio. Perché instradiamo verso un modello di frontiera diverso a seconda di cosa hai chiesto. Cosa non lascia mai il tuo Mac. Abbiamo cercato di stare brevi.

01b · La tesi

Cosa serve davvero
alla collaborazione.

Proprietà 01

Compresenza

Condividiamo lo stesso oggetto. Katchy guarda la stessa finestra, lo stesso paragrafo, lo stesso frame Figma che guardi tu. Non indovina da una descrizione, legge gli stessi pixel.

In Katchy
ScreenCaptureKit singolo frame, limitato al display attivo.

Proprietà 02

Contemporaneità

Feedback mentre il lavoro accade, non dopo. Katchy risponde nel momento in cui smetti di parlare, finché la domanda è calda, niente pulsante invia, niente spinner, niente catena di mail.

In Katchy
Dalla scorciatoia al primo token: circa 80 millisecondi.

Proprietà 03

Simultaneità

Possiamo entrambi fare cose nello stesso momento. Tu continui a scrivere mentre un agente rinomina 47 screenshot. Katchy continua a ragionare mentre tu scorri. Nessuno deve aspettare il proprio turno.

In Katchy
Loop di agente fuori dal thread principale, annullabile con ⌘ . in qualsiasi momento.

Cosa abbiamo letto

Tre proprietà, prese quasi alla lettera dal saggio di Thinking Machines sui modelli di interazione. Sostengono che una vera collaborazione, con persone, con codice, con qualunque cosa, richiede tutte e tre insieme. La maggior parte dei sistemi di IA di oggi è messa a punto per operare in autonomia e le perde completamente. Katchy è costruito direttamente per il caso interattivo.

01 · Il problema dell'interazione

Tre ere
di parlare con
un computer.

1.0Chat

Tu scrivi, il modello risponde. Copi, incolli, salti tra schede. Potente, ma il modello sa solo quello che gli racconti e non può mai toccare ciò che vedi.

Tutto pensiero. Niente mani. Niente occhi.

2.0Uso di strumenti

I modelli hanno iniziato a chiamare API. Leggi questo file. Cerca in questo database. Manda questa mail. Bellissimo, ma dovevi ancora collegare ogni strumento a mano nel codice.

Potenza vera, ma la tubatura sei tu.

3.0Agenti

Il modello guarda il tuo schermo, tiene un piano in mente, agisce, controlla il proprio lavoro e ti chiede solo quando serve davvero. È qui che vive Katchy.

Dove vive Katchy.

Interludio · il problema della banda

“Come risolvere disaccordi
via e-mail invece che di persona.”

- Thinking Machines, sul collo di bottiglia della collaborazione

La chat è un thread singolo: finché non finisci di scrivere, il modello non percepisce nulla; finché non finisce di scrivere lui, tu non percepisci nulla. Il canale è stretto. Voce più una nuova screenshot è molto più ampio, ed è il motivo per cui Katchy parla invece di scrivere.

02 · Anatomia di una richiesta

Cosa succede
negli ottanta
millisecondi.

Ogni richiesta passa per la stessa pipeline a quattro stadi. Clicca uno stadio o guarda e basta: il diagramma cicla da solo ogni pochi secondi e si ferma nel momento in cui prendi il controllo.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architettura

Modello di interazione
davanti. Modello di
sfondo dietro.

Davanti · sincrono

Il modello di
interazione.

Resta presente mentre parli. Tiene la conversazione in memoria a breve termine. Si accorge se stai pensando, cedendo il turno o interrompendo. Risponde più o meno nel tempo di un battito di ciglia.

  • Audio push-to-talk + una sola screenshot.
  • Token in streaming, mai "attendi prego".
  • Annullabile in volo con ⌘ .

Dietro · asincrono

Il modello
di sfondo.

Si occupa del lavoro lento e prolungato. Un ciclo di agenti multi-step con strumenti: filesystem, AppleScript, Shortcuts, browser. Pianifica, agisce, rilegge il proprio output, ci riprova. Si fa vivo quando ha finito.

  • Gira fuori dal thread principale, non blocca mai la UI.
  • Condivide il contesto della conversazione con il davanti.
  • Il risultato finale arriva come una notifica discreta nella barra dei menu.

Questa è l'architettura a due parti proposta da Thinking Machines, in miniatura. Il modello di interazione ti dà la reattività di un modello piccolo. Il modello di sfondo ti dà la pianificazione e l'uso di strumenti di uno grande. Condividono il contesto. Tu non vedi le cuciture.

03 · Lo stack, strato per strato

Quattro framework Apple
piccoli, noiosi,
dal nome perfetto.

01 · Ascolta

Tieni premuto e parla

Tieni premuti Control e Option. macOS cattura l'audio in locale via CoreAudio. La forma d'onda viene trascritta on-device quando possibile, poi tagliata e inviata solo se serve un modello di frontiera.

02 · Vede

Uno scatto del tuo schermo

Quando la domanda ha bisogno di contesto, ScreenCaptureKit prende un singolo frame mirato. Katchy non streama mai video, non registra in continuo, non salva screenshot dopo la risposta.

03 · Pensa

Il cervello giusto per il lavoro

Katchy instrada la richiesta al modello di frontiera che la gestisce meglio. PDF lunghi a Claude. Roba visiva a Gemini. Codice ed edit rapidi a GPT. Il router sceglie, tu stai fermo.

04 · Agisce

Cursore + agenti, nella barra dei menu

Un triangolo amichevole punta alla risposta quando basta un click. Un agente multi-passo gira in background quando ne servono dieci. Condividono memoria, si spengono con te.

04 · La decisione del router

Entra una frase,
il cervello giusto
se ne occupa.

Un piccolo classificatore legge la tua trascrizione e i token della pagina, poi indirizza ogni richiesta al modello che meglio si adatta. Provane qualcuna: il router mostra il suo lavoro.

Prova una domanda

Decisione del router

Riassumi questo PDF di 60 pagine che ho appena aperto

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Perché questo: Contesto lungo, ragionamento attento su un documento strutturato.

05 · Tre cervelli, una barra dei menu

Domande diverse
meritano modelli
diversi.

OpenAI

GPT

Va qui per edit rapidi, code review e il genere di riscrittura strutturata in cui vuoi la risposta in una frase e mezza.

  • Riscritture strette
  • Code review
  • Edit rapidi

Anthropic

Claude

Va qui per documenti lunghi, ragionamento prudente e tutto ciò in cui non vorresti una risposta sicura e sbagliata.

  • Contesto lungo
  • Ragionamento attento
  • Scrittura sfumata

Google

Gemini

Va qui per momenti pieni di schermo, grafici, slide e casi in cui il visivo è metà della domanda.

  • Visione
  • Grafici e slide
  • Risposta rapida

06 · Capacità

Un breve menù di cose che puoi semplicemente dire.

Lettura e scrittura

  • Riassumi quel PDF da 60 pagine

    Lettura

  • Scrivi un no gentile

    Scrittura

  • Scrivi un changelog veloce

    Scrittura

  • Traduci in spagnolo

    Scrittura

  • Riprendi la bozza di ieri

    Scrittura

  • Genera un recap settimanale

    Scrittura

File e sistema

  • Rinomina 47 screenshot

    File

  • Pulisci la Scrivania

    File

  • Tira fuori i dati da questo CSV

    Numeri

  • Converti questi in PNG

    File

  • Apri l'ultimo screenshot

    File

  • Fissa Spotify nella barra dei menu

    Sistema

  • Cosa fa questo comando?

    Terminale

  • Converti questo in tabella

    Numeri

Flusso quotidiano

  • Smista la posta in entrata

    Posta

  • Apri questo in Cursor

    Codice

  • Sposta lo standup

    Calendario

  • Tagga queste foto per volto

    Foto

  • Silenzia Slack per un'ora

    Concentrazione

  • Cos'è cambiato in questo file?

    Codice

  • Aggiungi questo ai Promemoria

    Attività

  • Trova quel PDF che ho perso

    Ricerca

E qualsiasi altra cosa

Queste sono solo alcune di questa settimana. La lista vera è qualunque cosa tu possa dire a voce indicando lo schermo. Gli agenti fanno il resto.

06 · In numeri

Con cosa si misura
un'app agentica
e tranquilla.

3

modelli di frontiera in una barra dei menu

0

server nostri, mai

1

scorciatoia è l'intera UI

~ 80 MB

di disco per ospitare il tutto

80 ms

dalla scorciatoia al primo token

0

file lasciano il tuo Mac finché non chiedi

07 · Su tutto il tuo Mac

Stesso loop. Ogni app.
Ogni flusso.

08 · Locale dove conta

Il tuo schermo non lascia
il tuo Mac,
senza chiederlo.

  1. 01

    Locale di default.

    L'audio viene catturato in RAM e scartato nel momento in cui la richiesta finisce. Le screenshot restano in memoria. Le conversazioni vivono nella cartella Application Support, non su un server.

  2. 02

    Il payload più piccolo possibile.

    Il router taglia l'audio solo alla parte parlata, maschera la barra dei menu e il dock dalle screenshot, e non manda mai cronologia di conversazione che il modello non gli serve.

  3. 03

    Porta le tue chiavi.

    Le chiavi Anthropic, OpenAI e Google vivono nel tuo Portachiavi macOS. Noi non le vediamo. Puoi toglierle o ruotarle in qualsiasi momento.

  4. 04

    Annullabile in ogni passo.

    ⌘ . ferma una richiesta a metà volo. Gli agenti controllano il flag di cancel ad ogni giro. Niente "attendi mentre sistemiamo".

09 · Una breve lista di letture

In piedi su
quattro paia
di spalle.

  1. 01

    Metis

    Il concetto di conoscenza pratica di Scott. Stocastico, intuitivo, locale. Ragionamento adatto quando l'incertezza è alta e la risposta giusta dipende dalla stanza. Gli agenti ne hanno bisogno.

  2. 02

    Il problema della conoscenza di Hayek

    La conoscenza importante vive nelle circostanze particolari di tempo e luogo. Lo schermo davanti a te, adesso, è esattamente quella conoscenza. Katchy la legge.

  3. 03

    La lezione amara

    Sutton. I sistemi fatti a mano vengono superati da capacità generale + scala. Per questo teniamo la superficie noiosa e ben nominata, e lasciamo che i modelli di frontiera facciano la parte dura.

  4. 04

    Oralità

    Ong sulla natura partecipativa della comunicazione orale. La voce è più vicina alla collaborazione naturale che digitare in una casella. Push-to-talk non è un trucco, è l'interfaccia giusta.

Note

  • Il collo di bottiglia

    I modelli di frontiera di oggi sono ottimizzati per uso "autonomo, a lunga durata". Una scheda recente di un modello di frontiera ammette che "usato in modo interattivo, sincrono, con le mani sulla tastiera, i benefici del modello erano meno chiari". La maggior parte del lavoro vero è interattivo. Katchy è costruito proprio per quel caso.

  • Banda

    Il chat è un singolo filo: finché non finisci di scrivere, il modello non percepisce nulla; finché lui non finisce, tu non percepisci nulla. Thinking Machines lo chiama un canale stretto per la collaborazione umano-IA. La voce + uno screenshot fresco è molto più largo.

  • Modello di interazione + modello di sfondo

    La loro architettura proposta ha due metà. Un modello di interazione che resta presente e sincrono. Un modello di sfondo che si occupa del lavoro a orizzonte più lungo in asincrono. Katchy mappa pulito: la barra dei menu è il modello di interazione, il loop di agente è il modello di sfondo, e condividono contesto.

Un'ultima cosa

Una scorciatoia.
L'intera interfaccia.

Tre minuti per scaricarlo. Un accordo da ricordare. Zero euro, ogni giorno da ora fino alla morte termica dell'universo.

Scarica KatchyTorna alla home

macOS 14.2+ · Apple Silicon e Intel · ~860 MB