Saltar al contenido
katchyfor mac
Una guía de campoVolumen 01 · 2026

Cómo funciona Katchy.

Un atajo. Cuatro pequeñas etapas. Tres modelos frontera. Un ensayo corto sobre el modelo de interacción detrás de una aplicación nativa de macOS, amable y gratuita, que hace, en silencio, casi cualquier cosa que puedas describir en voz alta.

Local primero · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon e Intel

Una nota antes de empezar

Pedimos disculpas al público general: solo llevamos una semana con este proyecto, así que podrías encontrarte con algún bug. Parchamos rápido, y estamos muy, muy agradecidos de que hayas pasado por aquí. :D

La forma de la interfaz decide qué es posible. El chat nos hizo pensar. Las herramientas nos hicieron construir. Los agentes por fin dejaron que el modelo tocara la misma pantalla que tú. Todo lo divertido vive en esa tercera era, y Katchy es la ventana más pequeña, más tranquila y más Macintosh que pudimos hacer hacia ella.

El resto de esta página es la guía bajo el capó. Lo que pasa entre que pulsas una tecla y la respuesta llega a tu oído. Por qué enrutamos a un modelo frontera distinto según lo que has pedido. Lo que nunca sale de tu Mac. Hemos intentado ser breves.

01b · La tesis

Lo que la colaboración
realmente necesita.

Propiedad 01

Copresencia

Compartimos el mismo objeto. Katchy mira la misma ventana, el mismo párrafo, el mismo frame de Figma que tú. No adivina a partir de una descripción, lee los píxeles que lees tú.

En Katchy
ScreenCaptureKit un frame, limitado a la pantalla activa.

Propiedad 02

Contemporaneidad

Retroalimentación mientras pasa el trabajo, no después. Katchy responde en el momento en que dejas de hablar, mientras la pregunta sigue caliente, sin botón de enviar, sin spinner, sin hilo de correo.

En Katchy
Del atajo al primer token: unos 80 milisegundos.

Propiedad 03

Simultaneidad

Podemos hacer cosas a la vez los dos. Tú sigues escribiendo mientras un agente renombra 47 capturas. Katchy sigue razonando mientras tú haces scroll. Ninguno tiene que esperar turno.

En Katchy
Loop de agente fuera del hilo principal, cancelable con ⌘ . en cualquier momento.

Lo que leímos

Tres propiedades, tomadas casi al pie de la letra del ensayo de Thinking Machines sobre modelos de interacción. Sostienen que la colaboración real, con personas, con código, con cualquier cosa, requiere las tres a la vez. La mayoría de los sistemas de IA de hoy están afinados para operar de forma autónoma y se las pierden por completo. Katchy está construido directamente para el caso interactivo.

01 · El problema de la interacción

Tres eras
de hablar con
un ordenador.

1.0Chat

Tú escribes, el modelo escribe de vuelta. Copias, pegas, saltas entre pestañas. Potente, pero el modelo solo sabe lo que le cuentas y nunca puede tocar lo que ves.

Todo pensamiento. Sin manos. Sin ojos.

2.0Uso de herramientas

Los modelos empezaron a llamar a APIs. Lee este archivo. Busca en esta base de datos. Manda este correo. Maravilloso, pero seguías conectando cada herramienta tú mismo a mano.

Poder real, pero tú eres la tubería.

3.0Agentes

El modelo mira tu pantalla, mantiene un plan en mente, actúa, revisa su propio trabajo y solo te pregunta cuando de verdad te necesita. Aquí es donde vive Katchy.

Donde vive Katchy.

Interludio · el problema del ancho de banda

“Como resolver desacuerdos
por correo electrónico en lugar de en persona.”

- Thinking Machines, sobre el cuello de botella de la colaboración

El chat es un solo hilo: hasta que terminas de escribir, el modelo no percibe nada; hasta que termina de escribir, tú no percibes nada. El canal es estrecho. La voz más una captura de pantalla fresca es mucho más ancho, y por eso Katchy habla en vez de escribir.

02 · Anatomía de una petición

Qué pasa
en los ochenta
milisegundos.

Cada petición pasa por el mismo pipeline de cuatro etapas. Haz clic en una etapa o solo mira: el diagrama avanza solo cada pocos segundos y se detiene en el momento que tomas el control.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arquitectura

Modelo de interacción
delante. Modelo
de fondo detrás.

Frente · síncrono

El modelo de
interacción.

Permanece presente mientras hablas. Mantiene la conversación en memoria a corto plazo. Detecta si estás pensando, cediendo turno o interrumpiendo. Responde en aproximadamente el tiempo que tardas en parpadear.

  • Audio push-to-talk + una sola captura.
  • Tokens en streaming, nunca "un momento".
  • Cancelable a mitad de camino con ⌘ .

Atrás · asíncrono

El modelo
de fondo.

Se ocupa del trabajo lento y sostenido. Un bucle de agente de varios pasos con herramientas: sistema de archivos, AppleScript, Shortcuts, navegador. Planifica, actúa, releía su propia salida, lo intenta de nuevo. Reporta cuando ha terminado.

  • Corre fuera del hilo principal, nunca bloquea la UI.
  • Comparte el contexto de la conversación con el frente.
  • El resultado final aparece como una notificación silenciosa en la barra de menús.

Esta es la arquitectura de dos partes que propone Thinking Machines, en miniatura. El modelo de interacción te da la capacidad de respuesta de un modelo pequeño. El modelo de fondo te da la planificación y el uso de herramientas de uno grande. Comparten contexto. Nunca ves las costuras.

03 · La pila, capa por capa

Cuatro frameworks de Apple
pequeños, aburridos
y muy bien nombrados.

01 · Escucha

Mantén para hablar

Mantén Control y Option. macOS captura audio localmente vía CoreAudio. La onda se transcribe en el dispositivo cuando se puede, luego se recorta y solo se envía si hace falta un modelo frontera.

02 · Mira

Una captura de tu pantalla

Cuando la pregunta necesita contexto, ScreenCaptureKit toma un único frame puntual. Katchy no graba vídeo en directo, no captura en continuo, no guarda capturas después de la respuesta.

03 · Piensa

El cerebro correcto para el trabajo

Katchy enruta la petición al modelo frontera que mejor la maneje. PDFs largos a Claude. Tareas con mucha imagen a Gemini. Código y ediciones rápidas a GPT. El router elige, tú te quedas quieto.

04 · Actúa

Cursor + agentes, en tu barra de menús

Un triángulo amable apunta a la respuesta cuando un clic basta. Un agente multi-paso corre en segundo plano cuando hacen falta diez clics. Comparten memoria, se apagan cuando tú.

04 · La decisión del router

Una frase entra,
el cerebro correcto
se ocupa.

Un pequeño clasificador lee tu transcripción y los tokens de la página, luego dispatcha cada petición al modelo que mejor encaja. Prueba unos cuantos tú mismo: el router muestra su trabajo.

Prueba una pregunta

Decisión del enrutador

Resume este PDF de 60 páginas que acabo de abrir

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Por qué esta: Contexto largo, razonamiento cuidadoso sobre un documento estructurado.

05 · Tres cerebros, una barra de menús

Preguntas distintas
merecen modelos
distintos.

OpenAI

GPT

Va aquí para ediciones rápidas, revisión de código y reescrituras estructuradas donde quieres la respuesta en una frase y media.

  • Reescrituras precisas
  • Revisión de código
  • Ediciones rápidas

Anthropic

Claude

Va aquí para documentos largos, razonamiento cuidadoso y cualquier cosa donde prefieras no tener una respuesta segura pero equivocada.

  • Contexto largo
  • Razonamiento cuidadoso
  • Escritura matizada

Google

Gemini

Va aquí para momentos cargados de pantalla, gráficos, slides y casos donde lo visual es la mitad de la pregunta.

  • Visión
  • Gráficos y slides
  • Respuesta rápida

06 · Capacidades

Un breve menú de cosas que puedes decir sin más.

Leer y escribir

  • Resume ese PDF de 60 páginas

    Lectura

  • Redacta un no educado

    Escritura

  • Escribe un changelog rápido

    Escritura

  • Traduce al español

    Escritura

  • Retoma el borrador de ayer

    Escritura

  • Genera un resumen semanal

    Escritura

Archivos y sistema

  • Renombra 47 capturas

    Archivos

  • Limpia el escritorio

    Archivos

  • Saca datos de este CSV

    Números

  • Convierte estos a PNG

    Archivos

  • Abre la última captura

    Archivos

  • Fija Spotify a la barra de menús

    Sistema

  • ¿Qué hace este comando?

    Terminal

  • Convierte esto en tabla

    Números

Flujo diario

  • Tría la bandeja de entrada

    Correo

  • Abre esto en Cursor

    Código

  • Reagenda el standup

    Calendario

  • Etiqueta estas fotos por cara

    Fotos

  • Silencia Slack una hora

    Concentración

  • ¿Qué cambió en este archivo?

    Código

  • Añade esto a Recordatorios

    Tareas

  • Encuentra ese PDF que perdí

    Búsqueda

Y cualquier otra cosa

Estas son unas pocas de esta semana. La lista real es cualquier cosa que puedas decir en voz alta señalando tu pantalla. Los agentes hacen el resto.

06 · En cifras

Con qué se compara
una app agéntica
y tranquila.

3

modelos frontera en una sola barra de menús

0

servidores nuestros, jamás

1

atajo es toda la interfaz

~ 80 MB

de disco para alojar todo eso

80 ms

del atajo al primer token

0

archivos salen de tu Mac hasta que lo pidas

07 · A lo largo de todo tu Mac

El mismo bucle. Cada app.
Cada flujo de trabajo.

08 · Local donde importa

Tu pantalla no sale
de tu Mac
sin que lo pidas.

  1. 01

    Local por defecto.

    El audio se captura en RAM y se descarta en cuanto termina la petición. Las capturas se quedan en memoria. Las conversaciones viven en tu carpeta Application Support, no en un servidor.

  2. 02

    El payload más pequeño posible.

    El router recorta el audio solo a la parte hablada, enmascara la barra de menús y el dock en cualquier captura, y nunca envía historial de conversación que el modelo no necesita.

  3. 03

    Trae tus propias claves.

    Las claves de Anthropic, OpenAI y Google viven en tu Llavero de macOS. Nosotros nunca las vemos. Puedes sacarlas o rotarlas en cualquier momento.

  4. 04

    Cancelable en cada paso.

    ⌘ . detiene una petición en pleno vuelo. Los agentes consultan la marca de cancelación en cada iteración. No hay ningún "espera mientras lo recogemos todo".

09 · Una breve lista de lectura

De pie sobre
cuatro pares
de hombros.

  1. 01

    Metis

    El concepto de conocimiento práctico de Scott. Estocástico, intuitivo, local. Razonamiento que vale cuando la incertidumbre es alta y la respuesta correcta depende de la sala. Los agentes lo necesitan.

  2. 02

    El problema del conocimiento de Hayek

    El conocimiento importante vive en las circunstancias particulares de tiempo y lugar. La pantalla delante de ti, ahora mismo, es exactamente ese conocimiento. Katchy lo lee.

  3. 03

    La lección amarga

    Sutton. Los sistemas hechos a mano son superados por la capacidad general + escala. Por eso mantenemos la superficie aburrida y bien nombrada, y dejamos que los modelos frontera hagan el trabajo duro.

  4. 04

    Oralidad

    Ong sobre la naturaleza participativa de la comunicación oral. La voz está más cerca de la colaboración natural que escribir en una caja. Push-to-talk no es un truco, es la interfaz correcta.

Notas al pie

  • El cuello de botella

    Los modelos frontera de hoy están optimizados para uso "autónomo y de larga duración". Una ficha reciente de un modelo frontera admite que "cuando se usa de forma interactiva, sincrónica, con las manos sobre el teclado, los beneficios del modelo eran menos claros". La mayoría del trabajo real es interactivo. Katchy está construido para ese caso.

  • Ancho de banda

    El chat es un solo hilo: hasta que terminas de escribir, el modelo no percibe nada; hasta que él termina, no percibes tú. Thinking Machines llama a esto un canal estrecho para la colaboración humano-IA. La voz + una captura fresca es uno mucho más ancho.

  • Modelo de interacción + modelo de fondo

    Su arquitectura propuesta tiene dos mitades. Un modelo de interacción que permanece presente y síncrono. Un modelo de fondo que se encarga del trabajo de horizonte más largo en asíncrono. Katchy encaja limpio: la barra de menús es el modelo de interacción, el loop de agente es el modelo de fondo, y comparten contexto.

Una última cosa

Un atajo.
Toda la interfaz.

Tres minutos para descargar. Un acorde para recordar. Cero euros, cada día desde ahora hasta la muerte térmica del universo.

Descargar KatchyVolver al inicio

macOS 14.2+ · Apple Silicon e Intel · ~860 MB