Ir para o conteúdo
katchyfor mac
Um guia de campoVolume 01 · 2026

Como funciona o Katchy.

Um atalho. Quatro pequenas etapas. Três modelos de fronteira. Um ensaio curto sobre o modelo de interação por trás de uma app nativa de macOS, amistosa e gratuita, que faz, em silêncio, quase tudo o que consegues descrever em voz alta.

Local primeiro · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon e Intel

Uma nota antes de começarmos

Com pedidos de desculpa ao grande público: temos apenas uma semana de projecto, por isso podes tropeçar num bug ou dois. Corrigimos rápido, e estamos muito, muito gratos por teres aparecido. :D

A forma da interface decide o que é possível. O chat fez-nos pensar. O uso de ferramentas fez-nos construir. Os agentes deixaram finalmente o modelo tocar no mesmo ecrã que tu. Tudo o que é divertido vive nessa terceira era, e o Katchy é a janela mais pequena, mais calma e mais Macintosh que conseguimos abrir para lá.

O resto desta página é o guia debaixo do capô. O que acontece entre tu carregares numa tecla e a resposta chegar ao teu ouvido. Porque é que encaminhamos para um modelo de fronteira diferente conforme o que pediste. O que nunca sai do teu Mac. Tentámos manter curto.

01b · A tese

Aquilo de que a colaboração
precisa mesmo.

Propriedade 01

Copresença

Partilhamos o mesmo objeto. O Katchy olha para a mesma janela, o mesmo parágrafo, o mesmo frame Figma que tu. Não está a adivinhar, está a ler os pixels que tu lês.

No Katchy
ScreenCaptureKit num frame, limitado ao ecrã ativo.

Propriedade 02

Contemporaneidade

Feedback enquanto o trabalho acontece, não depois. O Katchy responde no momento em que paras de falar, enquanto a pergunta ainda está quente, sem botão de enviar, sem spinner, sem cadeia de e-mails.

No Katchy
Do atalho ao primeiro token: cerca de 80 milissegundos.

Propriedade 03

Simultaneidade

Podemos ambos fazer coisas ao mesmo tempo. Tu continuas a escrever enquanto um agente renomeia 47 capturas. O Katchy continua a raciocinar enquanto tu rolas. Ninguém tem de esperar a vez.

No Katchy
Loop de agente fora da thread principal, cancelável com ⌘ . a qualquer altura.

O que lemos

Três propriedades, tiradas quase à letra do ensaio da Thinking Machines sobre modelos de interação. Defendem que a colaboração real, com pessoas, com código, com qualquer coisa, exige as três ao mesmo tempo. A maioria dos sistemas de IA actuais está afinada para operação autónoma e perde-as por completo. O Katchy está construído directamente para o caso interactivo.

01 · O problema da interação

Três eras
a falar com
um computador.

1.0Chat

Tu escreves, o modelo responde. Copias, colas, saltas entre separadores. Poderoso, mas o modelo só sabe o que lhe contas e nunca pode tocar no que vês.

Só pensamento. Sem mãos. Sem olhos.

2.0Uso de ferramentas

Os modelos começaram a chamar APIs. Lê este ficheiro. Procura nesta base. Envia este e-mail. Maravilhoso, mas continuavas a ter de ligar cada ferramenta tu mesmo no código.

Poder a sério, mas tu és a canalização.

3.0Agentes

O modelo vê o teu ecrã, tem um plano em mente, age, revê o próprio trabalho e só te pergunta quando precisa mesmo de ti. É aqui que o Katchy vive.

Onde o Katchy vive.

Interlúdio · o problema da largura de banda

“Como resolver desacordos
por e-mail em vez de pessoalmente.”

- Thinking Machines, sobre o estrangulamento da colaboração

O chat é uma única linha: até acabares de escrever, o modelo não percebe nada; até ele acabar de escrever, tu não percebes nada. O canal é estreito. Voz mais uma screenshot fresca é muito mais largo, e é por isso que o Katchy fala em vez de escrever.

02 · Anatomia de um pedido

O que acontece
nos oitenta
milissegundos.

Cada pedido passa pelo mesmo pipeline de quatro fases. Carrega numa fase ou simplesmente vê, o diagrama avança sozinho a cada poucos segundos e pára no instante em que assumes o controlo.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arquitectura

Modelo de interacção
à frente. Modelo de
fundo atrás.

Frente · síncrono

O modelo de
interacção.

Fica presente enquanto falas. Mantém a conversa em memória de curto prazo. Repara se estás a pensar, a ceder a vez ou a interromper. Responde mais ou menos no tempo de pestanejar.

  • Áudio push-to-talk + a única screenshot.
  • Tokens em streaming, nunca "aguarde por favor".
  • Cancelável a meio com ⌘ .

Atrás · assíncrono

O modelo
de fundo.

Trata do trabalho lento e prolongado. Um ciclo de agente multi-passo com ferramentas: sistema de ficheiros, AppleScript, Shortcuts, browser. Planeia, age, relê o próprio output, tenta de novo. Reporta quando termina.

  • Corre fora da thread principal, nunca bloqueia a UI.
  • Partilha o contexto da conversa com a frente.
  • O resultado final chega como uma notificação discreta na barra de menus.

Esta é a arquitectura em duas partes que a Thinking Machines propõe, em miniatura. O modelo de interacção dá-te a rapidez de um modelo pequeno. O modelo de fundo dá-te o planeamento e o uso de ferramentas de um grande. Partilham contexto. Tu nunca vês as costuras.

03 · A stack, camada a camada

Quatro frameworks Apple
pequenos, aborrecidos,
com nomes perfeitos.

01 · Ouve

Mantém para falar

Mantém Control e Option. O macOS captura áudio localmente via CoreAudio. A forma de onda é transcrita no dispositivo quando possível, depois cortada e enviada só se for preciso um modelo de fronteira.

02 · Vê

Uma captura do teu ecrã

Quando a pergunta precisa de contexto, o ScreenCaptureKit tira um único frame focado. O Katchy nunca faz streaming de vídeo, nunca grava em contínuo, nunca guarda capturas depois da resposta.

03 · Pensa

O cérebro certo para o trabalho

O Katchy encaminha o pedido para o modelo de fronteira que o trata melhor. PDFs longos para o Claude. Tarefas visuais para o Gemini. Código e edits rápidos para o GPT. O router escolhe, tu ficas quieto.

04 · Age

Cursor + agentes, na tua barra de menus

Um triângulo simpático aponta para a resposta quando basta um clique. Um agente de vários passos corre em segundo plano quando são precisos dez. Partilham memória, desligam-se contigo.

04 · A decisão do router

Entra uma frase,
o cérebro certo
trata dela.

Um pequeno classificador lê a tua transcrição e os tokens da página e despacha cada pedido para o modelo que melhor encaixa. Experimenta alguns, o router mostra-te o trabalho.

Experimente uma pergunta

Decisão do encaminhador

Resume este PDF de 60 páginas que acabei de abrir

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Porquê esta: Contexto longo, raciocínio cuidadoso sobre um documento estruturado.

05 · Três cérebros, uma barra de menus

Perguntas diferentes
merecem modelos
diferentes.

OpenAI

GPT

Vai aqui para edits rápidos, revisão de código e o tipo de reescrita estruturada onde queres a resposta em uma frase e meia.

  • Reescritas apertadas
  • Revisão de código
  • Edits rápidos

Anthropic

Claude

Vai aqui para documentos longos, raciocínio cuidadoso e tudo onde preferes não ter uma resposta confiante e errada.

  • Contexto longo
  • Raciocínio cuidadoso
  • Escrita matizada

Google

Gemini

Vai aqui para momentos cheios de ecrã, gráficos, slides e casos em que o visual é metade da pergunta.

  • Visão
  • Gráficos e slides
  • Resposta rápida

06 · Capacidades

Um menu curto de coisas que podes simplesmente dizer.

Ler e escrever

  • Resume esse PDF de 60 páginas

    Leitura

  • Esboça um não educado

    Escrita

  • Escreve um changelog rápido

    Escrita

  • Traduz para espanhol

    Escrita

  • Continua o rascunho de ontem

    Escrita

  • Gera um resumo semanal

    Escrita

Ficheiros e sistema

  • Renomeia 47 capturas

    Ficheiros

  • Arruma a Secretária

    Ficheiros

  • Extrai dados deste CSV

    Números

  • Converte estes em PNG

    Ficheiros

  • Abre a última captura

    Ficheiros

  • Fixa o Spotify na barra de menus

    Sistema

  • O que faz este comando?

    Terminal

  • Converte isto numa tabela

    Números

Fluxo diário

  • Triage à caixa de entrada

    Mail

  • Abre isto no Cursor

    Código

  • Remarca o standup

    Calendário

  • Etiqueta estas fotos por rosto

    Fotos

  • Silencia o Slack durante uma hora

    Foco

  • O que mudou neste ficheiro?

    Código

  • Adiciona isto aos Lembretes

    Tarefas

  • Encontra esse PDF perdido

    Pesquisa

E qualquer outra coisa

Estes são uns quantos desta semana. A lista a sério é qualquer coisa que consigas dizer em voz alta a apontar para o ecrã. Os agentes tratam do resto.

06 · Em números

Com o que se mede
uma app agêntica
e tranquila.

3

modelos de fronteira numa só barra de menus

0

servidores nossos, nunca

1

atalho é toda a UI

~ 80 MB

de disco para alojar tudo isso

80 ms

do atalho ao primeiro token

0

ficheiros saem do teu Mac até pedires

07 · Por todo o teu Mac

Mesmo loop. Cada app.
Cada workflow.

08 · Local onde interessa

O teu ecrã não sai
do teu Mac,
sem ser perguntado.

  1. 01

    Local por defeito.

    O áudio é capturado em RAM e descartado no instante em que o pedido termina. As screenshots ficam em memória. As conversas vivem na tua pasta Application Support, não num servidor.

  2. 02

    O payload mais pequeno possível.

    O router corta o áudio só à parte falada, mascara a barra de menus e o dock de qualquer screenshot, e nunca envia histórico de conversa que o modelo não precisa.

  3. 03

    Traz as tuas próprias chaves.

    As chaves Anthropic, OpenAI e Google vivem no teu Porta-chaves do macOS. Nunca as vemos. Podes retirá-las ou trocá-las quando quiseres.

  4. 04

    Cancelável em cada passo.

    ⌘ . pára um pedido a meio do voo. Os agentes verificam a flag de cancelamento a cada volta. Não há "aguarde enquanto arrumamos".

09 · Uma lista de leituras curta

De pé sobre
quatro pares
de ombros.

  1. 01

    Metis

    O conceito de conhecimento prático de Scott. Estocástico, intuitivo, local. Raciocínio adequado quando a incerteza é alta e a resposta certa depende da sala. Os agentes precisam dele.

  2. 02

    O problema do conhecimento de Hayek

    O conhecimento importante vive nas circunstâncias particulares de tempo e lugar. O ecrã à tua frente, agora, é exatamente esse conhecimento. O Katchy lê-o.

  3. 03

    A lição amarga

    Sutton. Os sistemas feitos à mão são ultrapassados pela capacidade geral + escala. Por isso mantemos a superfície aborrecida e bem nomeada, e deixamos os modelos de fronteira fazer o difícil.

  4. 04

    Oralidade

    Ong sobre o caráter participativo da comunicação oral. A voz está mais perto da colaboração natural do que escrever numa caixa. Push-to-talk não é um truque, é a interface certa.

Notas

  • O gargalo

    Os modelos de fronteira de hoje estão otimizados para uso "autónomo, de longa duração". Um cartão recente de modelo admite que "quando usado de forma interativa, síncrona, com as mãos no teclado, os benefícios do modelo eram menos claros". A maior parte do trabalho a sério é interativo. O Katchy foi construído precisamente para isso.

  • Largura de banda

    O chat é um único fio: até acabares de escrever, o modelo não perceciona nada; até ele acabar, não percecionas nada. A Thinking Machines chama-lhe um canal estreito para a colaboração humano-IA. Voz + uma captura fresca é um canal muito mais largo.

  • Modelo de interação + modelo de fundo

    A arquitetura proposta tem duas metades. Um modelo de interação que fica presente e síncrono. Um modelo de fundo que faz o trabalho de horizonte mais longo em assíncrono. O Katchy mapeia limpo: a barra de menus é o modelo de interação, o loop de agente é o de fundo, e partilham contexto.

Uma última coisa

Um atalho.
A interface inteira.

Três minutos para descarregar. Um acorde para decorar. Zero euros, todos os dias, daqui até à morte térmica do universo.

Descarregar o KatchyVoltar ao início

macOS 14.2+ · Apple Silicon e Intel · ~860 MB