Przejdź do treści
katchyfor mac
Przewodnik terenowyWydanie 01 · 2026

Jak działa Katchy.

Jeden skrót. Cztery małe etapy. Trzy modele z frontu badań. Krótki esej o modelu interakcji stojącym za przyjazną, darmową, natywną aplikacją macOS, która po cichu robi prawie wszystko, co potrafisz opisać na głos.

Lokalnie najpierw · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon i Intel

Słowo przed startem

Przepraszamy szerszą publiczność: pracujemy nad tym projektem dopiero tydzień, więc możesz trafić na bug albo dwa. Łatamy szybko i jesteśmy bardzo, bardzo wdzięczni, że zaglądasz. :D

Kształt interfejsu decyduje, co jest możliwe. Chat kazał nam myśleć. Użycie narzędzi kazało nam budować. Agenty wreszcie pozwoliły modelowi dotykać tego samego ekranu co ty. Wszystko, co ciekawe, żyje w tej trzeciej erze, a Katchy to najmniejsze, najspokojniejsze, najbardziej macintoshowe okno do niej, jakie udało nam się zrobić.

Reszta tej strony to przewodnik pod maską. Co dzieje się między tym, jak naciskasz klawisz, a tym, jak odpowiedź dociera do twojego ucha. Dlaczego kierujemy do innego modelu z frontu w zależności od tego, o co pytasz. Co nigdy nie opuszcza twojego Maca. Staraliśmy się krótko.

01b · Teza

Czego naprawdę potrzebuje
współpraca.

Cecha 01

Współobecność

Dzielimy ten sam obiekt. Katchy patrzy na to samo okno, ten sam akapit, tę samą klatkę Figmy co ty. Nie zgaduje z opisu, czyta te same piksele, co ty.

W Katchy
ScreenCaptureKit, jedna klatka, ograniczona do aktywnego ekranu.

Cecha 02

Współczesność

Feedback w trakcie pracy, nie po. Katchy odpowiada w chwili, gdy przestajesz mówić, póki pytanie jest jeszcze ciepłe, bez przycisku wyślij, bez spinnera, bez wątku maili.

W Katchy
Od skrótu do pierwszego tokenu, około 80 milisekund.

Cecha 03

Równoległość

Możemy obaj robić coś jednocześnie. Ty piszesz dalej, gdy agent zmienia nazwy 47 zrzutów. Katchy myśli dalej, gdy ty przewijasz. Nikt nie czeka na swoją kolej.

W Katchy
Pętla agenta poza głównym wątkiem, anulowalna ⌘ . w każdym momencie.

Co czytaliśmy

Trzy cechy, niemal dosłownie zabrane z eseju Thinking Machines o modelach interakcji. Twierdzą, że prawdziwa współpraca, z ludźmi, z kodem, z czymkolwiek, wymaga wszystkich trzech naraz. Większość dzisiejszych systemów AI jest dostrojona do działania autonomicznego i kompletnie je gubi. Katchy jest zbudowane wprost pod interaktywny przypadek.

01 · Problem interakcji

Trzy epoki
rozmów z
komputerem.

1.0Czat

Ty piszesz, model odpisuje. Kopiujesz, wklejasz, skaczesz między kartami. Potężne, ale model wie tylko to, co mu powiesz, i nigdy nie może dotknąć tego, co widzisz.

Sama myśl. Bez rąk. Bez oczu.

2.0Użycie narzędzi

Modele zaczęły wołać API. Przeczytaj ten plik. Poszukaj w tej bazie. Wyślij ten mail. Cudownie, ale wciąż sam musiałeś poskładać każde narzędzie w kodzie.

Prawdziwa moc, ale hydraulika to ty.

3.0Agenty

Model patrzy na twój ekran, trzyma plan w głowie, działa, sprawdza własną robotę i pyta tylko wtedy, gdy naprawdę musi. Tu mieszka Katchy.

Tam, gdzie mieszka Katchy.

Interludium · problem przepustowości

„Jakby rozwiązywać spory
mailem zamiast twarzą w twarz.”

- Thinking Machines, o wąskim gardle współpracy

Chat to jedna nitka: dopóki nie skończysz pisać, model niczego nie wyczuwa; dopóki on nie skończy pisać, nie wyczuwasz ty. Kanał wąski. Głos plus świeży zrzut ekranu to dużo szerszy kanał, i dlatego Katchy mówi zamiast pisać.

02 · Anatomia jednego zapytania

Co dzieje się
w te osiemdziesiąt
milisekund.

Każde zapytanie idzie przez ten sam czteroetapowy pipeline. Kliknij etap albo po prostu patrz, diagram sam się cyklicznie zmienia co kilka sekund i zatrzymuje, gdy tylko przejmiesz stery.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architektura

Model interakcji
z przodu. Model
tła z tyłu.

Front · synchronicznie

Model
interakcji.

Trwa obok, gdy mówisz. Trzyma rozmowę w pamięci krótkotrwałej. Wyczuwa, czy myślisz, oddajesz głos, czy wchodzisz w słowo. Odpowiada mniej więcej w czasie mrugnięcia.

  • Push-to-talk audio + jeden zrzut ekranu.
  • Strumieniowane tokeny, nigdy „proszę czekać".
  • Anulowalne w locie przez ⌘ .

Tył · asynchronicznie

Model
tła.

Bierze na siebie wolniejszą, dłuższą robotę. Wielokrokowa pętla agenta z narzędziami: system plików, AppleScript, Shortcuts, przeglądarka. Planuje, działa, czyta własny wynik, próbuje znowu. Odzywa się, gdy skończy.

  • Działa poza głównym wątkiem, nigdy nie blokuje UI.
  • Dzieli kontekst rozmowy z frontem.
  • Wynik końcowy ląduje jako cichy powiadom w pasku menu.

To dokładnie ta dwuczęściowa architektura, którą proponuje Thinking Machines, w miniaturze. Model interakcji daje ci reakcję małego modelu. Model tła, planowanie i narzędzia dużego. Dzielą kontekst. Szwów nie widzisz.

03 · Stos, warstwa po warstwie

Cztery małe, nudne,
świetnie nazwane
frameworki Apple.

01 · Słucha

Trzymaj i mów

Trzymaj Control i Option. macOS lokalnie nagrywa dźwięk przez CoreAudio. Fala, jeśli się da, jest transkrybowana na urządzeniu, potem skraca się i jest wysyłana tylko, gdy potrzeba modelu z frontu.

02 · Widzi

Zrzut twojego ekranu

Gdy pytanie potrzebuje kontekstu, ScreenCaptureKit robi jeden, ukierunkowany kadr. Katchy nigdy nie streamuje wideo, nie nagrywa ciągle, nie trzyma zrzutów po udzieleniu odpowiedzi.

03 · Myśli

Właściwy mózg do roboty

Katchy kieruje zapytanie do tego modelu z frontu, który ogarnie je najlepiej. Długie PDF do Claude. Wizualne do Gemini. Kod i szybkie poprawki do GPT. Router wybiera, ty stoisz w miejscu.

04 · Działa

Kursor + agenty, w pasku menu

Przyjazny trójkąt wskazuje odpowiedź, gdy wystarczy jedno kliknięcie. Agent wielokrokowy chodzi w tle, gdy potrzeba dziesięciu. Obaj dzielą tę samą pamięć i wyłączają się razem z tobą.

04 · Decyzja routera

Wchodzi zdanie,
właściwy mózg
się tym zajmuje.

Mały klasyfikator czyta twoją transkrypcję i tokeny strony, a potem wysyła każde zapytanie do modelu, który najlepiej pasuje. Sprawdź kilka sam, router pokazuje swoją pracę.

Zadaj pytanie

Decyzja routera

Podsumuj ten 60-stronicowy PDF, który właśnie otworzyłem

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Dlaczego ten: Długi kontekst, uważne rozumowanie nad uporządkowanym dokumentem.

05 · Trzy mózgi, jeden pasek menu

Różne pytania
zasługują na różne
modele.

OpenAI

GPT

Idzie tu po szybkie poprawki, review kodu i ten rodzaj uporządkowanego przepisywania, gdzie chcesz odpowiedź w półtorej zdania.

  • Zwięzłe przeróbki
  • Review kodu
  • Szybkie poprawki

Anthropic

Claude

Idzie tu po długie dokumenty, ostrożne rozumowanie i wszystko, gdzie wolisz nie dostać pewnej-siebie-ale-błędnej odpowiedzi.

  • Długi kontekst
  • Ostrożne rozumowanie
  • Niuanse w pisaniu

Google

Gemini

Idzie tu po momenty obfite w ekran, wykresy, slajdy i przypadki, gdzie wizual to połowa pytania.

  • Wzrok
  • Wykresy i slajdy
  • Szybka odpowiedź

06 · Możliwości

Krótka karta dań rzeczy, które możesz po prostu powiedzieć.

Czytanie i pisanie

  • Streść tamten PDF na 60 stron

    Czytanie

  • Napisz grzeczne nie

    Pisanie

  • Napisz szybki changelog

    Pisanie

  • Przetłumacz na hiszpański

    Pisanie

  • Wróć do wczorajszej wersji roboczej

    Pisanie

  • Wygeneruj tygodniowe podsumowanie

    Pisanie

Pliki i system

  • Zmień nazwę 47 zrzutom

    Pliki

  • Posprzątaj pulpit

    Pliki

  • Wyciągnij dane z tego CSV

    Liczby

  • Przekonwertuj te na PNG

    Pliki

  • Otwórz ostatni zrzut

    Pliki

  • Przypnij Spotify do paska menu

    System

  • Co robi to polecenie?

    Terminal

  • Zamień to w tabelę

    Liczby

Codzienny przepływ

  • Posortuj skrzynkę odbiorczą

    Poczta

  • Otwórz to w Cursor

    Kod

  • Przesuń standup

    Kalendarz

  • Otaguj te zdjęcia po twarzy

    Zdjęcia

  • Wycisz Slacka na godzinę

    Skupienie

  • Co się zmieniło w tym pliku?

    Kod

  • Dodaj to do przypomnień

    Zadania

  • Znajdź ten PDF, który zgubiłem

    Wyszukiwanie

I wszystko inne

To kilka z tego tygodnia. Prawdziwa lista to wszystko, co potrafisz powiedzieć na głos, pokazując palcem ekran. Resztą zajmują się agenty.

06 · W liczbach

Z czym mierzy się
spokojna agentyczna
aplikacja.

3

modele z frontu w jednym pasku menu

0

serwerów, które posiadamy, nigdy

1

skrót to całe UI

~ 80 MB

miejsca, by to wszystko zmieścić

80 ms

od skrótu do pierwszego tokenu

0

plików opuszcza twojego Maca, dopóki nie poprosisz

07 · Po całym twoim Macu

Ta sama pętla. Każda aplikacja.
Każdy workflow.

08 · Lokalnie tam, gdzie to ważne

Twój ekran
nie wychodzi z Maca,
bez pytania.

  1. 01

    Lokalnie domyślnie.

    Dźwięk trafia do RAM i jest wyrzucany w chwili, w której zapytanie się kończy. Zrzuty zostają w pamięci. Rozmowy żyją w twoim folderze Application Support, nie na serwerze.

  2. 02

    Najmniejszy możliwy payload.

    Router przycina dźwięk tylko do mówionej części, maskuje pasek menu i dock na każdym zrzucie i nigdy nie wysyła historii rozmowy, której model nie potrzebuje.

  3. 03

    Przynieś własne klucze.

    Klucze Anthropic, OpenAI i Google żyją w twoim pęku kluczy macOS. My ich nie widzimy. Możesz je wyjąć albo zmienić w każdej chwili.

  4. 04

    Anulowalne na każdym kroku.

    ⌘ . zatrzymuje zapytanie w locie. Agenty sprawdzają flagę anulowania na każdej pętli. Nie ma „chwila, kończymy sprzątać".

09 · Krótka lista lektur

Stoimy na
czterech parach
ramion.

  1. 01

    Metis

    Pojęcie wiedzy praktycznej u Scotta. Stochastyczne, intuicyjne, lokalne. Rozumowanie pasujące, gdy niepewność jest wysoka, a poprawna odpowiedź zależy od pokoju. Agenty go potrzebują.

  2. 02

    Problem wiedzy Hayeka

    Ważna wiedza żyje w szczegółowych okolicznościach czasu i miejsca. Ekran przed tobą teraz to właśnie ta wiedza. Katchy ją czyta.

  3. 03

    Gorzka lekcja

    Sutton. Systemy zbudowane ręcznie są wyprzedzane przez ogólną zdolność + skalę. Dlatego trzymamy powierzchnię nudną i dobrze nazwaną, a ciężką robotę zostawiamy modelom z frontu.

  4. 04

    Ustność

    Ong o uczestniczącej naturze komunikacji ustnej. Głos jest bliżej naturalnej współpracy niż pisanie w okienko. Push-to-talk to nie sztuczka, to właściwy interfejs.

Przypisy

  • Wąskie gardło

    Dzisiejsze modele z frontu są optymalizowane pod „autonomiczne, długotrwałe" użycie. Niedawna karta modelu przyznaje, że „przy interaktywnym, synchronicznym użyciu, z dłońmi na klawiaturze, korzyści modelu były mniej jasne". Większość prawdziwej pracy jest interaktywna. Katchy jest zbudowane wprost pod ten przypadek.

  • Pasmo

    Czat to jedna nitka: dopóki nie skończysz pisać, model nic nie odbiera; dopóki on nie skończy, ty nic nie odbierasz. Thinking Machines nazywa to wąskim kanałem dla współpracy człowieka i AI. Głos plus świeży zrzut to dużo szerszy kanał.

  • Model interakcji + model tła

    Ich proponowana architektura ma dwie połowy. Model interakcji, który zostaje obecny i synchroniczny. Model tła, który bierze pracę o dłuższym horyzoncie w asynchronie. Katchy mapuje się czysto: pasek menu to model interakcji, pętla agenta to model tła, dzielą kontekst.

Ostatnia rzecz

Jeden skrót.
Cały interfejs.

Trzy minuty na pobranie. Jedna kombinacja klawiszy do zapamiętania. Zero euro, każdego dnia od teraz do cieplnej śmierci wszechświata.

Pobierz KatchyWróć na stronę główną

macOS 14.2+ · Apple Silicon i Intel · ~860 MB