Cecha 01
Współobecność
Dzielimy ten sam obiekt. Katchy patrzy na to samo okno, ten sam akapit, tę samą klatkę Figmy co ty. Nie zgaduje z opisu, czyta te same piksele, co ty.
W Katchy
ScreenCaptureKit, jedna klatka, ograniczona do aktywnego ekranu.
Jeden skrót. Cztery małe etapy. Trzy modele z frontu badań. Krótki esej o modelu interakcji stojącym za przyjazną, darmową, natywną aplikacją macOS, która po cichu robi prawie wszystko, co potrafisz opisać na głos.
Lokalnie najpierw · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon i Intel
Słowo przed startem
Przepraszamy szerszą publiczność: pracujemy nad tym projektem dopiero tydzień, więc możesz trafić na bug albo dwa. Łatamy szybko i jesteśmy bardzo, bardzo wdzięczni, że zaglądasz. :D
Kształt interfejsu decyduje, co jest możliwe. Chat kazał nam myśleć. Użycie narzędzi kazało nam budować. Agenty wreszcie pozwoliły modelowi dotykać tego samego ekranu co ty. Wszystko, co ciekawe, żyje w tej trzeciej erze, a Katchy to najmniejsze, najspokojniejsze, najbardziej macintoshowe okno do niej, jakie udało nam się zrobić.
Reszta tej strony to przewodnik pod maską. Co dzieje się między tym, jak naciskasz klawisz, a tym, jak odpowiedź dociera do twojego ucha. Dlaczego kierujemy do innego modelu z frontu w zależności od tego, o co pytasz. Co nigdy nie opuszcza twojego Maca. Staraliśmy się krótko.
01b · Teza
Cecha 01
Dzielimy ten sam obiekt. Katchy patrzy na to samo okno, ten sam akapit, tę samą klatkę Figmy co ty. Nie zgaduje z opisu, czyta te same piksele, co ty.
W Katchy
ScreenCaptureKit, jedna klatka, ograniczona do aktywnego ekranu.
Cecha 02
Feedback w trakcie pracy, nie po. Katchy odpowiada w chwili, gdy przestajesz mówić, póki pytanie jest jeszcze ciepłe, bez przycisku wyślij, bez spinnera, bez wątku maili.
W Katchy
Od skrótu do pierwszego tokenu, około 80 milisekund.
Cecha 03
Możemy obaj robić coś jednocześnie. Ty piszesz dalej, gdy agent zmienia nazwy 47 zrzutów. Katchy myśli dalej, gdy ty przewijasz. Nikt nie czeka na swoją kolej.
W Katchy
Pętla agenta poza głównym wątkiem, anulowalna ⌘ . w każdym momencie.
Co czytaliśmy
Trzy cechy, niemal dosłownie zabrane z eseju Thinking Machines o modelach interakcji. Twierdzą, że prawdziwa współpraca, z ludźmi, z kodem, z czymkolwiek, wymaga wszystkich trzech naraz. Większość dzisiejszych systemów AI jest dostrojona do działania autonomicznego i kompletnie je gubi. Katchy jest zbudowane wprost pod interaktywny przypadek.
01 · Problem interakcji
Ty piszesz, model odpisuje. Kopiujesz, wklejasz, skaczesz między kartami. Potężne, ale model wie tylko to, co mu powiesz, i nigdy nie może dotknąć tego, co widzisz.
Sama myśl. Bez rąk. Bez oczu.
Modele zaczęły wołać API. Przeczytaj ten plik. Poszukaj w tej bazie. Wyślij ten mail. Cudownie, ale wciąż sam musiałeś poskładać każde narzędzie w kodzie.
Prawdziwa moc, ale hydraulika to ty.
Model patrzy na twój ekran, trzyma plan w głowie, działa, sprawdza własną robotę i pyta tylko wtedy, gdy naprawdę musi. Tu mieszka Katchy.
Tam, gdzie mieszka Katchy.
Interludium · problem przepustowości
„Jakby rozwiązywać spory
mailem zamiast
twarzą w twarz.”
Chat to jedna nitka: dopóki nie skończysz pisać, model niczego nie wyczuwa; dopóki on nie skończy pisać, nie wyczuwasz ty. Kanał wąski. Głos plus świeży zrzut ekranu to dużo szerszy kanał, i dlatego Katchy mówi zamiast pisać.
02 · Anatomia jednego zapytania
Każde zapytanie idzie przez ten sam czteroetapowy pipeline. Kliknij etap albo po prostu patrz, diagram sam się cyklicznie zmienia co kilka sekund i zatrzymuje, gdy tylko przejmiesz stery.
The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.
02b · Architektura
Front · synchronicznie
Trwa obok, gdy mówisz. Trzyma rozmowę w pamięci krótkotrwałej. Wyczuwa, czy myślisz, oddajesz głos, czy wchodzisz w słowo. Odpowiada mniej więcej w czasie mrugnięcia.
Tył · asynchronicznie
Bierze na siebie wolniejszą, dłuższą robotę. Wielokrokowa pętla agenta z narzędziami: system plików, AppleScript, Shortcuts, przeglądarka. Planuje, działa, czyta własny wynik, próbuje znowu. Odzywa się, gdy skończy.
To dokładnie ta dwuczęściowa architektura, którą proponuje Thinking Machines, w miniaturze. Model interakcji daje ci reakcję małego modelu. Model tła, planowanie i narzędzia dużego. Dzielą kontekst. Szwów nie widzisz.
03 · Stos, warstwa po warstwie

01 · Słucha
Trzymaj Control i Option. macOS lokalnie nagrywa dźwięk przez CoreAudio. Fala, jeśli się da, jest transkrybowana na urządzeniu, potem skraca się i jest wysyłana tylko, gdy potrzeba modelu z frontu.

02 · Widzi
Gdy pytanie potrzebuje kontekstu, ScreenCaptureKit robi jeden, ukierunkowany kadr. Katchy nigdy nie streamuje wideo, nie nagrywa ciągle, nie trzyma zrzutów po udzieleniu odpowiedzi.

03 · Myśli
Katchy kieruje zapytanie do tego modelu z frontu, który ogarnie je najlepiej. Długie PDF do Claude. Wizualne do Gemini. Kod i szybkie poprawki do GPT. Router wybiera, ty stoisz w miejscu.

04 · Działa
Przyjazny trójkąt wskazuje odpowiedź, gdy wystarczy jedno kliknięcie. Agent wielokrokowy chodzi w tle, gdy potrzeba dziesięciu. Obaj dzielą tę samą pamięć i wyłączają się razem z tobą.
04 · Decyzja routera
Mały klasyfikator czyta twoją transkrypcję i tokeny strony, a potem wysyła każde zapytanie do modelu, który najlepiej pasuje. Sprawdź kilka sam, router pokazuje swoją pracę.
Zadaj pytanie
“Podsumuj ten 60-stronicowy PDF, który właśnie otworzyłem”
Dlaczego ten: Długi kontekst, uważne rozumowanie nad uporządkowanym dokumentem.
05 · Trzy mózgi, jeden pasek menu
OpenAI
Idzie tu po szybkie poprawki, review kodu i ten rodzaj uporządkowanego przepisywania, gdzie chcesz odpowiedź w półtorej zdania.
Anthropic
Idzie tu po długie dokumenty, ostrożne rozumowanie i wszystko, gdzie wolisz nie dostać pewnej-siebie-ale-błędnej odpowiedzi.
Idzie tu po momenty obfite w ekran, wykresy, slajdy i przypadki, gdzie wizual to połowa pytania.
06 · Możliwości
Czytanie i pisanie
“Streść tamten PDF na 60 stron”
Czytanie
“Napisz grzeczne nie”
Pisanie
“Napisz szybki changelog”
Pisanie
“Przetłumacz na hiszpański”
Pisanie
“Wróć do wczorajszej wersji roboczej”
Pisanie
“Wygeneruj tygodniowe podsumowanie”
Pisanie
Pliki i system
“Zmień nazwę 47 zrzutom”
Pliki
“Posprzątaj pulpit”
Pliki
“Wyciągnij dane z tego CSV”
Liczby
“Przekonwertuj te na PNG”
Pliki
“Otwórz ostatni zrzut”
Pliki
“Przypnij Spotify do paska menu”
System
“Co robi to polecenie?”
Terminal
“Zamień to w tabelę”
Liczby
Codzienny przepływ
“Posortuj skrzynkę odbiorczą”
Poczta
“Otwórz to w Cursor”
Kod
“Przesuń standup”
Kalendarz
“Otaguj te zdjęcia po twarzy”
Zdjęcia
“Wycisz Slacka na godzinę”
Skupienie
“Co się zmieniło w tym pliku?”
Kod
“Dodaj to do przypomnień”
Zadania
“Znajdź ten PDF, który zgubiłem”
Wyszukiwanie
I wszystko inne
To kilka z tego tygodnia. Prawdziwa lista to wszystko, co potrafisz powiedzieć na głos, pokazując palcem ekran. Resztą zajmują się agenty.
06 · W liczbach
modele z frontu w jednym pasku menu
serwerów, które posiadamy, nigdy
skrót to całe UI
miejsca, by to wszystko zmieścić
od skrótu do pierwszego tokenu
plików opuszcza twojego Maca, dopóki nie poprosisz
07 · Po całym twoim Macu






08 · Lokalnie tam, gdzie to ważne
Dźwięk trafia do RAM i jest wyrzucany w chwili, w której zapytanie się kończy. Zrzuty zostają w pamięci. Rozmowy żyją w twoim folderze Application Support, nie na serwerze.
Router przycina dźwięk tylko do mówionej części, maskuje pasek menu i dock na każdym zrzucie i nigdy nie wysyła historii rozmowy, której model nie potrzebuje.
Klucze Anthropic, OpenAI i Google żyją w twoim pęku kluczy macOS. My ich nie widzimy. Możesz je wyjąć albo zmienić w każdej chwili.
⌘ . zatrzymuje zapytanie w locie. Agenty sprawdzają flagę anulowania na każdej pętli. Nie ma „chwila, kończymy sprzątać".
09 · Krótka lista lektur
Pojęcie wiedzy praktycznej u Scotta. Stochastyczne, intuicyjne, lokalne. Rozumowanie pasujące, gdy niepewność jest wysoka, a poprawna odpowiedź zależy od pokoju. Agenty go potrzebują.
Ważna wiedza żyje w szczegółowych okolicznościach czasu i miejsca. Ekran przed tobą teraz to właśnie ta wiedza. Katchy ją czyta.
Sutton. Systemy zbudowane ręcznie są wyprzedzane przez ogólną zdolność + skalę. Dlatego trzymamy powierzchnię nudną i dobrze nazwaną, a ciężką robotę zostawiamy modelom z frontu.
Ong o uczestniczącej naturze komunikacji ustnej. Głos jest bliżej naturalnej współpracy niż pisanie w okienko. Push-to-talk to nie sztuczka, to właściwy interfejs.
Przypisy
Wąskie gardło
Dzisiejsze modele z frontu są optymalizowane pod „autonomiczne, długotrwałe" użycie. Niedawna karta modelu przyznaje, że „przy interaktywnym, synchronicznym użyciu, z dłońmi na klawiaturze, korzyści modelu były mniej jasne". Większość prawdziwej pracy jest interaktywna. Katchy jest zbudowane wprost pod ten przypadek.
Pasmo
Czat to jedna nitka: dopóki nie skończysz pisać, model nic nie odbiera; dopóki on nie skończy, ty nic nie odbierasz. Thinking Machines nazywa to wąskim kanałem dla współpracy człowieka i AI. Głos plus świeży zrzut to dużo szerszy kanał.
Model interakcji + model tła
Ich proponowana architektura ma dwie połowy. Model interakcji, który zostaje obecny i synchroniczny. Model tła, który bierze pracę o dłuższym horyzoncie w asynchronie. Katchy mapuje się czysto: pasek menu to model interakcji, pętla agenta to model tła, dzielą kontekst.
Ostatnia rzecz
Trzy minuty na pobranie. Jedna kombinacja klawiszy do zapamiętania. Zero euro, każdego dnia od teraz do cieplnej śmierci wszechświata.