Перейти до вмісту
katchyfor mac
Польовий довідникВипуск 01 · 2026

Як працює Katchy.

Одна гаряча клавіша. Чотири маленькі етапи. Три передові моделі. Короткий есей про інтеракційну модель, що стоїть за дружнім, безкоштовним, нативним macOS-застосунком, який тихо робить майже все, що ти можеш описати вголос.

Спочатку локально · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon і Intel

Нотатка перед початком

Перепрошуємо широку аудиторію: проєкту лише тиждень, тож можеш натрапити на один-два баги. Латаємо швидко й дуже-дуже вдячні, що ти заглянув. :D

Форма інтерфейсу вирішує, що взагалі можливе. Чат змусив нас думати. Використання інструментів змусило будувати. Агенти нарешті дозволили моделі торкатися того ж екрану, що й ти. Усе цікаве живе в цій третій ері, і Katchy, це найменше, найтихіше, найбільш Macintosh-подібне вікно в неї, яке нам вдалося зробити.

Решта сторінки, це гайд під капотом. Що відбувається між твоїм натисканням клавіші та відповіддю в твоєму вусі. Чому ми маршрутизуємо до різних передових моделей залежно від запитання. Що ніколи не покидає твій Mac. Намагалися коротко.

01b · Теза

Що насправді
потрібно співпраці.

Властивість 01

Співприсутність

Ми ділимо той самий обʼєкт. Katchy дивиться на те саме вікно, той самий абзац, той самий кадр Figma, що й ти. Він не вгадує з опису, він читає ті ж пікселі, що й ти.

У Katchy
ScreenCaptureKit одним кадром, обмежено активним дисплеєм.

Властивість 02

Сучасність

Зворотний зв'язок під час роботи, а не після. Katchy відповідає в момент, коли ти припиняєш говорити, поки питання ще тепле, без кнопки надіслати, без спінера, без листового ланцюжка.

У Katchy
Від клавіші до першого токена, приблизно 80 мілісекунд.

Властивість 03

Одночасність

Ми обидва можемо робити речі одночасно. Ти продовжуєш писати, поки агент перейменовує 47 скриншотів. Katchy продовжує думати, поки ти гортаєш. Нікому не треба чекати на свою чергу.

У Katchy
Цикл агента поза головним потоком, скасовується ⌘ . у будь-який момент.

Що ми читали

Три властивості, майже дослівно взяті з есею Thinking Machines про моделі взаємодії. Вони стверджують, що справжня співпраця, з людьми, з кодом, з будь-чим, потребує всіх трьох одночасно. Більшість сьогоднішніх AI-систем налаштовані на автономну роботу і повністю їх упускають. Katchy збудовано саме під інтерактивний випадок.

01 · Проблема взаємодії

Три ери
розмови з
комп’ютером.

1.0Чат

Ти пишеш, модель відповідає. Копіюєш, вставляєш, стрибаєш між вкладками. Потужно, але модель знає лише те, що ти скажеш, і ніколи не може торкнутися того, що ти бачиш.

Сама думка. Без рук. Без очей.

2.0Користування інструментами

Моделі почали кликати API. Прочитай цей файл. Знайди в цій базі. Надішли цей лист. Чудово, але ти все ще мав сам сплести кожен інструмент у коді.

Справжня сила, але водопровід, ти.

3.0Агенти

Модель дивиться на твій екран, тримає план у голові, діє, перевіряє власну роботу і питає тебе лише тоді, коли справді треба. Тут живе Katchy.

Де живе Katchy.

Інтерлюдія · проблема пропускної здатності

«Наче розв’язувати
суперечки електронкою, а не віч-на-віч.»

- Thinking Machines, про вузьке місце співпраці

Чат, це одна нитка: поки ти не закінчив писати, модель не сприймає нічого; поки вона не закінчила писати, нічого не сприймаєш ти. Канал вузький. Голос плюс свіжий скриншот, це набагато ширший канал, і саме тому Katchy говорить, а не друкує.

02 · Анатомія одного запиту

Що відбувається
за ці вісімдесят
мілісекунд.

Кожен запит проходить через той самий чотириетапний пайплайн. Натисни на етап або просто дивись, діаграма сама прокручується кожні кілька секунд і зупиняється тієї миті, коли береш керування.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Архітектура

Модель взаємодії
попереду. Фонова
модель ззаду.

Фронт · синхронно

Модель
взаємодії.

Лишається поруч, поки ти говориш. Тримає розмову в короткочасній пам’яті. Помічає, чи ти думаєш, передаєш слово, чи перебиваєш. Відповідає приблизно за змах вій.

  • Push-to-talk аудіо + один скриншот.
  • Потік токенів, ніяких «зачекайте, будь ласка».
  • Скасовується на льоту через ⌘ .

Бек · асинхронно

Фонова
модель.

Бере на себе повільну, тривалу роботу. Багатоетапний цикл агента з інструментами: файлова система, AppleScript, Shortcuts, браузер. Планує, діє, перечитує власний вивід, пробує знову. Доповідає, коли готово.

  • Працює поза головним потоком, ніколи не блокує UI.
  • Ділиться контекстом розмови з фронтом.
  • Кінцевий результат приходить як тихе сповіщення у рядку меню.

Це та сама двочастинна архітектура, яку пропонує Thinking Machines, у мініатюрі. Модель взаємодії дає тобі швидкість маленької моделі. Фонова модель, планування й інструменти великої. Вони ділять контекст. Швів ти не бачиш.

03 · Стек, шар за шаром

Чотири маленькі, нудні,
чудово названі
фреймворки Apple.

01 · Слухає

Тримай і говори

Затисни Control і Option. macOS локально захоплює звук через CoreAudio. Хвиля по можливості транскрибується на пристрої, потім обрізається і надсилається лише тоді, коли потрібен передовий модель.

02 · Бачить

Знімок твого екрана

Коли питання потребує контексту, ScreenCaptureKit бере один цільовий кадр. Katchy ніколи не стрімить відео, ніколи не записує безперервно, ніколи не зберігає скриншоти після відповіді.

03 · Думає

Правильний мозок для роботи

Katchy спрямовує запит до того передового моделі, яка це впорається найкраще. Довгі PDF, Claude. Візуальні задачі, Gemini. Код та швидкі правки, GPT. Маршрутизатор обирає, ти стоїш нерухомо.

04 · Діє

Курсор + агенти, у твоєму рядку меню

Привітний трикутник вказує на відповідь, коли вистачить одного кліку. Багатокроковий агент працює у фоні, коли потрібно десять. Обидва діляться пам’яттю, обидва вимикаються разом із тобою.

04 · Рішення маршрутизатора

Заходить речення,
правильний мозок
береться за нього.

Маленький класифікатор читає твою транскрипцію й токени сторінки, і відправляє кожен запит туди, де він найкраще пасує. Спробуй кілька, маршрутизатор показує свою роботу.

Поставте запитання

Рішення маршрутизатора

Підсумуй цей 60-сторінковий PDF, який я щойно відкрив

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Чому саме цей: Довгий контекст, уважні міркування над структурованим документом.

05 · Три мізки, один рядок меню

Різні питання
заслуговують різних
моделей.

OpenAI

GPT

Іде сюди для швидких правок, рев'ю коду й того виду структурованого переписування, де ти хочеш відповідь у півтора речення.

  • Стислі переписування
  • Рев'ю коду
  • Швидкі правки

Anthropic

Claude

Іде сюди для довгих документів, обережного міркування й усього, де радше не хочеться впевнено помилкової відповіді.

  • Довгий контекст
  • Обережне міркування
  • Нюансоване письмо

Google

Gemini

Іде сюди для екранно насичених моментів, діаграм, слайдів і випадків, де візуальне, половина питання.

  • Зір
  • Діаграми та слайди
  • Швидка віддача

06 · Можливості

Коротке меню речей, які можна просто сказати.

Читання й письмо

  • Скороти той PDF на 60 сторінок

    Читання

  • Склади чемне «ні»

    Письмо

  • Напиши швидкий changelog

    Письмо

  • Переклади іспанською

    Письмо

  • Продовжи вчорашній чернетник

    Письмо

  • Зроби тижневе резюме

    Письмо

Файли та система

  • Перейменуй 47 скриншотів

    Файли

  • Прибери робочий стіл

    Файли

  • Витягни дані з цього CSV

    Числа

  • Конвертуй ці у PNG

    Файли

  • Відкрий останній скриншот

    Файли

  • Прикріпи Spotify до рядка меню

    Система

  • Що робить ця команда?

    Термінал

  • Переведи це у таблицю

    Числа

Щоденний потік

  • Відсортуй вхідні

    Пошта

  • Відкрий це у Cursor

    Код

  • Перенеси стендап

    Календар

  • Поміть ці фото за обличчям

    Фото

  • Замовкни Slack на годину

    Фокус

  • Що змінилося в цьому файлі?

    Код

  • Додай це до нагадувань

    Завдання

  • Знайди той PDF, що я загубив

    Пошук

І все інше

Це лише декілька з цього тижня. Справжній список, це все, що ти можеш сказати вголос, показуючи на екран. Решту роблять агенти.

06 · У цифрах

З чим міряється
спокійний агентний
застосунок.

3

передові моделі в одному рядку меню

0

серверів, що належать нам, ніколи

1

клавіша, увесь інтерфейс

~ 80 МБ

диска, аби все це розмістити

80 мс

від відпуску клавіші до першого токена

0

файлів покидають твій Mac, поки ти не попросиш

07 · По всьому твоєму Mac

Той самий цикл. Кожен застосунок.
Кожен робочий процес.

08 · Локально там, де важливо

Твій екран
не покидає Mac
без твого дозволу.

  1. 01

    Локально за замовчуванням.

    Аудіо потрапляє в RAM і скидається тієї миті, як запит завершено. Скриншоти лишаються у пам’яті. Розмови живуть у твоїй теці Application Support, не на сервері.

  2. 02

    Найменший можливий пейлоад.

    Маршрутизатор обрізає аудіо до самого мовлення, маскує рядок меню й док із будь-якого скриншота і ніколи не надсилає історію розмови, яка моделі не потрібна.

  3. 03

    Принось свої ключі.

    Ключі Anthropic, OpenAI і Google живуть у твоєму macOS Keychain. Ми їх не бачимо. Можеш вийняти або змінити будь-коли.

  4. 04

    Скасовується на кожному кроці.

    ⌘ . зупиняє запит на льоту. Агенти перевіряють прапор скасування на кожному циклі. Жодного «зачекайте, поки приберемо».

09 · Короткий список читання

Стоїмо на
чотирьох парах
плечей.

  1. 01

    Метіс

    Поняття практичного знання у Скотта. Стохастичне, інтуїтивне, локальне. Міркування, що пасує, коли невизначеність висока, а правильна відповідь залежить від кімнати. Агенти його потребують.

  2. 02

    Проблема знання Гаєка

    Важливе знання живе в конкретних обставинах часу й місця. Екран перед тобою зараз, і є саме це знання. Katchy його читає.

  3. 03

    Гірка лекція

    Sutton. Системи, зібрані вручну, поступаються загальній здатності + масштабу. Тому ми тримаємо поверхню нудною і добре названою, а важку частину залишаємо передовим моделям.

  4. 04

    Усність

    Онг про учасницьку природу усної комунікації. Голос ближче до природньої співпраці, ніж писання у віконце. Push-to-talk не трюк, це правильний інтерфейс.

Виноски

  • Вузьке місце

    Сьогоднішні передові моделі оптимізовані під «автономне, довготривале» використання. Нещодавня модель-картка визнає, що «при інтерактивному, синхронному використанні з руками на клавіатурі переваги моделі були менш очевидними». Більшість справжньої роботи інтерактивна. Katchy збудовано саме під цей випадок.

  • Пропускна здатність

    Чат, це одна нитка: доки ти не закінчиш писати, модель нічого не сприймає; доки вона не закінчить генерувати, нічого не сприймаєш ти. Thinking Machines називає це вузьким каналом для співпраці людини й ШІ. Голос плюс свіжий скриншот, набагато ширший канал.

  • Модель взаємодії + фонова модель

    Їхня запропонована архітектура має дві половини. Модель взаємодії, яка лишається поруч і синхронною. Фонова модель, яка асинхронно бере роботу на довшому горизонті. Katchy лягає чисто: рядок меню, модель взаємодії, цикл агента, фонова модель, і вони ділять контекст.

І останнє

Одна гаряча клавіша.
Увесь інтерфейс.

Три хвилини на завантаження. Один акорд запам’ятати. Нуль євро, щодня, від зараз до теплової смерті Всесвіту.

Завантажити KatchyНазад на головну

macOS 14.2+ · Apple Silicon і Intel · ~860 МБ