Перейти к содержимому
katchyfor mac
Полевой справочникТом 01 · 2026

Как устроен Katchy.

Одна горячая клавиша. Четыре маленьких этапа. Три передовые модели. Короткое эссе об интерактивной модели за дружелюбным, бесплатным, нативным macOS-приложением, которое тихо делает почти всё, что ты можешь описать вслух.

Локально в первую очередь · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon и Intel

Заметка перед началом

С извинениями широкой публике: проекту всего неделя, поэтому ты можешь наткнуться на один-два бага. Чиним быстро и очень, очень благодарны, что ты заглянул. :D

Форма интерфейса решает, что вообще возможно. Чат заставил нас думать. Использование инструментов заставило строить. Агенты наконец дали модели трогать тот же экран, что и ты. Всё интересное живёт в этой третьей эре, а Katchy, самое маленькое, самое тихое, самое Macintosh-образное окно в неё, какое мы смогли сделать.

Остальная страница, это путеводитель под капотом. Что происходит между нажатием клавиши и ответом в ухе. Почему мы маршрутизируем в разные передовые модели в зависимости от вопроса. Что никогда не покидает твой Mac. Старались покороче.

01b · Тезис

Что на самом деле
нужно сотрудничеству.

Свойство 01

Соприсутствие

Мы делим один объект. Katchy смотрит на то же окно, тот же абзац, тот же кадр Figma, что и ты. Он не угадывает по описанию, он читает те же пиксели, что и ты.

В Katchy
ScreenCaptureKit, один кадр, ограничен активным дисплеем.

Свойство 02

Современность

Обратная связь во время работы, а не после. Katchy отвечает в момент, когда ты перестаёшь говорить, пока вопрос ещё тёплый, без кнопки отправки, без спиннера, без цепочки писем.

В Katchy
От клавиши до первого токена, около 80 миллисекунд.

Свойство 03

Одновременность

Мы оба можем делать дела одновременно. Ты продолжаешь печатать, пока агент переименовывает 47 скриншотов. Katchy продолжает рассуждать, пока ты скроллишь. Никому не нужно ждать.

В Katchy
Цикл агента вне главного потока, отменяется ⌘ . в любой момент.

Что мы читали

Три свойства, почти дословно взятые из эссе Thinking Machines о моделях взаимодействия. Они утверждают, что настоящее сотрудничество, с людьми, с кодом, с чем угодно, требует всех трёх одновременно. Большинство сегодняшних AI-систем настроены на автономную работу и полностью их упускают. Katchy строился именно под интерактивный случай.

01 · Проблема взаимодействия

Три эпохи
разговора с
компьютером.

1.0Чат

Ты пишешь, модель отвечает. Копируешь, вставляешь, прыгаешь между вкладками. Мощно, но модель знает только то, что ты ей сказал, и никогда не может тронуть то, что ты видишь.

Только мысли. Без рук. Без глаз.

2.0Использование инструментов

Модели стали вызывать API. Прочитай этот файл. Поищи в этой базе. Отправь это письмо. Замечательно, но всё ещё ты сам соединяешь каждый инструмент в коде.

Настоящая сила, но трубопровод, ты.

3.0Агенты

Модель смотрит на твой экран, держит план в уме, действует, проверяет собственный результат и спрашивает тебя только тогда, когда действительно нужно. Здесь живёт Katchy.

Где живёт Katchy.

Интерлюдия · проблема пропускной способности

«Как решать разногласия
по почте вместо разговора лицом к лицу.»

- Thinking Machines, о бутылочном горлышке сотрудничества

Чат, это одна нить: пока ты не закончил печатать, модель ничего не воспринимает; пока она не дописала, ничего не воспринимаешь ты. Канал узкий. Голос плюс свежий скриншот, гораздо более широкий канал, и поэтому Katchy говорит, а не печатает.

02 · Анатомия одного запроса

Что происходит
в эти восемьдесят
миллисекунд.

Каждый запрос проходит через один и тот же четырёхэтапный пайплайн. Кликни на этап или просто смотри, диаграмма сама прокручивается раз в несколько секунд и останавливается в момент, когда ты берёшь управление.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Архитектура

Модель взаимодействия
впереди. Фоновая
модель сзади.

Фронт · синхронно

Модель
взаимодействия.

Остаётся рядом, пока ты говоришь. Держит беседу в краткосрочной памяти. Отслеживает, думаешь ли ты, уступаешь ли слово или перебиваешь. Отвечает примерно за моргание глаза.

  • Push-to-talk аудио + один скриншот.
  • Поток токенов, никогда «подождите».
  • Можно отменить на лету через ⌘ .

Бэк · асинхронно

Фоновая
модель.

Берёт на себя медленную, длительную работу. Многошаговый цикл агента с инструментами: файловая система, AppleScript, Shortcuts, браузер. Планирует, действует, перечитывает свой же вывод, пробует снова. Сообщает, когда готово.

  • Работает вне главного потока, не блокирует UI.
  • Делит контекст разговора с фронтом.
  • Финальный результат приходит тихим уведомлением в строке меню.

Это та самая двусоставная архитектура, которую предлагает Thinking Machines, в миниатюре. Модель взаимодействия даёт тебе отзывчивость маленькой модели. Фоновая модель даёт тебе планирование и инструменты большой. Они делят контекст. Швов ты не видишь.

03 · Стек, слой за слоем

Четыре маленьких,
скучных, прекрасно
названных фреймворка Apple.

01 · Слушает

Зажми и говори

Зажми Control и Option. macOS захватывает звук локально через CoreAudio. Волна, по возможности, расшифровывается на устройстве, затем обрезается и отправляется только если нужен передовой модель.

02 · Видит

Снимок твоего экрана

Когда вопросу нужен контекст, ScreenCaptureKit берёт один точечный кадр. Katchy никогда не стримит видео, никогда не пишет непрерывно, никогда не хранит скриншоты после ответа.

03 · Думает

Правильный мозг для задачи

Katchy маршрутизирует запрос той передовой модели, которая справится лучше всех. Длинные PDF, Claude. Визуальные задачи, Gemini. Код и быстрые правки, GPT. Маршрутизатор выбирает, ты сидишь смирно.

04 · Действует

Курсор + агенты, в строке меню

Дружелюбный треугольник указывает на ответ, когда хватит одного клика. Многошаговый агент работает в фоне, когда нужно десять. Они делят память, оба выключаются вместе с тобой.

04 · Решение роутера

Заходит одно
предложение,
берётся нужный мозг.

Маленький классификатор читает твою расшифровку и токены страницы и отправляет каждый запрос той модели, что подходит лучше. Попробуй сам, роутер показывает свою работу.

Задайте вопрос

Решение маршрутизатора

Подытожь этот 60-страничный PDF, который я только что открыл

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Почему именно этот: Длинный контекст, внимательные рассуждения над структурированным документом.

05 · Три мозга, одна строка меню

Разные вопросы
заслуживают разных
моделей.

OpenAI

GPT

Заходит сюда ради быстрых правок, ревью кода и того структурированного переписывания, когда хочешь ответ в полтора предложения.

  • Сжатые переписывания
  • Ревью кода
  • Быстрые правки

Anthropic

Claude

Заходит сюда ради длинных документов, осторожного рассуждения и всего, где лучше не получить уверенно-ошибочный ответ.

  • Длинный контекст
  • Осторожное рассуждение
  • Тонкое письмо

Google

Gemini

Заходит сюда ради экранно-насыщенных моментов, графиков, слайдов и случаев, где визуал, половина вопроса.

  • Зрение
  • Графики и слайды
  • Быстрая отдача

06 · Возможности

Короткое меню того, что можно просто сказать.

Чтение и письмо

  • Сформулируй вкратце тот PDF на 60 страниц

    Чтение

  • Сочини вежливое «нет»

    Письмо

  • Напиши быстрый changelog

    Письмо

  • Переведи на испанский

    Письмо

  • Продолжи вчерашний черновик

    Письмо

  • Сделай недельную сводку

    Письмо

Файлы и система

  • Переименуй 47 скриншотов

    Файлы

  • Убери рабочий стол

    Файлы

  • Вытащи данные из этого CSV

    Числа

  • Конвертни эти в PNG

    Файлы

  • Открой последний скриншот

    Файлы

  • Закрепи Spotify в строке меню

    Система

  • Что делает эта команда?

    Терминал

  • Преврати это в таблицу

    Числа

Ежедневный поток

  • Разбери входящие

    Почта

  • Открой это в Cursor

    Код

  • Перенеси стендап

    Календарь

  • Распознай и пометь лица на этих фото

    Фото

  • Замолчи Slack на час

    Фокус

  • Что изменилось в этом файле?

    Код

  • Добавь это в напоминания

    Задачи

  • Найди тот PDF, что я потерял

    Поиск

И всё остальное

Это лишь несколько примеров за неделю. Настоящий список, это всё, что можно сказать вслух, тыча пальцем в экран. Остальное делают агенты.

06 · В цифрах

С чем сравнить
спокойное
агентное приложение.

3

передовые модели в одной строке меню

0

серверов, которыми мы владеем, никогда

1

горячая клавиша, это весь UI

~ 80 МБ

места на диске, чтобы всё это хранить

80 мс

от клавиши до первого токена

0

файлов покинут твой Mac, пока ты не попросишь

07 · По всему твоему Mac

Тот же цикл. Каждое приложение.
Каждый рабочий процесс.

08 · Локально там, где важно

Твой экран не уходит
из Mac
без твоего ведома.

  1. 01

    Локально по умолчанию.

    Аудио захватывается в RAM и стирается в момент окончания запроса. Скриншоты живут в памяти. Разговоры, в твоей папке Application Support, не на сервере.

  2. 02

    Минимально возможный объём.

    Роутер обрезает аудио до сказанной части, маскирует строку меню и Dock на скриншотах и никогда не отправляет историю разговора, которая модели не нужна.

  3. 03

    Приноси свои ключи.

    Ключи Anthropic, OpenAI и Google живут в твоей связке ключей macOS. Мы их не видим. Достать или сменить можно в любой момент.

  4. 04

    Отменяемо на каждом шаге.

    ⌘ . останавливает запрос на лету. Агенты проверяют флаг отмены на каждом круге. Никакого «подождите, пока мы прибираемся».

09 · Короткий список чтения

Стоим на
четырёх парах
плеч.

  1. 01

    Метис

    Понятие практического знания у Скотта. Стохастическое, интуитивное, локальное. Рассуждение, которое уместно, когда неопределённость высока, а правильный ответ зависит от обстановки. Агентам это нужно.

  2. 02

    Проблема знания у Хайека

    Важное знание живёт в конкретных обстоятельствах времени и места. Экран перед тобой прямо сейчас, это и есть то самое знание. Katchy его читает.

  3. 03

    Горький урок

    Sutton. Системы, собранные вручную, уступают общим способностям + масштабу. Поэтому мы делаем поверхность скучной и хорошо названной, а тяжёлую работу оставляем передовым моделям.

  4. 04

    Устность

    Онг о соучастном характере устной коммуникации. Голос ближе к естественному сотрудничеству, чем печатание в коробку. Push-to-talk, это не трюк, а правильный интерфейс.

Сноски

  • Узкое место

    Современные передовые модели оптимизированы под «автономное, длительное» использование. Недавняя карточка модели признаёт, что «при интерактивном, синхронном использовании, с руками на клавиатуре, выгода модели была менее очевидной». Большая часть настоящей работы, интерактивная. Katchy построен ровно под этот случай.

  • Пропускная способность

    Чат, это одна нить: пока ты не закончил печатать, модель ничего не воспринимает; пока она не закончила генерировать, ничего не воспринимаешь ты. Thinking Machines называют это узким каналом для человеко-AI-сотрудничества. Голос плюс свежий скриншот, гораздо более широкий канал.

  • Модель взаимодействия + фоновая модель

    Их предлагаемая архитектура состоит из двух половин. Модель взаимодействия, которая остаётся рядом и работает синхронно. Фоновая модель, которая берёт более длительную работу асинхронно. Katchy ложится чисто: строка меню, модель взаимодействия, цикл агента, фоновая, и они делят контекст.

Последнее

Одна горячая клавиша.
Весь интерфейс.

Три минуты на скачивание. Один аккорд, чтобы запомнить. Ноль евро, каждый день, от сейчас до тепловой смерти Вселенной.

Скачать KatchyНа главную

macOS 14.2+ · Apple Silicon и Intel · ~860 МБ