İçeriğe atla
katchyfor mac
Saha rehberiCilt 01 · 2026

Katchy nasıl çalışır.

Bir kısayol. Dört küçük aşama. Üç sınır model. Yüksek sesle tarif edebildiğin neredeyse her şeyi sessizce halleden samimi, ücretsiz, native macOS uygulamasının ardındaki etkileşim modeli üzerine kısa bir deneme.

Önce yerel · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon ve Intel

Başlamadan önce bir not

Geniş okuyucu kitlesine özürlerimizle: bu projede daha bir haftalıkız, bu yüzden bir-iki bug'a denk gelebilirsin. Hızlı yamalıyoruz ve uğradığın için çok, çok minnettarız. :D

Arayüzün şekli, neyin mümkün olduğunu belirler. Sohbet bizi düşündürdü. Araç kullanımı bize inşa ettirdi. Ajanlar sonunda modelin de senin gördüğün ekrana dokunmasına izin verdi. Eğlenceli olan her şey o üçüncü çağda yaşıyor ve Katchy, ona açabildiğimiz en küçük, en sakin ve en Macintosh-şekilli pencere.

Sayfanın geri kalanı kaputun altındaki rehberdir. Bir tuşa basmanla cevabın kulağına gelmesi arasında ne olduğu. Sorduğuna göre neden farklı bir sınır modele yönlendirdiğimiz. Mac'inden hiç çıkmayan ne. Kısa tutmaya çalıştık.

01b · Tez

İşbirliğin gerçekten
neye ihtiyacı var.

Özellik 01

Birlikte bulunma

Aynı nesneyi paylaşıyoruz. Katchy aynı pencereye, aynı paragrafa, aynı Figma karesine bakıyor. Bir tariften tahmin etmiyor, okuduğun aynı pikselleri okuyor.

Katchy'de
ScreenCaptureKit tek kare, aktif ekrana sınırlı.

Özellik 02

Çağdaşlık

İş yaparken geri bildirim, sonra değil. Katchy konuşmayı bitirdiğin anda yanıt verir, soru hâlâ sıcakken, gönder düğmesi yok, spinner yok, e-posta zinciri yok.

Katchy'de
Kısayoldan ilk token'a, yaklaşık 80 milisaniye.

Özellik 03

Eş zamanlılık

İkimiz de aynı anda işler yapabiliriz. Sen yazmaya devam ederken ajan 47 ekran görüntüsünü yeniden adlandırır. Katchy akıl yürütmeye devam ederken sen kaydırırsın. Kimse sırasını beklemek zorunda değil.

Katchy'de
Ana iş parçacığı dışında ajan döngüsü, ⌘ . ile her an iptal edilebilir.

Neler okuduk

Thinking Machines'in etkileşim modelleri üzerine yazdığı denemeden neredeyse aynen alınmış üç özellik. Onlara göre gerçek işbirliği, insanlarla, kodla, ne olursa olsun, üçünün aynı anda olmasını gerektirir. Bugünün AI sistemlerinin çoğu otonom çalışacak şekilde ayarlanmış ve bunları tamamen kaçırıyor. Katchy doğrudan etkileşimli durum için kurulmuş.

01 · Etkileşim problemi

Bilgisayarla konuşmanın
üç
çağı.

1.0Sohbet

Sen yazarsın, model yazıyla cevap verir. Kopyalarsın, yapıştırırsın, sekmeler arasında zıplarsın. Güçlü ama model sadece ona söylediklerini bilir ve gördüğün şeye asla dokunamaz.

Sadece düşünce. El yok. Göz yok.

2.0Araç kullanımı

Modeller API çağırmaya başladı. Bu dosyayı oku. Bu veritabanında ara. Bu e-postayı gönder. Harika ama her aracı kodda kendin bağlaman gerekiyordu.

Gerçek güç ama tesisatçı sensin.

3.0Ajanlar

Model ekranını izler, aklında bir plan tutar, harekete geçer, kendi işini kontrol eder ve sana gerçekten ihtiyacı olduğunda sorar. Burada Katchy yaşıyor.

Katchy'nin yaşadığı yer.

Ara · bant genişliği problemi

“Anlaşmazlıkları yüz yüze değil,
e-posta ile çözmek gibi.”

- Thinking Machines, işbirliğinin darboğazı üzerine

Sohbet tek iplik: sen yazmayı bitirene kadar model hiçbir şey algılamaz; o yazmayı bitirene kadar sen hiçbir şey algılamazsın. Kanal dar. Ses artı taze bir ekran görüntüsü çok daha geniş bir kanal, Katchy bu yüzden yazmak yerine konuşuyor.

02 · Tek bir isteğin anatomisi

Şu seksen
milisaniyede
neler oluyor.

Her istek aynı dört aşamalı pipeline'dan geçer. Bir aşamaya tıkla ya da sadece izle, diyagram birkaç saniyede bir kendiliğinden döner ve sen devraldığın an durur.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Mimari

Etkileşim modeli
önde. Arka plan
modeli arkada.

Ön · senkron

Etkileşim
modeli.

Sen konuşurken yanında kalır. Sohbeti kısa süreli bellekte tutar. Düşünüyor musun, sözü veriyor musun, sözünü mü kesiyorsun fark eder. Yaklaşık bir göz kırpma kadar sürede yanıtlar.

  • Push-to-talk ses + tek bir ekran görüntüsü.
  • Akan token'lar, asla “lütfen bekleyin” yok.
  • Uçuş halindeyken ⌘ . ile iptal edilebilir.

Arka · asenkron

Arka plan
modeli.

Yavaş, sürekli işi üstlenir. Araçlarla çok adımlı bir ajan döngüsü: dosya sistemi, AppleScript, Shortcuts, tarayıcı. Planlar, hareket eder, kendi çıktısını okur, yeniden dener. Bittiğinde haber verir.

  • Ana iş parçacığının dışında çalışır, UI'yi asla kilitlemez.
  • Sohbet bağlamını önle paylaşır.
  • Nihai sonuç sessiz bir menü çubuğu bildirimi olarak iner.

Bu, Thinking Machines'in önerdiği iki parçalı mimarinin minyatür hali. Etkileşim modeli sana küçük bir modelin tepki süresini verir. Arka plan modeli sana büyük bir modelin planlama ve araç kullanımını. Bağlamı paylaşırlar. Dikişleri asla görmezsin.

03 · Stack, katman katman

Küçük, sıkıcı,
son derece iyi isimlendirilmiş
dört Apple framework'ü.

01 · Dinler

Basılı tut ve konuş

Control ve Option'a basılı tut. macOS sesi yerel olarak CoreAudio üzerinden yakalar. Dalga formu mümkünse cihazda yazıya dönüştürülür, sonra kırpılır ve yalnızca bir sınır model gerekirse gönderilir.

02 · Görür

Ekranının anlık görüntüsü

Soruya bağlam gerektiğinde, ScreenCaptureKit tek, hedeflenmiş bir kare alır. Katchy asla video yayınlamaz, asla sürekli kayıt yapmaz, yanıttan sonra ekran görüntülerini asla saklamaz.

03 · Düşünür

İş için doğru beyin

Katchy isteği, en iyi şekilde halledecek sınır modele yönlendirir. Uzun PDF'ler Claude'a. Görsel ağırlıklı görevler Gemini'ye. Kod ve hızlı düzenlemeler GPT'ye. Yönlendirici seçer, sen sakin kalırsın.

04 · Hareket eder

İmleç + ajanlar, menü çubuğunda

Tek tık yeterli olduğunda dostça bir üçgen cevabı işaret eder. On tık gerektiğinde çok adımlı bir ajan arka planda çalışır. İkisi de aynı belleği paylaşır, ikisi de seninle birlikte kapanır.

04 · Yönlendiricinin kararı

Bir cümle girer,
doğru beyin
üstlenir.

Küçük bir sınıflandırıcı transkripsiyonunu ve sayfanın token'larını okur ve her isteği en uygun modele gönderir. Birkaçını kendin dene, yönlendirici işini gösterir.

Bir soru dene

Yönlendirici kararı

Az önce açtığım bu 60 sayfalık PDF'i özetle

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Neden bu: Uzun bağlam, yapılandırılmış bir belge üzerinde dikkatli akıl yürütme.

05 · Üç beyin, tek menü çubuğu

Farklı sorular
farklı modelleri
hak eder.

OpenAI

GPT

Hızlı düzenlemeler, kod incelemesi ve cevabı bir buçuk cümleye dönmesini istediğin yapılandırılmış yeniden yazma türü için buraya gelir.

  • Sıkı yeniden yazımlar
  • Kod incelemesi
  • Hızlı düzenlemeler

Anthropic

Claude

Uzun belgeler, dikkatli akıl yürütme ve emin ama yanlış bir cevap istemediğin her şey için buraya gelir.

  • Uzun bağlam
  • Dikkatli akıl yürütme
  • Nüanslı yazı

Google

Gemini

Ekran yoğun anlar, grafikler, slaytlar ve görselin sorunun yarısı olduğu durumlar için buraya gelir.

  • Görüş
  • Grafikler ve slaytlar
  • Hızlı dönüş

06 · Yetenekler

Sadece söyleyebileceğin şeyler için kısa bir menü.

Okuma ve yazma

  • O 60 sayfalık PDF'i özetle

    Okuma

  • Kibar bir hayır taslağı oluştur

    Yazma

  • Hızlı bir changelog yaz

    Yazma

  • İspanyolca'ya çevir

    Yazma

  • Dünkü taslağa devam et

    Yazma

  • Haftalık özet oluştur

    Yazma

Dosyalar ve sistem

  • 47 ekran görüntüsünü yeniden adlandır

    Dosyalar

  • Masaüstünü temizle

    Dosyalar

  • Bu CSV'den verileri çek

    Sayılar

  • Bunları PNG'ye dönüştür

    Dosyalar

  • Son ekran görüntüsünü aç

    Dosyalar

  • Spotify'ı menü çubuğuna sabitle

    Sistem

  • Bu komut ne yapar?

    Terminal

  • Bunu tabloya dönüştür

    Sayılar

Günlük akış

  • Gelen kutunu ayır

    Posta

  • Bunu Cursor'da aç

    Kod

  • Standup'ı yeniden planla

    Takvim

  • Bu fotoğrafları yüze göre etiketle

    Fotoğraflar

  • Slack'i bir saatliğine sustur

    Odak

  • Bu dosyada ne değişti?

    Kod

  • Bunu Hatırlatıcılar'a ekle

    Görevler

  • Kaybettiğim o PDF'i bul

    Arama

Ve diğer her şey

Bunlar bu haftadan birkaçı. Asıl liste, ekrana işaret ederken yüksek sesle söyleyebildiğin her şey. Gerisini ajanlar yapar.

06 · Rakamlarla

Sakin bir agentic
uygulama nelerle
boy ölçüşür.

3

tek menü çubuğunda sınır modeli

0

sahip olduğumuz sunucu, hiçbir zaman

1

kısayol tüm UI'dır

~ 80 MB

her şeyi barındırmak için disk alanı

80 ms

kısayoldan ilk token'a

0

sen istemediğin sürece Mac'ten çıkan dosya

07 · Mac'inin her köşesinde

Aynı döngü. Her uygulama.
Her iş akışı.

08 · Önemli olduğu yerde yerel

Ekranın
Mac'inden istenmeden
ayrılmaz.

  1. 01

    Varsayılan olarak yerel.

    Ses RAM'e alınır ve istek biter bitmez atılır. Ekran görüntüleri bellekte kalır. Konuşmalar bir sunucuda değil, Application Support klasöründe yaşar.

  2. 02

    Mümkün olan en küçük yük.

    Yönlendirici sesi yalnızca konuşulan kısma kadar keser, menü çubuğunu ve dock'u her ekran görüntüsünden maskeler ve modelin ihtiyacı olmayan sohbet geçmişini asla göndermez.

  3. 03

    Kendi anahtarlarını getir.

    Anthropic, OpenAI ve Google anahtarları macOS Keychain'inde yaşar. Biz onları asla görmeyiz. Dilediğin zaman çıkarabilir veya değiştirebilirsin.

  4. 04

    Her adımda iptal edilebilir.

    ⌘ . isteği uçuş halinde durdurur. Ajanlar her döngüde iptal bayrağını kontrol eder. Hiçbir “lütfen toparlanırken bekleyin” yoktur.

09 · Kısa bir okuma listesi

Dört çift
omzun
üzerindeyiz.

  1. 01

    Metis

    Scott'ın pratik bilgi kavramı. Stokastik, sezgisel, yerel. Belirsizliğin yüksek ve doğru cevabın odaya bağlı olduğu durumlarda uygun akıl yürütme. Ajanların buna ihtiyacı var.

  2. 02

    Hayek'in bilgi sorunu

    Önemli bilgi belirli zaman ve yer koşullarında yaşar. Önündeki ekran şu anda tam olarak o bilgidir. Katchy onu okur.

  3. 03

    Acı ders

    Sutton. Elle yapılmış sistemler genel kapasite + ölçek tarafından geçilir. Bu yüzden yüzeyi sıkıcı ve iyi adlandırılmış tutarız, zor kısmı sınır modellerine bırakırız.

  4. 04

    Sözlülük

    Ong sözlü iletişimin katılımcı doğası üzerine. Ses, kutuya yazmaktan daha çok doğal işbirliğine yakındır. Push-to-talk bir hile değil, doğru arayüzdür.

Dipnotlar

  • Darboğaz

    Bugünün sınır modelleri „otonom, uzun süreli" kullanım için optimize edilmiş. Yakın tarihli bir model kartı, „etkileşimli, eş zamanlı, eller klavyede modunda kullanıldığında modelin faydalarının daha az açık olduğunu" kabul ediyor. Gerçek işin çoğu etkileşimli. Katchy tam bu durum için inşa edildi.

  • Bant genişliği

    Sohbet tek bir iplik: sen yazmayı bitirene kadar model hiçbir şey algılamaz; o üretmeyi bitirene kadar sen hiçbir şey algılamazsın. Thinking Machines buna insan-AI işbirliği için dar bir kanal diyor. Ses + taze bir ekran görüntüsü çok daha geniş bir kanal.

  • Etkileşim modeli + arka plan modeli

    Önerdikleri mimarinin iki yarısı var. Mevcut ve eş zamanlı kalan bir etkileşim modeli. Daha uzun ufuklu işi eş zamansız üstlenen bir arka plan modeli. Katchy temiz şekilde haritalar: menü çubuğu etkileşim modelidir, ajan döngüsü arka plan modelidir ve bağlamı paylaşırlar.

Son bir şey

Bir kısayol.
Bütün arayüz.

İndirmesi üç dakika. Hatırlanacak tek bir tuş kombinasyonu. Sıfır euro, şu andan evrenin ısıl ölümüne kadar her gün.

Katchy'yi indirAna sayfaya dön

macOS 14.2+ · Apple Silicon ve Intel · ~860 MB