Özellik 01
Birlikte bulunma
Aynı nesneyi paylaşıyoruz. Katchy aynı pencereye, aynı paragrafa, aynı Figma karesine bakıyor. Bir tariften tahmin etmiyor, okuduğun aynı pikselleri okuyor.
Katchy'de
ScreenCaptureKit tek kare, aktif ekrana sınırlı.
Bir kısayol. Dört küçük aşama. Üç sınır model. Yüksek sesle tarif edebildiğin neredeyse her şeyi sessizce halleden samimi, ücretsiz, native macOS uygulamasının ardındaki etkileşim modeli üzerine kısa bir deneme.
Önce yerel · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon ve Intel
Başlamadan önce bir not
Geniş okuyucu kitlesine özürlerimizle: bu projede daha bir haftalıkız, bu yüzden bir-iki bug'a denk gelebilirsin. Hızlı yamalıyoruz ve uğradığın için çok, çok minnettarız. :D
Arayüzün şekli, neyin mümkün olduğunu belirler. Sohbet bizi düşündürdü. Araç kullanımı bize inşa ettirdi. Ajanlar sonunda modelin de senin gördüğün ekrana dokunmasına izin verdi. Eğlenceli olan her şey o üçüncü çağda yaşıyor ve Katchy, ona açabildiğimiz en küçük, en sakin ve en Macintosh-şekilli pencere.
Sayfanın geri kalanı kaputun altındaki rehberdir. Bir tuşa basmanla cevabın kulağına gelmesi arasında ne olduğu. Sorduğuna göre neden farklı bir sınır modele yönlendirdiğimiz. Mac'inden hiç çıkmayan ne. Kısa tutmaya çalıştık.
01b · Tez
Özellik 01
Aynı nesneyi paylaşıyoruz. Katchy aynı pencereye, aynı paragrafa, aynı Figma karesine bakıyor. Bir tariften tahmin etmiyor, okuduğun aynı pikselleri okuyor.
Katchy'de
ScreenCaptureKit tek kare, aktif ekrana sınırlı.
Özellik 02
İş yaparken geri bildirim, sonra değil. Katchy konuşmayı bitirdiğin anda yanıt verir, soru hâlâ sıcakken, gönder düğmesi yok, spinner yok, e-posta zinciri yok.
Katchy'de
Kısayoldan ilk token'a, yaklaşık 80 milisaniye.
Özellik 03
İkimiz de aynı anda işler yapabiliriz. Sen yazmaya devam ederken ajan 47 ekran görüntüsünü yeniden adlandırır. Katchy akıl yürütmeye devam ederken sen kaydırırsın. Kimse sırasını beklemek zorunda değil.
Katchy'de
Ana iş parçacığı dışında ajan döngüsü, ⌘ . ile her an iptal edilebilir.
Neler okuduk
Thinking Machines'in etkileşim modelleri üzerine yazdığı denemeden neredeyse aynen alınmış üç özellik. Onlara göre gerçek işbirliği, insanlarla, kodla, ne olursa olsun, üçünün aynı anda olmasını gerektirir. Bugünün AI sistemlerinin çoğu otonom çalışacak şekilde ayarlanmış ve bunları tamamen kaçırıyor. Katchy doğrudan etkileşimli durum için kurulmuş.
01 · Etkileşim problemi
Sen yazarsın, model yazıyla cevap verir. Kopyalarsın, yapıştırırsın, sekmeler arasında zıplarsın. Güçlü ama model sadece ona söylediklerini bilir ve gördüğün şeye asla dokunamaz.
Sadece düşünce. El yok. Göz yok.
Modeller API çağırmaya başladı. Bu dosyayı oku. Bu veritabanında ara. Bu e-postayı gönder. Harika ama her aracı kodda kendin bağlaman gerekiyordu.
Gerçek güç ama tesisatçı sensin.
Model ekranını izler, aklında bir plan tutar, harekete geçer, kendi işini kontrol eder ve sana gerçekten ihtiyacı olduğunda sorar. Burada Katchy yaşıyor.
Katchy'nin yaşadığı yer.
Ara · bant genişliği problemi
“Anlaşmazlıkları yüz yüze değil,
e-posta ile
çözmek gibi.”
Sohbet tek iplik: sen yazmayı bitirene kadar model hiçbir şey algılamaz; o yazmayı bitirene kadar sen hiçbir şey algılamazsın. Kanal dar. Ses artı taze bir ekran görüntüsü çok daha geniş bir kanal, Katchy bu yüzden yazmak yerine konuşuyor.
02 · Tek bir isteğin anatomisi
Her istek aynı dört aşamalı pipeline'dan geçer. Bir aşamaya tıkla ya da sadece izle, diyagram birkaç saniyede bir kendiliğinden döner ve sen devraldığın an durur.
The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.
02b · Mimari
Ön · senkron
Sen konuşurken yanında kalır. Sohbeti kısa süreli bellekte tutar. Düşünüyor musun, sözü veriyor musun, sözünü mü kesiyorsun fark eder. Yaklaşık bir göz kırpma kadar sürede yanıtlar.
Arka · asenkron
Yavaş, sürekli işi üstlenir. Araçlarla çok adımlı bir ajan döngüsü: dosya sistemi, AppleScript, Shortcuts, tarayıcı. Planlar, hareket eder, kendi çıktısını okur, yeniden dener. Bittiğinde haber verir.
Bu, Thinking Machines'in önerdiği iki parçalı mimarinin minyatür hali. Etkileşim modeli sana küçük bir modelin tepki süresini verir. Arka plan modeli sana büyük bir modelin planlama ve araç kullanımını. Bağlamı paylaşırlar. Dikişleri asla görmezsin.
03 · Stack, katman katman

01 · Dinler
Control ve Option'a basılı tut. macOS sesi yerel olarak CoreAudio üzerinden yakalar. Dalga formu mümkünse cihazda yazıya dönüştürülür, sonra kırpılır ve yalnızca bir sınır model gerekirse gönderilir.

02 · Görür
Soruya bağlam gerektiğinde, ScreenCaptureKit tek, hedeflenmiş bir kare alır. Katchy asla video yayınlamaz, asla sürekli kayıt yapmaz, yanıttan sonra ekran görüntülerini asla saklamaz.

03 · Düşünür
Katchy isteği, en iyi şekilde halledecek sınır modele yönlendirir. Uzun PDF'ler Claude'a. Görsel ağırlıklı görevler Gemini'ye. Kod ve hızlı düzenlemeler GPT'ye. Yönlendirici seçer, sen sakin kalırsın.

04 · Hareket eder
Tek tık yeterli olduğunda dostça bir üçgen cevabı işaret eder. On tık gerektiğinde çok adımlı bir ajan arka planda çalışır. İkisi de aynı belleği paylaşır, ikisi de seninle birlikte kapanır.
04 · Yönlendiricinin kararı
Küçük bir sınıflandırıcı transkripsiyonunu ve sayfanın token'larını okur ve her isteği en uygun modele gönderir. Birkaçını kendin dene, yönlendirici işini gösterir.
Bir soru dene
“Az önce açtığım bu 60 sayfalık PDF'i özetle”
Neden bu: Uzun bağlam, yapılandırılmış bir belge üzerinde dikkatli akıl yürütme.
05 · Üç beyin, tek menü çubuğu
OpenAI
Hızlı düzenlemeler, kod incelemesi ve cevabı bir buçuk cümleye dönmesini istediğin yapılandırılmış yeniden yazma türü için buraya gelir.
Anthropic
Uzun belgeler, dikkatli akıl yürütme ve emin ama yanlış bir cevap istemediğin her şey için buraya gelir.
Ekran yoğun anlar, grafikler, slaytlar ve görselin sorunun yarısı olduğu durumlar için buraya gelir.
06 · Yetenekler
Okuma ve yazma
“O 60 sayfalık PDF'i özetle”
Okuma
“Kibar bir hayır taslağı oluştur”
Yazma
“Hızlı bir changelog yaz”
Yazma
“İspanyolca'ya çevir”
Yazma
“Dünkü taslağa devam et”
Yazma
“Haftalık özet oluştur”
Yazma
Dosyalar ve sistem
“47 ekran görüntüsünü yeniden adlandır”
Dosyalar
“Masaüstünü temizle”
Dosyalar
“Bu CSV'den verileri çek”
Sayılar
“Bunları PNG'ye dönüştür”
Dosyalar
“Son ekran görüntüsünü aç”
Dosyalar
“Spotify'ı menü çubuğuna sabitle”
Sistem
“Bu komut ne yapar?”
Terminal
“Bunu tabloya dönüştür”
Sayılar
Günlük akış
“Gelen kutunu ayır”
Posta
“Bunu Cursor'da aç”
Kod
“Standup'ı yeniden planla”
Takvim
“Bu fotoğrafları yüze göre etiketle”
Fotoğraflar
“Slack'i bir saatliğine sustur”
Odak
“Bu dosyada ne değişti?”
Kod
“Bunu Hatırlatıcılar'a ekle”
Görevler
“Kaybettiğim o PDF'i bul”
Arama
Ve diğer her şey
Bunlar bu haftadan birkaçı. Asıl liste, ekrana işaret ederken yüksek sesle söyleyebildiğin her şey. Gerisini ajanlar yapar.
06 · Rakamlarla
tek menü çubuğunda sınır modeli
sahip olduğumuz sunucu, hiçbir zaman
kısayol tüm UI'dır
her şeyi barındırmak için disk alanı
kısayoldan ilk token'a
sen istemediğin sürece Mac'ten çıkan dosya
07 · Mac'inin her köşesinde






08 · Önemli olduğu yerde yerel
Ses RAM'e alınır ve istek biter bitmez atılır. Ekran görüntüleri bellekte kalır. Konuşmalar bir sunucuda değil, Application Support klasöründe yaşar.
Yönlendirici sesi yalnızca konuşulan kısma kadar keser, menü çubuğunu ve dock'u her ekran görüntüsünden maskeler ve modelin ihtiyacı olmayan sohbet geçmişini asla göndermez.
Anthropic, OpenAI ve Google anahtarları macOS Keychain'inde yaşar. Biz onları asla görmeyiz. Dilediğin zaman çıkarabilir veya değiştirebilirsin.
⌘ . isteği uçuş halinde durdurur. Ajanlar her döngüde iptal bayrağını kontrol eder. Hiçbir “lütfen toparlanırken bekleyin” yoktur.
09 · Kısa bir okuma listesi
Scott'ın pratik bilgi kavramı. Stokastik, sezgisel, yerel. Belirsizliğin yüksek ve doğru cevabın odaya bağlı olduğu durumlarda uygun akıl yürütme. Ajanların buna ihtiyacı var.
Önemli bilgi belirli zaman ve yer koşullarında yaşar. Önündeki ekran şu anda tam olarak o bilgidir. Katchy onu okur.
Sutton. Elle yapılmış sistemler genel kapasite + ölçek tarafından geçilir. Bu yüzden yüzeyi sıkıcı ve iyi adlandırılmış tutarız, zor kısmı sınır modellerine bırakırız.
Ong sözlü iletişimin katılımcı doğası üzerine. Ses, kutuya yazmaktan daha çok doğal işbirliğine yakındır. Push-to-talk bir hile değil, doğru arayüzdür.
Dipnotlar
Darboğaz
Bugünün sınır modelleri „otonom, uzun süreli" kullanım için optimize edilmiş. Yakın tarihli bir model kartı, „etkileşimli, eş zamanlı, eller klavyede modunda kullanıldığında modelin faydalarının daha az açık olduğunu" kabul ediyor. Gerçek işin çoğu etkileşimli. Katchy tam bu durum için inşa edildi.
Bant genişliği
Sohbet tek bir iplik: sen yazmayı bitirene kadar model hiçbir şey algılamaz; o üretmeyi bitirene kadar sen hiçbir şey algılamazsın. Thinking Machines buna insan-AI işbirliği için dar bir kanal diyor. Ses + taze bir ekran görüntüsü çok daha geniş bir kanal.
Etkileşim modeli + arka plan modeli
Önerdikleri mimarinin iki yarısı var. Mevcut ve eş zamanlı kalan bir etkileşim modeli. Daha uzun ufuklu işi eş zamansız üstlenen bir arka plan modeli. Katchy temiz şekilde haritalar: menü çubuğu etkileşim modelidir, ajan döngüsü arka plan modelidir ve bağlamı paylaşırlar.
Son bir şey
İndirmesi üç dakika. Hatırlanacak tek bir tuş kombinasyonu. Sıfır euro, şu andan evrenin ısıl ölümüne kadar her gün.