Pereiti prie turinio
katchyfor mac
Lauko vadovas01 leidinys · 2026

Kaip veikia Katchy.

Vienas klavišas. Keturi maži etapai. Trys priekiniai modeliai. Trumpas pasakojimas apie sąveikos modelį, slypintį už draugiškos, nemokamos, natyvios macOS programėlės, kuri tyliai padaro beveik viską, ką tik gali ištarti.

Visų pirma vietinė · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon ir Intel

Pastaba prieš pradedant

Iš anksto atsiprašom: projektui vos savaitė, tad gali pasitaikyti viena kita klaida. Lopom greitai ir labai labai dėkojam, kad užsukai pažiūrėti. :D

Sąsajos forma nulemia, kas iš viso įmanoma. Pokalbiai privertė mus mąstyti. Įrankiai privertė kurti. Agentai pagaliau leido modeliui paliesti tą patį ekraną, kurį matai tu. Visi įdomūs dalykai gyvena trečioje eroje. Katchy: mažiausias, tyliausias, į Mac panašiausias langelis į ją.

Toliau puslapyje, gidas po vidų. Kas vyksta nuo klavišo paspaudimo iki atsakymo, krintančio į ausį. Kodėl skirtingoms užklausoms parenkam skirtingą modelį. Kas niekada nepalieka tavo Mac'o. Trumpai.

01b · Tezė

Ko iš tikrųjų
reikia bendradarbiavimui.

Savybė 01

Buvimas šalia

Mes dalijamės tuo pačiu objektu. Katchy žiūri į tą patį langą, tą pačią pastraipą, tą patį Figma kadrą, ką ir tu. Ji ne spėlioja iš aprašymo, ji skaito tuos pačius pikselius, ką ir tu.

Katchy
ScreenCaptureKit vienas kadras, ribotas aktyviu ekranu.

Savybė 02

Vienalaikiškumas

Grįžtamasis ryšys vyksta darbo metu, ne po. Katchy atsako tą akimirką, kai liauji kalbėti, kol klausimas dar šiltas, be siuntimo mygtuko, be sukimosi rato, be laiškų virtinės.

Katchy
Nuo klavišo pakėlimo iki pirmo žodžio, maždaug 80 ms.

Savybė 03

Lygiagretumas

Abu galime daryti viską tuo pačiu metu. Tu toliau rašai, kol agentas pervadina 47 ekrano nuotraukas. Katchy toliau mąsto, kol tu slenki. Niekam nereikia laukti eilės.

Katchy
Agento ciklas ne pagrindinėje gijoje, bet kuriuo metu nutraukiamas su ⌘ .

Ką skaitėme

Trys savybės, paimtos beveik pažodžiui iš Thinking Machines esė apie sąveikos modelius. Jie teigia: tikras bendradarbiavimas (su žmonėmis, su kodu, su bet kuo) reikalauja visų trijų vienu metu. Dauguma šių dienų AI sistemų kuriamos savarankiškai veikti ir šito nepasiekia. Katchy pastatyta interaktyviam atvejui.

01 · Sąveikos problema

Trys erōs,
kalbantis su
kompiuteriu.

1.0Pokalbis

Tu rašai, modelis atsako. Kopijuoji, įklijuoji, šokinėji tarp skirtukų. Galingai, bet modelis žino tik tai, ką jam pasakai, ir niekada negali paliesti to, ką tu matai.

Vien mintis. Be rankų. Be akių.

2.0Įrankių naudojimas

Modeliai pradėjo kviesti API. Perskaityk šį failą. Ieškok šioje duomenų bazėje. Išsiųsk šį laišką. Nuostabu, bet vis tiek tu pats turi suklijuoti visus įrankius kodu.

Tikra galia, bet vamzdynus tieskie tu.

3.0Agentai

Modelis stebi tavo ekraną, laiko planą galvoje, atlieka veiksmus, tikrina savo darbą ir klausia tavęs tik tada, kai tikrai reikia. Čia ir gyvena Katchy.

Čia gyvena Katchy.

Tarpinis žodis · pralaidumo problema

„Lyg ginčas, sprendžiamas
el. paštu, o ne akis į akį."

- Thinking Machines, apie bendradarbiavimo siaurumą

Pokalbis yra vienas siūlas: kol tu nebaigi rašyti, modelis nesupranta; kol jis nebaigia rašyti, ir tu nesupranti. Kanalas siauras. Balsas plius šviežia ekrano nuotrauka yra daug platesnis kanalas. Todėl Katchy kalba, ne rašo.

02 · Vienos užklausos anatomija

Kas vyksta
per aštuoniasdešimt
milisekundžių.

Kiekviena užklausa eina per tą patį keturių etapų konvejerį. Spustelėk etapą arba tiesiog stebėk, diagrama automatiškai keičiasi kas kelias sekundes ir sustoja, kai tu perimi.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Architektūra

Sąveikos modelis
priekyje. Foninis
modelis užnugary.

Priekis · sinchroninis

Sąveikos
modelis.

Lieka greta, kol kalbi. Laiko pokalbį trumpalaikėje atmintyje. Seka, ar tu mąstai, leidi kalbėti, ar pertraukti. Atsako maždaug per mirksnio laiką.

  • Paspausk-ir-kalbėk garsas + viena ekrano nuotrauka.
  • Srautu siunčiami žodžiai, jokio „palaukite".
  • Galima nutraukti vidury su ⌘ .

Užnugaris · asinchroninis

Foninis
modelis.

Imasi lėto, tvaraus darbo. Daugiapakopis agentų ciklas su įrankiais: failų sistema, AppleScript, Shortcuts, naršyklė. Planuoja, veikia, perskaito savo paties išvestį, bando dar kartą. Atsiskaito, kai baigia.

  • Veikia ne pagrindiniame sraute, niekada nestabdo sąsajos.
  • Dalinasi pokalbio kontekstu su priekiu.
  • Galutinis rezultatas pasirodo kaip tylus meniu juostos pranešimas.

Tai dviejų dalių architektūra, kurią siūlo Thinking Machines, miniatiūroje. Sąveikos modelis suteikia mažo modelio greitį. Foninis modelis, didelio modelio planavimą ir įrankių naudojimą. Jie dalinasi kontekstu. Tu nematei jungčių.

03 · Stekas, sluoksnis po sluoksnio

Keturios mažos, nuobodžios,
puikiai pavadintos
Apple sistemos.

01 · Klausyk

Spausk ir kalbėk

Laikyk Control ir Option. macOS lokaliai įrašo garsą per CoreAudio. Banga, kai įmanoma, transkribuojama įrenginyje, tada apkarpoma ir siunčiama tik tada, jei reikia pažangiausio modelio.

02 · Matyk

Vienas tavo ekrano kadras

Kai klausimui reikia konteksto, ScreenCaptureKit paima vieną tikslinį kadrą. Katchy niekada nesrąutuoja vaizdo, niekada nuolat neįrašinėja, niekada nesaugo ekrano nuotraukų po atsakymo.

03 · Mąstyk

Tinkamos smegenys šiam darbui

Katchy nukreipia užklausą tam modeliui, kuris ją tvarko geriausiai. Ilgi PDF, Claude. Vaizdiniai darbai, Gemini. Kodas ir greiti taisymai, GPT. Maršrutizatorius renkasi, tu lieki nepajudinęs.

04 · Veik

Žymeklis + agentai, tavo meniu juostoje

Draugiškas trikampis rodo į atsakymą, kai užtenka vieno paspaudimo. Kelių žingsnių agentas dirba fone, kai reikia dešimties paspaudimų. Abu dalijasi ta pačia atmintimi, abu išsijungia su tavimi.

04 · Maršrutizatoriaus sprendimas

Vienas sakinys,
tinkamos smegenys
jam tvarkyti.

Mažas klasifikatorius perskaito tavo transkripciją ir puslapio žodžius ir nukreipia kiekvieną užklausą į tinkamiausią modelį. Išbandyk pats, maršrutizatorius rodo savo darbą.

Užduokite klausimą

Maršrutizatoriaus sprendimas

Apibendrink šį 60 puslapių PDF, kurį ką tik atidariau

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Kodėl būtent šis: Ilgas kontekstas, kruopštus struktūrizuoto dokumento svarstymas.

05 · Trys smegenys, viena meniu juosta

Skirtingiems klausimams
reikia skirtingų
modelių.

OpenAI

GPT

Eina čia greitiems taisymams, kodo peržiūrai ir struktūriniam perrašymui, kai nori atgal sakinio ir pusės.

  • Tikslūs perrašymai
  • Kodo peržiūra
  • Greiti taisymai

Anthropic

Claude

Eina čia ilgiems dokumentams, atsargiam mąstymui ir viskam, kur nenori užtikrintai neteisingo atsakymo.

  • Ilgas kontekstas
  • Atsargus mąstymas
  • Niuansuotas rašymas

Google

Gemini

Eina čia ekrano apkrautoms akimirkoms, diagramoms, skaidrėms ir atvejams, kai vaizdas yra pusė klausimo.

  • Vizija
  • Diagramos ir skaidrės
  • Greitai grąžina

06 · Gebėjimai

Trumpas meniu to, ką gali pasakyti.

Skaitymas ir rašymas

  • Apibendrink tą 60 puslapių PDF

    Skaitymas

  • Sukurpk mandagų „ne"

    Rašymas

  • Parašyk greitą changelogą

    Rašymas

  • Išversk į ispanų kalbą

    Rašymas

  • Tęsk vakarykštį juodraštį

    Rašymas

  • Sugeneruok savaitės santrauką

    Rašymas

Failai ir sistema

  • Pervadink 47 ekrano nuotraukas

    Failai

  • Sutvarkyk Desktop

    Failai

  • Ištrauk duomenis iš šio CSV

    Skaičiai

  • Konvertuok šiuos į PNG

    Failai

  • Atidaryk paskutinę ekrano nuotrauką

    Failai

  • Prisekti Spotify prie meniu juostos

    Sistema

  • Ką ši komanda daro?

    Konsolė

  • Pavers tai lentele

    Skaičiai

Kasdienis srautas

  • Sutvarkyk dėžutę

    Paštas

  • Atidaryk tai su Cursor

    Kodas

  • Perkelk standupą

    Kalendorius

  • Pažymėk šias nuotraukas pagal veidą

    Nuotraukos

  • Nutildyk Slack valandai

    Fokusas

  • Kas pasikeitė šiame faile?

    Kodas

  • Pridėk prie Reminders

    Užduotys

  • Surask tą PDF, kurį pamečiau

    Paieška

Ir bet kas kitas

Tai vos keli iš šios savaitės. Tikras sąrašas, viskas, ką gali ištarti, rodydamas į ekraną. Likusią dalį padaro agentai.

06 · Skaičiais

Su kuo lyginasi
rami agentinė
programėlė.

3

pažangiausi modeliai vienoje meniu juostoje

0

serverių, kuriais mes valdome, niekada

1

klavišas, visa sąsaja

~ 80 MB

vietos diske visam tam talpinti

80 ms

nuo klavišo pakėlimo iki pirmo žodžio

0

failų išeina iš tavo Mac, kol nepaprašysi

07 · Per visą tavo Mac'ą

Tas pats ciklas. Kiekvienai programai.
Kiekvienai darbo eigai.

08 · Vietinė ten, kur tai svarbu

Tavo ekranas neišlenda
iš Mac'o
be tavo žinios.

  1. 01

    Vietinė iš prigimties.

    Garsas patenka į RAM ir ten pat išmetamas, kai užklausa baigiasi. Ekrano kadrai lieka atmintyje. Pokalbiai gyvena Application Support aplanke, ne serveryje.

  2. 02

    Mažiausias įmanomas krūvis.

    Maršrutizatorius apkarpo garsą iki ištartos dalies, paslepia meniu juostą ir Dock'ą iš ekrano kadro ir nesiunčia istorijos, kurios modeliui nereikia.

  3. 03

    Atsineški savo raktus.

    Anthropic, OpenAI ir Google raktai gyvena tavo macOS Keychain'e. Mes jų nematom. Ištrauk ar pasikeisk bet kada.

  4. 04

    Galima nutraukti kiekvieną žingsnį.

    ⌘ . sustabdo užklausą įpusėjus. Agentai tikrina nutraukimo žymę kiekviename cikle. Jokio „palauk, kol sutvarkysim".

09 · Trumpas skaitymo sąrašas

Stovim ant
keturių pečių
porų.

  1. 01

    Metis

    Scotto praktinio žinojimo sąvoka. Stochastinis, intuityvus, vietinis. Mąstymas, tinkamas tada, kai neapibrėžtumas didelis, o teisingas atsakymas priklauso nuo aplinkos. Agentams to reikia.

  2. 02

    Hayeko žinių problema

    Svarbios žinios gyvena konkrečiose laiko ir vietos aplinkybėse. Ekranas prieš tave dabar yra būtent tokios žinios. Katchy jas perskaito.

  3. 03

    Karti pamoka

    Suttonas. Rankų darbo sistemas pralenkia bendrasis pajėgumas plius mastas. Todėl paviršių laikome nuobodų ir gerai pavadintą, o sunkią dalį paliekame pažangiausiems modeliams.

  4. 04

    Žodinė kultūra

    Ongas apie dalyvaujamąjį žodinio bendravimo pobūdį. Balsas arčiau natūralaus bendradarbiavimo nei rašymas į langelį. Spausk-ir-kalbėk nėra triukas, tai tinkama sąsaja.

Pastabos

  • Siaurumas

    Šiandienos pažangiausi modeliai optimizuoti „savarankiškam, ilgam" naudojimui. Neseniai vienas pažangiausio modelio aprašas pripažino, kad „naudojant interaktyviai, sinchroniškai, ranka ant klaviatūros, modelio nauda buvo mažiau aiški". Didžioji dalis tikro darbo yra interaktyvi. Katchy pastatyta būtent interaktyviam atvejui.

  • Pralaidumas

    Pokalbis, vienas siūlas: kol tu nebaigi rašyti, modelis nieko nesuvokia; kol jis nebaigia generuoti, vėl nieko nesuvokia. Thinking Machines vadina tai siauru žmogaus ir AI bendradarbiavimo kanalu. Balsas plius šviežia ekrano nuotrauka yra daug platesnis.

  • Sąveikos modelis + foninis modelis

    Jų siūloma architektūra turi dvi puses. Sąveikos modelis lieka greta ir veikia sinchroniškai. Foninis modelis ima ilgesnio horizonto darbą asinchroniškai. Katchy švariai atitinka: meniu juosta, sąveikos modelis, agento ciklas, foninis modelis, ir jie dalijasi kontekstu.

Paskutinis dalykas

Vienas klavišas.
Visa sąsaja.

Trys minutės parsisiųsti. Vienas akordas įsiminti. Nulis eurų, kiekvieną dieną nuo dabar iki visatos šilumos mirties.

Parsisiųsti KatchyAtgal į pradžią

macOS 14.2+ · Apple Silicon ir Intel · ~860 MB