Liigu sisu juurde
katchyfor mac
VälijuhendKöide 01 · 2026

Kuidas Katchy töötab.

Üks kiirklahv. Neli väikest etappi. Kolm tipptasemel mudelit. Lühike essee suhtlusmudelist sõbraliku, tasuta, natiivse macOS-i rakenduse taga, mis vaikselt teeb peaaegu kõike, mida sa suudad valjusti kirjeldada.

Esmalt lokaalne · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon ja Intel

Märkus enne alustamist

Vabandust laia auditooriumi ees: oleme selle projektiga alles nädal aega, nii et võid komistada ühe-kahe vea otsa. Paigame kiiresti ja oleme väga-väga tänulikud, et tulid vaatama. :D

Liidese kuju otsustab, mis on võimalik. Vestlus pani meid mõtlema. Tööriistade kasutamine pani ehitama. Agendid lasid lõpuks mudelil puudutada sama ekraani, mida sinagi. Kõik lõbus elab selles kolmandas ajastus ja Katchy on väikseim, vaikseim, kõige-Macintoshilikum aken sinna, mida me suutsime teha.

Lehe ülejäänud osa on kapotialune juhend. Mis toimub klahvivajutuse ja vastuse kõrva jõudmise vahel. Miks me suuname sõltuvalt küsimusest erinevasse tipptasemel mudelisse. Mis sinu Maci kunagi ei lahku. Püüdsime hoida lühidalt.

01b · Tees

Mida koostöö
tegelikult vajab.

Omadus 01

Kohalolu

Me jagame sama objekti. Katchy vaatab sama akent, sama lõiku, sama Figma kaadrit, mida sina. Ta ei arva kirjelduse põhjal, ta loeb samu piksleid, mida sinagi.

Katchys
ScreenCaptureKit ühe kaadriga, piiratud aktiivse ekraaniga.

Omadus 02

Üheaegsus

Tagasiside töö ajal, mitte pärast. Katchy vastab hetkel, mil sa lõpetad rääkimise, kuni küsimus on veel soe, pole saatmise nuppu, pole spinnerit, pole e-kirjade ketti.

Katchys
Kiirklahvist esimese tokenini umbes 80 millisekundit.

Omadus 03

Paralleelsus

Me mõlemad saame asju teha samal ajal. Sa kirjutad edasi, kui agent nimetab ümber 47 ekraanipilti. Katchy mõtleb edasi, kui sa kerid. Kummalegi pole vaja oma korda oodata.

Katchys
Agendi tsükkel väljaspool peamist lõime, ⌘ . abil igal hetkel tühistatav.

Mida lugesime

Kolm omadust, peaaegu sõna-sõnalt Thinking Machines'i esseest suhtlusmudelite kohta. Nad väidavad, et päris koostöö, inimeste, koodi, kõigega, vajab kõiki kolme korraga. Enamik tänaseid AI-süsteeme on häälestatud autonoomseks tööks ja jätab need täiesti vahele. Katchy on ehitatud just interaktiivse juhtumi jaoks.

01 · Suhtluse probleem

Kolm ajastut
rääkimisel
arvutiga.

1.0Vestlus

Sina kirjutad, mudel vastab. Sa kopeerid, kleebid, hüppad sakkide vahel. Võimas, aga mudel teab vaid seda, mida sa talle ütled, ja ei saa kunagi puudutada seda, mida sa näed.

Ainult mõte. Ei käsi, ei silmi.

2.0Tööriistade kasutus

Mudelid hakkasid API-sid kutsuma. Loe see fail. Otsi sellest andmebaasist. Saada see e-kiri. Imeline, aga sa pidid ikka iga tööriista koodis ise kokku panema.

Päris jõud, aga torustik oled sina.

3.0Agendid

Mudel vaatab sinu ekraani, hoiab plaani peas, tegutseb, kontrollib oma tööd ja küsib sinult ainult siis, kui tõesti vajab. Siin Katchy elabki.

Kus Katchy elab.

Vaheosa · ribalaiuse probleem

“Nagu lahendada vaidlusi
e-postiga, mitte näost näkku.”

- Thinking Machines, koostöö kitsaskohast

Vestlus on üks niit: kuni sa pole kirjutamist lõpetanud, mudel ei taju midagi; kuni see pole kirjutamist lõpetanud, ei taju sina midagi. Kanal on kitsas. Hääl pluss värske ekraanitõmmis on palju laiem kanal, ja sellepärast Katchy räägib, mitte ei kirjuta.

02 · Ühe päringu anatoomia

Mis juhtub
nendes kaheksakümnes
millisekundis.

Iga päring liigub sama nelja etapi torustikku. Klõpsa etapil või lihtsalt vaata, diagramm liigub paari sekundi tagant ise ja peatub hetkel, kui võtad rooli.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arhitektuur

Suhtlusmudel
ees. Tausta-
mudel taga.

Ees · sünkroonselt

Suhtlus-
mudel.

Jääb kohale, kui sa räägid. Hoiab vestlust lühiajalises mälus. Jälgib, kas mõtled, annad sõna või segad. Vastab umbes silmapilgu jagu.

  • Push-to-talk heli + üks ekraanitõmmis.
  • Voogedastatud tokenid, mitte kunagi “palun oodake”.
  • Saab katkestada lennult ⌘ . abil.

Taga · asünkroonselt

Tausta-
mudel.

Võtab enda peale aeglase, kestva töö. Mitmesammuline agendisilmus tööriistadega: failisüsteem, AppleScript, Shortcuts, brauser. Planeerib, tegutseb, loeb oma väljundit, proovib uuesti. Annab teada, kui valmis.

  • Jookseb põhilõimest väljas, ei blokeeri kunagi UI-d.
  • Jagab vestluse konteksti esimesega.
  • Lõpptulemus saabub vaikse menüüriba teavitusena.

See on Thinking Machines'i pakutud kaheosaline arhitektuur miniatuuris. Suhtlusmudel annab sulle väikese mudeli reageerimiskiiruse. Taustamudel annab suure mudeli planeerimise ja tööriistakasutuse. Nad jagavad konteksti. Õmblusi sa ei näe.

03 · Pakk, kiht kihi haaval

Neli väikest, igavat,
äärmiselt hästi
nimetatud Apple raamistikku.

01 · Kuulab

Hoia ja räägi

Hoia Control ja Option. macOS püüab heli lokaalselt CoreAudio kaudu. Lainekuju transkribeeritakse seadmes, kui võimalik, seejärel kärbitakse ja saadetakse ainult siis, kui on vaja tipp-mudelit.

02 · Näeb

Sinu ekraanist üks pilt

Kui küsimus vajab konteksti, võtab ScreenCaptureKit ühe sihiku kaadri. Katchy ei voogeditud videot, ei salvesta pidevalt, ei säilita ekraanipilte pärast vastust.

03 · Mõtleb

Õige aju tööks

Katchy suunab päringu sellele tipp-mudelile, kes selle parimini lahendab. Pikad PDF-id Claude'ile. Visuaalsed asjad Geminile. Kood ja kiired parandused GPT-le. Marsruuter valib, sina jääd liikumatuks.

04 · Tegutseb

Kursor + agendid, menüüribas

Sõbralik kolmnurk osutab vastusele, kui piisab ühest klikist. Mitmesammuline agent töötab taustal, kui on vaja kümmet. Nad jagavad mälu, lülituvad sinuga koos välja.

04 · Marsruuteri otsus

Üks lause sisse,
õige aju
tegeleb.

Väike klassifikaator loeb sinu transkriptsiooni ja lehe tokenid ning suunab iga päringu sobivaimasse mudelisse. Proovi mõnda ise, marsruuter näitab oma tööd.

Proovi küsimust

Marsruuteri otsus

Tee kokkuvõte sellest 60-leheküljelisest PDF-ist, mille just avasin

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Miks just see: Pikk kontekst, hoolikas arutlemine struktureeritud dokumendi üle.

05 · Kolm aju, üks menüüriba

Erinevad küsimused
väärivad erinevaid
mudeleid.

OpenAI

GPT

Tuleb siia kiireteks editideks, koodi ülevaateks ja sellise struktureeritud ümberkirjutuse jaoks, kus tahad vastust pooleteise lauses.

  • Tihedad ümberkirjutused
  • Koodi ülevaade
  • Kiired editid

Anthropic

Claude

Tuleb siia pikkade dokumentide, hoolika arutluse ja kõige jaoks, kus parem oleks mitte saada enesekindlat valet vastust.

  • Pikk kontekst
  • Hoolikas arutlus
  • Nüansirikas kirjutamine

Google

Gemini

Tuleb siia ekraanirohkete hetkede, graafikute, slaidide ja juhtumite jaoks, kus visuaalne on pool küsimusest.

  • Nägemine
  • Graafikud ja slaidid
  • Kiire vastus

06 · Võimekused

Lühike menüü asjadest, mida saad lihtsalt öelda.

Lugemine ja kirjutamine

  • Tee selle 60-leheküljelise PDF-i kokkuvõte

    Lugemine

  • Sõnasta viisakas „ei"

    Kirjutamine

  • Kirjuta kiire changelog

    Kirjutamine

  • Tõlgi hispaania keelde

    Kirjutamine

  • Jätka eilset mustandit

    Kirjutamine

  • Genereeri nädala kokkuvõte

    Kirjutamine

Failid ja süsteem

  • Nimeta ümber 47 ekraanipilti

    Failid

  • Korista töölaud

    Failid

  • Tõmba andmed sellest CSV-st

    Numbrid

  • Muuda need PNG-ks

    Failid

  • Ava viimane ekraanipilt

    Failid

  • Kinnita Spotify menüüribale

    Süsteem

  • Mida see käsk teeb?

    Terminal

  • Tee sellest tabel

    Numbrid

Igapäevane voog

  • Sorteeri postkast

    Post

  • Ava see Cursoris

    Kood

  • Tõsta standup ümber

    Kalender

  • Sildi need fotod näo järgi

    Fotod

  • Vaigista Slack tunniks

    Fookus

  • Mis muutus selles failis?

    Kood

  • Lisa see meeldetuletustesse

    Ülesanded

  • Leia see PDF, mille kaotasin

    Otsing

Ja kõik muu

Need on vaid mõned sellest nädalast. Päris nimekiri on kõik, mida saad valjusti öelda, ekraanile osutades. Ülejäänu teevad agendid.

06 · Numbrites

Mille vastu mõõdab end
rahulik agentne
rakendus.

3

tipp-mudelit ühes menüüribas

0

meile kuuluvat serverit, mitte kunagi

1

kiirklahv on kogu UI

~ 80 MB

kettaruumi kogu selle jaoks

80 ms

kiirklahvist esimese tokenini

0

faili lahkuvad sinu Macilt, kuni sa palud

07 · Üle kogu sinu Maci

Sama silmus. Iga rakendus.
Iga töövoog.

08 · Lokaalne seal, kus loeb

Sinu ekraan ei
lahku sinu Macilt,
küsimata.

  1. 01

    Lokaalne vaikimisi.

    Heli salvestatakse RAM-i ja visatakse minema hetkel, kui päring lõpeb. Ekraanitõmmised jäävad mällu. Vestlused elavad sinu Application Support kaustas, mitte serveris.

  2. 02

    Väikseim võimalik koorem.

    Marsruuter lõikab heli vaid räägitud osani, peidab menüüriba ja dock'i igalt ekraanitõmmiselt ning ei saada kunagi vestlusajalugu, mida mudel ei vaja.

  3. 03

    Too kaasa oma võtmed.

    Anthropic, OpenAI ja Google võtmed elavad sinu macOS Keychainis. Me ei näe neid kunagi. Saad need välja võtta või vahetada igal hetkel.

  4. 04

    Igas etapis katkestatav.

    ⌘ . peatab päringu lennult. Agendid kontrollivad katkestuslippu igal tsüklil. Pole mingit “palun oodake, kuni korrastame”.

09 · Lühike lugemisnimekiri

Seisame nelja
paari õla
peal.

  1. 01

    Metis

    Scotti praktilise teadmise mõiste. Stohhastiline, intuitiivne, lokaalne. Mõtlemine, mis sobib siis, kui ebakindlus on suur ja õige vastus sõltub ruumist. Agendid vajavad seda.

  2. 02

    Hayeki teadmisprobleem

    Tähtis teadmine elab konkreetses aja ja koha oludes. Ekraan sinu ees praegu ongi täpselt see teadmine. Katchy loeb seda.

  3. 03

    Kibe õppetund

    Sutton. Käsitsi tehtud süsteemid jäävad alla üldisele võimekusele + skaalale. Seepärast hoiame pinda igavat ja hästi nimetatud ning jätame raske töö tipp-mudelitele.

  4. 04

    Suulisus

    Ong suulise suhtluse osalevast olemusest. Hääl on lähemal loomulikule koostööle kui kastiga trükkimine. Push-to-talk pole trikk, see on õige liides.

Joonealused

  • Pudelikael

    Tänased tipp-mudelid on optimeeritud „autonoomseks, pikaajaliseks" kasutamiseks. Üks hiljutine mudelikaart tunnistab, et „interaktiivses, sünkroonses, käed-klaviatuuril mustris olid mudeli kasud vähem selged". Suurem osa päris tööst on interaktiivne. Katchy on ehitatud just selle juhtumi jaoks.

  • Ribalaius

    Vestlus on üks niit: kuni sa pole kirjutamist lõpetanud, mudel ei taju midagi; kuni tema pole genereerimist lõpetanud, ei taju sina midagi. Thinking Machines nimetab seda kitsaks kanaliks inimese-AI koostöös. Hääl + värske ekraanipilt on palju laiem.

  • Vuorovaikutusmalli + taustamalli

    Nende pakutud arhitektuur on kahepoolne. Vuorovaikutusmalli, mis jääb kohale ja sünkroonseks. Taustamalli, mis võtab pikema horisondi töö asünkroonselt. Katchy joonistub puhtalt: menüüriba on vuorovaikutusmalli, agendi tsükkel on taustamalli, ja nad jagavad konteksti.

Viimane asi

Üks kiirklahv.
Kogu liides.

Kolm minutit allalaadimiseks. Üks akord meelde jätta. Null eurot, iga päev praegusest kuni universumi soojussurmani.

Lae alla KatchyTagasi avalehele

macOS 14.2+ · Apple Silicon ja Intel · ~860 MB