Siirry sisältöön
katchyfor mac
KenttäopasOsa 01 · 2026

Näin Katchy toimii.

Yksi pikanäppäin. Neljä pientä vaihetta. Kolme huippumallia. Lyhyt essee vuorovaikutusmallista, joka on ystävällisen, ilmaisen, natiivin macOS-sovelluksen takana, sovelluksen, joka tekee hiljaisesti melkein mitä tahansa, mitä osaat sanoa ääneen.

Paikallisesti ensin · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon ja Intel

Pieni huomio ennen aloitusta

Anteeksi laajalle yleisölle: tämä projekti on vasta viikon ikäinen, joten saatat törmätä bugiin tai pariin. Korjaamme nopeasti, ja olemme hyvin, hyvin kiitollisia, että poikkesit. :D

Käyttöliittymän muoto päättää, mikä on mahdollista. Chat sai meidät miettimään. Työkalujen käyttö sai rakentamaan. Agentit antoivat vihdoin mallin koskea samaan ruutuun kuin sinä. Kaikki kiva asuu siinä kolmannessa aikakaudessa, ja Katchy on pienin, hiljaisin ja Macintosh-muotoisin ikkuna sinne, jonka osasimme tehdä.

Loppusivu on opas konepellin alle. Mitä tapahtuu napautuksen ja vastauksen korvaan saapumisen välillä. Miksi reitittämme eri huippumalliin kysymyksen mukaan. Mikä ei koskaan poistu Macistasi. Yritimme pitää lyhyenä.

01b · Teesi

Mitä yhteistyö
todella tarvitsee.

Ominaisuus 01

Yhdessäolo

Jaamme saman objektin. Katchy katsoo samaa ikkunaa, samaa kappaletta, samaa Figma-kehystä kuin sinä. Hän ei arvaa kuvauksesta, hän lukee samat pikselit, joita sinä luet.

Katchyssa
ScreenCaptureKit, yksi kuva, rajattuna aktiiviseen näyttöön.

Ominaisuus 02

Samanaikaisuus

Palautetta työn aikana, ei jälkikäteen. Katchy vastaa sillä hetkellä, kun lopetat puhumisen, kun kysymys on vielä lämmin, ei lähetysnäppäintä, ei spinneriä, ei sähköpostiketjua.

Katchyssa
Pikanäppäimestä ensimmäiseen tokeniin, noin 80 millisekuntia.

Ominaisuus 03

Rinnakkaisuus

Voimme molemmat tehdä asioita samanaikaisesti. Sinä jatkat kirjoittamista, kun agentti nimeää 47 kuvakaappausta uudelleen. Katchy jatkaa pohdintaa samalla kun selaat. Kummankaan ei tarvitse odottaa vuoroaan.

Katchyssa
Agentin silmukka pääsäikeen ulkopuolella, peruutettavissa ⌘ . milloin tahansa.

Mitä luimme

Kolme ominaisuutta, lähes sanasta sanaan Thinking Machinesin esseestä vuorovaikutusmalleista. He väittävät, että aito yhteistyö, ihmisten, koodin, minkä tahansa kanssa, vaatii kaikkia kolmea samanaikaisesti. Useimmat tämän päivän AI-järjestelmät on viritetty itsenäiseen toimintaan ja jättävät ne kokonaan väliin. Katchy on rakennettu suoraan vuorovaikutteiseen tapaukseen.

01 · Vuorovaikutuksen ongelma

Kolme aikakautta
tietokoneelle
puhumista.

1.0Chat

Sinä kirjoitat, malli kirjoittaa takaisin. Kopioit, liität, hyppäät välilehdeltä toiselle. Voimakasta, mutta malli tietää vain sen, minkä kerrot, eikä voi koskaan koskea siihen, mitä näet.

Pelkkää ajattelua. Ei käsiä. Ei silmiä.

2.0Työkalujen käyttö

Mallit alkoivat kutsua API-rajapintoja. Lue tämä tiedosto. Etsi tästä tietokannasta. Lähetä tämä viesti. Mahtavaa, mutta sinun piti silti kytkeä jokainen työkalu itse koodissa.

Aitoa voimaa, mutta putkimies olet sinä.

3.0Agentit

Malli katsoo näyttöäsi, pitää suunnitelmaa mielessä, toimii, tarkistaa omaa työtään ja kysyy sinulta vain silloin, kun todella tarvitsee. Täällä Katchy elää.

Missä Katchy elää.

Välisoitto · kaistanleveyden ongelma

“Kuin ratkaisisi erimielisyyksiä
sähköpostilla, ei kasvotusten.”

- Thinking Machines, yhteistyön pullonkaulasta

Chat on yksi lanka: kunnes lopetat kirjoittamisen, malli ei aisti mitään; kunnes se lopettaa kirjoittamisen, et aisti mitään. Kanava on kapea. Ääni plus tuore kuvakaappaus on paljon leveämpi kanava, siksi Katchy puhuu kirjoittamisen sijaan.

02 · Yhden pyynnön anatomia

Mitä tapahtuu
noissa kahdeksankymmenessä
millisekunnissa.

Jokainen pyyntö kulkee saman neljän vaiheen putken läpi. Klikkaa vaihetta tai vain katso, kaavio kiertyy automaattisesti muutaman sekunnin välein ja pysähtyy heti, kun otat ohjat.

Press ⌃ ⌥. Talk like a human.

The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.

  • CoreAudio capture at 16 kHz mono
  • On-device Whisper transcription when supported
  • Voice activity detection trims dead air before upload
  • Buffer is discarded the moment the request finishes

02b · Arkkitehtuuri

Vuorovaikutusmalli
edessä. Tausta-
malli takana.

Etu · synkroninen

Vuorovaikutus-
malli.

Pysyy paikalla, kun puhut. Pitää keskustelun lyhytkestoisessa muistissa. Aistii, ajatteletko, annatko vuoron vai keskeytätkö. Vastaa suunnilleen silmänräpäyksessä.

  • Push-to-talk-ääni + yksi kuvakaappaus.
  • Tokenit virtaavat, ei koskaan “odota hetki”.
  • Peruutettavissa kesken lennossa ⌘ . :llä.

Taka · asynkroninen

Tausta-
malli.

Hoitaa hitaan, kestävän työn. Monivaiheinen agenttisilmukka työkaluineen: tiedostojärjestelmä, AppleScript, Shortcuts, selain. Suunnittelee, toimii, lukee oman tuotoksensa, yrittää uudelleen. Raportoi, kun valmis.

  • Ajaa päälangan ulkopuolella, ei koskaan jumiuta UI:ta.
  • Jakaa keskustelun kontekstin etuosan kanssa.
  • Lopputulos saapuu hiljaisena valikkopalkki-ilmoituksena.

Tämä on Thinking Machinesin ehdottama kaksiosainen arkkitehtuuri pienoiskoossa. Vuorovaikutusmalli antaa pienen mallin reagointikyvyn. Taustamalli antaa suuren mallin suunnittelun ja työkalut. Ne jakavat kontekstin. Saumoja et näe.

03 · Pino, kerros kerrallaan

Neljä pientä, tylsää,
erinomaisesti nimettyä
Applen kehystä.

01 · Kuuntelee

Pidä ja puhu

Pidä Control ja Option pohjassa. macOS sieppaa äänen paikallisesti CoreAudion kautta. Aaltomuoto litteroidaan laitteella, kun mahdollista, sitten leikataan ja lähetetään vain, jos huippumallia tarvitaan.

02 · Näkee

Tilannekuva näytöstäsi

Kun kysymys tarvitsee kontekstia, ScreenCaptureKit ottaa yhden, kohdennetun kuvan. Katchy ei koskaan suoratoista videota, ei nauhoita jatkuvasti, ei tallenna kuvakaappauksia vastauksen jälkeen.

03 · Ajattelee

Oikeat aivot tehtävälle

Katchy reitittää pyynnön sille huippumallille, joka hoitaa sen parhaiten. Pitkät PDF:t Clauden luokse. Visuaaliset tehtävät Geminin. Koodi ja nopeat muokkaukset GPT:n. Reititin valitsee, sinä pysyt paikallasi.

04 · Toimii

Kohdistin + agentit, valikkopalkissasi

Ystävällinen kolmio osoittaa vastausta, kun yksi klikkaus riittää. Monivaiheinen agentti pyörii taustalla, kun tarvitaan kymmenen. Molemmat jakavat saman muistin, molemmat sammuvat kanssasi.

04 · Reitittimen päätös

Yksi lause sisään,
oikea aivo
hoitaa.

Pieni luokittelija lukee transkriptiosi ja sivun tokenit ja lähettää jokaisen pyynnön sopivimpaan malliin. Kokeile pari itse, reititin näyttää työnsä.

Kokeile kysymystä

Reitittimen päätös

Tiivistä tämä juuri avaamani 60-sivuinen PDF

OpenAIGPT
AnthropicClaude
GoogleGemini
Multi-stepAgent

Miksi juuri tämä: Pitkä konteksti, huolellinen päättely jäsennellystä asiakirjasta.

05 · Kolme aivoa, yksi valikkopalkki

Eri kysymykset
ansaitsevat eri
mallit.

OpenAI

GPT

Tulee tänne nopeisiin muokkauksiin, koodikatselmointiin ja sellaiseen jäsenneltyyn uudelleenkirjoittamiseen, jossa haluat vastauksen takaisin puolitoista lauseena.

  • Tiiviit uudelleenkirjoitukset
  • Koodikatselmointi
  • Nopeat muokkaukset

Anthropic

Claude

Tulee tänne pitkiin asiakirjoihin, huolelliseen päättelyyn ja kaikkeen, missä mieluummin et halua varmaa väärää vastausta.

  • Pitkä konteksti
  • Huolellinen päättely
  • Vivahteikas kirjoittaminen

Google

Gemini

Tulee tänne näyttörikkaisiin hetkiin, kaavioihin, dioihin ja tapauksiin, joissa visuaalisuus on puolet kysymyksestä.

  • Näkö
  • Kaaviot ja diat
  • Nopea vastaus

06 · Kyvyt

Lyhyt valikoima asioita, jotka voit vain sanoa.

Lukeminen ja kirjoittaminen

  • Tee tiivistelmä siitä 60-sivuisesta PDF:stä

    Lukeminen

  • Hahmottele kohtelias ei

    Kirjoittaminen

  • Kirjoita nopea changelog

    Kirjoittaminen

  • Käännä espanjaksi

    Kirjoittaminen

  • Jatka eilistä luonnosta

    Kirjoittaminen

  • Luo viikkokatsaus

    Kirjoittaminen

Tiedostot ja järjestelmä

  • Nimeä uudelleen 47 kuvakaappausta

    Tiedostot

  • Siisti työpöytä

    Tiedostot

  • Vedä data tästä CSV:stä

    Numerot

  • Muunna nämä PNG:ksi

    Tiedostot

  • Avaa viimeisin kuvakaappaus

    Tiedostot

  • Kiinnitä Spotify valikkopalkkiin

    Järjestelmä

  • Mitä tämä komento tekee?

    Pääte

  • Muunna tämä taulukoksi

    Numerot

Päivittäinen virta

  • Lajittele postilaatikko

    Posti

  • Avaa tämä Cursorissa

    Koodi

  • Siirrä standup

    Kalenteri

  • Tunnista nämä kuvat kasvojen mukaan

    Kuvat

  • Mykistä Slack tunniksi

    Fokus

  • Mikä muuttui tässä tiedostossa?

    Koodi

  • Lisää tämä Muistutuksiin

    Tehtävät

  • Etsi se PDF, jonka kadotin

    Haku

Ja kaikki muu

Nämä ovat muutamia tältä viikolta. Oikea lista on kaikki, mitä voit sanoa ääneen osoittaen ruutua. Loput hoitavat agentit.

06 · Numeroina

Mihin rauhallinen
agenttinen sovellus
yltää.

3

huippumallia yhdessä valikkopalkissa

0

palvelinta meidän omistuksessa, koskaan

1

pikanäppäin on koko UI

~ 80 MB

levytilaa kaikki ylläpitää

80 ms

pikanäppäimen nostosta ensimmäiseen tokeniin

0

tiedostoa lähtee Macistasi ennen kuin pyydät

07 · Läpi koko Macin

Sama silmukka. Joka sovellus.
Joka työnkulku.

08 · Paikallista siellä, missä on väliä

Ruutusi ei
lähde Macista
ilman lupaa.

  1. 01

    Paikallisesti oletuksena.

    Ääni siepataan RAMiin ja heitetään pois sillä hetkellä, kun pyyntö päättyy. Kuvakaappaukset jäävät muistiin. Keskustelut asuvat Application Support -kansiossasi, eivät palvelimella.

  2. 02

    Mahdollisimman pieni kuorma.

    Reititin leikkaa äänen vain puhuttuun osaan, peittää valikkopalkin ja dockin kuvakaappauksista eikä koskaan lähetä keskusteluhistoriaa, jota malli ei tarvitse.

  3. 03

    Tuo omat avaimet.

    Anthropicin, OpenAI:n ja Googlen avaimet asuvat macOS-avainnipussasi. Me emme näe niitä. Voit ottaa ne pois tai vaihtaa milloin tahansa.

  4. 04

    Peruutettavissa jokaisella askeleella.

    ⌘ . pysäyttää pyynnön lennossa. Agentit tarkistavat peruutusliput jokaisella kierroksella. Ei mitään “odota, kun siistitään”.

09 · Lyhyt lukulista

Seisomme
neljän hartiaparin
päällä.

  1. 01

    Metis

    Scottin käsite käytännöllisestä tiedosta. Stokastinen, intuitiivinen, paikallinen. Päättely, joka sopii silloin, kun epävarmuus on suuri ja oikea vastaus riippuu huoneesta. Agentit tarvitsevat sitä.

  2. 02

    Hayekin tiedonongelma

    Tärkeä tieto elää ajan ja paikan erityisissä olosuhteissa. Edessäsi nyt oleva näyttö on juuri sitä tietoa. Katchy lukee sen.

  3. 03

    Karvas oppitunti

    Sutton. Käsin tehdyt järjestelmät jäävät yleisten kykyjen + skaalan jalkoihin. Siksi pidämme pinnan tylsänä ja hyvin nimettynä, ja annamme huippumallien tehdä raskaan osan.

  4. 04

    Suullisuus

    Ong osallistuvan suullisen viestinnän luonteesta. Ääni on lähempänä luonnollista yhteistyötä kuin laatikkoon kirjoittaminen. Push-to-talk ei ole temppu, se on oikea käyttöliittymä.

Alaviitteet

  • Pullonkaula

    Tämän päivän huippumallit on optimoitu "autonomista, pitkäkestoista" käyttöä varten. Tuore mallikortti myöntää, että "kun käytetään interaktiivisesti, synkronisesti, kädet näppäimistöllä, mallin hyödyt olivat vähemmän selvät". Suurin osa todellisesta työstä on interaktiivista. Katchy on rakennettu suoraan tätä tapausta varten.

  • Kaistanleveys

    Chat on yksi lanka: kunnes lopetat kirjoittamisen, malli ei aisti mitään; kunnes se lopettaa generoinnin, et aisti mitään. Thinking Machines kutsuu tätä kapeaksi kanavaksi ihmis-AI-yhteistyölle. Ääni + tuore kuvakaappaus on paljon leveämpi kanava.

  • Vuorovaikutusmalli + taustamalli

    Heidän ehdottamansa arkkitehtuuri koostuu kahdesta puoliskosta. Vuorovaikutusmalli, joka pysyy läsnä ja synkronisena. Taustamalli, joka ottaa pidemmän aikavälin työn asynkronisesti. Katchy istuu siististi: valikkopalkki on vuorovaikutusmalli, agentin silmukka on taustamalli, ja ne jakavat kontekstin.

Viimeinen juttu

Yksi pikanäppäin.
Koko käyttöliittymä.

Kolme minuuttia ladata. Yksi sointu muistettavaksi. Nolla euroa, joka päivä tästä lähtien kaikkeuden lämpökuolemaan asti.

Lataa KatchyTakaisin etusivulle

macOS 14.2+ · Apple Silicon ja Intel · ~860 MB