Omadus 01
Kohalolu
Me jagame sama objekti. Katchy vaatab sama akent, sama lõiku, sama Figma kaadrit, mida sina. Ta ei arva kirjelduse põhjal, ta loeb samu piksleid, mida sinagi.
Katchys
ScreenCaptureKit ühe kaadriga, piiratud aktiivse ekraaniga.
Üks kiirklahv. Neli väikest etappi. Kolm tipptasemel mudelit. Lühike essee suhtlusmudelist sõbraliku, tasuta, natiivse macOS-i rakenduse taga, mis vaikselt teeb peaaegu kõike, mida sa suudad valjusti kirjeldada.
Esmalt lokaalne · GPT · Claude · Gemini · macOS 14.2+ · Apple Silicon ja Intel
Märkus enne alustamist
Vabandust laia auditooriumi ees: oleme selle projektiga alles nädal aega, nii et võid komistada ühe-kahe vea otsa. Paigame kiiresti ja oleme väga-väga tänulikud, et tulid vaatama. :D
Liidese kuju otsustab, mis on võimalik. Vestlus pani meid mõtlema. Tööriistade kasutamine pani ehitama. Agendid lasid lõpuks mudelil puudutada sama ekraani, mida sinagi. Kõik lõbus elab selles kolmandas ajastus ja Katchy on väikseim, vaikseim, kõige-Macintoshilikum aken sinna, mida me suutsime teha.
Lehe ülejäänud osa on kapotialune juhend. Mis toimub klahvivajutuse ja vastuse kõrva jõudmise vahel. Miks me suuname sõltuvalt küsimusest erinevasse tipptasemel mudelisse. Mis sinu Maci kunagi ei lahku. Püüdsime hoida lühidalt.
01b · Tees
Omadus 01
Me jagame sama objekti. Katchy vaatab sama akent, sama lõiku, sama Figma kaadrit, mida sina. Ta ei arva kirjelduse põhjal, ta loeb samu piksleid, mida sinagi.
Katchys
ScreenCaptureKit ühe kaadriga, piiratud aktiivse ekraaniga.
Omadus 02
Tagasiside töö ajal, mitte pärast. Katchy vastab hetkel, mil sa lõpetad rääkimise, kuni küsimus on veel soe, pole saatmise nuppu, pole spinnerit, pole e-kirjade ketti.
Katchys
Kiirklahvist esimese tokenini umbes 80 millisekundit.
Omadus 03
Me mõlemad saame asju teha samal ajal. Sa kirjutad edasi, kui agent nimetab ümber 47 ekraanipilti. Katchy mõtleb edasi, kui sa kerid. Kummalegi pole vaja oma korda oodata.
Katchys
Agendi tsükkel väljaspool peamist lõime, ⌘ . abil igal hetkel tühistatav.
Mida lugesime
Kolm omadust, peaaegu sõna-sõnalt Thinking Machines'i esseest suhtlusmudelite kohta. Nad väidavad, et päris koostöö, inimeste, koodi, kõigega, vajab kõiki kolme korraga. Enamik tänaseid AI-süsteeme on häälestatud autonoomseks tööks ja jätab need täiesti vahele. Katchy on ehitatud just interaktiivse juhtumi jaoks.
01 · Suhtluse probleem
Sina kirjutad, mudel vastab. Sa kopeerid, kleebid, hüppad sakkide vahel. Võimas, aga mudel teab vaid seda, mida sa talle ütled, ja ei saa kunagi puudutada seda, mida sa näed.
Ainult mõte. Ei käsi, ei silmi.
Mudelid hakkasid API-sid kutsuma. Loe see fail. Otsi sellest andmebaasist. Saada see e-kiri. Imeline, aga sa pidid ikka iga tööriista koodis ise kokku panema.
Päris jõud, aga torustik oled sina.
Mudel vaatab sinu ekraani, hoiab plaani peas, tegutseb, kontrollib oma tööd ja küsib sinult ainult siis, kui tõesti vajab. Siin Katchy elabki.
Kus Katchy elab.
Vaheosa · ribalaiuse probleem
“Nagu lahendada vaidlusi
e-postiga, mitte
näost näkku.”
Vestlus on üks niit: kuni sa pole kirjutamist lõpetanud, mudel ei taju midagi; kuni see pole kirjutamist lõpetanud, ei taju sina midagi. Kanal on kitsas. Hääl pluss värske ekraanitõmmis on palju laiem kanal, ja sellepärast Katchy räägib, mitte ei kirjuta.
02 · Ühe päringu anatoomia
Iga päring liigub sama nelja etapi torustikku. Klõpsa etapil või lihtsalt vaata, diagramm liigub paari sekundi tagant ise ja peatub hetkel, kui võtad rooli.
The moment both modifiers go down, Katchy opens a low-latency audio buffer through CoreAudio. While the chord is held the waveform streams into a ring buffer; the instant you let go the recording stops. Nothing is sent until you finish speaking.
02b · Arhitektuur
Ees · sünkroonselt
Jääb kohale, kui sa räägid. Hoiab vestlust lühiajalises mälus. Jälgib, kas mõtled, annad sõna või segad. Vastab umbes silmapilgu jagu.
Taga · asünkroonselt
Võtab enda peale aeglase, kestva töö. Mitmesammuline agendisilmus tööriistadega: failisüsteem, AppleScript, Shortcuts, brauser. Planeerib, tegutseb, loeb oma väljundit, proovib uuesti. Annab teada, kui valmis.
See on Thinking Machines'i pakutud kaheosaline arhitektuur miniatuuris. Suhtlusmudel annab sulle väikese mudeli reageerimiskiiruse. Taustamudel annab suure mudeli planeerimise ja tööriistakasutuse. Nad jagavad konteksti. Õmblusi sa ei näe.
03 · Pakk, kiht kihi haaval

01 · Kuulab
Hoia Control ja Option. macOS püüab heli lokaalselt CoreAudio kaudu. Lainekuju transkribeeritakse seadmes, kui võimalik, seejärel kärbitakse ja saadetakse ainult siis, kui on vaja tipp-mudelit.

02 · Näeb
Kui küsimus vajab konteksti, võtab ScreenCaptureKit ühe sihiku kaadri. Katchy ei voogeditud videot, ei salvesta pidevalt, ei säilita ekraanipilte pärast vastust.

03 · Mõtleb
Katchy suunab päringu sellele tipp-mudelile, kes selle parimini lahendab. Pikad PDF-id Claude'ile. Visuaalsed asjad Geminile. Kood ja kiired parandused GPT-le. Marsruuter valib, sina jääd liikumatuks.

04 · Tegutseb
Sõbralik kolmnurk osutab vastusele, kui piisab ühest klikist. Mitmesammuline agent töötab taustal, kui on vaja kümmet. Nad jagavad mälu, lülituvad sinuga koos välja.
04 · Marsruuteri otsus
Väike klassifikaator loeb sinu transkriptsiooni ja lehe tokenid ning suunab iga päringu sobivaimasse mudelisse. Proovi mõnda ise, marsruuter näitab oma tööd.
Proovi küsimust
“Tee kokkuvõte sellest 60-leheküljelisest PDF-ist, mille just avasin”
Miks just see: Pikk kontekst, hoolikas arutlemine struktureeritud dokumendi üle.
05 · Kolm aju, üks menüüriba
OpenAI
Tuleb siia kiireteks editideks, koodi ülevaateks ja sellise struktureeritud ümberkirjutuse jaoks, kus tahad vastust pooleteise lauses.
Anthropic
Tuleb siia pikkade dokumentide, hoolika arutluse ja kõige jaoks, kus parem oleks mitte saada enesekindlat valet vastust.
Tuleb siia ekraanirohkete hetkede, graafikute, slaidide ja juhtumite jaoks, kus visuaalne on pool küsimusest.
06 · Võimekused
Lugemine ja kirjutamine
“Tee selle 60-leheküljelise PDF-i kokkuvõte”
Lugemine
“Sõnasta viisakas „ei"”
Kirjutamine
“Kirjuta kiire changelog”
Kirjutamine
“Tõlgi hispaania keelde”
Kirjutamine
“Jätka eilset mustandit”
Kirjutamine
“Genereeri nädala kokkuvõte”
Kirjutamine
Failid ja süsteem
“Nimeta ümber 47 ekraanipilti”
Failid
“Korista töölaud”
Failid
“Tõmba andmed sellest CSV-st”
Numbrid
“Muuda need PNG-ks”
Failid
“Ava viimane ekraanipilt”
Failid
“Kinnita Spotify menüüribale”
Süsteem
“Mida see käsk teeb?”
Terminal
“Tee sellest tabel”
Numbrid
Igapäevane voog
“Sorteeri postkast”
Post
“Ava see Cursoris”
Kood
“Tõsta standup ümber”
Kalender
“Sildi need fotod näo järgi”
Fotod
“Vaigista Slack tunniks”
Fookus
“Mis muutus selles failis?”
Kood
“Lisa see meeldetuletustesse”
Ülesanded
“Leia see PDF, mille kaotasin”
Otsing
Ja kõik muu
Need on vaid mõned sellest nädalast. Päris nimekiri on kõik, mida saad valjusti öelda, ekraanile osutades. Ülejäänu teevad agendid.
06 · Numbrites
tipp-mudelit ühes menüüribas
meile kuuluvat serverit, mitte kunagi
kiirklahv on kogu UI
kettaruumi kogu selle jaoks
kiirklahvist esimese tokenini
faili lahkuvad sinu Macilt, kuni sa palud
07 · Üle kogu sinu Maci






08 · Lokaalne seal, kus loeb
Heli salvestatakse RAM-i ja visatakse minema hetkel, kui päring lõpeb. Ekraanitõmmised jäävad mällu. Vestlused elavad sinu Application Support kaustas, mitte serveris.
Marsruuter lõikab heli vaid räägitud osani, peidab menüüriba ja dock'i igalt ekraanitõmmiselt ning ei saada kunagi vestlusajalugu, mida mudel ei vaja.
Anthropic, OpenAI ja Google võtmed elavad sinu macOS Keychainis. Me ei näe neid kunagi. Saad need välja võtta või vahetada igal hetkel.
⌘ . peatab päringu lennult. Agendid kontrollivad katkestuslippu igal tsüklil. Pole mingit “palun oodake, kuni korrastame”.
09 · Lühike lugemisnimekiri
Scotti praktilise teadmise mõiste. Stohhastiline, intuitiivne, lokaalne. Mõtlemine, mis sobib siis, kui ebakindlus on suur ja õige vastus sõltub ruumist. Agendid vajavad seda.
Tähtis teadmine elab konkreetses aja ja koha oludes. Ekraan sinu ees praegu ongi täpselt see teadmine. Katchy loeb seda.
Sutton. Käsitsi tehtud süsteemid jäävad alla üldisele võimekusele + skaalale. Seepärast hoiame pinda igavat ja hästi nimetatud ning jätame raske töö tipp-mudelitele.
Ong suulise suhtluse osalevast olemusest. Hääl on lähemal loomulikule koostööle kui kastiga trükkimine. Push-to-talk pole trikk, see on õige liides.
Joonealused
Pudelikael
Tänased tipp-mudelid on optimeeritud „autonoomseks, pikaajaliseks" kasutamiseks. Üks hiljutine mudelikaart tunnistab, et „interaktiivses, sünkroonses, käed-klaviatuuril mustris olid mudeli kasud vähem selged". Suurem osa päris tööst on interaktiivne. Katchy on ehitatud just selle juhtumi jaoks.
Ribalaius
Vestlus on üks niit: kuni sa pole kirjutamist lõpetanud, mudel ei taju midagi; kuni tema pole genereerimist lõpetanud, ei taju sina midagi. Thinking Machines nimetab seda kitsaks kanaliks inimese-AI koostöös. Hääl + värske ekraanipilt on palju laiem.
Vuorovaikutusmalli + taustamalli
Nende pakutud arhitektuur on kahepoolne. Vuorovaikutusmalli, mis jääb kohale ja sünkroonseks. Taustamalli, mis võtab pikema horisondi töö asünkroonselt. Katchy joonistub puhtalt: menüüriba on vuorovaikutusmalli, agendi tsükkel on taustamalli, ja nad jagavad konteksti.
Viimane asi
Kolm minutit allalaadimiseks. Üks akord meelde jätta. Null eurot, iga päev praegusest kuni universumi soojussurmani.