AirJelly 發布了內測版本。
這是一款桌面端 AI 助手——通過屏幕截圖捕捉你的工作上下文,理解你的意圖,并主動幫你執行任務。
開發團隊叫「持續低熵」(Low Entropy AI),創始人柏特是一名 00 后。去年他在字節主導了一款名為 MineContext 的上下文工程產品,隨后便離職創業,很快拿到了來自五源資本的第一筆融資。
「MineContext 是 AirJelly 的腳手架。」
AirJelly 的核心理念是:不追求全量記錄用戶行為,而是以 Enter 鍵為錨點,捕捉用戶每一次表達意圖的瞬間。基于這些意圖,AI 將行為建模為任務,主動推送下一步建議,甚至直接幫你完成。
「人的行為是一條軌跡,全量收集所有線條不方便,但記錄其中的關鍵點,點和點之間 AI 是能補出來的。」
從「回答你的問題」升級到「預測你的下一步」,AirJelly 的口號是「Next Enter Prediction」,野心很大,但很讓人期待。
![]()
以下是 Founder Park 與 AirJelly 創始人柏特的對話,經編輯整理。
產品官網:https://www.airjelly.ai/
??關注 Founder Park,最及時最干貨的創業分享
超 22000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的 AI 產品曝光渠道
0100 后團隊,從字節出走
Founder Park:介紹一下你們整個團隊,以及之前的一些經歷。
柏特:我 2021 年在西安電子科技大學讀的本科,人工智能專業。本科期間,在 SwanLab、DataWhale 有一些開源項目經歷。
大二那年,我去奇績創壇做 Campus Scout,看了不少項目。當時對創業的認知更多來自奇績的理念。大三在西電,也有幸獲得了挑戰杯的國金,因此積攢了不少創業的技能點
后來保研拿到了復旦的 offer,但因為一些機緣巧合沒去成。2025 年,去西湖大學做了幾個月 research intern,本來準備再申請博士,這兩段寶貴經歷也讓我接受了一些簡單的科研訓練。
大概在去年 5 月底,我之前在字節實習過的團隊說要招一個負責開源的產品經理,day1 就能直接 lead 項目。我當時判斷,在字節這樣的平臺能直接負責項目是最寶貴的機會,在經過了漫長的七輪面試之后,我加入了字節。
入職后,我看了一些前沿方向,決定瞄準 Context Engineering,做一個開源應用叫 MineContext。花了兩個多月時間,發布了產品。這個項目在社區內有了一定知名度,一路上曲折的經歷,讓我積攢了運營,商業,產品,開源以及科研相關的技能點,加上機會非常難得,于是過往的人生 connect the dots,命運的推背感促使我決定出來創業了。出來花了不到一個月融了第一筆錢,初始團隊就是在字節一起共事過的小伙伴,大家意愿都不錯,幾個人就一起出來了。
Founder Park:團隊現在大概什么規模,是線下還是遠程?
柏特:團隊算上正職和實習生總共 11 個人,都在北京線下辦公。我們認為線下溝通更高效、更敏捷,很多事可以直接講掉,不需要專門拉會議。
我們團隊最大的特點,可以拆成三個 A:
第一個是 Agency,高度自驅。我們沒有打卡制度,同事經常半夜看到有意思的東西也會在群里發。我們總結了一個「兩點半定律」,當然不是強迫的——有人版本開發得爽了可能自己就干到兩三點。我們最新的版本是昨天凌晨 3:56 一個同事自己打磨完發出來的。
第二個是 Ambitious。大家都待過字節,是那種對大廠祛魅的年輕人,希望在 AI 時代做出更偉大的事情。
第三個是 AI Native。團隊基本都是 00 后,高度使用 AI 工具來最大化工作效率。所有 AI 工具都支持報銷,如果有人發現好的工具安利給大家用上了,還會拿到額外獎勵。
Founder Park:團隊現在還在招人嗎?
柏特:求賢若渴。第一個是 Agent 開發,我們希望能招更多 10 倍乃至 100 倍 AI 工程師;第二個是算法崗,VLM 后訓練、記憶系統、Proactive 觸發,都有不少需要算法優化的部分;第三是 Marketing 相關的人才,我們認為這會是未來科技行業至關重要的崗位,attention is all you need!
我們團隊偏通才,全員都有 Coding 背景,包括我們的設計師,之前就在百度做過前端。
02純記錄 Context 工具賣不出錢
AI產品必須能交付結果
Founder Park:在字節時,你們做了 MineContext,到現在出來創業做了 AirJelly,中間的變化以及思考過程是怎樣的?
柏特:MineContext 最早的規劃不止做應用,底層框架也要做,但我們覺得應用是最好收集用戶反饋的方式,基于應用可以迭代出更敏捷的框架,所以先做了應用,叫「MineContext」,因為做的是上下文工程。
MineContext 到 AirJelly 有很大的不同。AirJelly 某種程度可以理解為,MineContext 是它的腳手架,但不是說優化一下就變成 AirJelly 了。中間我們也思考過很多方向,比如 Claude Code 的簡易化、任務管理編排、人機協作等等。
OpenClaw 出來之后,我們仔細研究了它背后那套 Pi 框架,發現效果非常棒。我們把它接入了原有的流程,再結合 MineContext 對屏幕理解和上下文捕捉的理念,產生了 1+1 大于 2 的效果。整個方向,大概在今年 2 月初定下來的。
Founder Park:之前的嘗試都跟 Context 相關嗎?
柏特:我們最核心的理念一直沒變,就是要獲取更多的 Context,也用了很多屏幕截圖做額外補充。唯一的區別是,我們之前在糾結做純粹記錄的工具、編排類工具,還是帶有很強執行能力的工具。后來經過了大量用戶訪談,決定了目前這個形態。
Founder Park:MineContext 是收集上下文,到現在的 AirJelly 是直接交付結果,為什么要做這個轉變?是覺得單純收集上下文在現階段不太夠了嗎?
柏特:對,MineContext 核心做的是收集和分析,產出各種報告,日報、Insight、提示等等。AirJelly 最初也曾想過只做收集不做執行,但后來發現幾個問題。
第一,純粹收集分析這種形態,過去互聯網有過先例,但你會發現它賣不出去錢——用戶付費意愿非常低,最多接受一次性永久付費。但 AI 時代我們需要消耗 Token,這根本不成立。
第二,純記錄的東西使用頻率會很低,可能偶爾想著去看一眼。一直在幕后,很難讓用戶注意到它,天花板也比較低。
后來我們試著接入了 Pi 框架,發現結合上我們的上下文,它能交付的結果非常棒。同時我們一直想做 Proactive,如果有很棒的 Context,把它建模成用戶的意圖和行為軌跡,再加上強大的底層 Agent 能力,就有望邁向一種非常通用的 Proactive Agent。所以最終決定要做 Proactive Agent。
03全量記憶記錄,對用戶來說毫無價值
Founder Park:從你們最開始對于產品的設想到現在的最新版本,在功能或者方向上有什么大的調整嗎?
柏特:第一個是,我們一開始想完全不做 chat 的形式,因為當時感覺這個形態太老套了,大家都在做。后來 Pi 框架之后,發現有 chat 的能力確實非常強,加上我們的記憶也能更大化地利用,所以最后還是把 chat 加回來了。
另一個是,我們最早是做全量記錄的,有一系列智能策略,比如防抖、判斷什么時候該截什么時候不該截。后來做了一個實驗:換成只在按 Enter 時截圖,結果發現效果還可以。
全量記錄可能收集到 60 分的信息,但有 5 分的錯誤。換成 Enter 后可能剩 50 分信息,但錯誤只有一兩分。人對錯誤的容忍度很低,一個錯誤推送比少記幾件事更容易讓用戶覺得產品不好。
舉個例子:你在刷朋友圈,剛好看到朋友發了一個帖子,全量截圖可能把這個截下來,以為你要做這件事,這就是 5 分的錯誤,實際上對用戶來說毫無價值。
同時,在成本上有巨大下降的。沒有 Enter 機制前,每天截圖大概約 1500 張,有了之后平均 300 張,成本直接降為了原來的五分之一。再有就是,用戶可控性也更好,有 Enter 的話,用戶大概知道什么東西是會被截圖的,有這個感知。
Founder Park:在產品前期階段,你們會看哪些關鍵指標來判斷功能設計是否達到預期了?除了日活、使用時長。
柏特:我覺得最核心的是兩個點。第一是 Token 消耗量,尤其是用戶用 Agent 做任務時的消耗,這能證明我們的 Agent 能力,也能證明記憶加 Agent 能力給用戶帶來了真實價值。日常分析的消耗是偏固定的,做任務的消耗才是核心指標。
第二是 Proactive 接收率。我們的整條鏈路是:截圖 → 分析 → 建模成 Event → 歸納成 Task → 推斷 Next Step → 觸發 Proactive → Agent 執行 → 推送給用戶。如果用戶愿意接收這個 Proactive,代表整條鏈路基本都是好的;如果不愿意,可能整條鏈路某個環節做錯了。
我們最早的版本,Proactive 和截圖、Task 沒有完全打通,用了一些其他機制。后來把整條鏈路打通之后,對整體優化來說是更理想的情況。
Founder Park:你們會預期用戶用 Agent 完成什么任務?
柏特:理論上 OpenClaw、Cowork 的用戶能做什么,我們都能完成得更好,因為有更多的 Context。
我自己日常基本就只用我們這個產品了,之前還會用 Manus、Gemini、Cursor,現在基本都不用了,不管是調研、寫產品文檔、還是寫代碼提交,都在這里閉環。我現在所有融資的 PPT 都是讓 AirJelly 做的,因為它知道我比較全量的信息,而且能力也比較強。
Founder Park:怎么讓用戶覺得可以把重要的事情放進來?會有一些引導嗎?
柏特:對,而且這是所有企圖做通用 Agent 的人必須面對的一個問題。你拿 OpenClaw 干什么,拿現在的 ChatGPT 干什么?其實未必一下子能完全說得出來,不同的人,有不同的用法。
一是,我們提供一個更全量的 Context 捕獲和記憶;其次是,我們能提供一個很好的 Agent 執行。我們內置了一些模板,比如你可以讓它分析你的工作情況,給你出一些下一步的計劃,或者出日報。下一步,根據不同職業或行為習慣的人,探索出一些有意思的用法。
Founder Park:所以,你們會根據用戶的一些行為,主動給他推一些可能跟場景相關的典型案例?
柏特:對。我們的一個設計原則是,AI 時代,不是一個設定死的 workflow。它能輸出什么,拿到不同的 Context 能達到什么樣程度,都是一個很難說的狀態。
我們相信兩個東西:第一是相信 AI,第二是相信用戶。用戶也許能發現更有意思的東西。包括我們自己也是用戶,最早也沒想著直接用它來給產品經理寫代碼,是用著用著后來發現可以的。很多東西未必是你預設好的,很多也是用戶探索的,但前提是你要提供給他很棒的 Context 收集和很棒的 agent。
04只需要記錄意圖的關鍵點,就能補出中間的「軌跡線」
Founder Park:你們自己是怎么理解 Context 的?
柏特:過去做 Context 的人,一般把它分為畫像和事件兩類,通過聊天來收集。我們現在更關注的是捕捉用戶的「意圖」,由意圖推導事件,再組織成任務。
過去的 Episodic Memory(事件記憶)就是「某人在某個時間做了什么事」,本質上是召回性的,知道某個時間點做了什么。但我們覺得一個事情最好能把它完整推下去、完整建模。
Founder Park:截圖想記錄的真正東西是什么?是用戶的決策過程嗎?
柏特:舉個例子:你在某個場合,基于某些已知上下文說了一句話。把這句話和前一句聯系在一起,AI 大概就能知道你在了解什么信息,進而推斷出你的意圖。兩次 Enter 之間,基于截圖的上下文,AI 能推斷出中間大概發生了什么。再有就是人的意圖表達,某種程度上也已經暗含了一些信息了。
我們把這些串起來組織成 Event,再基于 Event 推斷 Task。這樣不管是對用戶回顧、還是做 Proactive 推送都更有價值。散亂的「我做了什么」價值不大,但建模成 Task 之后,用戶方便回顧繼續,AI 也方便做主動觸發。
Founder Park:選擇「Enter」的形式,是覺得它代表用戶「確定要做某件事」的起點嗎?
柏特:Enter 不完全是一個開始,也可以是一個階段性的節點。你可以把人的行為理解為一條軌跡,全量收集這些軌跡不那么方便,但如果記錄其中的關鍵點,通過點和點之間 AI 能大概把中間的線補出來。同時基于這些點,也能預測你的下一個點可能是什么,然后做 Proactive 觸發。
我們最早是定時截圖,后來想能不能加入關鍵幀,比如 Enter 或點擊或 Ctrl+C/V。再后來發現 Enter 這一幀的價值最大,而且損失也沒那么多,就換成了 Enter。
Founder Park:不同軟件里的 Enter 行為差別很大,你們是怎么處理的?
柏特:我們除了屏幕權限之外還獲取了 Accessibility 權限,能知道 Enter 那一刻光標在哪里、在哪個應用。微信輸入框里的 Enter 和瀏覽器輸入框的 Enter 是不一樣的,Word 或 Notion 那種多行文本也能拿到背景信息。
所以按下 Enter 那一刻,我們會把「在什么應用里、輸入框是什么類型、當前在做什么、相關上下文」一起輸進去,不只是簡單截個圖做 OCR。
Founder Park:Cursor 記錄的是 Tab 鍵行為,你們記錄的是 Enter 鍵,有什么區別嗎?
柏特:Cursor 的 Tab 我覺得很大程度上是一個早期傳播和用戶心智的事情。你看他現在其實也都是用右側的 Agent 窗口,基本沒人用那個 Tab 了。但它最早能想到「通過 Tab 這個動作來觸發 AI」,說明這個洞察還挺好的。
我們也想打造類似的形象:人和 AI 的交互、搜索,都是通過 Enter。我們也想通過 Enter 這個動作,讓用戶直覺上把「輸入意圖」和「觸發 AI 感知」關聯在一起。
我們之后還會上一個功能叫「Next Enter Prediction」,就是基于你過去的行為軌跡,預測你下一次 Enter 要回什么、要提交什么。這個功能某種程度也是對 Enter 作為意圖錨點的進一步延伸。
05Task 是比時間線更好的記憶組織方式
Founder Park:AirJelly 現在的記憶系統大概是怎么樣的?怎么區分當下重要的和上周重要的東西?
柏特:數據庫都是在本地的,記憶系統分兩塊:靜態的信息建模成 Entity,比如某個人是誰、某個項目是什么,類似 Graph 的形式。動態的信息建模成 Task,了解這個事情的前因后果、做得怎樣、之后可以怎么做。
召回時會綜合向量檢索和關鍵詞檢索并疊加一些 Agentic RAG 的機制,在記憶權重上我們會有一套時間衰減機制,比較遠,召回少的記憶的時間權重低一點。
Founder Park:現在的記憶機制,和你們去年做 MineContext 時相比,有什么大的區別?
柏特:MineContext 是「平鋪直敘」的——你的意圖、行為、過程,所有東西都平鋪著存,只用一個字段做區分。
AirJelly 是有進一步加工的:把你跟事件相關的東西,一步步加工成 Task,一個 Task 里包含了多條小的行為記錄。我們有一個洞察:Context 也有高低之分。首先是「意圖 Context」比較重要,其次是「Context 的組織程度」也有高低之分——就像 Coding Agent 把代碼組織成目錄結構,目錄本身隱含的信息量非常大。
我們把截圖和行為組織成 Task → Event 的層級,你先召回 Task,再看它下面有哪些 Event、意圖和截圖,然后做進一步的分析,這比全散著一股腦召回要好非常多。
Founder Park:這個「Task」里面包含什么?
柏特:大概包含:標題、核心摘要、創建時間、完成情況、Progress、Next Step、關鍵詞(用了什么應用、大概什么內容),以及下方的 Event 列表,各個小階段做了什么,怎么拼接成了當前的 Task 狀態。這些全由 AI 來判斷和寫入。
同時,之后 Task 和用戶自己創建的 Todo 也會是打通的:用戶主動添加的 Todo,日常被自動識別的相關行為也會自動吸附上去。
Founder Park:為什么選擇用數據庫的形式,不是 Markdown 文件?
柏特:Markdown 是一種挺好的形式,但在我們這個場景下有點偷懶。OpenClaw、Rewind、Dayflow 很多產品最核心的是時間,某個時間做了什么事。但在 AI 時代,你做事情未必是連續的,你可能早上做一下,下午再做一下。按時間記錄不完全合理,還是應該按任務記錄。
再有就是 Token 消耗問題。Markdown 的方式,你想找某個東西可能得大量地讀,修改也得把內容扔給 AI 分析再改,有大量隱性消耗。而我們用數據庫,召回時篩選最相似的部分就行,不需要把所有內容都讀一遍。
06下一步,想做「Next Enter Prediction」
Founder Park:怎么理解你說的「Next Enter Prediction」?
柏特:比如你在某個微信群回了一條消息,然后切去 ChatGPT 或 Gemini 討論了一會兒,再切回這個微信群,這時候你大概要說什么?如果上下文足夠,AI 是能推理出來的。
我們未來可能會實現這樣的效果:基于你的 Session 切換和記錄的上下文,等你下次切回某個聊天窗口時,直接推斷「你可能想回復 XX」,提供幾個選項,你通過一個簡單的交互確認就發出去了,不需要自己打字了。
Founder Park:如果這個設想再進一步,能不能在你還沒切回來頁面的時候就直接替你做了?
柏特:對,其實我們現在的 Proactive 已經是在推斷你的下一步可能是什么,然后幫你做了。但「直接幫你想好要回什么」這件事,它其實并不比直接幫你做更多,但給人的感受會更妙,讓用戶感知到了「AI 在這個時刻知道你要干什么,而且把內容都給你準備好了」。而且通過不斷選擇選項,也能越來越準確地建模用戶的偏好。
Founder Park:你們現在是怎么判斷,什么時候彈一個 Proactive 推送的?
柏特:我們現在的做法是:只要觸發了新的 Task 或者 Task 有更新,就會有新的 Next Step 進入推送池。然后判斷兩個條件:推送的閾值夠不夠、最近是不是太頻繁了。兩個都滿足,就彈出來了。
我們其實沒有完全判斷用戶是不是在專注。這個設計來自我在字節的一個靈感,我們在字節不開會的時候大家做自己的事,你在專注工作,旁邊的人突然說「黃柏特這個東西你幫我看一下」,或者「黃柏特這個我搞完了你看下」。這種打擾程度其實還好,但它是非常高效的協作方式。我們想實現類似的效果。
最終決定權還是在用戶手里,你可以選擇現在處理,或者先忙完手里的事再處理。
Founder Park:現在截屏的時候,桌面的水母會有一個小的喂食設計。
柏特:對,觸發的時候水母喂一塊餅干或者小龍蝦這種形式,有一種通過 enter 養水母的感覺。這樣既讓用戶有感知,又不會太突兀。
Founder Park:你預想的 Proactive 終極畫面是什么樣的?
柏特:我們能收集你的意圖、最近的 Task 列表、在什么工具里完成的、一般通過什么方式完成的,這些我們都能收集到。加上強大的 Agent 能力,理論上可以 7×24 小時執行。
現在的任務是人設定的,所以執行偏單線程。但假如 Agent 能基于你的行為建模出你可能有 5 個任務要做,這 5 個任務你真的需要做但你不知道,同時幫你把這 5 個任務都執行了,那就是多線程的 Proactive 人機協作,效率會大幅提升。
Founder Park:幫人類發現可能漏掉的、值得去做的事,甚至 agent 直接把這個事幫你完成了。
柏特:對,比如說我今天有幾件確定的事,跟 Founder Park 的專訪、下午去聊融資、以及要準備發邀請碼。這幾件事各自還會有前置任務,比如準備怎么回答、準備一版 PPT。理論上這些確定性都比較強的事情,Agent 都可以并行跑起來。
過去的主動式 Agent 產品能在 15 分鐘內推一件事就不錯了,多了就是打擾。但如果足夠準、跟你的任務足夠相關,5 分鐘推 5 件事也不是不可能。甚至不需要固定時間,判斷出你在準備這個大綱的內容就直接幫你寫了。執行可以做得更激進,但需要 Task 識別和 Proactive 接受度都得達到一個閾值。
07Aha Moment,是讓用戶第一次感受到「AI 真的懂我」
Founder Park:你們做用戶調研的時候找了哪些人?核心用戶畫像是誰?
柏特:前期調研了 MineContext 的早期核心用戶,找了產品經理、在讀博士生和 Marketing 從業者。我們認為這幾類人能提出更有價值的見解。
理論上對所有知識工作者都有價值,人都有記錄的需求。但如果一定要有畫像,最核心的三類是:
第一是超級個體(OPC),就是那種多線程、高度自驅的獨立工作者;第二是 ADHD 人群,他們天然多線程、頻繁切換,對記錄和組織有強需求。我們其實最早第一版 BP 就預設了面向 ADHD 人群的場景;第三是初創公司團隊,他們需要知道自己時間花在哪里,跟哪些內外部的人產生聯系,高效記錄并在之后使用。
我們自己團隊的設計師、產品經理就是高強度用戶。隨著 AI 的發展,多線程工作的人也會越來越多。
Founder Park:你們希望在哪個環節讓用戶感覺到這個產品的 aha moment?
柏特:我自己有兩個 aha moment。第一個是直接讓 AirJelly 給自己寫代碼——因為它有很強的記憶能力,知道 AirJelly 本身的進展,能通過本地文件或群聊了解到信息,再加上比較強的 Coding 能力,可以直接自己分析、交流、寫代碼。
但這個可能不是面向通用用戶的。對通用用戶來說,產品初始狀態是一個普通的對話界面。在你按了幾次 Enter 記錄了一些信息之后,它會有更多你的上下文,然后彈出一個 Proactive,我覺得這個應該是第一個能讓用戶感受到 aha 的時刻。
我們現在的 Onboarding 做法是讓用戶選擇職業,選完之后右側會展示這類職業常用的場景,以及基于這些場景可能出現的 Proactive 效果,讓用戶提前感知到。
我們在尋找兩種 case:第一種是「很快」,用了幾分鐘、按了幾次 Enter 之后,它能出一個跟你剛才在做的事相關的 Proactive,哪怕比較簡單,也能讓用戶感知到「它在關注我」。第二種是「最 magical」,一定是只有 AirJelly 才能實現的場景。
Founder Park:你們的產品想給新用戶呈現什么樣的感覺?比如,他剛剛安裝完之后,應該怎么用?
柏特:我們其實想給用戶帶來的感覺是,有了 AirJelly 之后,你不需要有任何額外的操作,你只是像往常一樣與人交流,使用 AI,檢索信息。你的全部意圖都能被記錄下來,你可以隨時查看自己在什么時間做了什么,自己在推進哪些任務,偶爾還會有 AI 伙伴出來主動幫你完成任務。
此外產品會有一個「養水母」的概念,桌面上有一只水母,有點像皮卡丘或者超能 nono。水母記錄了你的 enter 次數,以及它最近給你提的 Proactive,你可以選擇執行或忽略,通過這種方式讓水母和你的同步越來越準。
08最終目標是降低用戶日常工作、認知的「熵增」
Founder Park:你們團隊的名字有什么寓意嗎?
柏特:我們團隊的中文名叫「持續低熵」,英文叫 Low Entropy AI。熵在物理學里是熱力學第二定律,衡量混亂和有序,是非常第一性的原理,某種程度比萬有引力還要更本質。
名字有三層含義。
第一層是產品層面:我們希望產品能給用戶帶來有序,
第二層是生物學層面:薛定諤說過「生命以負熵為食」,保持低熵代表一種活力。我也希望團隊能始終保持活力,哪怕以后變大了也不會得大公司病。我們的公司 Slogan 是「Context,Not Control」——多給上下文,少搞控制。這也借鑒了字節和亞馬遜的管理哲學。
第三層是人工智能層面:交叉熵損失函數代表預測分布和真實分布之間的距離。我們希望通過人機協作,讓人逐步更深刻地認識自己的行為和工作本質。
Founder Park:熵這個東西其實還蠻好玩的。之前 Elys 的創始人也說過,想用 AI 來減少人與人之間交互的熵增。我覺得你們有點異曲同工之妙。Elys 想解決的是人與人之間去除干擾和誤解后的高效交流。
你們的低熵指的是人和人之間的,還是人和各種事物之間的?
柏特:我們認為第一層肯定是人和人之間的,第二層是人和 AI 之間的,以及未來可能會有 AI 與 AI 之間的。但我們現在最希望的是第一層:用我們這個產品能把日常工作的認知負載盡量結構化、盡量有序。
Elys 這個產品我們也測試過,他們公司叫「自然選擇」,也提過用人機協作來降低熵——他們想解決的是人和人之間的,去除干擾和誤解之后的高效交流。我們瞄準的是人在工作和認知上的有序狀態,異曲同工。
「持續低熵」這個名字在投資圈里反應很好,當你把它扔給對方,他會覺得「這還挺妙的」。水母的意象我們也覺得很好,快人一步搶注了這兩者我們還是非常興奮的。
Founder Park:明白了,就是追求在各種關系里面都達到一個更穩定、更高效的狀態。
柏特:對,我們公司的 slogan 也是。第一條是「Context,not control」,更多的上下文,更少的控制,這個既是產品理念,也是我們公司的哲學。還有一點是「Clarity,from chaos」,從混亂到秩序。
我們希望保持的其實不是一種僵死的有序,希望擁抱一定的混亂,然后從混亂中誕生出有序。這也是我們的一個追求,因為某種程度的混亂也能帶來更多的可能性,但我們最終是要把它塑造成一種低熵、一種秩序。
Founder Park:AirJelly 的名字是怎么來的?
柏特:AirJelly 的名字來源于設計理念。
首先是我們希望產品能夠連接各處的 Context,有一種無處不在有足夠輕靈的感覺,就像空氣一樣,于是想著帶上 Air;另外我們做屏幕截圖和理解,這是一個比較激進的事情,需要在設計上做大量工作來降低用戶的心理負擔。我們最早想叫 Aether,以太是光的介質,感知能力很強。但后來覺得最好做一個動物形象——從 LLama 開始很多 AI 項目都用動物形象,在傳播上和用戶感知上也更好接受。找了大量動物形象之后,發現水母感知能力很強,同時又非常簡單,疊加上「輕靈」的理念,就叫了 AirJelly。
用戶調研時,我們拿了具體的水母形象設計給一些人看,大家的反應是「一看就非常可愛」,就用了目前這個版本。
Founder Park:水母的形象太可愛了,有些用戶會不會把它當桌面小寵物,影響對工作助手的認知?
柏特:我們這代人都知道寶可夢和數碼寶貝,那些形象也很可愛、隨身攜帶,但能力非常強。OpenClaw 是龍蝦形象,大家不會因為覺得它可愛就覺得它沒能力。能力本身用戶實際體驗是不受影響的,但怎么讓用戶愿意絲滑地體驗進來,第一步還是設計得溫和可愛一些。
還有,OpenClaw 這一波傳播挺有意思的,「養蝦」都成了一個流行詞了。我們也希望「養水母」能有類似的傳播效果。
Founder Park:用戶的隱私問題,現在你們是怎么解決的?
柏特:我們有 PII(個人識別信息)脫敏技術,能涂掉或替換敏感信息。實際處理的圖片也不是原始圖片,我們會判斷哪些是重心部分,只截取重心區域。這套涂抹機制目前還在評估中。
我們確實也想試探下「水溫」,用戶到底能接受到什么程度?這個問題其實連我們自己也不確定。
我們也做好了被罵的準備。被罵有兩種情況:一種是做得太爛,那沒得救;另一種是做得比較激進、具有變革性,這種也會被罵,但我覺得這不完全是壞事。
理想情況是達到 OpenClaw 那種狀態:有人 concern,有人罵,但整體上可控。在 AI 時代,大家對激進產品的接受度和嘗鮮意愿都比以前高了很多,這是有利的環境。
09ScreenMemory,在 PC 端仍然是一片「空白地帶」
Founder Park:你們怎么看 AirJelly 的競品?
柏特:Rewind 和 Recall 現在基本都不做了。在 PC 端,其實是一個「空白地帶」。
我覺得 Rewind 最有意思,他們剛出來的時候,VLM 還不行,用的都是 OCR。把數據沉淀下來之后,因為 Agent 能力不夠強,加上用的是 OCR 圖片,做不了太多事情,可能就是問問「什么時候做了什么」,價值非常有限。
在硬件方面,LOOKI 想做的故事跟我們有點像,All in Proactive。但我們和 LOOKI 不同的是,不做全量記錄,更多是以意圖為導向。
Founder Park:PC 端之前有很多嘗試,但到今天好多都沒做了。
柏特:ScreenPipe 還在做,但產品化能力不太行。Dayflow 也是類似的問題。
現在的節點有一個很大不同的是,Agent 能力足夠強了,模型加框架都強了很多,記憶也做得更好,召回的東西的價值能被更大程度體現出來。所以這是一個比較好的節點,但還是需要有執行能力,不能只做記錄和分析。
MineContext 當時也有一個簡單的對話,但用的是其他家的大模型,也沒用上 OpenClaw 的底層框架,召回推斷做得都不行。我們現在模型強了、框架強了、記憶做得更好,體驗會比以前好非常多。
Founder Park:你們擔心大廠來做同樣的事嗎?
柏特:我在字節待過,對大廠的認知比較清楚。核心項目資源是夠的,但流程很長;非核心項目,資源其實比創業公司少很多,MineContext 當時就是這種感覺。
再有一點是,大廠對隱私類產品決策很謹慎,未必敢第一個「吃螃蟹」。我們上了,他們可能才會跟上。
如果大廠下場,第一反應應該是:說明方向對了,我們估值要漲(笑)。其次,我們長期會是一個入口級的產品,大廠做了,大家也都會需要這樣類似的機會。
最后還有一個點是,我們在大量存記憶,用戶用得越久越舍不得離開,所以這是一個天然的護城河。
Founder Park:AirJelly 最終會是什么形態?
柏特:長期會是一個入口級的產品。接下來,我們會做團隊版,每個人有自己的 AI Agent,兩個 Agent 之間可以相互交流,判斷有沒有需要同步的信息。如果你想了解同事最近的工作進展,直接問你自己的 Agent 就行。我甚至覺得這是一種未來的團隊協作形態。我們內部已經在試用了,我們會在充分打磨好權限管理后推出這個功能,如果你想提前體驗有兩個方法,加入我們,或者成為我們的投資人哈哈。
Founder Park:你覺得 AI 個人助手在未來兩年,會發生什么變化?
柏特:從更長期的來看,未來每個人都要有自己的 Agent。
我覺得 Agent Network 是必然的一個方向。最近 Moltbook 被 Meta 收購了,Agent 之間可以互聯互通的協議會逐漸成型。
Agent 之間通過開放協議連入某個公共平臺進行交流和社交,可能是替你進行一些社交,或者代替你跟別人的 Agent 交換信息。這時候誰的 Agent 有最多、最有效的記憶,誰的個人助手就更不一樣。協議是開放的,所以未必只能用某一個工具,記憶的積累才是最核心的壁壘。
![]()
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.