網易首頁 > 網易號 > 正文申請入駐

字節出來的 00 后團隊，做了一款主動式 AI 桌面助手：只記錄意圖，想「預測你的下一步」

2026-03-30 14:14:09　來源: FounderPark

北京舉報

分享至

AirJelly 發布了內測版本。

這是一款桌面端 AI 助手——通過屏幕截圖捕捉你的工作上下文，理解你的意圖，并主動幫你執行任務。

開發團隊叫「持續低熵」（Low Entropy AI），創始人柏特是一名 00 后。去年他在字節主導了一款名為 MineContext 的上下文工程產品，隨后便離職創業，很快拿到了來自五源資本的第一筆融資。

「MineContext 是 AirJelly 的腳手架。」

AirJelly 的核心理念是：不追求全量記錄用戶行為，而是以 Enter 鍵為錨點，捕捉用戶每一次表達意圖的瞬間。基于這些意圖，AI 將行為建模為任務，主動推送下一步建議，甚至直接幫你完成。

「人的行為是一條軌跡，全量收集所有線條不方便，但記錄其中的關鍵點，點和點之間 AI 是能補出來的。」

從「回答你的問題」升級到「預測你的下一步」，AirJelly 的口號是「Next Enter Prediction」，野心很大，但很讓人期待。

以下是 Founder Park 與 AirJelly 創始人柏特的對話，經編輯整理。

產品官網：https://www.airjelly.ai/

??關注 Founder Park，最及時最干貨的創業分享

超 22000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的 AI 產品曝光渠道

0100 后團隊，從字節出走

Founder Park：介紹一下你們整個團隊，以及之前的一些經歷。

柏特：我 2021 年在西安電子科技大學讀的本科，人工智能專業。本科期間，在 SwanLab、DataWhale 有一些開源項目經歷。

大二那年，我去奇績創壇做 Campus Scout，看了不少項目。當時對創業的認知更多來自奇績的理念。大三在西電，也有幸獲得了挑戰杯的國金，因此積攢了不少創業的技能點

后來保研拿到了復旦的 offer，但因為一些機緣巧合沒去成。2025 年，去西湖大學做了幾個月 research intern，本來準備再申請博士，這兩段寶貴經歷也讓我接受了一些簡單的科研訓練。

大概在去年 5 月底，我之前在字節實習過的團隊說要招一個負責開源的產品經理，day1 就能直接 lead 項目。我當時判斷，在字節這樣的平臺能直接負責項目是最寶貴的機會，在經過了漫長的七輪面試之后，我加入了字節。

入職后，我看了一些前沿方向，決定瞄準 Context Engineering，做一個開源應用叫 MineContext。花了兩個多月時間，發布了產品。這個項目在社區內有了一定知名度，一路上曲折的經歷，讓我積攢了運營，商業，產品，開源以及科研相關的技能點，加上機會非常難得，于是過往的人生 connect the dots，命運的推背感促使我決定出來創業了。出來花了不到一個月融了第一筆錢，初始團隊就是在字節一起共事過的小伙伴，大家意愿都不錯，幾個人就一起出來了。

Founder Park：團隊現在大概什么規模，是線下還是遠程？

柏特：團隊算上正職和實習生總共 11 個人，都在北京線下辦公。我們認為線下溝通更高效、更敏捷，很多事可以直接講掉，不需要專門拉會議。

我們團隊最大的特點，可以拆成三個 A：

第一個是 Agency，高度自驅。我們沒有打卡制度，同事經常半夜看到有意思的東西也會在群里發。我們總結了一個「兩點半定律」，當然不是強迫的——有人版本開發得爽了可能自己就干到兩三點。我們最新的版本是昨天凌晨 3:56 一個同事自己打磨完發出來的。

第二個是 Ambitious。大家都待過字節，是那種對大廠祛魅的年輕人，希望在 AI 時代做出更偉大的事情。

第三個是 AI Native。團隊基本都是 00 后，高度使用 AI 工具來最大化工作效率。所有 AI 工具都支持報銷，如果有人發現好的工具安利給大家用上了，還會拿到額外獎勵。

Founder Park：團隊現在還在招人嗎？

柏特：求賢若渴。第一個是 Agent 開發，我們希望能招更多 10 倍乃至 100 倍 AI 工程師；第二個是算法崗，VLM 后訓練、記憶系統、Proactive 觸發，都有不少需要算法優化的部分；第三是 Marketing 相關的人才，我們認為這會是未來科技行業至關重要的崗位，attention is all you need！

我們團隊偏通才，全員都有 Coding 背景，包括我們的設計師，之前就在百度做過前端。

02純記錄 Context 工具賣不出錢
AI產品必須能交付結果

Founder Park：在字節時，你們做了 MineContext，到現在出來創業做了 AirJelly，中間的變化以及思考過程是怎樣的？

柏特：MineContext 最早的規劃不止做應用，底層框架也要做，但我們覺得應用是最好收集用戶反饋的方式，基于應用可以迭代出更敏捷的框架，所以先做了應用，叫「MineContext」，因為做的是上下文工程。

MineContext 到 AirJelly 有很大的不同。AirJelly 某種程度可以理解為，MineContext 是它的腳手架，但不是說優化一下就變成 AirJelly 了。中間我們也思考過很多方向，比如 Claude Code 的簡易化、任務管理編排、人機協作等等。

OpenClaw 出來之后，我們仔細研究了它背后那套 Pi 框架，發現效果非常棒。我們把它接入了原有的流程，再結合 MineContext 對屏幕理解和上下文捕捉的理念，產生了 1+1 大于 2 的效果。整個方向，大概在今年 2 月初定下來的。

Founder Park：之前的嘗試都跟 Context 相關嗎？

柏特：我們最核心的理念一直沒變，就是要獲取更多的 Context，也用了很多屏幕截圖做額外補充。唯一的區別是，我們之前在糾結做純粹記錄的工具、編排類工具，還是帶有很強執行能力的工具。后來經過了大量用戶訪談，決定了目前這個形態。

Founder Park：MineContext 是收集上下文，到現在的 AirJelly 是直接交付結果，為什么要做這個轉變？是覺得單純收集上下文在現階段不太夠了嗎？

柏特：對，MineContext 核心做的是收集和分析，產出各種報告，日報、Insight、提示等等。AirJelly 最初也曾想過只做收集不做執行，但后來發現幾個問題。

第一，純粹收集分析這種形態，過去互聯網有過先例，但你會發現它賣不出去錢——用戶付費意愿非常低，最多接受一次性永久付費。但 AI 時代我們需要消耗 Token，這根本不成立。

第二，純記錄的東西使用頻率會很低，可能偶爾想著去看一眼。一直在幕后，很難讓用戶注意到它，天花板也比較低。

后來我們試著接入了 Pi 框架，發現結合上我們的上下文，它能交付的結果非常棒。同時我們一直想做 Proactive，如果有很棒的 Context，把它建模成用戶的意圖和行為軌跡，再加上強大的底層 Agent 能力，就有望邁向一種非常通用的 Proactive Agent。所以最終決定要做 Proactive Agent。

03全量記憶記錄，對用戶來說毫無價值

Founder Park：從你們最開始對于產品的設想到現在的最新版本，在功能或者方向上有什么大的調整嗎？

柏特：第一個是，我們一開始想完全不做 chat 的形式，因為當時感覺這個形態太老套了，大家都在做。后來 Pi 框架之后，發現有 chat 的能力確實非常強，加上我們的記憶也能更大化地利用，所以最后還是把 chat 加回來了。

另一個是，我們最早是做全量記錄的，有一系列智能策略，比如防抖、判斷什么時候該截什么時候不該截。后來做了一個實驗：換成只在按 Enter 時截圖，結果發現效果還可以。

全量記錄可能收集到 60 分的信息，但有 5 分的錯誤。換成 Enter 后可能剩 50 分信息，但錯誤只有一兩分。人對錯誤的容忍度很低，一個錯誤推送比少記幾件事更容易讓用戶覺得產品不好。

舉個例子：你在刷朋友圈，剛好看到朋友發了一個帖子，全量截圖可能把這個截下來，以為你要做這件事，這就是 5 分的錯誤，實際上對用戶來說毫無價值。

同時，在成本上有巨大下降的。沒有 Enter 機制前，每天截圖大概約 1500 張，有了之后平均 300 張，成本直接降為了原來的五分之一。再有就是，用戶可控性也更好，有 Enter 的話，用戶大概知道什么東西是會被截圖的，有這個感知。

Founder Park：在產品前期階段，你們會看哪些關鍵指標來判斷功能設計是否達到預期了？除了日活、使用時長。

柏特：我覺得最核心的是兩個點。第一是 Token 消耗量，尤其是用戶用 Agent 做任務時的消耗，這能證明我們的 Agent 能力，也能證明記憶加 Agent 能力給用戶帶來了真實價值。日常分析的消耗是偏固定的，做任務的消耗才是核心指標。

第二是 Proactive 接收率。我們的整條鏈路是：截圖 → 分析 → 建模成 Event → 歸納成 Task → 推斷 Next Step → 觸發 Proactive → Agent 執行 → 推送給用戶。如果用戶愿意接收這個 Proactive，代表整條鏈路基本都是好的；如果不愿意，可能整條鏈路某個環節做錯了。

我們最早的版本，Proactive 和截圖、Task 沒有完全打通，用了一些其他機制。后來把整條鏈路打通之后，對整體優化來說是更理想的情況。

Founder Park：你們會預期用戶用 Agent 完成什么任務？

柏特：理論上 OpenClaw、Cowork 的用戶能做什么，我們都能完成得更好，因為有更多的 Context。

我自己日常基本就只用我們這個產品了，之前還會用 Manus、Gemini、Cursor，現在基本都不用了，不管是調研、寫產品文檔、還是寫代碼提交，都在這里閉環。我現在所有融資的 PPT 都是讓 AirJelly 做的，因為它知道我比較全量的信息，而且能力也比較強。

Founder Park：怎么讓用戶覺得可以把重要的事情放進來？會有一些引導嗎？

柏特：對，而且這是所有企圖做通用 Agent 的人必須面對的一個問題。你拿 OpenClaw 干什么，拿現在的 ChatGPT 干什么？其實未必一下子能完全說得出來，不同的人，有不同的用法。

一是，我們提供一個更全量的 Context 捕獲和記憶；其次是，我們能提供一個很好的 Agent 執行。我們內置了一些模板，比如你可以讓它分析你的工作情況，給你出一些下一步的計劃，或者出日報。下一步，根據不同職業或行為習慣的人，探索出一些有意思的用法。

Founder Park：所以，你們會根據用戶的一些行為，主動給他推一些可能跟場景相關的典型案例？

柏特：對。我們的一個設計原則是，AI 時代，不是一個設定死的 workflow。它能輸出什么，拿到不同的 Context 能達到什么樣程度，都是一個很難說的狀態。

我們相信兩個東西：第一是相信 AI，第二是相信用戶。用戶也許能發現更有意思的東西。包括我們自己也是用戶，最早也沒想著直接用它來給產品經理寫代碼，是用著用著后來發現可以的。很多東西未必是你預設好的，很多也是用戶探索的，但前提是你要提供給他很棒的 Context 收集和很棒的 agent。

04只需要記錄意圖的關鍵點，就能補出中間的「軌跡線」

Founder Park：你們自己是怎么理解 Context 的？

柏特：過去做 Context 的人，一般把它分為畫像和事件兩類，通過聊天來收集。我們現在更關注的是捕捉用戶的「意圖」，由意圖推導事件，再組織成任務。

過去的 Episodic Memory（事件記憶）就是「某人在某個時間做了什么事」，本質上是召回性的，知道某個時間點做了什么。但我們覺得一個事情最好能把它完整推下去、完整建模。

Founder Park：截圖想記錄的真正東西是什么？是用戶的決策過程嗎？

柏特：舉個例子：你在某個場合，基于某些已知上下文說了一句話。把這句話和前一句聯系在一起，AI 大概就能知道你在了解什么信息，進而推斷出你的意圖。兩次 Enter 之間，基于截圖的上下文，AI 能推斷出中間大概發生了什么。再有就是人的意圖表達，某種程度上也已經暗含了一些信息了。

我們把這些串起來組織成 Event，再基于 Event 推斷 Task。這樣不管是對用戶回顧、還是做 Proactive 推送都更有價值。散亂的「我做了什么」價值不大，但建模成 Task 之后，用戶方便回顧繼續，AI 也方便做主動觸發。

Founder Park：選擇「Enter」的形式，是覺得它代表用戶「確定要做某件事」的起點嗎？

柏特：Enter 不完全是一個開始，也可以是一個階段性的節點。你可以把人的行為理解為一條軌跡，全量收集這些軌跡不那么方便，但如果記錄其中的關鍵點，通過點和點之間 AI 能大概把中間的線補出來。同時基于這些點，也能預測你的下一個點可能是什么，然后做 Proactive 觸發。

我們最早是定時截圖，后來想能不能加入關鍵幀，比如 Enter 或點擊或 Ctrl+C/V。再后來發現 Enter 這一幀的價值最大，而且損失也沒那么多，就換成了 Enter。

Founder Park：不同軟件里的 Enter 行為差別很大，你們是怎么處理的？

柏特：我們除了屏幕權限之外還獲取了 Accessibility 權限，能知道 Enter 那一刻光標在哪里、在哪個應用。微信輸入框里的 Enter 和瀏覽器輸入框的 Enter 是不一樣的，Word 或 Notion 那種多行文本也能拿到背景信息。

所以按下 Enter 那一刻，我們會把「在什么應用里、輸入框是什么類型、當前在做什么、相關上下文」一起輸進去，不只是簡單截個圖做 OCR。

Founder Park：Cursor 記錄的是 Tab 鍵行為，你們記錄的是 Enter 鍵，有什么區別嗎？

柏特：Cursor 的 Tab 我覺得很大程度上是一個早期傳播和用戶心智的事情。你看他現在其實也都是用右側的 Agent 窗口，基本沒人用那個 Tab 了。但它最早能想到「通過 Tab 這個動作來觸發 AI」，說明這個洞察還挺好的。

我們也想打造類似的形象：人和 AI 的交互、搜索，都是通過 Enter。我們也想通過 Enter 這個動作，讓用戶直覺上把「輸入意圖」和「觸發 AI 感知」關聯在一起。

我們之后還會上一個功能叫「Next Enter Prediction」，就是基于你過去的行為軌跡，預測你下一次 Enter 要回什么、要提交什么。這個功能某種程度也是對 Enter 作為意圖錨點的進一步延伸。

05Task 是比時間線更好的記憶組織方式

Founder Park：AirJelly 現在的記憶系統大概是怎么樣的？怎么區分當下重要的和上周重要的東西？

柏特：數據庫都是在本地的，記憶系統分兩塊：靜態的信息建模成 Entity，比如某個人是誰、某個項目是什么，類似 Graph 的形式。動態的信息建模成 Task，了解這個事情的前因后果、做得怎樣、之后可以怎么做。

召回時會綜合向量檢索和關鍵詞檢索并疊加一些 Agentic RAG 的機制，在記憶權重上我們會有一套時間衰減機制，比較遠，召回少的記憶的時間權重低一點。

Founder Park：現在的記憶機制，和你們去年做 MineContext 時相比，有什么大的區別？

柏特：MineContext 是「平鋪直敘」的——你的意圖、行為、過程，所有東西都平鋪著存，只用一個字段做區分。

AirJelly 是有進一步加工的：把你跟事件相關的東西，一步步加工成 Task，一個 Task 里包含了多條小的行為記錄。我們有一個洞察：Context 也有高低之分。首先是「意圖 Context」比較重要，其次是「Context 的組織程度」也有高低之分——就像 Coding Agent 把代碼組織成目錄結構，目錄本身隱含的信息量非常大。

我們把截圖和行為組織成 Task → Event 的層級，你先召回 Task，再看它下面有哪些 Event、意圖和截圖，然后做進一步的分析，這比全散著一股腦召回要好非常多。

Founder Park：這個「Task」里面包含什么？

柏特：大概包含：標題、核心摘要、創建時間、完成情況、Progress、Next Step、關鍵詞（用了什么應用、大概什么內容），以及下方的 Event 列表，各個小階段做了什么，怎么拼接成了當前的 Task 狀態。這些全由 AI 來判斷和寫入。

同時，之后 Task 和用戶自己創建的 Todo 也會是打通的：用戶主動添加的 Todo，日常被自動識別的相關行為也會自動吸附上去。

Founder Park：為什么選擇用數據庫的形式，不是 Markdown 文件？

柏特：Markdown 是一種挺好的形式，但在我們這個場景下有點偷懶。OpenClaw、Rewind、Dayflow 很多產品最核心的是時間，某個時間做了什么事。但在 AI 時代，你做事情未必是連續的，你可能早上做一下，下午再做一下。按時間記錄不完全合理，還是應該按任務記錄。

再有就是 Token 消耗問題。Markdown 的方式，你想找某個東西可能得大量地讀，修改也得把內容扔給 AI 分析再改，有大量隱性消耗。而我們用數據庫，召回時篩選最相似的部分就行，不需要把所有內容都讀一遍。

06下一步，想做「Next Enter Prediction」

Founder Park：怎么理解你說的「Next Enter Prediction」？

柏特：比如你在某個微信群回了一條消息，然后切去 ChatGPT 或 Gemini 討論了一會兒，再切回這個微信群，這時候你大概要說什么？如果上下文足夠，AI 是能推理出來的。

我們未來可能會實現這樣的效果：基于你的 Session 切換和記錄的上下文，等你下次切回某個聊天窗口時，直接推斷「你可能想回復 XX」，提供幾個選項，你通過一個簡單的交互確認就發出去了，不需要自己打字了。

Founder Park：如果這個設想再進一步，能不能在你還沒切回來頁面的時候就直接替你做了？

柏特：對，其實我們現在的 Proactive 已經是在推斷你的下一步可能是什么，然后幫你做了。但「直接幫你想好要回什么」這件事，它其實并不比直接幫你做更多，但給人的感受會更妙，讓用戶感知到了「AI 在這個時刻知道你要干什么，而且把內容都給你準備好了」。而且通過不斷選擇選項，也能越來越準確地建模用戶的偏好。

Founder Park：你們現在是怎么判斷，什么時候彈一個 Proactive 推送的？

柏特：我們現在的做法是：只要觸發了新的 Task 或者 Task 有更新，就會有新的 Next Step 進入推送池。然后判斷兩個條件：推送的閾值夠不夠、最近是不是太頻繁了。兩個都滿足，就彈出來了。

我們其實沒有完全判斷用戶是不是在專注。這個設計來自我在字節的一個靈感，我們在字節不開會的時候大家做自己的事，你在專注工作，旁邊的人突然說「黃柏特這個東西你幫我看一下」，或者「黃柏特這個我搞完了你看下」。這種打擾程度其實還好，但它是非常高效的協作方式。我們想實現類似的效果。

最終決定權還是在用戶手里，你可以選擇現在處理，或者先忙完手里的事再處理。

Founder Park：現在截屏的時候，桌面的水母會有一個小的喂食設計。

柏特：對，觸發的時候水母喂一塊餅干或者小龍蝦這種形式，有一種通過 enter 養水母的感覺。這樣既讓用戶有感知，又不會太突兀。

Founder Park：你預想的 Proactive 終極畫面是什么樣的？

柏特：我們能收集你的意圖、最近的 Task 列表、在什么工具里完成的、一般通過什么方式完成的，這些我們都能收集到。加上強大的 Agent 能力，理論上可以 7×24 小時執行。

現在的任務是人設定的，所以執行偏單線程。但假如 Agent 能基于你的行為建模出你可能有 5 個任務要做，這 5 個任務你真的需要做但你不知道，同時幫你把這 5 個任務都執行了，那就是多線程的 Proactive 人機協作，效率會大幅提升。

Founder Park：幫人類發現可能漏掉的、值得去做的事，甚至 agent 直接把這個事幫你完成了。

柏特：對，比如說我今天有幾件確定的事，跟 Founder Park 的專訪、下午去聊融資、以及要準備發邀請碼。這幾件事各自還會有前置任務，比如準備怎么回答、準備一版 PPT。理論上這些確定性都比較強的事情，Agent 都可以并行跑起來。

過去的主動式 Agent 產品能在 15 分鐘內推一件事就不錯了，多了就是打擾。但如果足夠準、跟你的任務足夠相關，5 分鐘推 5 件事也不是不可能。甚至不需要固定時間，判斷出你在準備這個大綱的內容就直接幫你寫了。執行可以做得更激進，但需要 Task 識別和 Proactive 接受度都得達到一個閾值。

07Aha Moment，是讓用戶第一次感受到「AI 真的懂我」

Founder Park：你們做用戶調研的時候找了哪些人？核心用戶畫像是誰？

柏特：前期調研了 MineContext 的早期核心用戶，找了產品經理、在讀博士生和 Marketing 從業者。我們認為這幾類人能提出更有價值的見解。

理論上對所有知識工作者都有價值，人都有記錄的需求。但如果一定要有畫像，最核心的三類是：

第一是超級個體（OPC），就是那種多線程、高度自驅的獨立工作者；第二是 ADHD 人群，他們天然多線程、頻繁切換，對記錄和組織有強需求。我們其實最早第一版 BP 就預設了面向 ADHD 人群的場景；第三是初創公司團隊，他們需要知道自己時間花在哪里，跟哪些內外部的人產生聯系，高效記錄并在之后使用。

我們自己團隊的設計師、產品經理就是高強度用戶。隨著 AI 的發展，多線程工作的人也會越來越多。

Founder Park：你們希望在哪個環節讓用戶感覺到這個產品的 aha moment？

柏特：我自己有兩個 aha moment。第一個是直接讓 AirJelly 給自己寫代碼——因為它有很強的記憶能力，知道 AirJelly 本身的進展，能通過本地文件或群聊了解到信息，再加上比較強的 Coding 能力，可以直接自己分析、交流、寫代碼。

但這個可能不是面向通用用戶的。對通用用戶來說，產品初始狀態是一個普通的對話界面。在你按了幾次 Enter 記錄了一些信息之后，它會有更多你的上下文，然后彈出一個 Proactive，我覺得這個應該是第一個能讓用戶感受到 aha 的時刻。

我們現在的 Onboarding 做法是讓用戶選擇職業，選完之后右側會展示這類職業常用的場景，以及基于這些場景可能出現的 Proactive 效果，讓用戶提前感知到。

我們在尋找兩種 case：第一種是「很快」，用了幾分鐘、按了幾次 Enter 之后，它能出一個跟你剛才在做的事相關的 Proactive，哪怕比較簡單，也能讓用戶感知到「它在關注我」。第二種是「最 magical」，一定是只有 AirJelly 才能實現的場景。

Founder Park：你們的產品想給新用戶呈現什么樣的感覺？比如，他剛剛安裝完之后，應該怎么用？

柏特：我們其實想給用戶帶來的感覺是，有了 AirJelly 之后，你不需要有任何額外的操作，你只是像往常一樣與人交流，使用 AI，檢索信息。你的全部意圖都能被記錄下來，你可以隨時查看自己在什么時間做了什么，自己在推進哪些任務，偶爾還會有 AI 伙伴出來主動幫你完成任務。

此外產品會有一個「養水母」的概念，桌面上有一只水母，有點像皮卡丘或者超能 nono。水母記錄了你的 enter 次數，以及它最近給你提的 Proactive，你可以選擇執行或忽略，通過這種方式讓水母和你的同步越來越準。

08最終目標是降低用戶日常工作、認知的「熵增」

Founder Park：你們團隊的名字有什么寓意嗎？

柏特：我們團隊的中文名叫「持續低熵」，英文叫 Low Entropy AI。熵在物理學里是熱力學第二定律，衡量混亂和有序，是非常第一性的原理，某種程度比萬有引力還要更本質。

名字有三層含義。

第一層是產品層面：我們希望產品能給用戶帶來有序，

第二層是生物學層面：薛定諤說過「生命以負熵為食」，保持低熵代表一種活力。我也希望團隊能始終保持活力，哪怕以后變大了也不會得大公司病。我們的公司 Slogan 是「Context，Not Control」——多給上下文，少搞控制。這也借鑒了字節和亞馬遜的管理哲學。

第三層是人工智能層面：交叉熵損失函數代表預測分布和真實分布之間的距離。我們希望通過人機協作，讓人逐步更深刻地認識自己的行為和工作本質。

Founder Park：熵這個東西其實還蠻好玩的。之前 Elys 的創始人也說過，想用 AI 來減少人與人之間交互的熵增。我覺得你們有點異曲同工之妙。Elys 想解決的是人與人之間去除干擾和誤解后的高效交流。

你們的低熵指的是人和人之間的，還是人和各種事物之間的？

柏特：我們認為第一層肯定是人和人之間的，第二層是人和 AI 之間的，以及未來可能會有 AI 與 AI 之間的。但我們現在最希望的是第一層：用我們這個產品能把日常工作的認知負載盡量結構化、盡量有序。

Elys 這個產品我們也測試過，他們公司叫「自然選擇」，也提過用人機協作來降低熵——他們想解決的是人和人之間的，去除干擾和誤解之后的高效交流。我們瞄準的是人在工作和認知上的有序狀態，異曲同工。

「持續低熵」這個名字在投資圈里反應很好，當你把它扔給對方，他會覺得「這還挺妙的」。水母的意象我們也覺得很好，快人一步搶注了這兩者我們還是非常興奮的。

Founder Park：明白了，就是追求在各種關系里面都達到一個更穩定、更高效的狀態。

柏特：對，我們公司的 slogan 也是。第一條是「Context，not control」，更多的上下文，更少的控制，這個既是產品理念，也是我們公司的哲學。還有一點是「Clarity，from chaos」，從混亂到秩序。

我們希望保持的其實不是一種僵死的有序，希望擁抱一定的混亂，然后從混亂中誕生出有序。這也是我們的一個追求，因為某種程度的混亂也能帶來更多的可能性，但我們最終是要把它塑造成一種低熵、一種秩序。

Founder Park：AirJelly 的名字是怎么來的？

柏特：AirJelly 的名字來源于設計理念。

首先是我們希望產品能夠連接各處的 Context，有一種無處不在有足夠輕靈的感覺，就像空氣一樣，于是想著帶上 Air；另外我們做屏幕截圖和理解，這是一個比較激進的事情，需要在設計上做大量工作來降低用戶的心理負擔。我們最早想叫 Aether，以太是光的介質，感知能力很強。但后來覺得最好做一個動物形象——從 LLama 開始很多 AI 項目都用動物形象，在傳播上和用戶感知上也更好接受。找了大量動物形象之后，發現水母感知能力很強，同時又非常簡單，疊加上「輕靈」的理念，就叫了 AirJelly。

用戶調研時，我們拿了具體的水母形象設計給一些人看，大家的反應是「一看就非常可愛」，就用了目前這個版本。

Founder Park：水母的形象太可愛了，有些用戶會不會把它當桌面小寵物，影響對工作助手的認知？

柏特：我們這代人都知道寶可夢和數碼寶貝，那些形象也很可愛、隨身攜帶，但能力非常強。OpenClaw 是龍蝦形象，大家不會因為覺得它可愛就覺得它沒能力。能力本身用戶實際體驗是不受影響的，但怎么讓用戶愿意絲滑地體驗進來，第一步還是設計得溫和可愛一些。

還有，OpenClaw 這一波傳播挺有意思的，「養蝦」都成了一個流行詞了。我們也希望「養水母」能有類似的傳播效果。

Founder Park：用戶的隱私問題，現在你們是怎么解決的？

柏特：我們有 PII（個人識別信息）脫敏技術，能涂掉或替換敏感信息。實際處理的圖片也不是原始圖片，我們會判斷哪些是重心部分，只截取重心區域。這套涂抹機制目前還在評估中。

我們確實也想試探下「水溫」，用戶到底能接受到什么程度？這個問題其實連我們自己也不確定。

我們也做好了被罵的準備。被罵有兩種情況：一種是做得太爛，那沒得救；另一種是做得比較激進、具有變革性，這種也會被罵，但我覺得這不完全是壞事。

理想情況是達到 OpenClaw 那種狀態：有人 concern，有人罵，但整體上可控。在 AI 時代，大家對激進產品的接受度和嘗鮮意愿都比以前高了很多，這是有利的環境。

09ScreenMemory，在 PC 端仍然是一片「空白地帶」

Founder Park：你們怎么看 AirJelly 的競品？

柏特：Rewind 和 Recall 現在基本都不做了。在 PC 端，其實是一個「空白地帶」。

我覺得 Rewind 最有意思，他們剛出來的時候，VLM 還不行，用的都是 OCR。把數據沉淀下來之后，因為 Agent 能力不夠強，加上用的是 OCR 圖片，做不了太多事情，可能就是問問「什么時候做了什么」，價值非常有限。

在硬件方面，LOOKI 想做的故事跟我們有點像，All in Proactive。但我們和 LOOKI 不同的是，不做全量記錄，更多是以意圖為導向。

Founder Park：PC 端之前有很多嘗試，但到今天好多都沒做了。

柏特：ScreenPipe 還在做，但產品化能力不太行。Dayflow 也是類似的問題。

現在的節點有一個很大不同的是，Agent 能力足夠強了，模型加框架都強了很多，記憶也做得更好，召回的東西的價值能被更大程度體現出來。所以這是一個比較好的節點，但還是需要有執行能力，不能只做記錄和分析。

MineContext 當時也有一個簡單的對話，但用的是其他家的大模型，也沒用上 OpenClaw 的底層框架，召回推斷做得都不行。我們現在模型強了、框架強了、記憶做得更好，體驗會比以前好非常多。

Founder Park：你們擔心大廠來做同樣的事嗎？

柏特：我在字節待過，對大廠的認知比較清楚。核心項目資源是夠的，但流程很長；非核心項目，資源其實比創業公司少很多，MineContext 當時就是這種感覺。

再有一點是，大廠對隱私類產品決策很謹慎，未必敢第一個「吃螃蟹」。我們上了，他們可能才會跟上。

如果大廠下場，第一反應應該是：說明方向對了，我們估值要漲（笑）。其次，我們長期會是一個入口級的產品，大廠做了，大家也都會需要這樣類似的機會。

最后還有一個點是，我們在大量存記憶，用戶用得越久越舍不得離開，所以這是一個天然的護城河。

Founder Park：AirJelly 最終會是什么形態？

柏特：長期會是一個入口級的產品。接下來，我們會做團隊版，每個人有自己的 AI Agent，兩個 Agent 之間可以相互交流，判斷有沒有需要同步的信息。如果你想了解同事最近的工作進展，直接問你自己的 Agent 就行。我甚至覺得這是一種未來的團隊協作形態。我們內部已經在試用了，我們會在充分打磨好權限管理后推出這個功能，如果你想提前體驗有兩個方法，加入我們，或者成為我們的投資人哈哈。

Founder Park：你覺得 AI 個人助手在未來兩年，會發生什么變化？

柏特：從更長期的來看，未來每個人都要有自己的 Agent。

我覺得 Agent Network 是必然的一個方向。最近 Moltbook 被 Meta 收購了，Agent 之間可以互聯互通的協議會逐漸成型。

Agent 之間通過開放協議連入某個公共平臺進行交流和社交，可能是替你進行一些社交，或者代替你跟別人的 Agent 交換信息。這時候誰的 Agent 有最多、最有效的記憶，誰的個人助手就更不一樣。協議是開放的，所以未必只能用某一個工具，記憶的積累才是最核心的壁壘。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.