讓智能體“看見”世界,不是給它裝上攝像頭那么簡單。當CV遇上AI Agent,乘數效應正在發生。AI Agent不等于Chatbot,真正的價值在于靜默看護與自主決策。
AI進入產業腹地仍面臨兩大鴻溝:視覺認知與行業的理解。為此,大華股份構建了星漢大模型系列——V系列視覺大模型讓系統“看得懂”物理世界,L系列行業模型打通業務邏輯。未來“基模+行業Know-how”將成為新范式,而AI的終局不是刷榜,是讓每個行業、每個個體都不掉隊。
以下為大華股份研發中心副總裁 周文凱 演講內容,經36氪整理編輯:
![]()
周文凱丨大華股份研發中心副總裁
非常感謝北京亦莊和36氪給我們這個機會來給大家做一個分享。
我今天分享的主題是讓智能體看見世界。為什么讓智能體看見世界?看見世界并不是讓數字世界的智能體裝上攝像頭,或者輸入視頻數據讓它看得到物理世界這么簡單,CV × AI Agent,為什么是乘,CV是視覺計算,AI Agent是智能體,讓數字世界的AI智能體可以認知物理世界非常重要,這兩個事情并不是特性和功能的孤立,而是相互乘數效應的加強。
我們對于數字世界的決策可以利用對物理世界的認知正在發生什么事情的認知,給帶來更大的幫助。我們開始今天的分享。
2022年ChatGPT面世,自發布至今已三年多,AI產業發生了非常大的變化。我們看到AI更多的發展是在2C消費者領域,在政企、行業落地過程中依然遇到非常多的問題。
從硬件角度上看,過去三年非常強調GPU的計算,不管對于視覺上的GPU運算還是看到一系列的推理、訓練過程中對GPU的使用,到現在我們回頭來重新審視在AI Agent任務編排中CPU的使用。硬件角度,不管是資源調度、系統連接、任務流程等,我們越來越關注在硬件載體上,CPU和GPU的平衡。技術突破,2023年我們看提示詞工程,大家關注怎么讓智能體了解我們的業務,了解我們的意圖,到2024年我們希望通過面向各種行業的知識庫來讓智能體可以離我們的產業更近,2025年我們講長上下文,MoE專家模型來節省推理資源,以及到今年我們看到以Open Claw為代表的自主AI Agent變得非常普遍。模型和產業之間的連接越來越緊密,模型也變得越來越聰明。
產業角度,把Agent變成大模型作為搜索引擎和工具,Agent融入到業務流程,不管是從技術、硬件角度,可以看到產業對AI的場景適配提出比算法本身更強烈的訴求。這里面依然有兩個GAP很難跨過去,我剛才講的一個是CV,一個是Agent對行業數據以及行業業務流程的理解。
![]()
大華是從安防起家逐步進入到現在面向于智慧物聯的產業賽道,在CV和AI Agent兩個領域,這幾年有非常多的實踐跟大家分享。
首先在視覺AI上,大華2016年基于人像、車輛視圖數據的結構化,希望讓我們的系統、攝像頭可以“看得清”這個世界;到2023年我們發布了星漢大模型,圍繞物理世界全局和局部的解析,讓我們的數智化系統可以“看得懂”這個世界;今年我們進一步推動AI具備“自主認知”物理世界的能力,并在此基礎上升級構建了星漢大模型系列,包括 V 系列(視覺大模型)、L 系列(語言大模型)和 M 系列(多模態大模型)模型集。
有這樣一個模型框架,可以讓面向用戶的應用范式發生巨大的改變,我們為用戶構建了全域泛在的感知系統:既可以全局看一個城市、一個園區、一個企業的運行態勢,同時還可以聚焦到任何局部物體的信息,來實現智能識別。我們打造了自主效率引擎,為智能體構建更強、更方便的視覺插件,同時升級了智能體系,通過視覺的小模型、大模型之間的協作,從而提升對物理世界認知的效率。
另一部分是智能體,在2023年我們發布了從L1到L4行業智能體的構建邏輯:L1圍繞著基礎大模型實現知識庫和智能問答;L2是在整個業務流程里,以AI強化包括視覺、認知、決策、執行等各個環節;L3則是AI參與部分決策,在子業務鏈路中實現閉環;L4希望能夠產生對業務環境的深刻理解,能自主行動規劃并持續進化。
從L1到L4,本質上是在講人和智能體之間的關系,在與AI Agent協作過程中,人參與的環節越來越少。Human in the Loop,但人參與的是更高級別的決策。在L4自主AI Agent的構建中,我簡單畫了一個框架圖,基于已經積累的視圖中臺以及數據中臺,我們構建了AI Agent Loop智能體框架,包含視覺識別、業務編排、行業Skills、自主能力引擎等模塊,人和Agent之間形成面向行業業務有效的協作。
現在我們講到大模型,行業里許多人認為是通過對話框和智能體之間實現交互和連接。但事實上我們要面對物理世界的時候,需要的是能夠輔助人的外腦,而這個外腦在很多時候是在為用戶做著靜默看護和決策。智能體會讓我們的用戶與他的數據以及業務系統之間的關系產生更深刻的變化。在過往這些年里大華積累了面向前端感知和后端存儲、集成系統等一系列全棧智能硬件的載體,我們也有面向各類場景的視覺大小模型,構建了不斷沉淀行業Know-How業務組件的“螢火蟲”平臺。大模型深入行業最大的鴻溝在于如何連接AI和行業中廣泛存在的數據和系統孤島,而這些行業的Know-How積累在過往所有信息化系統,我們需要組件化腳手架,形成知識資產,而這些知識和工具就是大模型外腦得以連接我們用戶的系統,產生新的乘數效應的地方。
這里有三個Demo給大家呈現。
公共安全領域,在景區接到小孩丟失報警,智能體自主目標設定、任務編排,需要找尋的小孩什么時間、什么地點走失,身體特征是什么樣,跟線索追蹤、軌跡預測;一旦鎖定人體特征后,根據小孩的行速特征,在整個監控地圖軌跡上嘗試預測有可能往哪些方向,他的行蹤有哪些方向走動,同時在他能涉及的地點范圍內,去找尋現場巡邏的比如保安、攝像頭;快速定位到這些人員,同時下發整個廣播、保安等一系列可供執行的單元。在這個場景中智能體深度整合了目標設定、視覺識別、任務規劃、軌跡追蹤預測到最后的action調度執行落地等能力。
工業巡檢Agent,在巡檢過程中我們會關心設備的質量運行情況、工人操作的規范性,以及工人背后的服務資質等要素,我們有智能體對安全場景的判斷非常專業,同時有智能體對資質審核非常專業,這些智能體可以在AI Agent領域里編排,自主實現對場景的把控以及危險情況的預警。這段Demo體現的是輸電電站場地機器人的巡檢。
![]()
最后這個例子是面向于森林防火。傳統的做法是需要人守著巨大的林場,當發生火情報警,人要到現場做確認。當有了CV和AI Agent有效協作后,可以調度攝像頭、無人機實現二次確認。Agent不再只是根據我們的指令去做程式化的事情,它有自主決策的能力可以調度它所需要的感知單元,去靈活處理應急事件,同時讓人非常有效地在關鍵時參與到流程里,發揮決定性的作用。
業界已經有比較大的共識,整個AI產業我們做了分層,從能源、基礎設施到大模型計算范式、工具集成、智能體以及整個產業生態,能源和基礎設施——如果我們按中西方比較,中國有非常強的效率和成本優勢,而在大模型和計算范式,我們處于追趕者角色。在這里可以看到大模型的能力不斷往行業傾斜,從OpenClaw剛發布到后面不少大模型默認集成基礎Skills以及腳手架,逐步嘗試讓大模型變得更業務、更靈活。但行業的實際情況是一系列的數據和系統依然處于孤島。舉個例子,我們做Vibe Coding,通用業務效率提升非常明顯,這時候你會覺得大模型非常聰明,但在極高效率要求的底層或者專業業務中又會覺得非常蠢。能力邊界如此明顯的原因在于,面向行業業務的數據根本不在大模型的訓練集里,我們依然在行業里有非常多的系統孤島以及用戶不愿意分享的數據以及Know-How。這對我們反而是一個機會,我們在本地化算力、視圖解析、行業化智能體、工具集成的長期積累,讓我們可以在兼顧客戶數據安全的要求下實現其行業外腦的構建,助力客戶商業成功。
上面三層也是大華努力為我們的行業客戶解決的問題。
我們面向未來,一定是基模+FDE,可以變成智能體即軟件,模型即軟件的范式,硬件從純粹聚焦GPU到CPU并舉,我們判斷這兩條技術演進路徑會大大加速AI產業在中國的成熟。
凱文·凱利曾問“科技想要什么”,而我想說“AI想要什么”。AI的終局肯定不是技術的刷榜和概念熱度,而是讓每個行業、每個個體都能享受到智能化帶來的真正改變,而我們正在這條路上。
謝謝大家!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.