![]()
作者 | 孫芮
郵箱 | sunrui@pingwest.com
“總有一天,我們會(huì)把現(xiàn)在這種‘人工制作的電影’當(dāng)作舊時(shí)代的東西來(lái)談?wù)摚髁鲗⒆兂砂葱枭伞⒖梢詿o(wú)限延展的 AI 內(nèi)容。”這是Karpathy在2016年發(fā)布的推文。
![]()
按需生成、可以無(wú)限延展的 AI 內(nèi)容是什么樣的呢?
如果這種能力不僅用于生成內(nèi)容,也用于重構(gòu)我們獲取信息的方式,那Flipbook或許提供了一種值得參考的形態(tài)。它用一種全新的方式在做瀏覽器——不再把信息組織成一頁(yè)頁(yè)可以跳轉(zhuǎn)的網(wǎng)頁(yè),而是把整個(gè)互聯(lián)網(wǎng)變成一張可以不斷生成、不斷延展的圖像。
![]()
1
當(dāng)瀏覽器不再是網(wǎng)頁(yè)
根據(jù)官方介紹,F(xiàn)lipbook 是一個(gè)可以無(wú)限延展的視覺(jué)瀏覽器,所有內(nèi)容都是按需、實(shí)時(shí)生成的。
怎么理解視覺(jué)瀏覽器呢?
在Flipbook中,你看到的每一個(gè)“頁(yè)面”,本質(zhì)上都是一張圖片。當(dāng)你點(diǎn)擊圖片中的任意位置時(shí),系統(tǒng)會(huì)根據(jù)你的點(diǎn)擊生成一張新的圖片,帶你繼續(xù)往更深入的方向探索。整個(gè)過(guò)程里,沒(méi)有 HTML、沒(méi)有代碼,也沒(méi)有傳統(tǒng)意義上的鏈接或輸入框,你所看到的“網(wǎng)頁(yè)”,其實(shí)都只是屏幕上一幀一幀被生成出來(lái)的像素。
屏幕上的所有文字,同樣也是由圖像模型直接渲染出來(lái)的,而不是疊加在圖片上的文本。當(dāng)然,這會(huì)導(dǎo)致文字有時(shí)候會(huì)出現(xiàn)錯(cuò)位或不夠清晰的情況,這需要通過(guò)模型能力的提升來(lái)改善。
用文字闡述可能有點(diǎn)難理解,他們發(fā)布的Demo能夠更直觀(guān)的感受到Flipbook想做的事情。
他們以旅行規(guī)劃這個(gè)場(chǎng)景為例,左側(cè)的筆記本電腦上顯示的是 Notion 界面,正在進(jìn)行“巴黎旅行規(guī)劃”。這是大家做旅行規(guī)劃通常會(huì)用到的交互方式——在不同的網(wǎng)頁(yè)之間跳轉(zhuǎn),通過(guò)文字和列表來(lái)整理碎片化的信息。
在當(dāng)下的互聯(lián)網(wǎng)中,信息通常以文本、鏈接和模塊化界面的形式被組織起來(lái),一個(gè)網(wǎng)頁(yè)會(huì)被拆分成不同的內(nèi)容區(qū)塊,再通過(guò)鏈接彼此連接。用戶(hù)獲取信息的過(guò)程,本質(zhì)上就是不斷點(diǎn)擊按鈕、在不同頁(yè)面之間跳轉(zhuǎn)。其底層依賴(lài)的是 HTML 和 DOM 所構(gòu)成的結(jié)構(gòu)化體系。
也就是說(shuō),我們所使用的網(wǎng)頁(yè),本質(zhì)上是一個(gè)由清晰結(jié)構(gòu)和固定關(guān)系組織起來(lái)的信息系統(tǒng)。
![]()
而右側(cè)則是一幅等軸測(cè)插圖,上面是一幅干凈線(xiàn)描、低飽和配色的巴黎地標(biāo)交互圖,有埃菲爾鐵塔、盧浮宮、圣母院這類(lèi)巴黎的標(biāo)志性地標(biāo)。
在任意區(qū)域點(diǎn)擊一下就能得到一個(gè)“詳情頁(yè)”,圖中用簡(jiǎn)潔的文字和圖標(biāo)整合了原本需要去官網(wǎng)查詢(xún)的碎片信息:門(mén)票購(gòu)買(mǎi)(Buying Tickets)、開(kāi)放時(shí)間(Opening Hours)、無(wú)障礙(Accessibility)、著裝要求(Dress Code)。
![]()
再點(diǎn)擊一次,又能獲得更多建筑內(nèi)部的細(xì)節(jié)。左側(cè)的文字信息變得更加具體,像是一個(gè)實(shí)時(shí)的“智能助手卡片”。這里不僅有各個(gè)區(qū)域的價(jià)格表 ,還有預(yù)期情況,以及詳細(xì)時(shí)間表。底部灰色方框給出了最優(yōu)建議,“提前 1-3 天預(yù)約是明智之舉”。甚至還有一個(gè)明顯的 “Reserve Now” (立即預(yù)約) 按鈕,實(shí)現(xiàn)了一站式閉環(huán)。
![]()
團(tuán)隊(duì)表示,這些圖片中的信息,來(lái)自?xún)刹糠值慕Y(jié)合,一部分來(lái)自模型本身的知識(shí),另一部分來(lái)自具備行動(dòng)能力的搜索系統(tǒng)。
內(nèi)容可能會(huì)偶爾出現(xiàn)不準(zhǔn)確的情況,但通常可以作為一個(gè)初步了解的參考,而且大多是基于真實(shí)的在線(xiàn)數(shù)據(jù)生成的。整體的事實(shí)準(zhǔn)確性,大致可以達(dá)到平時(shí)使用 ChatGPT、Gemini 或 Claude 時(shí)的水平。
1
復(fù)雜信息理解的最佳打開(kāi)方式
不過(guò),這種效果在實(shí)際體驗(yàn)中究竟是怎樣的?
于是,我上傳了一張之前用ChatGPT Images 2.0生成的《百年孤獨(dú)》人物關(guān)系圖,來(lái)測(cè)試它的表現(xiàn)。
![]()
在我點(diǎn)擊左下角的奧雷里亞諾·布恩迪亞上校后,大約等待了20秒,新的頁(yè)面才生成出來(lái)。生成出來(lái)的圖像是一張奧雷里亞諾·布恩迪亞上校的家族關(guān)系和生平邏輯圖。再點(diǎn)擊左下角出現(xiàn)的攤開(kāi)的書(shū)本,就能看到梅爾基亞德斯的預(yù)言的圖解。
![]()
![]()
整個(gè)使用過(guò)程中,確實(shí)如團(tuán)隊(duì)所說(shuō)的圖片中的任意位置都可以被點(diǎn)擊,被探索。讀過(guò)《百年孤獨(dú)》的人一定都知道,書(shū)里的人物和結(jié)構(gòu)都很復(fù)雜,同一個(gè)家族里幾代人反復(fù)使用相同的名字,人物之間又不斷交錯(cuò),加上敘事不是按時(shí)間線(xiàn)推進(jìn),而是跳躍、回環(huán)、甚至把未來(lái)寫(xiě)在過(guò)去里,很容易讀著讀著就分不清“現(xiàn)在是誰(shuí)、發(fā)生在什么時(shí)候”。
而Flipbook用交互式可視化可以很好地建立一個(gè)閱讀參考系,幫助讀者理清人物關(guān)系和書(shū)中的重點(diǎn)信息。這是 Flipbook 在復(fù)雜信息的可視化與交互式理解場(chǎng)景下的應(yīng)用。
不過(guò)需要注意的是,F(xiàn)lipbook因?yàn)樵L(fǎng)問(wèn)人數(shù)過(guò)多,服務(wù)器壓力太大,暫時(shí)需要排隊(duì)進(jìn)入。
在X中,也有不少用戶(hù)發(fā)布了自己的使用案例。
Gemini的后訓(xùn)練軟件工程師Xiao Ma用Flipbook學(xué)習(xí)葡萄酒知識(shí)。
![]()
還有用戶(hù)做了一張葉綠體光合作用圖解,表示這非常適合教育場(chǎng)景。
![]()
從以上的使用案例來(lái)看,F(xiàn)lipbook最適合解決的是結(jié)構(gòu)復(fù)雜、關(guān)系交錯(cuò)、需要建立整體認(rèn)知的問(wèn)題,它可以把這些信息壓縮進(jìn)一個(gè)可以不斷展開(kāi)的視覺(jué)空間里,通過(guò)點(diǎn)擊逐層深入,讓“理解”變成一個(gè)連續(xù)的過(guò)程。
放在教學(xué)場(chǎng)景中,F(xiàn)lipbook可以用圖像來(lái)承載信息,再配合可點(diǎn)擊的圖像延伸,會(huì)比純文字更容易建立直觀(guān)感受。比如科學(xué)原理、流程機(jī)制、歷史事件演變,這些場(chǎng)景的需求不是查標(biāo)準(zhǔn)答案,而是搞清楚原理、邏輯。
它同樣適用于啟發(fā)式探索的場(chǎng)景。比如你并不是帶著一個(gè)明確問(wèn)題來(lái)查資料,而是想了解一個(gè)領(lǐng)域、尋找靈感。在這種情況下,是沒(méi)有固定路徑的,F(xiàn)lipbook可以點(diǎn)哪里看哪里,會(huì)帶來(lái)一種類(lèi)似瀏覽展覽或翻閱畫(huà)冊(cè)的體驗(yàn),更容易產(chǎn)生新的聯(lián)想和靈感。
但反過(guò)來(lái)說(shuō),它并不適合那些高頻、精確、效率優(yōu)先的任務(wù)。比如查一個(gè)具體數(shù)據(jù)、快速對(duì)比信息、完成一段明確流程,這類(lèi)場(chǎng)景更需要的是結(jié)構(gòu)化信息和穩(wěn)定、快速的響應(yīng),而不是生成式的視覺(jué)表達(dá)。生成延遲、信息不穩(wěn)定、文字不可復(fù)制這些問(wèn)題,在這些場(chǎng)景下都會(huì)被放大。
1
為了實(shí)時(shí)生成,底層做了什么
Flipbook令人驚艷的同時(shí),也讓人好奇這到底到底是用了怎樣的技術(shù)來(lái)實(shí)現(xiàn)的。
創(chuàng)始團(tuán)隊(duì)在X說(shuō),他們大量用了激活緩存、量化,以及 torch.compile + 內(nèi)存快照。
![]()
Flipbook 追求的是一種即時(shí)交互,但圖像生成模型通常非常龐大和緩慢,想做到這種響應(yīng)速度,就必須在底層進(jìn)行極致的性能壓榨。Zain提到的這四項(xiàng)為了解決這個(gè)瓶頸而做的工程優(yōu)化,他們從計(jì)算路徑、數(shù)值表示、執(zhí)行方式和狀態(tài)管理四個(gè)層面同時(shí)做了改造。
首先,激活緩存(activation caching)減少了圖像生成過(guò)程中大量重復(fù)計(jì)算。傳統(tǒng)擴(kuò)散模型每去除一點(diǎn)噪聲、畫(huà)出一個(gè)細(xì)節(jié),都要完整跑一遍神經(jīng)網(wǎng)絡(luò)的所有層,而其中很多層的計(jì)算結(jié)果其實(shí)和上一步幾乎一樣,特別是那些負(fù)責(zé)提取基礎(chǔ)特征的部分。
激活緩存就是把這些變化不大的中間結(jié)果保存下來(lái),在后續(xù)的步驟里直接復(fù)用,不再重新計(jì)算。在連續(xù)生成多幀畫(huà)面(比如制作視頻流)時(shí),幀與幀之間的共性更大,能共用的激活值就更多,這能砍掉絕大部分冗余運(yùn)算,讓推理速度成倍提升。
其次,量化(quantization)技術(shù)解決的是模型在數(shù)值計(jì)算層面上的效率問(wèn)題。你可以把模型參數(shù)原本使用的16位浮點(diǎn)數(shù),想象成一種高精度但非常占用空間和計(jì)算資源的表示方式。量化的過(guò)程,就是將這一個(gè)個(gè)“高成本浮點(diǎn)數(shù)”精準(zhǔn)地映射為對(duì)應(yīng)的“低成本整數(shù)”,比如8位整數(shù)。
這樣做有兩方面的好處:第一,整數(shù)運(yùn)算遠(yuǎn)比浮點(diǎn)運(yùn)算快,而且現(xiàn)在的硬件對(duì)此有專(zhuān)門(mén)的加速設(shè)計(jì),所以每一個(gè)計(jì)算步驟的耗時(shí)都縮短了,模型推理速度直接提升;第二,每個(gè)數(shù)字從16位壓縮到8位,整個(gè)模型文件的體積和運(yùn)行時(shí)占用的顯存都至少減半。
結(jié)果是,原本需要消耗大量顯存才能運(yùn)行的高分辨率圖像生成任務(wù),現(xiàn)在可以在更小、更普及的GPU上跑起來(lái),或者在同一塊GPU上同時(shí)處理更多的生成請(qǐng)求。對(duì)Flipbook而言,這幾乎是實(shí)現(xiàn)快速、連續(xù)出圖必不可少的一步。
接著,torch.compile 充當(dāng)了翻譯優(yōu)化器的角色。通常用寫(xiě) PyTorch 代碼時(shí),每執(zhí)行一個(gè)操作,Python 解釋器都要調(diào)度一次,產(chǎn)生很多零碎的小任務(wù),GPU 也因此頻繁地啟動(dòng)和停止。torch.compile 會(huì)將整個(gè)計(jì)算圖拿過(guò)來(lái)整體分析,把相鄰的、可以合并的運(yùn)算融合成一個(gè)大的優(yōu)化內(nèi)核,并且一次性編譯好。這樣,當(dāng)模型真正開(kāi)始生成圖像時(shí),就相當(dāng)于從一條條解釋執(zhí)行變成了一段連續(xù)的編譯程序在跑,省去了大量的 Python 開(kāi)銷(xiāo)和算子調(diào)度時(shí)間,在不少場(chǎng)景下可以帶來(lái)明顯的性能提升。
最后,內(nèi)存快照(memory snapshotting)是一種消除調(diào)度延遲的手段,通常指像 CUDA Graph 這類(lèi)技術(shù)。傳統(tǒng)流程里,CPU需要一步一步地向GPU下達(dá)指令,每一次調(diào)度都有微小的延遲。內(nèi)存快照的做法是將一整套固定的GPU操作序列(例如去噪步驟中的特征提取、注意力計(jì)算、卷積等)完整“錄制”下來(lái),形成一個(gè)靜態(tài)執(zhí)行圖。后續(xù)生成新圖像時(shí),不再需要CPU逐條調(diào)度,而是直接重放這張圖,讓GPU像播放錄像帶一樣無(wú)停頓地連續(xù)工作。對(duì)于需要每秒24幀連續(xù)輸出的視頻流場(chǎng)景,消除這些累積的調(diào)度間隙是實(shí)現(xiàn)實(shí)時(shí)生成的關(guān)鍵。
本質(zhì)上,它一方面通過(guò)緩存中間結(jié)果來(lái)避免重復(fù)計(jì)算,一方面通過(guò)量化降低計(jì)算成本,同時(shí)借助編譯優(yōu)化執(zhí)行效率,并通過(guò)內(nèi)存快照消除調(diào)度間隙,從而在有限算力下顯著降低單次推理延遲和單位請(qǐng)求成本,使系統(tǒng)能夠穩(wěn)定支撐高頻、連續(xù)的生成請(qǐng)求。
同樣值得一提的是,我們現(xiàn)在看到Flipbook的畫(huà)面風(fēng)格經(jīng)歷了上百次迭代打磨。一開(kāi)始,他們嘗試用80 年代老式 CRT 屏幕的復(fù)古科幻風(fēng)格,有掃描線(xiàn)、霓虹色和類(lèi)似《新世紀(jì)福音戰(zhàn)士》的高密度視覺(jué)界面感。還有20 世紀(jì) 50 年代漫畫(huà)插畫(huà)風(fēng)格,帶有老式印刷、粗描邊、高飽和色。
![]()
![]()
![]()
![]()
最后他們選定編輯插畫(huà)感的等距視角風(fēng)格。這是一種斜俯視、帶立體感但不復(fù)雜的插畫(huà)方式,把信息、空間和概念清晰地組織起來(lái),EbbieJiao說(shuō),這種風(fēng)格在可讀性和表現(xiàn)力之間找到了一個(gè)很好的平衡,不僅方便用戶(hù)理解,又能用一種 HTML 永遠(yuǎn)做不到的方式把想法呈現(xiàn)出來(lái)。
風(fēng)格的選擇,指向的是團(tuán)隊(duì)做這件事的初衷。 他們認(rèn)為,一張圖往往比大量文字更有表達(dá)力,但今天的屏幕卻被文字和各種方框界面所占據(jù)。很多所謂“生成式 UI”,看起來(lái)更先進(jìn),但本質(zhì)上仍然是在用有限的形式去承載復(fù)雜的信息,就像試圖用一根細(xì)吸管去吸一整片海洋。
所以他們想嘗試另一種方式,就是讓計(jì)算結(jié)果變得更直觀(guān)、更豐富,用為每個(gè)人即時(shí)生成的視覺(jué)內(nèi)容來(lái)表達(dá)信息。
我們現(xiàn)在看到的屏幕,本質(zhì)上也是一張圖,只不過(guò)它是由固定的代碼和規(guī)則生成的,這種方式在表達(dá)復(fù)雜內(nèi)容時(shí)存在局限。而 Flipbook 則擺脫了這些限制,它會(huì)根據(jù)內(nèi)容本身,選擇最合適的表達(dá)方式——可能是一句話(huà)、一幅插圖,或者一張接近真實(shí)的畫(huà)面。
目前,F(xiàn)lipbook 還是一個(gè)實(shí)驗(yàn)項(xiàng)目,主要用于開(kāi)放式探索和學(xué)習(xí)。隨著圖像和視頻模型能力的提升,未來(lái)這些頁(yè)面可能會(huì)接入更多真實(shí)數(shù)據(jù),變得更加可交互,甚至可以直接執(zhí)行操作、保存數(shù)據(jù)。
這也意味著,很多原本需要在不同應(yīng)用或網(wǎng)站之間完成的事情,未來(lái)有可能在一個(gè)類(lèi)似 Flipbook 的界面中一次性完成。比如你現(xiàn)在可以用它來(lái)查旅行信息,但需要去別的平臺(tái)完成預(yù)訂。未來(lái),這些步驟都可以在同一個(gè)系統(tǒng)中完成。
Flipbook設(shè)想的,是一個(gè)所有工具都像現(xiàn)實(shí)世界一樣豐富、直觀(guān)、以視覺(jué)為核心的計(jì)算世界。
盡管現(xiàn)在Flipbook 還遠(yuǎn)談不上成熟,但當(dāng)信息不再被鎖死在代碼框架里,而是按內(nèi)容自由生長(zhǎng)成圖像時(shí),我們?cè)贔lipbook的每一次交互都在實(shí)時(shí)重組信息的呈現(xiàn)方式。
而我們理解世界的方式,可能也會(huì)隨之改變。
![]()
點(diǎn)個(gè)“愛(ài)心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.