這兩年,AI 修圖已經(jīng)不是什么新鮮事了,調(diào)色、背景模糊,到皮膚細(xì)節(jié)的打磨,幾乎都有專門的工具能處理。但說到摳圖,還真就是 AI 修圖工具里最難搞的一部分。
但摳圖這件事,說小也小,說煩也是真煩,雖然它看起來只是把背景擦掉,實(shí)際卻特別挑場景,比如人像頭發(fā)、衣服邊緣、產(chǎn)品反光、透明材質(zhì)、復(fù)雜光線,這些地方一個(gè)沒處理好,摳出來的圖就是幾乎不可用的狀態(tài)。
實(shí)際上,很多用戶并不是想做什么高級設(shè)計(jì),只是單純想換個(gè)頭像、摳個(gè)商品主圖、做個(gè)封面素材,但是一大堆專業(yè)工具難搞又復(fù)雜,學(xué)習(xí)成本還高。不過,近期 AI 摳圖開源工具已經(jīng)在 GitHub 上如雨后春筍般涌出來,有專門制作頭像的、萬物皆可摳的,還有主打 5 秒內(nèi)出圖的。
![]()
(圖源:magicpfp)
但這些 AI 摳圖,真如開發(fā)者們說的那樣好用嗎?是騾子是馬,我們還是得拉出來遛一遛才知道。
讓 AI 摳圖?很快、但質(zhì)量不高
這次我們試的三個(gè)工具都是在 GitHub 上討論度挺高的,分別是 magicpfp、RMBG 和 remove-bg。這三個(gè)工具雖然都是把圖片背景摳掉,但背后的思路其實(shí)不太一樣。比如magicpfp 更像一個(gè)為頭像場景做的小網(wǎng)頁,重點(diǎn)不是“萬物皆可摳”,而是讓用戶上傳一張人像,順手把去背景、換背景、頭像美化這一套流程做完;RMBG 更像一個(gè)通用型的本地?fù)笀D工具,主打免費(fèi)、隱私和本地處理;remove-bg 則是一個(gè)更全面的工具,它直接把 WebGPU、Transformers.js 和 RMBG V1.4 這套東西塞進(jìn)瀏覽器里,讓本地前端去處理。
從技術(shù)上看,這些工具的原理幾乎都是一致的,像 magicpfp 和 remove-bg 都明確標(biāo)注使用了 BRIA 的 RMBG-1.4,remove-bg 還用了 Transformers.js 來調(diào)模型,盡量在瀏覽器本地完成推理。
簡單來說,這類工具不是在“拿橡皮擦圖片”,而是在讓模型判斷,圖片里哪些像素屬于主體,哪些屬于背景,再生成一張帶透明通道的結(jié)果圖。當(dāng)然,之所以大家都盯上這套工具,本質(zhì)上還是因?yàn)閃ebGPU、WASM 和前端模型調(diào)用這套能力比前幾年成熟得多了,瀏覽器性能也強(qiáng)多了,可以在前端干活了。
從實(shí)際體驗(yàn)看,magicpfp 雖然功能有限,但是自由度是最高的一個(gè)。magicpfp 只能制作頭像,也就是它 AI 識別的對象必須是人物,其實(shí)頭像本來就是最標(biāo)準(zhǔn)化的一類圖片任務(wù),主體通常清楚,構(gòu)圖也相對固定,沒必要上來就挑戰(zhàn)復(fù)雜商品圖。
![]()
(圖源:the verge)
![]()
(圖源:雷科技制圖/magicpfp)
我們拿了馬斯克的一張新聞圖給 magicpfp,人物主體抓得還算穩(wěn),頭、手、上半身這些主要結(jié)構(gòu)都保住了,沒有出現(xiàn)手指缺一塊、衣服被啃掉一截這種低級錯(cuò)誤,拿去做社交頭像是夠用的。問題在于它的邊緣并不算干凈,頭發(fā)頂部有明顯溢邊,肩膀和手臂外輪廓也有一點(diǎn)彩邊,左下角甚至還順手把椅子給捎上了一點(diǎn)。
不過呢,好在它支持調(diào)整,背景顏色、邊緣、尺寸,這些都能重新做,小小的失誤是可以接受的。但很可惜,magicpfp 畢竟只是一個(gè)非常小的個(gè)人項(xiàng)目,所以它整體的生成速度是比較慢的,遠(yuǎn)不及直接拿 AI 去生成一張。
![]()
(圖源:雷科技制圖/magicpfp)
RMBG 的感覺就完全不一樣了,它更像一個(gè)“我不管你好不好看,我先把活干完”的工具。首先,RMBG 是一個(gè)本地 AI 工具,不用注冊,不用把圖傳到服務(wù)器,也不會擔(dān)心這個(gè)工具要收費(fèi)。
上手來看,RMBG 也是很典型的「能做,但效果一般」的角色,奧特曼那張新聞圖,主體輪廓是完整的,臉、脖子、肩膀都沒出大問題,但頭發(fā)和肩部邊緣還是有比較明顯的綠色殘留,像是背景剝掉了,臟邊卻沒擦干凈。讓 RMBG 摳廣告圖里的手機(jī),它確實(shí)知道前景是誰,把手和手機(jī)主體都保住了,沒有傻到把整個(gè)場景都留下來,可手機(jī)右側(cè)、手指周圍的紅黃雜邊相當(dāng)明顯,邊緣還有一點(diǎn)虛,暖色環(huán)境光和背景高光像是一起粘在了主體外輪廓上。
![]()
(圖源:雷科技制圖/RMBG)
只能說,這樣的效果用拿來商用可能是差一點(diǎn),最多只能是視頻里的貼圖素材,再放大一點(diǎn)就要露餡。當(dāng)然,RMBG 自己也說,目前僅僅能提供個(gè)人需求用途,還不到商業(yè)用途的水平。
來到 remove-bg ,熟悉 AI 摳圖工具的朋友對這個(gè)項(xiàng)目應(yīng)該不陌生,它以高質(zhì)量和超快速著稱。實(shí)際體驗(yàn)下來也的確是這樣,比如那張手機(jī)廣告圖,它對主體的判斷比 RMBG 更干凈,手機(jī)輪廓、手指邊緣、頂部弧線這些容易翻車的位置都處理得更穩(wěn),刺眼的彩邊少了一截,直接商用可能都不太會被發(fā)現(xiàn)。
![]()
(圖源:華為)
![]()
(圖源:雷科技制圖/remove-bg)
馬斯克那張圖也是這樣,像是頭發(fā)、肩膀、雙手交疊這些區(qū)域雖然還是有輕微瑕疵,但整體臟邊感明顯更輕,左下角亂入的內(nèi)容也更少。
![]()
(圖源:雷科技制圖/remove-bg)
整體看下來,這三款工具的差距倒也不是那么明顯,只是它們各自的特色太鮮明。比如magicpfp 更像頭像場景的小成品、RMBG 最高支持 20 張圖一起生成、remove-bg 的摳圖效率高,成品也很接近直接可用的程度。但如果要拿來和 PhotoShop 上用鋼筆工具一點(diǎn)一點(diǎn)摳出來的精品圖,那這三個(gè)工具幾乎沒有合格的。
普通人或許不需要最完美的摳圖
實(shí)測做完之后,一個(gè)很直接的感受就是,這幾個(gè)開源工具當(dāng)然還遠(yuǎn)沒有到把成熟商業(yè)產(chǎn)品干翻的程度,但它們明明還有一堆毛病,卻已經(jīng)把一件過去默認(rèn)得交給云端平臺去做的事,搬回了瀏覽器和本地,而這才是這項(xiàng)工具的趨勢。
前面我們就提到,之所以 AI 摳圖工具不斷升級,都是因?yàn)?WebGPU 的不斷進(jìn)化。過去瀏覽器當(dāng)然也能跑很多東西,但真碰到 AI 推理這種活,網(wǎng)頁環(huán)境一直有點(diǎn)力不從心,原因不復(fù)雜,老一代 WebGL 更偏圖形渲染,做通用 GPU 計(jì)算并不順手,而機(jī)器學(xué)習(xí)這類任務(wù)恰恰又很吃并行計(jì)算能力,所以很多 AI 功能以前只能放在服務(wù)器上跑,瀏覽器更多只是個(gè)上傳下載的殼。
WebGPU 不一樣的地方就在于,它一開始就把現(xiàn)代 GPU 的圖形能力和通用計(jì)算能力都更完整地暴露給網(wǎng)頁,Google Chrome 這些年也一直拿機(jī)器學(xué)習(xí)推理做典型案例,強(qiáng)調(diào) WebGPU 能讓瀏覽器更高效地調(diào)用本地 GPU 去做高性能計(jì)算,這才讓網(wǎng)頁開始有點(diǎn)像一個(gè)真正能跑 AI 的輕量運(yùn)行環(huán)境。
![]()
(圖源:RMBG)
也就是說,在 AI 摳圖這件事上,以前用戶點(diǎn)一下?lián)笀D按鈕,真正干活的是遠(yuǎn)端服務(wù)器,瀏覽器只是負(fù)責(zé)把圖片傳過去,再把結(jié)果拿回來,所以 SaaS 工具的優(yōu)勢非常明顯,效果統(tǒng)一、速度穩(wěn)定,不需要擔(dān)心自己的設(shè)備能否跟得上。可 WebGPU 出來之后,瀏覽器開始能直接借本機(jī)的 GPU 干活,很多輕量模型就有機(jī)會在本地完成推理,圖片不用先上傳,等待路徑也更短,尤其在背景移除這種相對標(biāo)準(zhǔn)化、目標(biāo)又比較明確的任務(wù)上,這種變化會顯得特別明顯。
現(xiàn)在的模型量級越來越輕,瀏覽器越來越能算,調(diào)用方式也越來越現(xiàn)成,于是像背景移除這種能力,就不再非得做成一個(gè)上傳到云端再返回結(jié)果的閉環(huán),而是可以被拆成網(wǎng)頁、小組件、插件,甚至設(shè)計(jì)工具里的一個(gè)內(nèi)置模塊。
所以說,即便從實(shí)測來看,這些 AI 摳圖工具的表現(xiàn)都挺一般,沒有真正能和專業(yè)工具媲美的,但就是架不住大家的喜愛,這就是因?yàn)槎鄶?shù)普通人并不需要非常完美的圖,只需要一個(gè)快速、基本能用的圖。
摳圖只是前奏,更多 AI 工具正在本地化
實(shí)際上,AI 摳圖之所以得到大量關(guān)注,真正值得被看見的還是關(guān)于「AI 小工具正在大量本地化」,很多原本必須交給云端去做的輕量 AI 任務(wù),已經(jīng)開始具備在本地完成的條件了。
摳圖只是這波變化里最明顯的,因?yàn)樗哳l、標(biāo)準(zhǔn)化、結(jié)果又很直觀,用戶一眼就能看出好不好用,所以特別適合率先本地化。后面很可能跟上的就不只是圖片處理了,像圖片放大、簡單修邊、證件照處理、商品圖白底化這種任務(wù),本來就和摳圖一樣,規(guī)則清楚、交互短、模型也相對可控,很容易繼續(xù)依附瀏覽器本地推理這套能力發(fā)展下去。
不僅僅是針對圖片的處理,像是音頻轉(zhuǎn)寫、字幕生成、網(wǎng)頁摘要、翻譯、分類、輕量 OCR、頁面內(nèi)容提取,這些同樣高頻、輕量、結(jié)果容易驗(yàn)證的工具,也都很有機(jī)會沿著類似路線走,因?yàn)樗鼈儽举|(zhì)上都符合一個(gè)條件,就是沒有復(fù)雜到非得把任務(wù)扔去云端才能完成。
![]()
(圖源:remove-bg)
所以從這個(gè)小小的 AI 摳圖工具來看,未來很多 AI 功能未必還會以獨(dú)立網(wǎng)站/App的形式存在,它們更可能變成瀏覽器里的一個(gè)按鈕、設(shè)計(jì)軟件里的一個(gè)模塊甚至是某個(gè)插件里默認(rèn)開啟的能力。對用戶來說,這當(dāng)然是好事,操作更短,隱私顧慮更少,很多小需求也不必再專門跑去一個(gè) SaaS 平臺解決;但對行業(yè)來說,很多原本獨(dú)立存在的應(yīng)用或網(wǎng)頁,都沒有必要存在,尤其是一些小功能,都可能在這套邏輯下,慢慢被取代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.