網易首頁 > 網易號 > 正文申請入駐

霍華德大學研究團隊揭秘大牌服裝背后的隱藏密碼

2026-05-07 21:08:29　來源: 科技行者

北京舉報

分享至

這項由霍華德大學與Adobe Research聯合完成的研究發表于2026年，論文以預印本形式公開，arXiv編號為2604.26186，有興趣深入了解的讀者可通過該編號查詢完整論文。

每當你翻開一本時尚雜志，看到那些令人嘆為觀止的秀場照片時，你有沒有想過：即使遮住品牌標簽，有沒有一種方法能從一件衣服本身"讀出"它出自哪個設計師之手，屬于哪個年代，甚至偏愛什么顏色？這個問題聽起來像是在考驗頂級時尚編輯的眼力，但霍華德大學與Adobe Research的研究團隊，用一套名為FASH-iCNN的AI系統，把這件事變成了可以量化、可以驗證的科學。

這項研究的出發點，其實藏著一個不那么顯眼卻值得認真對待的問題。當下的時尚AI系統，無論是給你推薦"和你風格相似的單品"，還是幫你搭配穿搭方案，背后都在悄悄學習某些特定設計師、特定雜志、特定歷史時期的審美邏輯。問題在于，這些系統從不告訴你它參考了誰的品味、哪個時代的風潮。你收到的建議，可能深深打上了Chanel 2010年代的烙印，或者Alexander McQueen某位創意總監的個人偏好，但你完全看不出來，也無從選擇是否接受這種"文化繼承"。

FASH-iCNN做的事情，就是把這層隱形的文化邏輯變得透明可見。給它一張服裝照片，它能告訴你：這件衣服出自哪個時裝屋，屬于哪個年代，呈現的是哪種顏色傳統。更重要的是，它不只是給出答案，還能解釋這個答案背后依賴的是服裝的哪些視覺特征——是顏色、紋理、輪廓，還是縫線邊緣？這套研究在時裝AI領域開辟了一條新路：把"文化出身"作為核心信號來研究，而不是把它當作背景噪音過濾掉。

一、八萬七千張秀場照片，一座可以解讀的時尚檔案庫

要訓練一套能識別時裝屋"審美基因"的AI，首先需要一個足夠豐富、足夠系統的數據庫。研究團隊選擇的素材來源是《Vogue》雜志的秀場圖片——這個選擇本身就很有說頭。

《Vogue》自1892年創刊以來，始終是全球最具影響力的時尚媒體之一。它的秀場圖片并非隨意拍攝，而是經過嚴格的編輯流程篩選：每個季度，各大時裝屋發布系列，模特穿著由創意團隊精心挑選和搭配的服裝走臺，雜志編輯再從中挑選具有代表性的影像刊發。換句話說，這些照片里的每一件衣服、每一種配色、每一個廓形，都是經過層層審美決策沉淀下來的結果，是設計師、造型師、編輯共同意志的產物。

研究團隊收集了橫跨1991年至2024年、涵蓋15個頂級時裝屋的87,547張秀場圖片。經過質量篩選后，保留84,596張；進一步篩選出能提取到清晰人臉區域的圖片，得到77,269張；最終從中分割出服裝區域的有效圖片為65,541張。這些數字背后，是研究團隊用專業工具逐一處理的技術工作：人臉區域由MediaPipe工具提取，服裝區域則由一種叫SegFormer的語義分割模型來識別和裁剪。

每張圖片都被打上了一套細致的標簽。顏色方面，研究團隊用一種叫k-means聚類的算法（可以理解為"自動找出圖片中最主要的幾種顏色"）提取了每件服裝的六格主色板，然后把這些顏色映射到兩套命名體系上：一套是來自語言學研究的"柏林-凱基礎色彩詞"（Berlin-Kay），包含紅、橙、黃、綠、藍、紫、粉、棕、白九個大類，就像我們日常說"這件衣服是紅色的"；另一套是更精細的CSS命名顏色體系，包含54到69個具體色名，比如"磚紅色（firebrick）"、"金菊黃（goldenrod）"、"薊紫（thistle）"，類似于你在設計軟件里看到的那種精確顏色名稱。此外，每位模特的膚色也被量化為1到10級的"蒙克膚色等級"，并記錄了設計師、季節、年份等元數據。

這個數據庫有一個非常突出的特點：68.3%的圖片以低飽和度顏色為主，也就是黑色或灰色占據主導。這在高端時裝界其實很正常，畢竟黑色是許多大牌的"信仰色"。但這也給研究帶來了挑戰——如果AI只會預測"黑色"，準確率看起來很高，卻什么也沒學會。為此，研究團隊專門篩選出以有色調顏色為主的約24,500張圖片，作為所有顏色預測實驗的專用子集。值得一提的是，白色被保留為一個獨立的顏色類別，因為在時裝界，一身純白是明確的審美選擇，而不是"沒有顏色"。

二、衣服本身就是一本"身份證"——AI如何從布料讀出品牌、年代和顏色

數據準備好了，研究團隊要回答的核心問題是：一張僅僅顯示服裝的照片，能告訴我們多少關于這件衣服"出身"的信息？

結論出乎意料地清晰：非常多。

首先來看時裝屋識別。研究團隊訓練了一個專門看服裝圖片的AI模型，讓它在14個時裝屋（15個中的一個因為樣本不足被排除）之間做選擇。這個模型的最終成績是：78.2%的準確率。聽起來像是一個普通的百分比，但對比一下背景才顯出它的含金量——如果隨機猜測，正確率大約只有9.3%。也就是說，這套AI的判斷能力，是純猜測的將近8.5倍。這意味著，不同時裝屋的服裝，在視覺上確實有可以被系統性識別的差異，不是人類的直覺幻覺，而是客觀存在的視覺指紋。

然后是時間識別。同樣只看服裝圖片，模型在四個年代（1991-2000、2001-2010、2011-2020、2021-2024）的分類上達到了88.6%的準確率，而隨機猜測的基準線只有45.2%。更令人印象深刻的是精確到年份的識別：面對34年（1991-2024年）中每一年的分類任務，模型的準確率達到58.3%，而隨機猜測的概率僅為2.9%。更有說服力的數字是：73.2%的情況下，模型的預測年份誤差在兩年以內，平均誤差僅為2.2年。也就是說，它看一眼衣服，大概率能猜中這件衣服出自哪個年代，前后誤差不超過兩三年。

顏色識別方面，研究團隊為每個時裝屋單獨訓練了"專屬顏色模型"，訓練和測試都在同一個品牌內部進行。成績同樣亮眼：Calvin Klein Collection的模型在九大顏色類別中達到93.4%的準確率，Chanel達到91.0%，Alexander McQueen達到82.3%，Balenciaga則是75.95%。

這里有個值得細說的地方：Balenciaga的絕對準確率雖然最低，但它的"提升幅度"（比只猜最常見顏色的模型高出了29.1個百分點）卻是最大的。這說明Balenciaga的配色更多元、更難規律化，AI學到的不是"這個品牌總用黑色"這種簡單規律，而是真正掌握了它色彩選擇的復雜邏輯。Calvin Klein Collection則恰恰相反：它以極度克制的無彩色系（黑白灰）著稱，配色有明確規律，所以AI學得又準又快。這種差異對實際應用來說很重要——高提升幅度意味著模型真的在"學習"，而不是在"投機取巧"。

三、顏色、紋理、輪廓——究竟是哪個視覺通道在泄露品牌秘密？

知道AI能識別出來只是第一步。更有趣的問題是：它靠什么識別出來的？是顏色？是布料的紋理質感？是服裝的整體輪廓？還是縫線和接縫的走向？

為了回答這個問題，研究團隊設計了一個精巧的實驗。他們把同一件服裝的圖片處理成四種不同版本，就像對同一份菜肴做四種不同程度的"信息剝離"：第一種是完整彩色圖，色彩、紋理、輪廓全都保留；第二種是灰度圖，去掉色彩，但保留明暗層次（亮度）和紋理；第三種是剪影圖，把服裝變成一塊純色填充的形狀，只保留整體輪廓；第四種是邊緣圖，只保留服裝的輪廓線和接縫線，其他全部消除。然后，他們分別用這四種版本訓練獨立的AI模型，觀察每一種"削減信息"的操作對識別準確率的影響。

結果揭示出一條清晰的規律：完整彩色圖的時裝屋識別準確率是78.2%，換成灰度圖之后，準確率降到67.6%，下降了10.6個百分點。這說明顏色對品牌識別是有貢獻的，但貢獻并不巨大。真正讓準確率"斷崖式下跌"的，是從灰度圖變成剪影圖這一步：準確率從67.6%一下跌到30.0%，足足下降了37.6個百分點。這意味著，當紋理和明暗層次信息消失、只剩下形狀時，模型識別品牌的能力大幅喪失。

換句話說，服裝的紋理質感和明暗層次，才是各個時裝屋視覺身份的核心載體。顏色只是"錦上添花"，而輪廓形狀本身的信息量其實相當有限——邊緣圖和剪影圖的準確率幾乎相同（30.7% vs 30.0%），說明填充了顏色的形狀相比純輪廓線并沒有提供多少額外信息。

這個發現從日常經驗角度看也很直覺：你在百米外看到一個人，看不清顏色，卻能從走路姿勢和身形猜出大概是誰，對時裝屋來說，這個"姿勢和身形"的等價物，正是布料的紋理和光影。

有趣的是，同樣這四種圖片，在顏色預測任務上呈現出完全相反的規律。顏色預測的準確率隨圖片信息的減少而下降，但有一個重要的補償機制在起作用——這就是人臉輸入的價值。

四、人臉是"背景知識"——當主要信息不足時，它的價值才真正顯現

FASH-iCNN是一個多模態系統，除了服裝圖片這個核心輸入之外，它還可以選擇性地接收模特的人臉圖片作為輔助輸入。研究團隊想知道的是：這張人臉，在什么情況下真正有幫助？

實驗結果給出了一個非常清晰的答案：人臉輸入的價值，與服裝圖片的信息豐富程度成反比。當服裝是完整彩色圖時，加入人臉輸入幾乎毫無用處，顏色預測準確率反而微降了0.6個百分點。但當服裝只剩下灰度圖時，人臉輸入讓準確率提升了9.2個百分點；換成剪影圖，提升了20.8個百分點；換成邊緣圖，提升了20.5個百分點。

這個規律就像是：如果你手里拿著一份詳細的地圖，額外的路人指路對你幫助不大；但如果你只有一張模糊的草圖，任何額外的線索都彌足珍貴。人臉圖片之所以能在信息稀少的情況下幫助預測顏色，是因為時裝秀場有一個不成文的規律：造型師在為特定服裝搭配模特時，會考慮模特的外貌與服裝風格的協調性，而這種協調性本身就隱含了關于服裝顏色和風格的線索。

更有意思的是一個"透明化"發現：只用人臉圖片（不看服裝）來預測時裝屋，準確率高達96.6%——但這個數字是有水分的。研究團隊發現，這是因為測試集里有些模特在訓練集里出現過，AI實際上是在識別"這個人是誰"而不是"這件衣服出自哪里"，這叫做"身份泄漏"。當使用更嚴格的按時間劃分的測試方式（訓練時只用早期數據，測試時用晚期數據）時，準確率會大幅下降。此外，研究還發現，給人臉輸入再加上一個"設計師標簽"的輔助信息，顏色預測準確率只提升了0.2個百分點。這說明人臉圖片本身已經隱含了大量關于拍攝場景、品牌風格和造型偏好的信息，額外標簽幾乎不帶來新知識。

五、從"這件衣服是藍色的"到"這件衣服是矢車菊藍"——三級顏色預測流水線

顏色預測是FASH-iCNN最核心的功能之一，而研究團隊并沒有簡單地讓AI直接給出一個顏色答案，而是設計了一套三層遞進的"顏色漏斗"。

這套流水線的邏輯是：先確定大方向，再縮小范圍，最后精確定位。第一層是柏林-凱基礎色彩詞分類，也就是判斷這件衣服屬于九大顏色類別中的哪一類——比如"藍色系"。第二層是在確定了大類之后，進一步從CSS命名顏色中找到更精確的色名——比如"矢車菊藍（cornflowerblue）"。第三層是在CSS顏色的基礎上，給出一個精確的CIELAB顏色坐標，這是一種模擬人眼感知顏色的數學坐標系，可以精確到"這種藍色比那種藍色略偏綠一點點"的程度。

衡量顏色預測準確性的指標是ΔE00（讀作"Delta E零零"），這是一個描述兩種顏色在人眼感知上差距多少的數值，數值越低意味著預測顏色與真實顏色越接近，低于1表示人眼幾乎無法察覺差異，低于3表示差異輕微。

不用任何約束、直接預測CIELAB坐標時，ΔE00為15.0，錯誤率相當高——就像你說一件衣服是"藍色"結果它其實是"紫色"。只用CSS顏色的中心點來預測時，ΔE00降到9.70，顏色精度大幅提升。使用完整的三層流水線（柏林-凱→CSS→CIELAB）時，ΔE00進一步降至9.10，比無約束基線減少了39%的感知誤差。如果假設前兩層分類完全正確（研究團隊稱之為"oracle"理想上限），ΔE00可以進一步降到5.74，說明這套流水線框架的理論上限還有提升空間，主要瓶頸在于前兩層的分類精度，而不是最后一步的回歸計算本身。

六、單色預測能做到，多色調色板卻是另一回事

系統能準確預測一件服裝的主色調，但如果想預測一件服裝的完整調色板（比如主色之外還有哪些配色），結果就大相徑庭了。

研究團隊系統性地測試了這個方向。數據集中每件服裝都有六格顏色標注，分別記為c1到c6，c1是主色，之后依次是次要顏色。當訓練AI預測c1時，準確率是44.53%，ΔE00中位數為3.09，在"感知相近"的范圍內；換成c2時，準確率降到38.55%，ΔE00升到5.39；到c3時，ΔE00已經是10.38；c4更是高達16.77。到第四格顏色，預測誤差已經完全超出了合理的顏色匹配容忍范圍，基本上是在"瞎猜"。

研究團隊還嘗試了另外兩種方法。一種是把問題變成"多標簽分類"：不再預測各格顏色的順序，而是預測這件衣服的調色板里出現了哪些顏色（91個CSS色名，任意組合）。這種方法對預測"有沒有這種顏色"的準確率還不錯（預測一個顏色時準確率85.8%），但預測多個顏色時準確率快速下滑，而且無法告訴你哪個顏色是主色。另一種方法是"錨點輔助續預測"：把已知的主色c1作為提示，讓AI預測c2。這種方法讓c2的預測準確率提高了4.6個百分點，但到c5時提升效果完全消失，證明次要顏色之間的關聯性非常弱。

這個結論說明，時裝服裝的完整調色板預測，在目前技術條件下仍是一個未解決的難題。研究團隊誠實地將這個局限性寫入論文，并解釋為什么系統只輸出主色：因為這是數據信號真正支撐的能力邊界，而不是系統設計的偷懶。

七、這套系統到底有什么用，局限在哪里

FASH-iCNN設計的顏色輸出有三個層次的實用性，可以服務不同需求的用戶。對于只是想了解"這件衣服屬于哪種風格傳統"的普通用戶，系統給出的時裝屋歸屬和年代判斷，以及對應的命名顏色傳統，就已經很有參考價值。對于想深入理解某件服裝顏色淵源的用戶，可以沿著"柏林-凱色族→CSS具體色名"這條線索追溯。對于需要做出精確配色決策的設計師或造型師，系統提供的CIELAB坐標則能直接用于色彩管理工具。

這套分層輸出，是把"文化溯源"和"色彩精度"融合在一起的嘗試，這在純粹的推薦系統或純粹的顏色識別工具中都是看不到的。

系統未來的一個重要擴展方向，是把這套框架移植到非西方時裝檔案或區域性服飾文化上。相同的技術結構，完全可以用來學習完全不同的文化審美邏輯，生成在文化內容上截然不同但在技術結構上完全一致的"文化透明型"預測系統。

說到底，FASH-iCNN真正在做的事情，是把時裝AI從一個"給你推薦東西但不告訴你為什么"的黑盒，變成一個"給你看見推薦背后的文化邏輯"的工具。每一件衣服都是某個時代、某個創意總監、某種審美傳統共同簽名的文化產品。過去，AI把這個簽名藏了起來，用其影響你的品味卻不聲張。FASH-iCNN做的，是把那個簽名重新展示出來，讓你能夠看見、思考、甚至選擇是否接受它的影響。

這并不是一個完美的系統，它的顏色精度還有提升空間，它的數據視野還局限在西方奢侈時尚圈，它的多色板預測還是個難題。但它把"文化透明性"作為AI設計原則來認真對待，本身就是一種值得關注的嘗試。下次當你打開一個穿搭推薦APP，你或許會多想一步：這個建議，背后藏著誰的審美基因？

Q&A

Q1：FASH-iCNN系統是如何判斷一件衣服出自哪個時裝屋的？

A：FASH-iCNN通過分析服裝圖片的視覺特征來識別時裝屋身份。研究發現，布料紋理和明暗層次是最關鍵的識別信號，而不是我們通常以為的顏色。去掉顏色信息只會讓準確率下降約10個百分點，但去掉紋理信息會讓準確率大跌近38個百分點。簡單說，不同品牌的布料質感和光影處理方式，才是它們最獨特的"視覺指紋"。

Q2：FASH-iCNN顏色預測的三層流水線具體是怎么工作的？

A：系統采用"從粗到細"的三步走策略。第一步判斷服裝屬于哪個大色類，比如"藍色系"；第二步在藍色系里鎖定一個更精確的CSS命名顏色，比如"矢車菊藍"；第三步給出這個顏色在感知色彩坐標系里的精確數值。這種層層約束的方式比直接猜最終數值的方式，顏色誤差減少了約39%。

Q3：FASH-iCNN為什么只預測主色而不預測完整調色板？

A：研究團隊系統測試后發現，服裝次要顏色與主色之間幾乎沒有規律性關聯。從第四格顏色開始，預測誤差就已經完全超出合理范圍，相當于隨機猜測。這不是系統設計的缺陷，而是數據本身揭示的信號邊界：服裝調色板中除主色以外的顏色，目前用單張圖片無法可靠預測。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.