網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

土耳其理工大學(xué)教你用"自動(dòng)篩選員"讓AI協(xié)作訓(xùn)練更聰明

2026-05-07 21:01:57　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由土耳其蓋布澤理工大學(xué)計(jì)算機(jī)工程系主導(dǎo)的研究，發(fā)表于2025年的《工程科學(xué)與技術(shù)：國(guó)際期刊》（Engineering Science and Technology, an International Journal），第61卷，論文編號(hào)101920，感興趣的讀者可以通過(guò)DOI編號(hào)10.1016/j.jestch.2024.101920查詢完整論文。

一、當(dāng)AI們需要一起學(xué)習(xí)，卻又不能互相看答案

假設(shè)你所在的城市有一千所學(xué)校，教育局想讓所有學(xué)校的學(xué)生共同參與一場(chǎng)大規(guī)模的期末考試備考，但每所學(xué)校的學(xué)生信息都屬于個(gè)人隱私，不能集中到一起。于是教育局想了一個(gè)辦法：每所學(xué)校的學(xué)生各自在本地復(fù)習(xí)，復(fù)習(xí)完之后只把"復(fù)習(xí)心得的總結(jié)"上交給教育局，教育局匯總這些心得，再發(fā)回給所有學(xué)校，如此循環(huán)往復(fù)，最終所有人都能從彼此的經(jīng)驗(yàn)中受益，卻沒(méi)有任何人看到其他人的試卷。

這就是"聯(lián)邦學(xué)習(xí)"（Federated Learning）的核心思想。在真實(shí)的技術(shù)世界里，這一千所"學(xué)校"可以是醫(yī)院、手機(jī)、智能攝像頭或者各種物聯(lián)網(wǎng)設(shè)備，"復(fù)習(xí)心得"則是機(jī)器學(xué)習(xí)模型的參數(shù)更新，而那位"教育局"就是位于云端的中央服務(wù)器。各個(gè)設(shè)備上的原始數(shù)據(jù)從不離開(kāi)本地，只有模型的更新信息在網(wǎng)絡(luò)中流通，從而保護(hù)了用戶的數(shù)據(jù)隱私。

這個(gè)機(jī)制聽(tīng)起來(lái)相當(dāng)美好，但現(xiàn)實(shí)中卻隱藏著一個(gè)讓整個(gè)系統(tǒng)頭疼的難題：如果某些學(xué)校的學(xué)生經(jīng)常交上亂寫的答案，甚至有人故意搗亂、把錯(cuò)誤的"心得"混入提交材料中，整個(gè)系統(tǒng)的學(xué)習(xí)質(zhì)量就會(huì)急劇下滑。更麻煩的是，各個(gè)學(xué)校的學(xué)生數(shù)量、學(xué)習(xí)內(nèi)容都不一樣——這就是所謂的"非獨(dú)立同分布數(shù)據(jù)"（non-IID data）問(wèn)題，簡(jiǎn)單說(shuō)就是每個(gè)設(shè)備上的數(shù)據(jù)分布完全不同，這會(huì)讓整個(gè)協(xié)作訓(xùn)練的過(guò)程變得極不穩(wěn)定。

蓋布澤理工大學(xué)的研究團(tuán)隊(duì)正是為了解決這個(gè)問(wèn)題而行動(dòng)的。他們?cè)O(shè)計(jì)了一套"自動(dòng)篩選員"系統(tǒng)，能在訓(xùn)練過(guò)程中悄悄識(shí)別并過(guò)濾掉那些"亂寫的答案"，讓整個(gè)聯(lián)邦學(xué)習(xí)系統(tǒng)更加健壯、準(zhǔn)確。

二、噪聲的兩張面孔：貼錯(cuò)標(biāo)簽和混入異類

在深入了解這套篩選系統(tǒng)之前，有必要先認(rèn)識(shí)一下"噪聲"這個(gè)概念在機(jī)器學(xué)習(xí)中的具體含義，因?yàn)樗⒉恢挥幸环N形態(tài)。

研究團(tuán)隊(duì)在實(shí)驗(yàn)中主要處理兩種不同類型的噪聲數(shù)據(jù)。第一種叫做"閉集噪聲"（closed-set noise），可以用一個(gè)生動(dòng)的場(chǎng)景來(lái)理解：在一個(gè)專門辨認(rèn)貓和狗的訓(xùn)練數(shù)據(jù)集里，某些狗的照片被錯(cuò)誤地打上了"貓"的標(biāo)簽，反之亦然。數(shù)據(jù)本身是合法的、有意義的圖片，只是標(biāo)簽貼錯(cuò)了。這就好比圖書館里所有書都是正常的書，但有人把《動(dòng)物學(xué)》放到了"烹飪"書架上。第二種叫做"開(kāi)集噪聲"（open-set noise），情況更加混亂：在那個(gè)貓狗分類數(shù)據(jù)集里，突然混入了一堆汽車、飛機(jī)的照片，而且這些照片還被強(qiáng)行打上了"貓"或者"狗"的標(biāo)簽。這就好比圖書館里不僅放錯(cuò)了位置，還混進(jìn)來(lái)一些根本不屬于圖書館收藏范圍的奇怪物品，比如一把雨傘被貼上了書號(hào)。

這兩種噪聲對(duì)機(jī)器學(xué)習(xí)模型的傷害方式不盡相同。錯(cuò)貼標(biāo)簽的數(shù)據(jù)會(huì)讓模型對(duì)真實(shí)類別產(chǎn)生混淆，而完全無(wú)關(guān)的數(shù)據(jù)則會(huì)讓模型花費(fèi)大量精力去"理解"一些根本不該出現(xiàn)的內(nèi)容，最終導(dǎo)致模型的判斷能力嚴(yán)重下降。

研究團(tuán)隊(duì)將這兩種噪聲以40%的比例注入到訓(xùn)練數(shù)據(jù)中——也就是說(shuō)，每10張訓(xùn)練圖片里，有4張是"壞數(shù)據(jù)"。這個(gè)比例相當(dāng)高，足以讓一個(gè)沒(méi)有任何防御機(jī)制的模型表現(xiàn)得一塌糊涂。選擇這么高的噪聲率，是為了讓篩選方法的效果更清晰地呈現(xiàn)出來(lái)。實(shí)驗(yàn)使用了兩個(gè)知名的圖像數(shù)據(jù)集：MNIST（手寫數(shù)字圖片，共60000張訓(xùn)練圖片，10個(gè)類別）和CIFAR10（包含飛機(jī)、汽車、鳥(niǎo)類等10種物體的彩色圖片，共50000張）。對(duì)于開(kāi)集噪聲的來(lái)源，CIFAR10實(shí)驗(yàn)中使用了ImageNet32和SVHN（街景房屋號(hào)碼圖片），MNIST實(shí)驗(yàn)中則使用了ImageNet32和EMNIST（手寫字母圖片）。

三、那個(gè)特殊的"多面手"神經(jīng)網(wǎng)絡(luò)

在正式介紹篩選策略之前，研究團(tuán)隊(duì)首先設(shè)計(jì)了一個(gè)特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)，這個(gè)網(wǎng)絡(luò)是整套方案的核心基礎(chǔ)，被稱為"多任務(wù)自動(dòng)編碼器"（Multi-Task Autoencoder，簡(jiǎn)稱MTAE）。

普通的圖像分類神經(jīng)網(wǎng)絡(luò)只做一件事：看圖片，說(shuō)出它是什么。而自動(dòng)編碼器（autoencoder）則做另一件事：把圖片壓縮成一段緊湊的"摘要"，然后再?gòu)倪@段"摘要"重新把圖片還原出來(lái)。這種先壓縮再還原的過(guò)程迫使網(wǎng)絡(luò)深刻理解圖片的本質(zhì)特征，而不僅僅記住表面像素。

研究團(tuán)隊(duì)把這兩種能力合并到了同一個(gè)網(wǎng)絡(luò)里。這個(gè)MTAE由三個(gè)部分組成：一個(gè)負(fù)責(zé)把圖片壓縮成"摘要"的編碼器（encoder），一個(gè)負(fù)責(zé)從"摘要"重建原始圖片的解碼器（decoder），以及一個(gè)根據(jù)"摘要"判斷圖片類別的分類器（classifier）。整個(gè)網(wǎng)絡(luò)同時(shí)接受兩種訓(xùn)練信號(hào)：一種是重建誤差，衡量還原出來(lái)的圖片與原圖差多少；另一種是分類誤差，衡量判斷類別時(shí)錯(cuò)了多少。

這兩種誤差通過(guò)一個(gè)加權(quán)公式合并在一起。研究團(tuán)隊(duì)經(jīng)過(guò)大量實(shí)驗(yàn)，最終確定了重建誤差的權(quán)重為1，分類誤差的權(quán)重為0.05。分類誤差的權(quán)重被有意設(shè)置得很低，原因在于：如果讓分類任務(wù)主導(dǎo)訓(xùn)練，網(wǎng)絡(luò)就會(huì)更專注于記住標(biāo)簽，反而導(dǎo)致重建出來(lái)的圖片模糊不清，同時(shí)也會(huì)讓網(wǎng)絡(luò)對(duì)錯(cuò)誤標(biāo)簽過(guò)于敏感。把重建任務(wù)的權(quán)重設(shè)高，能保留網(wǎng)絡(luò)對(duì)圖片細(xì)節(jié)的感知能力，進(jìn)而更好地識(shí)別出那些在視覺(jué)上"格格不入"的異常圖片。

針對(duì)MNIST數(shù)據(jù)集，研究團(tuán)隊(duì)設(shè)計(jì)的MTAE編碼器使用兩層卷積神經(jīng)網(wǎng)絡(luò)，分別使用32和64個(gè)濾波器，將圖片壓縮到一個(gè)512維的向量表示。解碼器則用兩層反卷積網(wǎng)絡(luò)將這個(gè)向量還原成原始大小的圖片。針對(duì)更復(fù)雜的CIFAR10彩色圖片，編碼器增加到四層卷積，濾波器數(shù)量依次為64、128、128和256，生成一個(gè)1024維的向量表示，解碼器也相應(yīng)地增加到四層反卷積。這兩套網(wǎng)絡(luò)的尺寸和復(fù)雜度，都是根據(jù)各自處理的數(shù)據(jù)特性量身定制的。

這個(gè)雙重任務(wù)的設(shè)計(jì)有一個(gè)精妙之處：分類誤差能幫助識(shí)別那些"標(biāo)簽被貼錯(cuò)"的閉集噪聲，因?yàn)殄e(cuò)誤標(biāo)簽會(huì)讓分類任務(wù)產(chǎn)生異常高的誤差；而重建誤差則能幫助識(shí)別那些"完全是外來(lái)物"的開(kāi)集噪聲，因?yàn)槟切奈丛谟?xùn)練數(shù)據(jù)中出現(xiàn)過(guò)的奇怪圖片，網(wǎng)絡(luò)很難把它們準(zhǔn)確還原。兩種信號(hào)互相補(bǔ)充，覆蓋了兩種不同類型噪聲的檢測(cè)需求。

四、三位"篩選員"各顯神通

有了這個(gè)能輸出雙重誤差信號(hào)的MTAE之后，研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的策略來(lái)利用這些信號(hào)篩除噪聲樣本。可以把這三種策略理解為三種不同風(fēng)格的質(zhì)檢員，各有各的工作方法。

第一位質(zhì)檢員叫做OCSVM，全名是"單類支持向量機(jī)"（One-Class Support Vector Machine）。這位質(zhì)檢員的工作邏輯是這樣的：先收集所有"正常"樣本的特征，在特征空間中劃出一個(gè)邊界，邊界之內(nèi)是正常區(qū)域，邊界之外則被判定為異常。具體來(lái)說(shuō)，研究團(tuán)隊(duì)讓每個(gè)客戶端在本地計(jì)算每張圖片的加權(quán)損失值（把重建誤差和分類誤差合并成一個(gè)數(shù)字），然后把這些損失值發(fā)送到中央服務(wù)器。服務(wù)器收集來(lái)自所有參與訓(xùn)練的客戶端的損失值，用這些數(shù)據(jù)訓(xùn)練OCSVM模型，確定正常損失值的"地盤"在哪里。訓(xùn)練好之后，這個(gè)模型被發(fā)回各個(gè)客戶端，各客戶端用它來(lái)判斷自己本地每張圖片的損失值是否落在"正常地盤"之外，落在外面的就被視為噪聲并剔除。整個(gè)過(guò)程中，OCSVM使用的是"徑向基函數(shù)核"（RBF kernel），這種核函數(shù)特別擅長(zhǎng)在高維空間中處理非線性的分布邊界，能更精準(zhǔn)地捕捉復(fù)雜的噪聲模式。

第二位質(zhì)檢員叫做IF，全名是"孤立森林"（Isolation Forest）。這位質(zhì)檢員的工作思路與OCSVM完全不同，它的核心理念是：異常值通常很容易被"孤立"出來(lái)，而正常值則往往扎堆在一起。孤立森林通過(guò)隨機(jī)切分?jǐn)?shù)據(jù)，發(fā)現(xiàn)那些只需要很少幾刀就能與其他數(shù)據(jù)分開(kāi)的點(diǎn)——這些容易被孤立的點(diǎn)，很可能就是異常值。研究團(tuán)隊(duì)根據(jù)數(shù)據(jù)量的大小，使用數(shù)據(jù)集大小的平方根作為孤立森林的決策樹(shù)數(shù)量，這個(gè)設(shè)置在計(jì)算效率和模型準(zhǔn)確性之間取得了良好的平衡。

第三位質(zhì)檢員叫做AT，即"自適應(yīng)閾值"（Adaptive Threshold）方法，這是研究團(tuán)隊(duì)在一個(gè)名為FedBalancer的已有方法基礎(chǔ)上改進(jìn)而來(lái)的。與OCSVM和IF這兩位"從大量樣本中學(xué)習(xí)規(guī)律"的質(zhì)檢員不同，AT的工作方式更像一把動(dòng)態(tài)調(diào)節(jié)的濾網(wǎng)：在每一輪訓(xùn)練中，服務(wù)器根據(jù)各客戶端上報(bào)的損失值范圍（每個(gè)客戶端報(bào)告自己本地樣本的最低損失和最高損失），計(jì)算出一個(gè)全局閾值。損失值超過(guò)這個(gè)閾值的樣本被認(rèn)為是"高風(fēng)險(xiǎn)"樣本，其中大部分（75%的比例）會(huì)被隨機(jī)保留參與訓(xùn)練（因?yàn)楦邠p失有時(shí)意味著樣本很有價(jià)值，模型還沒(méi)學(xué)好），而損失值低于閾值的樣本則全部參與訓(xùn)練（因?yàn)榈蛽p失通常意味著模型已經(jīng)很好地掌握了這類樣本的規(guī)律）。

這個(gè)閾值并非一成不變，而是隨著訓(xùn)練進(jìn)程動(dòng)態(tài)調(diào)整。具體的調(diào)整邏輯是：服務(wù)器每隔5輪檢查一次最近幾輪的平均損失，如果訓(xùn)練趨于穩(wěn)定（損失在下降），就適當(dāng)提高閾值，過(guò)濾掉更多高損失樣本；如果訓(xùn)練出現(xiàn)波動(dòng)（損失在上升），就降低閾值，讓更多樣本參與訓(xùn)練。這種自動(dòng)反饋調(diào)節(jié)的機(jī)制讓AT方法能隨機(jī)應(yīng)變，避免了人工設(shè)置固定閾值的局限性。

AT方法與OCSVM和IF相比有一個(gè)顯著的優(yōu)勢(shì)：它的計(jì)算成本極低，只需要每個(gè)客戶端上報(bào)兩個(gè)數(shù)字（最低損失和最高損失），服務(wù)器也只需要做簡(jiǎn)單的數(shù)學(xué)計(jì)算，不需要訓(xùn)練任何復(fù)雜的模型，因此對(duì)通信帶寬和計(jì)算資源的消耗幾乎可以忽略不計(jì)。

這三位質(zhì)檢員都有一個(gè)共同的工作安排：樣本篩選從第400輪訓(xùn)練之后才正式開(kāi)始。這個(gè)安排是精心設(shè)計(jì)的。在訓(xùn)練初期，模型對(duì)數(shù)據(jù)知之甚少，幾乎所有樣本的損失值都差不多高，正常樣本和噪聲樣本混在一起根本分不清楚；而訓(xùn)練時(shí)間過(guò)長(zhǎng)又會(huì)出現(xiàn)"過(guò)擬合"問(wèn)題，模型可能開(kāi)始把噪聲樣本也記住了，導(dǎo)致噪聲樣本的損失值反而變低，更難被識(shí)別出來(lái)。第400輪這個(gè)時(shí)間點(diǎn)，恰好是模型開(kāi)始趨于穩(wěn)定、正常樣本和噪聲樣本的損失差異開(kāi)始明顯的階段。OCSVM和IF的模型每5輪更新一次，以跟上訓(xùn)練過(guò)程中損失分布的變化。

五、在特征空間里找"格格不入者"

除了基于損失值的篩選策略，研究團(tuán)隊(duì)還探索了另一條路：直接在特征空間中尋找異常樣本。

前面提到，MTAE的編碼器會(huì)把每張圖片壓縮成一個(gè)高維向量（MNIST是512維，CIFAR10是1024維）。在這個(gè)向量空間里，同類別的正常圖片應(yīng)該聚集在一起，而那些異常圖片（尤其是開(kāi)集噪聲）則理論上應(yīng)該散布在距離正常聚類很遠(yuǎn)的地方。基于這個(gè)思路，研究團(tuán)隊(duì)同樣使用OCSVM和IF這兩位質(zhì)檢員，只不過(guò)這次的輸入不再是損失值，而是每張圖片對(duì)應(yīng)的高維特征向量。

然而，單純?cè)诟呔S特征空間中做檢測(cè)有一個(gè)挑戰(zhàn)：如果模型沒(méi)有被專門訓(xùn)練來(lái)讓同類樣本聚集、異類樣本分散，那么編碼器輸出的特征向量可能會(huì)亂成一團(tuán)，正常樣本和噪聲樣本在特征空間里混在一起，根本難以區(qū)分。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)提出了一個(gè)新穎的"聯(lián)邦多類SVDD損失"（Federated Multi-Class SVDD Loss）。SVDD全名是"支持向量數(shù)據(jù)描述"（Support Vector Data Description），它的核心思想是：為每個(gè)類別的正常樣本在特征空間中擬合一個(gè)盡可能小的超球體（可以理解為一個(gè)多維空間中的"氣泡"），然后通過(guò)訓(xùn)練讓每個(gè)類別的樣本都盡量擠進(jìn)自己對(duì)應(yīng)的氣泡里，同時(shí)讓氣泡盡量緊湊。那些無(wú)法被任何氣泡容納的樣本，就很可能是異常值。

將這個(gè)方法與聯(lián)邦學(xué)習(xí)結(jié)合的具體流程是這樣的：當(dāng)全局模型訓(xùn)練到一定程度（研究中是第500輪之后），服務(wù)器使用一份公開(kāi)的測(cè)試數(shù)據(jù)集，計(jì)算出各個(gè)類別在特征空間中的"質(zhì)心"（centroid，即每個(gè)類別所有樣本特征向量的平均位置）和"半徑"（radius，即氣泡的大小，由距離質(zhì)心最遠(yuǎn)的正常樣本決定）。這些質(zhì)心和半徑被廣播給各個(gè)客戶端，客戶端在本地計(jì)算每張圖片的特征向量與對(duì)應(yīng)類別質(zhì)心之間的距離，如果距離超過(guò)了半徑，那這張圖片就需要為自己的"離群"行為付出額外的損失代價(jià)。這個(gè)額外的損失被加到MTAE原本的訓(xùn)練目標(biāo)中，權(quán)重設(shè)置為一個(gè)非常小的值（λreg = 10??），以確保不會(huì)過(guò)度干擾原本的分類和重建任務(wù)。

本地訓(xùn)練結(jié)束后，客戶端把每張圖片到對(duì)應(yīng)類別質(zhì)心的距離上報(bào)給服務(wù)器，服務(wù)器用這些距離來(lái)更新各類別的氣泡半徑（使用q分位數(shù)方法，其中q=1-ν，ν是一個(gè)控制被視為異常的數(shù)據(jù)比例的超參數(shù)）。這樣的設(shè)計(jì)讓氣泡的大小能隨著訓(xùn)練動(dòng)態(tài)調(diào)整，而非固定不變。

特征空間的篩選操作從第600輪之后才啟動(dòng)，比損失值篩選晚了200輪，這是有意為之的設(shè)計(jì)：SVDD損失需要先運(yùn)行一段時(shí)間（從第500輪開(kāi)始），讓特征空間先變得更加有條理，之后才能有效地在其中辨別異常樣本。

六、實(shí)驗(yàn)結(jié)果：數(shù)字背后的故事

研究團(tuán)隊(duì)搭建了一套模擬實(shí)驗(yàn)環(huán)境，使用FedML這個(gè)專門為聯(lián)邦學(xué)習(xí)設(shè)計(jì)的開(kāi)源框架，在一臺(tái)配備NVIDIA RTX 3090顯卡的機(jī)器上模擬了不同規(guī)模的聯(lián)邦學(xué)習(xí)場(chǎng)景，包括50、100、200和1000個(gè)客戶端的情況，每輪參與訓(xùn)練的客戶端數(shù)量始終保持在總數(shù)的10%（例如1000個(gè)客戶端時(shí)每輪選100個(gè)參與）。每輪訓(xùn)練中，每個(gè)客戶端在本地進(jìn)行5個(gè)完整的訓(xùn)練周期，批次大小為64，使用帶有0.001權(quán)重衰減的隨機(jī)梯度下降優(yōu)化器，學(xué)習(xí)率為0.1，總訓(xùn)練輪數(shù)為1000輪。

作為基準(zhǔn)對(duì)比，研究團(tuán)隊(duì)首先在完全沒(méi)有噪聲、也沒(méi)有任何樣本篩選的情況下訓(xùn)練了模型。結(jié)果顯示，隨著客戶端數(shù)量的減少（即每個(gè)客戶端擁有更多數(shù)據(jù)），模型性能持續(xù)提升。以CIFAR10為例，1000個(gè)客戶端時(shí)最高準(zhǔn)確率為57.95%，而50個(gè)客戶端時(shí)則能達(dá)到71.05%。MNIST的表現(xiàn)更好，從1000個(gè)客戶端的94.60%提升到50個(gè)客戶端的97.49%。這個(gè)規(guī)律說(shuō)明數(shù)據(jù)量和數(shù)據(jù)多樣性對(duì)聯(lián)邦學(xué)習(xí)的重要性。

加入40%的噪聲之后，模型性能出現(xiàn)了大幅下滑，尤其是閉集噪聲（標(biāo)簽錯(cuò)誤）的破壞力最為強(qiáng)烈。CIFAR10在閉集噪聲下、50個(gè)客戶端時(shí)的準(zhǔn)確率跌至38.59%，MNIST在同樣條件下也跌到了85.58%。開(kāi)集噪聲的影響相對(duì)溫和一些，但同樣不容忽視：CIFAR10在ImageNet32開(kāi)集噪聲下1000個(gè)客戶端時(shí)的準(zhǔn)確率只有47.47%，遠(yuǎn)低于無(wú)噪聲時(shí)的57.95%。

加入損失值篩選方法之后，情況發(fā)生了顯著改觀。在CIFAR10的閉集噪聲場(chǎng)景中，OCSVM的表現(xiàn)尤為亮眼：50個(gè)客戶端時(shí)準(zhǔn)確率從38.59%跳升到45.61%，提升幅度高達(dá)7.02個(gè)百分點(diǎn)；200個(gè)客戶端時(shí)提升6.44個(gè)百分點(diǎn)。IF的表現(xiàn)與OCSVM不相上下，50個(gè)客戶端時(shí)提升6.65個(gè)百分點(diǎn)。AT在這個(gè)場(chǎng)景下的表現(xiàn)較為保守，只在1000和50個(gè)客戶端的情況下帶來(lái)了輕微的改善，反而在100和200個(gè)客戶端時(shí)略有下降。

在MNIST的閉集噪聲場(chǎng)景中，AT方法反而成了表現(xiàn)最佳的選手，100個(gè)客戶端時(shí)準(zhǔn)確率提升了1.83個(gè)百分點(diǎn)。OCSVM在1000個(gè)客戶端時(shí)提升了1.63個(gè)百分點(diǎn)，但在200個(gè)客戶端時(shí)卻下降了0.72個(gè)百分點(diǎn)——這被研究團(tuán)隊(duì)解釋為RBF核在特定數(shù)據(jù)分布下的過(guò)擬合傾向，把一些正常樣本錯(cuò)誤地判定為異常。

在開(kāi)集噪聲的場(chǎng)景中，不同噪聲來(lái)源的難度大相徑庭。SVHN數(shù)據(jù)集（街景數(shù)字圖片）作為CIFAR10的開(kāi)集噪聲時(shí)，各種篩選方法的效果都相對(duì)有限，原因在于SVHN的圖片相對(duì)簡(jiǎn)單，模型很容易就把這些噪聲樣本"學(xué)會(huì)了"，導(dǎo)致它們的損失值降低，變得難以與正常樣本區(qū)分。而ImageNet32作為開(kāi)集噪聲時(shí)，OCSVM和IF都取得了更顯著的改善，IF在200個(gè)客戶端時(shí)提升了3.61個(gè)百分點(diǎn)，OCSVM在100個(gè)客戶端時(shí)提升了2.54個(gè)百分點(diǎn)。

在MNIST的開(kāi)集噪聲場(chǎng)景中，噪聲來(lái)源的相似性至關(guān)重要。EMNIST中的手寫字母圖片與MNIST的手寫數(shù)字圖片非常相似，導(dǎo)致IF方法在所有客戶端規(guī)模下都出現(xiàn)了精度下滑，而OCSVM憑借更強(qiáng)的非線性邊界刻畫能力，在50個(gè)客戶端時(shí)取得了1.12個(gè)百分點(diǎn)的提升。ImageNet32作為MNIST的開(kāi)集噪聲時(shí)，由于圖片風(fēng)格與手寫數(shù)字差異極大，OCSVM和IF都能比較容易地識(shí)別出這些"外來(lái)者"，分別取得了最高0.91%和0.66%的準(zhǔn)確率提升。

研究團(tuán)隊(duì)還額外統(tǒng)計(jì)了精確率（Precision）、召回率（Recall）和F1分?jǐn)?shù)這三個(gè)更全面的分類性能指標(biāo)，在1000個(gè)客戶端的場(chǎng)景下進(jìn)行了分析。這三個(gè)指標(biāo)的變化趨勢(shì)與準(zhǔn)確率基本一致，進(jìn)一步驗(yàn)證了實(shí)驗(yàn)結(jié)論的可靠性。OCSVM在CIFAR10閉集噪聲場(chǎng)景中的F1分?jǐn)?shù)提升達(dá)到5.64個(gè)百分點(diǎn)，在所有方法和場(chǎng)景組合中表現(xiàn)最為穩(wěn)定。

關(guān)于特征空間篩選方法的實(shí)驗(yàn)結(jié)果，故事則稍顯復(fù)雜。在沒(méi)有加入SVDD損失的情況下，單純?cè)诟呔S特征空間中使用OCSVM和IF進(jìn)行異常檢測(cè)，在幾乎所有場(chǎng)景下都沒(méi)能超越不使用任何篩選的基準(zhǔn)結(jié)果。這說(shuō)明在40%這樣高的噪聲比例下，模型可能已經(jīng)將噪聲樣本的特征"內(nèi)化"了，導(dǎo)致它們?cè)谔卣骺臻g中與正常樣本難以區(qū)分。

加入聯(lián)邦SVDD損失之后，情況在CIFAR10上有所改善，尤其是在1000和200個(gè)客戶端的場(chǎng)景中。以CIFAR10加ImageNet32開(kāi)集噪聲為例，加入SVDD損失后OCSVM在200個(gè)客戶端時(shí)取得了0.99個(gè)百分點(diǎn)的提升，IF也取得了0.80個(gè)百分點(diǎn)的提升。然而，對(duì)于100和50個(gè)客戶端的場(chǎng)景，SVDD損失反而造成了一定的性能下降，研究團(tuán)隊(duì)推測(cè)這可能是因?yàn)樵诳蛻舳藬?shù)量較少時(shí)，模型容易把噪聲樣本的特征向量強(qiáng)行拉向類別質(zhì)心，反而導(dǎo)致分類判斷變得混亂。在MNIST的所有場(chǎng)景中，聯(lián)邦SVDD損失均未能帶來(lái)正向提升，同時(shí)還造成了PSNR和SSIM指標(biāo)的下降，說(shuō)明特征空間的結(jié)構(gòu)被扭曲了。研究團(tuán)隊(duì)坦率地承認(rèn)這是一個(gè)需要進(jìn)一步研究的問(wèn)題，并將超參數(shù)的自動(dòng)化調(diào)優(yōu)（包括SVDD損失的啟動(dòng)時(shí)間和權(quán)重）列為未來(lái)工作的重要方向。

七、方法的邊界與代價(jià)

任何工具都有它的適用范圍和使用代價(jià)，這套方案也不例外。研究團(tuán)隊(duì)在論文中詳細(xì)討論了各方法的局限性，這種坦誠(chéng)使整個(gè)研究更具參考價(jià)值。

從計(jì)算復(fù)雜度的角度來(lái)看，OCSVM的訓(xùn)練時(shí)間與樣本數(shù)量呈平方甚至立方關(guān)系，數(shù)據(jù)量一大就變得非常耗時(shí)；IF的訓(xùn)練則相對(duì)高效，時(shí)間復(fù)雜度大約與樹(shù)的數(shù)量和子采樣大小的對(duì)數(shù)成正比。對(duì)于客戶端來(lái)說(shuō)，OCSVM的預(yù)測(cè)時(shí)間與支持向量的數(shù)量成正比，IF的預(yù)測(cè)時(shí)間則與樹(shù)的深度對(duì)數(shù)成正比。相比之下，AT方法在客戶端上幾乎沒(méi)有額外的計(jì)算負(fù)擔(dān)，只需要上報(bào)兩個(gè)數(shù)字，是三種方法中計(jì)算代價(jià)最低的。

染污率（contamination parameter）的設(shè)置是一個(gè)敏感問(wèn)題。研究中將其設(shè)為0.4，與實(shí)際噪聲率一致，但在現(xiàn)實(shí)應(yīng)用中，噪聲率往往是未知的。如果將污染率設(shè)置得過(guò)高，大量正常樣本會(huì)被錯(cuò)誤地剔除，反而損害模型性能；設(shè)置得過(guò)低，則噪聲樣本無(wú)法被有效過(guò)濾。研究團(tuán)隊(duì)建議未來(lái)可以借助自適應(yīng)方法來(lái)動(dòng)態(tài)估計(jì)污染率，而不是依賴人工設(shè)定。

樣本篩選的啟動(dòng)時(shí)機(jī)也是一個(gè)關(guān)鍵但脆弱的超參數(shù)。啟動(dòng)太早，模型還沒(méi)學(xué)會(huì)區(qū)分正常和異常，篩選效果差；啟動(dòng)太晚，模型可能已經(jīng)"記住"了噪聲樣本，損失值不再有區(qū)分度。研究團(tuán)隊(duì)通過(guò)觀察準(zhǔn)確率提升速度放緩的時(shí)間點(diǎn)（第400輪附近）來(lái)確定這個(gè)時(shí)機(jī)，但這種判斷方式在不同數(shù)據(jù)集和噪聲類型下可能需要重新校準(zhǔn)。

從整體表現(xiàn)來(lái)看，OCSVM在大多數(shù)場(chǎng)景下是最可靠的篩選工具，尤其是在復(fù)雜的CIFAR10數(shù)據(jù)集上。IF在某些場(chǎng)景下能取得更高的峰值提升，但穩(wěn)定性略遜一籌，特別是在噪聲與正常數(shù)據(jù)相似度較高的場(chǎng)景（如EMNIST噪聲對(duì)MNIST數(shù)據(jù)）中會(huì)出現(xiàn)明顯的性能下降。AT方法雖然計(jì)算成本最低，但在大規(guī)模客戶端場(chǎng)景（如1000個(gè)客戶端）下效果有限，可能是因?yàn)槿珠撝惦y以適應(yīng)各客戶端數(shù)據(jù)分布差異極大的情況。

說(shuō)到底，這項(xiàng)研究給了聯(lián)邦學(xué)習(xí)社區(qū)一套實(shí)用而有效的工具，讓分散在各個(gè)設(shè)備上的模型訓(xùn)練過(guò)程能夠自動(dòng)對(duì)抗數(shù)據(jù)中的噪聲干擾。研究團(tuán)隊(duì)用大量的實(shí)驗(yàn)數(shù)據(jù)證明了，通過(guò)在中央服務(wù)器上訓(xùn)練異常檢測(cè)模型，并將其廣播給各客戶端用于本地樣本篩選，可以在不暴露任何原始數(shù)據(jù)的前提下，顯著提升聯(lián)邦學(xué)習(xí)在嘈雜、不均衡數(shù)據(jù)環(huán)境下的性能。

歸根結(jié)底，這套方案的價(jià)值不僅在于那個(gè)7.02%的準(zhǔn)確率提升數(shù)字，更在于它探索了一條可行的路徑：讓分散的、充滿噪聲的數(shù)據(jù)能夠被有效利用。在未來(lái)，隨著越來(lái)越多的設(shè)備參與聯(lián)邦學(xué)習(xí)，數(shù)據(jù)質(zhì)量參差不齊將會(huì)是一個(gè)越來(lái)越普遍的問(wèn)題，而這類主動(dòng)篩選的思路，無(wú)疑會(huì)成為解決這類問(wèn)題的重要參考。

對(duì)于研究者來(lái)說(shuō)，如何自動(dòng)化地調(diào)節(jié)超參數(shù)（特別是污染率和篩選啟動(dòng)時(shí)機(jī)）、如何在客戶端資源極度受限時(shí)降低計(jì)算成本，以及如何讓聯(lián)邦SVDD損失在更多場(chǎng)景下穩(wěn)定發(fā)揮作用，都是值得深入探索的后續(xù)方向。感興趣的讀者可以通過(guò)DOI編號(hào)10.1016/j.jestch.2024.101920獲取完整論文，或直接在工程科學(xué)與技術(shù)國(guó)際期刊第61卷上查閱原文。

Q&A

Q1：聯(lián)邦學(xué)習(xí)中的非獨(dú)立同分布數(shù)據(jù)（non-IID data）是什么意思？

A：非獨(dú)立同分布數(shù)據(jù)是指各個(gè)客戶端設(shè)備上的數(shù)據(jù)內(nèi)容和分布規(guī)律彼此差異很大，不像從同一個(gè)大池子里隨機(jī)撈出來(lái)的那種均勻分布。例如，某家醫(yī)院的數(shù)據(jù)全是肺部CT，另一家則全是腦部MRI，兩者數(shù)據(jù)差異懸殊。這種不均勻性會(huì)讓各客戶端的模型更新方向產(chǎn)生沖突，導(dǎo)致合并后的全局模型偏向某些客戶端的數(shù)據(jù)分布，進(jìn)而影響整體訓(xùn)練效果和收斂速度。

Q2：多任務(wù)自動(dòng)編碼器（MTAE）在聯(lián)邦學(xué)習(xí)樣本篩選中具體怎么工作？

A：MTAE同時(shí)學(xué)習(xí)兩件事：把圖片壓縮再還原（重建任務(wù)），以及判斷圖片屬于哪個(gè)類別（分類任務(wù)）。正常圖片通常能被準(zhǔn)確還原，分類誤差也較低；而噪聲圖片要么很難還原（開(kāi)集噪聲），要么分類誤差異常高（閉集噪聲）。訓(xùn)練過(guò)程中，兩種誤差信號(hào)被合并為一個(gè)損失值，這個(gè)損失值就成為判斷每張圖片是否是噪聲的依據(jù)，讓后續(xù)的篩選算法有據(jù)可查。

Q3：自適應(yīng)閾值（AT）方法和OCSVM方法相比各有什么優(yōu)缺點(diǎn)？

A：AT方法的優(yōu)勢(shì)在于計(jì)算成本極低，客戶端只需上報(bào)兩個(gè)數(shù)字，服務(wù)器只做簡(jiǎn)單運(yùn)算，幾乎不增加通信和計(jì)算負(fù)擔(dān)，且能根據(jù)訓(xùn)練進(jìn)度動(dòng)態(tài)調(diào)整閾值。缺點(diǎn)是依賴單一損失函數(shù)，面對(duì)大規(guī)模客戶端時(shí)全局閾值難以適配每個(gè)客戶端的數(shù)據(jù)差異，在復(fù)雜數(shù)據(jù)集上效果有限。OCSVM能學(xué)習(xí)更復(fù)雜的非線性邊界，在大多數(shù)場(chǎng)景下更可靠，但訓(xùn)練成本高，且需要預(yù)先設(shè)定污染率參數(shù)，若參數(shù)設(shè)置不當(dāng)可能誤判正常樣本。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.