<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      土耳其理工大學(xué)教你用"自動(dòng)篩選員"讓AI協(xié)作訓(xùn)練更聰明

      0
      分享至


      這項(xiàng)由土耳其蓋布澤理工大學(xué)計(jì)算機(jī)工程系主導(dǎo)的研究,發(fā)表于2025年的《工程科學(xué)與技術(shù):國(guó)際期刊》(Engineering Science and Technology, an International Journal),第61卷,論文編號(hào)101920,感興趣的讀者可以通過(guò)DOI編號(hào)10.1016/j.jestch.2024.101920查詢完整論文。

      一、當(dāng)AI們需要一起學(xué)習(xí),卻又不能互相看答案

      假設(shè)你所在的城市有一千所學(xué)校,教育局想讓所有學(xué)校的學(xué)生共同參與一場(chǎng)大規(guī)模的期末考試備考,但每所學(xué)校的學(xué)生信息都屬于個(gè)人隱私,不能集中到一起。于是教育局想了一個(gè)辦法:每所學(xué)校的學(xué)生各自在本地復(fù)習(xí),復(fù)習(xí)完之后只把"復(fù)習(xí)心得的總結(jié)"上交給教育局,教育局匯總這些心得,再發(fā)回給所有學(xué)校,如此循環(huán)往復(fù),最終所有人都能從彼此的經(jīng)驗(yàn)中受益,卻沒(méi)有任何人看到其他人的試卷。

      這就是"聯(lián)邦學(xué)習(xí)"(Federated Learning)的核心思想。在真實(shí)的技術(shù)世界里,這一千所"學(xué)校"可以是醫(yī)院、手機(jī)、智能攝像頭或者各種物聯(lián)網(wǎng)設(shè)備,"復(fù)習(xí)心得"則是機(jī)器學(xué)習(xí)模型的參數(shù)更新,而那位"教育局"就是位于云端的中央服務(wù)器。各個(gè)設(shè)備上的原始數(shù)據(jù)從不離開(kāi)本地,只有模型的更新信息在網(wǎng)絡(luò)中流通,從而保護(hù)了用戶的數(shù)據(jù)隱私。

      這個(gè)機(jī)制聽(tīng)起來(lái)相當(dāng)美好,但現(xiàn)實(shí)中卻隱藏著一個(gè)讓整個(gè)系統(tǒng)頭疼的難題:如果某些學(xué)校的學(xué)生經(jīng)常交上亂寫的答案,甚至有人故意搗亂、把錯(cuò)誤的"心得"混入提交材料中,整個(gè)系統(tǒng)的學(xué)習(xí)質(zhì)量就會(huì)急劇下滑。更麻煩的是,各個(gè)學(xué)校的學(xué)生數(shù)量、學(xué)習(xí)內(nèi)容都不一樣——這就是所謂的"非獨(dú)立同分布數(shù)據(jù)"(non-IID data)問(wèn)題,簡(jiǎn)單說(shuō)就是每個(gè)設(shè)備上的數(shù)據(jù)分布完全不同,這會(huì)讓整個(gè)協(xié)作訓(xùn)練的過(guò)程變得極不穩(wěn)定。

      蓋布澤理工大學(xué)的研究團(tuán)隊(duì)正是為了解決這個(gè)問(wèn)題而行動(dòng)的。他們?cè)O(shè)計(jì)了一套"自動(dòng)篩選員"系統(tǒng),能在訓(xùn)練過(guò)程中悄悄識(shí)別并過(guò)濾掉那些"亂寫的答案",讓整個(gè)聯(lián)邦學(xué)習(xí)系統(tǒng)更加健壯、準(zhǔn)確。

      二、噪聲的兩張面孔:貼錯(cuò)標(biāo)簽和混入異類

      在深入了解這套篩選系統(tǒng)之前,有必要先認(rèn)識(shí)一下"噪聲"這個(gè)概念在機(jī)器學(xué)習(xí)中的具體含義,因?yàn)樗⒉恢挥幸环N形態(tài)。

      研究團(tuán)隊(duì)在實(shí)驗(yàn)中主要處理兩種不同類型的噪聲數(shù)據(jù)。第一種叫做"閉集噪聲"(closed-set noise),可以用一個(gè)生動(dòng)的場(chǎng)景來(lái)理解:在一個(gè)專門辨認(rèn)貓和狗的訓(xùn)練數(shù)據(jù)集里,某些狗的照片被錯(cuò)誤地打上了"貓"的標(biāo)簽,反之亦然。數(shù)據(jù)本身是合法的、有意義的圖片,只是標(biāo)簽貼錯(cuò)了。這就好比圖書館里所有書都是正常的書,但有人把《動(dòng)物學(xué)》放到了"烹飪"書架上。第二種叫做"開(kāi)集噪聲"(open-set noise),情況更加混亂:在那個(gè)貓狗分類數(shù)據(jù)集里,突然混入了一堆汽車、飛機(jī)的照片,而且這些照片還被強(qiáng)行打上了"貓"或者"狗"的標(biāo)簽。這就好比圖書館里不僅放錯(cuò)了位置,還混進(jìn)來(lái)一些根本不屬于圖書館收藏范圍的奇怪物品,比如一把雨傘被貼上了書號(hào)。

      這兩種噪聲對(duì)機(jī)器學(xué)習(xí)模型的傷害方式不盡相同。錯(cuò)貼標(biāo)簽的數(shù)據(jù)會(huì)讓模型對(duì)真實(shí)類別產(chǎn)生混淆,而完全無(wú)關(guān)的數(shù)據(jù)則會(huì)讓模型花費(fèi)大量精力去"理解"一些根本不該出現(xiàn)的內(nèi)容,最終導(dǎo)致模型的判斷能力嚴(yán)重下降。

      研究團(tuán)隊(duì)將這兩種噪聲以40%的比例注入到訓(xùn)練數(shù)據(jù)中——也就是說(shuō),每10張訓(xùn)練圖片里,有4張是"壞數(shù)據(jù)"。這個(gè)比例相當(dāng)高,足以讓一個(gè)沒(méi)有任何防御機(jī)制的模型表現(xiàn)得一塌糊涂。選擇這么高的噪聲率,是為了讓篩選方法的效果更清晰地呈現(xiàn)出來(lái)。實(shí)驗(yàn)使用了兩個(gè)知名的圖像數(shù)據(jù)集:MNIST(手寫數(shù)字圖片,共60000張訓(xùn)練圖片,10個(gè)類別)和CIFAR10(包含飛機(jī)、汽車、鳥(niǎo)類等10種物體的彩色圖片,共50000張)。對(duì)于開(kāi)集噪聲的來(lái)源,CIFAR10實(shí)驗(yàn)中使用了ImageNet32和SVHN(街景房屋號(hào)碼圖片),MNIST實(shí)驗(yàn)中則使用了ImageNet32和EMNIST(手寫字母圖片)。

      三、那個(gè)特殊的"多面手"神經(jīng)網(wǎng)絡(luò)

      在正式介紹篩選策略之前,研究團(tuán)隊(duì)首先設(shè)計(jì)了一個(gè)特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu),這個(gè)網(wǎng)絡(luò)是整套方案的核心基礎(chǔ),被稱為"多任務(wù)自動(dòng)編碼器"(Multi-Task Autoencoder,簡(jiǎn)稱MTAE)。

      普通的圖像分類神經(jīng)網(wǎng)絡(luò)只做一件事:看圖片,說(shuō)出它是什么。而自動(dòng)編碼器(autoencoder)則做另一件事:把圖片壓縮成一段緊湊的"摘要",然后再?gòu)倪@段"摘要"重新把圖片還原出來(lái)。這種先壓縮再還原的過(guò)程迫使網(wǎng)絡(luò)深刻理解圖片的本質(zhì)特征,而不僅僅記住表面像素。

      研究團(tuán)隊(duì)把這兩種能力合并到了同一個(gè)網(wǎng)絡(luò)里。這個(gè)MTAE由三個(gè)部分組成:一個(gè)負(fù)責(zé)把圖片壓縮成"摘要"的編碼器(encoder),一個(gè)負(fù)責(zé)從"摘要"重建原始圖片的解碼器(decoder),以及一個(gè)根據(jù)"摘要"判斷圖片類別的分類器(classifier)。整個(gè)網(wǎng)絡(luò)同時(shí)接受兩種訓(xùn)練信號(hào):一種是重建誤差,衡量還原出來(lái)的圖片與原圖差多少;另一種是分類誤差,衡量判斷類別時(shí)錯(cuò)了多少。

      這兩種誤差通過(guò)一個(gè)加權(quán)公式合并在一起。研究團(tuán)隊(duì)經(jīng)過(guò)大量實(shí)驗(yàn),最終確定了重建誤差的權(quán)重為1,分類誤差的權(quán)重為0.05。分類誤差的權(quán)重被有意設(shè)置得很低,原因在于:如果讓分類任務(wù)主導(dǎo)訓(xùn)練,網(wǎng)絡(luò)就會(huì)更專注于記住標(biāo)簽,反而導(dǎo)致重建出來(lái)的圖片模糊不清,同時(shí)也會(huì)讓網(wǎng)絡(luò)對(duì)錯(cuò)誤標(biāo)簽過(guò)于敏感。把重建任務(wù)的權(quán)重設(shè)高,能保留網(wǎng)絡(luò)對(duì)圖片細(xì)節(jié)的感知能力,進(jìn)而更好地識(shí)別出那些在視覺(jué)上"格格不入"的異常圖片。

      針對(duì)MNIST數(shù)據(jù)集,研究團(tuán)隊(duì)設(shè)計(jì)的MTAE編碼器使用兩層卷積神經(jīng)網(wǎng)絡(luò),分別使用32和64個(gè)濾波器,將圖片壓縮到一個(gè)512維的向量表示。解碼器則用兩層反卷積網(wǎng)絡(luò)將這個(gè)向量還原成原始大小的圖片。針對(duì)更復(fù)雜的CIFAR10彩色圖片,編碼器增加到四層卷積,濾波器數(shù)量依次為64、128、128和256,生成一個(gè)1024維的向量表示,解碼器也相應(yīng)地增加到四層反卷積。這兩套網(wǎng)絡(luò)的尺寸和復(fù)雜度,都是根據(jù)各自處理的數(shù)據(jù)特性量身定制的。

      這個(gè)雙重任務(wù)的設(shè)計(jì)有一個(gè)精妙之處:分類誤差能幫助識(shí)別那些"標(biāo)簽被貼錯(cuò)"的閉集噪聲,因?yàn)殄e(cuò)誤標(biāo)簽會(huì)讓分類任務(wù)產(chǎn)生異常高的誤差;而重建誤差則能幫助識(shí)別那些"完全是外來(lái)物"的開(kāi)集噪聲,因?yàn)槟切奈丛谟?xùn)練數(shù)據(jù)中出現(xiàn)過(guò)的奇怪圖片,網(wǎng)絡(luò)很難把它們準(zhǔn)確還原。兩種信號(hào)互相補(bǔ)充,覆蓋了兩種不同類型噪聲的檢測(cè)需求。

      四、三位"篩選員"各顯神通

      有了這個(gè)能輸出雙重誤差信號(hào)的MTAE之后,研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的策略來(lái)利用這些信號(hào)篩除噪聲樣本。可以把這三種策略理解為三種不同風(fēng)格的質(zhì)檢員,各有各的工作方法。

      第一位質(zhì)檢員叫做OCSVM,全名是"單類支持向量機(jī)"(One-Class Support Vector Machine)。這位質(zhì)檢員的工作邏輯是這樣的:先收集所有"正常"樣本的特征,在特征空間中劃出一個(gè)邊界,邊界之內(nèi)是正常區(qū)域,邊界之外則被判定為異常。具體來(lái)說(shuō),研究團(tuán)隊(duì)讓每個(gè)客戶端在本地計(jì)算每張圖片的加權(quán)損失值(把重建誤差和分類誤差合并成一個(gè)數(shù)字),然后把這些損失值發(fā)送到中央服務(wù)器。服務(wù)器收集來(lái)自所有參與訓(xùn)練的客戶端的損失值,用這些數(shù)據(jù)訓(xùn)練OCSVM模型,確定正常損失值的"地盤"在哪里。訓(xùn)練好之后,這個(gè)模型被發(fā)回各個(gè)客戶端,各客戶端用它來(lái)判斷自己本地每張圖片的損失值是否落在"正常地盤"之外,落在外面的就被視為噪聲并剔除。整個(gè)過(guò)程中,OCSVM使用的是"徑向基函數(shù)核"(RBF kernel),這種核函數(shù)特別擅長(zhǎng)在高維空間中處理非線性的分布邊界,能更精準(zhǔn)地捕捉復(fù)雜的噪聲模式。

      第二位質(zhì)檢員叫做IF,全名是"孤立森林"(Isolation Forest)。這位質(zhì)檢員的工作思路與OCSVM完全不同,它的核心理念是:異常值通常很容易被"孤立"出來(lái),而正常值則往往扎堆在一起。孤立森林通過(guò)隨機(jī)切分?jǐn)?shù)據(jù),發(fā)現(xiàn)那些只需要很少幾刀就能與其他數(shù)據(jù)分開(kāi)的點(diǎn)——這些容易被孤立的點(diǎn),很可能就是異常值。研究團(tuán)隊(duì)根據(jù)數(shù)據(jù)量的大小,使用數(shù)據(jù)集大小的平方根作為孤立森林的決策樹(shù)數(shù)量,這個(gè)設(shè)置在計(jì)算效率和模型準(zhǔn)確性之間取得了良好的平衡。

      第三位質(zhì)檢員叫做AT,即"自適應(yīng)閾值"(Adaptive Threshold)方法,這是研究團(tuán)隊(duì)在一個(gè)名為FedBalancer的已有方法基礎(chǔ)上改進(jìn)而來(lái)的。與OCSVM和IF這兩位"從大量樣本中學(xué)習(xí)規(guī)律"的質(zhì)檢員不同,AT的工作方式更像一把動(dòng)態(tài)調(diào)節(jié)的濾網(wǎng):在每一輪訓(xùn)練中,服務(wù)器根據(jù)各客戶端上報(bào)的損失值范圍(每個(gè)客戶端報(bào)告自己本地樣本的最低損失和最高損失),計(jì)算出一個(gè)全局閾值。損失值超過(guò)這個(gè)閾值的樣本被認(rèn)為是"高風(fēng)險(xiǎn)"樣本,其中大部分(75%的比例)會(huì)被隨機(jī)保留參與訓(xùn)練(因?yàn)楦邠p失有時(shí)意味著樣本很有價(jià)值,模型還沒(méi)學(xué)好),而損失值低于閾值的樣本則全部參與訓(xùn)練(因?yàn)榈蛽p失通常意味著模型已經(jīng)很好地掌握了這類樣本的規(guī)律)。

      這個(gè)閾值并非一成不變,而是隨著訓(xùn)練進(jìn)程動(dòng)態(tài)調(diào)整。具體的調(diào)整邏輯是:服務(wù)器每隔5輪檢查一次最近幾輪的平均損失,如果訓(xùn)練趨于穩(wěn)定(損失在下降),就適當(dāng)提高閾值,過(guò)濾掉更多高損失樣本;如果訓(xùn)練出現(xiàn)波動(dòng)(損失在上升),就降低閾值,讓更多樣本參與訓(xùn)練。這種自動(dòng)反饋調(diào)節(jié)的機(jī)制讓AT方法能隨機(jī)應(yīng)變,避免了人工設(shè)置固定閾值的局限性。

      AT方法與OCSVM和IF相比有一個(gè)顯著的優(yōu)勢(shì):它的計(jì)算成本極低,只需要每個(gè)客戶端上報(bào)兩個(gè)數(shù)字(最低損失和最高損失),服務(wù)器也只需要做簡(jiǎn)單的數(shù)學(xué)計(jì)算,不需要訓(xùn)練任何復(fù)雜的模型,因此對(duì)通信帶寬和計(jì)算資源的消耗幾乎可以忽略不計(jì)。

      這三位質(zhì)檢員都有一個(gè)共同的工作安排:樣本篩選從第400輪訓(xùn)練之后才正式開(kāi)始。這個(gè)安排是精心設(shè)計(jì)的。在訓(xùn)練初期,模型對(duì)數(shù)據(jù)知之甚少,幾乎所有樣本的損失值都差不多高,正常樣本和噪聲樣本混在一起根本分不清楚;而訓(xùn)練時(shí)間過(guò)長(zhǎng)又會(huì)出現(xiàn)"過(guò)擬合"問(wèn)題,模型可能開(kāi)始把噪聲樣本也記住了,導(dǎo)致噪聲樣本的損失值反而變低,更難被識(shí)別出來(lái)。第400輪這個(gè)時(shí)間點(diǎn),恰好是模型開(kāi)始趨于穩(wěn)定、正常樣本和噪聲樣本的損失差異開(kāi)始明顯的階段。OCSVM和IF的模型每5輪更新一次,以跟上訓(xùn)練過(guò)程中損失分布的變化。

      五、在特征空間里找"格格不入者"

      除了基于損失值的篩選策略,研究團(tuán)隊(duì)還探索了另一條路:直接在特征空間中尋找異常樣本。

      前面提到,MTAE的編碼器會(huì)把每張圖片壓縮成一個(gè)高維向量(MNIST是512維,CIFAR10是1024維)。在這個(gè)向量空間里,同類別的正常圖片應(yīng)該聚集在一起,而那些異常圖片(尤其是開(kāi)集噪聲)則理論上應(yīng)該散布在距離正常聚類很遠(yuǎn)的地方。基于這個(gè)思路,研究團(tuán)隊(duì)同樣使用OCSVM和IF這兩位質(zhì)檢員,只不過(guò)這次的輸入不再是損失值,而是每張圖片對(duì)應(yīng)的高維特征向量。

      然而,單純?cè)诟呔S特征空間中做檢測(cè)有一個(gè)挑戰(zhàn):如果模型沒(méi)有被專門訓(xùn)練來(lái)讓同類樣本聚集、異類樣本分散,那么編碼器輸出的特征向量可能會(huì)亂成一團(tuán),正常樣本和噪聲樣本在特征空間里混在一起,根本難以區(qū)分。

      為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)新穎的"聯(lián)邦多類SVDD損失"(Federated Multi-Class SVDD Loss)。SVDD全名是"支持向量數(shù)據(jù)描述"(Support Vector Data Description),它的核心思想是:為每個(gè)類別的正常樣本在特征空間中擬合一個(gè)盡可能小的超球體(可以理解為一個(gè)多維空間中的"氣泡"),然后通過(guò)訓(xùn)練讓每個(gè)類別的樣本都盡量擠進(jìn)自己對(duì)應(yīng)的氣泡里,同時(shí)讓氣泡盡量緊湊。那些無(wú)法被任何氣泡容納的樣本,就很可能是異常值。

      將這個(gè)方法與聯(lián)邦學(xué)習(xí)結(jié)合的具體流程是這樣的:當(dāng)全局模型訓(xùn)練到一定程度(研究中是第500輪之后),服務(wù)器使用一份公開(kāi)的測(cè)試數(shù)據(jù)集,計(jì)算出各個(gè)類別在特征空間中的"質(zhì)心"(centroid,即每個(gè)類別所有樣本特征向量的平均位置)和"半徑"(radius,即氣泡的大小,由距離質(zhì)心最遠(yuǎn)的正常樣本決定)。這些質(zhì)心和半徑被廣播給各個(gè)客戶端,客戶端在本地計(jì)算每張圖片的特征向量與對(duì)應(yīng)類別質(zhì)心之間的距離,如果距離超過(guò)了半徑,那這張圖片就需要為自己的"離群"行為付出額外的損失代價(jià)。這個(gè)額外的損失被加到MTAE原本的訓(xùn)練目標(biāo)中,權(quán)重設(shè)置為一個(gè)非常小的值(λreg = 10??),以確保不會(huì)過(guò)度干擾原本的分類和重建任務(wù)。

      本地訓(xùn)練結(jié)束后,客戶端把每張圖片到對(duì)應(yīng)類別質(zhì)心的距離上報(bào)給服務(wù)器,服務(wù)器用這些距離來(lái)更新各類別的氣泡半徑(使用q分位數(shù)方法,其中q=1-ν,ν是一個(gè)控制被視為異常的數(shù)據(jù)比例的超參數(shù))。這樣的設(shè)計(jì)讓氣泡的大小能隨著訓(xùn)練動(dòng)態(tài)調(diào)整,而非固定不變。

      特征空間的篩選操作從第600輪之后才啟動(dòng),比損失值篩選晚了200輪,這是有意為之的設(shè)計(jì):SVDD損失需要先運(yùn)行一段時(shí)間(從第500輪開(kāi)始),讓特征空間先變得更加有條理,之后才能有效地在其中辨別異常樣本。

      六、實(shí)驗(yàn)結(jié)果:數(shù)字背后的故事

      研究團(tuán)隊(duì)搭建了一套模擬實(shí)驗(yàn)環(huán)境,使用FedML這個(gè)專門為聯(lián)邦學(xué)習(xí)設(shè)計(jì)的開(kāi)源框架,在一臺(tái)配備NVIDIA RTX 3090顯卡的機(jī)器上模擬了不同規(guī)模的聯(lián)邦學(xué)習(xí)場(chǎng)景,包括50、100、200和1000個(gè)客戶端的情況,每輪參與訓(xùn)練的客戶端數(shù)量始終保持在總數(shù)的10%(例如1000個(gè)客戶端時(shí)每輪選100個(gè)參與)。每輪訓(xùn)練中,每個(gè)客戶端在本地進(jìn)行5個(gè)完整的訓(xùn)練周期,批次大小為64,使用帶有0.001權(quán)重衰減的隨機(jī)梯度下降優(yōu)化器,學(xué)習(xí)率為0.1,總訓(xùn)練輪數(shù)為1000輪。

      作為基準(zhǔn)對(duì)比,研究團(tuán)隊(duì)首先在完全沒(méi)有噪聲、也沒(méi)有任何樣本篩選的情況下訓(xùn)練了模型。結(jié)果顯示,隨著客戶端數(shù)量的減少(即每個(gè)客戶端擁有更多數(shù)據(jù)),模型性能持續(xù)提升。以CIFAR10為例,1000個(gè)客戶端時(shí)最高準(zhǔn)確率為57.95%,而50個(gè)客戶端時(shí)則能達(dá)到71.05%。MNIST的表現(xiàn)更好,從1000個(gè)客戶端的94.60%提升到50個(gè)客戶端的97.49%。這個(gè)規(guī)律說(shuō)明數(shù)據(jù)量和數(shù)據(jù)多樣性對(duì)聯(lián)邦學(xué)習(xí)的重要性。

      加入40%的噪聲之后,模型性能出現(xiàn)了大幅下滑,尤其是閉集噪聲(標(biāo)簽錯(cuò)誤)的破壞力最為強(qiáng)烈。CIFAR10在閉集噪聲下、50個(gè)客戶端時(shí)的準(zhǔn)確率跌至38.59%,MNIST在同樣條件下也跌到了85.58%。開(kāi)集噪聲的影響相對(duì)溫和一些,但同樣不容忽視:CIFAR10在ImageNet32開(kāi)集噪聲下1000個(gè)客戶端時(shí)的準(zhǔn)確率只有47.47%,遠(yuǎn)低于無(wú)噪聲時(shí)的57.95%。

      加入損失值篩選方法之后,情況發(fā)生了顯著改觀。在CIFAR10的閉集噪聲場(chǎng)景中,OCSVM的表現(xiàn)尤為亮眼:50個(gè)客戶端時(shí)準(zhǔn)確率從38.59%跳升到45.61%,提升幅度高達(dá)7.02個(gè)百分點(diǎn);200個(gè)客戶端時(shí)提升6.44個(gè)百分點(diǎn)。IF的表現(xiàn)與OCSVM不相上下,50個(gè)客戶端時(shí)提升6.65個(gè)百分點(diǎn)。AT在這個(gè)場(chǎng)景下的表現(xiàn)較為保守,只在1000和50個(gè)客戶端的情況下帶來(lái)了輕微的改善,反而在100和200個(gè)客戶端時(shí)略有下降。

      在MNIST的閉集噪聲場(chǎng)景中,AT方法反而成了表現(xiàn)最佳的選手,100個(gè)客戶端時(shí)準(zhǔn)確率提升了1.83個(gè)百分點(diǎn)。OCSVM在1000個(gè)客戶端時(shí)提升了1.63個(gè)百分點(diǎn),但在200個(gè)客戶端時(shí)卻下降了0.72個(gè)百分點(diǎn)——這被研究團(tuán)隊(duì)解釋為RBF核在特定數(shù)據(jù)分布下的過(guò)擬合傾向,把一些正常樣本錯(cuò)誤地判定為異常。

      在開(kāi)集噪聲的場(chǎng)景中,不同噪聲來(lái)源的難度大相徑庭。SVHN數(shù)據(jù)集(街景數(shù)字圖片)作為CIFAR10的開(kāi)集噪聲時(shí),各種篩選方法的效果都相對(duì)有限,原因在于SVHN的圖片相對(duì)簡(jiǎn)單,模型很容易就把這些噪聲樣本"學(xué)會(huì)了",導(dǎo)致它們的損失值降低,變得難以與正常樣本區(qū)分。而ImageNet32作為開(kāi)集噪聲時(shí),OCSVM和IF都取得了更顯著的改善,IF在200個(gè)客戶端時(shí)提升了3.61個(gè)百分點(diǎn),OCSVM在100個(gè)客戶端時(shí)提升了2.54個(gè)百分點(diǎn)。

      在MNIST的開(kāi)集噪聲場(chǎng)景中,噪聲來(lái)源的相似性至關(guān)重要。EMNIST中的手寫字母圖片與MNIST的手寫數(shù)字圖片非常相似,導(dǎo)致IF方法在所有客戶端規(guī)模下都出現(xiàn)了精度下滑,而OCSVM憑借更強(qiáng)的非線性邊界刻畫能力,在50個(gè)客戶端時(shí)取得了1.12個(gè)百分點(diǎn)的提升。ImageNet32作為MNIST的開(kāi)集噪聲時(shí),由于圖片風(fēng)格與手寫數(shù)字差異極大,OCSVM和IF都能比較容易地識(shí)別出這些"外來(lái)者",分別取得了最高0.91%和0.66%的準(zhǔn)確率提升。

      研究團(tuán)隊(duì)還額外統(tǒng)計(jì)了精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)這三個(gè)更全面的分類性能指標(biāo),在1000個(gè)客戶端的場(chǎng)景下進(jìn)行了分析。這三個(gè)指標(biāo)的變化趨勢(shì)與準(zhǔn)確率基本一致,進(jìn)一步驗(yàn)證了實(shí)驗(yàn)結(jié)論的可靠性。OCSVM在CIFAR10閉集噪聲場(chǎng)景中的F1分?jǐn)?shù)提升達(dá)到5.64個(gè)百分點(diǎn),在所有方法和場(chǎng)景組合中表現(xiàn)最為穩(wěn)定。

      關(guān)于特征空間篩選方法的實(shí)驗(yàn)結(jié)果,故事則稍顯復(fù)雜。在沒(méi)有加入SVDD損失的情況下,單純?cè)诟呔S特征空間中使用OCSVM和IF進(jìn)行異常檢測(cè),在幾乎所有場(chǎng)景下都沒(méi)能超越不使用任何篩選的基準(zhǔn)結(jié)果。這說(shuō)明在40%這樣高的噪聲比例下,模型可能已經(jīng)將噪聲樣本的特征"內(nèi)化"了,導(dǎo)致它們?cè)谔卣骺臻g中與正常樣本難以區(qū)分。

      加入聯(lián)邦SVDD損失之后,情況在CIFAR10上有所改善,尤其是在1000和200個(gè)客戶端的場(chǎng)景中。以CIFAR10加ImageNet32開(kāi)集噪聲為例,加入SVDD損失后OCSVM在200個(gè)客戶端時(shí)取得了0.99個(gè)百分點(diǎn)的提升,IF也取得了0.80個(gè)百分點(diǎn)的提升。然而,對(duì)于100和50個(gè)客戶端的場(chǎng)景,SVDD損失反而造成了一定的性能下降,研究團(tuán)隊(duì)推測(cè)這可能是因?yàn)樵诳蛻舳藬?shù)量較少時(shí),模型容易把噪聲樣本的特征向量強(qiáng)行拉向類別質(zhì)心,反而導(dǎo)致分類判斷變得混亂。在MNIST的所有場(chǎng)景中,聯(lián)邦SVDD損失均未能帶來(lái)正向提升,同時(shí)還造成了PSNR和SSIM指標(biāo)的下降,說(shuō)明特征空間的結(jié)構(gòu)被扭曲了。研究團(tuán)隊(duì)坦率地承認(rèn)這是一個(gè)需要進(jìn)一步研究的問(wèn)題,并將超參數(shù)的自動(dòng)化調(diào)優(yōu)(包括SVDD損失的啟動(dòng)時(shí)間和權(quán)重)列為未來(lái)工作的重要方向。

      七、方法的邊界與代價(jià)

      任何工具都有它的適用范圍和使用代價(jià),這套方案也不例外。研究團(tuán)隊(duì)在論文中詳細(xì)討論了各方法的局限性,這種坦誠(chéng)使整個(gè)研究更具參考價(jià)值。

      從計(jì)算復(fù)雜度的角度來(lái)看,OCSVM的訓(xùn)練時(shí)間與樣本數(shù)量呈平方甚至立方關(guān)系,數(shù)據(jù)量一大就變得非常耗時(shí);IF的訓(xùn)練則相對(duì)高效,時(shí)間復(fù)雜度大約與樹(shù)的數(shù)量和子采樣大小的對(duì)數(shù)成正比。對(duì)于客戶端來(lái)說(shuō),OCSVM的預(yù)測(cè)時(shí)間與支持向量的數(shù)量成正比,IF的預(yù)測(cè)時(shí)間則與樹(shù)的深度對(duì)數(shù)成正比。相比之下,AT方法在客戶端上幾乎沒(méi)有額外的計(jì)算負(fù)擔(dān),只需要上報(bào)兩個(gè)數(shù)字,是三種方法中計(jì)算代價(jià)最低的。

      染污率(contamination parameter)的設(shè)置是一個(gè)敏感問(wèn)題。研究中將其設(shè)為0.4,與實(shí)際噪聲率一致,但在現(xiàn)實(shí)應(yīng)用中,噪聲率往往是未知的。如果將污染率設(shè)置得過(guò)高,大量正常樣本會(huì)被錯(cuò)誤地剔除,反而損害模型性能;設(shè)置得過(guò)低,則噪聲樣本無(wú)法被有效過(guò)濾。研究團(tuán)隊(duì)建議未來(lái)可以借助自適應(yīng)方法來(lái)動(dòng)態(tài)估計(jì)污染率,而不是依賴人工設(shè)定。

      樣本篩選的啟動(dòng)時(shí)機(jī)也是一個(gè)關(guān)鍵但脆弱的超參數(shù)。啟動(dòng)太早,模型還沒(méi)學(xué)會(huì)區(qū)分正常和異常,篩選效果差;啟動(dòng)太晚,模型可能已經(jīng)"記住"了噪聲樣本,損失值不再有區(qū)分度。研究團(tuán)隊(duì)通過(guò)觀察準(zhǔn)確率提升速度放緩的時(shí)間點(diǎn)(第400輪附近)來(lái)確定這個(gè)時(shí)機(jī),但這種判斷方式在不同數(shù)據(jù)集和噪聲類型下可能需要重新校準(zhǔn)。

      從整體表現(xiàn)來(lái)看,OCSVM在大多數(shù)場(chǎng)景下是最可靠的篩選工具,尤其是在復(fù)雜的CIFAR10數(shù)據(jù)集上。IF在某些場(chǎng)景下能取得更高的峰值提升,但穩(wěn)定性略遜一籌,特別是在噪聲與正常數(shù)據(jù)相似度較高的場(chǎng)景(如EMNIST噪聲對(duì)MNIST數(shù)據(jù))中會(huì)出現(xiàn)明顯的性能下降。AT方法雖然計(jì)算成本最低,但在大規(guī)模客戶端場(chǎng)景(如1000個(gè)客戶端)下效果有限,可能是因?yàn)槿珠撝惦y以適應(yīng)各客戶端數(shù)據(jù)分布差異極大的情況。

      說(shuō)到底,這項(xiàng)研究給了聯(lián)邦學(xué)習(xí)社區(qū)一套實(shí)用而有效的工具,讓分散在各個(gè)設(shè)備上的模型訓(xùn)練過(guò)程能夠自動(dòng)對(duì)抗數(shù)據(jù)中的噪聲干擾。研究團(tuán)隊(duì)用大量的實(shí)驗(yàn)數(shù)據(jù)證明了,通過(guò)在中央服務(wù)器上訓(xùn)練異常檢測(cè)模型,并將其廣播給各客戶端用于本地樣本篩選,可以在不暴露任何原始數(shù)據(jù)的前提下,顯著提升聯(lián)邦學(xué)習(xí)在嘈雜、不均衡數(shù)據(jù)環(huán)境下的性能。

      歸根結(jié)底,這套方案的價(jià)值不僅在于那個(gè)7.02%的準(zhǔn)確率提升數(shù)字,更在于它探索了一條可行的路徑:讓分散的、充滿噪聲的數(shù)據(jù)能夠被有效利用。在未來(lái),隨著越來(lái)越多的設(shè)備參與聯(lián)邦學(xué)習(xí),數(shù)據(jù)質(zhì)量參差不齊將會(huì)是一個(gè)越來(lái)越普遍的問(wèn)題,而這類主動(dòng)篩選的思路,無(wú)疑會(huì)成為解決這類問(wèn)題的重要參考。

      對(duì)于研究者來(lái)說(shuō),如何自動(dòng)化地調(diào)節(jié)超參數(shù)(特別是污染率和篩選啟動(dòng)時(shí)機(jī))、如何在客戶端資源極度受限時(shí)降低計(jì)算成本,以及如何讓聯(lián)邦SVDD損失在更多場(chǎng)景下穩(wěn)定發(fā)揮作用,都是值得深入探索的后續(xù)方向。感興趣的讀者可以通過(guò)DOI編號(hào)10.1016/j.jestch.2024.101920獲取完整論文,或直接在工程科學(xué)與技術(shù)國(guó)際期刊第61卷上查閱原文。

      Q&A

      Q1:聯(lián)邦學(xué)習(xí)中的非獨(dú)立同分布數(shù)據(jù)(non-IID data)是什么意思?

      A:非獨(dú)立同分布數(shù)據(jù)是指各個(gè)客戶端設(shè)備上的數(shù)據(jù)內(nèi)容和分布規(guī)律彼此差異很大,不像從同一個(gè)大池子里隨機(jī)撈出來(lái)的那種均勻分布。例如,某家醫(yī)院的數(shù)據(jù)全是肺部CT,另一家則全是腦部MRI,兩者數(shù)據(jù)差異懸殊。這種不均勻性會(huì)讓各客戶端的模型更新方向產(chǎn)生沖突,導(dǎo)致合并后的全局模型偏向某些客戶端的數(shù)據(jù)分布,進(jìn)而影響整體訓(xùn)練效果和收斂速度。

      Q2:多任務(wù)自動(dòng)編碼器(MTAE)在聯(lián)邦學(xué)習(xí)樣本篩選中具體怎么工作?

      A:MTAE同時(shí)學(xué)習(xí)兩件事:把圖片壓縮再還原(重建任務(wù)),以及判斷圖片屬于哪個(gè)類別(分類任務(wù))。正常圖片通常能被準(zhǔn)確還原,分類誤差也較低;而噪聲圖片要么很難還原(開(kāi)集噪聲),要么分類誤差異常高(閉集噪聲)。訓(xùn)練過(guò)程中,兩種誤差信號(hào)被合并為一個(gè)損失值,這個(gè)損失值就成為判斷每張圖片是否是噪聲的依據(jù),讓后續(xù)的篩選算法有據(jù)可查。

      Q3:自適應(yīng)閾值(AT)方法和OCSVM方法相比各有什么優(yōu)缺點(diǎn)?

      A:AT方法的優(yōu)勢(shì)在于計(jì)算成本極低,客戶端只需上報(bào)兩個(gè)數(shù)字,服務(wù)器只做簡(jiǎn)單運(yùn)算,幾乎不增加通信和計(jì)算負(fù)擔(dān),且能根據(jù)訓(xùn)練進(jìn)度動(dòng)態(tài)調(diào)整閾值。缺點(diǎn)是依賴單一損失函數(shù),面對(duì)大規(guī)模客戶端時(shí)全局閾值難以適配每個(gè)客戶端的數(shù)據(jù)差異,在復(fù)雜數(shù)據(jù)集上效果有限。OCSVM能學(xué)習(xí)更復(fù)雜的非線性邊界,在大多數(shù)場(chǎng)景下更可靠,但訓(xùn)練成本高,且需要預(yù)先設(shè)定污染率參數(shù),若參數(shù)設(shè)置不當(dāng)可能誤判正常樣本。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      重慶一57歲女醫(yī)生駕奔馳釀車禍,警方通報(bào)稱操作不當(dāng)致2人死亡6人受傷

      重慶一57歲女醫(yī)生駕奔馳釀車禍,警方通報(bào)稱操作不當(dāng)致2人死亡6人受傷

      大風(fēng)新聞
      2026-05-11 19:31:06
      杭州市拱墅區(qū)半山街道原黨工委副書記、辦事處主任潘金財(cái)涉嫌嚴(yán)重違紀(jì)違法,目前正接受拱墅區(qū)紀(jì)委區(qū)監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

      杭州市拱墅區(qū)半山街道原黨工委副書記、辦事處主任潘金財(cái)涉嫌嚴(yán)重違紀(jì)違法,目前正接受拱墅區(qū)紀(jì)委區(qū)監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

      都市快報(bào)橙柿互動(dòng)
      2026-05-11 19:57:59
      一年用水量達(dá)400多噸 背后竟藏離奇謎案?

      一年用水量達(dá)400多噸 背后竟藏離奇謎案?

      環(huán)球網(wǎng)資訊
      2026-05-11 19:19:57
      Here we go!羅馬諾:弗里克和巴薩續(xù)約至2028年,含續(xù)約選項(xiàng)

      Here we go!羅馬諾:弗里克和巴薩續(xù)約至2028年,含續(xù)約選項(xiàng)

      懂球帝
      2026-05-11 21:20:18
      毛主席83歲給華國(guó)鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國(guó)鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個(gè)女兒!

      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個(gè)女兒!

      閱微札記
      2026-05-11 09:40:53
      傳來(lái)大消息,暴漲開(kāi)啟

      傳來(lái)大消息,暴漲開(kāi)啟

      隔壁老投
      2026-05-11 14:23:42
      天舟十號(hào)發(fā)射成功!中國(guó)空間站“超級(jí)補(bǔ)給時(shí)代”開(kāi)啟——

      天舟十號(hào)發(fā)射成功!中國(guó)空間站“超級(jí)補(bǔ)給時(shí)代”開(kāi)啟——

      海右那人
      2026-05-11 08:45:38
      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      看看新聞Knews
      2026-05-11 13:12:03
      大S年輕時(shí)房間曝光,太過(guò)詭異引人不適,難怪有人曾說(shuō)活不過(guò)50歲

      大S年輕時(shí)房間曝光,太過(guò)詭異引人不適,難怪有人曾說(shuō)活不過(guò)50歲

      草莓解說(shuō)體育
      2026-05-11 20:49:33
      俄閱兵活動(dòng)簡(jiǎn)化,普京保護(hù)措施加強(qiáng),有情報(bào)猜測(cè)可能與紹伊古有關(guān)

      俄閱兵活動(dòng)簡(jiǎn)化,普京保護(hù)措施加強(qiáng),有情報(bào)猜測(cè)可能與紹伊古有關(guān)

      麓谷隱士
      2026-05-11 14:01:34
      OPPO再致歉:從嚴(yán)處罰高級(jí)副總裁段要輝

      OPPO再致歉:從嚴(yán)處罰高級(jí)副總裁段要輝

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-05-11 14:48:08
      震驚!小馬云18歲成年首播,在線人數(shù)破7萬(wàn),與女生接吻刷爆網(wǎng)絡(luò)

      震驚!小馬云18歲成年首播,在線人數(shù)破7萬(wàn),與女生接吻刷爆網(wǎng)絡(luò)

      火山詩(shī)話
      2026-05-09 16:02:57
      卷瘋了?!追覓俞浩兩萬(wàn)員工被迫起號(hào),影石CEO劉靖康看傻了

      卷瘋了?!追覓俞浩兩萬(wàn)員工被迫起號(hào),影石CEO劉靖康看傻了

      雷科技
      2026-05-11 14:38:40
      誰(shuí)都不看好你,偏偏你最爭(zhēng)氣——國(guó)乒榮膺男團(tuán)12連冠

      誰(shuí)都不看好你,偏偏你最爭(zhēng)氣——國(guó)乒榮膺男團(tuán)12連冠

      體壇周報(bào)
      2026-05-11 17:54:14
      中央社會(huì)工作部副部長(zhǎng)柳拯履新中國(guó)紅十字會(huì)黨組書記

      中央社會(huì)工作部副部長(zhǎng)柳拯履新中國(guó)紅十字會(huì)黨組書記

      澎湃新聞
      2026-05-11 22:14:26
      阿根廷公布世界杯55人大名單:迪巴拉無(wú)緣!上屆5位冠軍成員落選

      阿根廷公布世界杯55人大名單:迪巴拉無(wú)緣!上屆5位冠軍成員落選

      我愛(ài)英超
      2026-05-11 21:12:05
      遭“僅退款”榴蓮賣家稱平臺(tái)已返還貨款,平臺(tái)解釋:因未能識(shí)別買家圖片真實(shí)情況,根據(jù)該圖片判定商品無(wú)退貨價(jià)值,將提升甄別能力

      遭“僅退款”榴蓮賣家稱平臺(tái)已返還貨款,平臺(tái)解釋:因未能識(shí)別買家圖片真實(shí)情況,根據(jù)該圖片判定商品無(wú)退貨價(jià)值,將提升甄別能力

      洪觀新聞
      2026-05-11 16:52:31
      東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      背包旅行
      2026-05-11 14:51:09
      舉報(bào)成風(fēng),正在壓垮教育!

      舉報(bào)成風(fēng),正在壓垮教育!

      行者殷濤
      2026-05-11 19:00:42
      2026-05-12 00:19:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂(lè)要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      親子
      本地
      游戲
      公開(kāi)課
      軍事航空

      親子要聞

      #健康躍動(dòng)計(jì)劃#養(yǎng)育孩子的訣竅,就是相信相信的力量

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      LOL第一支MSI戰(zhàn)隊(duì)出爐,TSW確定晉級(jí)季中賽!BLG已鎖定淘汰賽名額

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:伊朗的回應(yīng)“完全不可接受”

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产日韩综合在线视频| 亚洲精品美女久久7777777| 奇米777四色影视在线看| 97在线观看永久免费视频| 精品国产成人三级在线观看| 亚洲综合色区另类av| 欧美疯狂xxxxxbbbbb| 定陶县| 亚洲日本精品中文字幕| 久久永久视频| 亚洲综合无码一区二区三区不卡| 一本大道东京热av无码| 国产午夜福利片无码视频| 精品亚洲一区二区99| 西西人体大胆444WWW| 一区二区三区精品视频免费播放| 亚洲日本VA中文字幕在线| 亚洲色鬼| 欧美日韩亚洲综合二区| 亚洲色成人网站www永久男男| 亚洲综合91社区精品福利| 美女黄av| 国产精品久久久久久爽爽爽| 亚洲AV永久无码精品一区二区| 国产日韩精品一区二区三区在线| 国产激情av一区二区三区| 日本阿v片在线播放免费| 久久精品国产99久久久古代| 性情网| 99精品视频免费热播在线观看| 五月花激情网| 91久久亚洲综合精品成人| 丰满人妻一区-日韩不卡-一区二区三区| 亚洲丁香五月激情综合| 国产精品永久免费成人av| 久久99精品视频| 久久精品一区二区三区四区| 亚洲国产日本韩国欧美MV| 精品偷拍被偷拍在线观看| 欧美乱大交aaaa片if| 7m精品福利视频导航|