<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      土耳其頂尖高校最新研究:讓手機(jī)AI訓(xùn)練既保護(hù)隱私又少傳數(shù)據(jù)

      0
      分享至


      這項由土耳其蓋布澤理工大學(xué)計算機(jī)工程系主導(dǎo)的研究,發(fā)表于2025年3月的IEEE Access期刊第13卷,論文編號為DOI: 10.1109/ACCESS.2025.3554138,有興趣深入了解的讀者可通過該編號查詢完整原文。

      當(dāng)你在手機(jī)上使用輸入法、人臉解鎖或醫(yī)療健康應(yīng)用時,手機(jī)背后的AI其實一直在悄悄學(xué)習(xí)。但這里有個棘手的問題:AI要變聰明,就需要大量數(shù)據(jù);可數(shù)據(jù)里偏偏藏著你的隱私。為了解決這個矛盾,科學(xué)家發(fā)明了一種叫做"聯(lián)邦學(xué)習(xí)"的訓(xùn)練方式。用一句話概括,這套方法的核心思路是:數(shù)據(jù)不出門,但經(jīng)驗可以共享。每部手機(jī)只把自己學(xué)到的"經(jīng)驗總結(jié)"上傳給中央服務(wù)器,而不是把原始數(shù)據(jù)交出去,服務(wù)器把所有人的經(jīng)驗匯總后,再把升級后的AI模型發(fā)回給每部手機(jī)。

      然而,這套看似完美的方案在實際落地時面臨兩道難關(guān)。第一道難關(guān)是通信堵塞:每次手機(jī)把經(jīng)驗總結(jié)上傳、再把新模型下載回來,傳輸?shù)臄?shù)據(jù)量巨大,對于網(wǎng)速慢、流量有限的手機(jī)用戶來說,這簡直是一場噩夢。第二道難關(guān)是隱私泄露:即便沒有上傳原始數(shù)據(jù),研究人員發(fā)現(xiàn),光是分析那些"經(jīng)驗總結(jié)"(也就是模型更新的參數(shù)),有時也能反推出你的原始數(shù)據(jù),比如你輸入過哪些敏感詞匯,甚至是銀行卡號。

      為了同時攻克這兩道難關(guān),蓋布澤理工大學(xué)的研究團(tuán)隊提出了一套"雙保險"組合方案:一邊給數(shù)據(jù)"加密"(通過差分隱私技術(shù)注入噪音),一邊給數(shù)據(jù)"壓縮"(通過自適應(yīng)量化技術(shù)降低精度),讓傳輸?shù)臄?shù)據(jù)既更小,又更難被破解。這項研究最引人關(guān)注的地方,在于它是目前已知首批在"數(shù)據(jù)分布極度不均勻"的真實環(huán)境下、并且在多達(dá)1000個客戶端的大規(guī)模場景里,同時測試這兩種技術(shù)組合效果的研究。實驗結(jié)果相當(dāng)亮眼:與不壓縮的標(biāo)準(zhǔn)傳輸方式相比,在手寫數(shù)字識別任務(wù)上通信數(shù)據(jù)量最高可削減52.64%,在圖像分類任務(wù)上可削減45.06%,而模型的識別準(zhǔn)確率幾乎沒有明顯下降。

      一、聯(lián)邦學(xué)習(xí)到底是怎么工作的,為什么單靠它還不夠安全?

      把聯(lián)邦學(xué)習(xí)的工作流程理解成一場跨城市的烹飪大賽,也許是最直觀的方式。假設(shè)全國有1000位廚師,每人手里都有一份私家食譜(這就是他們的本地數(shù)據(jù))。賽事主辦方(也就是中央服務(wù)器)想培養(yǎng)出一位集眾家之長的"超級廚師AI",但每位廚師都不愿意把食譜的原稿寄出去。于是,規(guī)則改成這樣:每位廚師按照主辦方發(fā)來的"參考菜譜"在家練習(xí),然后只把自己練習(xí)后總結(jié)出的"改進(jìn)心得"郵寄回主辦方;主辦方把所有人的心得匯總,生成一份更好的參考菜譜,再寄給所有人。這個過程反復(fù)進(jìn)行1000輪,最終大家共同煉就了一份頂級菜譜。

      這套流程里有一個關(guān)鍵操作,叫做FedAvg(聯(lián)邦平均):每一輪結(jié)束時,服務(wù)器按照每位廚師練習(xí)食材的多少(也就是數(shù)據(jù)量的大小),給他們的"心得"賦予不同的權(quán)重,然后加權(quán)平均,生成新的全局模型。數(shù)據(jù)多的廚師,他的心得在匯總時占的份量更重一些,因為他積累了更多的實戰(zhàn)經(jīng)驗。

      然而,這套方案有一個隱患被后來的研究者揭穿了。通過精密的數(shù)學(xué)分析,有人發(fā)現(xiàn),只要仔細(xì)觀察那些"改進(jìn)心得"的細(xì)節(jié),就能大致猜出某位廚師原本在練習(xí)什么菜。比如,美國卡內(nèi)基梅隆大學(xué)的研究人員就證明過,僅僅通過分析一個用于預(yù)測文字的神經(jīng)網(wǎng)絡(luò)所上傳的模型更新,就能把用戶打過的信用卡號等極度敏感的信息還原出來。換句話說,聯(lián)邦學(xué)習(xí)只保護(hù)了數(shù)據(jù)的"肉身",但數(shù)據(jù)留下的"影子"依然可能泄露。

      除了隱私問題,還有另一個讓工程師頭疼的現(xiàn)實困境——數(shù)據(jù)分布不均勻,學(xué)術(shù)界稱之為"非獨立同分布"(Non-IID)。繼續(xù)用烹飪比賽的比喻:如果1000位廚師里,有800位專門做川菜,有100位專門做粵菜,只有100位什么都做,那么匯總出來的"超級菜譜"就會嚴(yán)重偏向川菜,對粵菜一竅不通。在真實的手機(jī)用戶場景中,這種不均勻性極為普遍——每個用戶的習(xí)慣、所在地區(qū)、使用場景都天差地別,他們手機(jī)里積累的數(shù)據(jù)當(dāng)然也大不相同。這種不均勻性會讓AI訓(xùn)練變得極不穩(wěn)定,收斂變慢,甚至根本學(xué)不好。

      二、"加密"這步怎么做——拉普拉斯噪音的隱私防護(hù)邏輯

      為了給那些"改進(jìn)心得"蓋上一層面紗,研究團(tuán)隊引入了一種叫做"差分隱私"的技術(shù)。這個概念初聽起來有些玄乎,但核心思路其實非常樸素:在你上傳"心得"之前,故意往里面混入一些隨機(jī)的雜音,讓別人就算截獲了心得,也很難從中精確還原出你的原始數(shù)據(jù)。

      衡量隱私保護(hù)強(qiáng)度的指標(biāo)叫做隱私預(yù)算(用希臘字母ε表示)。ε越小,加入的雜音越多,隱私保護(hù)越強(qiáng),但AI學(xué)到的東西也越失真;ε越大,加入的雜音越少,AI學(xué)得更準(zhǔn),但隱私防護(hù)也更薄弱。這就像給一張照片打馬賽克:馬賽克越粗,臉越認(rèn)不出來(隱私越安全),但圖片也越模糊(準(zhǔn)確率越低)。

      這套框架有一個關(guān)鍵的設(shè)計參數(shù)叫做δ,代表"隱私意外泄露的概率"。該研究選擇將δ設(shè)置為0,意味著隱私保護(hù)是絕對的、沒有任何意外泄露的概率存在,這是最嚴(yán)格的隱私保證級別。

      在具體選擇噪音類型時,研究團(tuán)隊選擇了"拉普拉斯分布"噪音,而不是目前業(yè)界更常用的"高斯分布"噪音。兩者的區(qū)別可以這樣理解:在數(shù)軸上,高斯噪音像一座寬而矮的小山,中間最厚、兩邊慢慢變薄;拉普拉斯噪音則像一座尖而陡的山峰,中間極厚、兩邊急劇變薄。這種形狀差異讓拉普拉斯噪音在保護(hù)同等強(qiáng)度隱私的前提下,對數(shù)據(jù)造成的失真更小。更重要的是,拉普拉斯噪音對應(yīng)的"敏感度"度量方式是L1范數(shù)(可以粗略理解為絕對值之和),而高斯噪音對應(yīng)L2范數(shù)(可以粗略理解為平方和的平方根)。對于聯(lián)邦學(xué)習(xí)里上傳的模型參數(shù)這類有明確邊界的數(shù)值,L1范數(shù)往往能給出更緊湊、更精確的隱私界,加入的噪音也就可以更少。

      在實際操作中,每次客戶端在本地訓(xùn)練完模型后,首先要對梯度(可以理解為"改進(jìn)方向")做一步"裁剪"——把每個方向上的變化幅度限制在一個閾值ξ以內(nèi),防止任何一個樣本對整體更新產(chǎn)生過大影響。實驗中,研究團(tuán)隊測試了ξ=10、20、50、100以及無上限這幾個檔位。結(jié)果發(fā)現(xiàn),ξ=100時,在MNIST手寫數(shù)字?jǐn)?shù)據(jù)集上準(zhǔn)確率為93.71%,在CIFAR10圖像分類數(shù)據(jù)集上為75.30%,與沒有裁剪時(分別為98.93%和81.97%)相比,差距可以接受,而且這個值能保持訓(xùn)練穩(wěn)定性,因此被選為后續(xù)實驗的默認(rèn)設(shè)置。

      裁剪完成后,系統(tǒng)會根據(jù)每個客戶端的數(shù)據(jù)量大小、訓(xùn)練輪數(shù)等參數(shù),自動計算出該加入多少拉普拉斯噪音。數(shù)據(jù)量越少的客戶端,噪音越大(因為單個樣本的影響力越強(qiáng),越需要掩蓋);數(shù)據(jù)量越多的客戶端,噪音可以相對少一些。這一設(shè)計使得整個系統(tǒng)能根據(jù)每個客戶端的具體情況動態(tài)調(diào)整保護(hù)強(qiáng)度。

      實驗結(jié)果揭示了一個有趣的規(guī)律:客戶端數(shù)量越多,每個客戶端分到的數(shù)據(jù)就越少,系統(tǒng)就需要加入更多噪音,模型準(zhǔn)確率也就越低。在50個客戶端的情況下,ε=10000時MNIST準(zhǔn)確率可達(dá)93.22%,CIFAR10可達(dá)75.46%;但當(dāng)客戶端數(shù)量增加到1000個時,同樣的ε=10000在CIFAR10上只能達(dá)到31.19%,甚至無法正常收斂,必須把ε提高到500000以上才能讓模型正常運轉(zhuǎn)。

      三、"壓縮"這步怎么做——自適應(yīng)量化如何給數(shù)據(jù)瘦身

      解決了隱私問題,下一步是解決通信效率問題。在AI訓(xùn)練中,模型的參數(shù)通常用32位浮點數(shù)來表示,就像一把有32個刻度的尺子,精度極高。但如果把這把尺子換成8個刻度(8位整數(shù)),精度下降了,但存儲和傳輸所需的空間也只有原來的四分之一。這個過程就叫做"量化"。

      量化最直接的方式是固定用某個位數(shù),比如全程用8位或16位。但研究團(tuán)隊認(rèn)為,固定位數(shù)太死板:訓(xùn)練剛開始時,模型還在快速調(diào)整,需要高精度來準(zhǔn)確傳達(dá)"改進(jìn)方向";等訓(xùn)練到后期,模型已經(jīng)趨于穩(wěn)定,每次更新的幅度很小,用低精度就夠了。因此,他們提出了一種"隨訓(xùn)練進(jìn)程動態(tài)降低精度"的方案,并用"余弦退火"曲線來控制這個降低過程。

      余弦退火這個名字聽起來很物理,但實際上只是一條特定形狀的曲線:開始時下降緩慢,中間加速,快到終點時再次減緩。這條曲線描述的是量化精度隨訓(xùn)練輪次的變化方式——從最初的32位出發(fā),沿著這條平滑的曲線一路降至最低設(shè)定值(在MNIST和CIFAR10實驗中設(shè)為8位,在醫(yī)學(xué)圖像實驗中設(shè)為12位)。平滑降低的好處是,模型有充裕的時間適應(yīng)精度變化,不會因為某一輪突然從32位跌到8位而產(chǎn)生劇烈震蕩。

      這是第一種方案,研究中稱為"Cosine"方案,服務(wù)器下發(fā)模型給客戶端時,以及客戶端上傳更新給服務(wù)器時,都遵循同一條余弦退火曲線,所有客戶端的壓縮力度完全相同。

      第二種方案更加精細(xì),稱為"Dynamic"方案,核心思想是:不同客戶端對模型訓(xùn)練的貢獻(xiàn)不同,貢獻(xiàn)大的客戶端應(yīng)該用更高精度傳輸,讓其更新充分體現(xiàn)在全局模型中;貢獻(xiàn)小的客戶端可以用更低精度,省下通信資源。

      衡量每個客戶端"貢獻(xiàn)度"的方法叫做"香農(nóng)熵",這是信息論里的一個經(jīng)典指標(biāo),可以理解為數(shù)據(jù)內(nèi)容的豐富程度。如果一個客戶端的數(shù)據(jù)里每種類別都有,分布很均勻,就像一個什么菜都做的全能廚師,熵值高,說明這個客戶端掌握的信息多樣、全面,對訓(xùn)練整體模型非常有價值。反之,如果客戶端的數(shù)據(jù)里99%都是同一類,就像一個只會做一道菜的偏科廚師,熵值低,對全局模型的幫助相對有限。

      除了數(shù)據(jù)多樣性,客戶端的數(shù)據(jù)量也很重要——數(shù)據(jù)越多,統(tǒng)計上越可靠,更新的質(zhì)量也更高。于是,研究團(tuán)隊把這兩個因素合并成一個綜合"重要性評分"(用νi表示),通過一個可調(diào)節(jié)的權(quán)重參數(shù)λh(范圍在0到1之間)來平衡兩者的影響。νi最終映射到量化精度上:重要性越高,分配到的量化位數(shù)越多;重要性越低,分配到的位數(shù)越少。

      在具體量化實現(xiàn)上,研究團(tuán)隊采用的是"隨機(jī)均勻量化"配合"對稱量化"。前者的特點是,在把一個小數(shù)轉(zhuǎn)換為整數(shù)時,不是簡單地四舍五入,而是按照距離遠(yuǎn)近以概率決定取哪個整數(shù)——比如3.7,有70%的概率取4,30%的概率取3。這種概率化的取整方式從統(tǒng)計上保證了量化的無偏性,即大量數(shù)據(jù)平均下來,量化后的值等于量化前的真實值,不會系統(tǒng)性地偏高或偏低。

      四、實驗怎么設(shè)計的,結(jié)果又說明了什么?

      為了讓結(jié)論有足夠的說服力,研究團(tuán)隊設(shè)計了一套涵蓋多個數(shù)據(jù)集、多種客戶端規(guī)模、多種隱私預(yù)算的大規(guī)模實驗體系,全部運行在一臺配備NVIDIA RTX 3090顯卡的單機(jī)上,使用FedML這一聯(lián)邦學(xué)習(xí)框架完成。

      在標(biāo)準(zhǔn)數(shù)據(jù)集部分,他們使用了MNIST(手寫數(shù)字,10個類別,約6.2萬訓(xùn)練樣本)和CIFAR10(彩色圖像,10個類別,5萬訓(xùn)練樣本)兩個經(jīng)典數(shù)據(jù)集,分別對應(yīng)一個簡單的兩層卷積神經(jīng)網(wǎng)絡(luò)(約160萬參數(shù))和一個被稱為VGG7的更復(fù)雜網(wǎng)絡(luò)(約30萬參數(shù))。客戶端數(shù)量分別設(shè)為50、100、200和1000,并保持"每輪參與訓(xùn)練的客戶端數(shù)量 = 總客戶端數(shù)量 × 10%"的比例,比如1000個客戶端時每輪抽取100個參與。總訓(xùn)練輪數(shù)為1000輪,每個客戶端本地訓(xùn)練5個epoch,批次大小為64,使用SGD優(yōu)化器,學(xué)習(xí)率0.1。

      為了模擬現(xiàn)實中的數(shù)據(jù)不均勻性,CIFAR10數(shù)據(jù)集用Dirichlet分布(參數(shù)α=0.5)打散分配給各個客戶端,讓某些客戶端的數(shù)據(jù)嚴(yán)重偏向某幾個類別;MNIST數(shù)據(jù)集則直接按原始來源(來自1000名不同書寫者)自然分配,每個客戶端只有兩種數(shù)字的樣本,天然構(gòu)成了不均勻分布。

      對比實驗中,團(tuán)隊測試了固定4位、固定8位、固定16位、固定32位(浮點數(shù))這四種靜態(tài)量化方案,以及Cosine和Dynamic兩種自適應(yīng)量化方案。結(jié)果非常清晰地呈現(xiàn)了一個規(guī)律:4位量化雖然數(shù)據(jù)量最小,但嚴(yán)重破壞了模型更新的信息,尤其在非均勻數(shù)據(jù)分布下會導(dǎo)致訓(xùn)練過程劇烈震蕩甚至崩潰,根本無法使用。8位量化在大多數(shù)情況下表現(xiàn)出色,準(zhǔn)確率接近32位,通信量只有32位的四分之一,是靜態(tài)量化里性價比最高的選擇。

      自適應(yīng)方案中,Cosine方法相比32位訓(xùn)練平均減少了約37.46%的通信量,而Dynamic方法更進(jìn)一步,在MNIST上減少了49.54%到52.64%,在CIFAR10上減少了43.45%到45.06%,且準(zhǔn)確率與32位訓(xùn)練相當(dāng)甚至略有超出。以1000個客戶端為例,Dynamic方案在MNIST上達(dá)到65.55%的準(zhǔn)確率(32位為66.50%,差距極小),但通信量從1239.31GB壓縮到586.92GB,節(jié)省了超過一半。同樣情形下,CIFAR10的Dynamic方案準(zhǔn)確率為59.51%(32位為59.35%,基本持平),通信量從242.67GB壓縮到133.32GB。

      在λh參數(shù)(平衡數(shù)據(jù)多樣性與數(shù)據(jù)量兩個因素的權(quán)重)的調(diào)優(yōu)實驗中,研究發(fā)現(xiàn),當(dāng)客戶端數(shù)量較少時,數(shù)據(jù)多樣性(熵)對準(zhǔn)確率的影響更顯著,λh取0.5到0.75之間效果最好;當(dāng)客戶端數(shù)量增多(如1000個),每個客戶端的數(shù)據(jù)量急劇減少,這時數(shù)據(jù)量本身變得更關(guān)鍵,λh偏小(如0.25)在通信效率上更占優(yōu)勢。綜合考量后,團(tuán)隊在后續(xù)所有實驗中統(tǒng)一采用λh=0.75作為默認(rèn)值。

      五、醫(yī)學(xué)圖像上的表現(xiàn)如何——更接近真實世界的測試

      為了讓研究結(jié)論更具現(xiàn)實說服力,團(tuán)隊還在三個醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行了進(jìn)一步驗證,因為醫(yī)療場景對隱私保護(hù)的要求極高,同時數(shù)據(jù)量通常有限、分布極不均勻。

      三個數(shù)據(jù)集分別是PAP-Smear(宮頸細(xì)胞圖像,5個類別,共4049張)、Pneumonia(胸部X光肺炎診斷,2個類別,共5856張)和BreakHisV1(乳腺癌組織病理圖像,2個類別,共7909張)。這次實驗使用的是在ImageNet上預(yù)訓(xùn)練過的EfficientNet-B0模型,這是一種參數(shù)效率極高的輕量級網(wǎng)絡(luò),廣泛用于醫(yī)學(xué)圖像分析。實驗規(guī)模設(shè)為10個客戶端,訓(xùn)練100輪,評估指標(biāo)除準(zhǔn)確率外還包括精確率、召回率、F1分?jǐn)?shù)以及平衡準(zhǔn)確率(BACC)。量化的最低位數(shù)設(shè)為12位(而不是之前的8位),因為在這些復(fù)雜醫(yī)學(xué)圖像上,更低精度會導(dǎo)致模型完全崩潰。

      結(jié)果顯示,在PAP-Smear數(shù)據(jù)集上,Dynamic方案將通信量從30.22GB壓縮到19.00GB,降幅約37%,BACC從91.03%小幅下降至89.59%,F(xiàn)1分?jǐn)?shù)從89.96%降至89.41%,代價相當(dāng)小。在Pneumonia數(shù)據(jù)集上,Cosine方案將通信量壓縮至20.85GB(降幅31%),F(xiàn)1分?jǐn)?shù)從93.99%微降至93.79%,幾乎沒有損失。在BreakHisV1數(shù)據(jù)集上,Dynamic方案通信量從30.22GB壓縮至18.43GB(降幅約39%),F(xiàn)1分?jǐn)?shù)從91.44%降至87.03%,降幅稍大,但仍處于可接受范圍。

      這組實驗還揭示了一個值得關(guān)注的現(xiàn)象:在醫(yī)學(xué)圖像場景下,有時固定16位量化的表現(xiàn)反而優(yōu)于Cosine和Dynamic方案,不僅準(zhǔn)確率更高,通信量有時也更少。原因在于,自適應(yīng)方案在訓(xùn)練初期會短暫使用較高位數(shù),這在某些特定訓(xùn)練階段反而形成了額外的通信開銷。此外,拉普拉斯噪音與量化誤差的疊加效應(yīng),在復(fù)雜模型上會產(chǎn)生比較大的方差,導(dǎo)致BACC曲線比32位訓(xùn)練更加抖動、不穩(wěn)定,這是目前方案的一個明顯局限。

      六、這項研究有什么做得到位的地方,又有什么潛在局限?

      這套方案有幾處設(shè)計值得一提。首先,兩步噪音——先加拉普拉斯噪音、再量化——的組合在理論上是無偏的:拉普拉斯噪音的均值為零,不會系統(tǒng)性地拉偏參數(shù);隨機(jī)均勻量化的期望值也等于原始值。因此,雖然兩步操作都增加了方差(讓結(jié)果更不穩(wěn)定),但不會讓模型系統(tǒng)性地偏向錯誤方向,這是這套方案能在大規(guī)模實驗中保持競爭力的重要原因。

      其次,香農(nóng)熵的計算復(fù)雜度是線性的——處理多少個樣本就花多少時間,不會隨著數(shù)據(jù)量增大而急劇膨脹,在實際工程中完全可行。

      然而,方案也有幾處明顯的局限。Dynamic方案中的λh參數(shù)需要針對具體應(yīng)用場景進(jìn)行調(diào)優(yōu),沒有放之四海而皆準(zhǔn)的最優(yōu)值,這在真實部署中增加了工程復(fù)雜度。更深層的問題在于,現(xiàn)有的客戶端重要性評估只考慮了數(shù)據(jù)的數(shù)量和分布均勻性,并沒有考慮數(shù)據(jù)的質(zhì)量——一個數(shù)據(jù)量大、分布均勻但標(biāo)注錯誤率很高的客戶端,在當(dāng)前方案下會被賦予很高的重要性,反而可能拉低全局模型的質(zhì)量。研究團(tuán)隊在論文中也承認(rèn)了這一點,并指出未來可以引入數(shù)據(jù)價值估計等更精細(xì)的機(jī)制來彌補(bǔ)這一不足。

      此外,當(dāng)前實驗全部在單機(jī)模擬環(huán)境下完成,雖然測試了多達(dá)1000個客戶端,但畢竟不是真實的分布式網(wǎng)絡(luò)環(huán)境。在真實網(wǎng)絡(luò)中,延遲、丟包、客戶端隨機(jī)掉線等因素都會對方案的實際表現(xiàn)產(chǎn)生影響,這是從實驗室走向真實產(chǎn)品部署時必須面對的工程挑戰(zhàn)。

      說到底,這項研究做的事情可以用一句話概括:在保護(hù)你隱私的同時,還幫你省流量。兩件事放在一起做,原本各自都不容易,放在一起更難,尤其是在數(shù)據(jù)極度不均勻、設(shè)備數(shù)量龐大的真實場景下。這個研究給出了一套經(jīng)過大量實驗驗證的可行方案,證明這兩件事可以同時做,而且代價(準(zhǔn)確率損失)比人們預(yù)想的要小得多。

      對于普通人來說,這意味著什么?可以這樣理解:如果未來你的手機(jī)醫(yī)療APP、輸入法或者語音助手背后用了這套技術(shù),你的隱私數(shù)據(jù)不僅不會離開你的手機(jī),就連那些"學(xué)習(xí)心得"也被加了保險,同時每次訓(xùn)練消耗的流量還能減少將近一半。對于網(wǎng)速慢、流量貴的用戶來說,這是實實在在的改善。

      當(dāng)然,這套方案目前仍處于研究階段,從論文到產(chǎn)品落地還有很長的路要走。研究團(tuán)隊表示,下一步他們希望探索更先進(jìn)的客戶端重要性評估方法,并考慮引入安全多方計算等更強(qiáng)的隱私保護(hù)機(jī)制,進(jìn)一步強(qiáng)化系統(tǒng)的整體安全性。對這一話題感興趣的讀者,可以通過DOI: 10.1109/ACCESS.2025.3554138查找原論文,或在IEEE Xplore數(shù)據(jù)庫中搜索Access期刊2025年第13卷的相關(guān)內(nèi)容。

      Q&A

      Q1:聯(lián)邦學(xué)習(xí)為什么還需要差分隱私,本來不是已經(jīng)不上傳原始數(shù)據(jù)了嗎?

      A:聯(lián)邦學(xué)習(xí)確實不傳原始數(shù)據(jù),但研究發(fā)現(xiàn),僅僅通過分析上傳的模型參數(shù)更新,攻擊者有時可以反推出原始數(shù)據(jù)的敏感內(nèi)容,比如用戶輸入過的信用卡號等。差分隱私通過在上傳前往參數(shù)里加入隨機(jī)噪音,讓這種反推變得極為困難,從而形成雙重保護(hù)。

      Q2:自適應(yīng)量化里的"香農(nóng)熵"具體是怎么衡量客戶端數(shù)據(jù)質(zhì)量的?

      A:香農(nóng)熵衡量的是數(shù)據(jù)中各類別分布的均勻程度。如果一個客戶端的數(shù)據(jù)涵蓋了很多類別且每類數(shù)量差不多,熵值就高,說明數(shù)據(jù)信息豐富;如果數(shù)據(jù)幾乎全是同一類,熵值就低。研究中把熵值高(數(shù)據(jù)多樣)和數(shù)據(jù)量大的客戶端判定為"貢獻(xiàn)度高",在傳輸時分配更高的量化精度,讓其更新信息更完整地體現(xiàn)在全局模型中。

      Q3:為什么醫(yī)學(xué)圖像實驗中最低量化位數(shù)要設(shè)12位,而不是像普通數(shù)據(jù)集那樣用8位?

      A:醫(yī)學(xué)圖像分類任務(wù)使用的EfficientNet-B0是一個更復(fù)雜的預(yù)訓(xùn)練模型,其參數(shù)對精度損失更敏感。實驗中發(fā)現(xiàn),將量化精度降到8位以下時,模型完全無法正常收斂訓(xùn)練,識別能力崩潰。因此12位被選為該場景下的最低可用精度,在通信效率和模型穩(wěn)定性之間取得平衡。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      任嘉倫2025三部劇《無憂渡》《鳳凰臺上》《風(fēng)與潮》能否成功

      任嘉倫2025三部劇《無憂渡》《鳳凰臺上》《風(fēng)與潮》能否成功

      夏末moent
      2026-01-31 20:07:01
      97年和女同事出差,賓館只剩一間房她白我一眼:你敢亂動我就報警

      97年和女同事出差,賓館只剩一間房她白我一眼:你敢亂動我就報警

      千秋文化
      2026-05-08 10:18:54
      霸氣!吳前妻子炮轟浙江:一直很Respect!少上我理解完全不上就離譜

      霸氣!吳前妻子炮轟浙江:一直很Respect!少上我理解完全不上就離譜

      818體育
      2026-05-11 22:26:13
      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      鄉(xiāng)野小珥
      2026-05-10 13:06:04
      出售公民信息千元一條,國家反詐平臺成內(nèi)鬼搖錢樹

      出售公民信息千元一條,國家反詐平臺成內(nèi)鬼搖錢樹

      高恒說
      2026-05-10 16:58:40
      本賽季最慘球隊!3億垃圾合同在手,想擺爛難,想沖冠更難

      本賽季最慘球隊!3億垃圾合同在手,想擺爛難,想沖冠更難

      球毛鬼胎
      2026-05-11 18:29:36
      黔江2死6傷車禍升級!女司機(jī)穿著高跟鞋及醫(yī)者身份流出,引發(fā)公憤

      黔江2死6傷車禍升級!女司機(jī)穿著高跟鞋及醫(yī)者身份流出,引發(fā)公憤

      火山詩話
      2026-05-11 13:28:21
      美股納指低開0.3% 高通、英特爾、美光科技、AMD等再次刷新歷史新高

      美股納指低開0.3% 高通、英特爾、美光科技、AMD等再次刷新歷史新高

      每日經(jīng)濟(jì)新聞
      2026-05-11 21:41:10
      女演員的長相有多重要?看《主角》中的秦海璐和王曉晨就知道了

      女演員的長相有多重要?看《主角》中的秦海璐和王曉晨就知道了

      翰飛觀事
      2026-05-11 17:00:49
      李冰冰的臉騙了所有人,53歲生圖揭開一個殘酷真相,原來人不是變老是被榨干了

      李冰冰的臉騙了所有人,53歲生圖揭開一個殘酷真相,原來人不是變老是被榨干了

      科學(xué)發(fā)掘
      2026-05-11 00:11:13
      法國確診首例漢坦病毒感染病例

      法國確診首例漢坦病毒感染病例

      澎湃新聞
      2026-05-11 17:46:05
      一位日本老兵的自述:南京城淪陷后,城內(nèi)婦女都有著怎樣的遭遇

      一位日本老兵的自述:南京城淪陷后,城內(nèi)婦女都有著怎樣的遭遇

      云霄紀(jì)史觀
      2026-05-11 17:41:21
      調(diào)查:諾伊爾問題分裂德國足壇

      調(diào)查:諾伊爾問題分裂德國足壇

      綠茵情報局
      2026-05-11 20:48:46
      美國一人漢坦病毒檢測呈陽性,疫苗研發(fā)已啟動,譚德塞發(fā)出警告

      美國一人漢坦病毒檢測呈陽性,疫苗研發(fā)已啟動,譚德塞發(fā)出警告

      中國網(wǎng)
      2026-05-11 14:08:15
      “你憑什么贏張國榮?”26年后,他用一句話回應(yīng),讓所有人閉嘴!

      “你憑什么贏張國榮?”26年后,他用一句話回應(yīng),讓所有人閉嘴!

      飄飄然的娛樂匯
      2026-05-10 22:15:05
      四川瀘州“花壇埋尸案”背后:一對父子被撕裂的28年

      四川瀘州“花壇埋尸案”背后:一對父子被撕裂的28年

      瀟湘晨報
      2026-02-01 16:07:16
      62年印軍戰(zhàn)斗力如何?陰法唐回憶:很多戰(zhàn)斗,印軍戰(zhàn)死比被俘的多

      62年印軍戰(zhàn)斗力如何?陰法唐回憶:很多戰(zhàn)斗,印軍戰(zhàn)死比被俘的多

      云霄紀(jì)史觀
      2026-03-29 16:54:22
      美伊開打!48小時內(nèi),全世界見證:美國的蠢,伊朗的精,中俄的絕

      美伊開打!48小時內(nèi),全世界見證:美國的蠢,伊朗的精,中俄的絕

      說歷史的老牢
      2026-05-10 18:50:43
      河南省人民檢察院原巡視員劉新年被開除黨籍

      河南省人民檢察院原巡視員劉新年被開除黨籍

      界面新聞
      2026-05-11 16:01:30
      朱可夫晚年回憶:當(dāng)年德軍能從莫斯科撤走,皆因斯大林的一道指令

      朱可夫晚年回憶:當(dāng)年德軍能從莫斯科撤走,皆因斯大林的一道指令

      飯小妹說歷史
      2026-05-11 10:25:07
      2026-05-12 00:08:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      本地
      時尚
      數(shù)碼
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      數(shù)碼要聞

      5299元起!大疆ROMO 2系列正式發(fā)布:無人機(jī)同款避障太逆天

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:伊朗的回應(yīng)“完全不可接受”

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久香蕉欧美精品| 四虎WWW永久在线精品| 精品亚洲天堂| 午夜男女爽爽影院在线| 国产成AV人片久青草影院| 伊在人间香蕉最新视频| 精品国产大片中文字幕| 欧美大肚子孕妇疯狂作爱视频| 国产福利在线观看免费第一福利 | 天天干夜夜橾| 国产偷国产偷亚洲高清人乐享| 国产乱码精品一品二品| 亚洲精品国产熟女久久久| 国产精品日本熟女| 一本色道久久综合精品婷婷| 国产精品亚洲一区二区三区z| 黑人又粗又长又大| 色久综合色久综合色久综合| 超碰w| 久久中文字幕无码专区| 欧洲亚洲国产成人综合色婷婷| 国产精品免费久久久久影院仙踪林 | 国产私拍大尺度在线视频| 日韩中文字幕高清有码| 国产成人综合色就色综合| 天天狠天天透天天伊人| 久久三级久久国产| 国产一区二区三区黄网| 丝袜无码| 97视频精品全国免费观看| 亚洲午夜爱爱香蕉片| 亚洲精品成人区在线观看| 吉隆县| chinese中国videos国产| 国产精品国产免费无码专区不卡| 亚洲人妻精品中文字幕| 极品尤物被啪到呻吟喷水| 国产系列第一页| 国产精品国产三级国产AⅤ原创| 亚洲成a人片在线播放观看国产| 国产一级特黄aa大片爽爽 |