上個月,一位金融風控工程師向我展示了一段視頻。畫面里是他的客戶,正對著鏡頭完成身份核驗——語速正常、表情自然,連左眉那道小疤痕都清晰可見。但音頻要求轉賬的指令,客戶本人從未說過。這不是換臉,而是更隱蔽的"唇形同步"偽造:真臉配假嘴型,傳統檢測工具幾乎全部失效。
這種技術正在快速滲透高價值詐騙場景。與早期"整張臉替換"的粗糙方案不同,新一代攻擊保留了目標人物100%真實的面部幾何結構、皮膚紋理甚至微表情習慣。攻擊者只需替換嘴部區域,讓畫面中的人"說出"任意音頻內容。對于依賴邊界偽影檢測的算法而言,這相當于在真臉上做局部手術——面部核心特征庫完全匹配,系統自然放行。
![]()
CVPR等頂會發表的研究揭示了關鍵突破口:音視頻距離指標。真實視頻中,口型與聲波的同步誤差中位數約為0.16;而唇形偽造內容即便質量較高,這一數值通常落在0.63至0.66區間。0.5左右的量化差距,成為算法可捕獲的數學痕跡。更深層的漏洞在于雙唇音的物理約束——發"p""b""m"等音時,上下唇必須閉合接觸。生成模型為追求實時渲染速度,常在復雜口腔區域偷工減料,導致幀間牙齒位置漂移或齒列模糊。
![]()
CaraComp采用的歐幾里得距離分析法,將檢測策略從"人群掃描"轉向"側向比對"。通過將可疑視頻幀與經核實的基準圖像進行面部幾何比對,系統能識別出哪些點位被數學拉伸以適配合成模型。這種方案對實時視頻API場景尤為關鍵:100毫秒渲染壓力迫使模型犧牲空間精度換取時間連貫性,而牙齒區域的幀間不一致性正是可量化的取證錨點。
![]()
調查技術的演進方向正在從"識別偽造"轉向"量化偏差"。無論是開源情報研究員還是開發者,核心目標都是彌合身份鴻溝——為獨立調查者提供與大型機構同等精度的歐幾里得分析能力,讓法庭認可的差異報告成為標配工具。當詐騙者開始用真臉說話時,檢測方必須學會測量嘴型與聲音的數學距離。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.