摘要:深度學習即服務模式下,包含個人隱私的數據在多方之間不斷流轉,產生了隱私泄露風險。數據擁有者擔心隱私數據暴露給云服務提供商,云端模型擁有者擔心模型被竊取。因此,隱私保護與深度學習結合成為隱私計算領域熱點。本文回顧 2016 年至今相關工作,根據深度神經網絡線性層和非線性層運算對方案分類,分析不同方案的優勝劣汰和研究焦點,追溯各方案優化方向以理清發展脈絡,最后綜合對比代表性方案,整理面臨的困難并提出解決方案和發展方向。
">時間:
1 引言
大數據時代數據量增長推動深度學習發展,其在圖像分類、語音識別等領域表現出色。但訓練強大模型需大量數據和算力,單方環境難以滿足,故各大公司搭建深度學習即服務(DLaaS),利用云端資源訓練模型,用戶通過 API 調用獲取預測結果。然而,DLaaS 模式下隱私數據流轉存在泄露風險,如醫療數據泄露、模型參數被竊取等。隨著隱私保護意識增強,結合隱私保護與云端深度學習成為熱點問題。現有綜述多按密碼工具、應用方向或階段分類,本文按線性層和非線性層分類,更貼合設計者思路,且梳理近兩年新工作,總結發展脈絡與挑戰。
2 隱私保護深度學習系統模型與威脅模型
2.1 隱私保護深度學習系統模型
云端深度學習分為訓練和預測階段,涉及互不信任的雙方,需滿足:訓練階段用戶數據不以明文暴露給云端;預測階段用戶查詢樣本不以明文暴露;模型參數在兩階段均不暴露給用戶。訓練階段模型中,用戶加密數據上傳,與云端交互式訓練模型,模型可保存在云端或秘密分享在兩端。預測階段模型中,用戶上傳密文樣本,云端返回密文結果,用戶解密獲取預測值。
2.2 威脅模型
威脅模型主要包括半誠實模型和惡意模型。半誠實模型中參與方誠實但好奇,需保證協議交互不泄露結果外信息;惡意模型中參與方可能不按協議執行,需滿足半誠實安全性并驗證參與方是否合規。
3 相關知識
3.1 深度神經網絡
深度學習通過深層神經網絡結構完成特征提取,深度神經網絡由交替的線性層和非線性層構成。線性層核心運算為矩陣加法和乘法,包括全連接層、卷積層等,其輸出送入非線性層。非線性層本質為非線性激活函數,分為分段線性函數、光滑函數和用于輸出層的函數,如 ReLU、Sigmoid、Softmax 等。
3.2 同態加密
同態加密可在密文下運算,解密后得與明文運算相同結果。包括部分同態加密(PHE)、類同態加密(SHE/LFHE)、全同態加密(FHE)和多密鑰同態加密(MKHE),各方案優缺點不同,如 FHE 支持所有運算但計算開銷大,LFHE 通過打包技術提速。
3.3 不經意傳輸
不經意傳輸是多方安全計算基礎協議,允許接收方從發送方秘密中選擇一個獲取,而發送方不知接收方選擇哪一個。包括 1-out-of-2 OT 和 1-out-of-n OT,經不斷優化走向實用。
3.4 混淆電路
混淆電路基于不經意傳輸,可使雙方在互不知曉秘密數據前提下計算邏輯電路表示的函數。Yao 提出的協議通過生成混淆真值表等流程實現計算,后續方案不斷優化以降低通信量。
3.5 秘密共享
秘密共享將秘密拆分存儲,需指定數量參與方合作才能恢復。包括加性秘密共享、Shamir 門限秘密共享和 GMW 協議,可用于多方安全計算,通過離線階段生成乘法三元組減少在線開銷。
3.6 可信執行環境
可信執行環境通過硬件構建安全區域保護數據機密性和完整性,如 Intel SGX 和 ARM TrustZone,但存在側信道攻擊等安全挑戰,應用仍在發展中。
4 隱私保護深度學習線性層研究現狀
4.1 線性層不同方案的更迭
線性層實現方案主要有同態加密、不經意傳輸、秘密共享和混淆電路。同態加密是熱門方向,研究時間跨度長;秘密共享是新趨勢,通過離線階段減少在線開銷;不經意傳輸和混淆電路適用于二值神經網絡等輕量模型,因計算和通信開銷大,近年應用較少。文獻數量上,同態加密最多,秘密共享次之。
4.2 線性層同類方案的不斷優化
同態加密實現線性層:從方案選擇(如 LFHE 結合 SIMD)、協議優化(減少旋轉移位、減小參數)、運行環境(利用 GPU、可信執行環境)和應用模型(頻域卷積神經網絡、貝葉斯神經網絡)等方面優化。
不經意傳輸實現線性層:通過更換公鑰體系、離線生成乘法三元組、應用于三值神經網絡等優化,但受限于按位計算和通信開銷,適用場景有限。
混淆電路實現線性層:應用于二值神經網絡,使用更高效的混淆電路方案(如異或門優化),但通信開銷大,適合輕量模型。
秘密共享實現線性層:在計算參與方(兩方到多方)、離線協議與硬件兼容性(結合同態加密生成秘密分享數)、應用場景(邊緣計算、防模型竊取)等方面優化,在線延遲低但通信開銷大。
5 隱私保護深度學習非線性層研究現狀
5.1 非線性層不同方案的更迭
非線性層實現方法包括同態加密、秘密共享、混淆電路、不經意傳輸和修剪模型。同態加密需對非線性層近似或替換,影響精度;混淆電路適合非線性運算,但與線性層表示轉換開銷大;秘密共享通過比較協議實現部分非線性層,通信開銷大;修剪模型通過減少 ReLU 計算提升效率,需平衡精度。文獻數量上,混淆電路、秘密共享、同態加密較熱門,修剪模型是新興方向。
5.2 非線性層同類方案的不斷優化
同態加密實現非線性層:采用線性單元替換、多項式近似、二進制友好同態方案、發回用戶端計算、結合秘密共享與線性層等方法,需平衡精度與計算開銷。
混淆電路實現非線性層:選用 Yao 方案,減小輸入維度與門電路數量,減少 ReLU 開銷(如調整計算順序、隨機 ReLU),應用于離散神經網絡,優化目標為減少通信開銷。
秘密共享實現非線性層:包括發回用戶端計算、設計比較大小協議、多項式近似、函數秘密共享、不平均位寬法、應用于 BNN 等,通信開銷是主要挑戰。
不經意傳輸實現非線性層:通過安全比較協議實現 ReLU 等非線性層,通信開銷小但適用范圍有限,需優化協議以計算其他非線性函數。
修剪模型:針對 ReLU 層,采用針對跳躍連接、按層刪除、按階段刪除等策略,在提升效率同時盡量保持精度。
6 代表性方案端到端綜合對比
從密碼原語、軟硬件輔助、威脅模型、模型精度等維度綜合對比代表性方案。混合原語方案(如 HE+GC、SS+GC)效率較高,借助軟硬件輔助(如 GPU、可信執行環境)可進一步提升速度。實際應用中需平衡效率、安全性、模型精度與復雜度,混合協議、軟硬件輔助和模型修剪是高效方案的關鍵。
7 面臨困難與發展方向
7.1 效率與模型復雜度的矛盾
打造密態計算友好的深度學習模型:設計利于密態計算的非線性模塊,利用模型容錯能力優化結構。
打造隱私保護深度學習生態:完善開發框架與開源生態,提升易用性、兼容性和安全性,促進跨領域研究。
7.2 效率與協議安全性的矛盾
借助可信執行環境:利用硬件提升計算速度,解決 SGX 飛地空間限制和側信道攻擊等問題。
進行攻擊代價評估以及隱私泄露代價評估:量化攻擊與隱私泄露代價,確定安全強度,實現效率與安全的平衡。
7.3 效率與預測準確率的矛盾
挖掘不使預測準確率下降的提速方法:結合線性層與非線性層設計,避免表示轉換開銷,提升整體效率。
加強效率與準確率的量化評估:根據應用場景構建量化體系,在允許精度損失范圍內提升效率。
8 結論
隱私保護與深度學習結合是未來趨勢。本文按線性層和非線性層分類回顧相關工作,分析不同方案優劣與優化方向,綜合對比代表性方案,指出面臨的困難并提出發展方向,為該領域研究提供參考。
陳品極;何琨;陳晶;杜瑞穎,武漢大學;國家網絡安全學院,202404