今天的论文题目是《Private and Reliable Neural Network Inference》

论文地址:https://doi.org/10.1145/3548606.3560562

DPIS: An Enhanced Mechanism for Differentially Private SGD with Importance Sampling

摘要

如今,差分隐私(DP)已成为隐私保护的广泛认可标准,而深度神经网络(DNN)在机器学习领域取得了巨大成功。将这两种技术相结合,即具有差分隐私的深度学习,有望保护隐私地发布使用敏感数据(如医疗记录)训练的高效用模型。为此,经典的机制是 DP-SGD,它是一种用于 DNN 训练的差分隐私版本的随机梯度下降(SGD)优化器。随后的方法改进了模型训练过程的各个方面,包括噪声衰减时间表、模型架构、特征工程和超参数调整。然而,自原始 DP-SGD 算法以来,SGD 优化器中强制执行 DP 的核心机制一直未发生变化,这越来越成为限制 DP 合规机器学习解决方案性能的基本障碍。受此启发,我们提出了 DPIS,一种新颖的差分隐私SGD训练机制,可作为 DP-SGD 核心优化器的替代品,与后者相比具有一致且显著的准确性提升。主要思想是在每次 SGD 迭代中,使用重要性采样(IS)进行小批量选择,从而减少采样方差和满足 DP 所需注入梯度的随机噪声量。尽管在非隐私设置中,使用 IS 的 SGD 在机器学习文献中已被广泛研究,但将 IS 集成到 DP-SGD 的复杂数学机制中是非常重要的;此外,IS 还涉及到额外的私有数据发布,这些数据必须在差分隐私下受到保护,以及计算密集型梯度计算。DPIS 通过新颖的机制设计、细粒度的隐私分析、效率增强和自适应梯度裁剪优化来应对这些挑战。在四个基准数据集(即 MNIST、FMNIST、CIFAR-10 和 IMDb)上进行的大量实验,涉及卷积神经网络和循环神经网络,证明了 DPIS 在具有差分隐私的深度学习方面优于现有解决方案的有效性。

INTRODUCTION

传统的深度学习将会带来隐私上的困扰。现如今,DP-SGD被看作是具有隐私保护性质的机器学习模型,DP-SGD 向 SGD 算法每次迭代中计算出的梯度注入随机噪音,但是,由于梯度中注入了噪声,在典型的隐私参数设置下,用 DP-SGD 训练出来的模型与不考虑隐私因素的普通 SGD 训练出来的模型在性能上仍有相当大的差距

本文提出在核心层面优化DP-SGD的DPIS,其主要思想是每次SGD迭代中加入重要性采样(IS),以取代非私有SGD和DP-SGD中的随机抽样步骤。IS有助于降低SGD的采样方差并加快收敛速度,并且还有助于减少注入梯度的噪声量。

在每次迭代中,DPIS 都会以与其梯度规范成比例的概率对每条记录进行采样,并对梯度进行加权,以获得对总梯度的无偏估计。

本文采用了四个实验数据集:MNIST、Fashion MNIST (FMNIST)、CIFAR-10 和 IMDb。