差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016

2023年6月15日下午10:16 • 人工智能 • 阅读 129

本文向大家介绍一下一篇CCS 2016的工作，文章的名字叫Deep Learning with Differential Privacy，在网上应该很容易就能找到，如果有朋友找不到还有兴趣的话可以私信我把文章发过去。

这篇文章提出了一种叫 Moments Accountant的隐私预算（privacy budget）计算方法，直到今天依然差分隐私机器学习领域是最常用（也是最优越）的隐私预算计算方法之一。

虽然本文为了验证其所提出的Moments Accountant方法做了很多实验，但是我们重点关注其理论部分，对于实验部分我们不做大篇幅的解读，有兴趣的朋友们可以参考原论文，也欢迎大家一起讨论。

【一】背景

从文章标题就能看出来：深度学习已经火了这么多年，但是其训练使用的数据可能是众包的，所以很有可能是具有个人敏感信息的， 为了保证这种敏感信息在训练过程和模型发布的过程中不被泄露，本文提出一种具有差分隐私保证的深度学习算法。
文章所提到的背景其实很容易理解，所以我们在这里就不用过多的篇幅去展开，有兴趣的朋友可以参考论文原文。

【二】准备活动

在介绍文章提到的方法之前，首先我们要知道差分隐私（Differential Privacy）究竟是什么。
用一个公式来说明，就是这么个东西：
E [ M ( d ) ∈ S ] ≤ e ϵ E [ M ( d ′ ) ∈ S ] + δ . \mathbb{E}\left[\mathcal{M}(d)\in S\right]\leq e^{\epsilon}\mathbb{E}\left[\mathcal{M}(d’)\in S\right]+\delta.E [M (d )∈S ]≤e ϵE [M (d ′)∈S ]+δ.

如果对于相邻数据集 d , d ′ d,d’d ,d ′，算法 M \mathcal{M}M（在各种文章中通常被称为mechanism）的输出满足上面的不等式的话，那么我们说 M \mathcal{M}M 是满足 ( ϵ , δ ) (\epsilon,\delta)(ϵ,δ)-差分隐私的。
相邻数据集的概念就是两个数据集只有一条数据样本不同，公式中的S S S是算法输出的值域，其最初的定义可以参考文章差分隐私相关论文(1) —— Differential Privacy, Dwork 2006。

我们可以看到， 差分隐私保证了在只更改一条数据的情况下，算法M \mathcal{M}M 的输出是基本一致的（一致性的强弱由隐私预算( ϵ , δ ) (\epsilon,\delta)(ϵ,δ)所控制，隐私预算越小，一致性越强）。

这样说可能还是有点绕，我们用一幅图来直观地对比一下，图中蓝黄线分别表示在相邻数据集上训练得到的模型。

差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016

看了这张图，相信大家都可以理解，在差分隐私定义下，攻击者很难 通过观察训练得到的模型反推出个人信息，因为这些模型是相似的。

最后，再多啰嗦一句，两个隐私预算 ϵ , δ \epsilon,\delta ϵ,δ 中， ϵ \epsilon ϵ 控制我们上文所说的”一致性”，δ \delta δ 表示ϵ \epsilon ϵ-差分隐私失败的可能性（概率）。
因此，两个值都是越小越好。
在通常情况下，我们会将 δ \delta δ 设置为小于 1 / n 1/n 1 /n，ϵ \epsilon ϵ设置为小于1 1 1，以得到有意义的差分隐私保证。

除此之外，文中还介绍了深度学习的一些基础表示，像梯度下降这样的”常识”，我们默认大家都有这方面的基础，在这里就不详细介绍了，有兴趣的朋友可以参考论文原文，本博客中也有一些相关知识，如果能帮到大家我也是很开心的~

; 【三】算法

基于随机梯度下降（SGD），本文提出了这样的差分隐私算法：

算法并不复杂，相较于传统的SGD而言，只是多了 梯度裁剪（Clip gradient）和 添加噪声（Add Noise）这两个操作。
其中梯度裁剪是为了 界定住梯度的ℓ 2 \ell_2 ℓ2 -敏感度（sensitivity）（敏感度是一个差分隐私领域中极其重要的概念，有兴趣的朋友可以参考文章差分隐私相关论文(1) —— Differential Privacy, Dwork 2006），而添加噪声是 利用随机的方式保证差分隐私（在文章差分隐私相关论文(1) —— Differential Privacy, Dwork 2006 中也有详细说明）。

【四】Moments Accountant方法

介绍完算法，本文的重头戏来了，先上定理：

这个定理说明了，如果添加的高斯噪声方差满足上面这个式子，那么在第三部分中的那个算法就满足 ( ϵ , δ ) (\epsilon,\delta)(ϵ,δ)-差分隐私，其中 q q q 是mini-batch的采样概率，T T T 是算法的迭代次数。

这个公式乍一看平平无奇，但是在那个年代，大家还在用基础的高斯机制的strong composition性质添加噪声，这个理论的出现直接就 把噪声界往下面压了log ⁡ ( T / δ ) \bm{\log(T/\delta)}lo g (T /δ) 这样一个数量级。
虽然做理论的这些文章在讨论误差界的时候都会把 log ⁡ ( ⋅ ) \log(\cdot)lo g (⋅) 这样量级的东西忽略掉，但是这样的提升其实已经很大了，特别是在实验或者应用方面。

【题外话】
后来，Di Wang 在NIPS2017的工作：Differentially Private Empirical Risk Minimization Revisited: Faster and More General证明了，对于全梯度下降算法（GD），如果 σ = O ( c T log ⁡ ( 1 / δ ) n ϵ ) \sigma=\mathcal{O}(c\frac{\sqrt{T\log(1/\delta)}}{n\epsilon})σ=O (c n ϵT lo g (1 /δ))，那么差分隐私就是可以保证的。
【题外话结束】

现在我们再回来这篇文章，这种优化是怎样来的呢？
是因为本文使用了一种新的理论分析方法。

首先，本文定义了一个隐私损失（privacy loss）的概念：

公式中的 c c c 就是定义在输出 o o o 上的privacy loss，它的本质（等号右边）是 算法M \mathcal{M}M 在相邻数据集d , d ′ d,d’d ,d ′ 上输出均为o o o 的概率的差异。

看看等号右边的这个形式，是不是有点眼熟，非常像某种熵的形式对吧。

我们接着往下看。
借由privacy loss的定义，本文接下来定义了这样一个moment，并对其在所有的相邻数据集 d , d ′ d,d’d ,d ′ 上取上界。
这个取上界的操作很容易理解，因为对于隐私泄露而言， 满足上界就满足所有数据点。

来，看上图中式（2），是不是更熟悉了。

【题外话】
其实把式（1）带入到式（2）里面，能写出来一个瑞丽（Renyi）熵的形式，所以各种瑞丽熵的性质也可以用到这个里面（这也是后来很多基于Moments Accountant方法做差分隐私的论文很常使用的技巧）。
但是Abadi这篇论文并没有在这里浪费过多笔墨，就只是把一切证明平推过去。
【题外话结束】

第一个部分（Composability）很容易证，就是把这个左边的moment：α \alpha α 写出来然后用privacy loss（c c c）的定义和 log ⁡ ( ⋅ ) \log(\cdot)lo g (⋅) 的性质推一下就可以了。

第二个部分是把M ( d ) \mathcal{M}(d)M (d )全集 拆分成了privacy loss（c c c ）大于ϵ \epsilon ϵ 和小于ϵ \epsilon ϵ 两个子集，然后证明 c ( o ) ≥ ϵ c(o)\geq\epsilon c (o )≥ϵ 那个部分的概率不大于 exp ⁡ ( α − λ ϵ ) \exp(\alpha-\lambda\epsilon)exp (α−λϵ)，那么根据我们上面所说的: δ \delta δ 表示ϵ \epsilon ϵ-差分隐私失败的概率，就很容易推出第二个Tail bound部分。
值得一提的是，把全集拆分成c ( o ) ≥ ϵ c(o)\geq\epsilon c (o )≥ϵ 和c ( o ) ≤ ϵ c(o)\leq\epsilon c (o )≤ϵ 两个部分的操作方式（或者相似的思路）在分析差分隐私的文章中非常常见，大家有兴趣的话可以留意一下。

然后，本文最复杂的一个lemma来了：

这个lemma界定了高斯机制（Gaussian mechanism）的moments bound，通过这个bound（以及刚刚Theorem2中的Composability），我们可以得到算法1的 α ( λ ) ≤ T q 2 λ 2 / σ 2 \alpha(\lambda)\leq Tq^2\lambda^2/\sigma^2 α(λ)≤T q 2 λ2 /σ2。

它的证明中用了高斯噪声的性质、二项式定理等工具，还用了很神奇的一些’observations’。
由于lemma3的证明确实比较复杂，所以在这里就不过多展开，有兴趣的朋友可以参考原论文，也欢迎大家一同讨论。

最后，将上面的Theorem2和Lemma3组合就可以得到本文最重要的那个结论Theorem1。

; 【五】其他

本文还给出了一些实验结果，但是如开篇所说，在这里我们不过多对其进行介绍和解释，有兴趣的朋友可以参考原文进行学习。

此外，这篇论文只给出了差分隐私的保证，但是对于模型的性能只进行了实验方面的验证，而对 优化误差、泛化误差并没有进行理论层面讨论，原因之一是对于深度学习而言，损失函数往往是非凸的，而非凸条件下的优化、泛化问题是至今仍困扰广大研究者（特别是搞理论的那帮人）最大的问题之一。

今后我也会分享一些差分隐私领域做优化、泛化相关的一些工作，希望能够帮助到大家。

如果本文中某些表述或理解有误，欢迎各位大神批评指正。
谢谢！

Original: https://blog.csdn.net/echoKangYL/article/details/125159523
Author: echoKangYL
Title: 差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617884/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

365天深度学习训练营-第7周：咖啡豆识别

🍨 本文为🔗365天深度学习训练营内部限免文章（版权归 K同学啊所有） 🍦 参考文章地址： 🔗第7周：咖啡豆识别 | 365天深度学习训练营 🍖 作者：K同学啊 | 接辅导、程…

人工智能 2023年6月16日
0067
TensorFlow实战之softmax多分类

文章目录前言一、Keras的mnist数据集二、建立sequential顺序model * 2.绘图结果和测试结果三、网络容量和优化总结前言 Keras是TensorF…

人工智能 2023年5月24日
00110
pycharm中cv2不提示函数、无法跳转库函数解决方法

pycharm中cv2不提示函数、无法跳转库函数解决方法(cannot find declaration to go to) 当我有一天拿到一个新项目，在运行调试的时候缺很多包，所…

人工智能 2023年6月17日
0096
解决tensorflow.python.framework.errors_impl.NotFoundError: Could not find valid device for node.

报错信息:tensorflow.python.framework.errors_impl.NotFoundError: Could not find valid device fo…

人工智能 2023年5月23日
00105
手把手教python发送邮件

使用python内置模块– smtplib和 email进行邮件发送。其中 smtplib模块负责发送邮件，而email模块负责构造邮件内容。一、基本用法介绍： 1、smtpli…

人工智能 2023年7月29日
0079
TypeError: only integer tensors of a single element can be converted to an indexValueError: only one

1.ValueError: only one element tensors can be converted to Python scalars 2.TypeError: onl…

人工智能 2023年7月21日
0094
如何处理逻辑回归模型中的缺失值和异常值

如何处理逻辑回归模型中的缺失值和异常值缺失值和异常值是现实世界数据分析中常常会遇到的问题，处理这些问题对于构建准确的逻辑回归模型至关重要。本文将详细介绍处理逻辑回归模型中的缺失值…

人工智能 2023年12月31日
0045
统计学习方法——2. K近邻法（KNN）

k-近邻（K-Nearest Neighbor, KNN）：大多数情况下用于分类。在给定的距离度量（欧式距离、曼哈顿距离等）方法中，在训练集中找出与当前样本x x x最近邻的k…

人工智能 2023年7月18日
00123
如何调用YOLOv4-tiny的动态链接库并应用

首先配置opencv环境：3.4.9一，需要的文件1.生成YOLO动态链接：编译：yolov4-tiny\build\darknet\yolo_cpp_dll_no_gpu.sln…

人工智能 2023年7月10日
0067
vector中resize() 用法排坑

先赞后看，养成&#…

人工智能 2023年6月17日
00101
fairseq库学习笔记（一）入门（Getting Started）

Fairseq是一个用PyTorch编写的序列建模工具包，它允许研究人员和开发人员训练用于翻译、摘要、语言建模和其他文本生成任务的定制模型。本系列笔记主要以翻译官方文档为主，附带一…

人工智能 2023年5月30日
00105
流媒体开源服务 MediaSoup 初识

目录前言正文一、简单介绍二、关键特色 1. 超强 SFU 功能 2. Node.js 模块 3. 客户端 SDK 三、架构组成 1. 关键实例 2. 重要模块四、发展现状…

人工智能 2023年7月31日
0069
einops的简单使用

简介 einops是一个用于操作张量的库，它的出现可以替代我们平时使用的reshape、view、transpose和permute等操作，相信接触过深度学习的同学一定对这些函数比…

人工智能 2023年6月4日
00115
过程挖掘（Process Mining）6——流程发现（Process Discovery）（2）α算法

α算法是比较古老、原始和简单的流程发现算法，能够处理发现并发（concurrency）的能力，但在实践中不适用，因为存在一些问题（处理噪声、不频繁/不完整行为、复杂路由结构等）。这…

人工智能 2023年7月17日
0094
Python爬虫之Scrapy框架（案例练习）

@作者 : SYFStrive @博客首页 : HomePage; 🥧 上一篇续文传送门 📌：个人社区（欢迎大佬们加入） 👉：社区链接🔗 📌：如果觉得文章对你有帮助可以点点关注…

人工智能 2023年6月19日
00105
NLP工具集：【doccano】——标注平台doccano使用手册

一. 简介 doccano 是一个开源的文本标注平台。它为文本分类、序列标记和序列到序列任务提供标注功能。因此，您可以为情感分析、命名实体识别、文本摘要、机器翻译等任务创建标注数据…

人工智能 2023年7月28日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016

大家都在看