【一周聚焦】联邦学习 arxiv 3.11-3.18

2023年6月4日下午1:42 • 人工智能 • 阅读 83

O. Marfoq, G. Neglia, L. Kameni, and R. Vidal, “Personalized Federated Learning through Local Memorization,” arXiv:2111.09360 [cs, stat], Mar. 2022, Accessed: Mar. 19, 2022. [Online]. Available: http://arxiv.org/abs/2111.09360

这篇蔚蓝海岸大学埃森哲技术研究院的文章同样在研究PFL，而且大有顶会论文的趋势。该团队对于PFL的理解为在对每个用户训练得到单独模型的同时，还要利用其他用户的知识。因此，这篇文章的思路依然是对相似用户进行聚类。那么聚类标准是什么呢？每个用户对输入的表示（embedding）。之前我一直觉得embedding的训练比较难，其实就是每个用户分类层的前一层的输出。比如CNN的最优一个卷积层，RNN的最后一个隐藏状态。这样聚类没有触及到最优的分类，因此避免了隐私的泄露，但是又利用了用户对数据进行表征的网络，还是比较巧妙。

然后根据聚类结果对他们的网络进行融合，在两个用户聚类的时候，依然是典型的需要调参的融合方式

[h_{m, \lambda_{m}}(\mathbf{x}) \triangleq \lambda_{m} \cdot h_{\mathcal{S}{m}}^{(k)}(\mathbf{x})+\left(1-\lambda{m}\right) \cdot h_{\mathcal{S}}(\mathbf{x}) ]

这也是体现了标题local memorization的作用，就是利用了邻居的记忆。今天谷歌有一篇文章，也是将多个微调的模型直接进行聚合，在ImageNet1K上取得了90%的准确率，可谓是异曲同工。同时这篇文章也分析了generalization bound。最终的实验结果看起来也不错

可以看到，对于每个用户两个class的CIFAR10而言，准确率已经达到了93，更不要说MNIST了。不过Shakespeare数据集的提升还是并不明显，可能这种PFL的思路还是对对象识别更加有效。

C. Hou, K. K. Thekumparampil, G. Fanti, and S. Oh, “FedChain: Chained Algorithms for Near-Optimal Communication Cost in Federated Learning,” arXiv:2108.06869 [cs, math], Mar. 2022, Accessed: Mar. 19, 2022. [Online]. Available: http://arxiv.org/abs/2108.06869

这是CMU发表在ICLR 2022上的文章，以收敛性分析为主。对于FedAvg遭遇的异构数据瓶颈，这篇文章没有迎难而上研究PFL，而是选择直接逃避。既然FL对iid的数据效果好，那就只对iid做就好了呀，对于non iid的数据，直接回到原来的SGD，不就等效于全局的训练，那异构数据的问题也就迎刃而解了。

当然作者不会直接这么说，故事还是要好好讲的。作者的意思是FedAvg算法的本地训练阶段能够利用用户数据的相似性加速训练，而SGD算法能够在异构数据下得到更低错误概率。文章中的图比较形象，确实是离最优点远的时候，虽然梯度有差别但是方向基本一致，到训练后期才体现出每个client的差别，从而需要频繁使用global training

对于用户异构性而言，为了理论分析方便的定义被说成了standard measure，其实不太客观

[\zeta^{2}:=\max {i \in[N]} \sup {x}\left\|\nabla F(x)-\nabla F_{i}(x)\right\|^{2} ]

按照这个思路，文章提出的FedChain就是先进行若干轮FedAvg算法，然后进行SGD算法，

这篇文章在理论分析方面做了很多工作（堆料）。在仿真方面，实验表示仅仅训练一轮FedAvg都能有明显的提高，表明确实是有效果的

C. Tang et al., “Mixed-Precision Neural Network Quantization via Learned Layer-wise Importance,” arXiv:2203.08368 [cs], Mar. 2022, Accessed: Mar. 19, 2022. [Online]. Available: http://arxiv.org/abs/2203.08368

这篇来自于清华大学的神经网络混合精度量化的文章，初看让人眼前一亮，细看还是故事讲得比做的好。文章首先讲明了混合精度量化的重要性，现有算法的难点，他们观察到一个可训练的变量能够表征每一层对于量化的敏感程度或者说重要性，然后由此得到一个整数规划来分配每一层的量化比特数量。

这个量化的思路有点霍夫曼编码在神经网络中的应用。霍夫曼编码根据码字出现的概率来分配码长，这篇文章则根据每一层的重要性来选择码长。那么文章的核心当然就是如何衡量重要性了。经济学中常用的shapley value大家也早就想过了，但这个毕竟是个组合问题，搜索空间大耗时长，就算用DRL也不好搞。那能不能用一次端到端的学习，学到一些参数，刚好就和重要性对应上，相当于找一个shapley value的平替呢？之前大家也不是没想过，BN层的scale factor就可以反映数据输入的聚集程度，大家也这么做了。但是BN层的映射变换是在前一层量化操作后，也就是说不能直观反映量化带来的的变化。所以这篇文章提出用每一层的scaling factor来表征重要性，也就是下面的(s)

[v^{q}=Q_{b}(v ; s)=\operatorname{round}\left(\operatorname{clip}\left(\frac{v}{s}, \min {b}, \max {b}\right)\right) \times s ]

具体的好处直接放原文，总之(s)在quantization-aware training中就能得到优化，能够有效反映quantization的性质。

As shown in Equation 1, during QAT, the scale factor of the quantizer in each layer is trained to adjust the corresponding quantization mapping properly at a specific bit-width. This means that it can naturally capture certain quantization characteristics to describe the layers due to its controlled quantization mapping being optimized directly by the task loss. Therefore, there should be numerically significant difference in the scale factors for heterogeneous layers in a network.

Moreover, the operation involved in the scale factor takes place in the quantizer, which allows it to be directly aware of quantization.

Last but not least, there are two quantizers for activations and weights for a layer, respectively, which means that we can obtain the importance of weights and activations separately. In contrast, we cannot get the importance of weights through the BN layer since it only acts on activations.

之后作者实验验证了这个想法。（这里没看懂是大的scale factor需要更多位数还是小的需要更多位数，从下面的优化问题来看是小的factor需要更多位数，也就是基本不缩放的重要性高，所以分配更多位数，和图里的又对不上）

最终得到了整数规划，用来求解每层需要分配的量化数量。

Original: https://www.cnblogs.com/mhlan/p/16028353.html
Author: 木坑
Title: 【一周聚焦】联邦学习 arxiv 3.11-3.18

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568164/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习进行人体的姿态估计

深度学习进行人体姿态估计简介内容 * 什么是姿态估计？ – 自下而上与自上而下的方法姿态估计的重要性什么是人体姿态估计？ – 什么是2D人体姿态估计…

人工智能 2023年6月26日
0070
pytorch基础操作

处理数据（Torch）文章目录 * – 处理数据（Torch） – + 数据初始化 – tensor的索引、切片、连接、变异操作 &#8211…

人工智能 2023年7月22日
0056
python 安装 cv2 – 已解决

我的网站已上线 http://javapub.net.cn/ 建议收藏 提供多种操作，一定有…

人工智能 2023年7月4日
0076
MS-SSIM

1. 概要该文提出了一种多尺度结构相似度方法，该方法在考虑观看条件的变化方面比以往的单尺度方法具有更大的灵活性。该文展示了一种图像合成方法来校准参数，以定义不同尺度的相对重要性。…

人工智能 2023年6月15日
00122
sklearn逻辑回归:参数详解

一.入参说明 (一)入参分类与使用 (二)入参详细列表二.模型训练三.模型训练后的方法与属性 (一) 方法 (二) 属性本文讲述sklearn逻辑回归参数详解一.入参说明 …

人工智能 2023年6月15日
00150
【快速理解张量】通过torch.rand和举例通俗解释张量tensor

问题描述：深度学习的核心就是卷积，而卷积的核心那就是张量。那么如何理解张量（tensor）就成了深度学习路途中不可缺少的一步，讲真的，刚学习深度学习那会儿张量实在是困惑了自己很…

人工智能 2023年6月16日
0082
【pandas】Error tokenizing data. C error: Expected 6 fields in line 3, saw 9

今天又是编写代码的一天，在使用 pandas的 read_csv读取文件时候，程序运行突然出现了错误 Traceback (most recent call last): File…

人工智能 2023年6月16日
0087
毕业设计相关工作

毕业设计相关专有名词命名实体识别 NER named entity recogination 自然语言处理 NLP natural language processing 深度…

人工智能 2023年5月28日
0076
Pandas案例精进 | 药品发放汇总与Excel表数据回填

小小明：「凹凸数据」专栏作者，Pandas数据处理高手，致力于帮助无数数据从业者解决数据处理难题。 Pandas案例需求有一个卫生院需要统计一下每个村扶贫药品发放的数据。数据形…

人工智能 2023年7月7日
0064
经典网络结构 (七)：FPN, DetNet

目录多尺度问题特征金字塔: FPN (Feature Pyramid Network, 特征金字塔) 为检测而生: DetNet References 本文主要介绍两个用于物体…

人工智能 2023年7月12日
0078
【Python爬虫】爬取2022软科全国大学排行榜

目录 1.任务要求 2.网络爬虫实现原理 3.系统设计与代码实现 3.1 第一题 3.1.1 最初设计方案：采用request+BeautifulSoup 方式 3.1.2 更改后…

人工智能 2023年7月14日
00162
【NLP入门-中文文本分类】步骤详解，附keras代码

一、NLP 文本分类步骤第一步：准备数据集，X：句子；Y：类别第二步：分词，并去除停词（中文理由停词，比如而且，逗号之类；英文的话需要做词的时态转换之类）第三步：word2i…

人工智能 2023年5月28日
0097
PyTorch12—Unet图像语义分割

语义分割简介图像语义分割是计算机视觉中十分重要的领域。它是指像素级地识别图像，即标注出图像中每个像素所属的对象类别。下图为语义分割的一个实例，其目标是预测出图像中每一个像素的类…

人工智能 2023年5月26日
0086
【深度学习】3-从模型到学习的思路整理

前言活动地址：CSDN21天学习挑战赛 🚀 个人主页：清风莫追🌊 本文整理了从模型，到损失，再到损失关于权值的梯度的一些思路🔥 希望和大家一起加油，一起进步！文章目录前言 1…

人工智能 2023年6月23日
0075
YOLO 图文入门 04 v4 PAN，SAM（含代码+原文）

文章目录前言背景一、网络结构 * 1.1 Backbone（骨干） – Dense Block&DenseNet 1.2 Neck（颈） – …

人工智能 2023年6月25日
0069
UNet3+详解

目录 1. UNet3+解决的问题（1）UNet （2）UNet++ 2. UNet3+的创新点 3. UNet3+的结构体 (1) 编码层 (2) 解码层 a.跳跃连接 b.分…

人工智能 2023年6月16日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【一周聚焦】 联邦学习 arxiv 3.11-3.18

大家都在看

【一周聚焦】联邦学习 arxiv 3.11-3.18