9篇分布式机器学习系统经典论文；深度学习硬件的黄金十年｜AI系统前沿动态…

2023年6月16日上午11:11 • 人工智能 • 阅读 74

这是OneFlow社区发布的 第48期AI系统 前沿动态，今天开始正式在OneFlow公众号更新。《AI系统前沿动态》主要推荐AI系统、编译器、大模型、硬件、最新活动等相关内容，每周一期。如果你想了解往期内容，请查看知乎链接： https://www.zhihu.com/org/oneflow-17

深度学习硬件究竟如何继续提升性能？英伟达首席科学家Bill Dally无疑是回答这一问题的权威，，他在一次演讲中回顾了深度学习硬件的现状，在他看来，其实我们手里的牌打得差不多了，这意味着必须开始研发新的技术。

以下是他认为值得关注的四个方向：首先，研究新的数字表示，比如对数（Log number），以及比EasyQuant更加巧妙的量化方案；其次，继续深入研究稀疏性；然后，研究存储电路和通信电路；最后，改良现有的工艺技术。

链接：

2. 大规模分布式深度神经网络（Large Scale Distributed Deep Networks）

链接：https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf

作者：Jeffrey Dean, Greg Corrado, Rajat Monga, Kai Chen, Matthieu Devin, Mark Mao, Marc’aurelio Ranzato, Andrew Senior, Paul Tucker, Ke Yang, Quoc V. Le, Andrew Y. Ng

发表时间：2012

摘要：无监督特征学习和深度学习方面的近期研究进展显示，若能成功训练出大型模型，即可大幅提升性能。本文探讨如何利用数万CPU核心训练具有数十亿参数的深度神经网络。本文作者开发出DistBelief软件框架，该框架可利用含数千台机器的计算集群训练大型模型。

本文作者还为该框架开发出两种用于大型分布式训练的算法：(i) Downpour SGD——一种异步随机梯度下降方法，可支持大批量模型复制；(ii) Sandblaster——一种支持多种分布式批次（batch）优化程序（包括L-BFGS的分布式实现）的框架。Downpour SGD与Sandblaster L-BFGS均可扩大深度神经网络训练规模并提升训练速度。

本文作者使用上述方法成功训练出规模30倍于以往文献所述模型的深度神经网络，并在ImageNet物体识别任务中取得SOTA性能表现，该识别任务含1600万张图像，涉及21,000种物体。此外，本文作者将上述方法应用于商业语音识别服务，经实践证明，上述方法亦有助于更小规模深度神经网络的提速。尽管上述方法主要针对大型神经网络训练，但其底层算法适用于所有基于梯度的机器学习算法。

3. COTS HPC系统助力深度学习（Deep Learning with COTS HPC systems）

链接：http://proceedings.mlr.press/v28/coates13.pdf

作者：Adam Coates, Brody Huval, Tao Wang, David Wu, Bryan Catanzaro, Andrew Ng

发表时间：2013

摘要：对深度学习算法进行纵向扩展有助于提升算法在基准测试任务中的性能，并使算法能发现更复杂的高级特征。而近期的超大型神经网络（参数量十亿以上）训练均依赖类云计算基础设施，并需要数以千计的CPU核心。

本文介绍基于COTS HPC技术的系统的技术细节与性能表现。该系统使用GPU服务器集群、Infiniband互联和MPI接口，可在数天内仅用3台机器完成含10亿参数神经网络的训练。此外，借助该技术还可仅用16台机器训练含110亿以上参数的神经网络。由于小规模计算集群更易普及，该技术可让更多从业者有条件参与超大型神经网络的研究。

（译注：本论文中，纵向扩展（scale up）指的是采用GPU取代CPU，从而提升算力；与之对应的是横向扩展（scale out），指的是通过增加机器数量（扩大集群规模）提升算力。）

4. More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server（SSP参数服务器提升分布式机器学习计算效率）

链接：https://assets.website-files.com/6241e60ecd4aa2049d61387c/6288655114917759436b392e_LightLDA.pdf

作者：Qirong Ho, James Cipar, Henggang Cui, Seunghak Lee, Jin Kyu Kim, Phillip B. Gibbons, Garth A. Gibson, Greg Ganger, Eric P. Xing

发表时间：2013

摘要：本文提出一个用于分布式机器学习的参数服务器（Parameter Server）系统。该系统采用延时同步并行（Stale Synchronous Parallel, SSP）模型进行计算，在保证计算准确性的同时使worker的有效计算时间最大化。该参数服务器提供易用的共享接口，用于读/写机器学习模型中的数值（包括参数和变量）。

在SSP模型中，分布式worker可从本地缓存中读取旧版本的数值，而不必耗时等待从中央储存中读取最新版数值。此方法可大幅减少worker的等待时间，将更多时间用于计算。此外，通过限制旧版本数值的最大延时时限，SSP模型可保证机器学习算法的准确性。

本文可证明SSP模型的计算准确性，并提供实验数据说明SSP模型在多种不同机器学习问题上均可实现比全同步方案和异步方案更快的算法收敛。

（译注：参数服务器系统中的节点被分为两类：parameter server和worker。其中，parameter server负责存放模型的参数，而worker负责计算参数的梯度。）

5. 通过易并行MCMC方法采得渐进精确样本（Asymptotically Exact, Embarrassingly Parallel MCMC）

链接：https://arxiv.org/pdf/1311.4780.pdf

作者：Willie Neiswanger, Chong Wang, Eric P. Xing

发表时间：2014

摘要：机器学习中，为满足同步要求而造成的通信成本可能大幅降低并行算法的速度。本文介绍一种并行马尔可夫链蒙特卡洛（MCMC）算法，将数据切分为多个子集并进行独立处理，各个子集之间几乎互不通信。首先，将数据任意切分并分配至多台机器。然后，每台机器采用任一典型MCMC方法（如吉布斯采样）对给定数据子集进行后验分布采样。最后，集合每台机器采得的数据样例组成完整数据的后验分布样例。

上述易并行（embarrassingly parallel）算法使每台机器在最终组合阶段前均可基于各自的数据子集独立运行，互不通信。经验证，此算法可采得渐进精确的样本。此外，本文提供实验数据证明此算法可为多种模型实现并行burn-in和并行采样。（译注：

“易并行”：并行的子任务中，各个子任务的数据不存在相互依赖、互不通信；

“burn-in”：采样刚开始时，马尔可夫链尚未达到稳定均衡状态，此时的采样称为burn-in，burn-in过程中采得的样本应予以舍弃。）

6. LightLDA：小型计算集群训练大型主题模型（LightLDA: Big Topic Models on Modest Compute Clusters）

链接：https://assets.website-files.com/6241e60ecd4aa2049d61387c/6288655114917759436b392e_LightLDA.pdf

作者：Jinhui Yuan, Fei Gao, Qirong Ho, Wei Dai, Jinliang Wei, Xun Zheng, Eric P. Xing, Tie-yan Liu, Wei-Ying Ma

发表时间：2015

摘要：通常认为，构建大型机器学习程序（例如包含万亿级参数和训练样例的大型主题模型或深度神经网络）需要使用含有数千节点的工业级集群，而大多数机器学习从业者和学术研究人员不具备此种硬件条件。本文探讨如何利用更小型的集群实现基于网络规模语料的主题模型构建。

本文作者使用仅包含8台机器的小型集群，基于含有2000亿词块（token）的语料文件训练出可识别100万种主题和100万词汇（参数量为1万亿）的大型主题模型——即便是含有数千节点的大型集群也尚未实现此种模型规模。

本文提出的分布式策略是通用分布式机器学习框架Petuum底层的模型及数据并行编程模型的一个例子，并基于Petuum开源系统得以实现。实验证明，通过上述策略，可实现利用小型集群训练多种模型；此外，与其他方法相比，本策略可随集群规模的扩大而按比例缩小时间成本。

7. SaberLDA：基于GPU的主题模型运用稀疏性感知学习算法（SaberLDA: Sparsity-Aware Learning of Topic Models on GPUs）

链接：https://arxiv.org/pdf/1610.02496.pdf

作者：Kaiwei Li, Jianfei Chen, Wenguang Chen, Jun Zhu

发表时间：2017

摘要：隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）是一种分析离散计数数据（如文本和图像）的常用工具。LDA在应用中通常需要处理大型数据集和大量主题。尽管分布式CPU系统已得到应用，但由于GPU的计算能力和内存带宽更高，因此使用基于GPU的系统更为理想。然而，现存的基于GPU的LDA系统无法支持大量主题，因为该类系统使用基于稠密数据结构的算法，该种算法的时间与空间复杂度均随主题数量的增加而呈线性增长。

本文提出一种基于GPU的LDA系统——SaberLDA系统。SaberLDA利用稀疏性感知算法使算法的时间复杂度与计算规模呈亚线性关系，从而使大量主题的学习成为可能。为解决稀疏性带来的问题，本文提出一种新的数据布局、一种基于线束（warp）的新采样内核和一种高效的稀疏计数矩阵更新算法，该算法可提高局部性，提高GPU线束利用率，并减少内存占用。

实验数据表明，SaberLDA可从词块规模达数十亿的数据中习得10,000种主题，这比以往同样基于GPU的系统可习得的主题多出两个数量级。若使用单个GPU，SaberLDA可在数小时内从含有数十亿词块的数据集中习得10,000种主题，这在以往必须利用含数十台机器的集群才能实现。

8. STRADS分布式框架：采用调度模型并行方法进行机器学习（STRADS: A Distributed Framework for Scheduled Model Parallel Machine Learning）

链接：https://assets.website-files.com/6241e60ecd4aa2049d61387c/6288662506854dadbf2cb0a8_STRADS.pdf

作者：Jin Kyu Kim, Qirong Ho, Seunghak Lee, Xun Zheng, Wei Dai, Garth A. Gibson, Eric P. Xing

发表时间：2016

摘要：机器学习算法常被应用于大型数据处理，利用分布式系统将数据切分并分配至不同机器，令每台机器读取并更新机器学习模型参数，这种方法被称为数据并行。另一种方法称为模型并行，即切分模型参数，以进行非共享性并行访问与更新，还可对参数进行周期性重新切分，以加快通信速度。模型并行方法的出现是因为数据并行通常无法解决以下两个问题：(1) 参数可能具有相互依赖性，因此简单的并发更新可能导致报错，进而减慢收敛速度甚至造成算法故障；(2) 各模型参数的收敛速度并不一致，因此一小部分参数尚未收敛即可阻碍整个机器学习算法的完成。

本文提出一种名为调度模型并行（SchMP）的编程方法，该方法可根据参数的相互依赖性和各参数的收敛速度对参数更新进行高效调度，从而加快机器学习算法收敛速度。为了大规模支持SchMP，本文作者开发出STRADS分布式框架。STRADS可优化SchMP程序的吞吐量。

此外，本文作者还将下列4种机器学习应用写成SchMP程序，并对其进行基准测试：LDA主题模型构建、矩阵分解、稀疏最小二乘（Lasso）回归和稀疏逻辑回归。SchMP编程可使机器学习每次迭代带来的进展更大，同时，STRADS可以提高迭代吞吐量。因此，在STRADS框架上运行SchMP程序带来的性能表现可以超越非模型并行的机器学习实现：例如，SchMP LDA和SchMP Lasso的收敛速度分别是如今既定基准线的10倍和5倍。

9. 利用强化学习实现设备布局优化（Device Placement Optimization with Reinforcement Learning）

链接：https://arxiv.org/pdf/1706.04972.pdf

作者：Azalia Mirhoseini, Hieu Pham, Quoc V. Le, Benoit Steiner, Rasmus Larsen, Yuefeng Zhou, Naveen Kumar, Mohammad Norouzi, Samy Bengio, Jeff Dean

发表时间：2017

摘要：近年来，神经网络训练与推理的规模及算力要求均有所提升。为满足算力要求，业内往往采用混合硬件设备（如CPU+GPU）组成异构分布式环境。然而，关于如何将神经网络模型的不同部分布局到不同设备上，人类专家往往只基于简单的启发式方法和直觉知识作出决策。

本文提出一种针对TensorFlow计算图的设备布局优化方法。该方法的核心是运用序列到序列（sequence-to-sequence）模型预测TensorFlow计算图中各操作子集应交由哪一设备运行。模型作出预测后，该布局的实际执行时间将作为反馈信号被用于该序列到序列模型的参数优化。

实验结果表明，无论是利用Inception-V3卷积神经网络执行ImageNet识别任务，或是运行RNN LSTM，还是进行语言模型构建和神经机器翻译，该方法均可完成复杂的设备布局，且布局的计算速度超越人工设计的启发式方法和传统算法方法所完成的布局。

10.《OneFlow：从头开始重新设计一个分布式深度学习框架（OneFlow: Redesign the Distributed Deep Learning Framework from Scratch）》

链接：https://arxiv.org/abs/2110.15032

作者：Jinhui Yuan, Xinqi Li, Cheng Cheng, Juncheng Liu, Ran Guo, Shenghang Cai, Chi Yao, Fei Yang, Xiaodong Yi, Chuan Wu, Haoran Zhang, Jie Zhao

发表时间：2021

摘要：OneFlow是一个基于SBP（split、broadcast和partial）抽象和Actor模型的新一代开源分布式深度学习框架，支持数据并行、模型并行、流水并行等各种并行范式。与PyTorch等现有框架的机制相比，OneFlow的SBP使得数据并行和模型并行的编程更容易，而其Actor模型提供了一种简洁的运行时机制来管理分布式深度学习中资源约束、数据搬运和计算所施加的复杂依赖关系。通过案例研究和广泛的实验证明，OneFlow在训练各种大型 DNN模型方面的灵活易用、高效、可扩展，优于许多现有框架。

11. Colossal-AI团队联合百图生科开源xTrimo Multimer

近日，Colossal-AI 团队( https://github.com/hpcaitech/ColossalAI )联合百图生科成功加速蛋白质单体与复合物的结构预测，行业内最前沿的同时支持蛋白质单体（Monomer）与复合物（Multimer）结构预测的 xTrimo Multimer 模型已免费开源，相比现有方案，推理速度最高提升约 11 倍！

链接：

12. MindSpore自定义算子：思考、挑战与实践

一个深度学习的全栈解决方案总是会遇到不同算子优化方案的竖向隔阂和图算抽象分离的横向隔阂。为了解决如上隔阂引入的表达问题，MindSpore给出了自己的解决方案，即统一自定义算子表达。

链接：

（注：上述8篇分布式机器学习系统经典论文推荐源自此文的references：https://petuum.medium.com/intro-to-distributed-deep-learning-systems-a2e45c6b8e7 ，作者Hao Zhang，OneFlow社区胡燕君翻译论文摘要）

其他人都在看

*

*

*
*

欢迎体验OneFlow v0.8.0： GitHub – Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. – GitHub – Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. 9篇分布式机器学习系统经典论文；深度学习硬件的黄金十年｜AI系统前沿动态... https://github.com/Oneflow-Inc/oneflow/;

Original: https://blog.csdn.net/OneFlow_Official/article/details/126595666
Author: OneFlow深度学习框架
Title: 9篇分布式机器学习系统经典论文；深度学习硬件的黄金十年｜AI系统前沿动态…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623640/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Faster RCNN论文详解

Faster RCNN 建议先阅读之前的RCNN和Fast RCNN后再来阅读此文 Faster RCNN PyTorch实现：https://github.com/codecat…

人工智能 2023年7月9日
0058
使用VisionMaster SDK联合C#进行二次开发

目录前言一、VisionMaster SDK（4.2版本）介绍二、环境配置2.1新建工程：2.2添加算子工具引用2.3添加控件三、开发过程3.1 方案加载3.2 参数修改3.3 流…

人工智能 2023年6月17日
0069
python给数据加列名_使用列名创建空数据帧或列表，然后按列名添加数据

我试图通过将我用VB编写的代码转换成python来学习python2.7。我有列名，我试图创建一个空的数据帧或列表，然后通过迭代添加行(见下文)。我不知道需要提前添加的行总数。我可…

人工智能 2023年7月9日
0048
利用随机森林对特征重要性进行评估（含实例+代码讲解）

这部分主要讲解一下如何使用，需要看原理的小伙伴，可以到我之前的博客： https://blog.csdn.net/wzk4869/article/details/126379073…

人工智能 2023年6月15日
0063
基因变异自动分类

来源：kaggle.com/elemento/personalizedmedicine-rct 在癌细胞的生命周期中可能会发生数千次的基因突变（genetic mutations）…

人工智能 2023年5月28日
0075
AAAI‘22 推荐系统论文梳理

2022推荐系统论文梳理系列推荐系统相关顶会整理 IJCAI’22 推荐系统论文梳理 ICML/ICLR’22 推荐系统论文梳理 WWW’22…

人工智能 2023年6月16日
0059
转换为onnx模型错误汇总

1、ValueError:torch.nn.DataParallel is not supported by ONNX exporter, please use ‘at…

人工智能 2023年7月22日
0052
人脸表情识别——Hog特征+基本分类算法（svm,knn,朴素贝叶斯，随机森林等）python实现

目录前言一、本文采用的数据库二、数据读取部分 1.训练部分 2.预测部分 3.训练部分数据读取三、hog特征提取部分 1.训练部分的hog特征提取 2.预测部分单张图像的h…

人工智能 2023年6月15日
0071
在CNN中，卷积核的大小和数量如何选择？这个选择会对图像特征提取有什么影响

问题背景在卷积神经网络 (Convolutional Neural Networks, CNNs) 中，卷积核是深度学习中的一个重要概念。卷积神经网络通过使用卷积核从原始图像中提…

人工智能 2024年1月5日
0039
python机器人视觉编程——入门篇（上）

目录 1 全篇概要(主要阅读对象及内容提要) 2 python知识点之——环境及依赖的库安装简述 * 2.1 Python开发环境安装 2.2 Python 机器视觉模块安装 2….

人工智能 2023年6月18日
0060
《计算机视觉基础知识蓝皮书》第2篇深度学习基础

本专栏将系统性地讲解计算机视觉基础知识、包含第 1篇机器学习基础、第2篇深度学习基础、第3篇卷积神经网络、第4篇经典热门网络结构、第5篇目标检测基础、第6篇网络搭建及训练…

人工智能 2023年6月16日
0087
【Python数据分析】数据挖掘建模——聚类分析

聚类算法是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法，是一种无监督学习方法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，…

人工智能 2023年5月31日
0086
面向文本数据的金融数据挖掘–209

1、项目概述在金融领域中，由于投资的高风险性，金融行业需要更为准确和可靠的实时数据。知识图谱作为数据驱动的人工智能，能够存储金融资讯、行情等海量数据中包含的实体、关系和属性。金融…

人工智能 2023年6月1日
0078
非常详细的相机标定原理、步骤（一）

目录一、什么是相机标定二、坐标系 1.世界坐标系(word Coordinate) 2.相机坐标系(camera coordinate) 3.世界坐标系到相机坐标系转换三、总…

人工智能 2023年6月23日
0065
LSTM分类模型

LSTM文本分类模型本文主要固定一个文本分类的流程。分为三个部分：数据处理。对分类文本数据集做简单的预处理。模型数据准备。处理上一步的结果，得到模型的输入样本。模型搭建和训…

人工智能 2023年7月3日
0087
conda安装GPU版pytorch，结果却是cpu版本[找到问题根源，从容解决]

conda安装GPU版pytorch，结果却是cpu版本[找到问题根源，从容解决] * – 一、问题描述 – 二、网上解决方案罗列【此节为反面方案罗列！！！…

人工智能 2023年7月24日
0063

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

9篇分布式机器学习系统经典论文；深度学习硬件的黄金十年｜AI系统前沿动态…

大家都在看