浅谈深度学习中潜藏的稀疏表达

“王杨卢骆当时体,轻薄为文哂未休。 尔曹身与名俱灭,不废江河万古流。”
— 唐 杜甫《戏为六绝句》(其二)
别为我把这首歌放在开头。成千上万的人理解它。]

[En]

[don’t put this song at the beginning for me. Thousands of people understand it.]

深度学习:概述和一孔之见

深度学习(DL),或说深度神经网络(DNN), 作为传统机器学习中神经网络(NN)、感知机(perceptron)模型的扩展延伸,正掀起铺天盖地的热潮。DNN火箭般的研究速度,在短短数年内带来了能”读懂”照片内容的图像识别系统,能和人对话到毫无PS痕迹的语音助手,能击败围棋世界冠军、引发滔滔议论的AlphaGo…… DNN在众多应用领域的成功无可置疑。然而,在众多(负责任的和不负责任的)媒体宣传推波助澜下,一部分人过于乐观,觉得攻克智能奇点堡垒近在眼前;另一部分则惶惶不可终日,觉得天网统治人类行将实现。作者君对此的态度如下图所示:

  • 小品中,黑土老人对头脑发热的白云阿姨说,什么明星不只是一个名字?
    [En]

    in the sketch, the old man of black earth said to the hot-headed Aunt Baiyun, “what celebrity is not just a name?”*

  • 对于DNN,作者君也想说:”什么怪力乱神,不就是个计算模型?”

言归正传,如果不把DNN看成上帝/天网/人工智能终点etc., 也暂不考虑当前DL和人脑思维之间若有若无的联系,那么DNN和K-Means、主成分分析(PCA)、稀疏编码(sparse coding或Lasso)等众多耳熟能详的模型并无二致,都属于机器学习中 特征学习(feature learning)范畴。假如硬说DNN有什么不同,那么大概就在一个”深”字上。从数据x中学习特征y,如果(绝大多数)传统模型写成y = f(x)(即学习 “一个”特征变换),DNN则可以写成y = fN (… (f2 (f1 (x)))) (即学习 “若干个级联”的特征变换)。那么究竟什么使得DNN如此效果拔群?作者君本人归纳了三点:

1)空前庞大的参数(parameter)量(动辄成百上千万),远远超过以往任何模型的参数数量级,使得模型对于复杂映射(mapping)的表达能力极大增强;

2)端到端(end-to-end)的训练方式,克服了以往模型分模块训练(hierarchical)、各模块没有彼此优化的劣势;

3)前两点主要是理念上的升华,而实际中最重要的进步,是终于找到了能有效训练这样巨大模型的一套手段。尽管这些手段(如后向传播算法)不免simple & naïve,很多也缺乏严格的证明和解释;然而在大数据的东风、GPU高性能计算的魔力、及无穷无尽的tricks(如dropout、batch normalization等)加持下,这条荆棘路还是硬生生被踏出来了。

应用上的巨大成功,掩盖不了DNN理论的不足,也掩盖不了“沙子上建塔”的隐忧。DNN失去了传统方法的优良性质和可解释性:这不仅是因为DNN本身的高度非线性和非凸性,也是因为算法本身的粗糙性和经验性。深度学习结构的黑匣子特征太复杂、太难分析,引起了学术界的诸多关注和好奇。自2013年以来,一些学者从不同角度研究了DNN与各种传统机器学习模型(如小波分析、稀疏表示、高斯过程、条件随机场)之间的内在联系,以了解DNN的工作原理,甚至从传统模型的分析方法中挖掘黄金,为DNN的理论框架做出了贡献。在本文的接下来的部分中,主要从稀疏编码(Sparse Coding)的角度,初步分析和解读了DNN中的一些成功经验。

[En]

The great success in application can not cover up the lack of DNN theory and the hidden worries of “building towers on sand”. The excellent properties and interpretability of traditional methods are lost in DNN: the reason is not only due to the highly nonlinear and non-convex function of DNN itself, but also trapped by the roughness and empiricization of the algorithm itself. The “black box” characteristic of deep learning structure is too complex and difficult to analyze, which has aroused a lot of concern and curiosity in academic circles. Since 2013, some scholars have studied the internal relationship between DNN and all kinds of traditional machine learning models (such as wavelet analysis, sparse representation, Gaussian process, conditional random field) from different angles, in order to understand the working principle of DNN, and even dig gold from the analysis methods of traditional models, which contribute to the theoretical framework of DNN. In the following part of this paper, only one pearl in the sea, mainly from the perspective of sparse coding (sparse coding), preliminary analysis and interpretation of some empirical success in DNN.

从正则回归模型谈起

让我们暂时忘掉DNN,从以下带正则项的简单(线性)回归模型开始:

[En]

Let’s forget about DNN for a while and start with the following simple (linear) regression model with regular terms:

Y =arg min ||X −D Y ||2 +r (Y )Y=arg⁡min||X−DY||2+r(Y)

其中X X是输入数据,Y Y是带求解的特征,D D是表示基(basis)。Y Y除了要求相对于D D能很好地表示(重建)X X外,还受到一个额外正则项r (Y )r(Y)的约束。注意这个模型看似简单,实则众多著名模型(PCA,LDA, sparse coding, etc.)都可以看成其具体例子。以上模型的求解算法可以写成一个迭代的一般表示形式 (k = 0, 1, 2,…):

Y (k +1 )=N (L 1 (X )+L 2 (Y (k ))Y(k+1)=N(L1(X)+L2(Y(k))

Y (k )Y(k)是k-iteration的输出,L 1 L1、L 2 L2、N N是三个变换算子。这一迭代算法可以等价表示成下图中带反馈系统的形式(目标是求解系统不动点):

对于上图的反馈环路形式,我们然后进行正向展开(展开)以获得具有无限正向传播单元的级联结构,然后截断该结构(截断)以获得固定长度的正向结构:

[En]

For the feedback loop form of the figure above, we then do forward expansion (unfolding) to obtain a cascade structure with infinite forward propagation units, and then truncate the structure (truncate) to get a fixed length forward structure:

上图即是一个”展开&截断”后的前向结构示意图(到k =2 k=2)。首先,这一结构避免了环形结构/反馈回路的出现,所有信息流都是前向的。其次,读者可以顺着信息前进方向,逐步写出关系式(例如每个N的输入),不难发现这一结构等价于将原有迭代算法做k步近似,获得一个有限固定迭代步数下”不精确”的回归解。更有趣的是,在很多例子中,L 1 L1、L 2 L2是带参数的线性变换,而N N是不带参数的非线性变换。我们注意到,这和DNN的结构形成了精妙的巧合对应:如果将L 1 L1、L 2 L2看做是DNN中可以训练的”层”(layer),看做DNN中的非线性操作如神经元(neuron)或池化(pooling),那么以上”展开&截断”后的前向结构(到k=2)完全可以看做一个k +1 k+1层、有一定特殊结构的DNN。

当然,我们也可以考虑卷积情况下的正则回归问题:

[En]

Of course, we can also consider the problem of regular regression in the case of convolution:

Y =arg min ∥X −∑i F i ∗Z ∥2 +∑i r (Z i )Y=arg⁡min∥X−∑iFi∗Z∥2+∑ir(Zi)

这个问题的形式、解和结论类似于以前的线性回归模型。实际上,线性回归模型的结论自然会对应于DNN的全连接层,而卷积回归模型的结论会自然地对应于DNN的卷积层。

[En]

The form, solution and conclusion of this problem are similar to the previous linear regression model. In fact, the conclusion of the linear regression model will naturally correspond to the full connection layer of DNN, while the conclusion of the convolution regression model will correspond to the convolution layer of DNN.

深度网络中潜藏的稀疏表示

现在,我们考虑引入1范数约束的稀疏性作为回归模型的正规项:

[En]

Now, we consider introducing the sparsity of 1-norm constraint as the regular term of the regression model:

Y =arg min ∥X –D Y ∥2 +c ∥Y ∥1 Y=arg⁡min∥X–DY∥2+c∥Y∥1

上面的表达式是一个经典的稀疏表示问题。对应的迭代算法如下:

[En]

The above expression is a classical sparse representation problem. The corresponding iterative algorithm is as follows:

Y (k +1 )=N (L 1 (X )+L 2 (Y (k ))),L 1 (X )=D T X ,L 2 (Y (k ))=(I −D T D )Y (k )Y(k+1)=N(L1(X)+L2(Y(k))),L1(X)=DTX,L2(Y(k))=(I−DTD)Y(k)

则是著名的软门限算子(soft-thresholding), 形式如下图左所示。熟悉DNN的读者可能很容易从它的形状联想到DNN中最成功的ReLU(Rectified Linear Unit)神经元,其形式如下图右所示。既然ReLU很牛,那么我们能不能把它请进我们的框架里呢?

我们的策略是在原始的稀疏表示问题中添加对Y、Y的非负(非负)约束:

[En]

Our strategy is to add a non-negative (non-negativity) constraint on Y Y to the original sparse representation problem:

Y =arg min ∥X −D Y ∥2 +c ∥Y ∥1 ,Y ≥0 Y=arg⁡min∥X−DY∥2+c∥Y∥1,Y≥0

该约束的直接影响是将软阈值运算符的负值截断为零。此外,我们还可以将原软阈值算子的阈值参数c移到线性变换中。在最终的迭代形式中:

[En]

The direct effect of this constraint is to cut off the negative side of the soft threshold operator to zero. Furthermore, we can move the threshold parameter c of the original soft threshold operator to the linear transformation. In the final iterative form:

L 1 (X )=D T X –c ,L 2 (Y (k ))=(I −D T D )Y (k ),N =R e L U L1(X)=DTX–c,L2(Y(k))=(I−DTD)Y(k),N=ReLU

一个小问题:为什么非负约束可以被拼凑到原来的稀疏表示问题中?首先,在哲学上,稀疏表达将“部分”线性地组合成“整体”。如果这些“部分”相互抵消,总是感觉不自然–当然,这是一种奇怪的力量,不管你是否不听。然而,在生物建模中,稀疏表达早已与神经元编码联系在一起:稀疏特征的值对应于神经元的“激活率”(放电速率,即单位时间内的平均棘波数目),自然需要非负值。此外,许多图像处理和计算机视觉的研究人员都熟悉非负稀疏编码(Non-Negative Sparse Coding,NSC)这一名称。此前,NSC也是学习视觉功能最成功的方法之一。如今,在风水和DNN火的曲折中,热露在各个神经元和大浪淘沙的经验设计尝试后脱颖而出。之前的非负和稀疏假设已经被修改,并在不知不觉中潜伏到RELU中;这是一个有趣的发现。

[En]

A small question: why can a non-negative constraint be “cobbled together” into the original sparse representation problem? First of all, in philosophy, sparse expression linearly combines the “parts” into the “whole”. If these “parts” cancel each other out, it always feels unnatural-of course, this is a strange force, no matter if you don’t listen. However, in biological modeling, sparse expression has long been associated with neuron coding: the value of sparse feature corresponds to the “activation rate” of neurons (firing rate, i.e., the average number of spikes per unit time), which naturally needs to be non-negative. In addition, many researchers of image processing and computer vision are familiar with the name nonnegative sparse coding (nonnegative sparse coding, NSC). Previously, NSC is also one of the most successful ways to learn visual features. Nowadays, with the twists and turns of feng shui and DNN fire, ReLU stands out after the empirical design attempt of various neurons and the big waves to clean up the sand. The previous non-negative and sparse assumptions have been revamped and unconsciously lurked into ReLU; this is an interesting discovery.

再进一步,上面那个对应非负稀疏编码的”展开&截断”前向结构,如果我们想避免那些不”特别典型”的中间连接(事实上,这些”捷径”的设计正在成为DNN的新热点,参加ResNet等工作)和权重共享(被重复展开),一个选择是只保留最开始的一部分计算而删掉后面,即让迭代算法从初始值开始只跑一步近似:Y =R e L U (D T X –c )Y=ReLU(DTX–c):

如此便获得了DNN中最典型的构成单元:全连接层 + 偏置 + 神经元ReLU。偏置 来源于原本1范数正则项的加权;在原优化问题中,调整c即调整Y的稀疏度。不难想到,如果将非负稀疏编码换成非负稀疏卷积编码,那么同样可以得到由卷积层 + 偏置 +神经元ReLU组成的单元。这一角度对一般DNN结构的分析提供了很多意味深长的提示。这里限于篇幅,不再展开。

最后,简单谈谈其他两种形式的稀疏性。一种是将稀疏编码中的1范数替换为0范数:

[En]

Finally, briefly talk about the sparsity of the other two forms. One is to replace the 1 norm in sparse coding with 0 norm:

Y =arg min ∥X –D Y ∥2 +c 2 ∥Y ∥0 Y=arg⁡min∥X–DY∥2+c2∥Y∥0

按照以上1范数情况下的推导结果,不难解出的形式为经典的硬门限算子(hard-thresholding)。相较软门限,硬门限容易获得零值更多、更稀疏的解,常有利于分类等任务。尤其有趣的是,这一算子在2015年的国际表示学习大会(ICLR)上被DNN研究者们”经验性”地设计出来,并被冠名以thresholded linear unit;实则未免稍稍有重造轮子之憾。另一个更有意义的例子是:

Y =arg min ∥X –D Y ∥2 s.t.∥Y ∥0 ≤M Y=arg⁡min∥X–DY∥2s.t.∥Y∥0≤M

这个问题中的约束可以被视为一个池化操作符(Pooling):保留输入中绝对值最大的M个值,其余的返回到零。考虑到0范数约束问题是特征选择的经典形式之一,这也让我们对原本被认为是简单的工程上的盲目的池塘操作的实际作用有了更多的幻想。

[En]

The constraint in this problem can be regarded as a pooling operator (pooling): M values with the largest absolute values in the input are retained, and the rest are returned to zero. Considering that the 0-norm constraint problem is one of the classical forms of feature selection, it also makes us have more fantasies about the practical role of pooling operation, which was originally regarded as a simple engineering “blind”.

综上所述,我们在这一部分见证了:

[En]

To sum up, what we witnessed in this part:

  • DNN中全连接层/卷积层,和线性/卷积回归模型间的密切结构对应关系
  • ReLU神经元隐含对特征”非负稀疏性”的要求
  • 池化操作隐含对特征“强稀疏性”(特征选择)的要求
    [En]

    pooling operation implies the requirement of feature “strong sparsity” (feature selection)*

  • 参数层偏差所隐含的特征“稀疏性”的调整
    [En]

    Adjustment of feature “sparsity” implied by parameter layer bias*

DNN和稀疏编码的关系深刻且本质;同样,它和其余众多传统机器学习模型间也逐渐被揭示出了千丝万缕的联系。作者组的最近工作还发掘了传统的一阶/二阶优化算法的结构,和今年大火的residual learning、fractal net等特殊网络结构和学习策略,同样有令人吃惊的精巧对应。除了作者组以外,诸如小波(wavelet)祖师Stéphane Mallat教授,压缩感知宗师Richard Baraniuk教授,约翰霍普金斯大学Rene Vidal教授,杜克大学Guillermo Sapiro教授,微软亚洲研究院Daivd Wipf博士…等多个一线研究组,近期也都对本方向投以极大关注,并陆续有优秀工作问世;方兴未艾,可以预见。 限于篇幅,无法尽述,部分参考文献列于文后以飨读者。从以往的特征工程/人工设计特征(feature engineering / crafted feature), 走到今天的以DNN为代表的特征学习(feature learning) + 人工设计结构(crafted architecture), 到未来潜在的特征学习(feature learning) + 结构学习(architecture learning),我们处在变革的时代,但不是”魔法”的时代;而且这变革和进步显然才到半途,亟待提升。上述工作的核心,是从传统机器学习的角度”解释”DNN中诸多经验性的结构缘何而来;在”解释”的基础上,下一步便是”分析”结构性质,和有的放矢地”创造”新的结构。作者君本人坚信,万事非偶然;这一系列经验性的对应,实实在在向我们展示了历史的螺旋上升,车轮转过同样的辐条。随着更多此类结构对应关系的发掘,将极大帮助我们理解和选择DNN的最优结构,创造新的可用结构,以及引入理论分析工具。

注:本文中的符号符合计算机科学领域的习惯。统计专业学生必须注意统计习惯符号与统计习惯符号之间的对应关系。

[En]

Note: the symbols in this paper are in accordance with the habits in the field of computer science. Students majoring in statistics must pay attention to the corresponding relationship between the symbols of statistical habits and those of statistics.

作者简介

汪张扬,男,1991年出生;2012年中国科学技术大学电子通信工程本科毕业;2016年伊利诺伊大学香槟分校电子计算机工程博士毕业;2016年加入德州A&M大学计算机科学系任Assistant Professor。更多信息见主页:www.atlaswang.com

拓展阅读

  • K. Gregor and Y. LeCun. Learning Fast Approximations of Sparse Coding, ICML 2010.

  • P. Sprechmann, A. M. Bronstein, and G. Sapiro, Learning Efficient Sparse and Low Rank Models, IEEE T-PAMI, 2015.

  • Z. Wang, Q. Ling, and T. Huang, Learning Deep ℓ0 Encoders, AAAI 2016.

  • Z. Wang, S. Chang, J. Zhou, M. Wang and T. Huang, Learning A Task-Specific Deep Architecture for Clustering, SDM 2016.

  • B. Xin, Y. Wang, W. Gao, D. Wipf, Maximal Sparsity with Deep Networks? arxiv.org

  • Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, Deep Networks for Image Super-Resolution with Sparse Prior, ICCV 2015.

  • Z. Wang, D. Liu, S. Chang, Q. Ling, Y. Yang and T. Huang, D3: Deep Dual-Domain Based Fast Restoration of JPEG-Compressed Images, CVPR 2016.

  • J. Bruna, Joan, S. Mallat. Invariant scattering convolution networks, IEEE T-PAMI, 2013.

  • A. Patel, T. Nguyen, R. G. Baraniuk. “A probabilistic theory of deep learning.” arXiv 2015.

  • S. Zheng, S. Jayasumana, B. Romera-Paredes, Vi. Vineet, Z. Su, D.Du, C. Huang, and P. Torr, Conditional Random Fields as Recurrent Neural Networks, ICCV 2015.

  • Z. Wang, Y. Yang, S. Chang, Q. Ling, and T. Huang, Learning A Deep ℓ∞Encoder for Hashing, IJCAI 2016.

  • R. Liu, Z. Lin, W. Zhang, and Z. Su, Learning PDEs for image restoration via optimal control, ECCV 2010.

  • R. Liu, G. Zhong, J. Cao, Z. Lin, S. Shan, and Z. Luo, Learning to Diffuse: A New Perspective to Design PDEs for Visual Analysis, IEEE T-PAMI,2016.

  • U. Schmidt and S. Roth, Shrinkage Fields for Effective Image Restoration, CVPR 2014.

  • W. Zuo, D Ren, S. Gu, L. Lin, and L. Zhang, Discriminative Learning of Iteration-wise Priors for Blind Deconvolution, CVPR 2015.

  • W. Zuo, D Ren, D. Zhang, S. Gu, and L. Zhang, Learning Iteration-wise Generalized Shrinkage–Thresholding Operators for Blind Deconvolution, IEEE T-IP, 2016.

  • Y. Chen, Wei Yu, T. Pock, On learning optimized reaction diffusion processes for effective image restoration, CVPR 2015.

  • Y. Chen and T. Pock, Trainable Nonlinear Reaction Diffusion: A Flexible Framework for Fast and Effective Image Restoration, arxiv 2015.

Original: https://www.cnblogs.com/yymn/p/5616709.html
Author: 菜鸡一枚
Title: 浅谈深度学习中潜藏的稀疏表达

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/7157/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

发表回复

登录后才能评论
免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部