深度学习第一课：感知器模型（the perceptron）及其算法的几何解释

2023年7月2日下午1:22 • 人工智能 • 阅读 72

本文是笔者在学习Machine Learning: A Bayesian and Optimization Perspective, 2nd Edition第18章内容时所记的笔记，主要对感知器模型进行了探讨，也一并对以往学习中所遇到的模型进行了简单的归纳和总结，适于机器学习和深度学习的初学者，鉴于本人也仍处于入门阶段，欢迎大家留言探讨~

文中出现的所有图片均为个人原创，使用geogebra绘制

感知器模型（the perceptron）

文章目录

感知器模型（the perceptron）
*
1、代价函数（cost function）
2、代价函数的性质
备注1：多种模型的代价函数对比
3、感知器算法（perceptron algorithm）
备注2：多种模型的算法归纳
4、感知器算法的原理
5、感知器算法的几何解释
对不同条件下感知器算法几何解释的总结
参考资料

1、代价函数（cost function）

在每个样本的特征向量x n x_{n}x n 末尾添加一个常数1分量，把线性分类器写成θ T x \theta^{T}x θT x的形式，如果令当前错分的样本集合为Y \mathcal{Y}Y，那么感知器的cost function是：
J ( θ ) = − ∑ n : x n ∈ Y y n θ T x n = − ( ∑ n : x n ∈ Y y n x n T ) θ J(\theta) = -\sum_{n:x_{n} \in \mathcal{Y}}y_{n}\theta^{T}x_{n} = -\left(\sum_{n:x_{n} \in \mathcal{Y}}y_{n}x_{n}^{T}\right)\theta J (θ)=−n :x n ∈Y ∑y n θT x n =−(n :x n ∈Y ∑y n x n T )θ
在二分类中，可以简单使用y n θ T x n y_{n}\theta^{T}x_{n}y n θT x n 的符号来判别样本( y n , x n ) (y_{n}, x_{n})(y n ,x n ) 是否分类正确（y n ∈ { 1 , − 1 } y_{n}\in{1,-1}y n ∈{1 ,−1 }），即如果y n θ T x n > 0 y_{n}\theta^{T}x_{n}>0 y n θT x n >0，那么分类正确，如果y n θ T x n < 0 y_{n}\theta^{T}x_{n}，那么分类错误

2、代价函数的性质

perceptron cost总是非负，因为它只考虑被错分类的样本，而错分类的样本y n θ T x n < 0 y_{n}\theta^{T}x_{n}，如果y n θ T x n = 0 y_{n}\theta^{T}x_{n}=0 y n θT x n =0，那么说明这个样本刚好在hyperplane（decision boundary）上，它同样被归类为分类错误（这只是为了讨论方便而下的定义，并不绝对），只有当Y = ∅ \mathcal{Y} = \emptyset Y =∅，即J ( θ ) = 0 J(\theta) = 0 J (θ)=0时才能得到一个符合要求的解

要注意，J ( θ ) J(\theta)J (θ) 是一个分段线性的连续函数，在有些点上不可导，θ \theta θ的选取直接关系到每个x n x_{n}x n 是否属于Y \mathcal{Y}Y，因此，不能使用传统的gradient descent方法来最小化cost function（但J ( θ ) J(\theta)J (θ)确实是凸函数，能够应用基于subgradient的方法)

按照代价函数在第二个等号后的写法，J ( θ ) J(\theta)J (θ)确实可以被视作有关θ \theta θ的线性函数，但每当θ \theta θ变化时，训练集中的点与hyperplane的相对位置也变化了，所以集合Y \mathcal{Y}Y也会变化，此时J ( θ ) J(\theta)J (θ)也变为了另一个关于θ \theta θ的线性函数

备注1：多种模型的代价函数对比

remark：有许多分类模型的二分类情况都可以使用y n θ T x n y_{n}\theta^{T}x_{n}y n θT x n 的符号来判别是否分类正确，并且，它们的cost function都与y n θ T x n y_{n}\theta^{T}x_{n}y n θT x n 有关，可以被写为以y n θ T x n y_{n}\theta^{T}x_{n}y n θT x n 为自变量的函数，考察这些模型中单个样本( y n , x n ) (y_{n}, x_{n})(y n ,x n )对cost function的贡献，归纳于下表：

ModelLoss of a single
( y n , x n ) (y_{n}, x_{n})(y n ,x n )

pair
ERM1 { y n θ T x n < 0 } 1{y_{n}\theta^{T}x_{n} logistic regressionlog ⁡ ( 1 + exp ⁡ ( − y n θ T x n ) ) \log(1+\exp(-y_{n}\theta^{T}x_{n}))lo g (1 +exp (−y n θT x n )) perceptronmax ⁡ { 0 , − y n θ T x n } \max{0,-y_{n}\theta^{T}x_{n}}max {0 ,−y n θT x n } soft margin SVMmax ⁡ { 0 , 1 − y n θ T x n } \max{0,1-y_{n}\theta^{T}x_{n}}max {0 ,1 −y n θT x n }

1 { ⋅ } 1{\cdot}1 {⋅}是indicator，如果括号内的逻辑表达式为真，那么函数值为1，否则为0

logistic regression有概率意义上的解释，即整个训练实际上是MLE（maximum likelihood estimation），但可以把likelihood取负号，并把它视作cost function；依据上表中的结果， 从某种意义上说，logistic regression、perceptron和soft margin SVM都可以被视为ERM的approximation

3、感知器算法（perceptron algorithm）

perceptron模型的更新方式（perceptron algorithm）：
θ ( i ) = θ ( i − 1 ) + μ i ∑ n : x n ∈ Y y n x n \theta^{(i)} = \theta^{(i – 1)} + \mu_{i} \sum_{n:x_{n}\in\mathcal{Y}}y_{n}x_{n}θ(i )=θ(i −1 )+μi n :x n ∈Y ∑y n x n
使用上述更新方式， 可以证明，perceptron algorithm一定可以在有限次迭代内收敛，μ i \mu_{i}μi 是学习率（可能随迭代步骤而变化），需要选取适合的μ i \mu_{i}μi 以保证算法收敛

perceptron algorithm可以被解释为一种基于subgradient的方法

该算法还有另一种每次迭代只使用一个样本的形式，如果把训练集中的样本重新编号，( y ( 1 ) , x ( 1 ) ) , ( y ( 2 ) , x ( 2 ) ) , . . . , ( y ( N ) , x ( N ) ) (y_{(1)},x_{(1)}),(y_{(2)},x_{(2)}),…,(y_{(N)},x_{(N)})(y (1 ),x (1 )),(y (2 ),x (2 )),…,(y (N ),x (N ))，( y ( i ) , x ( i ) ) (y_{(i)},x_{(i)})(y (i ),x (i ))表示在第i i i次迭代过程中使用的样本，那么更新规则如下：
θ ( i ) = { θ ( i − 1 ) + μ i y ( i ) x ( i ) ( y ( i ) , x ( i ) ) is missclassified by θ ( i − 1 ) θ ( i − 1 ) otherwise \theta^{(i)} = \left { \begin{array}{l} \theta^{(i – 1)} + \mu_{i}y_{(i)}x_{(i)} &(y_{(i)},x_{(i)})\text{ is missclassified by }\theta^{(i – 1)}\ \theta^{(i – 1)} &\text{otherwise} \end{array} \right.θ(i )={θ(i −1 )+μi y (i )x (i )θ(i −1 )(y (i ),x (i ))is missclassified by θ(i −1 )otherwise
这种更新方式被称为pattern-by-pattern的，也可以被视作一种类似于online learning的方式（在上述算法中，样本总数是确定的，而online learning中，样本不断出现，样本总数不确定）

每当算法使用过训练集中的全部数据，即经过了N N N次迭代，就称为完成了一个epoch，完成一个epoch之后，再用同样的方式再继续训练，经过有限个epoch后，算法会收敛

同样地，需要考虑μ i \mu_{i}μi 的选取，只有选取合适的μ i \mu_{i}μi 才能保证算法收敛， 但在上述两种perceptron algorithm中，即使μ i \mu_{i}μi 是一个正的常数，仍然可以保证算法的收敛性

备注2：多种模型的算法归纳

remark：如果使用pattern-by-pattern的方式，许多模型的算法都可以被写为：
θ ( i ) = θ ( i − 1 ) + μ i ( y n − h θ ( x n ) ) x n \theta^{(i)} = \theta^{(i – 1)} + \mu_{i}(y_{n} – h_{\theta}(x_{n}))x_{n}θ(i )=θ(i −1 )+μi (y n −h θ(x n ))x n
例如：linear regression、logistic regression、perceptron，linear regression的算法中，h θ ( x n ) = θ T x n h_{\theta}(x_{n}) = \theta^{T}x_{n}h θ(x n )=θT x n ，logistic regression的算法中，h θ ( x n ) = sigmoid ( θ T x n ) h_{\theta}(x_{n}) = \text{sigmoid}(\theta^{T}x_{n})h θ(x n )=sigmoid (θT x n )，perceptron algorithm中，h θ ( x n ) = sgn ( θ T x n ) h_{\theta}(x_{n}) = \text{sgn}(\theta^{T}x_{n})h θ(x n )=sgn (θT x n )

在perceptron algorithm中，如果令μ i = 0.5 \mu_{i} = 0.5 μi =0 .5，那么当出现分类错误时：
θ ( i ) = θ ( i − 1 ) + μ i ( y n − h θ ( x n ) ) x n = θ ( i − 1 ) + { x n y n = 1 , θ T x n < 0 − x n y n = − 1 , θ T x n > 0 = θ ( i − 1 ) + y n x n \begin{aligned} \theta^{(i)} &= \theta^{(i – 1)} + \mu_{i}(y_{n} – h_{\theta}(x_{n}))x_{n}\ &=\theta^{(i – 1)} + \left { \begin{array}{l} x_{n} &y_{n} = 1,\theta^{T}x_{n} < 0\ -x_{n} &y_{n} = -1,\theta^{T}x_{n} > 0 \end{array}\right.\ &= \theta^{(i – 1)} + y_{n}x_{n} \end{aligned}θ(i )=θ(i −1 )+μi (y n −h θ(x n ))x n =θ(i −1 )+{x n −x n y n =1 ,θT x n <0 y n =−1 ,θT x n >0 =θ(i −1 )+y n x n

所以，在perceptron algorithm中，θ ( i ) = θ ( i − 1 ) + μ i ( y n − h θ ( x n ) ) x n \theta^{(i)} = \theta^{(i – 1)} + \mu_{i}(y_{n} – h_{\theta}(x_{n}))x_{n}θ(i )=θ(i −1 )+μi (y n −h θ(x n ))x n 和之前所描述的更新规则实际上是等价的

4、感知器算法的原理

pattern-by-pattern的更新模式，是一种典型的reward-punishment方式，即如果迭代中选取的样本分类正确，那么不更新参数（reward），但如果样本分类错误，那么需要做对应的更新（punishment）

这种更新方式的意义是很明确的，如果令学习率为常数1， 当某个样本被错分类时，有：
θ ( i ) = θ ( i − 1 ) + y ( i ) x ( i ) \theta^{(i)} = \theta^{(i – 1)} + y_{(i)}x_{(i)}θ(i )=θ(i −1 )+y (i )x (i )

那么，假如原本的θ ( i − 1 ) T x ( i ) < 0 {\theta^{(i – 1)}}^{T}x_{(i)} < 0 θ(i −1 )T x (i )<0，y ( i ) = 1 y_{(i)} = 1 y (i )=1，那么在更新之后：
θ ( i ) T x ( i ) = θ ( i − 1 ) T x ( i ) + x ( i ) T x ( i ) {\theta^{(i)}}^{T}x_{(i)} = {\theta^{(i – 1)}}^{T}x_{(i)} + x_{(i)}^{T}x_{(i)}θ(i )T x (i )=θ(i −1 )T x (i )+x (i )T x (i )
其中，x ( i ) T x ( i ) ⩾ 0 x_{(i)}^{T}x_{(i)} \geqslant 0 x (i )T x (i )⩾0，因此，算法在更新时，总是会想办法”修正”θ ( i − 1 ) T x ( i ) {\theta^{(i – 1)}}^{T}x_{(i)}θ(i −1 )T x (i )的符号，尽量使θ ( i ) T x ( i ) {\theta^{(i)}}^{T}x_{(i)}θ(i )T x (i )的符号与y ( i ) y_{(i)}y (i )相匹配

5、感知器算法的几何解释

值得一提的是， pattern-by-pattern的更新模式也有一种较为直观的几何解释，同样地，令学习率为常数1， 考虑某个样本被错分类时的情况：
θ ( i ) = θ ( i − 1 ) + y ( i ) x ( i ) \theta^{(i)} = \theta^{(i – 1)} + y_{(i)}x_{(i)}θ(i )=θ(i −1 )+y (i )x (i )
在许多资料中，都有简单提及perceptron algorithm的几何解释，但大多数没有深入展开讨论，甚至有部分资料混淆了参数向量θ \theta θ和法向量的概念，所以在这里，我使用一种更为严谨的方式，深入探讨在二维情况下perceptron algorithm的几何解释

首先要注意， θ \theta θ 实际上并不是hyperplane的法向量（θ \theta θ 还包括常数项），另外，为了方便讨论，此处把hyperplane暂且表示为w T x + b = 0 w^{T}x+b = 0 w T x +b =0的形式，以区分法向量和常数，可以”不那么严谨”地认为：w w w作为法向量，主要控制hyperplane的方向，而b b b作为常数，主要控制hyperplane的位置

从几何角度出发理解上式时，应该分两个步骤考虑：

hyperplane的方向变化：即w w w 的更新（绕某一点旋转）
hyperplane的位置变化：即在w w w 更新之后再进行b b b 的更新（平移）

如果在第i i i次更新之前，hyperplane是w T x + b = 0 w^{T}x + b = 0 w T x +b =0，对于第i i i次更新，先进行步骤1，考虑( w + y ( i ) x ( i ) ) T x + b = 0 (w+y_{(i)}x_{(i)})^{T}x + b = 0 (w +y (i )x (i ))T x +b =0的位置，之后再考虑步骤2，即( w + y ( i ) x ( i ) ) T x + ( b + y ( i ) ) = 0 (w+y_{(i)}x_{(i)})^{T}x + (b + y_{(i)}) = 0 (w +y (i )x (i ))T x +(b +y (i ))=0的位置

这里仅以二维平面上的情况为例，结合图片逐步示意：

如果错分类点x ( i ) x_{(i)}x (i )和hyperplane的相对位置如下图所示，并且y ( i ) = 1 y_{(i)} = 1 y (i )=1，但w T x ( i ) + b < 0 w^{T}x_{(i)} + b < 0 w T x (i )+b <0

【步骤1】：在坐标系中找到( w + x ( i ) ) T x + b = 0 (w+x_{(i)})^{T}x + b = 0 (w +x (i ))T x +b =0的位置

为了把点x ( i ) x_{(i)}x (i )和hyperplane的法向量直接相加，需要引入 直线系的概念，直线系，即满足一定条件的直线的集合，例如，与直线A x + B y + C = 0 Ax + By + C = 0 A x +B y +C =0平行的所有直线是：A x + B y + λ = 0 Ax + By + \lambda = 0 A x +B y +λ=0，其中，λ \lambda λ是任意常数；过一个定点( x 0 , y 0 ) (x_{0},y_{0})(x 0 ,y 0 )的所有直线是：λ 1 ( x − x 0 ) + λ 2 ( y − y 0 ) = 0 \lambda_{1}(x – x_{0}) + \lambda_{2}(y – y_{0}) = 0 λ1 (x −x 0 )+λ2 (y −y 0 )=0，其中，λ 1 \lambda_{1}λ1 和λ 2 \lambda_{2}λ2 是不同时为零的任意常数

这里引入的直线系可以表示过两条给定直线交点的所有直线，直线系方程是：λ 1 ( A 1 x + B 1 y + C 1 ) + λ 2 ( A 2 x + B 2 y + C 2 ) = 0 \lambda_{1}(A_{1}x + B_{1}y + C_{1}) + \lambda_{2}(A_{2}x + B_{2}y + C_{2}) = 0 λ1 (A 1 x +B 1 y +C 1 )+λ2 (A 2 x +B 2 y +C 2 )=0，即同时过直线l 1 : A 1 x + B 1 y + C 1 = 0 l_{1}:A_{1}x + B_{1}y + C_{1} = 0 l 1 :A 1 x +B 1 y +C 1 =0和直线l 2 : A 2 x + B 2 y + C 2 = 0 l_{2}:A_{2}x + B_{2}y + C_{2} = 0 l 2 :A 2 x +B 2 y +C 2 =0交点的所有直线，其中，λ 1 \lambda_{1}λ1 和λ 2 \lambda_{2}λ2 是不同时为零的任意常数

之所以这个方程可以表示过两直线交点的所有直线，是因为：

显然，l 1 l_{1}l 1 和l 2 l_{2}l 2 的交点满足直线系方程，即该直线系中的任意一条直线，都应该经过这个交点
如果l 1 l_{1}l 1 和l 2 l_{2}l 2 有交点，则说明两直线不平行，即法向量( A 1 , B 1 ) (A_{1},B_{1})(A 1 ,B 1 )和( A 2 , B 2 ) (A_{2},B_{2})(A 2 ,B 2 )是线性无关的，并且，λ 1 \lambda_{1}λ1 和λ 2 \lambda_{2}λ2 是不同时为零的任意常数，那么，λ 1 ( A 1 , B 1 ) + λ 2 ( A 2 , B 2 ) \lambda_{1}(A_{1},B_{1}) + \lambda_{2}(A_{2},B_{2})λ1 (A 1 ,B 1 )+λ2 (A 2 ,B 2 )可以表示平面上的任意非零向量，即该直线系中直线的法向量是任意的

如果记从原点指向x ( i ) x_{(i)}x (i )的向量为x ( i ) → = ( p , q ) \overrightarrow{x_{(i)}} = (p,q)x (i )=(p ,q )，法向量w → = ( w 1 , w 2 ) \overrightarrow{w} = (w_{1},w_{2})w =(w 1 ,w 2 )，那么直线( w + x ( i ) ) T x + b = 0 (w+x_{(i)})^{T}x + b = 0 (w +x (i ))T x +b =0可以被写为：
( w + x ( i ) ) T x + b = ( w 1 x 1 + w 2 x 2 + b ) + ( p x 1 + q x 2 ) = 0 (w+x_{(i)})^{T}x + b = (w_{1}x_{1} + w_{2}x_{2} + b) + (px_{1} + qx_{2}) = 0 (w +x (i ))T x +b =(w 1 x 1 +w 2 x 2 +b )+(p x 1 +q x 2 )=0
所以，直线( w + x ( i ) ) T x + b = 0 (w+x_{(i)})^{T}x + b = 0 (w +x (i ))T x +b =0 一定属于直线系λ 1 ( w 1 x 1 + w 2 x 2 + b ) + λ 2 ( p x 1 + q x 2 ) = 0 \lambda_{1}(w_{1}x_{1} + w_{2}x_{2} + b) + \lambda_{2}(px_{1} + qx_{2}) = 0 λ1 (w 1 x 1 +w 2 x 2 +b )+λ2 (p x 1 +q x 2 )=0 （即λ 1 = λ 2 = 1 \lambda_{1} = \lambda_{2} = 1 λ1 =λ2 =1 的特殊情况），故直线( w + x ( i ) ) T x + b = 0 (w+x_{(i)})^{T}x + b = 0 (w +x (i ))T x +b =0一定经过w 1 x 1 + w 2 x 2 + b = 0 w_{1}x_{1} + w_{2}x_{2} + b = 0 w 1 x 1 +w 2 x 2 +b =0和p x 1 + q x 2 = 0 px_{1} + qx_{2} = 0 p x 1 +q x 2 =0的交点

显然， p x 1 + q x 2 = 0 px_{1} + qx_{2} = 0 p x 1 +q x 2 =0 是以x ( i ) → \overrightarrow{x_{(i)}}x (i ) 为法向量，并且过原点的直线，在图中用虚线作出p x 1 + q x 2 = 0 px_{1} + qx_{2} = 0 p x 1 +q x 2 =0，并找到这个交点，记交点为P点，并且，在P点出做出法向量w → \overrightarrow{w}w：

接下来，需要确定直线( w + x ( i ) ) T x + b = 0 (w+x_{(i)})^{T}x + b = 0 (w +x (i ))T x +b =0的方向，让向量w → \overrightarrow{w}w与x ( i ) → \overrightarrow{x_{(i)}}x (i )相加，记两向量之和为v → \overrightarrow{v}v，之后过P点做出垂直于v → \overrightarrow{v}v的直线，即v T x + b = 0 v^{T}x + b = 0 v T x +b =0，在图中使用红色标示：

要注意，x ( i ) → \overrightarrow{x_{(i)}}x (i ) 本身有可能垂直于w T x + b = 0 w^{T}x + b = 0 w T x +b =0 ，即w 1 x 1 + w 2 x 2 + b = 0 w_{1}x_{1} + w_{2}x_{2} + b = 0 w 1 x 1 +w 2 x 2 +b =0 和p x 1 + q x 2 = 0 px_{1} + qx_{2} = 0 p x 1 +q x 2 =0 可能会出现无交点的情况，此时，步骤1中hyperplane只平移，不旋转，鉴于x ( i ) x_{(i)}x (i )被分类错误，w → \overrightarrow{w}w和x ( i ) → \overrightarrow{x_{(i)}}x (i )总是指向相反的方向，故平移的方向及平移的距离与∣ ∣ w → ∣ ∣ ||\overrightarrow{w}||∣∣w ∣∣和∣ ∣ x ( i ) → ∣ ∣ ||\overrightarrow{x_{(i)}}||∣∣x (i )∣∣的相对大小有关，如果∣ ∣ w → ∣ ∣ > ∣ ∣ x ( i ) → ∣ ∣ ||\overrightarrow{w}|| > ||\overrightarrow{x_{(i)}}||∣∣w ∣∣>∣∣x (i )∣∣，那么hyperplane将会朝着w → \overrightarrow{w}w的方向平移，如果∣ ∣ w → ∣ ∣ < ∣ ∣ x ( i ) → ∣ ∣ ||\overrightarrow{w}|| < ||\overrightarrow{x_{(i)}}||∣∣w ∣∣<∣∣x (i )∣∣，那么hyperplane将会朝着x ( i ) → \overrightarrow{x_{(i)}}x (i )的方向平移

【步骤2】：在坐标系中找到v T x + b + 1 = 0 v^{T}x + b + 1 = 0 v T x +b +1 =0的位置

显而易见地，为了完成步骤2， 只需要在完成步骤1的基础上，把直线v T x + b = 0 v^{T}x + b = 0 v T x +b =0 进行平移即可，所以，需要确定平移的方向， 可以通过直线在x 2 x_{2}x 2 轴上的截距来辅助判断

同样地，记v → = ( v 1 , v 2 ) \overrightarrow{v} = (v_{1},v_{2})v =(v 1 ,v 2 )，求出v T x + b = 0 v^{T}x + b = 0 v T x +b =0和v T x + b + 1 = 0 v^{T}x + b + 1= 0 v T x +b +1 =0在x 2 x_{2}x 2 轴上的截距，即：
x 2 -intercept of v T x + b = 0 : − b v 2 x 2 -intercept of v T x + b + 1 = 0 : − b + 1 v 2 x_{2}\text{-intercept of }v^{T}x + b = 0:-\frac{b}{v_{2}}\ \quad\ x_{2}\text{-intercept of }v^{T}x + b + 1 = 0:-\frac{b + 1}{v_{2}}x 2 -intercept of v T x +b =0 :−v 2 b x 2 -intercept of v T x +b +1 =0 :−v 2 b +1
从上图中观察向量v → \overrightarrow{v}v的方向，不难看出v 2 > 0 v_{2} > 0 v 2 >0，所以，v T x + b + 1 = 0 v^{T}x + b + 1= 0 v T x +b +1 =0在x 2 x_{2}x 2 轴上的截距应小于v T x + b = 0 v^{T}x + b = 0 v T x +b =0在x 2 x_{2}x 2 轴上的截距，即应该向下平移：

事实上，因为− 1 / v 2 -1/v_{2}−1 /v 2 的符号总是与v 2 v_{2}v 2 的符号相反， 所以v T x + b + 1 = 0 v^{T}x + b + 1= 0 v T x +b +1 =0 一定会朝着与法向量v → \overrightarrow{v}v 相反的方向平移，并且，平移前后两条平行线间的距离是1 / ∣ ∣ v → ∣ ∣ 1/||\overrightarrow{v}||1 /∣∣v ∣∣， 即平移的距离大小与法向量的模长成反比

; 对不同条件下感知器算法几何解释的总结

summary：此处只讨论了y ( i ) = 1 y_{(i)} = 1 y (i )=1，w T x ( i ) + b < 0 w^{T}x_{(i)} + b < 0 w T x (i )+b <0，并且在步骤1更新之后v T x ( i ) + b > 0 v^{T}x_{(i)} + b > 0 v T x (i )+b >0的情况，其他情况也可以做类似的讨论，这里只使用图片进行简单示意：

y ( i ) = 1 y_{(i)} = 1 y (i )=1，w T x ( i ) + b < 0 w^{T}x_{(i)} + b < 0 w T x (i )+b <0，在步骤1更新之后v T x ( i ) + b > 0 v^{T}x_{(i)} + b > 0 v T x (i )+b >0（上述讨论的情况）：

y ( i ) = 1 y_{(i)} = 1 y (i )=1，w T x ( i ) + b < 0 w^{T}x_{(i)} + b < 0 w T x (i )+b <0，在步骤1更新之后v T x ( i ) + b < 0 v^{T}x_{(i)} + b < 0 v T x (i )+b <0：

y ( i ) = − 1 y_{(i)} = -1 y (i )=−1，w T x ( i ) + b > 0 w^{T}x_{(i)} + b > 0 w T x (i )+b >0，在步骤1更新之后v T x ( i ) + b < 0 v^{T}x_{(i)} + b < 0 v T x (i )+b <0：

y ( i ) = − 1 y_{(i)} = -1 y (i )=−1，w T x ( i ) + b > 0 w^{T}x_{(i)} + b > 0 w T x (i )+b >0，在步骤1更新之后v T x ( i ) + b > 0 v^{T}x_{(i)} + b > 0 v T x (i )+b >0：

从以上讨论中，可以看出，在遇到被分类错误的样本x ( i ) x_{(i)}x (i )时， perceptron algorithm总是根据x ( i ) x_{(i)}x (i ) 更新hyperplane，通过旋转和平移，尽可能地使x ( i ) x_{(i)}x (i )被分类正确

另外， 考虑一种极端情况：∣ ∣ w → ∣ ∣ ||\overrightarrow{w}||∣∣w ∣∣很大，且∣ ∣ w → ∣ ∣ ≫ ∣ ∣ x ( i ) → ∣ ∣ ||\overrightarrow{w}||\gg||\overrightarrow{x_{(i)}}||∣∣w ∣∣≫∣∣x (i )∣∣，在这种极端情况下，即使进行了更新，w → \overrightarrow{w}w的方向也几乎不会改变，即在步骤1中，hyperplane几乎不旋转，并且，在步骤2中，平移的距离反比于∣ ∣ v → ∣ ∣ ||\overrightarrow{v}||∣∣v ∣∣，所以hyperplane也几乎不平移， 因此，在∣ ∣ w → ∣ ∣ ||\overrightarrow{w}||∣∣w ∣∣ 已经很大的情况下，perceptron algorithm的更新总是收效甚微，hyperplane几乎不会受训练数据影响

在更高维的空间中，上讨论中所使用的方法同样可以推而广之

参考资料

[1] Machine Learning: A Bayesian and Optimization Perspective, 2nd Edition, Sergios Theodoridis, Chapter 18 Neural Networks and Deep Learning, 18.2 The Perceptron

Original: https://blog.csdn.net/weixin_43583429/article/details/119922794
Author: HJF.exe
Title: 深度学习第一课：感知器模型（the perceptron）及其算法的几何解释

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665513/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

10个常用的损失函数解释以及Python代码实现

什么是损失函数？损失函数是一种衡量模型与数据吻合程度的算法。损失函数测量实际测量值和预测值之间差距的一种方式。损失函数的值越高预测就越错误，损失函数值越低则预测越接近真实值。对每…

人工智能 2023年6月25日
0080
基于k-means实现鸢尾花聚类

基于k-means实现鸢尾花聚类 K-means （k均值聚类）手动实现基于sklearn实现鸢尾花聚类 K-means （k均值聚类）与有监督学习相比，无监督学习的样本没有…

人工智能 2023年5月31日
00100
机器学习的分类、回归、聚类问题

分类、回归问题都是监督学习，本质都是对输入做出预测，都要建立映射关系。分类问题输出的是物体所属的类别（瓜是好瓜吗），回归问题输出的是数值（瓜会卖到多少钱）。聚类是无监督学习一.分…

人工智能 2023年7月1日
00118
知识图谱概述（图谱学苑课程）

1.知识图谱概念知识图谱本质上是基于图的语义网络，表示实体和实体之间的关系。构建知识图谱的目的，就是让机器具备认知能力，理解这个世界。 ; 2.知识图谱研究的多个维度 2.1 …

人工智能 2023年6月1日
00101
TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head forObject Detection on Drone-captur

标题 TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head forObject Detection on…

人工智能 2023年7月11日
0072
回归预测 | MATLAB实现PCR(主成分回归)多输入单输出

以下是基于 PC_A _主成分_分析的BP神经网络 _回归预测 MATLAB_代码示例：数据准备：首先需要准备好数据，包括 _输入_数据和 _输出_数据。可以使用任意数据集，…

人工智能 2023年6月18日
0066
机器学习利用Logistic回归解决审计风险分类问题

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录文章目录前言一、概念解析 1.1机器学习方法 1.2 回归 1.3 分类 1.4 Logistic回归是…

人工智能 2023年7月3日
0058
图像分类算法篇——LeNet-5

LeNet-5为卷积神经网络架构的鼻祖，它是由Yann Lecun于1998年创建，已经被广泛应用于手写体数字识别一、网络架构 LeNet-5架构层类型特征图大小内核大小步幅激…

人工智能 2023年5月26日
0070
Windows10创建Tensorflow-GPU环境（简单详细）

查看自己显卡支持的最高CUDA配置打开NVIDIA控制面板，找不到的话在搜索NVIDIA Control Panel。点击系统信息——组件，此处显示CUDA 11.5.125，这…

人工智能 2023年5月23日
0080
李宏毅NLP笔记

目录 1.course overview2.语音辨识3.4.5.6.7.8.9.10. 一、Course Overview 自然语言（1）概念人造语言：程序语言，Python、…

人工智能 2023年5月27日
0089
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总

在最新的视觉顶会CVPR2022会议中，涌现出了大量基于生成对抗网络GAN的论文，广泛应用于各类视觉任务；下述论文已分类打包好！后台回复 CVPR2022（长按红字、选中复制）获…

人工智能 2023年7月27日
0052
Android compose wanandroid app之分类页面的实现

实现分类页面 * – 前言 – + Scaffold简单使用 + BottomNavigation和NavHost实现底部导航 + * BottomNavi…

人工智能 2023年7月2日
0071
FindFundamentalMat(python)函数解析——三维视觉

最近在入门三维视觉，在SFM算法的代码中看到了这个函数，没有找到满意的帖子，所以打算自己总结一下。什么是Fundamental Matrix？基础矩阵（Fundamental …

人工智能 2023年5月28日
0055
吴恩达的机器学习，属实牛逼

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0073
openpose环境搭建（详细教程CPU/GPU）windows 10+python 3.7+CUDA 11.6+VS2022

玩转OpenPose 【玩转OpenPose】编译篇 * 一、开发环境二、下载与安装 – 2.1 CUDA（用于高性能计算）与 CUDNN（用于深度神经网络计算的支持…

人工智能 2023年7月3日
00148
微信语音技术原理_语音控制智能家居系统的实现过程和技术详解

[导读]远场语音识别、云端语义辨识、人工智能应用等等一个个技术节点得到新的突破，为智能家居提供了新的控制入口选择。本文为大家介绍一下语音控制智能家居系统的实现过程和技术详解。远场…

人工智能 2023年5月27日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31