六、分类问题和逻辑回归

文章目录

1、分类问题-classification

\qquad 区分垃圾邮件(0-1分类问题),网上交易是否诈骗(0-1分类问题),判断肿瘤是否为良性(0-1分类问题)都为简单的二元分类问题。用线性回归方式来解决分类问题的思路为:首先根据给定的训练数据来拟合一条线性函数,之后找到纵坐标为0.5的对应的横坐标的值v a l val v a l,之后将小于v a l val v a l的值标记为分类1,将大于v a l val v a l的值标记为分类0。这种方法会受到训练数据较大的影响,若有一个偏离较大的训练数据,则会让回归函数出现较大的偏离,使得预测结果变得很差。

六、分类问题和逻辑回归

; 2、 逻辑回归-Logistic Regression

\qquad使用线性回归来解决分类问题的另一大弊端在于当前需要的预测值y ∈ { 0 , 1 } y \in {0,1}y ∈{0 ,1 },而线性回归函数的值包含任意值,为了解决这个问题,可以将假设函数的形式进行更改,使得0 ≤ h θ ( x ) ≤ 1 0 \leq h_{\theta}(x)\leq 1 0 ≤h θ​(x )≤1,从而引出 Logistic Functin或者叫做 Sigmoid FunctionSigmoid Function的函数表达式和函数图像如下所示:
h θ ( x ) = g ( θ T x ) h_{\theta}(x)=g(\theta^Tx)h θ​(x )=g (θT x )g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}}g (z )=1 +e −z 1 ​h θ ( x ) = 1 1 + e − θ T x h_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}}h θ​(x )=1 +e −θT x 1 ​

六、分类问题和逻辑回归
\qquad上述 Sigmoid Function将给出h θ ( x ) h_{\theta}(x)h θ​(x )输出为1的概率,例如当
h θ ( x ) = 0.7 h_{\theta}(x)=0.7 h θ​(x )=0 .7时,表示输出有70%概率为1,同时表示输出有30%概率为0。所以 Sigmoid Function可以很好地解决0-1分类问题。当输出不小于0.5将这个实验数据划分到1的分类中,否则划分到0的分类中。
h θ ( x ) = P ( y = 1 ∣ x ; θ ) = 1 − P ( y = 0 ∣ x ; θ ) h_{\theta}(x)=P(y=1|x;\theta)=1-P(y=0|x;\theta)h θ​(x )=P (y =1 ∣x ;θ)=1 −P (y =0 ∣x ;θ)

2.1 决策边界

\qquad 上述提到,当h θ ( x ) h_{\theta}(x)h θ​(x )的值不小于0.5将这个实验数据划分到1的分类中,否则划分到0的分类中,即h θ ( x ) ≥ 0.5 → y = 1 h_{\theta}(x) \geq 0.5 → y = 1 h θ​(x )≥0 .5 →y =1 h θ ( x ) < 0.5 → y = 0 h_{\theta}(x) < 0.5 → y = 0 h θ​(x )<0 .5 →y =0 \qquad根据上述 Sigmoid Function函数图像可以得出下述结论:g ( z ) ≥ 0.5 w h e n z ≥ 0 g(z)\geq0.5\ \ when\ \ z \geq 0 g (z )≥0 .5 w h e n z ≥0 \qquad 根据上述式子可以推出:h θ ( x ) = g ( θ T x ) ≥ 0.5 w h e n θ T x ≥ 0 h_{\theta}(x)=g(\theta^Tx)\geq0.5 \ \ when \ \ \theta^Tx\geq 0 h θ​(x )=g (θT x )≥0 .5 w h e n θT x ≥0 \qquad所以有:θ T x ≥ 0 → y = 1 \theta^Tx\geq 0 → y = 1 θT x ≥0 →y =1 θ T x < 0 → y = 0 \theta^Tx < 0 → y = 0 θT x <0 →y =0 \qquad通过下述示例来进一步理解决策边界:

六、分类问题和逻辑回归
\qquad上例中决策边界为x = 5 x=5 x =5,当x ≤ 5 x\leq5 x ≤5时,y = 1 y=1 y =1;当x > 5 x>5 x >5时,y = 0 y=0 y =0。
六、分类问题和逻辑回归
\qquad同时需要注意,决策边界不一定为线性的形式,也可以为二次或者高次函数。
六、分类问题和逻辑回归
\qquad通过上述分析可以看出,训练数据集不是用来确定决策边界的,而是用来训练参数θ \theta θ的,一旦得到一组确定的参数θ \theta θ,就可以根据上述方法确定出决策边界。

; THE END

Original: https://blog.csdn.net/weixin_43160744/article/details/121939828
Author: Dragon Fly
Title: 六、分类问题和逻辑回归

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/665045/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球