机器学习进阶 day4

AUC以及ROC曲线

TPR和FPR的概念
TPR真正率
分类正确的数量占总的正确的数量
FPR假正率
分类错误的数量占总的错误的数量

机器学习进阶 day4
机器学习进阶 day4
图例解释
equal error rate
该点是FPR=TPR相等的点
random chace
指的是随机分类时,TPR和FPR的线
图中FPR为0.1时,TPR为0.8,有种类似于以0.1的FPR换取了TPR的正确率

AUC
ROC曲线所覆盖的面积
来评估模型的分类能力

精度Precision
也就是TPR
预测正例的总数量中正确的数量
召回率Recal
真正为正例的样本有多少被预测出来

; 自回归

类概念:用前n天的数据预测当前的值
也就是之前的值与今天的值是相关的

L1 L2正则算法的比较

Ridge(L2)比Lasso(L1)效果好 L2正则
Lasso(L1)具有特征选择的能力
Elastic Net 是Ridge和Lasso的结合算法
当模型复杂时,模型偏Lasso

代码的实践以及技巧

Lasso
model = lasso()
参数alpha
alpha_can = np.logspace(-3,2,10) 0.01-100
lasso_model = GridsearchCV(model,param_grid={‘alpha’:alpha_cal},cv = 5)
lasso.model.fit(x_train,y_train)
lasso_model.score(就是R^2)

对数据进行从小到大的排序
order = y_test.argsort(axis=0)
argsort带号排序
y_test = y_test,values[order]按照order顺序重新选数字
x_test = x_test.values[order,:]

决策树

特征选择的标准:1.ID3 2.ID4.5 3.CART

信息熵
H§ = -∑ Pi log Pi
ID3
信息增益——互信息
g(X,Y) = I(X,Y) = H(X) – H(X|Y)
ID4.5
信息增益率
g(X,Y)/H(Y)
信息增益/原来的熵
CART
基尼系数

机器学习进阶 day4
决策树的评价
纯节点Hp = 0 minH
均节点 Hu = lnk maxH

均节点也就是将k个节点分为k类

; 随机森林(bagging)

bagging集成方法
通过boostrap的方法,对样本进行随机有放回抽样,将未参与模型训练的数据称为oob(out of bag)
oob可用于取代测试集进行误差估计
bagging可以降低各个决策树的噪声

样本不均匀的处理方法
1.降采样(某类样本过多)
从某类较多的样本中抽取5%-10%的采样率不断地有放回的进行采样

2.重采样(某类样本过少)
对小类样本重复采样

3.对小类样本进行数据合成
随机插值形成新的样本

尽量不采用重采样,原因如下:
1.样本带有噪声,重复会增加噪声。
2.重复采样使得训练变得麻烦

随机森林的其他功能
使用随机森林计算特征的重要度
rf.feature_importance_

利用oob数据取代测试集
rf.oob_score_

Original: https://blog.csdn.net/nendie1/article/details/123400508
Author: 阿泽学习日记
Title: 机器学习进阶 day4

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/698355/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球