机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别输出的类别的众树而定,它有着许多的有点,能很好地处理多分类问题。
基本算法
简要描述
随机森林,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵之间是没有关联的,在得到森林之后,当有一个新的输入样本进入的时候,让森林中的每一棵决策树分别进行判断,对其进行分类,最后预测为被选择的最多的那一类。
建立决策树的过程中,需要注意两点:采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据进行行列的采样;这里的采样,可能存在重复的样本。假设有N个样本,那么采样的样本也为N个,在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。然后进行列采样,从M个feature中选择m(m
需要注意的是:每一棵决策树相对是较弱的,但是将多棵决策树结合起来就十分强大。可以这样比喻随机森林算法:每一棵决策树就是一个精通某一个窄领域的专家(从M个feature中选择m个让每一棵决策树进行学习),这样在随机森林中就有很多个精通不同领域的专家,对一个新的输入数据,可以从不同的角度去分析,最终由各方面的专家进行投票,得到最终结果。
RF、XGB、GBDT、LigthGBM 对缺失值的敏感性;
RF:不敏感,它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度
XGB:不敏感,算法中对缺失值进行了处理,对缺失特征值分裂时,左右节点都分裂,最终看哪个损失更小就分到哪边,所以对缺失值不敏感
GBDT:对缺失值没有对应处理,敏感
ligthGBM: 不敏感,和Xgboost是一样的。每次分割的时候,分别把缺失值放在左右两边各计算一次,然后比较两种情况的增益,择优录取
随机森林做多分类:
关于XGBOOST多分类 : 回归或者二分类,每次迭代训练一棵树。多分类,基于one vs all的方式训练多棵。
多分类问题会对每个类别生成一棵树,而分类或者回归,每次迭代生成一棵树,最后使用加法模型加权求和得到最终的结果。预测时一样,用加法模型计算最终的结果。
相同点:
- 都是由多棵树组成,最终的结果都是由多棵树一起决定。
不同点:
- 集成学习:RF属于bagging思想,而GBDT是boosting思想
- 偏差-方差权衡:RF不断的降低模型的方差,而GBDT不断的降低模型的偏差
- 训练样本:RF每次迭代的样本是从全部训练集中有放回抽样形成的,而GBDT每次使用全部样本
- 并行性:RF的树可以并行生成,而GBDT只能顺序生成(需要等上一棵树完全生成)
- 最终结果:RF最终是多棵树进行多数表决(回归问题是取平均),而GBDT是加权融合
- 数据敏感性:RF对异常值不敏感,而GBDT对异常值比较敏感
- 泛化能力:RF不易过拟合,而GBDT容易过拟合
参考:https://wustchuichui.github.io/2016/04/06/Random-forest/
Original: https://www.cnblogs.com/Allen-rg/p/13999119.html
Author: 静悟生慧
Title: 关于随机森林进行多分类的一个思考
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/551174/
转载文章受原作者版权保护。转载请注明原作者出处!