【超详细】机器学习（西瓜书）第4章决策树知识详解

2023年6月16日下午10:01 • 人工智能 • 阅读 85

引入
“这个瓜是好瓜吗？”我们对这样的问题进行决策时，通常会进行一系列的判断或子决策：我们先看”它是什么颜色？”如果它是”青绿色”的，那我们再看”它的根蒂是什么形态？”，如果是”蜷缩”，我们再判断”它敲起来是什么声音？”，如果是”浊响”，那么最后，我们得到最终的决策结果——它是个好瓜……这是人类在面临决策问题时一种很自然的处理机制，而决策树就是基于这样的树结构进行建立的。

一、简单概念

决策树是一种常见的机器学习算法，它是基于 树结构来进行决策的。
一般的，一棵决策树包含 一个根节点、 若干个内部结点和 若干个叶节点。
叶结点对应于 决策结果，其他每个结点则对应一个 属性测试。
每个结点包含的样本集合 根据属性测试的结果被划分到子结点中，特别地， 根节点包含样本全集。

5.从根节点到每一个叶节点的路径对应了一个 判定测试序列。

6.决策树学习的目的是为了产生一棵 泛化能力强，即处理未知样本能力强的决策树，其基本流程遵循简单而直观的” 分而治之“策略。

二、决策树学习基本算法

先摆出基本算法的伪代码

解释：

决策树的生成是一个递归的过程，在决策树的基本算法中，有三种情形会导致递归返回：

（1）当前结点包含的样本全属于同一个类别，无需划分；

（2）当前属性集为空，或是所有样本在所有属性上的取值相同，无法划分；

&#x5728;&#xFF08;2&#xFF09;&#x4E2D;&#x7684;&#x60C5;&#x5F62;&#x4E0B;&#xFF0C;&#x6211;&#x4EEC;&#x628A;&#x5F53;&#x524D;&#x7ED3;&#x70B9;&#x6807;&#x8BB0;&#x4E3A;&#x5F53;&#x524D;&#x53F6;&#x8282;&#x70B9;&#xFF0C;&#x5E76;&#x5C06;&#x5176;&#x7C7B;&#x522B;&#x8BBE;&#x5B9A;&#x4E3A;&#x8BE5;&#x8282;&#x70B9;&#x6240;&#x542B;&#x6837;&#x672C;&#x6700;&#x591A;&#x7684;&#x7C7B;&#x522B;

（3）当前结点包含的样本集合为空，不能划分；

&#x5728;&#xFF08;3&#xFF09;&#x4E2D;&#x7684;&#x60C5;&#x5F62;&#x4E2D;&#x4E0B;&#xFF0C;&#x540C;&#x6837;&#x628A;&#x5F53;&#x524D;&#x7ED3;&#x70B9;&#x6807;&#x8BB0;&#x4E3A;&#x53F6;&#x8282;&#x70B9;&#xFF0C;&#x4F46;&#x5C06;&#x5176;&#x7C7B;&#x522B;&#x8BBE;&#x5B9A;&#x4E3A;&#x5176;&#x7236;&#x7ED3;&#x70B9;&#x6240;&#x542B;&#x6837;&#x672C;&#x6700;&#x591A;&#x7684;&#x6837;&#x672C;

注意：情形（2）是在利用当前结点的后验分布，而情形（3）则是把父结点的样本分布作为当前节点的先验分布。

接下来用Titanic简化数据集来具体说明三种情况

数据集D中有7组数据，Xi代表各组数据下不同属性下的不同取值，y即存活情况，y i 代表最终分类结果。X i ={性别 i，船舱等级 i，登船港口 i}，y i={0，1}

根据上面的数据集画出的决策树如下：

红色数字代表第几类递归返回，蓝色圆圈中的数字代表叶结点。

（1）结点1在” 性别 = 女 “这一分类下，所有的存活情况全部为1 ，没有继续划分的必要，遂把该结点直接作为叶结点，种类就为1.

（2）结点2在” 船舱等级 = 1″这一划分之后，所有的经过结点2的数据集Dv在所有的属性上的取值相同，无法继续划分，所以把该结点标记为叶结点，划分的种类为Dv中出现次数最多的类别0. （数据集Dv包含数组3，4，7，均为M，1，S，结果种类为0，1，0）
结点4和结点5，同理所有属性取值相同或者说是划分完了所有的属性(新属性集为空)，无法继续划分，直接标记为叶结点，虽然就只有一组数据但是他们也是属于第二类递归返回的范围。

（3）结点3，在” 性别 = 男 “之后，” 船舱等级 = 3″的样本集合为空集，不能划分，直接标记为叶结点，返回的种类为父结点 (也就是” 性别 = 男 “时)数据集的类别中出现次数最多的类别0. （从全部数据集中我们可以看出Pclass属性的取值为1，2，3，但是数据组3，4，5，6，7中都没有” 船舱等级 = 3″，所以该取值下为空集）

三、划分选择

决策树学习的关键是算法第8行，即如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的”纯度”越来越高。

3.1度量样本集合纯度的指标

3.1.1信息增益

在使用信息增益之前我们先来了解一下信息熵。

信息熵是对事件中不确定信息的量度。 自信息量是信源发出某一具体消息所含有的信息量，发出的消息不同所含有的信息量不同。因此自信息量不能用来表征整个信源的不确定度。我们定义 平均自信息量来表征整个信源的不确定度。平均自信息量又称为 信息熵、 信源熵，简称熵。

那么，如何计算信息熵？这是一个概率的计算问题：

算出Dv 的信息熵。

再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 |Dv| / |D| , 即样本数越多的分支结点的影响越大，

于是可计算出用属性a 对样本集 D 进行划分所获得的”信息增益”(information gain)

信息增益越大，表示使用属性a划分所获得的”纯度提升”越大，结果越好。

著名的ID3算法就是以信息增益为准则进行属性选择。

用信息增益进行划分的过程实际上类似于一个递归过程，小栗子在这里附上了自己的理解，如有错误请在下方评论。

结合上面的过程，我们可以再来理解一下西瓜书上的例子

在上面的介绍中，我们有意忽略了表 4 .1 中的 “编号”这一列 .若把”编号”也作为一个候选划分属性，则根据式(4.2)可计算出它的信息增益为0.998,远大于其他候选划分属性.这很容易理解：”编号”将产生17个分支，每个分支结点仅包含一个样本，这些分支结点的纯度已达最大.然而，这样的决策树显然不具有泛化能力，无法对新样本进行有效预测.

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利

影响，著名的C4.5决策树算法 [Quinlan, 1993] 不直接使用信息增益，而是使用”增益率”(gain ra tio )

来选择最优划分属性.采用与式(4.2)相同的符号表示，增益率定义为

称为属性 a 的 “固有值” (intrinsic value) [Quinlan, 1 9 9 3 ].属性 a 的可能取值数目越多(即V 越

大)，则 IV (a )的值通常会越大.例如，对表 4 .1 的西瓜数据集 2 .0 , 有 IV (触感) = 0.874 (V =

2),IV(色泽)= 1.580 (V = 3), IV(编号) =4.088 (V = 17)

需注意的是，增益率准则对可取值数目较少的属性有所偏好，因此 C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式[Quinlan, 1993]:先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的.

3.3 基尼指数

CART 决策树 [Breiman et a l, 1984]（CART 是Classification and Regression Tree 的简称，这是一种著名的决策树学习算法，分类和回归任务都可用.）
使用 “基尼指数 “( Gini index) 来选择划分属性.采用与

式(4.1)相同的符号，数据集的纯度可用基尼值来度量：

直观来说， Gini(P) 反映了从数据集 D 中随机抽取两个样本，其类别标记不一致的概率.因

此,Gini(D)越小，则数据集 D 的纯度越高.

于是，我们在候选属性集合 4 中，选择那个使得划分后基尼指数最小的属性作为最优划分属性，即

四、剪枝处理

剪枝(pruning)是决策树学习算法对付”过拟合”的主要手段.在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得”太好”了，以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合.因此，可通过主动去掉一些分支来降低过拟合的风险.

决策树剪枝的基本策略有”预剪枝”(prepruning)和 “后剪枝 “(post-pruning) [Quinlan, 1993].

4.1 预剪枝

预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

如何判断决策树泛化性能是否提升呢？这可使用2.2 节介绍的 性能评估方法.

本节假定采用 留出法，即预留一部分数据用作”验证集”以进行性能评估 .

例如对表4.1 的西瓜数据集 2.0 , 我们将其随机划分为两部分，如表 4 . 2 所示，编号为

｛1,2,3,6,7,10,14,15,16,17｝的样例组成训练集，编号为(4 ,5,8,9,11,12,13）的样例组成验证集.

&#x9884;&#x526A;&#x679D;&#x65B9;&#x6CD5;&#x63D0;&#x70BC;
&#xFF08;1&#xFF09;&#x4E0D;&#x9009;&#x62E9;&#x5F53;&#x524D;&#x5C5E;&#x6027;&#x5212;&#x5206;&#xFF0C;&#x8BE5;&#x7ED3;&#x70B9;&#x5C06;&#x88AB;&#x6807;&#x8BB0;&#x4E3A;&#x53F6;&#x8282;&#x70B9;&#xFF0C;&#x6BD4;&#x8F83;&#x597D;&#x74DC;&#x6837;&#x4F8B;&#x6570;&#x548C;&#x574F;&#x74DC;&#x6837;&#x4F8B;&#x6570;&#xFF0C;&#x5C06;&#x5176;&#x7C7B;&#x522B;&#x6807;&#x8BB0;&#x4E3A;&#x8BAD;&#x7EC3;&#x6837;&#x4F8B;&#x6570;&#x6700;&#x591A;&#x7684;&#x7C7B;&#x522B;&#xFF1B;&#xFF08;&#x4F9D;&#x636E;&#x51B3;&#x7B56;&#x6811;&#x7B97;&#x6CD5;&#x7B2C;6&#x884C;&#xFF09;
     &#x7136;&#x540E;&#x7528;&#x9A8C;&#x8BC1;&#x96C6;&#x5BF9;&#x5176;&#x8BC4;&#x4F30;&#xFF0C;&#x5F97;&#x5230;&#x9A8C;&#x8BC1;&#x96C6;&#x7CBE;&#x5EA6; z1&#xFF1B;
&#xFF08;2&#xFF09;&#x5982;&#x679C;&#x4F9D;&#x636E;&#x5F53;&#x524D;&#x5C5E;&#x6027;&#x5212;&#x5206;&#xFF0C;&#x5176;&#x5206;&#x652F;&#x7ED3;&#x70B9;&#x5C06;&#x88AB;&#x6807;&#x8BB0;&#x4E3A;&#x53F6;&#x8282;&#x70B9;&#xFF0C;&#x540C;&#x6837;&#x5C06;&#x5176;&#x7C7B;&#x522B;&#x6807;&#x8BB0;&#x4E3A;&#x6837;&#x4F8B;&#x6570;&#x6700;&#x591A;&#x7684;&#x7C7B;&#x522B;&#xFF1B;
     &#x7136;&#x540E;&#x7528;&#x9A8C;&#x8BC1;&#x96C6;&#x5BF9;&#x5176;&#x8BC4;&#x4F30;&#xFF0C;&#x8BA1;&#x7B97;&#x9A8C;&#x8BC1;&#x96C6;&#x7CBE;&#x5EA6; z2&#xFF1B;
&#xFF08;3&#xFF09;&#x6BD4;&#x8F83;&#x4E24;&#x6B21;&#x7684;&#x7CBE;&#x5EA6;&#xFF0C;&#x5982;&#x679C;z1>z2,&#x5219;&#x4E0D;&#x9009;&#x62E9;&#x5F53;&#x524D;&#x5C5E;&#x6027;&#x5212;&#x5206;&#xFF1B;&#x5982;&#x679C;z1<z2,则选择当前属性进行划分。< code></z2,则选择当前属性进行划分。<>

我们根据以上提炼的方法对西瓜书上的例子进行进一步的理解。

在划分之前,所有样例集中在根结点。

若不进行划分，则根据算法 4.2 第 6 行，该结点将被标记为叶结点，其类别标记为训练样例数

最多的类别，假设我们将这个叶结点标记为 “好瓜”.用表 4 .2的验证集对这个单结点决策树进

行评估时，则编号为｛4,5,8｝的样例被分类正确，另外4 个样例分类错误，于是，验证集精度为

3/7 x 100% = 42.9%

在用属性 “脐部”划分之后，图 4 .6 中的结点②、③ 、4 、分别包含编号为｛1,2,3,14}

｛6,7,15,17｝、｛10,16｝的训练样例，因此这 3 个结点分别被标记为叶结点 “好瓜”、 “好瓜

“、 “坏瓜 “.此时，验证集中编号为 (4 ,5 ,8 ,11 ,12 )的样例被分类正确，验证集精度为 5/7 x

100% = 71.4% > 42.9%.

于是，用 “脐部”进行划分得以确定。

&#x9884;&#x526A;&#x679D;&#x4F18;&#x7F3A;&#x70B9;
&#xFF08;1&#xFF09;&#x4F18;&#x70B9;&#xFF1A;
    &#x9884;&#x526A;&#x679D;&#x4F7F;&#x5F97;&#x51B3;&#x7B56;&#x6811;&#x7684;&#x5F88;&#x591A;&#x5206;&#x652F;&#x90FD;&#x6CA1;&#x6709;&#x201C;&#x5C55; &#x5F00;&#x201D;&#xFF0C;&#x8FD9;&#x4E0D;&#x4EC5;&#x964D;&#x4F4E;&#x4E86;&#x8FC7;&#x62DF;&#x5408;&#x7684;&#x98CE;&#x9669;&#xFF0C;&#x8FD8;&#x663E;&#x8457;&#x51CF;&#x5C11;&#x4E86;&#x51B3;&#x7B56;&#x6811;&#x7684;&#x8BAD;&#x7EC3;&#x65F6;&#x95F4;&#x5F00;&#x9500;&#x548C;&#x6D4B;&#x8BD5;&#x65F6;&#x95F4;&#x5F00;&#x9500;.

&#xFF08;2&#xFF09;&#x7F3A;&#x70B9;&#xFF1A;
    &#x4F46;&#x53E6;&#x4E00;&#x65B9;&#x9762;&#xFF0C;&#x6709;&#x4E9B;&#x5206;&#x652F;&#x7684;&#x5F53;&#x524D;&#x5212;&#x5206;&#x867D;&#x4E0D;&#x80FD;&#x63D0;&#x5347;&#x6CDB;&#x5316;&#x6027;&#x80FD;&#xFF0C;&#x751A;&#x81F3;&#x53EF;&#x80FD;&#x5BFC;&#x81F4;&#x6CDB;&#x5316;&#x6027;&#x80FD;&#x6682;&#x65F6;&#x4E0B;&#x964D;&#xFF0C;&#x4F46;&#x5728;&#x5176;&#x57FA;&#x7840;&#x4E0A;&#x8FDB;&#x884C;&#x7684;&#x540E;&#x7EED;&#x5212;&#x5206;&#x5374;&#x6709;&#x53EF;&#x80FD;&#x5BFC;&#x81F4;&#x6027;&#x80FD;&#x663E;&#x8457;&#x63D0;&#x9AD8;&#xFF1B;&#x9884;&#x526A;&#x679D;&#x57FA;&#x4E8E;&#x201C;&#x8D2A;&#x5FC3;&#x201D;&#x672C;&#x8D28;&#x7981;&#x6B62;&#x8FD9;&#x4E9B;&#x5206;&#x652F;&#x5C55;&#x5F00;&#xFF0C;&#x7ED9;&#x9884;&#x526A;&#x679D;&#x51B3;&#x7B56;&#x6811;&#x5E26;&#x6765;&#x4E86; &#x6B20;&#x62DF;&#x5408;&#x7684;&#x98CE;&#x9669;&#x3002;

4.2 后剪枝

后剪枝则是先从训练集生成一棵完整的决策树, 然后自底向上地对非叶结点进行考察，若将该

结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

&#x540E;&#x526A;&#x679D;&#x65B9;&#x6CD5;&#x63D0;&#x70BC;
&#xFF08;1&#xFF09;&#x5DF2;&#x77E5;&#x6784;&#x9020;&#x51FA;&#x7684;&#x5B8C;&#x6574;&#x7684;&#x51B3;&#x7B56;&#x6811;&#x7684;&#x7CBE;&#x5EA6;&#x662F;z1;
&#xFF08;2&#xFF09;&#x81EA;&#x5E95;&#x5411;&#x4E0A;&#x627E;&#x5230;&#x4E00;&#x4E2A;&#x975E;&#x53F6;&#x7ED3;&#x70B9;&#xFF0C;&#x82E5;&#x526A;&#x9664;&#x5176;&#x9886;&#x8854;&#x7684;&#x5206;&#x652F;&#xFF0C;&#x5E76;&#x5C06;&#x5176;&#x66FF;&#x6362;&#x4E3A;&#x53F6;&#x7ED3;&#x70B9;&#x540E;&#x7684;&#x51B3;&#x7B56;&#x6811;&#x7684;&#x7CBE;&#x5EA6;z2>z1,&#x5219;&#x5C06;&#x8BE5;&#x975E;&#x53F6;&#x7ED3;&#x70B9;&#x526A;&#x9664;&#xFF0C;&#x82E5;z2<z1,则不进行剪除。< code></z1,则不进行剪除。<>

&#x540E;&#x526A;&#x679D;&#x7684;&#x4F18;&#x7F3A;&#x70B9;
&#xFF08;1&#xFF09;&#x4F18;&#x70B9;&#xFF1A;
    &#x4E00;&#x822C;&#x60C5;&#x5F62;&#x4E0B;&#xFF0C;&#x540E;&#x526A;&#x679D;&#x51B3;&#x7B56;&#x6811;&#x7684;&#x6B20;&#x62DF;&#x5408;&#x98CE;&#x9669;&#x5F88;&#x5C0F;&#xFF0C;&#x6CDB;&#x5316;&#x6027;&#x80FD;&#x5F80;&#x5F80;&#x4F18;&#x4E8E;&#x9884;&#x526A;&#x679D;&#x51B3;&#x7B56;&#x6811;&#x3002;
&#xFF08;2&#xFF09;&#x7F3A;&#x70B9;&#xFF1A;
    &#x540E;&#x526A;&#x679D;&#x8FC7;&#x7A0B;&#x662F;&#x5728;&#x751F;&#x6210;&#x5B8C;&#x5168;&#x51B3;&#x7B56;&#x6811;&#x4E4B;&#x540E;&#x8FDB;&#x884C;&#x7684;&#xFF0C;&#x5E76;&#x4E14;&#x8981;&#x81EA;&#x5E95;&#x5411;&#x4E0A;&#x5730;&#x5BF9;&#x6811;&#x4E2D;&#x7684;&#x6240;&#x6709;&#x975E;&#x53F6;&#x7ED3;&#x70B9;&#x8FDB;&#x884C;&#x9010;&#x4E00;&#x8003;&#x5BDF;&#xFF0C;&#x56E0;&#x6B64;&#x5176;&#x8BAD;&#x7EC3;&#x65F6;&#x95F4;&#x5F00;&#x9500;&#x6BD4;&#x672A;&#x526A;&#x679D;&#x51B3;&#x7B56;&#x6811;&#x548C;&#x9884;&#x526A;&#x679D;&#x51B3;&#x7B56;&#x6811;&#x90FD;&#x5927;&#x5F97;&#x591A;&#x3002;

五、连续与缺失值

5.1 连续值处理

到目前为止我们仅讨论了基于离散属性来生成决策树。现实学习任务中常会遇到连续属性，有必要讨论如何在决策树学习中使用连续属性。

由于连续属性的可取值数目不再有限，因此，不能直接根据连续属性的可取值来对结点进行划分。

此时，连续属性离散化技术可派上用场。

最简单的策略是采用 二分法对连续属性进行处理。这正是 C4.5决策树算法中采用的机制。

5.2缺失值处理

现实任务中常会遇到不完整样本，即样本的某些属性值缺失.例如由于诊测成本、隐私保护等因

素，患者的医疗数据在某些属性上的取值(如HIV测试结果)未知；尤其是在属性数目较多的情况

下，往往会有大量样本出现缺失值. 如果简单地放弃不完整样本，仅使用无缺失值的样本来进行学

习，显然是对数 据信息极大的浪费.显然，有必要考虑利用有缺失属性值的训练样例来进行学习.

5.2.1 问题一如何在属性值缺失的情况下进行划分属性的选择？

5.2.2 问题二给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？

六、多变量决策树

若我们把每个属性视为坐标空间中的一个坐标轴，则 d 个属性描述的样本就对应了 d 维空间

中的一个数据点，对样本分类则意味着在这个坐标空间中寻找不同类样本之间的分类边界.

决策树 所形成的分类边界有一个明显的特点: 轴平行(axis-parallel),即 它的分类边界由若干个与坐标轴平行 的分段组成。

以表 4 .5 中的西瓜数据 3 .0 a 为例，将它作为训练集可学得图 4.10 所示的决策树 ,这棵树所对应的

分类边界如图 4.11所示.

显然，分类边界的每一段都是与坐标轴平行的 .这样的分类边界使得学习

结果有较好的可解释性，因为每一段划分都直接对应了某个属性取值 .但在学

习任务的真实分类边界比较复杂时，必须使用很多段划分才能获得较好的近似,如图4.12所示；

此时的决策树会相当复杂，由于要进行大量的属性测试，预测时间开销会很大. 若能使用斜的划分边界，如图 4.12中红色线段所示，则决策树模型将大为简化 .

“多变量决策树” (multivariate decision tre e )就是能实现这样的”斜划 分”甚至更复杂划分的决策树。

以实现斜划分的多变量决策树为例，在此类决策树中，非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试;换言之，每个非叶结点是一个形如
的线性分类器，其中

是属性 ai 的权重,她和t 可在该结点所含的样本集和属性集上学得.于是,与

传统的”单变量决策树 “(univariate decision tre e ) 不同，在多变量决策树的学习过程中，

不是为每个非叶结点寻找一个最优划分属性，而是试图建立一个合适的线性分类器。

例如对西瓜数据 3 .0 a , 我们可学得图 4.13 这样的多变量决策树，其分类边界如图4.14 所示.

Original: https://blog.csdn.net/m0_53333776/article/details/123745828
Author: 香蕉牛奶小栗子
Title: 【超详细】机器学习（西瓜书）第4章决策树知识详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626907/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

networkx学习与使用——（1）节点和边的增删查改

networkx学习与使用——（1）节点和边的增删查改简介基本的图创建 * 图的生成添加节点和边画图完整代码资源参考简介去年和师兄一起做社交网络分析的时候发现了ne…

人工智能 2023年6月10日
00100
Seven—pytorch学习—维度变换

pytorch学习(4) 维度变换 view & reshape squeeze & unsqueeze transpose & permute expan…

人工智能 2023年6月4日
0076
【Alink-Python版本】学习&实践-数据源、数据处理、回归、分类、聚类

【Alink】学习&实践-数据源、数据处理、回归、分类、聚类 Alink学习链接汇总 * 1、数据源读取 – 1.1、读取CSV文件（分批流） 1.2、按行读入…

人工智能 2023年7月3日
0067
第十周周报

学习目标： Transformer Vision Transformer 学习内容： transoformer和vision transoformer的code 学习时间： 11….

人工智能 2023年6月26日
0051
旋转框目标检测————关于旋转框定义和解决方案

1、旋转框表示 1、如何表示一个旋转框？ ; 2、Opencv表示法关于不同版本opencv的cv2.minAreaRect函数输出角度范围不同的问题。在做旋转矩形⽬标检测时碰到…

人工智能 2023年5月26日
00103
python深度学习机器学习必备的学习网站集合！

文章目录目录文章目录前言一、Papers With Code 推荐理由适合人群二、DLab教学与实训平台推荐理由适合人群优质教程(可选) 基于PyTorch搭建C…

人工智能 2023年5月28日
0076
python中numpy与pandas_部分内容

综述： data = [[19,170,68],[20,165,65],[18,175,65]] students = pd.DataFrame(data, index=[1,2,…

人工智能 2023年7月9日
0093
回归分析以及选择模型

目录前言一、k近邻算法（KNN）二、回归分析 1.线性回归 2.逻辑回归LR 3.多项式回归 4.逐步回归 5.岭回归 6.套索回归LASSO 7.弹性网络回归Elastic…

人工智能 2023年6月18日
00103
力扣(LeetCode)565. 数组嵌套(C++)

模拟直观思考，一次遍历 n u m s nums n u m s ，对遍历到的每个位置 i i i ，进行嵌套遍历，标记已遍历的数，在接下来的遍历，就不考虑已标记过的数了。提示 …

人工智能 2023年6月29日
0074
ROS学习：cv_bridge与opencv版本冲突三种解决方案

cv_bridge与opencv版本冲突三种解决方案 1 问题描述： 2 解决方案： * 2.1 不使用cv_bridge包 2.2 令cv_bridge使用opencv版本切换为…

人工智能 2023年7月19日
00158
简易入手《SOM神经网络》的本质与原理

原创文章，转载请说明来自《老饼讲解神经网络》: bp.bbbdata.com 关于《老饼讲解神经网络》：本网结构化讲解神经网络的知识，原理和代码。重现matlab神经网络工具箱的算…

人工智能 2023年6月2日
0083
[AI画图本地免安装部署]Windows 10 Nvidia平台部署AUTOMATIC1111 版本 stable diffusion 免安装版

文章目录 [AI画图本地免安装部署]Windows 10 Nvidia平台部署AUTOMATIC1111 版本 stable diffusion 免安装版 * 1. 网络准备 1….

人工智能 2023年7月26日
00149
时间序列分析|时序等间隔处理

目录背景及需求分析插值平移背景及需求分析现实生活中很多事件是隔三岔五的进行抽样采集，从而导致时间序列的不等间隔情况，时序的等间隔或不等间隔对时间序列分析至关重要，如何将不…

人工智能 2023年7月17日
0082
(NOCD)Overlapping Community Detection with Graph Neural Networks

论文地址代码地址本文提出了一种基于图神经网络的重叠社区检测模型。Neural Overlapping Community Detection(NOCD) model. 核心思想：将…

人工智能 2023年5月31日
0077
有空就学学的实例分割1——Tensorflow2搭建Mask R-CNN实例分割平台

有空就学学的实例分割1——Tensorflow2搭建Mask R-CNN实例分割平台学习前言什么是Mask R-CNN 源码下载 Mask R-CNN实现思路 * 一、预测部分…

人工智能 2023年5月26日
0059
必知必会，这4种 Python 数据透视函数一定要掌握

大家好，今天和大家分享 Pandas中四种有关数据透视的通用函数，在数据处理中遇到这类需求时，能够很好地应对。喜欢记得收藏、关注、点赞。注：完整资料、技术交流文末获取 pand…

人工智能 2023年6月19日
00102

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31