基于Python实现五大常用分类算法(原理+代码)

2023年6月15日上午9:26 • 人工智能 • 阅读 76

读：在机器学习和统计中，分类算法通过对已知类别训练集的计算和分析，从中发现类别规则并预测新数据的类别。分类被认为是监督学习的一个实例，即学习可以获得正确识别的观察的训练集的情况。
实现分类的算法，特别是在具体实现中，被称为分类器。本文将从实际应用案例出发，总结性介绍几种常用的单模型分类器。 原理和代码均在文中，内容较长，建议收藏，后面需要用到时方便查看。
获取更多资源，关注VX公中号：python语言空间

一般应用

分类分析用于提炼应用规则

利用构建算法过程中的分类规则；
以决策树为例：决策树分类节点表示局部最优化的显著特征值，每个节点下的特征变量以及对应的值的组合构成规则。

分类用于提取特征

从大量的输入变量中获得重要性特征，然后提取权重最高的几个特征。

分类用于处理缺失值

缺失值是分类变量，基于模型法填补缺失值；
基于已有其他字段，将缺失字段作为目标变量进行预测。

分类分析算法的选取

文本分类时用到最多的是朴素贝叶斯。
训练集比较小，那么选择高偏差且低方差的分类算法效果逢高，如朴素贝叶斯、支持向量机、这些算法不容易过拟合。
训练集比较大，选取何种方法都不会显著影响准确度。
省时好操作选着用支持向量机，不要使用神经网络。
重视算法准确度，那么选择算法精度高的算法，例如支持向量机、随机森林。
想得到有关预测结果的概率信息，使用逻辑回归。
需要清洗的决策规则，使用决策树。

数据准备

本次分类分析使用股市数据。此处可参考金融数据准备。

KNN

K-Nearest Neighbors (KNN)是一种懒惰学习算法和分类算法。此外，KNN是机器学习中最简单的方法。利用KNN进行分类，预测新点的分类。

数据预处理

从数据集 dataset中选取需要用的数据作为输入数据和标签。

X&#xA0;=&#xA0;dataset.loc[&#xA0;:&#xA0;,&#xA0;['high','low','close']].values
y&#xA0;=&#xA0;dataset.loc[&#xA0;:&#xA0;,&#xA0;['Up_Down']].values

from&#xA0;sklearn.model_selection&#xA0;import&#xA0;train_test_split&#xA0;&#xA0;
X_train,&#xA0;X_test,&#xA0;y_train,&#xA0;y_test&#xA0;=&#xA0;train_test_split(X,&#xA0;y,&#xA0;test_size=0.20)&#xA0;&#xA0;

数据标准化

数据标准化对于距离类模型，数据归一化是非常有必要的。这里使用 sklearn.preprocessing中 StandardScaler。

from&#xA0;sklearn.preprocessing&#xA0;import&#xA0;StandardScaler&#xA0;&#xA0;
scaler&#xA0;=&#xA0;StandardScaler()&#xA0;&#xA0;
scaler.fit(X_train)
X_train&#xA0;=&#xA0;scaler.transform(X_train)&#xA0;&#xA0;
X_test&#xA0;=&#xA0;scaler.transform(X_test)&#xA0;

模型训练与预测

from&#xA0;sklearn.neighbors&#xA0;import&#xA0;KNeighborsClassifier&#xA0;&#xA0;
knn&#xA0;=&#xA0;KNeighborsClassifier(n_neighbors=5)&#xA0;&#xA0;
knn.fit(X_train,&#xA0;y_train)&#xA0;
y_pred&#xA0;=&#xA0;knn.predict(X_test)

模型评价

from&#xA0;sklearn.metrics&#xA0;import&#xA0;classification_report,&#xA0;confusion_matrix&#xA0;&#xA0;
print(confusion_matrix(y_test,&#xA0;y_pred))&#xA0;&#xA0;
print(classification_report(y_test,&#xA0;y_pred))

[[39 31]
 [32 44]]
              precision  recall  f1-score   support
          -1       0.55    0.56      0.55        70
           1       0.59    0.58      0.58        76
    accuracy                         0.57       146
   macro avg       0.57    0.57      0.57       146
weighted avg       0.57    0.57      0.57       146

绘制学习曲线

分类以KNeighbors个数为x轴，模型得分为y轴，绘制学习曲线，以模型得分最高的n_neighbors为本次模型最终参数。

from&#xA0;sklearn.metrics&#xA0;import&#xA0;accuracy_score
score&#xA0;=&#xA0;[]
for&#xA0;K&#xA0;in&#xA0;range(40):
&#xA0;&#xA0;&#xA0;&#xA0;K_value&#xA0;=&#xA0;K+1
&#xA0;&#xA0;&#xA0;&#xA0;knn&#xA0;=&#xA0;KNeighborsClassifier(n_neighbors&#xA0;=&#xA0;K_value,&#xA0;weights='uniform',&#xA0;algorithm='auto')
&#xA0;&#xA0;&#xA0;&#xA0;knn.fit(X_train,&#xA0;y_train)&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;y_pred&#xA0;=&#xA0;knn.predict(X_test)
&#xA0;&#xA0;&#xA0;&#xA0;score.append(round(accuracy_score(y_test,y_pred)*100,2))
&#xA0;&#xA0;&#xA0;&#xA0;
plt.figure(figsize=(12,&#xA0;6))&#xA0;&#xA0;
plt.plot(range(1,&#xA0;41),&#xA0;score,&#xA0;color='red',&#xA0;linestyle='dashed',&#xA0;marker='o',&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;markerfacecolor='blue',&#xA0;markersize=10)
plt.title('The&#xA0;Learning&#xA0;curve')&#xA0;&#xA0;
plt.xlabel('K&#xA0;Value')&#xA0;&#xA0;
plt.ylabel('Score')&#xA0;

带误差线的学习曲线

from&#xA0;sklearn&#xA0;import&#xA0;metrics
Ks&#xA0;=&#xA0;10
mean_acc&#xA0;=&#xA0;np.zeros((Ks-1))
std_acc&#xA0;=&#xA0;np.zeros((Ks-1))
ConfustionMx&#xA0;=&#xA0;[];
for&#xA0;n&#xA0;in&#xA0;range(1,Ks):
&#xA0;&#xA0;&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;#&#xA0;&#x6A21;&#x578B;&#x8BAD;&#x7EC3;&#x548C;&#x9884;&#x6D4B;
&#xA0;&#xA0;&#xA0;&#xA0;neigh&#xA0;=&#xA0;KNeighborsClassifier(n_neighbors&#xA0;=&#xA0;n).fit(X_train,y_train)
&#xA0;&#xA0;&#xA0;&#xA0;yhat=neigh.predict(X_test)
&#xA0;&#xA0;&#xA0;&#xA0;mean_acc[n-1]&#xA0;=&#xA0;metrics.accuracy_score(y_test,&#xA0;yhat)
&#xA0;&#xA0;&#xA0;&#xA0;std_acc[n-1]=np.std(yhat==y_test)/np.sqrt(yhat.shape[0])

#&#xA0;&#x7ED8;&#x56FE;
plt.figure(figsize=(12,6))
plt.plot(range(1,Ks),mean_acc,'g')
plt.fill_between(range(1,Ks),mean_acc&#xA0;-&#xA0;1&#xA0;*&#xA0;std_acc,mean_acc&#xA0;+&#xA0;1&#xA0;*&#xA0;std_acc,&#xA0;alpha=0.10)
plt.legend(('Accuracy&#xA0;',&#xA0;'+/-&#xA0;3xstd'))
plt.ylabel('Accuracy&#xA0;')
plt.xlabel('Number&#xA0;of&#xA0;Nabors&#xA0;(K)')
plt.tight_layout()
plt.show()
#&#xA0;print(&#xA0;"The&#xA0;best&#xA0;accuracy&#xA0;was&#xA0;with",&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;mean_acc.max(),&#xA0;"with&#xA0;k=",&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;mean_acc.argmax()+1)&#xA0;

误差率可视化

error&#xA0;=&#xA0;[]

#&#xA0;&#x8BA1;&#x7B97;K&#x503C;&#x5728;1-40&#x4E4B;&#x95F4;&#x591A;&#x8BEF;&#x5DEE;&#x503C;
for&#xA0;i&#xA0;in&#xA0;range(1,&#xA0;40):&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;knn&#xA0;=&#xA0;KNeighborsClassifier(n_neighbors=i)
&#xA0;&#xA0;&#xA0;&#xA0;knn.fit(X_train,&#xA0;y_train)
&#xA0;&#xA0;&#xA0;&#xA0;pred_i&#xA0;=&#xA0;knn.predict(X_test)
&#xA0;&#xA0;&#xA0;&#xA0;error.append(np.mean(pred_i&#xA0;!=&#xA0;y_test))
plt.figure(figsize=(12,&#xA0;6))&#xA0;&#xA0;
plt.plot(range(1,&#xA0;40),&#xA0;error,&#xA0;color='red',&#xA0;linestyle='dashed',&#xA0;marker='o',&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;markerfacecolor='blue',&#xA0;markersize=10)
plt.title('Error&#xA0;Rate&#xA0;K&#xA0;Value')&#xA0;&#xA0;
plt.xlabel('K&#xA0;Value')&#xA0;&#xA0;
plt.ylabel('Mean&#xA0;Error')&#xA0;&#xA0;

逻辑回归

逻辑回归是线性分类起，其本质是由线性回归通过一定的数学变化而来的。要理解逻辑回归，得先理解线性回归。线性回归是构造一个预测函数来映射输入的特性矩阵和标签的线性关系。线性回归使用最佳的拟合直线（也就是回归线）在因变量（）和一个或多个自变量（）之间建立一种关系。在这种技术中，因变量是连续的，自变量可以是连续的也可以是离散的，回归线的性质是线性的。

类比线性方程：

可以用矩阵的形式表示该方程，其中 x 与 w 均可以被看作一个列矩阵：

通过函数，线性回归使用输入的特征矩阵来输出一组连续型的标签值 y_pred，以完成各种预测连续型变量的任务。若标签是离散型变量，尤其是满足0-1分布的离散型变量，则可以通过引入联系函数(link function)，将线性回归方程变换为，并且令的值分布在 (0,1) 之间，且当接近0时样本的标签为类别0，当接近1时样本的标签为类别1，这样就得到了一个分类模型。而这个联系函数对于逻辑回归来说，就是 Sigmoid函数

线性回归中带入到 Sigmoid函数中，即得到二元逻辑回归模型的一半形式：

其中为逻辑回归的返回的标签值。假设已经训练好一组权值向量。只要把我们需要预测的特征矩阵带入到方差中，得到输出值就是标签为类别1的概率，于是就能判断输入特征矩阵是属于哪个类别。

因此逻辑回归是不直接预测标签值，而是去预测标签为类别1的概率。一般地如果标签为类别1的概率大于0.5，就认为其为类别1，否在为类别2。

数据准备

定义x、y，数据标准化、划分训练集和测试集。

dataset['Buy_Sell']&#xA0;=&#xA0;dataset['Buy_Sell'].astype('int')
X&#xA0;=&#xA0;np.asarray(dataset[['open',&#xA0;'high',&#xA0;'low',&#xA0;'close',&#xA0;'volume']])
y&#xA0;=&#xA0;np.asarray(dataset['Buy_Sell'])
from&#xA0;sklearn&#xA0;import&#xA0;preprocessing
X&#xA0;=&#xA0;preprocessing.StandardScaler().fit(X).transform(X)
from&#xA0;sklearn.model_selection&#xA0;import&#xA0;train_test_split
X_train,&#xA0;X_test,&#xA0;y_train,&#xA0;y_test&#xA0;=&#xA0;train_test_split(X,&#xA0;y,&#xA0;test_size&#xA0;=&#xA0;0.25,&#xA0;random_state&#xA0;=&#xA0;0)

模型实例化

#&#xA0;&#x6A21;&#x578B;&#x8BAD;&#x7EC3;
from&#xA0;sklearn.linear_model&#xA0;import&#xA0;LogisticRegression
from&#xA0;sklearn.metrics&#xA0;import&#xA0;confusion_matrix
LR&#xA0;=&#xA0;LogisticRegression(C=0.01,&#xA0;solver='liblinear').fit(X_train,y_train)
yhat&#xA0;=&#xA0;LR.predict(X_test)

predict_proba&#x662F;&#x6240;&#x6709;&#x7C7B;&#x7684;&#x4F30;&#x8BA1;&#x503C;&#x7684;&#x8FD4;&#x56DE;&#xFF0C;&#x6309;&#x7C7B;&#x7684;&#x6807;&#x7B7E;&#x6392;&#x5E8F;&#x3002;
#&#xA0;&#x7B2C;1&#x5217;&#x662F;&#x7B2C;1&#x7C7B;P(Y=1|X)&#x7684;&#x6982;&#x7387;&#xFF0C;&#x7B2C;&#x4E8C;&#x5217;&#x662F;&#x7B2C;0&#x7C7B;P(Y=0|X)&#x7684;&#x6982;&#x7387;

yhat_prob&#xA0;=&#xA0;LR.predict_proba(X_test)

模型评价

jaccard_score

雅卡尔指数（Jaccard index），又称为雅卡尔相似系数（Jaccard similarity coefficient），是用于比较样本集的相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度，其定义为两个集合交集大小与并集大小之间的比例：

from&#xA0;sklearn.metrics&#xA0;import&#xA0;jaccard_score
jaccard_score(y_test,&#xA0;yhat)

混淆矩阵

from&#xA0;sklearn.metrics&#xA0;import&#xA0;classification_report,&#xA0;confusion_matrix
import&#xA0;itertools
def&#xA0;plot_confusion_matrix(cm,&#xA0;classes,
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;normalize=False,
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title='Confusion&#xA0;matrix',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;cmap=plt.cm.Blues):
&#xA0;&#xA0;&#xA0;&#xA0;"""
&#xA0;&#xA0;&#xA0;&#xA0;This&#xA0;function&#xA0;prints&#xA0;and&#xA0;plots&#xA0;the&#xA0;confusion&#xA0;matrix.

&#xA0;&#xA0;&#xA0;&#xA0;Normalization&#xA0;can&#xA0;be&#xA0;applied&#xA0;by&#xA0;setting&#xA0;normalize=True.

&#xA0;&#xA0;&#xA0;&#xA0;"""
&#xA0;&#xA0;&#xA0;&#xA0;if&#xA0;normalize:
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;cm&#xA0;=&#xA0;cm.astype('float')&#xA0;/&#xA0;cm.sum(axis=1)[:,&#xA0;np.newaxis]
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;print("Normalized&#xA0;confusion&#xA0;matrix")
&#xA0;&#xA0;&#xA0;&#xA0;else:
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;print('Confusion&#xA0;matrix,&#xA0;without&#xA0;normalization')
&#xA0;&#xA0;&#xA0;&#xA0;print(cm)

&#xA0;&#xA0;&#xA0;&#xA0;plt.imshow(cm,&#xA0;interpolation='nearest',&#xA0;cmap=cmap)
&#xA0;&#xA0;&#xA0;&#xA0;plt.title(title)
&#xA0;&#xA0;&#xA0;&#xA0;plt.colorbar()
&#xA0;&#xA0;&#xA0;&#xA0;tick_marks&#xA0;=&#xA0;np.arange(len(classes))
&#xA0;&#xA0;&#xA0;&#xA0;plt.xticks(tick_marks,&#xA0;classes,&#xA0;rotation=45)
&#xA0;&#xA0;&#xA0;&#xA0;plt.yticks(tick_marks,&#xA0;classes)

&#xA0;&#xA0;&#xA0;&#xA0;fmt&#xA0;=&#xA0;'.2f'&#xA0;if&#xA0;normalize&#xA0;else&#xA0;'d'
&#xA0;&#xA0;&#xA0;&#xA0;thresh&#xA0;=&#xA0;cm.max()&#xA0;/&#xA0;2.

&#xA0;&#xA0;&#xA0;&#xA0;for&#xA0;i,&#xA0;j&#xA0;in&#xA0;itertools.product(range(cm.shape[0]),&#xA0;range(cm.shape[1])):
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;plt.text(j,&#xA0;i,&#xA0;format(cm[i,&#xA0;j],&#xA0;fmt),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;horizontalalignment="center",
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;color="white"&#xA0;if&#xA0;cm[i,&#xA0;j]&#xA0;>&#xA0;thresh&#xA0;else&#xA0;"black")

&#xA0;&#xA0;&#xA0;&#xA0;plt.tight_layout()
&#xA0;&#xA0;&#xA0;&#xA0;plt.ylabel('True&#xA0;label')
&#xA0;&#xA0;&#xA0;&#xA0;plt.xlabel('Predicted&#xA0;label')

计算混淆矩阵并绘制非标准化混淆矩阵

cnf_matrix&#xA0;=&#xA0;confusion_matrix(y_test,&#xA0;yhat,&#xA0;labels=[1,0])
np.set_printoptions(precision=2)
plt.figure(figsize=(12,6))
plot_confusion_matrix(cnf_matrix,&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;classes=['Buy_Sell=1','Buy_Sell=0'],
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;normalize=&#xA0;False,&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;title='Confusion&#xA0;matrix')

Confusion matrix, without normalization
[[39 53]
 [38 53]]

分类模型评价报告

print&#xA0;(classification_report(y_test,&#xA0;yhat))

            precision   recall  f1-score   support
           0     0.50   0.58      0.54        91
           1     0.51   0.42      0.46        92
    accuracy                      0.50       183
   macro avg     0.50   0.50      0.50       183
weighted avg     0.50   0.50      0.50       183

对数损失

对数损失(对数损失)度量预测输出为0到1之间的概率值的分类器的性能。

from&#xA0;sklearn.metrics&#xA0;import&#xA0;log_loss
log_loss(y_test,&#xA0;yhat_prob)
>>>&#xA0;0.690790520605071
LR2&#xA0;=&#xA0;LogisticRegression(C=0.01,&#xA0;solver='sag').fit(X_train,y_train)
yhat_prob2&#xA0;=&#xA0;LR2.predict_proba(X_test)
print&#xA0;("LogLoss:&#xA0;:&#xA0;%.2f"&#xA0;%&#xA0;log_loss(y_test,&#xA0;yhat_prob2))
LogLoss:&#xA0;:&#xA0;0.69

ROC

Receiver Operating Characteristic(ROC) 曲线显示了一种检测或一种检测组合的每一个可能截止点的敏感性和特异性之间的联系/权衡。此外，该曲线是比较两个工作特征真阳性率(TPR)和假阳性率(FPR)。曲线下面积(Area Under Curve, AUC)是代表二值分类的ROC曲线下的面积。

y_pred_proba&#xA0;=&#xA0;LR.predict_proba(X_test)[::,1]
fpr,&#xA0;tpr,&#xA0;_&#xA0;=&#xA0;metrics.roc_curve(y_test,&#xA0;&#xA0;y_pred_proba)
auc&#xA0;=&#xA0;metrics.roc_auc_score(y_test,&#xA0;y_pred_proba)
plt.figure(figsize=(12,6))
plt.plot(fpr,tpr,label="data&#xA0;1,&#xA0;auc="+str(auc))
plt.legend(loc=4)
plt.show()

朴素贝叶斯分类器

朴素贝叶斯分类器是一种基于概率统计的分类方法，在条件独立假设的基础上使用贝叶斯定理构建算法，能够通过提供后验概率估计来量化预测中的不确定性的概率分布模型。

一些特点

把目标类视为能导致数据实例生产的因素，朴素贝叶斯分类器也是生成类模型。
使用朴素贝叶斯假设，即使在给定类别标签的条件下，属性也可以很容易地计算高维设置中的类条件概率，常用与文本分类。
对孤立噪声和不相关属性具有鲁棒性。
通过计算其条件概率估计时忽略每个属性的缺失值，来处理训练集的缺失值。
相关属性会降低其性能。

贝叶斯定理

贝叶斯定理给出了条件概率与之间的关系。

目标类的后验概率是给定属性的数据实例中观察到类别标签的概率。
给定类别的属性的类条件概率，测量从属于类的实例分布中观察到的可能性。
先验概率独立于观察到的属性值。先验概率捕获了关于类别分布的先验知识。

朴素贝叶斯假设所有属性的类条件概率可以被分解为类条件概率的乘积：(给定类别标签，属性是相互独立的)

由于对于每个都是一样的，所以朴素贝叶斯方程：

在小数据集上仍然可以使用先验概率作为后验概率的估计，通过不断增加更多的属性，可以不断细化后验概率。

求解步骤

拟合和 , 拟合的方法就是直接从样本计算对应频率；
由得出联合概率分布。
由得出后验概率，通过后验概率进行分类。

算法实现

X&#xA0;=&#xA0;dataset[['open',&#xA0;'high',&#xA0;'low',&#xA0;'volume',&#xA0;'close','Returns']].values
y&#xA0;=&#xA0;dataset['Buy_Sell'].values

from&#xA0;sklearn.model_selection&#xA0;import&#xA0;StratifiedShuffleSplit
from&#xA0;sklearn.naive_bayes&#xA0;import&#xA0;GaussianNB
from&#xA0;sklearn.metrics&#xA0;import&#xA0;confusion_matrix

model&#xA0;=&#xA0;GaussianNB()
sss&#xA0;=&#xA0;StratifiedShuffleSplit(n_splits=5,&#xA0;test_size=0.50,&#xA0;random_state=None)
sss.get_n_splits(X,&#xA0;y)

cm_sum&#xA0;=&#xA0;np.zeros((2,2))

for&#xA0;train_index,&#xA0;test_index&#xA0;in&#xA0;sss.split(X,&#xA0;y):
&#xA0;&#xA0;&#xA0;&#xA0;X_train,&#xA0;X_test&#xA0;=&#xA0;X[train_index],&#xA0;X[test_index]
&#xA0;&#xA0;&#xA0;&#xA0;y_train,&#xA0;y_test&#xA0;=&#xA0;y[train_index],&#xA0;y[test_index]
&#xA0;&#xA0;&#xA0;&#xA0;model.fit(X_train,&#xA0;y_train)
&#xA0;&#xA0;&#xA0;&#xA0;y_pred&#xA0;=&#xA0;model.predict(X_test)
&#xA0;&#xA0;&#xA0;&#xA0;cm&#xA0;=&#xA0;confusion_matrix(y_test,&#xA0;y_pred)
&#xA0;&#xA0;&#xA0;&#xA0;cm_sum&#xA0;=&#xA0;cm_sum&#xA0;+&#xA0;cm
print('\nNaive&#xA0;Bayes&#xA0;Gaussian&#xA0;Algorithms')
print('\nConfusion&#xA0;Matrix')
print('_'*20)
print('&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;Predicted')
print('&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;pos&#xA0;neg')
print('pos:&#xA0;%i&#xA0;%i'&#xA0;%&#xA0;(cm_sum[1,1],&#xA0;cm_sum[0,1]))
print('neg:&#xA0;%i&#xA0;%i'&#xA0;%&#xA0;(cm_sum[1,1],&#xA0;cm_sum[0,1]))

Naive Bayes Gaussian Algorithms

Confusion Matrix
____________________
     Predicted
     pos neg
pos: 483 467
neg: 483 467

校准的预测概率

from&#xA0;sklearn.naive_bayes&#xA0;import&#xA0;GaussianNB
from&#xA0;sklearn.calibration&#xA0;import&#xA0;CalibratedClassifierCV
X&#xA0;=&#xA0;dataset.drop(['Buy_Sell'],&#xA0;axis=1).values
Y&#xA0;=&#xA0;dataset['Buy_Sell'].values
#&#xA0;&#x521B;&#x5EFA;&#x9AD8;&#x65AF;&#x6734;&#x7D20;&#x8D1D;&#x53F6;&#x65AF;&#x5B9E;&#x4F8B;
clf&#xA0;=&#xA0;GaussianNB()
#&#xA0;&#x4F7F;&#x7528;sigmoid&#x6821;&#x51C6;&#x521B;&#x5EFA;&#x6821;&#x51C6;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;
clf_sigmoid&#xA0;=&#xA0;CalibratedClassifierCV(clf,&#xA0;cv=2,&#xA0;method='sigmoid')
#&#xA0;&#x6821;&#x51C6;&#x7684;&#x6982;&#x7387;
clf_sigmoid.fit(X,&#xA0;Y)
"""
CalibratedClassifierCV(base_estimator=GaussianNB(priors=None,&#xA0;var_smoothing=1e-09),
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;cv=2,&#xA0;method='sigmoid')
"""

#&#xA0;&#x521B;&#x5EFA;&#x65B0;&#x89C2;&#x5BDF;&#x6570;&#x636E;
new_observation&#xA0;=&#xA0;[[.4,&#xA0;.4,&#xA0;.4,&#xA0;.4,&#xA0;.4,&#xA0;.4,&#xA0;.4,&#xA0;.4,&#xA0;.4]]
clf_sigmoid.predict_proba(new_observation)
array([[0.50353248,&#xA0;0.49646752]])
clf_sigmoid.score(X,Y)
0.49743589743589745

决策树分类器

决策树是一种树状结构，她的每一个叶子结点对应着一个分类，非叶子结点对应着在某个属性上的划分，根据样本在该属性上的不同取值降气划分成若干个子集。

基本原理

数模型通过递归切割的方法来寻找最佳分类标准，进而最终形成规则。分类树用基尼系数最小化准则，进行特征选择，生成二叉树。

决策树的学习算法包含 特征选择、决策树的生成、决策树的剪枝过程。

特征选择

选择对训练数据具有分类能力的特征，特征选择的准则是信息增益、或信息增益比，特征选择是决定用哪个特征来划分特征空间。

决策树通过信息增益准则选择特征。因为信息增益大的具有更强的分类能力。
具体方法：对于训练数据集，计算每个特征的信息增益，比较大小，选择信息增益大的那个特征。

分类决策树的生成

通过计算信息增益、信息增益比、基尼系数作为特征选择准则，从根节点开始，递归地产生决策树。这相当于利用不纯度不断选取局部最优特征，或将训练集分割为能够基本分类正确的子集。

CATA分类树的生成

用基尼系数选择最优特征，同时决定该特征的最优二值切分点。计算每个特征对数据集的基尼指数。对于每个特征，对其可能取的每个值，将数据集切分成两部分，并计算基尼指数。选择基尼系数最小的特征以及其切分点作为最优特征和最优切分点。不断循环直至满足条件停止。

决策树的剪枝

通过极小化决策树整体的损失函数或代价函数来实现。用的是正则化极大似然估计进行模型选择。损失函数定义为模型拟合程度和模型复杂度求和 ——

剪枝策略：预剪枝、后剪枝

预剪枝

定义：决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化能力的提升，则停止划分并将该结点标记为叶子结点。

优缺点：降低过拟合风险，减少训练和测试时间开销。但”贪心”本质带来欠拟合风险。

后剪枝

定义：先从训练集生产一颗完整的决策树，自底向上地对非叶子结点进行考察，若该结点对应的子树替换为叶子结点能够带来决策树泛化能力的提升，则将该子树替换为叶结点。

优缺点：欠拟合风险小，泛化能力优于预剪枝。但训练时间比未剪枝和预剪枝的时间开销大得多。

CATA树的剪枝

第一步：从生成的决策树底部进行剪枝，直到根节点，形成一个子树序列。

第二步：利用交叉验证在验证集上对子树序列进行测试，选择最优子树。

决策树算法算法描述ID3算法其核心是在决策树的各级节点上，使用信息增益方法的选择标准，来帮助确定生产每个节点时所对应采用的合适属性，不能自动分箱，不能剪枝C4.5算法相对于ID3改进是使用信息增益率来选择节点属性。

克服ID3点不足：

ID3只适用于离散的描述属性，C4.5可以处理连续和离散属性；可以剪枝CART算法通过构建树、修剪树、评估树来构建一个二叉树。

通过控制树的结构来控制模型

当终节点是连续变量是——回归树

当终节点是分类变量是——分类树

算法实现

sklearn中的决策树实例

from&#xA0;sklearn.model_selection&#xA0;import&#xA0;train_test_split&#xA0;&#xA0;
X_train,&#xA0;X_test,&#xA0;y_train,&#xA0;y_test&#xA0;=&#xA0;train_test_split(X,&#xA0;y,&#xA0;test_size=0.20)

from&#xA0;sklearn.tree&#xA0;import&#xA0;DecisionTreeClassifier&#xA0;&#xA0;
classifier&#xA0;=&#xA0;DecisionTreeClassifier()&#xA0;&#xA0;
classifier.fit(X_train,&#xA0;y_train)

y_pred&#xA0;=&#xA0;classifier.predict(X_test)

from&#xA0;sklearn.metrics&#xA0;import&#xA0;classification_report,&#xA0;confusion_matrix&#xA0;&#xA0;
print(confusion_matrix(y_test,&#xA0;y_pred))&#xA0;&#xA0;
print(classification_report(y_test,&#xA0;y_pred))&#xA0;&#xA0;

[[68  6]
 [10 62]]
              precision    recall  f1-score   support

        Down       0.87      0.92      0.89        74
          Up       0.91      0.86      0.89        72

    accuracy                           0.89       146
   macro avg       0.89      0.89      0.89       146
weighted avg       0.89      0.89      0.89       146

模型评价

混淆矩阵

import&#xA0;matplotlib.pyplot&#xA0;as&#xA0;plt
import&#xA0;seaborn&#xA0;as&#xA0;sns
from&#xA0;sklearn&#xA0;import&#xA0;metrics

cm_matrix&#xA0;=&#xA0;metrics.confusion_matrix(y_test,&#xA0;y_pred)
cm_matrix

class_names=[0,1]&#xA0;#&#xA0;name&#xA0;&#xA0;of&#xA0;classes
fig,&#xA0;ax&#xA0;=&#xA0;plt.subplots()
tick_marks&#xA0;=&#xA0;np.arange(len(class_names))
plt.xticks(tick_marks,&#xA0;class_names)
plt.yticks(tick_marks,&#xA0;class_names)
#&#xA0;create&#xA0;heatmap
sns.heatmap(pd.DataFrame(cm_matrix),&#xA0;annot=True,&#xA0;cmap="YlGnBu"&#xA0;,fmt='g')
ax.xaxis.set_label_position("top")
plt.tight_layout()
plt.title('Confusion&#xA0;matrix',&#xA0;y=1.1)
plt.ylabel('Actual&#xA0;label')
plt.xlabel('Predicted&#xA0;label')
plt.show()
print("Accuracy:",metrics.accuracy_score(y_test,&#xA0;y_pred))

Accuracy: 0.8904109589041096

决策树用于特征创造

将每日来盘价、收盘价、交易量等进行环比，得到每天是增是减的分类型变量。

#&#xA0;&#x521B;&#x9020;&#x66F4;&#x591A;&#x7684;&#x65F6;&#x95F4;
dataset['Open_N']&#xA0;=&#xA0;np.where(dataset['open'].shift(-1)&#xA0;>&#xA0;dataset['open'],'Up','Down')
dataset['High_N']&#xA0;=&#xA0;np.where(dataset['high'].shift(-1)&#xA0;>&#xA0;dataset['high'],'Up','Down')
dataset['Low_N']&#xA0;=&#xA0;np.where(dataset['low'].shift(-1)&#xA0;>&#xA0;dataset['low'],'Up','Down')
dataset['Close_N']&#xA0;=&#xA0;np.where(dataset['close'].shift(-1)&#xA0;>&#xA0;dataset['close'],'Up','Down')
dataset['Volume_N']&#xA0;=&#xA0;np.where(dataset['volume'].shift(-1)&#xA0;>&#xA0;dataset['volume'],'Positive','Negative')
dataset.head()

数据预处理

X&#xA0;=&#xA0;dataset[['Open',&#xA0;'Open_N',&#xA0;'Volume_N']].values
y&#xA0;=&#xA0;dataset['Up_Down']

from&#xA0;sklearn&#xA0;import&#xA0;preprocessing
le_Open&#xA0;=&#xA0;preprocessing.LabelEncoder()
le_Open.fit(['Up','Down'])
X[:,1]&#xA0;=&#xA0;le_Open.transform(X[:,1])&#xA0;

le_Volume&#xA0;=&#xA0;preprocessing.LabelEncoder()
le_Volume.fit(['Positive',&#xA0;'Negative'])
X[:,2]&#xA0;=&#xA0;le_Volume.transform(X[:,2])&#xA0;

from&#xA0;sklearn.model_selection&#xA0;import&#xA0;train_test_split&#xA0;&#xA0;
X_train,&#xA0;X_test,&#xA0;y_train,&#xA0;y_test&#xA0;=&#xA0;train_test_split(X,&#xA0;y,&#xA0;test_size=0.20)

模型建立与预测

from&#xA0;sklearn.tree&#xA0;import&#xA0;DecisionTreeClassifier&#xA0;&#xA0;
classifier&#xA0;=&#xA0;DecisionTreeClassifier()&#xA0;&#xA0;
classifier.fit(X_train,&#xA0;y_train)
#&#xA0;&#x5B9E;&#x4F8B;&#x5316;&#x6A21;&#x578B;
Up_Down_Tree&#xA0;=&#xA0;DecisionTreeClassifier(criterion="entropy",&#xA0;max_depth&#xA0;=&#xA0;4)
Up_Down_Tree
Up_Down_Tree.fit(X_train,y_train)
#&#xA0;&#x9884;&#x6D4B;
predTree&#xA0;=&#xA0;Up_Down_Tree.predict(X_test)
print(predTree[0:5])
print(y_test[0:5])

['Up' 'Up' 'Up' 'Up' 'Down']
date
2019-12-31      Up
2019-12-25      Up
2018-01-11      Up
2020-08-21    Down
2019-11-20    Down
Name: Up_Down, dtype: object

决策树可视化

from&#xA0;sklearn.tree&#xA0;import&#xA0;DecisionTreeClassifier
from&#xA0;IPython.display&#xA0;import&#xA0;Image&#xA0;&#xA0;
from&#xA0;sklearn&#xA0;import&#xA0;tree
#&#xA0;pip&#xA0;install&#xA0;pydotplus
import&#xA0;pydotplus
#&#xA0;&#x521B;&#x5EFA;&#x51B3;&#x7B56;&#x6811;&#x5B9E;&#x4F8B;
clf&#xA0;=&#xA0;DecisionTreeClassifier(random_state=0)
X&#xA0;=&#xA0;dataset.['open',&#xA0;'high',&#xA0;'low',&#xA0;'volume',&#xA0;'Open_Close',&#xA0;'High_Low',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;'Increase_Decrease',&#xA0;'Buy_Sell_on_Open',&#xA0;'Returns']&#xA0;&#xA0;
y&#xA0;=&#xA0;dataset['Buy_Sell']&#xA0;
#&#xA0;&#x8BAD;&#x7EC3;&#x6A21;&#x578B;
model&#xA0;=&#xA0;clf.fit(X,&#xA0;y)
#&#xA0;&#x521B;&#x5EFA;&#xA0;DOT&#xA0;data
dot_data&#xA0;=&#xA0;tree.export_graphviz(clf,&#xA0;out_file=None,&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;feature_names=X.columns,&#xA0;&#xA0;
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;class_names=X.columns)
#&#xA0;&#x7ED8;&#x56FE;
graph&#xA0;=&#xA0;pydotplus.graph_from_dot_data(dot_data)&#xA0;&#xA0;
#&#xA0;&#x5C55;&#x73B0;&#x56FE;&#x5F62;
Image(graph.create_png())

决策树可视化2

这里展示了整个决策树决策过程，这里看似很不清晰，但放大后，能看清每个小框框的内容：分类规则、基尼指数、样本数、类别标签等等详细内容。

支持向量机分类器

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的 间隔最大的线性分类器，间隔最大使它有别于感知机；

SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

SVM还包括核技巧，这使它成为实质上的非线性分类器。

Sklearn中实现SVM也是比较方便。

from&#xA0;sklearn.svm&#xA0;import&#xA0;SVC&#xA0;#&#xA0;"Support&#xA0;Vector&#xA0;Classifier"
from&#xA0;sklearn.metrics&#xA0;import&#xA0;accuracy_score
from&#xA0;sklearn.metrics&#xA0;import&#xA0;classification_report
model&#xA0;=&#xA0;SVC(kernel&#xA0;=&#xA0;'rbf',&#xA0;C&#xA0;=&#xA0;1000,gamma=0.001)
model.fit(X_train,&#xA0;y_train)
svc_predictions&#xA0;=&#xA0;model.predict(X_test)
print("Accuracy&#xA0;of&#xA0;SVM&#xA0;using&#xA0;optimized&#xA0;parameters&#xA0;",&#xA0;accuracy_score(y_test,svc_predictions)*100)
print("Report&#xA0;:&#xA0;",&#xA0;classification_report(y_test,svc_predictions))
print("Score&#xA0;:&#xA0;",model.score(X_test,&#xA0;y_test))

更多分类模型效果评价可参见该文中的评价指标。

以上文章来源于数据STUDIO ，作者云朵君。

Original: https://blog.csdn.net/weixin_57712785/article/details/123085701
Author: PythonYL学习进阶
Title: 基于Python实现五大常用分类算法(原理+代码)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614324/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

故障诊断知识图谱

该文档主要参考：概述该项目要求从网络上爬取相关设备故障和维修解决方式，并构建知识库，当设备出现故障时，用户通过输入数控机床相关参数（品牌、型号、故障代码、某个或多个超出阈值参数…

人工智能 2023年6月10日
0097
【数据挖掘】天池挑战赛新闻推荐

比赛网址：https://tianchi.aliyun.com/competition/entrance/531842/introduction项目源码：Github 一、项目知识…

人工智能 2023年7月17日
0056
NAFNet：图像去噪，去模糊新SOTA！荣获NTIRE 2022 超分辨率冠军方案！

导读：2022年4月，旷视研究院发表了一种基于图像恢复任务的全新网络结构，它在SIDD和GoPro数据集上进行训练和测试，该网络结构实现了在图像去噪任务和图像去模糊任务上的新SOT…

人工智能 2023年5月26日
0080
anaconda新建的环境如何在jupyter notebook中打开

我的情况：win10电脑，已经安装anaconda,用的自带3.7版的python；我的问题：最近需要安装tensorflow ，在3.7版的python上安装失败，所以打算新创建…

人工智能 2023年5月24日
0065
Python（数据分析篇）— Pandas框架【一】DataFrame数据创建以及元素的增删改查

pandas主要分为如下几个阶段：首先，导入相应模块 import pandas as pd import numpy as np dataframe是一种表格型数据结构，拥有a…

人工智能 2023年7月8日
0082
数字图像处理（1）—— 基本概念与彩色图像

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月20日
0059
如何在GPU上运行pytorch程序（正确方法）

用GPU跑pytorch程序就3点： 1.申明用GPU 2.把你的model放到GPU上 3.把数据和标签放到GPU上详细步骤： 1.申明： device=torch.devic…

人工智能 2023年7月13日
0074
2021-12-09 Pandas—to_csv()写入函数参数详解

1. to_csv函数的参数 DataFrame.to_csv(path_or_buf=None, sep=’,’, na_rep=”, flo…

人工智能 2023年7月7日
0048
Python 基于OpenCV+face_recognition实现人脸捕捉与人脸识别（照片对比）

1.安装包依赖与上篇通过摄像头动态识别人脸一样，先下载好opencv-python、face-recognition，这里因为使用的是照片对比的方式，特意使用tkinter画了一…

人工智能 2023年7月27日
0054
PyTorch 对 Batch 中每个样本计算损失 Loss for each sample

PyTorch 的损失函数（这里我只使用与调研了 MSELoss）默认会对一个 Batch 的所有样本计算损失，并求均值。如果我需要每个样本的损失用于之后的一些计算（与优化模型参数…

人工智能 2023年7月21日
0073
【神经网络】二、softmax回归（多输出的单层神经网络）

目录 1.分类问题 2.softmax回归模型 * （1）模型定义（2）softmax函数（3）交叉熵损失函数 3.代码实现 * Pytorch代码 1.分类问题根据上一章，…

人工智能 2023年6月18日
0093
解决pytorch 二分类数据集全部预测到了同一类

文章目录 * – 问题描述 – + 训练集和验证集训练分布 + 训练方法 + 训练结果 – 解决办法 – + 1. 修改学习率 + …

人工智能 2023年7月21日
0048
【NLP】文本分类-情感分类

1 常见NLP文本分类模型 1.1 TextCNN 论文原文：《Convolutional Neural Networks for Sentence Classification》…

人工智能 2023年5月28日
00102
（七）DKN:用于新闻推荐的深度知识感知网络

摘要：背景：新闻语言是高度浓缩的，充满了知识实体和常识。然而，现有的方法并没有意识到一些外在的知识，也不能充分发现新闻之间潜在的知识层面的联系。因此，推荐给用户的结果仅限于…

人工智能 2023年6月1日
0072
9、【办公自动化】Python实现Word文件的批量操作

说明上一篇介绍了【Python 实现 PDF 文件的批量操作】，这篇将介绍通过 Python 实现 Word 文档的批量操作。Word 作为日常办公重要且常用的文档之一，经常也会…

人工智能 2023年6月29日
0073
pandas—数据选择的常见用法

使用pandas时，经常会对某行、某列、满足条件的数据进行统计计算。以下总结了pandas数据选择的常见方法，包括loc、iloc等方法的使用。首先读取数据： df = pd.re…

人工智能 2023年7月7日
00100

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于Python实现五大常用分类算法(原理+代码)

一般应用

分类分析算法的选取

数据准备

KNN

数据预处理

模型训练与预测

模型评价

绘制学习曲线

误差率可视化

逻辑回归

数据准备

模型实例化

模型评价

朴素贝叶斯分类器

一些特点

贝叶斯定理

求解步骤

算法实现

校准的预测概率

决策树分类器

基本原理

特征选择

分类决策树的生成

决策树的剪枝

算法实现

模型评价

决策树用于特征创造

数据预处理

模型建立与预测

决策树可视化

支持向量机分类器

大家都在看