随机森林实现回归预测(糖尿病数据集)

2023年6月13日上午3:23 • 人工智能 • 阅读 69

文章目录

*
– 1.实验简介
– 2.算法分析
– 3.具体实现
– 4.代码
– 5.结果分析

1.实验简介

本次实验需要实现一个随机森林模型并在糖尿病数据集上进行回归预测。

2.算法分析

随机森林是由N颗简单的决策树组合而成，对于分类任务随机森林的输出可以采用简单的投票法决定随机森林的预测值；对于回归任务来说，就是把N颗回归决策树的输出结果进行平均。
对于随机森林来进行回归任务，可以分两个部分来实现。第一部分我们先实现回归决策树，第二部分在回归决策树的基础上实现回归随机森林。

3.具体实现

3.1 回归决策树
在上一次实验的分类决策树基础上实现回归决策树有以下的改变：

增益的衡量在这里我们用方差来替代
叶子节点的预测值由占多数的类别改为平均值
在寻找最佳属性及其阈值时，直接取实际的数据作为候选阈值，不用排序再取两个数据的均值
划分过的属性在之后的划分还能继续使用
因为没有了属性使用的限制，需要实现树的深度的控制max_depth这个参数。另外，也需实现min_samples这个参数

3.2 回归随机森林
回归森林使用N棵回归决策树，这里有两点需要注意：

样本的随机性
对于每棵树输入的数据需要是不同的，如果对N棵树输入同样的数据，那得出的结果都是一样的，随机森林也就没有了意义。所以，对于每一棵树，使用的数据是训练集通过随机有放回的采样得到的。
属性的随机性
寻找最优划分属性时，先随机选出一部分，再在这一部分中选取增益最大属性的。

4.代码

import math
import matplotlib.pyplot as plt
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn import datasets

class DecisionNode(object):
    def __init__(self, f_idx, threshold, value=None, L=None, R=None):
        self.f_idx = f_idx
        self.threshold = threshold
        self.value = value
        self.L = L
        self.R = R

def find_best_threshold(dataset: np.ndarray, f_idx: int):
    best_gain = -math.inf
    best_threshold = None

    candidate = list(set(dataset[:, f_idx].reshape(-1)))
    for threshold in candidate:
        L, R = split_dataset(dataset, f_idx, threshold)
        gain = calculate_var_gain(dataset, L, R)
        if gain > best_gain:
            best_gain = gain
            best_threshold = threshold
    return best_threshold, best_gain

def calculate_var(dataset: np.ndarray):
    y_ = dataset[:, -1].reshape(-1)
    var = np.var(y_)
    return var

def calculate_var_gain(dataset, l, r):
    var_y = calculate_var(dataset)
    var_gain = var_y - len(l) / len(dataset) * calculate_var(l) - len(r) / len(dataset) * calculate_var(r)
    return var_gain

def split_dataset(X: np.ndarray, f_idx: int, threshold: float):
    L = X[:, f_idx] < threshold
    R = ~L
    return X[L], X[R]

def mean_y(dataset):
    y_ = dataset[:, -1]
    return np.mean(y_)

def build_tree(dataset: np.ndarray, f_idx_list: list, depth, max_depth, min_samples):

    class_list = [data[-1] for data in dataset]
    n, m = dataset.shape
    k = int(math.log(m, 2)) + 1
    if n < min_samples:
        return DecisionNode(None, None, value=mean_y(dataset))

    elif depth > max_depth:
        return DecisionNode(None, None, value=mean_y(dataset))

    elif class_list.count(class_list[0]) == len(class_list):
        return DecisionNode(None, None, value=mean_y(dataset))

    else:

        best_gain = -math. inf
        best_threshold = None
        best_f_idx = None

        f_idx_list_random = list(np.random.choice(m-1, size=k, replace=False))
        for i in f_idx_list_random:
            threshold, gain = find_best_threshold(dataset, i)
            if gain > best_gain:
                best_gain = gain
                best_threshold = threshold
                best_f_idx = i

        L, R = split_dataset(dataset, best_f_idx, best_threshold)
        if len(L) == 0:
            depth += 1
            L_tree = DecisionNode(None, None, mean_y(dataset))
        else:
            depth += 1
            L_tree = build_tree(L, f_idx_list, depth, max_depth, min_samples)

        if len(R) == 0:
            R_tree = DecisionNode(None, None, mean_y(dataset))
        else:
            R_tree = build_tree(R, f_idx_list, depth, max_depth, min_samples)

        return DecisionNode(best_f_idx, best_threshold, value=None, L=L_tree, R=R_tree)

def predict_one(model: DecisionNode, data):
    if model.value is not None:
        return model.value
    else:
        feature_one = data[model.f_idx]
        branch = None
        if feature_one >= model.threshold:
            branch = model.R
        else:
            branch = model.L
        return predict_one(branch, data)

def random_sample(dataset):
    n, _ = dataset.shape
    sub_data = np.copy(dataset)
    random_data_idx = np.random.choice(n, size=n, replace=True)
    sub_data = sub_data[random_data_idx]
    return sub_data[:, 0:-1], sub_data[:, -1]

class Random_forest(object):
    def __init__(self, min_samples, max_depth):
        self.min_samples = min_samples
        self.max_depth = max_depth

    def fit(self, X: np.ndarray, y: np.ndarray) -> None:
        dataset_in = np.c_[X, y]
        f_idx_list = [i for i in range(X.shape[1])]
        depth = 0
        self.my_tree = build_tree(dataset_in, f_idx_list, depth, self.max_depth, self.min_samples)

    def predict(self, X: np.ndarray) -> np.ndarray:
        predict_list = []
        for data in X:
            predict_list.append(predict_one(self.my_tree, data))

        return np.array(predict_list)

if __name__ == "__main__":
    X, y = datasets.load_diabetes(return_X_y=True)
    y_predict_list = []
    r2_score_list = []
    tree_number = []
    MAE_list = []
    MAPE_list = []

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
    print(y_test.shape)

    dataset = np.c_[X_train, y_train]
    np.seterr(divide='ignore', invalid='ignore')

    T = 100
    for i in range(T):
        X_train_samples, y_train_samples = random_sample(dataset)
        m = Random_forest(min_samples=5, max_depth=20)
        m.fit(X_train_samples, y_train_samples)
        y_predict = m.predict(X_test)
        y_predict_list.append(y_predict)
        print("epoc", i+1, " done")

        y_ = np.mean(y_predict_list, axis=0)

        score = r2_score(y_test, y_)
        r2_score_list.append(score)
        tree_number.append((i + 1))

        errors = abs(y_ - y_test)
        MAE_list.append(np.mean(errors))

        mape = 100 * (errors / y_test)
        MAPE_list.append(np.mean(mape))

    plt.plot(tree_number[5:-1], r2_score_list[5:-1])
    plt.title('r2_score')
    plt.xlabel('tree number')
    plt.ylabel('r2_score')
    plt.show()

    plt.plot(tree_number, MAPE_list)
    plt.xlabel('tree number')
    plt.ylabel('MAPE %')
    plt.title("MAPE: Mean Absolute Percentage Error")
    plt.show()

    y_result = np.mean(y_predict_list, axis=0)
    print("r2_score:", r2_score(y_test, y_result))

    errors1 = abs(y_result - y_test)
    print('Mean Absolute Error:', np.round(np.mean(errors1), 2), 'degrees.')

    mape = 100 * (errors1 / y_test)
    print('MAPE:', np.round(np.mean(mape), 2), '%.')

    plt.figure(figsize=(20, 5))
    plt.plot([i for i in range(y_test.shape[0])], y_test, color='red', alpha=0.8, label="y_test")
    plt.plot([i for i in range(y_test.shape[0])], y_result, color='blue', alpha=0.8, label="y_result")
    plt.legend(loc="upper right")
    plt.title("My Random forest")
    plt.show()

    regressor = RandomForestRegressor(n_estimators=100, min_samples_leaf=5)
    regressor.fit(X_train, y_train)
    y_pred = regressor.predict(X_test)
    print('sklearn score:{}'.format(r2_score(y_test, y_pred)))

    errors = abs(y_pred - y_test)

    print('Mean Absolute Error:', np.round(np.mean(errors), 2), 'degrees.')
    mape = 100 * (errors / y_test)
    accuracy = 100 - np.mean(mape)
    print('Accuracy:', round(accuracy, 2), '%.')

    plt.figure(figsize=(20, 5))
    plt.plot([i for i in range(y_test.shape[0])], y_test, color='red', alpha=0.8, label="y_test")
    plt.plot([i for i in range(y_test.shape[0])], y_pred, color='blue', alpha=0.8, label="y_pred")
    plt.legend(loc="upper right")
    plt.title("sklearn RandomForestRegressor")
    plt.show()

5.结果分析

5.1 与sklearn自带的随机森林模块对比
这里绘制了两张折线图，展现了真实值与预测值的差别，可以看出:

两种方法的真实值与预测值的走势轨迹都大致相同。
上下两幅图的预测值走势是基本相同的，看出两种方法预测出的结果差别不大。

下表也能看出两种方法得出的结果差别不大

5.2 决策树数目对随机森林的影响
下面两幅图分别是r2_score和MAPE随决策树数目的变化曲线图。可以看出从1-20棵树变化时，两幅图的曲线都变化很快，快速收敛。在达到40棵树时，收敛效果都已经很好了，再增加的基分类器（决策树）的数目，效果基本不会提升。

Original: https://blog.csdn.net/qq_51879318/article/details/125127690
Author: ShowerSong
Title: 随机森林实现回归预测(糖尿病数据集)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/606188/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【画学numpy】Drawing and Studying Numpy

画学numpy 用画画的方式轻松入门numpy ⭐️github：drawing_and_studying_numpy包含了可以运行的notebook文件以及本文绘制的所有插图。也…

人工智能 2023年7月17日
0055
[译]在Pandas的Dataframe中删除行、列

导入模块 import pandas as pd 创建dataframe data = {‘name’: [‘Jason’, ‘Molly’, ‘Tina’, ‘Jake’, ‘A…

人工智能 2023年6月2日
00101
R语言可视化包ggplot2包使用facet_wrap绘制多面板图（子图）实战

R语言可视化包ggplot2包使用facet_wrap绘制多面板图（子图）实战目录 R语言可视化包ggplot2包使用facet_wrap绘制多面板图（子图）实战 Origina…

人工智能 2023年7月18日
0038
4、信源编码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0063
【机器学习】高斯混合模型详解

目录 1 引言 2 高斯混合模型 * 2.1 高斯分布 2.2 高斯混合模型 3 高斯混合模型的求解 4 参考文献 1 引言高斯混合模型（Gaussian Mixture Mod…

人工智能 2023年7月28日
0093
LSTM分类模型

LSTM文本分类模型本文主要固定一个文本分类的流程。分为三个部分：数据处理。对分类文本数据集做简单的预处理。模型数据准备。处理上一步的结果，得到模型的输入样本。模型搭建和训…

人工智能 2023年6月16日
0069
R语言使用read_table函数读取文本文件或者文本数据生成dataframe数据集、从分隔文本文件中导入数据（Importing data from a delimited text file）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0073
Windowds10安装LDAP服务器和客户端及遇到问题的整理

windows环境 ; OpenLDAPforWindows的安装我是64位电脑，所以选择64位安装程序：下载链接1： https://www.maxcrc.de/wp-con…

人工智能 2023年6月26日
00130
SPSS异方差检验的实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0043
MMDetection亲测安装教程

MMDetection是一个基于 PyTorch 的目标检测开源工具箱。接下来就安装看看吧。本人安装环境：系统环境：Ubuntu 20.04.2 LTS cuda版本：11.0…

人工智能 2023年6月16日
0087
【摸鱼神器】基于python的BOSS识别系统

【摸鱼神器】基于python的BOSS识别系统前言一、整体设计二、调用摄像头三、人脸识别 * 1. 构建白名单库 2. 人脸匹配四、切换屏幕五、完整代码写在最后前言…

人工智能 2023年7月5日
0067
关于CBAM模块在ResNet18上的使用：用于MNIST数据集分类

昨天学习了CBAM模块和ACNet。今天就想试一下CBAM模块的效果，所以编写了代码在MNIST数据集上做分类任务，但是看不出什么差别，而且没加CBAM模块的效果反而好一些。我…

人工智能 2023年7月2日
0079
RuntimeError: (PreconditionNotMet) The third-party dynamic library (cudnn64_7.dll) that Paddle depen

paddlepaddle-gpu版本安装过程挺复杂的（我安装的是cuda10.2版本的）大概可以分成三步1、先装cuda（官网链接：https://developer.nvidi…

人工智能 2023年6月23日
0079
深度学习分类问题中accuracy等评价指标的理解

在处理深度学习分类问题时，会用到一些评价指标，如accuracy（准确率）等。刚开始接触时会感觉有点多有点绕，不太好理解。本文写出我的理解，同时以语音唤醒（唤醒词识别）来举例，希望…

人工智能 2023年7月3日
0067
电脑重装系统c盘如何备份资料

现在越来越多的用户都喜欢重装自己所喜欢的电脑系统，但需要在重新安装系统之前备份自己的电脑。因此有很多用户问重装系统c盘如何备份的文件。今天小编就教下大家重装系统c盘如何备份的教程。…

人工智能 2023年6月27日
0097
yolov5加入CBAM,SE,CA,ECA注意力机制，纯代码（22.3.1还更新）

本文所涉及到的yolov5网络为5.0版本，后续有需求会更新6.0版本。 CBAM注意力 class ChannelAttention(nn.Module): def __init…

人工智能 2023年7月30日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31