回归模型的score得分为负_深度研究：回归模型评价指标R2_score

2023年6月18日下午12:56 • 人工智能 • 阅读 124

回归模型的性能的评价指标主要有：RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、R2_score。但是当量纲不同时，RMSE、MAE、MSE难以衡量模型效果好坏。这就需要用到R2_score，实际使用时，会遇到许多问题，今天我们深度研究一下。

预备知识

搞清楚R2_score计算之前，我们还需要了解几个统计学概念。

若用表示真实的观测值，用表示真实观测值的平均值，用表示预测值,则：

回归平方和：SSR

即估计值与平均值的误差，反映自变量与因变量之间的相关程度的偏差平方和

残差平方和：SSE

即估计值与真实值的误差，反映模型拟合程度

总离差平方和：SST

即平均值与真实值的误差，反映与数学期望的偏离程度

R2_score计算公式

R^2 score，即决定系数，反映因变量的全部变异能通过回归关系被自变量解释的比例。计算公式：

即

进一步化简

分子就变成了常用的评价指标均方误差MSE，分母就变成了方差。

对于可以通俗地理解为使用均值作为误差基准，看预测误差是否大于或者小于均值基准误差。

R2_score = 1，样本中预测值和真实值完全相等，没有任何误差，表示回归分析中自变量对因变量的解释越好。

R2_score = 0。此时分子等于分母，样本的每项预测值都等于均值。

R2_score不是r的平方，也可能为负数(分子>分母)，模型等于盲猜，还不如直接计算目标变量的平均值。

r2_score使用方法

根据公式，我们可以写出r2_score实现代码

1- mean_squared_error(y_test,y_preditc)/ np.var(y_test)

也可以直接调用sklearn.metrics中的r2_score

sklearn.metrics.r2_score(y_true, y_pred, sample_weight=None, multioutput=’uniform_average’)

y_true：观测值

y_pred：预测值

sample_weight：样本权重，默认None

multioutput：多维输入输出，可选’raw_values’, ‘uniform_average’, ‘variance_weighted’或None。默认为’uniform_average’;

raw_values：分别返回各维度得分

uniform_average：各输出维度得分的平均

variance_weighted：对所有输出的分数进行平均，并根据每个输出的方差进行加权。

sklearn.metrics.r2_score使用方法

import matplotlib.pyplot as plt

import numpy as np

from sklearn import datasets, linear_model

from sklearn.metrics import r2_score

导入数据

diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

diabetes_X = diabetes_X[:, np.newaxis, 2]

划分测试集验证集

diabetes_X_train = diabetes_X[:-20]

diabetes_X_test = diabetes_X[-20:]

diabetes_y_train = diabetes_y[:-20]

diabetes_y_test = diabetes_y[-20:]

创建线性回归模型

regr = linear_model.LinearRegression()

训练模型

regr.fit(diabetes_X_train, diabetes_y_train)

预测

diabetes_y_pred = regr.predict(diabetes_X_test)

模型评价

print(‘r2_score: %.2f’

% r2_score(diabetes_y_test, diabetes_y_pred))

绘制预测效果图

plt.scatter(diabetes_X_test, diabetes_y_test, color=’black’)

plt.plot(diabetes_X_test, diabetes_y_pred, color=’blue’, linewidth=3)

plt.xticks(())

plt.yticks(())

plt.show()

r2_score: 0.47

r2_score偏小，预测效果一般。

注意事项

1、一般用在线性模型中(非线性模型也可以用)

2、不能完全反映模型预测能力的高低,某个实际观测的自变量取值范围很窄，但此时所建模型的R2 很大，但这并不代表模型在外推应用时的效果肯定会很好。

3、数据集的样本越大，R越大，因此，不同数据集的模型结果比较会有一定的误差，此时可以使用Adjusted R-Square (校正决定系数),能对添加的非显著变量给出惩罚:

n是样本的个数，p是变量的个数

Reference

https://zhuanlan.zhihu.com/p/36305931 https://blog.csdn.net/Dear_D/article/details/86144696

Original: https://blog.csdn.net/weixin_39987847/article/details/113552976
Author: weixin_39987847
Title: 回归模型的score得分为负_深度研究：回归模型评价指标R2_score

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635171/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

监督学习中的标签是什么意思？它们如何被用于训练机器学习模型

1. 问题背景在监督学习中，标签是指训练数据中的目标变量或输出变量，即我们希望机器学习模型能够预测或分类的值。标签可以是离散的，比如分类问题中的类别标签，也可以是连续的，比如回归…

人工智能 2024年1月2日
0095
MAE源代码理解 part2 ：预训练调试

目录 1 事先准备二调试用MAE预训练的模型用于自己下游的分类 part1 ： MAE源代码理解 part1 ：调试理解法_YI_SHU_JIA的博客-CSDN博客 git…

人工智能 2023年7月26日
00201
Python员工离职数据分析

Python员工离职数据分析 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt i…

人工智能 2023年7月9日
0058
《多元统计分析与R语言》作业6

; 《多元统计分析与R语言》作业6 免责声明：答案仅供参考针对教材P212页的表格7-5（附件文档 wk_6.csv），用系统聚类和快速聚类做聚类分析。 …&#823…

人工智能 2023年5月31日
0087
李宏毅机器学习组队学习打卡活动day02—回归

文章目录 * – 写在前面 – 回归 – + 定义 + 模型步骤 + * 线性模型——一元线性模型： * 线性模型——多元线性模型： * 模型评…

人工智能 2023年6月17日
0082
1.人工智能早期知识表示方法

1.一阶谓词逻辑【一阶逻辑】原子公式：图灵奖得主（x）x是变量图灵奖得主是一元谓词 2.霍恩逻辑与霍恩子句文字：原子谓词公式及其否定称为文字P（x），Q（x）子句：任何文字的…

人工智能 2023年6月1日
00102
一加七语音唤醒_一加8t有语音助手吗

一加手机本来没有语音助手，不过一加手机从氢OS 10.0开始支持语音助手小布，那么最新发布的一加8t有语音助手吗?下面一起来看看吧~ 品牌型号：一加8t 系统版本：氢OS 10.0…

人工智能 2023年5月27日
0098
mulesoft Module 2 quiz 解析

mulesoft Module 2 quiz 解析 1. What asset can NOT be created using Design Center? 2. A web c…

人工智能 2023年6月26日
0061
【sparkSQL】创建DataFrame及保存

首先我们要创建SparkSession java;gutter:true; val spark = SparkSession.builder() .appName("te…

人工智能 2023年6月2日
0078
数据库数据模型

目录 1 基本概念 2 数据模型的三要素 3 E-R模型 3.1 实体 3.2 联系 3.3 属性 3.4 实体-联系方法 3.5 扩展的E-R模型 4 数据模型 5 关系模型 1…

人工智能 2023年6月10日
00226
ConvNeXt实战：使用ConvNeXt实现植物幼苗分类（自创，非官方）

ConvNeXts 完全由标准 ConvNet 模块构建，在准确性和可扩展性方面与 Transformer 竞争，实现 87.8% ImageNet top-1 准确率，在 COC…

人工智能 2023年7月1日
0090
机器学习分类算法之支持向量机

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0068
geopandas：数据读取、坐标设置与转换、空间查询连接、数据输出、距离计算

导入相关包 import geopandas as gp import pandas as pd 数据读取 polygonShp=gp.read_file("./shp/…

人工智能 2023年6月19日
0086
SPSS数据分析

第一题表1 居民健康状况调查情况编号身高（cm）体重（kg）代谢综合征性别胆固醇（mmol/L） 1 173.0 87.5 0 0 4.17 2 168.0 7…

人工智能 2023年7月15日
0057
数据湖：网易严选的数据湖实践

文章目录 * – 一、业务背景 – 二、数据架构 – 三、现状 &目标 – 四、数据湖是解法？ – + 1.数据…

人工智能 2023年7月17日
0065
.pth转.weights/openCV-python + YOLO v3实现目标检测

毕设做的是水面目标的目标检测，因为要用Tkinter制作用户界面，于是采用openCV库来实现图像的处理，恰好openCV支持YOLO v3的部署…… 因为…

人工智能 2023年6月19日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31