R 线性模型 检验异常观测值

一个全面的回归分析要覆盖对异常值的分析,包括离群点、高杠杆值点和强影响点。这些数 据点需要更深入的研究,因为它们在一定程度上与其他观测点不同,可能对结果产生较大的负面 影响。下面我们依次学习这些异常值。

8.4.1 离群点

离群点是指那些模型预测效果不佳的观测点。它们通常有很大的、或正或负的残差(Yi–Ŷi)。 正的残差说明模型低估了响应值,负的残差则说明高估了响应值。

你已经学习过一种鉴别离群点的方法:图8-9的Q-Q图,落在置信区间带外的点即可被认为是 离群点。另外一个粗糙的判断准则:标准化残差值大于2或者小于–2的点可能是离群点,需要特 别关注。

car包也提供了一种离群点的统计检验方法。outlierTest()函数可以求得最大标准化残差 绝对值Bonferroni调整后的p值

> library(car)
 > outlierTest(fit)
 rstudent unadjusted p-value Bonferonni p
Nevada 3.5 0.00095 0.048

此处,你可以看到Nevada被判定为离群点(p=0.048)。注意,该函数只是根据单个最大(或 正或负)残差值的显著性来判断是否有离群点。若不显著,则说明数据集中没有离群点;若显著, 则你必须删除该离群点,然后再检验是否还有其他离群点存在。

高杠杆值点

高杠杆值观测点,即与其他预测变量有关的离群点。换句话说,它们是由许多异常的预测变 量值组合起来的,与响应变量值没有关系。

高杠杆值的观测点可通过帽子统计量(hat statistic

Original: https://blog.csdn.net/Mrrunsen/article/details/121886689
Author: Mrrunsen
Title: R 线性模型 检验异常观测值

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/635079/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球