一个全面的回归分析要覆盖对异常值的分析,包括离群点、高杠杆值点和强影响点。这些数 据点需要更深入的研究,因为它们在一定程度上与其他观测点不同,可能对结果产生较大的负面 影响。下面我们依次学习这些异常值。
8.4.1 离群点
离群点是指那些模型预测效果不佳的观测点。它们通常有很大的、或正或负的残差(Yi–Ŷi)。 正的残差说明模型低估了响应值,负的残差则说明高估了响应值。
你已经学习过一种鉴别离群点的方法:图8-9的Q-Q图,落在置信区间带外的点即可被认为是 离群点。另外一个粗糙的判断准则:标准化残差值大于2或者小于–2的点可能是离群点,需要特 别关注。
car包也提供了一种离群点的统计检验方法。outlierTest()函数可以求得最大标准化残差 绝对值Bonferroni调整后的p值
> library(car)
> outlierTest(fit)
rstudent unadjusted p-value Bonferonni p
Nevada 3.5 0.00095 0.048
此处,你可以看到Nevada被判定为离群点(p=0.048)。注意,该函数只是根据单个最大(或 正或负)残差值的显著性来判断是否有离群点。若不显著,则说明数据集中没有离群点;若显著, 则你必须删除该离群点,然后再检验是否还有其他离群点存在。
高杠杆值点
高杠杆值观测点,即与其他预测变量有关的离群点。换句话说,它们是由许多异常的预测变 量值组合起来的,与响应变量值没有关系。
高杠杆值的观测点可通过帽子统计量(hat statistic
Original: https://blog.csdn.net/Mrrunsen/article/details/121886689
Author: Mrrunsen
Title: R 线性模型 检验异常观测值
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/635079/
转载文章受原作者版权保护。转载请注明原作者出处!