CHAPTER 9 ANALYSIS OF COLLINEAR DATA

2023年6月17日下午4:55 • 人工智能 • 阅读 57

Ex1

table 9.3

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.stats.outliers_influence
from prettytable import PrettyTable

data=pd.read_csv( data['constant']=1 data['index']=range(1,71) <pre><code>=sm.ols(data[‘achv’],data[[‘constant’,’fam’,’peer’,’school’]]).fit()
print(model.summary())

predicted=model.fittedvalues outliers=model.get_influence() res=outliers.resid_studentized_internal plt.xlabel("Predicted",size=15) plt.ylabel("Residuals",size=15) plt.title("Figure9.1",size=20,c="teal") plt.axhline(y=0,ls="-.",c="r",alpha=0.5) plt.axvline(x=0,ls="-.",c="r",alpha=0.5) color=['r' if abs(i)>2.5 else 'b' for i in res] for i in range(len(res)): if abs(res[i])>2.5: plt.annotate("(%s,%s)" % (data['index'][i],round(res[i],2)),xy=(predicted[i],res[i]),size=15) plt.scatter(predicted,res,c=color) <pre><code> ![CHAPTER 9 ANALYSIS OF COLLINEAR DATA](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/844da1f2c09f4744a7e4b34e21f9557f.png)
f=f.ppf(0.99,3,66)
f

R^2= 0.206;F= 5.717>4.093,
it is accepted that FAM, PEER, and SCHOOL are valid predictor variables. However, the individual t-valuesare all small. In total, the summary statistics say that the three predictors taken together are important but from the t-values, it follows that any one predictor may be deleted from the model provided the other two are retained.

extreme multicollinearity is present

Scatter plots of the three predictor variables

    x_mean=np.mean(x)
    y_mean=np.mean(y)
    fenzi=0
    for i in range(len(x)):
        fenzi+=(x[i]-x_mean)*(y[i]-y_mean)
    fenmu1=0
    for i in range(len(x)):
        fenmu1+=(x[i]-x_mean)**2
    fenmu2=0
    for i in range(len(x)):
        fenmu2+=(y[i]-y_mean)**2
    fenmu=(fenmu1*fenmu2)**0.5
    cor=round(fenzi/fenmu,3)
    return cor

plt.subplot(331)#plt.subplot(231)表示把显示界面分割成2*3的网格,位置1 plt.xticks([]) plt.yticks([]) plt.subplots_adjust(hspace=0,wspace=0)#wspace, hspace：子图之间的横向间距、纵向间距分别与子图平均宽度、平均高度的比值。 plt.text(0.3,0.4,'FAM',c='b',size=15) plt.subplot(332) plt.xticks([]) plt.yticks([]) plt.scatter(data['PEER'],data['FAM'],c='r',s=2) plt.subplot(333) plt.xticks([]) plt.yticks([]) plt.scatter(data['SCHOOL'],data['FAM'],s=3.5,c='r') plt.subplot(334) plt.xticks([]) plt.yticks([]) plt.text(0.3,0.4,cor(data['FAM'],data['PEER']),c='g',size=15) plt.subplot(335) plt.xticks([]) plt.yticks([]) plt.text(0.3,0.4,'PEER',c='b',size=15) plt.subplot(336) plt.xticks([]) plt.yticks([]) plt.scatter(data['SCHOOL'],data['PEER'],s=3.5,c='r') plt.subplot(337) plt.xticks([]) plt.yticks([]) plt.text(0.3,0.5,cor(data['FAM'],data['SCHOOL']),c='g',size=15) plt.subplot(338) plt.xticks([]) plt.yticks([]) plt.text(0.3,0.5,cor(data['PEER'],data['SCHOOL']),c='g',size=15) plt.subplot(339) plt.xticks([]) plt.yticks([]) plt.text(0.3,0.5,'SCHOOL',c='b',size=15) plt.suptitle("Figure9.2",size=20,c="teal") plt.show() <pre><code> ![CHAPTER 9 ANALYSIS OF COLLINEAR DATA](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/1f91e200ffce402aa8d66c9f325882aa.png) Ex2 aggregate data concerning import activity in the French economy ## table9.6 ### 1=pd.read_csv(
data[‘constant’]=1
data[‘index’]=range(1,19)
y=data[‘import’]
x=data.iloc[:,2:5]
x=x.values
y=y.values

    ones=np.ones(shape=((X.shape)[0],1))
    X=np.hstack([ones,X])
    beta=(np.linalg.inv((X.T).dot(X))).dot(X.T).dot(Y)
    y_yuce=X.dot(beta)
    y_mean=np.mean(Y)
    SSE=0
    SST=0
    length=np.shape(X)[0]
    for i in range(length):
        SSE+=((Y[i]-y_yuce[i])**2)
        SST+=((Y[i]-y_mean)**2)
    SST=np.round(SST,4)
    SSE=np.round(SSE,4)
    SSR=np.round(SST-SSE,4)
    df_SSR=np.shape(X)[1]-1
    df_SSE=np.shape(X)[0]-np.shape(X)[1]
    MSR=np.round(SSR/df_SSR,4)
    MSE=np.round(SSE/df_SSE,4)
    F=np.round(MSR/MSE,4)
    label=['source','sum of square','df','mean square']
    table=PrettyTable(label)
    table.add_row(['regression',SSR,df_SSR,MSR])
    table.add_row(['residuals',SSE,df_SSE,MSE])
    table.add_column('F',[F,'--'])
    print(table)
    return
y=data['import']
x=data.iloc[:,2:5]
x=x.values
y=y.values
F(y,x)

2

model=sm.ols(data['import'],data[['constant','doprod','stock','consum']]).fit() print(model.summary()) <pre><code> ![CHAPTER 9 ANALYSIS OF COLLINEAR DATA](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/9e5fef82027b45cab8f1a782d21b3a49.png)=model.get_influence()
res=outliers.resid_studentized_internal
plt.plot(data[‘index’],res,’bo-‘)
plt.xlabel("Index",size=15)
plt.ylabel("Residuals",size=15)
plt.title("Figure9.3",size=20,c=’teal’)
plt.axhline(y=0,ls="-.",c="r",alpha=0.5)
plt.legend([‘Import data (1949-1966)’],loc=(0.3, 0.9))
plt.show()

1.图9.3出现特别模式,模型不适合.multicollinearity is present（虽然 R^2=0.973但 t都很小）
2.根据资料我们去改进model如何构造model2

table 9.71___9.72

1

data2=data.loc[data['index']<=11]#通过行标签索引行数据 model2=sm.OLS(data2['import'],data2[['constant','doprod','stock','consum']]).fit() print(model2.summary()) <pre><code> ![CHAPTER 9 ANALYSIS OF COLLINEAR DATA](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/2e84b3316e384716a0f2cf2b308d5762.png) ### 2=data2[‘import’]
x=data2.iloc[:,2:5]
x=x.values
y=y.values
F(y,x)

outliers2=model2.get_influence() res2=outliers2.resid_studentized_internal plt.plot(data2['index'],res2,'bo-') plt.xlabel("Index",size=15) plt.ylabel("Residuals",size=15) plt.title("Figure9.4",size=20,c='teal') plt.axhline(y=0,ls="-.",c="r",alpha=0.5) plt.legend(['Import data (1949-1959)'],loc=(0.3, 0.9)) plt.show() <pre><code> ![CHAPTER 9 ANALYSIS OF COLLINEAR DATA](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/24b52bb9097c47ca833effa45de91b35.png) 图9.4**没有 **特别模式了纯随机，R^2=0.9 但是doprod的系数是负的并且无显著性与假设矛盾**。推测 **multicollinearity is present** ## Regression Coefficients for All Possible Regressionsmodel1=sm.ols(data2[‘import’],data2[[‘constant’,’doprod’]]).fit()
model2=sm.OLS(data2[‘import’],data2[[‘constant’,’stock’]]).fit()
model3=sm.OLS(data2[‘import’],data2[[‘constant’,’consum’]]).fit()
model4=sm.OLS(data2[‘import’],data2[[‘constant’,’doprod’,’stock’]]).fit()
model5=sm.OLS(data2[‘import’],data2[[‘constant’,’doprod’,’consum’]]).fit()
model6=sm.OLS(data2[‘import’],data2[[‘constant’,’stock’,’consum’]]).fit()
model7=sm.OLS(data2[‘import’],data2[[‘constant’,’doprod’,’stock’,’consum’]]).fit()

a1=np.round(model1.params,3).values.tolist() a1.insert(2,'--') a1.insert(3,'--') a1.insert(0,1) a2=np.round(model2.params,3).values.tolist() a2.insert(1,'--') a2.insert(3,'--') a2.insert(0,2) a3=np.round(model3.params,3).values.tolist() a3.insert(1,'--') a3.insert(2,'--') a3.insert(0,3) a4=np.round(model4.params,3).values.tolist() a4.insert(3,'--') a4.insert(0,4) a5=np.round(model5.params,3).values.tolist() a5.insert(2,'--') a5.insert(0,5) a6=np.round(model6.params,3).values.tolist() a6.insert(1,'--') a6.insert(0,6) a7=np.round(model7.params,3).values.tolist() a7.insert(0,7) table=PrettyTable(['Regression','Constant','DOPROD','STOCK','CONSUM']) table.add_row(a1) table.add_row(a2) table.add_row(a3) table.add_row(a4) table.add_row(a5) table.add_row(a6) table.add_row(a7) print('table 9.8') print(table) <pre><code> ![CHAPTER 9 ANALYSIS OF COLLINEAR DATA](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/51b315ccd5f9444da9f374821109d723.png) Ex3 Aggregate sales of a firm in period t=pd.read_csv(
data[‘constant’]=1
data[‘index’]=range(1,23)
model=sm.OLS(data[‘s_t’],data[[‘constant’,’a_t’,’p_t’,’e_t’,’a_t1′,’p_t1′]]).fit()
print(model.summary())

outliers=model.get_influence() res=outliers.resid_studentized_internal plt.plot(data['index'],res,'bo-') plt.xlabel("Index",size=15) plt.ylabel("Residuals",size=15) plt.title("Figure9.6",size=20,c='teal') plt.axhline(y=0,ls="-.",c="r",alpha=0.5) plt.show() <pre><code> ![CHAPTER 9 ANALYSIS OF COLLINEAR DATA](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/694d843eb9d04789878049005246b109.png) 散点图和残差图 **没有**任何模式随机分布=data[‘s_t’]
x=data.iloc[:,1:6]
x=x.values
y=y.values
F(y,x)

VIF

vif3=[]
for i in range(5):
    a=round(variance_inflation_factor(data.iloc[:,1:7].values,i),2)
    vif3.insert(i,a)
print(vif3)

table=pd.DataFrame({'vif1':vif1,'vif2':vif2,'vif3':vif3})
table

Original: https://blog.csdn.net/weixin_48697939/article/details/121353638
Author: 可乐怪C
Title: CHAPTER 9 ANALYSIS OF COLLINEAR DATA

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631066/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

计算机视觉会议（CVPR，ECCV，ICCV，NIPS，AAAI，ICLR等）

文章目录前言 CVPR ICCV ECCV NIPS AAAI ICLR ICJAI 链接汇总表格直达前言大家都知道，计算机视觉和人工智能领域发展非常迅速，大部分最新的工作都…

人工智能 2023年6月26日
00117
Geoda进行莫兰指数（Moran‘s I指数）相关

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月15日
0091
数学建模教学：常用算法 — ID3-决策树分类算法

0前言本人计算机研二，专业带队数学建模，长期更新建模教学，有需要的同学欢迎讨论～本篇文章，本系列学长讲解一部分数学建模常用算法，会陆续更新每个算法的详细实现和使用教程 1 ID3…

人工智能 2023年7月1日
0079
简明扼要理解YOLOX

首先来看看YOLOX的网络结构图如上图将这个网络分为四个部分：1，输入端；2，Backbone；3，Neck；4 Prediction 输入端在yolox的输入端采用了 Mos…

人工智能 2023年7月4日
0069
Openpilot EP1：Openpilot开源项目深度解析

目录 0.前言 1.整体介绍 2.系统架构与硬件配置 2.1 系统架构 2.2 硬件配置 3.量产安全规范体系 4.生态体系 5.软件算法分析 5.2 Supercombo模型 5…

人工智能 2023年7月20日
0056
图数据库｜Nebula Graph v3.1.0 性能报告

本文首发于 Nebula Graph Community 公众号本文系 Nebula Graph 发行版 v3.1.0 的性能测试报告。 ; 本文目录测试环境测试数据关于 …

人工智能 2023年6月1日
0076
Pandas 模块 – 读写(3)-从剪贴板读写数据-read_clipboard/to_clipboard

目录 3. 从剪贴板读写数据(3)-read_clipboard/to_clipboard 3.1 .read_clipboard() 语法 3.2 .read_clipboard…

人工智能 2023年7月9日
0072
如何在AI算法中使用张量进行模型的评估和测试

人工智能 2024年1月1日
0028
【BOOST C++ 11 时钟数据】（1）计时码表（11-13）

库 Boost.Chrono 提供了多种时钟。例如，您可以获取当前时间，也可以测量流程中经过的时间。 Boost.Chrono 的部分内容已添加到 C++11。如果您的开发环境支持…

人工智能 2023年6月27日
0061
YOLOv5改进之一：添加SE注意力机制

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月25日
0077
分享使用谷歌Colab 常用小tips，玩转Google Colab

分享使用谷歌Colab 常用小tips，玩转Google Colab 文章目录分享使用谷歌Colab 常用小tips，玩转Google Colab * 什么是Google C…

人工智能 2023年7月23日
0056
java 连接janusgraph_图数据库JanusGraph服务化

完全开源最好的图数据库之一安装JanusGraphServer 1) 创建系统账号janus groupadd janus && useradd -d /home…

人工智能 2023年6月4日
0089
《SVM支持向量机实现一个线性分类|CSDN创作打卡》

支持向量机在进行决策的时候，所选取的决策边界需要满足一个条件，也就是距离两个分类中最近点的距离是最长的。也可以理解为我们用支持向量机进行分类的时候，要做的就是将能够区分不同类别的数…

人工智能 2023年7月2日
0076
R语言逻辑操作符：&、|、！&&、||

C程序设计语言C语言精典版本目录译者序序第1版序前言第1章基本概念 1.1 入门 1.2 变量与算术表达式 1.3 for语句 1.4 符号常量 1.5 字符输入输…

人工智能 2023年5月30日
0082
【一文讲解深度学习】语言自然语言处理（NLP）第一篇

【一文讲解深度学习】语言自然语言处理（NLP）博主介绍自然语言处理概述 * NLP 的定义 NLP的主要任务 – 分词词义消歧识别物体识别（NER）词性标注（…

人工智能 2023年5月27日
00103
dbscan matlab 负荷曲线聚类_时间序列聚类-ROCKA算法

### 回答1： DBS_CAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的 _聚类 …

人工智能 2023年6月2日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

CHAPTER 9 ANALYSIS OF COLLINEAR DATA

table 9.3

Scatter plots of the three predictor variables

2

table 9.71___9.72

1

大家都在看