Python数据分析–Numpy常用函数介绍(5)–Numpy中的相关性函数

摘要:NumPy中包含大量的函数,这些函数的设计初衷是能更方便地使用,掌握解这些函数,可以提升自己的工作效率。这些函数包括数组元素的选取和多项式运算等。下面通过实例进行详细了解。

前述通过对某公司股票的收盘价的分析,了解了某些Numpy的一些函数。通常实际中,某公司的股价被另外一家公司的股价紧紧跟随,它们可能是同领域的竞争对手,也可能是同一公司下的不同的子公司。可能因两家公司经营的业务类型相同,面临同样的挑战,需要相同的原料和资源,并且争夺同类型的客户。

在实践中,如果你想测试它们是否真的相关,这样的例子还有很多。一种方式是看两家公司股票收益之间的相关性,相关性强意味着它们之间存在一定的相关性(特别是当使用的数据不充分时,误差可能会更大)。

[En]

In practice, there are many such examples, if you want to test whether they are really related. One way is to look at the correlation between the stock returns of the two companies, and a strong correlation means that there is a certain correlation between them (especially when the data used is not sufficient, the error may be greater).

一、股票相关性分析

1、导出两个相关的股票数据,如下依次为:股票代码、日期、开盘价、最高价、最低价、收盘价、成交量。

Python数据分析--Numpy常用函数介绍(5)--Numpy中的相关性函数

2、分别从CSV文件中读入相关数据,即收盘价:

close = np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)
new_close = np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)

3、协方差描述的是两个变量共同变化的趋势,其实就是归一化前的相关系数。使用 cov 函数计算股票收益率的协方差矩阵,完整代码如下:

import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt

def datestr2num(s): #定义一个函数
    return datetime.strptime(s.decode('ascii'),"%Y-%m-%d").date().weekday()

close=np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True) #导入data036.csv数据 new_close=np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)#导入data999.csv数据covariance = np.cov(close,new_close) #使用numpy.cov() 函数计算两个数列的协方差矩阵print(close.mean()) #求close的平均值print(new_close.mean())#求new_close的平均值print('covariance:','\n',covariance)

运行结果:

48.40690476190476
18.85157142857143
covariance:
 [[30.46934553  1.5201865 ]
 [ 1.5201865   8.96031113]]

1)用 diagonal 函数查看矩阵对角线上的元素

print ("对角元素:", covariance.diagonal()) # diagonal查看对角上的元素

运行结果:

对角元素: [30.46934553  8.96031113]

2)使用 trace 函数计算矩阵的迹,即对角线上元素之和

print("Covariance trace", covariance.trace()) #对角线上元素之和

3)两个向量的相关系数被定义为协方差除以各自标准差的乘积。计算向量 a 和 b 的相关系数的公式:corr(a,b)=cov(a,b)/(std(a)*std(b))

covar = covariance/ (np.std(close) * np.std(new_close))
print("相关系数矩阵:", covar)

运行结果:

相关系数矩阵: [[1.84843969 0.09222295]
 [0.09222295 0.54358223]]

注意:由于covariance是一个矩阵,因而得到的covar也是一个矩阵

相关系数是两只股票的相关程度。相关系数的取值范围在 -1 到 1 之间。根据定义,一组数值与自身的相关系数等于 1 ,numpy中使用 corrcoef 函数计算相关系数

closecorr = np.corrcoef(close,new_close)
print("相关系数:",'\n', closecorr )

运行结果:

相关系数:
 [[1.         0.09200338]
 [0.09200338 1.        ]]

对角线上的元素即close和new_close与自身的相关系数,因此均为1。相关系数矩阵是关于对角线对称的,因此另外两个元素的值相等,表示close和new_close的相关系数等于new_close和close的相关系数。

判断两只股票价格走势是否同步的关键是,如果它们的差值偏离平均差值两倍于标准差,则认为这两只股票不同步。代码如下:

[En]

The key point to judge whether the price movements of two stocks are synchronized is that if their differences deviate from the average difference by twice the standard deviation, the two stocks are considered to be out of sync. The code is as follows:

difference = close - new_close
avg = np.mean(difference)
dev = np.std(difference)
print ("Out of sync:", np.abs(difference[-1]-avg)>2*dev)

运行结果:

Out of sync: False

二、多项式

微积分里有泰勒展开,也就是用一个无穷级数来表示一个可微的函数。实际上,任何可微的(从而也是连续的)函数都可以用一个N次多项式来估计,而比N次幂更高阶的部分为无穷小量可忽略不计。

NumPy中的 ployfit 函数可以用多项式去拟合一系列数据点,无论这些数据点是否来自连续函数都适用。

继续使用close和new_close的股票价格数据。用一个三次多项式去拟合两只股票收盘价的差价。

t = np.arange(len(close)) #得到close数列的长度
poly = np.polyfit(t, close - new_close, 3) #利用长度t和两只股票的价差,生成一个三项式,三项式有3个系数和一个常量print("Polynomial fit", poly)

运行结果:

Polynomial fit: [ 1.61308827e-07 -4.34114354e-04  1.84480028e-01  1.33680483e+01]

用我们刚刚得到的多项式对象以及 polyval 函数,推断下一个差值:

print (“Next value:”, np.polyval(poly, t[-1] + 1)) #用生成的多项式拟合求下一个差值
print(difference[-1]) #打印最后一个实际的差值

运行结果:

Next value: 26.222936287829654
26.21

在极限情况下,差值可以在某个点为0。使用 roots 函数找出拟合的多项式函数什么时候到达0值:

print( "Roots", np.roots(poly))#root返回多项式的根

运行结果:

Roots [2138.21411788  615.9134063   -62.92728874]

三、求极值的知识

极值是函数的最大值或最小值。在高等代数演算中,这些极点位于函数导数为0的位置,然后求导数函数的根,即求出原多项式函数的极值点。

[En]

The extreme value is the maximum or minimum value of a function. In higher algebraic calculus, these extreme points are located in the position where the derivative of the function is 0, and then find the root of the derivative function, that is, to find out the extreme point of the original polynomial function.

1)使用 polyder 函数对多项式函数求导

der = np.polyder(poly)
print("Derivative", der)

2)求出导数函数的根,即找出原多项式函数的极值点

print( "Extremas", np.roots(der))

运行后即得到如下:

Derivative: [ 4.83926482e-07 -8.68228709e-04  1.84480028e-01]
Extremas [1547.84609151  246.28739879]

3)用 polyval 计算多项式函数的值,并用matplotlib显示

vals = np.polyval(poly, t)
print('vals:',vals)
print('max value:', np.argmax(vals))
print('min value:', np.argmin(vals))

plt.plot(t,difference)
plt.plot(t,vals)
plt.show()

运行结果如下:

Python数据分析--Numpy常用函数介绍(5)--Numpy中的相关性函数

Original: https://www.cnblogs.com/codingchen/p/16327800.html
Author: PursuitingPeak
Title: Python数据分析–Numpy常用函数介绍(5)–Numpy中的相关性函数

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/47415/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

发表回复

登录后才能评论
免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部