数据分析基本过程-python

数据分析

参考 python数据分析与挖掘实战-张良均著

数据探索

数据质量分析

缺失值分析
异常值分析
一致性分析
使用箱形图检验异常值，可以看到数据分布区间的大致情况，以及1/4值、1/2值和3/4值的价值。

[En]

using the box chart to test the outliers, we can see the general situation of the distribution range of the data, and the worthiness of 1max 4 value, 1max 2 value and 3pm 4 value.

代码：

-*- coding: utf-8 -*-import pandas as pdcatering_sale = '../data/catering_sale.xls'  # &#x9910;&#x996E;&#x6570;&#x636E;data = pd.read_excel(catering_sale, index_col = u'&#x65E5;&#x671F;')  # &#x8BFB;&#x53D6;&#x6570;&#x636E;&#xFF0C;&#x6307;&#x5B9A;&#x201C;&#x65E5;&#x671F;&#x201D;&#x5217;&#x4E3A;&#x7D22;&#x5F15;&#x5217;print(data.describe())import matplotlib.pyplot as plt  # &#x5BFC;&#x5165;&#x56FE;&#x50CF;&#x5E93;plt.rcParams['font.sans-serif'] = ['SimHei']  # &#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x4E2D;&#x6587;&#x6807;&#x7B7E;plt.rcParams['axes.unicode_minus'] = False  # &#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x8D1F;&#x53F7;plt.figure()  # &#x5EFA;&#x7ACB;&#x56FE;&#x50CF;p = data.boxplot(return_type='dict')  # &#x753B;&#x7BB1;&#x7EBF;&#x56FE;&#xFF0C;&#x76F4;&#x63A5;&#x4F7F;&#x7528;DataFrame&#x7684;&#x65B9;&#x6CD5;x = p['fliers'][0].get_xdata()  #  'flies'&#x5373;&#x4E3A;&#x5F02;&#x5E38;&#x503C;&#x7684;&#x6807;&#x7B7E;y = p['fliers'][0].get_ydata()y.sort()  # &#x4ECE;&#x5C0F;&#x5230;&#x5927;&#x6392;&#x5E8F;&#xFF0C;&#x8BE5;&#x65B9;&#x6CD5;&#x76F4;&#x63A5;&#x6539;&#x53D8;&#x539F;&#x5BF9;&#x8C61;'''&#x7528;annotate&#x6DFB;&#x52A0;&#x6CE8;&#x91CA;&#x5176;&#x4E2D;&#x6709;&#x4E9B;&#x76F8;&#x8FD1;&#x7684;&#x70B9;&#xFF0C;&#x6CE8;&#x89E3;&#x4F1A;&#x51FA;&#x73B0;&#x91CD;&#x53E0;&#xFF0C;&#x96BE;&#x4EE5;&#x770B;&#x6E05;&#xFF0C;&#x9700;&#x8981;&#x4E00;&#x4E9B;&#x6280;&#x5DE7;&#x6765;&#x63A7;&#x5236;&#x4EE5;&#x4E0B;&#x53C2;&#x6570;&#x90FD;&#x662F;&#x7ECF;&#x8FC7;&#x8C03;&#x8BD5;&#x7684;&#xFF0C;&#x9700;&#x8981;&#x5177;&#x4F53;&#x95EE;&#x9898;&#x5177;&#x4F53;&#x8C03;&#x8BD5;&#x3002;'''for i in range(len(x)):    if i>0:        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))    else:        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))plt.show()  # &#x5C55;&#x793A;&#x7BB1;&#x7EBF;&#x56FE;

数据预处理阶段

数据清洗：

缺失值处理
3种方式：
1.删除该行数据，
2.数据插补（均值/中位数/众数插补、使用固定值、最近临插补、回归方法、插值法（拉格朗日插值法）参考地址：https://www.cnblogs.com/hjk-airl/p/15766870.html），
3.不处理
异常值处理
常用方法
- 删除含有异常值的数据
- 视为缺失值
- 平均值修正
- 不处理

数据变换

简单功能板换(平方、平方、对数、差)
[En]
simple function board exchange (square, square, logarithm, difference)*
规范化

数据规范化代码

-*- coding: utf-8 -*-
import pandas as pd
import numpy as np
datafile = '../data/normalization_data.xls'  # &#x53C2;&#x6570;&#x521D;&#x59CB;&#x5316;
data = pd.read_excel(datafile, header = None)  # &#x8BFB;&#x53D6;&#x6570;&#x636E;
print(data)

(data - data.min()) / (data.max() - data.min())  # &#x6700;&#x5C0F;-&#x6700;&#x5927;&#x89C4;&#x8303;&#x5316;
(data - data.mean()) / data.std()  # &#x96F6;-&#x5747;&#x503C;&#x89C4;&#x8303;&#x5316;
data / 10 ** np.ceil(np.log10(data.abs().max()))  # &#x5C0F;&#x6570;&#x5B9A;&#x6807;&#x89C4;&#x8303;&#x5316;

数据属性规约

常用方法：决策树归纳、主成分分析

[En]

Common methods: decision tree induction, principal component analysis
主成分分析PCA代码*主要作用降维

#&#x4E3B;&#x6210;&#x5206;&#x5206;&#x6790; &#x964D;&#x7EF4;import pandas as pd#&#x53C2;&#x6570;&#x521D;&#x59CB;&#x5316;inputfile = '../data/principal_component.xls'outputfile = '../tmp/dimention_reducted.xls' #&#x964D;&#x7EF4;&#x540E;&#x7684;&#x6570;&#x636E;data = pd.read_excel(inputfile, header = None) #&#x8BFB;&#x5165;&#x6570;&#x636E;from sklearn.decomposition import PCAa = 4pca = PCA()#&#x964D;&#x4F4E;&#x5230;&#x7684;4&#x7EF4;&#x5EA6;PCA(copy=True,n_components=None,whiten=False)#copy=Ture&#x4E0D;&#x6539;&#x53D8;&#x539F;&#x59CB;&#x6570;&#x636E;pca.fit(data)#&#x8BAD;&#x7EC3;low_d = pca.transform(data)##&#x964D;&#x4F4E;&#x4ED6;&#x7684;&#x7EF4;&#x5EA6;print(pca.components_) #&#x8FD4;&#x56DE;&#x6A21;&#x578B;&#x7684;&#x5404;&#x4E2A;&#x7279;&#x5F81;&#x5411;&#x91CF;print(low_d)print(pca.explained_variance_ratio_) #&#x8FD4;&#x56DE;&#x5404;&#x4E2A;&#x6210;&#x5206;&#x5404;&#x81EA;&#x7684;&#x65B9;&#x5DEE;&#x767E;&#x5206;&#x6BD4;

挖掘建模

分类与预测

-回归分析、决策树、人工神经网络、贝叶斯网络、支持向量机
逻辑回归代码logistic

-*- coding: utf-8 -*-

&#x4EE3;&#x7801;5-1

import pandas as pd
from sklearn.linear_model import LogisticRegression as LR
&#x53C2;&#x6570;&#x521D;&#x59CB;&#x5316;
filename = '../data/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:,:8].values
y = data.iloc[:,8].values

lr = LR(max_iter=5000)  # &#x5EFA;&#x7ACB;&#x903B;&#x8F91;&#x56DE;&#x5F52;&#x6A21;&#x578B;
lr.fit(x, y)  # &#x7528;&#x7B5B;&#x9009;&#x540E;&#x7684;&#x7279;&#x5F81;&#x6570;&#x636E;&#x6765;&#x8BAD;&#x7EC3;&#x6A21;&#x578B;

print('&#x6A21;&#x578B;&#x7684;&#x5E73;&#x5747;&#x51C6;&#x786E;&#x5EA6;&#x4E3A;&#xFF1A;%s' % lr.score(x, y))

神经网络分类

-*- coding: utf-8 -*-

import pandas as pd
&#x53C2;&#x6570;&#x521D;&#x59CB;&#x5316;
inputfile = '../data/sales_data.xls'
data = pd.read_excel(inputfile, index_col = '&#x5E8F;&#x53F7;')  # &#x5BFC;&#x5165;&#x6570;&#x636E;

&#x6570;&#x636E;&#x662F;&#x7C7B;&#x522B;&#x6807;&#x7B7E;&#xFF0C;&#x8981;&#x5C06;&#x5B83;&#x8F6C;&#x6362;&#x4E3A;&#x6570;&#x636E;
&#x7528;1&#x6765;&#x8868;&#x793A;&#x201C;&#x597D;&#x201D;&#x201C;&#x662F;&#x201D;&#x201C;&#x9AD8;&#x201D;&#x8FD9;&#x4E09;&#x4E2A;&#x5C5E;&#x6027;&#xFF0C;&#x7528;0&#x6765;&#x8868;&#x793A;&#x201C;&#x574F;&#x201D;&#x201C;&#x5426;&#x201D;&#x201C;&#x4F4E;&#x201D;
data[data == '&#x597D;'] = 1
data[data == '&#x662F;'] = 1
data[data == '&#x9AD8;'] = 1
data[data != 1] = 0
x = data.iloc[:,:3].astype(int)
y = data.iloc[:,3].astype(int)

from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers.core import Dense, Activation

model = Sequential()  # &#x5EFA;&#x7ACB;&#x6A21;&#x578B;
model.add(Dense(input_dim = 3, units = 64))
model.add(Activation('relu'))  # &#x7528;relu&#x51FD;&#x6570;&#x4F5C;&#x4E3A;&#x6FC0;&#x6D3B;&#x51FD;&#x6570;&#xFF0C;&#x80FD;&#x591F;&#x5927;&#x5E45;&#x63D0;&#x4F9B;&#x51C6;&#x786E;&#x5EA6;
model.add(Dense(input_dim = 64, units = 1))
model.add(Activation('sigmoid'))  # &#x7531;&#x4E8E;&#x662F;0-1&#x8F93;&#x51FA;&#xFF0C;&#x7528;sigmoid&#x51FD;&#x6570;&#x4F5C;&#x4E3A;&#x6FC0;&#x6D3B;&#x51FD;&#x6570;

model.compile(loss = 'binary_crossentropy', optimizer = 'adam')
&#x7F16;&#x8BD1;&#x6A21;&#x578B;&#x3002;&#x7531;&#x4E8E;&#x6211;&#x4EEC;&#x505A;&#x7684;&#x662F;&#x4E8C;&#x5143;&#x5206;&#x7C7B;&#xFF0C;&#x6240;&#x4EE5;&#x6211;&#x4EEC;&#x6307;&#x5B9A;&#x635F;&#x5931;&#x51FD;&#x6570;&#x4E3A;binary_crossentropy&#xFF0C;&#x4EE5;&#x53CA;&#x6A21;&#x5F0F;&#x4E3A;binary
&#x53E6;&#x5916;&#x5E38;&#x89C1;&#x7684;&#x635F;&#x5931;&#x51FD;&#x6570;&#x8FD8;&#x6709;mean_squared_error&#x3001;categorical_crossentropy&#x7B49;&#xFF0C;&#x8BF7;&#x9605;&#x8BFB;&#x5E2E;&#x52A9;&#x6587;&#x4EF6;&#x3002;
&#x6C42;&#x89E3;&#x65B9;&#x6CD5;&#x6211;&#x4EEC;&#x6307;&#x5B9A;&#x7528;adam&#xFF0C;&#x8FD8;&#x6709;sgd&#x3001;rmsprop&#x7B49;&#x53EF;&#x9009;

model.fit(x, y, epochs = 100, batch_size = 10)  # &#x8BAD;&#x7EC3;&#x6A21;&#x578B;&#xFF0C;&#x5B66;&#x4E60;&#x4E00;&#x5343;&#x6B21;
yp = model.predict_classes(x).reshape(len(y))  # &#x5206;&#x7C7B;&#x9884;&#x6D4B;

from cm_plot import *  # &#x5BFC;&#x5165;&#x81EA;&#x884C;&#x7F16;&#x5199;&#x7684;&#x6DF7;&#x6DC6;&#x77E9;&#x9635;&#x53EF;&#x89C6;&#x5316;&#x51FD;&#x6570;
cm_plot(y,yp).show()  # &#x663E;&#x793A;&#x6DF7;&#x6DC6;&#x77E9;&#x9635;&#x53EF;&#x89C6;&#x5316;&#x7ED3;&#x679C;

聚类分析

常用方法：划分方法（k-means聚类算法）、层次分析方法

-*- coding: utf-8 -*-

import pandas as pd
&#x53C2;&#x6570;&#x521D;&#x59CB;&#x5316;
inputfile = '../data/consumption_data.xls'  # &#x9500;&#x91CF;&#x53CA;&#x5176;&#x4ED6;&#x5C5E;&#x6027;&#x6570;&#x636E;
outputfile = '../tmp/data_type.xls'  # &#x4FDD;&#x5B58;&#x7ED3;&#x679C;&#x7684;&#x6587;&#x4EF6;&#x540D;
k = 3  # &#x805A;&#x7C7B;&#x7684;&#x7C7B;&#x522B;
iteration = 500  # &#x805A;&#x7C7B;&#x6700;&#x5927;&#x5FAA;&#x73AF;&#x6B21;&#x6570;
data = pd.read_excel(inputfile, index_col = 'Id')  # &#x8BFB;&#x53D6;&#x6570;&#x636E;
data_zs = 1.0*(data - data.mean())/data.std()  # &#x6570;&#x636E;&#x6807;&#x51C6;&#x5316;

from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, max_iter = iteration,random_state=1234)  # &#x5206;&#x4E3A;k&#x7C7B;&#xFF0C;&#x5E76;&#x53D1;&#x6570;4
model.fit(data_zs)  # &#x5F00;&#x59CB;&#x805A;&#x7C7B;

&#x7B80;&#x5355;&#x6253;&#x5370;&#x7ED3;&#x679C;
r1 = pd.Series(model.labels_).value_counts()  # &#x7EDF;&#x8BA1;&#x5404;&#x4E2A;&#x7C7B;&#x522B;&#x7684;&#x6570;&#x76EE;
print(r1)
r2 = pd.DataFrame(model.cluster_centers_)  # &#x627E;&#x51FA;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;
print(r2)
r = pd.concat([r2, r1], axis = 1)  # &#x6A2A;&#x5411;&#x8FDE;&#x63A5;&#xFF08;0&#x662F;&#x7EB5;&#x5411;&#xFF09;&#xFF0C;&#x5F97;&#x5230;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;&#x5BF9;&#x5E94;&#x7684;&#x7C7B;&#x522B;&#x4E0B;&#x7684;&#x6570;&#x76EE;
r.columns = list(data.columns) + ['&#x7C7B;&#x522B;&#x6570;&#x76EE;']  # &#x91CD;&#x547D;&#x540D;&#x8868;&#x5934;
print(r)

&#x8BE6;&#x7EC6;&#x8F93;&#x51FA;&#x539F;&#x59CB;&#x6570;&#x636E;&#x53CA;&#x5176;&#x7C7B;&#x522B;
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)   # &#x8BE6;&#x7EC6;&#x8F93;&#x51FA;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x5BF9;&#x5E94;&#x7684;&#x7C7B;&#x522B;
r.columns = list(data.columns) + ['&#x805A;&#x7C7B;&#x7C7B;&#x522B;']  # &#x91CD;&#x547D;&#x540D;&#x8868;&#x5934;
r.to_excel(outputfile)  # &#x4FDD;&#x5B58;&#x7ED3;&#x679C;
print(r)

def density_plot(data):  # &#x81EA;&#x5B9A;&#x4E49;&#x4F5C;&#x56FE;&#x51FD;&#x6570;
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei']  # &#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x4E2D;&#x6587;&#x6807;&#x7B7E;
  plt.rcParams['axes.unicode_minus'] = False  # &#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x8D1F;&#x53F7;
  p = data.plot(kind='kde', linewidth = 2, subplots = True, sharex = False)
  [p[i].set_ylabel('&#x5BC6;&#x5EA6;') for i in range(k)]
  plt.legend()
  return plt

pic_output = '../tmp/pd'  # &#x6982;&#x7387;&#x5BC6;&#x5EA6;&#x56FE;&#x6587;&#x4EF6;&#x540D;&#x524D;&#x7F00;
for i in range(k):
  density_plot(data[r['&#x805A;&#x7C7B;&#x7C7B;&#x522B;']==i]).savefig('%s%s.png' %(pic_output, i))
  density_plot(data[r['&#x805A;&#x7C7B;&#x7C7B;&#x522B;'] == i]).show()

from sklearn.manifold import TSNE
tsne = TSNE(random_state=105)
tsne.fit_transform(data_zs)  # &#x8FDB;&#x884C;&#x6570;&#x636E;&#x964D;&#x7EF4;
tsne = pd.DataFrame(tsne.embedding_, index = data_zs.index)  # &#x8F6C;&#x6362;&#x6570;&#x636E;&#x683C;&#x5F0F;

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # &#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x4E2D;&#x6587;&#x6807;&#x7B7E;
plt.rcParams['axes.unicode_minus'] = False  # &#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x8D1F;&#x53F7;

&#x4E0D;&#x540C;&#x7C7B;&#x522B;&#x7528;&#x4E0D;&#x540C;&#x989C;&#x8272;&#x548C;&#x6837;&#x5F0F;&#x7ED8;&#x56FE;
d = tsne[r['&#x805A;&#x7C7B;&#x7C7B;&#x522B;'] == 0]
plt.plot(d[0], d[1], 'r.')
d = tsne[r['&#x805A;&#x7C7B;&#x7C7B;&#x522B;'] == 1]
plt.plot(d[0], d[1], 'go')
d = tsne[r['&#x805A;&#x7C7B;&#x7C7B;&#x522B;'] == 2]
plt.plot(d[0], d[1], 'b*')
plt.show()

在这里推荐两个好用的网站

scikit-learn中文社区:https://scikit-learn.org.cn/
包含七种启发式算法的代码库文档：https://scikit-opt.github.io/scikit-opt/#/zh/README
第一个

第二个

Original: https://www.cnblogs.com/hjk-airl/p/15773129.html
Author: hjk-airl
Title: 数据分析基本过程-python

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/522567/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31