【Datawhale】动手学数据分析

2023年10月14日上午7:20 • Python • 阅读 38

动手学数据分析

第一章：数据载入及初步观察

载入数据

任务一：导入numpy和pandas

import numpy as np
import pandas as pd

任务二：载入数据

train_data = pd.read_csv("train.csv")
train_data.head(5)

train_data = pd.read_table("train.csv")
train_data.head(5)

这两个读取方式的区别在于read_csv读取的是默认分割符为逗号，而read_csv读取默认分隔符为制表符。

任务三：每1000行为一个数据模块，逐块读取

chunker = pd.read_csv("train.csv", chunksize = 1000)
print(type(chunker))

【思考】什么是逐块读取？为什么要逐块读取呢？
答：比如后续遍历，像一个数据迭代器一样方便读取

【提示】大家可以chunker(数据块)是什么类型？用 for循环打印出来出处具体的样子是什么？
答：

将表头改成中文

train_data = pd.read_csv("train.csv", names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID', header=0)
train_data.head(5)

【思考】所谓将表头改为中文其中一个思路是：将英文列名表头替换成中文。还有其他的方法吗？
答：可以读入后再进行修改

初步观察

任务一：查看数据的基本信息

train_data.info()


Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype
 0   PassengerId  891 non-null    int64
 1   Survived     891 non-null    int64
 2   Pclass       891 non-null    int64
 3   Name         891 non-null    object
 4   Sex          891 non-null    object
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64
 7   Parch        891 non-null    int64
 8   Ticket       891 non-null    object
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object
 11  Embarked     889 non-null    object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

train_data[['Age','Cabin','Embarked']].head(10)

任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路

(2) 请尝试对Age列的数据的缺失值进行处理

(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理

train_data['Age'].dropna()  # 丢弃
train_data['Age'].fillna(method='ffill')  # 线性插值
train_data['Age'].fillna(value=20)  # 全部按照20填充

【思考1】dropna和fillna有哪些参数，分别如何使用呢

dropna()
axis：为1或者index就删除含有缺失值的行，为0或者columns则删除列
how：为all就删除全是缺失值的，any就删除任何含有缺失值的
thresh=n：删除缺失值大于等于n的
subset：定义在哪些列中查找缺失值
inplace：是否原地修改
fillna()
inplace
method：取值为pad、ffill、backfill、bfill、None
limit：限制填充个数
axis：修改填充方向

【思考】检索空缺值用 np.nan, None以及 .isnull()哪个更好，这是为什么？如果其中某个方式无法找到缺失值，原因又是为什么？

数值列读取数据后，空缺值的数据类型为float64，所以用None一般索引不到，比较的时候最好用np.nan

重复值观察与处理

任务一：请查看数据中的重复值

train_data.duplicated()

这个函数就是返回某一行的数据是否已经在之前的行中出现了，如果是就是重复数据就返回true。

任务二：对重复值进行处理

train_data = train_data.drop_duplicates()
train_data.head(5)

任务三：将前面清洗的数据保存为csv格式

train_data.to_csv('test_clear.csv')

特征观察与处理

任务一：对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

(3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示

(4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

(5) 将上面的获得的数据分别进行保存，保存为csv格式

【答】分箱操作就相当于将连续数据划分为几个离散值，再用离散值来替代连续数据。

train_data['newAge'] = pd.cut(train_data['Age'], 5, labels=[1,2,3,4,5])
train_data.head(5)
train_data.to_csv("test_avg.csv")

bins = [0,5,15,30,50,80]
train_data['newAge'] = pd.cut(train_data['Age'],bins, right=False, labels=[1,2,3,4,5])
train_data.head(5)
train_data.to_csv("test_cut.csv")

train_data['newAge'] = pd.qcut(train_data['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels=[1,2,3,4,5])
train_data.head(5)
train_data.to_csv("test_pr.csv")

任务二：对文本变量进行转换

(1) 查看文本变量名及种类
(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示
(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示

train_data['Embarked'].value_counts()
train_data['Sex'].unique()
train_data['Sex'].value_counts()

train_data['Sex_num'] = train_data['Sex'].replace(['male','female'],[1,2])
train_data.head(5)

train_data['Sex_num'] = train_data['Sex'].map({"male":1,'female':2})
train_data.head(5)

以上两种适用于性别这样离散值很少的，那么如果对于另外两种数据离散值很多就不行，用以下的方法：

from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()
    label_dict = dict(zip(train_data[feat].unique(), range(train_data[feat].nunique())))
    train_data[feat + "_labelEncode"] = train_data[feat].map(label_dict)
    train_data[feat + "_labelEncode"] = lbl.fit_transform(train_data[feat].astype(str))
train_data.head(5)

转换为ont-hot编码
for feat in ['Sex', 'Cabin','Embarked']:
    x = pd.get_dummies(train_data[feat], prefix=feat)
    # prefix就是让生成的列的名称为feat+取值
    train_data = pd.concat([train_data,x],axis=1)
train_data.head(5)

任务三：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

train_data['Title'] = train_data.Name.str.extract('([A-Za-z]+)\.', expand=False)
train_data.head()

train_data.to_csv('test_fin.csv')

数据的合并

任务一：将data文件夹里面的所有数据都载入，观察数据的之间的关系

train_left_up = pd.read_csv("data\\train-left-up.csv")
train_left_up.info()
train_left_down = pd.read_csv("data\\train-left-down.csv")
train_left_down.info()
train_right_up = pd.read_csv("data\\train-right-up.csv")
train_right_down = pd.read_csv("data\\train-right-down.csv")

任务二：使用concat方法：将数据train-left-up.csv和train-right-up.csv横向合并为一张表，并保存这张表为result_up

result_up = pd.concat([train_left_up, train_right_up],axis = 1)
result_up.head(5)

任务三：使用concat方法：将train-left-down和train-right-down横向合并为一张表，并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为result

result_down = pd.concat([train_left_down, train_right_down],axis = 1)
result = pd.concat([result_up, result_down], axis=0)
result.head(5)

任务四：使用DataFrame自带的方法join方法和append：完成任务二和任务三的任务

result_up = train_left_up.join(train_right_up)
result_up.head(5)
result_down = train_left_down.join(train_right_down)
result = result_up.append(result_down)
result.head(4)

任务五：使用Panads的merge方法和DataFrame的append方法：完成任务二和任务三的任务

result_up = pd.merge(train_left_up,train_right_up,left_index=True,right_index=True)
result_up.head(5)
result_down = pd.merge(train_left_down,train_right_down,left_index=True,right_index=True)
result = result_up.append(result_down)
result.head(5)

任务六：完成的数据保存为result.csv

result.to_csv("data\\result.csv")

换一种角度看数据

任务一：将我们的数据变为Series类型的数据

train_data = pd.read_csv('result.csv')
train_data.head()
unit_result=train_data.stack().head(20)
stack是转置，索引不变，然后内容转置。
unit_result.head()

unit_result.to_csv('unit_result.csv')

数据运用

任务一：通过教材《Python for Data Analysis》P303、Google or anything来学习了解GroupBy机制

这部分还是很推荐去看看书进行学习，很有用。

任务二：计算泰坦尼克号男性与女性的平均票价

result['Fare'].groupby(result['Sex']).mean()

Sex
female    44.479818
male      25.523893
Name: Fare, dtype: float64

任务三：统计泰坦尼克号中男女的存活人数

result['Survived'].groupby(result['Sex']).sum()

Sex
female    233
male      109
Name: Survived, dtype: int64

任务四：计算客舱不同等级的存活人数

result['Survived'].groupby(result['Pclass']).sum()

Pclass
1    136
2     87
3    119
Name: Survived, dtype: int64

【思考】从数据分析的角度，上面的统计结果可以得出那些结论

【答】女性平均票价高，生存人数高，1号客舱生存人数多

【思考】从任务二到任务三中，这些运算可以通过agg()函数来同时计算。并且可以使用rename函数修改列名。你可以按照提示写出这个过程吗？

result.groupby('Sex').agg({'Fare': 'mean', 'Pclass': 'count'}).rename(columns={'Fare': 'mean_fare', 'Pclass': 'count_pclass'})

任务五：统计在不同等级的票中的不同年龄的船票花费的平均值

result.groupby(['Pclass','Age'])['Fare'].mean()

Pclass  Age
1       0.92     151.5500
        2.00     151.5500
        4.00      81.8583
        11.00    120.0000
        14.00    120.0000
                   ...

3       61.00      6.2375
        63.00      9.5875
        65.00      7.7500
        70.50      7.7500
        74.00      7.7750
Name: Fare, Length: 182, dtype: float64

任务六：将任务二和任务三的数据合并，并保存到sex_fare_survived.csv

g1 = result['Fare'].groupby(result['Sex']).mean()
g2 = result['Survived'].groupby(result['Sex']).sum()
g_con = pd.concat([g1,g2],axis=1)
g_con.to_csv("data\\sex_fare_survived.csv")

任务七：得出不同年龄的总的存活人数，然后找出存活人数最多的年龄段，最后计算存活人数最高的存活率（存活人数/总人数）

survived_age = result.groupby('Age')['Survived'].sum()

Age
0.42     1
0.67     1
0.75     2
0.83     2
0.92     1
        ..

70.00    0
70.50    0
71.00    0
74.00    0
80.00    1
Name: Survived, Length: 88, dtype: int64

survived_age_max = survived_age[survived_age.values == survived_age.max()]

Age
24.0    15
Name: Survived, dtype: int64

survived_age_max_num = int(survived_age_max.values)

survived_age_max_num_rate =survived_age_max_num/ result['Survived'].sum()

0.043859649122807015

如何让人一眼看懂你的数据

%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

result = pd.read_csv("data\\result.csv")
result.head(5)

任务一：跟着书本第九章，了解matplotlib，自己创建一个数据项，对其进行基本可视化

略

任务二：可视化展示泰坦尼克号数据集中男女中生存人数分布情况（用柱状图试试）

sex = result.groupby('Sex')['Survived'].sum()
sex.plot.bar()
plt.title('survived_count')

【思考】计算出泰坦尼克号数据集中男女中死亡人数，并可视化展示？如何和男女生存人数可视化柱状图结合到一起？看到你的数据可视化，说说你的第一感受（比如：你一眼看出男生存活人数更多，那么性别可能会影响存活率）。

sex_die = result.groupby('Sex')['Survived'].count() - result.groupby('Sex')['Survived'].sum()
sex_die.plot.bar()

任务三：可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图（用柱状图试试）

sex_sur_rate = result.groupby(['Sex','Survived'])['Survived'].count().unstack()
sex_sur_rate.plot(kind='bar',stacked=True)

任务四：可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。（用折线图试试）（横轴是不同票价，纵轴是存活人数）

排序后绘折线图
fig = plt.figure(figsize=(20, 18))
fare_sur = text.groupby(['Fare'])['Survived'].value_counts().sort_values(ascending=False)
fare_sur.plot(grid=True)
plt.legend()
plt.show()

任务五：可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。（用柱状图试试）

Pclass_sur = result.groupby(['Pclass','Survived'])['Survived'].value_counts()
import seaborn as sns
sns.countplot(x="Pclass", hue="Survived", data=result)

任务六：可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况。(不限表达方式)

facet = sns.FacetGrid(result, hue="Survived",aspect=3)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, result['Age'].max()))
facet.add_legend()

任务七：可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况。（用折线图试试）

result.Age[result.Pclass == 1].plot(kind='kde')
result.Age[result.Pclass == 2].plot(kind='kde')
result.Age[result.Pclass == 3].plot(kind='kde')
plt.xlabel("age")
plt.legend((1,2,3),loc="best")  # best就是最不碍眼的位置

第三章模型搭建和评估–建模

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

载入数据

clear_data = pd.read_csv("clear_data.csv")
train_data = pd.read_csv("train.csv)

模型搭建

任务一：切割训练集和测试集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现

from sklearn.model_selection import train_test_split
train_label = train_data['Survived']  # 作为标签，训练集就是我们的clear_data
x_train, x_test, y_train, y_test = train_test_split(clear_data, train_label, test_size=0.3, random_state=0, stratify = train_label)

x_train.shape  # (623, 11)

x_test.shape  # (268, 11)

【思考】什么情况下切割数据集的时候不用进行随机选取

【答】数据本身就是随机的

任务二：模型创建

创建基于线性模型的分类模型（逻辑回归）
创建基于树的分类模型（决策树、随机森林）
分别使用这些模型进行训练，分别的到训练集和测试集的得分
查看模型的参数，并更改参数值，观察模型变化

from sklearn.linear_model import LogisticRegression
lr_l1 = LogisticRegression(penalty="l1", C=0.5, solver="liblinear")
lr_l1.fit(x_train, y_train)
print("训练集得分为：",lr_l1.score(x_train,y_train))
print("测试集得分为：",lr_l1.score(x_test,y_test))

训练集得分为： 0.7897271268057785
测试集得分为： 0.8134328358208955

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
clf = DecisionTreeClassifier(random_state=0)  # 设置随机数种子
rfc = RandomForestClassifier(random_state=0)
clf.fit(x_train, y_train)
rfc.fit(x_train, y_train)
clf_score = clf.score(x_test, y_test)
rfc_score = rfc.score(x_test, y_test)
print("决策树训练集得分为：",clf.score(x_train,y_train))
print("决策树测试集得分为：",clf.score(x_test,y_test))
print("随机森林训练集得分为：",rfc.score(x_train,y_train))
print("随机森林测试集得分为：",rfc.score(x_test,y_test))
可以看到决策树已经过拟合

决策树训练集得分为： 1.0
决策树测试集得分为： 0.7611940298507462
随机森林训练集得分为： 1.0
随机森林测试集得分为： 0.8283582089552238

任务三：输出模型预测结果

输出模型预测分类标签
输出不同分类标签的预测概率

一般监督模型在sklearn里面有个 predict能输出预测标签， predict_proba则可以输出标签概率

pred_result = lr_l1.predict(x_train) # 输出为array
pred_result[:10]

array([0, 0, 0, 1, 0, 0, 0, 0, 1, 0], dtype=int64)

输出概率
pred_prob = lr_l1.predict_proba(x_train)
pred_prob[:10]

array([[0.89656205, 0.10343795],
       [0.85447589, 0.14552411],
       [0.91449841, 0.08550159],
       [0.13699148, 0.86300852],
       [0.9381094 , 0.0618906 ],
       [0.81157396, 0.18842604],
       [0.91822815, 0.08177185],
       [0.72434838, 0.27565162],
       [0.47558837, 0.52441163],
       [0.86624392, 0.13375608]])

【思考】预测标签的概率对我们有什么帮助

【答】输出概率可以让我们知道该预测的信息分数

模型评估

模型评估是为了知道模型的泛化能力。
交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。
在交叉验证中，数据被多次划分，并且需要训练多个模型。
最常用的交叉验证是 k 折交叉验证（k-fold cross-validation），其中 k 是由用户指定的数字，通常取 5 或 10。
准确率（precision）度量的是被预测为正例的样本中有多少是真正的正例
召回率（recall）度量的是正类样本中有多少被预测为正类
f-分数是准确率与召回率的调和平均

任务一：交叉验证

from sklearn.model_selection import cross_val_score
lr_l1 = LogisticRegression(penalty="l1", C=0.5, solver="liblinear")
lr_l1.fit(x_train, y_train)
scores = cross_val_score(lr_l1, x_train, y_train,cv = 10)
print("score:",scores)
print("score.mean():",scores.mean())

score: [0.74603175 0.76190476 0.85714286 0.75806452 0.85483871 0.79032258
 0.72580645 0.83870968 0.70967742 0.80645161]
score.mean(): 0.7848950332821301

clf = DecisionTreeClassifier(random_state=0)  # 设置随机数种子
rfc = RandomForestClassifier(random_state=0)
clf.fit(x_train, y_train)
rfc.fit(x_train, y_train)
scores_clf = cross_val_score(clf, x_train, y_train,cv = 10)
scores_rfc = cross_val_score(rfc, x_train, y_train,cv = 10)
print("scores_clf.mean_10:",scores_clf.mean())
print("scores_rfc.mean_10:",scores_rfc.mean())
scores_clf = cross_val_score(clf, x_train, y_train,cv = 5)
scores_rfc = cross_val_score(rfc, x_train, y_train,cv = 5)
print("scores_clf.mean_5:",scores_clf.mean())
print("scores_rfc.mean_5:",scores_rfc.mean())

scores_clf.mean_10: 0.7397849462365592
scores_rfc.mean_10: 0.8186635944700461
scores_clf.mean_5: 0.7496129032258064
scores_rfc.mean_5: 0.8138322580645161

【思考】k折越多的情况下会带来什么样的影响？

【答】拟合效果不好

任务二：混淆矩阵

计算二分类问题的混淆矩阵
计算精确率、召回率以及f-分数

【思考】什么是二分类问题的混淆矩阵，理解这个概念，知道它主要是运算到什么任务中的

【答】这个可以很好的应用到任务为样本不太均衡的场景

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
pred = lr_l1.predict(x_train)
confusion_matrix(y_train, pred)

array([[328,  56],
       [ 75, 164]], dtype=int64)

print(classification_report(y_train, pred))

              precision    recall  f1-score   support

           0       0.81      0.85      0.83       384
           1       0.75      0.69      0.71       239

    accuracy                           0.79       623
   macro avg       0.78      0.77      0.77       623
weighted avg       0.79      0.79      0.79       623

任务三：ROC曲线

【思考】什么是ROC曲线，OCR曲线的存在是为了解决什么问题？

【答】主要是用来确定一个模型的阈值。同时在一定程度上也可以衡量这个模型的好坏

from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_test, lr_l1.decision_function(x_test))
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel("FPR")
plt.ylabel("TPR (recall)")# 找到最接近于0的阈值
close_zero = np.argmin(np.abs(thresholds))
plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2)
plt.legend(loc=4)

【思考】对于多分类问题如何绘制ROC曲线

【答】对每一个类别画一条ROC曲线最后取平均

Original: https://www.cnblogs.com/FavoriteStar/p/16926661.html
Author: FavoriteStar
Title: 【Datawhale】动手学数据分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/797849/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

国外学者将500万篇CS论文搬进了毕业论文，结论：学海无涯“卷”作舟

文 | python 各位在CS（计算机）科研的苦海中挣扎的亲们，有没有觉得这些年科研越来越卷，论文越来越难发？实锤了！用数据说话，计算机领域的论文真的越来越卷了！最近，一篇德…

Python 2023年10月27日
0041
利用numpy做图像旋转，以及对线性插值的个人理解

这是我第一次在CSDN上发表文章，如果文章有什么错漏之处敬请谅解。目录前言获取旋转坐标矩阵 * 计算结果图的尺寸获取坐标矩阵移动轴心点计算旋转坐标矩阵把轴心点移动回去…

Python 2023年8月27日
0063
Grafana监控大屏配置参数介绍（一）

Grafana 系列文章，版本：OOS v9.3.1 Grafana 的介绍和安装在上篇文章中，我们已经安装了Grafana，并且看到了它的初步面貌。在这篇文章，我们以一个简单的…

Python 2023年9月28日
00102
数据可视化—-Matplotlib

数据可视化环境配置一、Matplotlib 初识二、图形介绍 * 设置字体，解决中文乱码问题折线图 – 股票简易练习柱状图 – 普通柱状图堆叠柱…

Python 2023年9月1日
0061
C++初阶（stack+queue）

stack介绍 stack是一种先进后出的数据结构，只有一个出口，类似于栈。stack容器哦允许新增元素，移除元素，取得栈顶元素，但是除了最顶端之后，没有任何其他办法可以存取sta…

Python 2023年10月14日
0041
2021/6/1爬虫第十九次课（pipline管道的使用、items文件的使用）

一、piplines.py文件的使用 1 开启管道注意Item的对象加入你引用了item文件那么这个item不是一个dict对象反之则是一个字典对象 ITEM_PIPELIN…

Python 2023年10月4日
0047
离线识别率最高的Python人脸识别系统

Original: https://www.cnblogs.com/123456feng/p/16092121.htmlAuthor: 蚂蚁ailingTitle: 离线识别率最高…

Python 2023年11月9日
0034
Django-Vue3-Lyadmin后台管理系统

Django-Vue3-Lyadmin ; slogon 前端frontend：做一个专业前端能用的框架，后台人员也能面向配置的、能改得动的CRUD后端backend ：强大的功能…

Python 2023年8月3日
0077
Pytest自动化测试框架进阶使用教程

fixture 特点：命令灵活：对于setup，teardown可以省略数据共享：在conftest.py配置里写方法可以实现数据共享，不需要import导入，可以跨文件共享 …

Python 2023年9月9日
0045
ChatGPT背后的开源AI框架Ray，现在值10亿美元

Ray 被 OpenAI、亚马逊等科技公司用来开发大模型，是最近异军突起的框架。最近一段时间，文本生成的人工智能在互联网上掀起了一阵风暴：ChatGPT 因为可以对人们能想到的几…

Python 2023年11月3日
0069
系统移植第一天

一、什么是系统移植 1.1 系统移植就是给开发板搭建一个Linux操作系统 1.2 从官方获取源码，进行配置和编译，生成板子需要的镜像文件二、为什么学习系统移植 2.1 为后面学…

Python 2023年9月26日
0039
深度学习笔记（二）——对Tensor创建、修改、索引操作的整理

Tensor的创建、修改、索引操作 Tensor概述创建Tensor 修改Tensor形状 * 这里说明两个问题 – torch.view与torch.reshape…

Python 2023年8月29日
00114
python入侵电脑教程_Python外星人入侵问题求助?python网站入侵视频教程

我用Python做了一个樱花树，360说有活动感染病毒正在入侵你的电脑，怎么回事。你的exe应用没有安全证书，360就会报错的，我也遇到过。没关系。网上下载的应用都是有安全证书的…

Python 2023年9月15日
0063
一道经典的Python数据分析笔试题

最近无意看到一份关于数据分析的Python笔试题，做起来还是很有意思的，特意自己动手做了一下，和大家分享一下，希望大家也可以跟着练习。题目如下：首先，模拟数据： importp…

Python 2023年8月20日
0059
基于支持向量机的图像分类系统（MATLAB GUI界面版）

摘要：本文详细介绍基于支持向量机的图像分类系统，给出 M A T L A B_的算法介绍及界面设计过程。在界面中可点击选择图片或带图片的文件夹，系统自动对所涉及图片进行识别分类，可…

Python 2023年10月29日
0052
Python学生成绩排序（循环实现）

题目要求（成绩数据已给出）输入学生成绩信息序列，完成对于每个学生成绩数据的储存，并将所有学生储存于列表中；在此基础上，按照总分从高到低的学生名单，总分从低到高的学生名单，三门课成…

Python 2023年8月1日
00195

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Datawhale】动手学数据分析

第一章：数据载入及初步观察

载入数据

任务一：导入numpy和pandas

任务二：载入数据

任务三：每1000行为一个数据模块，逐块读取

将表头改成中文

初步观察

任务一：查看数据的基本信息

任务二：对缺失值进行处理

重复值观察与处理

任务一：请查看数据中的重复值

任务二：对重复值进行处理

任务三：将前面清洗的数据保存为csv格式

特征观察与处理

任务一：对年龄进行分箱（离散化）处理

任务二：对文本变量进行转换

任务三：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

数据的合并

任务一：将data文件夹里面的所有数据都载入，观察数据的之间的关系

任务二：使用concat方法：将数据train-left-up.csv和train-right-up.csv横向合并为一张表，并保存这张表为result_up

任务三：使用concat方法：将train-left-down和train-right-down横向合并为一张表，并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为result

任务四：使用DataFrame自带的方法join方法和append：完成任务二和任务三的任务

任务五：使用Panads的merge方法和DataFrame的append方法：完成任务二和任务三的任务

任务六：完成的数据保存为result.csv

换一种角度看数据

任务一：将我们的数据变为Series类型的数据

数据运用

任务一：通过教材《Python for Data Analysis》P303、Google or anything来学习了解GroupBy机制

任务二：计算泰坦尼克号男性与女性的平均票价

任务三：统计泰坦尼克号中男女的存活人数

任务四：计算客舱不同等级的存活人数

任务五：统计在不同等级的票中的不同年龄的船票花费的平均值

任务六：将任务二和任务三的数据合并，并保存到sex_fare_survived.csv

任务七：得出不同年龄的总的存活人数，然后找出存活人数最多的年龄段，最后计算存活人数最高的存活率（存活人数/总人数）

如何让人一眼看懂你的数据

任务一：跟着书本第九章，了解matplotlib，自己创建一个数据项，对其进行基本可视化

任务二：可视化展示泰坦尼克号数据集中男女中生存人数分布情况（用柱状图试试）

任务三：可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图（用柱状图试试）

任务四：可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。（用折线图试试）（横轴是不同票价，纵轴是存活人数）

任务五：可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。（用柱状图试试）

任务六：可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况。(不限表达方式)

任务七：可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况。（用折线图试试）

第三章 模型搭建和评估–建模

模型搭建

任务一：切割训练集和测试集

任务二：模型创建

任务三：输出模型预测结果

模型评估

任务一：交叉验证

任务二：混淆矩阵

任务三：ROC曲线

大家都在看

第三章模型搭建和评估–建模