动手学数据分析 | 函数大杂烩

2023年8月20日上午4:30 • Python • 阅读 49

在这里我主要复习一下用到的函数

本次课程的总任务是实战kaggle上泰坦尼克号的任务，对其数据集进行分析, 主要利用pandas实现。

第一章：数据载入及初步观察

导入numpy和pandas: from numpy as np , from pandas as pd

载入/读入数据：pd.read_csv()等

修改数据：使用.rename等方法修改数据，set_index来设置索引

查看数据：使用df.info() , df.describe()方法

保存数据：df.to_csv()

了解数据类型DataFrame和Series:

Series是由索引和列组成，pd.Series(values, index=[ ], name=” “, dtype=” “) ,其中values可以使用[ ，，，， ] 或者类似字典的方式 {” “：，” “：，” “： }

DataFrame，pd.DataFrame(values, index=[ ], columns=[ ], dtype=” “)

查看值：df[ ].head() df. .head()

删除： del df.drop()等方法

隐藏： df.drop()

筛选： df[df[“Age”]

抽取数据： data.loc[index,column] df.iloc[ ， ]

df.loc[[100,105,108],['Pclass','Name','Sex']].head() loc函数主要基于行标签和列标签进行索引

df.iloc[[100,105,108],[2,3,4]]  iloc函数主要基于行索引和列索引

排序: df.sort_values( ) 对值进行排列 df.sort_index() 对索引进行排列 (默认行索引，默认升序)

算术计算: frame1_a + frame1_b等等

第二章：数据清洗及特征处理

缺失值观察： data.info() data.isnull( ) data.notnull( )

缺失值处理：data.dropna() 删除缺失值 data.fillna() 清理并填充缺失值 data.replace() 替换通用值

重复值观察: df.duplicated() 查找并显示数据表中的重复值

重复值处理: drop_duplicates() 去重函数

特征观察与处理: 数据特征分为两大类：数值特征（离散数值特征、连续数值特征）、文本特征

连续数值特征需要离散化处理： pd.cut() 分箱操作

对文本变量进行转换：

（1）查看文本变量名及种类 .value_counts() .unique() .nunique()

（2）将文本变量用数值表示 .replace([“male”,”female”],[1,2]) .map({‘male’: 1, ‘female’: 2}) LabelEncoder()

（3）将文本变量用one-hot编码表示

数据的合并： pd.concat([ , ],axis=) ，pd.merge( ) ，或使用DataFrame自带的方法 df.join( )和 df.append( )

数据聚合： df.groupby() 聚合函数 df .agg() 聚合函数

第三章：数据建模和模型评估

使用一个机器学习最常用的一个库（sklearn）来完成模型的搭建和评估

3.1 建模

切割数据集为测试集和训练集：

from sklearn.model_selection import train_test_split

 train_test_split()

模型创建：

 from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

模型训练 / 拟合数据集：

lr.fit(X_train, y_train)

查看训练集和测试集score值：

lr.score(X_train, y_train)

输出预测标签：

lr.predict(X_train)

预测标签概率：

lr.predict_proba(X_train)

交叉验证：

from sklearn.model_selection import cross_val_score

cross_val_score(lr, X_train, y_train, cv=10)

混淆矩阵：

from sklearn.metrics import confusion_matrix

confusion_matrix(y_train, pred)

精确率、召回率以及f-分数:

from sklearn.metrics import classification_report

classification_report(y_train, pred)

ROC曲线：

from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test))

plt.plot(fpr, tpr, label="ROC Curve")

开营视频：动手学数据分析_哔哩哔哩_bilibili
https://m.bilibili.com/video/BV1Hi4y1179E
开源内容（三选一）：

（1）：https://linklearner.com/datawhale-homepage/#/learn/detail/50

（2）：https://github.com/datawhalechina/hands-on-data-analysis

（3）：https://gitee.com/datawhalechina/hands-on-data-analysis
– B站视频：https://www.bilibili.com/video/BV1Uv411p77r
– 关于Pandas的操作，你可以参考Joyful-Pandas，可以让你的数据分析学习事半功倍：https://gitee.com/cocowjy1126/joyful-pandas
– 本次学习使用的书籍《利用Python进行数据分析》

Original: https://blog.csdn.net/j125800001/article/details/126831137
Author: 江某1111号机
Title: 动手学数据分析 | 函数大杂烩

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754514/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

QXlsx的private header message消除（替换QZip）

This is not a bug 在对比了几个Qt的excel工具以后，一开始想选一个尽量简单的，但是试用了以后，还是默默选择了Qxlsx,真香。我是使用pri和源码直接添加到工…

Python 2023年6月3日
00154
镜像与容器

Docker 镜像如果进行形象的表述，我们可以将 Docker 镜像理解为包含应用程序以及其相关依赖的一个基础文件系统，在 Docker 容器启动的过程中，它以只读的方式被用于创…

Python 2023年6月3日
0056
python笔记4（矩阵和随机数 matplotlib绘图基础散点图折线图柱状图）

记录python听课笔记文章目录记录python听课笔记一，矩阵 * 1.1矩阵创建 1.2矩阵运算矩阵的乘法矩阵转置T 矩阵求逆I 二，随机数 * 2.1随机数模块 n…

Python 2023年9月6日
0052
《异常检测——从经典算法到深度学习》19 OmniAnomaly：基于随机循环网络的多元时间序列鲁棒异常检测

《异常检测——从经典算法到深度学习》 0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度…

Python 2023年9月16日
0056
Visual Studio 17.5 拼写检查器预览版现已推出，来说说你的看法吧

写在前面： Visual Studio17.5版本已添加拼写检查器功能，Visual Studio 中的许多功能旨在帮助你编写所需的代码。Visual Studio帮助你确保代码的…

Python 2023年11月6日
0036
numpy明明有高版本却显示版本不够

不知道和我上篇文章添加Jupyter notebook代码提示是否有关系（大概率！）在进行导入numpy库的时候出现了以下问题真的特别离奇！！！我之前都用得好好的，怎么突然不行了？…

Python 2023年8月26日
0086
机器学习：KL散度详解

KL 散度，是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样…

Python 2023年10月8日
0040
python+pytest接口自动化之session会话保持

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月9日
0048
参数化@pytest.mark.parametrize【pytest系列 8】

1、pytest可以在多个地方定义参数化 pytest.fixture fixture可以定义参数化 pytest.mark.parametrize 可以让测试函数和类定义多组参数…

Python 2023年9月12日
0053
Web3.0：伟大的骗局，请无辜的各位做一个敢于大声说出来的孩子吧

雅痞注：在寒冷的熊市给大家泼一盆冷水不是我选择本文的本意，我希望每个人都能理性的对待投资，要深刻的做自己的研究。在你们作为区块链技术忠实拥趸的同时，请开启上帝视角，让我们站在空中看…

Python 2023年9月27日
0036
conda的安装与使用

conda的安装与使用一、conda可以干嘛？官方介绍： Anaconda 是一个包含数据科学常用包的 Python 发行版本。它基于 conda ——一个包和环境管理器——衍…

Python 2023年9月7日
0071
这几个Python数据可视化探索实例，拿走不谢

推荐阅读：1、程序员用Python爬虫做副业半个月就赚了3W2、一个30岁的程序员无比挣扎的故事，连躺平都是奢望利用可视化探索图表一、数据可视化与探索图数据可视化是指用图形或…

Python 2023年8月30日
0054
【光学】Matlab实现色散曲线拟合

Python 2023年5月24日
0094
【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践：part2知识获取与图谱构建、服务搭建

前序文章：【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践：part1项目介绍与环境准备 ; 知识获取与图谱构建其中原项目提供了关系数据如下：其中五列…

Python 2023年8月10日
0076
python爬虫之BeautifulSoup4使用

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的 html、 xml数据，使用 Xpath实现网页内容爬取。本章我们…

Python 2023年5月23日
0064
利用Matplotlib绘制各类图表

利用Matplotlib绘制各类图表 Matplotlib部分 * Matplotlib安装第一次绘图标题和坐标轴命名给折线图增加更多细节 – marker——数…

Python 2023年9月5日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手学数据分析 | 函数大杂烩

第一章 ：数据载入及初步观察

第二章 ：数据清洗及特征处理

第三章 ：数据建模和模型评估

大家都在看

第一章：数据载入及初步观察

第二章：数据清洗及特征处理

第三章：数据建模和模型评估