python 数据挖掘简书_Python数据挖掘与分析—-Pandas常用知识

2023年8月21日下午6:46 • Python • 阅读 45

Pandas基于两种数据类型：series与dataframe。

一个series是一个一维的数据类型，其中每一个元素都有一个标签。series类似于Numpy中元素带标签的数组。其中，标签可以是数字或者字符串。

一个dataframe是一个二维的表结构。Pandas的dataframe可以存储许多种不同的数据类型，并且每一个坐标轴都有自己的标签。你可以把它想象成一个series的字典项。

Pandas常用知识

一、读取csv文件为dataframe

二、dataframe的数据概况

三、取列数据

四、取行数据

五、取某一单元格数据

六、缺失值处理

七、归一化处理

八、排序

九、索引重新编号

十、求均值

十一、矢量化操作(批量操作)

十二、透视表

一、读取csv文件为dataframe

Pandas很好的一点是，可以操作表文件。输出为dataframe格式，这点很nice。使用pandas.read_csv()读取csv文件，输出为dataframe格式数据。这里数据data.csv数据集下载自百度地图。import pandas as pd

filepath = r’C:/Users/lenovo/Desktop/20180108-百度地图/20180108-百度地图/data.csv’

df = pd.read_csv(filepath)

为了方便，我只显示三行，其实结果并不是这样子

print(df)

检测下数据格式#检测下数据格式是否为DataFrame

print(type(df))#输出

class ‘pandas.core.frame.DataFrame

二、 DataFrame数据概况

我们想知道数据如下知识：展示dataframe前后几条记录

显示dataframe的列名字

查看dataframe的维度情况(几行几列)

2.1展示dataframe前后几行#展示前两条记录(根据需要显示条数)

df.head(2)

print(df.head(2))#展示后三条记录

df.tail(3)

print(df.tail(3))

2.2展示dataframe列名#展示列名

col_names = df.columns

print(col_names)#查看下col_names格式

type(col_names)#将col_names转化为list

col_list = col_names.tolist()

col_list

三、从dataframe中取列数据

使用dataframe[column_name]，返回series格式数据。 series序列数据类似于list，你可以近似等同于list。只不过返回数据中会多一列index索引。如下面的左侧数字序号

3.1 取一列数据#这里我们一列，如取Name列数据

df[‘Name’][:5]

print(df[‘Name’][:5])

3.2取多列数据#这里返回的数据还是dataframe格式，为了方便也只显示前几条记录

cols = [‘name’, ‘province_name’, ‘city_name’, ‘city_code’, ‘area’, ‘addr’]

df[cols]

print(df[cols])

四、从dataframe中取行数据(记录)

ix[row, col] 中括号中第一个参数row是行参数，你想选择的数据行数。第二个参数col是列参数，选择你想要的列数据项。

4.1取一行数据#第一行所有数据

df.ix[0, :]

print(df.ix[0, :])#第一行的某几列数据

col = [‘Survived’, ‘Pclass’, ‘Sex’]

df.ix[0, col]

print(df.ix[0, col])

4.2取多行数据#取多行数据，所有列。这里我选择前5行，所有列.

这里是不是很像切片操作。python基础很重要

df.ix[:5, :]

print(df.ix[:5, :])#取多行，某几列

df.ix[:5, col]

print(df.ix[:5, col])

五、取某一单元格数据

取第一行第一列。df.ix[0,0] 第三行第七列。df.ix[2,6]

六、缺失值处理

缺失值一般标记为NaN,处理办法如下df.dropna(axis)

默认直接使用df.dropna()

axis=1,按照行进行缺失值处理

axis=0，按照列进行缺失值处理

df.dropna(axis=0,subset)

axis=0,按照列方向处理subset中的列缺失值

subset=[column] subset含有一个或多个列名的的list

6.1按照行进行缺失值处理#为了显示方便，只显示前五行。

axis=1表示按照行方向处理NAN

df.dropna(axis=1)

6.2按照列进行缺失值处理#按照列处理缺失值(为显示方便，只显示前5行)

df.dropna(axis=0)#对指定列进行缺失值处理

df.dropna(axis=0,subset=[‘Sex’,’Age’])

七、归一化处理

数据集中，不同的列的数据可能在不同量级，如果直接进行分析。模型会认为数字大的影响力大，数字小的影响力小。最终结果可能导致量级小的变量被剔除出模型。因此需要将数据归一化，变成同一量级的数据，这就是归一化操作。在这里我们只对一列操作下，其余列也需要操作，但为了方便，这里只写一列的归一化处理。处理步骤：

1.选取该列的最大值

max_value = df[col].max()

2.该列所有值均除以max_value

这里要注意，我们会用到pandas特性，矢量化操作，也就是可以对一个列表进行批量同样的操作。#这里我们选Fare列进行归一化，先看下Fare的数据

为了方便显示，只显示了前10个

df[‘Fare’]#这里我们选Fare列进行归一化

max_value = df[‘Fare’].max()

max_value

这里我们选Fare列进行归一化

max_value = df[‘Fare’].max()

max_value#归一化，并将数据传入新列new_Fare

df[‘new_Fare’]=df[‘Fare’]/max_value

df[‘new_Fare’]

八、排序df.sort_values(col,inplace,ascending)

col 对col列进行排序

inplace 布尔型值，是否原地操作。

True时，操作结果覆盖掉原数据，原数据被修改

False时，新建一个新数据，原数据未被修改

ascending 布尔型值。升序降序。 False降序，True升序

对Age列进行降序操作，不修改原始数据

df.sort_values(‘Age’,inplace=False,ascending=False)

九、索引重新将排序后的索引重新排序

df.reset_index(drop)

drop 为布尔型值，True表示修改原始数据的索引。

False保留原始数据索引序列。

df.reset_index(drop=False)

十、求平均值

10.1所有列的平均值信息df.mean()

10.2 单个列的平均值df[‘Age’].mean()

十一、矢量化操作(批量操作)

一般对如list样式的数据批量操作，需要写循环，但是这样费时费力。 pandas基于numpy，可进行矢量化操作，一行就能完成复杂的循环语句，而且运行效率还很高。#对Age列批量加10

df[‘Age’]+10).head#对Age列批量减20

df[‘Age’]-10

十二、透视表df.pivot_table(index=col1,values=col2,aggfunc=’numpy函数’)

围绕index参数列，分析各个col2，aggfunc是np函数，当然这里的aggfunc也可以是自定义函数。#分析平均年龄对对生存率的影响。

0为死亡，1为生存。

这里我们发现年龄对生存率有影响。

import numpy as np

df.pivot_table(index=’Survived’,values=’Age’,aggfunc=np.mean)#分析仓位等级对生存率影响。0为死亡，1为生存。

仓位为一等二等三等分别取值1，2，3

一等舱最高级。我们发现仓位等级对生存也有影响。

df.pivot_table(index=’Survived’,values=’Pclass’,aggfunc=np.mean)

pandas提取html中的表格数据

andas会在网页中寻找任何符合html表形式的数据，并将其转化WieDataFrame对象作为返回结果

Code

pandas使用方法import pandas as pd

header=1 显示列名；header=0，不显示

pd.read_html(url,header)

实战代码开始import pandas as pd

url = “http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml”

data = pd.read_html(url,header=1)

print(data)

注意啊，这里得到的数据格式是list。[ 序号楼盘名称城区签约套数预定套数签约面积(㎡) 签约均价(元/㎡)

0 1.0 龙湖春江郦城滨江 18 0 2178.61 23757.0

1 2.0 海威钱塘之星滨江 13 0 629.55㎡ 17398.0

2 3.0 大家运河之星拱墅 12 0 1052.72㎡ 10457.0

3 4.0 保利城市果岭下沙 8 0 743.05㎡ 10457.0

.. … … … … … … …

85 86.0 广宇锦绣桃源拱墅 1 0 86.44㎡ 12473.0

86 87.0 景瑞申花壹号院拱墅 1 0 89.18㎡ 21529.0

87 88.0 复地黄龙和山西湖 0 1 0㎡ 0.0

88 89.0 中粮方圆府下城 0 1 0㎡ 0.0

89 90.0 东方铭楼下沙 0 16 0㎡ 0.0

90 NaN 总计签约：主城区 216 40 21755.55㎡ NaN

[91 rows x 7 columns], 2

DataFrame对象

df.to_json()

而只要知道数据存储在DataFrame中，一切都变的简单起来。比如我很希望数据以json记形式输出，很简单！这只是一行代码的事情。import pandas as pd

data = pd.read_html(url,header=1)

data数据是list类型，要先转化为dataframe

df = pd.DataFrame(data)

df.to_json(orient=’records’)

df.to_csv()

dataframe对象，还可以将数据输出保存为csv文件import pandas as pd

data = pd.read_html(url,header=1)

df = pd.DataFrame(data)

encoding为gbk编码，可以在ofiice excell中看中文不乱吗

df.to_csv(‘data.csv’,encoding=’gbk’)

Original: https://blog.csdn.net/weixin_42525289/article/details/113496004
Author: 投机启示录
Title: python 数据挖掘简书_Python数据挖掘与分析—-Pandas常用知识

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755975/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NumPy 数组的组合和拆分操作

一、数组的组合参数： a1, a2, …：sequence of array_like，除了将被对应的轴之外，数组必须是相同的形状； axis：int, optional，将…

Python 2023年8月26日
0051
一元钱注册 chatGPT账号

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月3日
0045
mysql查询优化

1.count优化 a语句当行数超过11行的时候需要扫描的行数比b语句要多， b语句扫描了6行，此种情况下，b语句比a语句更有效率。当没有where语句的时候直接select c…

Python 2023年6月16日
0046
初学者也能边学边玩的6个Python小游戏，简直六翻了（含源码）

python学习交流Q群：906715085### import sys import cfg import pygame import random ”’滑雪者类”’ cla…

Python 2023年5月24日
0067
chatgpt接入微信

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月10日
0041
vue-router路由之路-极简教程

01、什么是前端路由？前端路由的一个大背景就是当下流行的单页应用SPA，一些主流的前端框架，如vue、react、angular都属于SPA，那什么是SPA呢？ 1.1、SPA …

Python 2023年10月12日
0019
Aestate Framework | python的新一代ORM框架aestate,多种方式实现数据库操作

Aestate Framework 仓库地址：https://gitee.com/aecode/aestate文档地址：https://doc.cacode.ren/ Aestat…

Python 2023年8月5日
0040
Android卡通人脸转换APP(附源码)

Android卡通人脸转换APP 写在前面~ 效果~ * 拍照或者从相册中选图片前景融合背景融合个性签名如何运行~ 注意的bug 写在后面~ 写在前面~ APP界面参考了微…

Python 2023年8月10日
0075
python中pip命令解释和应用

第一怎么去查看我们电脑里面的pip install命令，用于安装库语法是install+你想要安装的库例如 pip install pygame，表示安装pygame库。在pych…

Python 2023年9月19日
0053
全自动化机器学习建模！效果吊打初级炼丹师！ ⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 本文地址：https://www.showm…

Python 2023年10月25日
0039
7.pytest强大的fixture（中）

scope：在类/模块/整个测试中共享fixture实例当fixture需要访问网络时，因为依赖于网络状况，通常是一个非常耗时的动作。扩展下上面的示例，我们可以将scope=…

Python 2023年9月14日
0039
python Django Rest_Framework框架模型类序列化器(ModelSerializer)详解（图文并茂版）

模型类序列化器（ModelSerializer）详解 * – 介绍 – + 区别与优点 – 定义模型类序列化器 – + 查看生成的模…

Python 2023年8月5日
00117
深度学习（一）Mac OS12｜Apple M1安装Tensorflow和Pycharm使用配置

本文主要介绍在Apple M1的Mac os12.x系统下面，安装tensorflow并配置pycharm环境的过程。安装说明硬件和系统说明系统介绍如下，设备是搭载M1芯片的…

Python 2023年10月29日
0078
从零了解进程(操作系统定位,进程的概念,特征,虚拟地址)

目录操作系统的定位进程的概念如何描述进程? 如何组织进程? 为什么要引入进程? 进程的特征 1.pid 2.内存指针 3.文件描述符 4.进程调度的相关属性 (1)进程的状态…

Python 2023年10月8日
0031
Python unittest数据处理ddt

1.装饰器 #装饰器的官方定义：装饰器本质上是一个Python函数(其实就是闭包)，它可以让其他函数在不需要做任何代码变动的前提下增加额外功能，装饰器的返回值也是一个函数对象。装…

Python 2023年10月30日
0027
Python基础-23枚举

23 枚举枚举是一组符号名称（枚举成员）的集合，枚举成员应该是唯一的、不可变的。 23.1 使用普通类实现枚举类 class basicWeek(): SUN=0 MON=1 T…

Python 2023年11月1日
0042

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python 数据挖掘 简书_Python数据挖掘与分析—-Pandas常用知识

为了方便，我只显示三行，其实结果并不是这样子

这里是不是很像切片操作。python基础很重要

axis=1表示按照行方向处理NAN

为了方便显示，只显示了前10个

这里我们选Fare列进行归一化

对Age列进行降序操作，不修改原始数据

0为死亡，1为生存。

这里我们发现年龄对生存率有影响。

仓位为一等二等三等分别取值1，2，3

一等舱最高级。我们发现仓位等级对生存也有影响。

header=1 显示列名；header=0，不显示

data数据是list类型，要先转化为dataframe

encoding为gbk编码，可以在ofiice excell中看中文不乱吗

大家都在看

python 数据挖掘简书_Python数据挖掘与分析—-Pandas常用知识