python数据分析和数据挖掘之pandas模块

2023年8月19日下午9:15 • Python • 阅读 65

一、pandas模块

pandas（Python Data Analysis Library）是基于numpy的数据分析模块，提供了大量标准数据模型和高效操作大型数据集所需要的工具，可以说pandas是使得Python能够成为高效且强大的数据分析环境的重要因素之一。它最主要的两个数据结构是series和DataFrame。本文主要介绍series的一些操作。

二、series命令及其相关功能介绍

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型


pandas.Series( data, index, dtype, name, copy)

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

下面我将介绍pandas的series的方法：

方法功能描述pandas.series(list,index=[])创建值S1.value查看值S1[‘index值’]查看索引index值S1[条件]根据索引取值S.to_dict（）把series转换成字典输出pandas.isnull(S1)判断series的元素是否为空值S1.name=’字符’给series赋予名字S1.index.name=’demo_index’给索引取名字series.isnull（）判断某个列表中是否含有空值series.is_unique判断某个系列中的值是否存在重复series.value_counts()统计某个系列里某个元素的出现次数

三、数据框的语法及其功能描述

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。


pandas.DataFrame( data, index, columns, dtype, copy)

data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

下面我将介绍pandas的DataFrame的方法：

语句功能描述pandas。FDataFrame（data，columns=[],index=[]）创建数据框pd.read_csv()将CSV文件的数据导入到内存中，快速构建数据库pd.concat()按横向或纵向合并两个pandas数据结构pd.get_dummies()将类别变量转变为独热编码DataFrame.mean()按行或按列计算平均值DataFrame.dropna()删除所有缺失数据的行或列DataFrame.drop_duplicates删除所有重复的行DataFrame.head()默认返回数据框中前五行DataFrame.tail()默认返回数据框中最后五行

四、pandas的CSV文件

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。

函数描述read_csv(path)读取CSV文件to_string()将文件变成字符流to_csv()将其他数据结构转成CSV文件head(n)读取前面的 n 行，如果不填参数 n ，默认返回 5 行tail( n )用于读取尾部的 n 行，如果不填参数 n ，默认返回 5 行info()返回表格的一些基本信息

五、pandas的json

JSON（JavaScript Object Notation，JavaScript 对象表示法），是存储和交换文本信息的语法，类似 XML。

函数描述read_json()读取json文件to_string()将文件变成字符流json_normalize()将内嵌的数据完整的解析出来

六、## pandas数据清洗

函数描述例程cat函数主要用于字符串的拼接df[“姓名”].str.cat(df[“家庭住址”],sep=’-‘3)contains函数主要用于判断某个字符串是否包含给定字符df[“家庭住址”].str.contains(“广”)startswith函数主要用于判断某个字符串是否以…开头df[“姓名”].str.startswith(“黄”)endswith函数主要用于判断某个字符串是否以…结尾df[“英文名”].str.endswith(“e”)endswith函数主要用于计算给定字符在字符串中出现的次数df[“电话号码”].str.count(“3”)get函数主要用于获取指定位置的字符串df[“姓名”].str.get(-1)len函数主要用于计算字符串长度df[“性别”].str.len()upper函数主要用于英文大小写转换df[“英文名”].str.upper()lower函数主要用于英文大小写转换df[“英文名”].str.lower()pad+side参数/center函数主要用于在字符串的左边、右边或左右两边添加给定字符df[“家庭住址”].str.center(10,fillchar=”“)repeat函数主要用于重复字符串几次df[“性别”].str.repeat(3)slice_replace函数主要用于使用给定的字符串，替换指定的位置的字符df[“电话号码”].str.slice_replace(4,8,”“4)replace函数主要用于将指定位置的字符，替换为给定的字符串df[“身高”].str.replace(“:”,”-“)split方法+expand参数主要用于将一列扩展为好几列df[[“身高描述”,”final身高”]] = df[“身高”].str.split(“:”,expand=True)strip、rstrip、lstrip函数主要用于去除空白符、换行符df[“姓名”] = df[“姓名”].str.strip()extract、extractall函数主要用于接受正则表达式，抽取匹配的字符串(一定要加上括号)df[“身高”].str.extractall(“([a-zA-Z]+)”)

如果我们要删除包含空字段的行，可以使用 dropna() 方法，语法格式如下：


DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
how：默认为 ‘any’ 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how=’all’ 一行（或列）都是 NA 才去掉这整行。
thresh：设置需要多少非空值的数据才可以保留下来的。
subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。
inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

Pandas使用 mean()、 median() 和 mode() 方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）。

数据格式错误的单元格会使数据分析变得困难，甚至不可能。我们可以通过包含空单元格的行，或者将列中的所有单元格转换为相同格式的数据。

数据错误也是很常见的情况，我们可以对错误的数据进行替换或移除。

如果我们要清洗重复数据，可以使用 duplicated() 和 drop_duplicates() 方法。如果对应的数据是重复的， duplicated() 会返回 True，否则返回 False。

Original: https://blog.csdn.net/m0_43405302/article/details/121013440
Author: 绝域时空
Title: python数据分析和数据挖掘之pandas模块

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754249/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas深入浅出

; 4.Pandas新增数据列文章目录 4.Pandas新增数据列前言一、直接赋值二、df.apply方法三、df.assign方法四、按条件选择分组分别进行赋值总结…

Python 2023年8月7日
0066
leetcode 235. Lowest Common Ancestor of a Binary Search Tree 二叉搜索树的最近公共祖先(简单)

一、题目大意给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为：”对于有根树 T 的两个结点 p、q，最近公共祖先表示为一个…

Python 2023年6月12日
0080
pandas学习笔记——set_index()

pandas中set_index()方法是专门用来将某一列设置为index的方法。主要参数：keys：需要设置为index的列名drop：True or False。将某列设置为i…

Python 2023年8月7日
0051
pytest单元测试框架

单元测试是指在软件开发中，针对软件的最小单位（函数、方法）进行正确性的检查测试 java：Junit python: unittest和pytest 自动化测试框架的作用： * &…

Python 2023年9月13日
0038
python实现飞机大战游戏

python实现飞机大战小游戏（含源码+视频资源）导语：正文： 1.开发工具 2.环境搭建 3.效果如下 Step1：定义精灵类 Step2：实现游戏主循环 Step3：制作简…

Python 2023年9月23日
0077
【Python】常用工具包系列1 —— numpy

笔者：YY同学Serendipity 1. 数组（矩阵）通用模块名功能代码示例解释说明numpypython 多维数组模块import numpy as npnp 也可以命名为其…

Python 2023年8月24日
0063
刘畊宏男孩女孩看过来！运动数据分析挖掘！⛵

💡 作者：韩信子@ShowMeAI📘数据分析 ◉ 技能提升系列：https://www.showmeai.tech/tutorials/33📘AI 面试题库系列：https://w…

Python 2023年10月29日
0033
ChatGPT与BimAnt的1小时对话实录【数字孪生】

本文为BimAnt和ChatGPT对数字孪生相关问题的解答，感觉这个AI真的已经”懂”了很多东西，让人恍惚间忘了是在和bot对话。 BimAnt：hello…

Python 2023年11月3日
0030
Python输出指定时间间隔内的日期

import platform import datetime print("古人云：宁可枝头抱香死，何曾吹落北风中。今日我云：宁可火烧靖国厕，何曾参加夏日祭。&quot…

Python 2023年11月1日
0052
Python+大数据-数据分析与处理(六)-综合案例

Python+大数据-数据分析与处理(六)-综合案例案例一：Appstore数据分析学习目标掌握描述性数据分析流程能够使用pandas、seaborn进行数据分析和可视化 …

Python 2023年9月26日
0037
python allure报告_pytest+allure+jenkins，生成allure报告

1、本地生成allure报告 1、安装依赖 allure-2.13.2 allure-pytest-2.8.11 pytest-5.4.1 python-jenkins jdk-1…

Python 2023年9月14日
0044
用 pandas 解一道小题。炼到了 DataFrame 实例创建、行列列印、数据运算、条件筛选。

Python 官网：这里，才 python 前沿。可惜是英文原版。所以，我要练习英文阅读。🧐🧐 我的CSDN主页 My Python 学习个人备忘录我的_HOT_ 博自学并…

Python 2023年8月7日
0097
第二章知己知彼

知彼知己，百战不殆；不知彼而知己，一胜一负；不知彼，不知己，每战必殆。《谋攻篇》前面两章其实重点是在掰扯数智化，IT 研发本身的数字化其实除了DevOps 这一种手段之外还有很多…

Python 2023年10月20日
0028
纯纯的爬虫知识，python scrapy 下载中间件知多少

这篇博客咱们聊聊 scrapy 中的 Downloader Middleware ，即下载中间件相关知识。 Downloader Middlerware 首先看一下中间件在 scr…

Python 2023年10月3日
0036
Scrapy_redis框架分布式爬虫的实现案例-书山有路网

普通爬虫：流程：创建项目明确目标创建爬虫保存内容爬取书山有路网上图书页面：图书分类::有路网 – 买旧书上有路点击到浏览图书所有分类：图书分类::有路网…

Python 2023年10月1日
0056
基于SqlSugar的开发框架循序渐进介绍（23）– Winform端管理系统中平滑增加对Web API对接的需求

在前面随笔介绍的基于SqlSugar的WInform端管理系统中，数据提供者是直接访问数据库的方式，不过窗体界面调用数据接口获取数据的时候，我们传递的是标准的接口，因此可扩展性比较…

Python 2023年10月11日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31