利用python库 pandas完成数据分析（持续更新中~）

2023年8月16日上午11:25 • Python • 阅读 55

利用python库 pandas完成数据分析

导读

Pandas是一个强大的分析结构化数据的工具集，它的使用基础是Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也提供数据清洗功能。
本文收集了Python数据分析库Pandas及相关工具的日常使用方法，备查，持续更新中。

缩写说明

df：任意的 Pandas DateFrame 对象
s：任意的Pandas Series对象
注：有些属性方法df和s都可以使用。

; 推荐资源：

pandas在线教程
https://www.gairuo.com/p/pandas-tutorial
书籍《深入浅出Pandas：利用Python进行数据处理和分析》

一、导入数据

'先导库'
import pandas as pd
import numpy as np
imoport matplotlib.pyplot as plt
%matplotlib inline


pd.read_csv('file.csv',names=['列名1','列名2',.]

pd.read_table(filename,header=0)

pd.read_excel('file.xlsx',sheet_name='表1',header=0)

pd.read_sql(query,connect_object)

pd.read_json(json_string)

pd.read_html(url)

pd.read_clipboard()

pd.DataFrame(dict)

from io import StringIO
pd.read_csv(StringIO(web_data.text))

二、导出数据


df.to_csv('filename.csv')

df.to_excel('filename.xlsx',index=True)

df.to_sql(table_name,connect_object)

df.to_json(filename)

df.to_html()
df.to_markdown()
df.to_sting()
df.to_latex(index=False)
df.to_dict('split')
df.to_clipboard(sep=',',index=False)

writer=pd.ExcelWriter('nes.xlsx')
df_1.to_excel(writer,sheet_name='第一个',index=False)
df_2.to_excel(writer,sheet_name='第二个',index=False)
writer.save()

with pd.ExcelWriter('new.xlsx') as writer:
    df1.to_excel(writer,sheet_name='第一个')
    df2.to_excel(writer,sheet_name='第二个')

创建测试对象


pd.DataFrame(np.random.rand(20,5))

pd.Series(my_list)

df.index=pd.date_range('1900/1/30',periods=df.shape[0])

df.pt.util.testing.makeDataFrame()

df=pd.util.testing.makePeriodFrame()
df=pd.util.testing.makeTimeDateFrame()

df=pd.util.testig.makeMixeDataFrame()

查看、检查、统计、属性

df.head(n)
df.tail(n)
df.sample(n)
df.shape
df.info()
df.describe()
df.dtypes
df.axes

df.mean()
df.mean(1)
df.corr()
df.count()
df.max()
df.min()
df.median()
df.std()
df.var()
s.mode()
s.cumprod()
df.cumsum(axis=0)

s.nunique()
df.idxmax()
df.idmin()
df.columns
df.team.unique()

s.values_counts(drona=False)

df.apply(pd.Series.value_counts)

df.duplicated()
df.drop_option()

pd.get_option()
pd.options.display.max_rows=None
pd.options.display.max_columns=None
df.col.argmin()
df.col.idxmin()

ds.cunsum()
ds.cumprod()
ds.cummax()
ds.cummin()

ds.rolling(x).sum()
ds.rolling(x).mean()
ds.rolling(x).val()
ds.rolling(x).std()
ds.rolling(x).min()
ds.rolling(x).max()

缺失值的处理

df.info() #摘要包括所有列的列表及其数据类型以及每列中非空值的数量

; 数据清洗

df.columns=['a','b','c']
df.columns=df.columns.str.replace(' ','_')
data.loc[:, 'a']
data.loc[:, ['a', 'b']]

df.drop(['name'], axis=1)
df.drop([0,10] ,axis=0)
del df['name']
df.dropna()
    df.dropna(axis=0,subset=["toy"])
df.dropna(axis=1)
df.dropna(axis=1,thresh=n)

df.fillna(x)
df.fillna(value={'prov':'未知'})
s.astype(float)
df.index.astype('datetime64[ns]')

s.replace(1,'one')
s.replace([1,3],['one',three'])
df.set_index('column_one')
df.rename(index=lambda x:x+1)
df.reset_index()

数据处理

df.round(2)
df.round({'A':1,'c':2})

df[ df['team'] == 'A') & (df['Q1']>80) & df.utype.isin(['老客','老访客'])]
df[df.name.str.contains('张')]
DataFrame.sort_values(by='

df.apply(np.max,axis=1)
df.insert(3, '两倍',df['值']*2)

样式显示

**
df['per_cost'] = df['per_cost'].map('{:,.2f}%'.format)

df.style.applymap(lambda x: 'background-color: grey' if x>0 else '',
                  subset=pd.IndexSlice[:, ['B', 'C']])

df.style.highlight_max(color='lightgreen').highlight_min(color='#cd4f39')
df.style.format('{:.2%}', subset=pd.IndexSlice[:, ['B']])

format_dict = {'sum':'${0:,.0f}',
                       'date': '{:%Y-%m}',
                       'pct_of_total': '{:.2%}'
                       'c': str.upper}

(df.style.format(format_dict)
    .hide_index()

    .background_gradient(subset=['sum_num'], cmap='BuGn')

    .bar(color='#FFA07A', vmin=100_000, subset=['sum'], align='zero')

    .bar(color='lightgreen', vmin=0, subset=['pct_of_total'], align='zero')

    .bar(color=['#ffe4e4','#bbf9ce'], vmin=0, vmax=1, subset=['增长率'], align='zero')

    .set_caption('2018 Sales Performance')
    .hide_index())

def background_color(row):
    if row.pv_num >= 10000:
        return ['background-color: red'] * len(row)
    elif row.pv_num >= 100:
        return ['background-color: yellow'] * len(row)
    return [''] * len(row)

df.style.apply(background_color, axis=1)**

Jupyter notebooks问题


import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (15.0, 8.0)
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

from IPython.core.display import display, HTML
display(HTML(".container { width:100% !important; }"))

from IPython.display import IFrame
IFrame('https://arxiv.org/pdf/1406.2661.pdf', width=800, height=450)

key = utils.uuid().slice(2,6)+encodeURIandParens(blob.name);
key = utils.uuid().slice(2,6)+Object.keys(that.attachments).length;

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

https://plot.ly/create

三、可视化

创建组合图

df = pd.DataFrame({"revenue":[57,68,63,71,72,90,80,62,59,51,47,52],
                   "advertising":[2.1,1.9,2.7,3.0,3.6,3.2,2.7,2.4,1.8,1.6,1.3,1.9],
                   "month":range(12)})

ax = df.plot.bar("month", "revenue", color = "green")
df.plot.line("month", "advertising", secondary_y = True, ax = ax)
ax.set_xlim((-1,12));

!](https://img-blog.csdnimg.cn/7054729c7d2a4f339cc3a07e99ac09e8.png)

Original: https://blog.csdn.net/weixin_52001949/article/details/123751722
Author: 麻辣清汤
Title: 利用python库 pandas完成数据分析（持续更新中~）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751093/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python调用spss算法_python – SPSS中的matplotlib图

是否可以在SPSS中使用内置的任何其他图形库？我刚刚发现了使SPSS很棒的 python扩展. import matplotlib.pyplot as plt from numpy…

Python 2023年9月5日
0039
【手写 Vue2.x 源码】第三十一篇 – diff算法-比对优化（下）

一，前言上篇，diff 算法-比对优化（上），主要涉及以下几个点：介绍了如何对儿子节点进行比对；新老儿子节点可能存在的 3 种情况及代码实现；新老节点都有儿子时，diff …

Python 2023年11月7日
0020
机器学习-数据科学库第六天-——笔记

目录 * – 为什么要学习pandas中的时间序列 – 在DataFrame中使用时间序列 – pandas重采样 – Period…

Python 2023年8月16日
0031
一款适合个人的小型博客系统

小型博客系统，效果图如下 PC 端效果 .： ; 手机端效果 .： 1.项目介绍整个项目是 Python 的 Django 框架编写，项目包含 PC 网页端，H5端。 2.使用该…

Python 2023年8月4日
0053
Python爬虫：爬取华为应用市场全部app信息

不要急着写程序，先分析一下网站。 [En] Don’t rush to write the program, first analyze the website. 目标…

Python 2023年5月23日
0081
查看yolov5/lite各层参数量和各层FLOPs

我会简述如何得到v5模型中各层的参数量和计算量（烂大街的参量表），然后再将如何得到各层的计算量FLOPs（基本没人教怎么获得各层FLOPs，花我一番功夫，其实特别简单，轮子U神都造…

Python 2023年9月28日
0051
06—SpringBoot整合MybatisPlus 实现增删改查和分页

1、Mybatis-plus简介为什么要用MP？ MyBatisPlus可以节省我们大量工作时间，所有的CRUD代码都可以自动化完成偷懒用的~ 如果是对sql语言不太熟练的建议…

Python 2023年10月11日
0057
操作系统学习笔记10 | I/O、显示器与键盘

从这一部分开始介绍操作系统的设备驱动，操作系统通过文件系统的抽象驱动设备让用户能够使用显示器、键盘等交互工具。并讲解printf和scanf是如何实现敲下键盘将字符显示到屏幕上的。…

Python 2023年10月22日
0039
python-turtle绘制雪容融，已打包成exe可直接运行

之前我们发布了冰墩绘图的源代码，但融雪绘图一直没有得到。今天，我在访问论坛的时候，终于发现一个老板把它写下来了，递茶给老板！首先，我们来看看这幅画的效果。我个人觉得很逼真哈。 [E…

Python 2023年5月24日
0069
计算机毕业设计Python+Django的在线论坛信息技术系统(源码+系统+mysql数据库+Lw文档）

项目介绍论坛管理系统的建立是可以有效的用户间日常交流和学习的投资(指时间,精力)，其设计理念很简单，变传统的打电话或面对面的交流方式为计算机自动化进行网上论坛信息交流管理，既省时…

Python 2023年8月4日
0057
python自学笔记10：while循环和for循环

条件控制和循环控制是两种典型的流程控制方法，前面我们写了 if 条件控制，这节讲 for 循环和 while 循环。循环是另一种控制流程的方式，一个循环体中的代码在程序中只需要编…

Python 2023年6月11日
0077
pytest（二十六）–重复执行用例(pytest-repeat)

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月9日
0032
pandas 中的dataframe

if df.empty: print(‘休息天，pass’) break pd.isnull()，pd.notnull()，np.isnan()，pd.notna()，pd.isn…

Python 2023年8月18日
0036
Python标准库：datetime 时间和日期模块 —— 时间的获取和操作详解

datetime 模块提供了以简单和复杂的方式操作日期和时间的类。虽然支持日期和时间算法，但实现的重点是有效的成员提取以进行输出格式化和操作。该模块还支持可感知时区的对象。本文主要…

Python 2023年6月15日
0081
跟我学Python图像处理丨图像分类原理与案例

摘要：本篇文章将分享图像分类原理，并介绍基于KNN、朴素贝叶斯算法的图像分类案例。本文分享自华为云社区《[Python图像处理] 二十六.图像分类原理及基于KNN、朴素贝叶斯算法…

Python 2023年9月26日
0041
python数据分析学生成绩查询系统_python数据分析-学生成绩分析

python数据分析-学生成绩分析 python数据分析-学生成绩分析目标：分析学生成绩的影响因素 1.导入原始数据，以及需要用到的库 import pandas as pd i…

Python 2023年8月19日
0076

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30