import pandas as pd

df1=pd.read_csv('concat_1.csv')

df2=pd.read_csv('concat_2.csv')

df3=pd.read_csv('concat_3.csv')

print(df1)

print(df2)

print(df3)

#concat将3个dataframe连接在一起，是原始索引的简单堆叠

row_concat=pd.concat([df1,df2,df3])

print(row_concat)

#获取第四行

print(row_concat.iloc[3,])

#将series添加到dataframe，要先将series转化为dataframe

new_row_df=pd.DataFrame([['n1','n2','n3','n4']],columns=['A','B','C','D'])

print(new_row_df)

print(pd.concat([df1,new_row_df]))

#concat连接多个对象，append连接一个对象

print(df1.append(df2))

print(df1.append(new_row_df))

#使用python字典添加数据行

data_dict={'A':'n1','B':'n2','C':'n3','D':'n4'}

print(df1.append(data_dict,ignore_index=True))

#当向dataframe添加一个字典时，必须使用参数ignore_index

#简单的连接或追加数据，可以使用ignore_index参数重置连接后的行索引

row_concat_i=pd.concat([df1,df2,df3],ignore_index=True)

print(row_concat_i)

#axis=0.按行连接数据；axis=1,按列连接数据

col_concat=pd.concat([df1,df2,df3],axis=1)

print(col_concat)

#按列明提取数据子集

print(col_concat['A'])

#直接添加一列

col_concat['new_col_list']=['n1','n2','n3','n4']

print(col_concat)

col_concat['new_col_series']=pd.Series(['n1','n2','n3','n4'])

print(col_concat)

#ignore_index重置列索引

print(pd.concat([df1,df2,df3],axis=1,ignore_index=True))

1连接具有不同列的行

# 1连接具有不同列的行

df1.columns=['A','B','C','D']

df2.columns=['E','F','G','H']

df3.columns=['A','C','F','H']

print(df1)

print(df2)

print(df3)

row_concat=pd.concat([df1,df2,df3])

print(row_concat)

print(pd.concat([df1,df2,df3],join='inner'))

print(pd.concat([df1,df3],ignore_index=False,join='inner'))

2.连接具有不同行的列

df1.index=[0,1,2,3]

df2.index=[4,5,6,7]

df3.index=[0,2,5,7]

print(df1)

print(df2)

print(df3)

col_concat=pd.concat([df1,df2,df3],axis=1)

print(col_concat)

print(pd.concat([df1,df3],axis=1,join='inner'))

1.2合并多个数据集

person=pd.read_csv('survey_person.csv')

site=pd.read_csv('survey_site.csv')

survey=pd.read_csv('survey_survey.csv')

visited=pd.read_csv('survey_visited.csv')

print(person)

print(site)

print(survey)

print(visited)

visited_subset=visited.loc[[0,2,6]]

#merge函数的参数how默认值为inner

o2o_merge=site.merge(visited_subset,left_on='name',right_on='site')

print(o2o_merge)

m2o_merge=site.merge(visited,left_on='name',right_on='site')

print(m2o_merge)

ps=person.merge(survey,left_on='ident',right_on='person')

vs=visited.merge(survey,left_on='ident',right_on='taken')

print(ps)

print(vs)

ps_vs=ps.merge(vs,left_on=['ident','taken','quant','reading'],

              right_on=['person','ident','quant','reading'])

#print(ps_vs)

print(ps_vs.loc[0,])

2.1查找和统计缺失数据

ebola=pd.read_csv('country_timeseries.csv')

#&#x7EDF;&#x8BA1;&#x975E;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x4E2A;&#x6570;

print(ebola.count())

num_rows=ebola.shape[0]

num_missing=num_rows-ebola.count()

print(num_missing)

#&#x7EDF;&#x8BA1;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x603B;&#x6570;&#x6216;&#x7279;&#x5B9A;&#x5217;&#x4E2D;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x4E2A;&#x6570;&#xFF0C;count_nonzero&#x51FD;&#x6570;&#x548C;isnull&#x65B9;&#x6CD5;

import&#xA0;numpy&#xA0;as&#xA0;np

print(np.count_nonzero(ebola.isnull()))

print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

#value_counts&#x65B9;&#x6CD5;&#x83B7;&#x53D6;&#x7F3A;&#x5931;&#x503C;&#x4E2A;&#x6570;

print(ebola.Cases_Guinea.value_counts(dropna=False).head())

2.2清理缺失数据

#把缺失值重新编码为0

print(ebola.fillna(0).iloc[0:10,0:5])

print(ebola.fillna(method='ffill').iloc[0:30,0:5])

print(ebola.fillna(method='bfill').iloc[:,0:5].tail())

print(ebola.interpolate().iloc[0:10,0:5])

print(ebola.shape)

ebola_dropna=ebola.dropna()

print(ebola_dropna.shape)

2.3缺失值计算

ebola['Cases_multiple']=ebola['Cases_Guinea']+ebola['Cases_Liberia']+ebola['Cases_SierraLeone']

ebola_subset=ebola.loc[:,['Cases_Guinea','Cases_Liberia','Cases_SierraLeone','Cases_multiple']]

print(ebola_subset.head(n=10))

print(ebola.Cases_Guinea.sum(skipna=True))

print(ebola.Cases_Guinea.sum(skipna=False))

3.1包含值而非变量的列

import&#xA0;pandas&#xA0;as&#xA0;pd

pew=pd.read_csv('pew.csv')

#&#x53EA;&#x663E;&#x793A;&#x524D;&#x51E0;&#x5217;

print(pew.iloc[:,0:6])

#melt&#x51FD;&#x6570;&#x53EF;&#x4EE5;&#x628A;dataframe&#x91CD;&#x5851;&#x6210;&#x6574;&#x6D01;&#x7684;&#x6570;&#x636E;&#x683C;&#x5F0F;

pew_long=pd.melt(pew,id_vars='religion')

print(pew_long)

pew_long=pd.melt(pew,id_vars='religion',var_name='income',value_name='count')

print(pew_long)

billboard=pd.read_csv('billboard.csv')

#&#x67E5;&#x770B;&#x524D;&#x51E0;&#x884C;&#x548C;&#x524D;&#x51E0;&#x5217;

print(billboard.iloc[0:5,0:16])

billboard_long=pd.melt(billboard,id_vars=['year','artist','track','time','date.entered'],var_name='week',value_name='rating')

print(billboard_long.head())

3.2包含多个变量的列

ebola=pd.read_csv('country_timeseries.csv')

print(ebola.columns)

#&#x8F93;&#x51FA;&#x6240;&#x9009;&#x884C;

print(ebola.iloc[:5,[0,1,2,3,10,11]])

ebola_long=pd.melt(ebola,id_vars=['Date','Day'])

print(ebola_long)

#&#x83B7;&#x53D6;variable&#x5217;

#&#x8BBF;&#x95EE;&#x5B57;&#x7B26;&#x4E32;&#x65B9;&#x6CD5;

#&#x4F9D;&#x636E;&#x5206;&#x9694;&#x7B26;&#x62C6;&#x5206;&#x5217;

variable_split=ebola_long.variable.str.split('_')

print(variable_split[:5])

#&#x6574;&#x4E2A;&#x5BB9;&#x5668;

print(type(variable_split))

#&#x5BB9;&#x5668;&#x4E2D;&#x7684;&#x7B2C;&#x4E00;&#x4E2A;&#x5143;&#x7D20;

print(type(variable_split[0]))

#&#x4F7F;&#x7528;get&#x65B9;&#x6CD5;&#x5BF9;&#x5404;&#x884C;&#x53D6;&#x60F3;&#x8981;&#x7684;&#x7D22;&#x5F15;

status_values=variable_split.str.get(0)

country_values=variable_split.str.get(1)

print(status_values[5:])

print(country_values[-5:])

ebola_long['status']=status_values

ebola_long['country']=country_values

print(ebola_long.head())

variable_split=ebola_long.variable.str.split('_',expand=True)

variable_split.columns=['status','country']

ebola_parsed=pd.concat([ebola_long,variable_split],axis=1)

print(ebola_parsed)

ebola_long['status'],ebola_long['country']=zip(*ebola_long.variable.str.split('_'))

print(ebola_long.head())

3.3行与列中的变量

weather=pd.read_csv('weather.csv')

print(weather.iloc[:5,:11])

weather_melt=pd.melt(weather,id_vars=['id','year','month','element'],var_name='day',value_name='temp')

print(weather_melt)

weather_tidy=weather_melt.pivot_table(index=['id','year','month','day'],columns='element',values='temp')

weather_tidy_flat=weather_tidy.reset_index()

print(weather_tidy_flat.head())

weather_tidy=weather_melt.pivot_table(index=['id','year','month','day'],columns='element',values='temp').reset_index()

print(weather_tidy.head())

3.4一张表中的多个观测单元(归一化)

print(billboard_long.head())

billboard_songs=billboard_long[['year','artist','track','time']]

print(billboard_songs.shape)

billboard_songs=billboard_songs.drop_duplicates()

print(billboard_songs.shape)billboard_songs['id']=range(len(billboard_songs))

print(billboard_songs.head(10))

#把歌曲dataframe合并到源数据集

billboard_ratings=billboard_long.merge(billboard_songs,on=['year','artist','track','time'])

print(billboard_ratings.shape)

print(billboard_ratings.head())

billboard_ratings=billboard_ratings[['id','date.entered','week','rating']]

print(billboard_ratings.head())

3.5跨多张表的观测单元

import os

import urllib

#只下载前2个数据集

with open('raw_data_urls.txt','r') as data_urls:

    for line,url in enumerate(data_urls):

        if line==2:

            break

        fn=url.split('/')[-1].strip()

        fp=os.path.join(fn)

        print(url)

        print(fp)

        urllib.request.urlretrieve(url,fp)

import glob

nyc_taxi_data=glob.glob('fhv_*')

print(nyc_taxi_data)

taxi1=pd.read_csv(nyc_taxi_data[0])

taxi2=pd.read_csv(nyc_taxi_data[1])

print(taxi1.head(n=2))

print(taxi2.head(n=2))

print(taxi1.shape)

print(taxi2.shape)

taxi=pd.concat([taxi1,taxi2])

print(taxi.shape)

#创建一个待添加元素的空列表

list_taxi_df=[]

#循环遍历每个csv文件名

for csv_filename in nyc_taxi_data:

    #可以选择输出文件名以便调试

    print(csv_filename)

    #把csv文件加载到dataframe中

    df=pd.read_csv(csv_filename)

    #把dataframe添加到列表中

    list_taxi_df.append(df)

#输出列表中dataframe的个数

print(len(list_taxi_df))

#第一个元素的类型

print(type(list_taxi_df[0]))

#查看第一个dataframe的前5行数据

print(list_taxi_df[0].head())

taxi_loop_concat=pd.concat(list_taxi_df)

print(taxi_loop_concat.shape)

#手动加载连接和循环加载连接得到的结果一样吗

print(taxi.equals(taxi_loop_concat))

#不带注释的循环代码

list_taxi_df=[]

for csv_filename in nyc_taxi_data:

    df=pd.read_csv(csv_filename)

    list_taxi_df.append(df)

#使用列表推导式重写

list_taxi_df_comp=[pd.read_csv(data) for data in nyc_taxi_data]

print(type(list_taxi_df))

taxi_loop_concat_comp=pd.concat(list_taxi_df_comp)

print(taxi_loop_concat_comp.equals(taxi_loop_concat))

Original: https://blog.csdn.net/mixiaolemy/article/details/120923358
Author: 米勒111
Title: pandas 数据处理（python数据分析活用pandas库）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738916/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【小记】二八十十六，进制团团转

这篇笔记咱主要写一下二进制、八进制、十进制、十六进制之间的互相转换。 Contents 十进制与其他进制的互相转换十进制 → 其他进制整数部分小数部分其他进制 → 十进制 …

Python 2023年10月16日
0029
李峋同款爱心代码

李峋爱心代码 * – 背景 – 代码 – 运行 – pycharm – 打包成exe程序背景最近大火的电视剧《点燃我…

Python 2023年9月17日
0058
【第17届智能汽车竞赛】极速越野组——处理GPS点位的一种方法（Python-matplotlib实现手动鼠标移动坐标点的应用）

GPS点位的修改是一个比较麻烦的过程，需要来回采集点位和修改程序，给调试工作带来了一定的工作量。下面这种方法可以在一定程度上方便GPS参数的修改与调试，先说一下实现的效果，可以绘制…

Python 2023年8月23日
0089
常见气象数据获取方式及批量下载代码汇总

气象数据获取因其数据源多、请求规则不一，格式复杂、体积庞大，所以经常成为气象小白的噩梦。这里收集了一些常用气象数据下载方法及下载的代码，供大家参考 1. 中国气象数据网（这是最官方…

Python 2023年7月31日
00185
爬虫日记(80)：Twisted的循环任务

前面已经学习了Twisted框架的一些延时机制、延时链、多个延时条件等等，接着下来继续学习Twisted的循环任务，比如scrapy里下载任务失败之后，尝试过一段时间再重试下载，那…

Python 2023年10月5日
0030
【python数据分析】-数据清洗与整理python数据分析-数据清洗与整理

python数据分析-数据清洗与整理又开始我的好好学习之旅，这周学习数据分析,居老师日常动力！今天要跟着罗罗攀（公众号：luoluopan1）学pandas数据清洗、合并、重塑…

Python 2023年8月18日
0055
数据分析工具Pandas

一.series 一维的数据结果（series）二维的，表格型的数据结果（DataFrame） Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组数据和与之…

Python 2023年8月7日
0039
系统学习Python——单元测试unittest：内置装饰器

在自动化测试过程中，我们可能会遇到这样的场景：在某些情况下，测试用例虽然不需要执行，但是我们又不愿意删掉它。下面来看看 unittest提供的装饰器功能。下面的代码借助 @uni…

Python 2023年9月9日
0038
Vue2组件间通讯

Vue2组件通信的基础方式自己的理解：组件化通信，无非就是数据你传我，我传你，两个组件的相互交流，方法很多，下方有图示 （此&…

Python 2023年10月14日
0044
【Python实现】微信防撤回

Original: https://www.cnblogs.com/123456feng/p/16045836.htmlAuthor: 蚂蚁ailingTitle: 【Python…

Python 2023年11月9日
0045
Python知识点大纲

这里写自定义目录标题 Pandas * 基础 – Series/DataFrame创建删除行/列基础切片高阶切片 + Boolean切片使用query 随机抽样…

Python 2023年8月8日
0052
使用matplotlib绘制高级图表8

1、绘制等高线图使用contour()和contourf()函数绘制和填充等高线图 import numpy as np import matplotlib.pyplot as …

Python 2023年9月5日
0044
python + django搭建页面 (login.html 的css样式)

文章目录 bootstrap样式包含用户名和密码包含用户名，密码和验证码总结 bootstrap样式 Bootstrap 将设置全局的 CSS 样式。HTML 的基本元素均可…

Python 2023年8月6日
0051
【信号分析之心电信号处理】

任选下面的一组数据，利用自适应滤波中LMS和RLS方法进行处理，分析不同阶数、步长及指数加权因子对滤波结果的影响。同时给出迭代次数与滤波器系数，迭代次数与均方误差之间的关系曲线。（…

Python 2023年8月26日
0044
docker部署：nginx+vue+uwsgi+django+postgresql

目录一、概述二、安装docker桌面管理器 * 2.1 安装 2.2 镜像加速器配置三、常用命令 * 3.1 docker命令 3.2 镜像命令 3.3 容器命令四、Doc…

Python 2023年8月3日
0053
java matplot_Matplotlib 基础知识

1.绘制正弦 from matplotlib.pyplot import plot, show import math T = range(100) # 0~99 X周的范围2pi…

Python 2023年9月4日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas 数据处理（python数据分析活用pandas库）

1.1连接

1.2合并多个数据集

2.1查找和统计缺失数据

2.2清理缺失数据

2.3缺失值计算

3.1包含值而非变量的列

3.2包含多个变量的列

3.3行与列中的变量

3.4一张表中的多个观测单元(归一化)

3.5跨多张表的观测单元

大家都在看