Python数据分析活用Pandas库学习笔记
引言
Python数据分析活用Pandas库学习笔记,博客中涉及的数据文件,下载下面的连接
数据资料链接:https://www.ituring.com.cn/book/download/37deb472-af30-4444-b791-92f983fe00c9
第1章 Pandas DataFrame 基础知识
"""
2021.02.18
author:alian
"""
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv(r'D:\Python数据分析\Pandas\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
sub_df = df['country']
sub_set = df[['country','continent','year']]
row1_df = df.loc[0]
rowlast_df = df.tail(n=1)
row0_df = df.iloc[0]
row_df= df.iloc[-1]
group = df.groupby('year')['lifeExp'].mean()
print(group)
group.plot()
plt.show()
第2章 Pandas数据结构
"""
2021.02.18
author:alian
Pandas 数据结构
Series相当于python内置的列表;DataFrame相当于python内置的字典
"""
import pandas as pd
import matplotlib as plt
import random
s = pd.Series(['banada','42'])
scientists = pd.DataFrame({
'Name':['RosalineFranklin','William Gosset'],
'Occupation':['Chemist','Statistician'],
'Born':['1920-07-25','1876-06-13'],
'Died':['1958-04-16','1937-10-16'],
'Age':[37,61]
})
scientists1 = pd.DataFrame(
data={
'Name':['RosalineFranklin','William Gosset'],
'Occupation':['Chemist','Statistician'],
'Born':['1920-07-25','1876-06-13'],
'Died':['1958-04-16','1937-10-16'],
'Age':[37,61]
},
index = ['RosalineFranklin','William Gosset'],
columns = ['Occupation','Born','Died','Age'])
row = scientists1.loc['William Gosset']
scientists = pd.read_csv(r'D:\Python数据分析\Pandas\pandas_for_everyone-master\data\scientists.csv')
ages = scientists['Age']
bool_index = [True,True,False,False,True,True,False,True]
born_datatime = pd.to_datetime(scientists['Born'],format='%Y-%m-%d')
random.seed(42)
random.shuffle(scientists['Age'])
scientists['Age'] = scientists['Age'].sample(len(scientists['Age']),random_state=24).reset_index(drop=True)
print(scientists['Age'])
scientists_dropped = scientists.drop(['Age'],axis=1)
2.1 Serise
2.1.1 Serise的属性
Serise属性说明loc使用索引标签取子集iloc使用索引号取子集dtype或dtypesSerise内容的类型TSerise的转置矩阵shape数据维度sizeSerise元素的数量values类似与ndarray的Serise
2.1.2 Serise的方法
Serise方法说明describe获取Serise 的基本统计量,包括数量、均值、最大值、最小值等append连接两个或多个Serisecorr计算与另一个Serise的相关系数cov计算与另一个Serise的协方差describe计算概括统计量*drop_duplicates返回一个不含重复项的Seriseequals判断两个Serise是否有相同元素get_values获取Serise的值,功能和values属性相同hist绘制直方图isin逐个检查Serise中的每个元素是否存在于参数指定的序列中min返回最小值max返回最大值mean返回平均数std返回标准差median返回中位数mode返回众数quantile返回指定位置的四分位数replace用指定值代替Serise中的值sample返回Serise的随机采样值sort_values对值进行排序to_frame把Serise转换为DataFrametranspose返回转置矩阵unique返回由唯一值组成的numpy.ndarray
2.2 DataFrame
获取DataFrame子集的一些方法
方法执行结果df[column_name]单列df[[column1,column2,…]]多列df.loc[row_label]使用行标签(行名)获取数列行df.loc[[label1,label2,…]]使用索引标签获取多行df.iloc[row_number]使用行号获取数据行df.iloc[[row1,row2,…]]使用行号获取多行df[bool]使用布尔值获取行df[[bool1,bool2,…]]使用布尔值获取多行df[start:stop:step]使用切片方法获取数据行
导出数据的方法
导出方法说明to_pickle把数据保存为二进制格式to_csv把数据保存为csv格式to_excel把数据保存为excel格式to_feather将数据储存二进制对象to_clipboard把数据保存到系统剪贴板,方便粘贴to_dense把稀疏对象转换为标准密集形式to_dict把数据转换为标准python字典to_gbq把数据转换为Goolgle BigQuery表to_hdf把数据保存为HDP格式to_msgpack把数据保存为类似JSON的便携二进制格式to_html把数据转换为HTML表to_json把数据转换成JSON字符串to_latex把数据转换成LaTex表格环境to_records把数据转换成记录数组to_string把标准输出以字符串形式显示DataFrameto_sparse把数据转换为SparceDataFrameto_aql把数据保存到SQL数据库to_stata把数据转换成Stata dta文件
Original: https://blog.csdn.net/qq_44703886/article/details/113843040
Author: 摇曳的树
Title: 【Pandas】Python数据分析活用Pandas库学习笔记(一)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/676283/
转载文章受原作者版权保护。转载请注明原作者出处!