第三节课 Pandas,Numpy的简单使用

1、安装numpy

2、numpy的操作

3、相关操作

4、Pandas数据分析

5、绘图

6、数据清洗

pip install numpy

安装jupyter,安装notebook

jupyter notebook

创建一个二维表

调用包:import numpy as np

创建二维表

nd = np.array([[1,2],[2,3]])

转换数据类型

nd1 = nd.astype(“float”)

先看行后看列

array([[ 1, 2, 3], [ 4, 5, 6], [ 7, 8, 9], [10, 11, 12]])

4*3的

切片:

[行的切片,列的切片]

[行的起始位置:行的结束位置:步长,列的起始位置:列的结束位置:步长]

坐标系,行标0列标1

矩阵的运算

对位运算

直接加减乘除

对应位置相加减乘除

矩阵运算

nm的矩阵 * mn的矩阵

(n,n)第n行乘以第n列相加

np.dot(nd1,nd2)

np.dot(nd1/nd2)

科学计算

对结构化数据的操作

DataFrame df结构化数据,兼具numpy高性能的数组计算功能

series是一种类似于一维数组的对象,由数据以及与之相关的数据标签即索引组成

Series

总共两列,kv格式

可以手动创建索引

DataFrame

是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)

dataframe既有行索引也有列索引,可以看作由Series组成的字典

df1.head()查看dateframe,默认前5数据

索引一行为series,多行dataframe

读取数据

pd.read_csv(“文件路径”)

分组聚合

df1.groupby(‘clazz’)[‘id’].count()

重新设置索引

.reset_index()

重新设置名字

clazz.rename(columns={“id”:”cnt”})

df2.sort_values(‘cnt’,ascending=False)

支持切片

df2.sort_values(‘cnt’,ascending=False)[0:3]

取某一行

df2.loc[5],支持切片

查看类型

df2.loc[5]

统计数值型的列

df1.describe()

列之间关系

df1.corr()

数据关联

df1.merge(sumdf,left_on=’id’,right_on=’id’,how=’left’)

去重要指定行列,默认行

stu_sum[‘first_rank’] = stu_sum.groupby(‘clazz’)[‘sum’].rank(method=’first’,ascending=False)

pip install seaborn

解决中文乱码问题

import matplotlib.pyplot as plt

plt.rcParams[‘font.sans-serif’]=[‘SimHei’]

调整大小

plt.figure(figsize=(16,8))

plt.rcParams[‘font.sans-serif’]=[‘SimHei’]

plt.figure(figsize=(16,8))

sns.barplot(x=”clazz”, y=”sum”, hue=”first_rank”, data=top3)

plt.title(“top3”)

plt.xlabel(“班级”)

plt.ylabel(“总成绩”)

plt.ylim((400,600))

plt.show()

Original: https://blog.csdn.net/m0_47120517/article/details/121961061
Author: 胡说龙龙
Title: 第三节课 Pandas,Numpy的简单使用

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/700359/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球