pip install numpy
安装jupyter,安装notebook
jupyter notebook
创建一个二维表
调用包:import numpy as np
创建二维表
nd = np.array([[1,2],[2,3]])
转换数据类型
nd1 = nd.astype(“float”)
先看行后看列
array([[ 1, 2, 3], [ 4, 5, 6], [ 7, 8, 9], [10, 11, 12]])
4*3的
切片:
[行的切片,列的切片]
[行的起始位置:行的结束位置:步长,列的起始位置:列的结束位置:步长]
坐标系,行标0列标1
矩阵的运算
对位运算
直接加减乘除
对应位置相加减乘除
矩阵运算
nm的矩阵 * mn的矩阵
(n,n)第n行乘以第n列相加
np.dot(nd1,nd2)
np.dot(nd1/nd2)
科学计算
对结构化数据的操作
DataFrame df结构化数据,兼具numpy高性能的数组计算功能
series是一种类似于一维数组的对象,由数据以及与之相关的数据标签即索引组成
Series
总共两列,kv格式
可以手动创建索引
DataFrame
是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)
dataframe既有行索引也有列索引,可以看作由Series组成的字典
df1.head()查看dateframe,默认前5数据
索引一行为series,多行dataframe
读取数据
pd.read_csv(“文件路径”)
分组聚合
df1.groupby(‘clazz’)[‘id’].count()
重新设置索引
.reset_index()
重新设置名字
clazz.rename(columns={“id”:”cnt”})
df2.sort_values(‘cnt’,ascending=False)
支持切片
df2.sort_values(‘cnt’,ascending=False)[0:3]
取某一行
df2.loc[5],支持切片
查看类型
df2.loc[5]
统计数值型的列
df1.describe()
列之间关系
df1.corr()
数据关联
df1.merge(sumdf,left_on=’id’,right_on=’id’,how=’left’)
去重要指定行列,默认行
stu_sum[‘first_rank’] = stu_sum.groupby(‘clazz’)[‘sum’].rank(method=’first’,ascending=False)
pip install seaborn
解决中文乱码问题
import matplotlib.pyplot as plt
plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
调整大小
plt.figure(figsize=(16,8))
plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
plt.figure(figsize=(16,8))
sns.barplot(x=”clazz”, y=”sum”, hue=”first_rank”, data=top3)
plt.title(“top3”)
plt.xlabel(“班级”)
plt.ylabel(“总成绩”)
plt.ylim((400,600))
plt.show()
Original: https://blog.csdn.net/m0_47120517/article/details/121961061
Author: 胡说龙龙
Title: 第三节课 Pandas,Numpy的简单使用
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/700359/
转载文章受原作者版权保护。转载请注明原作者出处!