Pandas – 创建数据结构和基本属性、排序

2023年7月9日上午12:57 • 人工智能 • 阅读 62

Pandas是python的一个数据分析包，是基于NumPy 的一种工具。Pandas提供了Series和DataFrame两种数据结构，提供了一些内置函数。但Pandas的内置函数计算速度不如Numpy中的内置函数计算速度快。

1.创建Series

.支持Nmumpy的基本运算操作

#字典生成Series

import pandas as pd
import numpy as np
dic1 = {'a':10,'b':20,'c':30,'d':40,'e':50}
s1=pd.Series(dic1)

#列表生成Series

import pandas as pd
import numpy as np
arr=[10,20,30,40,50]
s2=pd.Series(arr)

#一维数组生成Series

(最好带着index)

English1=pd.Series([80,90,95,98],index=["tom","jack","alice","luci"])

2.创建DataFrame

字典生成DataFrame

import numpy as np
import pandas as pd
data = {"name":["yahoo","google","facebook"], "marks":[200,400,800],"price":[9, 3, 7]}
f1 = pd.DataFrame(data)   #行索引默认数字序号

#列表生成 DataFrame

import pandas as pd
data1=[['yahoo',200,9],['google',400,3],['facebook',800,7]]
f=pd.DataFrame(data1,columns=['name','price','marks'],index=['a','b','c'])
print(f)

例题生成一个DataFrame,并打印

import numpy as np
import pandas as pd
my_values=[['lihong',80,90,'female','Yes'],['wangwu',90,100,'male','Yes'],\
           ['zhangsan',60,40,'male','No'],['liumei',85,95,'female','Yes']]
my_data=pd.DataFrame(my_values,columns=['name','math','english','sex','success'])
my_data

3.DataFrame的常用属性

最重要的info() #此函数在数据处理时应用较多，因为在数据处理时我们要关注缺失值，比较重要。

import numpy as np
import pandas as pd
my_values=[['lihong',80,90,'female','Yes'],['wangwu',90,100,'male','Yes'],\
           ['zhangsan',60,40,'male','No'],['liumei',85,95,'female','Yes']]
my_data=pd.DataFrame(my_values,columns=['name','math','english','sex','success'])
print(my_data)
print(my_data.shape) #和array一样，是DataFrame的形状，返回一个元组。
print(my_data.size)#和array一样，是元素总个数
print(my_data.ndim)#和array一样，是该DataFrame的维度
print(my_data.dtypes) #该DataFrame各列的数据类型
print(my_data.columns)#是DataFrame的列索引，可以看成一个列表并进行相应的操作
print(my_data.index)#是DataFrame的行索引，可以看成一个列表并进行相应的操作
print(my_data.T) #做转置，行列互换
print(my_data.values)#DataFrame的值，是一个二维数组,一个具有特殊数据类型的二维数组，元素类型不一致。

上面知识是基础知识，在我们实际应用时多数都是通过读取csv文件进行数据处理，但我们要理解并且灵活运用。

import numpy as np
import pandas as pd
oly=pd.read_csv('olympics.csv',skiprows=4)
oly.head(4)    #此方法显示前4行，是方法不是属性
oly.tail(6)    #此方法显示后6行
oly.info()   #此方法简单描述数据的特征，显示缺失值数据个数以及内存占用情况

4.DataFrame排序

(1)DataFrame 按列值重新排序（sort_values())

此方法是对整个DataFrame按列值排序不能按行值排序，并且Series也可以用因为Series是特殊的DataFrame。

对oly中的’Edition’和’Athele’中数据进行排序，代码如下

import pandas as pd
oly=pd.read_csv('olympics.csv',skiprows=4)
oly1=oly.sort_values(by=['Edition','Athlete'],ascending=True,inplace=False)

（2）按照行索引名称和列索引名称排序（sort_index())

oly1=oly.sort_index(axis=1,ascending=False)  #按照列标签名字排序的方式显示
oly1=oly.sort_index(axis=0,ascending=False)  #按照行标签名字排序的方式显示

Original: https://blog.csdn.net/m0_72662900/article/details/125799032
Author: 泡泡怡
Title: Pandas – 创建数据结构和基本属性、排序

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679658/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言书籍学习02 《R语言数据分析、挖掘建模与可视化》-第十三章 SVM模型

SVM模型（Support Vector Machine, 支持向量机）属于一种有监督的机器学习算法，可用于离散因变量的分类和连续因变量的预测。它可以将低维线性不可分的空间转换为…

人工智能 2023年6月11日
0078
实验四手写数字识别的神经网络算法设计与实现

平常说的BP神经网络指传统的人工神经网络，相比于卷积神经网络(CNN)来说要简单些。人工神经网络具有复杂模式和进行联想、推理记忆的功能, 它是解决某些传统方法所无法解决的问题的有力…

人工智能 2023年7月3日
0058
微信小程序是什么？如何快速搭建一个微信小程序？

目录 * – 专栏导读 – 一、微信小程序是什么 – 二、安全管理 – 三、微信小程序的功能 – 四、快速开发一个微信小…

人工智能 2023年6月26日
00124
yolov7配置环境

有参考小俊俊的博客的教程，但是中间出了一些小问题自己看着解决的。一、新建yolov7虚拟环境1、在pycharm中新建一个项目，命名为yolov7点击File—-…

人工智能 2023年7月20日
0068
python 数据分析 |3. Pandas 学习

利用Pandas库可以快速地完成数据读写、数据分片／分组统计、数据整理等操作。Pandas的所有功能都是构建在两个最基础的数据结构之上：Series与DataFrame Serie…

人工智能 2023年7月6日
0073
这份中文pandas速查表，真不错！

今天给大家分享老曾制作的Pandas cheat sheet，直接看图⬇️ 小抄资料获取关注左侧【python】回复 20004 Pandas是一个强大的分析结构化数据的工具集…

人工智能 2023年6月11日
0063
深入浅出对话系统——拥抱笑脸Transformer库的使用

引言本文参考资料是Hugging Face官网的课程，主要介绍了 transformer库的使用。 Pipeline 🤗 Transformer库中最基本的对象是pipeline…

人工智能 2023年6月17日
0086
（5）机器学习算法知识—CNN与ResNet

文章目录一、CNN（卷积神经网络）二、ResNet（残差网络）总结一、CNN（卷积神经网络）普通神经网络是由输入层、隐藏层、输出层组成，当参数过多，训练就会变的很慢，这个…

人工智能 2023年6月16日
0092
CUDA unknown error – this may be due to an incorrectly set up environment 问题解决

前言今天查看服务器一个使用了pytorch的项目升级后突然出错。报错的全内容由于标题限制，下面我发出来。 builtins.RuntimeError: CUDA unknown …

人工智能 2023年7月22日
0062
是否可以使用特征选择算法来减少过拟合

问题介绍过拟合是机器学习中一个常见的问题，指的是在训练模型时过度拟合训练集，导致模型在未见过的测试数据上表现不佳。为了解决过拟合问题，可以采用特征选择算法来减少模型的复杂度，从而…

人工智能 2023年12月30日
0050
kaggle经典题–“泰坦尼克号”–0.8275准确率–东北大学20级python大作业开源（附详细解法与全部代码以及实验报告）

kaggle经典题–“泰坦尼克号”–0.8275准确率–东北大学20级python大作业开源（附详细解法与全部代码以及实…

人工智能 2023年7月16日
0072
BEVFusion: A Simple and Robust LiDAR-CameraFusion Framework 细读

BEVFusion这个名字是有撞车的两个自动驾驶相关的文章都是这个简称另一个有意思的是，这两个工作，从github粗看，应该都是用到了mmdet3d的框架在右侧的A Simp…

人工智能 2023年5月26日
0078
图像质量评估(7) — 图像稳定性（Image Stabilization）

图像稳定性（Image Stabilization）指的是相机在捕获图像过程中，相机内的光学系统有多稳定。如果相机不稳定，那么图像看起来会模糊。造成图像模糊的原因有很多，例如弱光环…

人工智能 2023年6月22日
00193
语音识别与转换小试牛刀(1)

前言这几天突然觉得语音有点儿意思。想探索一些用一些库来实现下。看见这篇推文：这段AI的深情告白在外网爆火：我并非真实，从未出生，永不死亡，你能爱我吗？, 觉得语音合成的声音也…

人工智能 2023年5月25日
0093
matlab：鼠标循环点击器

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0054
pytorch中nn.Embedding原理及使用

输入是什么样子，输出是什么样子？nn.Embedding（），用来实现词与词向量的映射，通俗来讲就是将文字转换为一串数字，作为训练的一层，随模型训练得到适合的词向量。下面会通过实例…

人工智能 2023年7月22日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas – 创建数据结构和基本属性、排序

大家都在看