pandas基础

2023年7月8日上午1:13 • 人工智能 • 阅读 55

文件读取：

pandas可以简单的读取csv，excel，txt，如下：

import pandas as pd
#read csv
df_csv = pd.read_csv('1.csv')
#read excel
pd_excel = pd.read_excel('/Users/j.levis/PycharmProjects/爬豆瓣榜单/豆瓣榜单.xlsx')
#read txt
pd_txt = pd.read_table('2.txt')

读写的相关参数：

header=None 表示第一行不作为列名

index_col 表示把某一列或几列作为索引

usecols 表示读取列的集合

parse_dates 表示需要转化为时间的列

nrows 表示读取的数据行数

以我之前爬取的豆瓣榜单为例：

pd_excel = pd.read_excel('/Users/j.levis/PycharmProjects/爬豆瓣榜单/豆瓣榜单.xlsx',usecols=['排名','书名'],nrows=5)

   排名    书名
0   1   红楼梦
1   2    活着
2   3  1984
3   4  百年孤独
4   5  三体全集

数据结构：

seriers：

Series 一般由四个部分组成，分别是序列的值 data 、索引 index 、存储类型 dtype 、序列的名字 name 。index默认为空.

object类型代表了一种混合类型，正如上面的例子中存储了整数、字符串以及 Python 的字典数据结构。

s = pd.Series(data=[1,'你好',{'你好':'hello','再见':'bye'}],dtype='object',name = 'myname',index=['one','two','three'])

one                                 1
two                                你好
three    {'你好': 'hello', '再见': 'bye'}
Name: myname, dtype: object

s['one']

1

dataframe:

DataFrame 在 Series 的基础上增加了列索引，一个数据框可以由二维的 data 与行列索引来构造

df = pd.DataFrame(
    data=[[1,2,3],[2,3,4],[4,5,6]]
)

   0  1  2
0  1  2  3
1  2  3  4
2  4  5  6
#index/列名默认012

设置列名：

df = pd.DataFrame(
    data={'col1':[1,2,3],'col2':['a','b','c'],'col3':['m','n','k']}
)

   col1 col2 col3
0     1    a    m
1     2    b    n
2     3    c    k

设置index：

df = pd.DataFrame(
    data={'col1':[1,2,3],'col2':['a','b','c'],'col3':['m','n','k']},
    index=['row1','row2','row3']
)

      col1 col2 col3
row1     1    a    m
row2     2    b    n
row3     3    c    k

可以直接写入excel：

df.to_excel('1.xlsx')

提取列：

在 DataFrame 中可以用 [col_name] 与 [col_list] 来取出相应的列与由多个列组成的表，结果分别为 Series 和 DataFrame ：

df['col2']

row1    a
row2    b
row3    c
Name: col2, dtype: object

df[['col1','col2']]

      col1 col2
row1     1    a
row2     2    b
row3     3    c

提取行

用loc函数可以提取行：

df.loc[['row1']]

      col1 col2 col3
row1     1    a    m

dataframe转置：

df.T

     row1 row2 row3
col1    1    2    3
col2    a    b    c
col3    m    n    k

常用基本函数：

样例文件：learn_pandas.csv

df = pd.read_csv('learn_pandas.csv')
df = df[df.columns[:7]]#取前七列

    School      Grade            Name  Gender  Height  Weight Transfer
0        A   Freshman    Gaopeng Yang  Female   158.9    46.0        N
1        B   Freshman  Changqiang You    Male   166.5    70.0        N
2        A     Senior         Mei Sun    Male   188.9    89.0        N
3        C  Sophomore    Xiaojuan Sun  Female     NaN    41.0        N
4        C  Sophomore     Gaojuan You    Male   174.0    74.0        N
..     ...        ...             ...     ...     ...     ...      ...

195      C     Junior    Xiaojuan Sun  Female   153.9    46.0        N
196      D     Senior         Li Zhao  Female   160.9    50.0        N
197      A     Senior  Chengqiang Chu  Female   153.9    45.0        N
198      A     Senior   Chengmei Shen    Male   175.3    71.0        N
199      D  Sophomore     Chunpeng Lv    Male   155.7    51.0        N

汇总函数：

head（n）返回前n行

df.head(3)

School     Grade            Name  Gender  Height  Weight Transfer
0      A  Freshman    Gaopeng Yang  Female   158.9    46.0        N
1      B  Freshman  Changqiang You    Male   166.5    70.0        N
2      A    Senior         Mei Sun    Male   188.9    89.0        N

tail（n）返回后n行

df.tail(3)

    School      Grade            Name  Gender  Height  Weight Transfer
197      A     Senior  Chengqiang Chu  Female   153.9    45.0        N
198      A     Senior   Chengmei Shen    Male   175.3    71.0        N
199      D  Sophomore     Chunpeng Lv    Male   155.7    51.0        N

info()返回df的信息概况：

`python
df.info()

RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
# Column Non-Null Count Dtype

Original: https://blog.csdn.net/weixin_67016521/article/details/126467417
Author: Freshman小白
Title: pandas基础

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677461/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

地理信息系统（汤国安）重点整理与推导（第三章）

地理空间地理空间是指地球表面及近地表空间，是地球上大气圈，水圈，生物圈，岩石圈和智慧圈交互作用的区域，地球上最复杂的物理过程，化学过程，生物过程和生物地球化学过程就发生在该区域。…

人工智能 2023年6月1日
0075
卷积神经网络模型之——GoogLeNet网络结构与代码实现

文章目录 GoogLeNet网络简介 GoogLeNet网络结构 * Inception之前的几层结构 Inception结构 – Inception3a模块 Ince…

人工智能 2023年7月23日
0084
pytorch中torchvision.transforms.functional模块中pad函数的使用

torchvision.transforms.functional模块中pad函数的使用载入torchvision.transforms.functional模块 import …

人工智能 2023年7月22日
0050
web前端网页设计期末课程大作业：中华传统文化题材网页源码——基于HTML实现中国水墨风书画艺术网站(12个页面)

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月28日
00124
数据分析-特征选择-feature_selection

目录前言过滤法方差选择法卡方检验法相关系数检验法皮尔逊相关系数互信息-Mutual information 最大信息系数 maximal information co…

人工智能 2023年6月11日
00105
为什么说想到Python中的装饰器是天才

为什么说想到Python中的装饰器是天才只需一个@符号就能分析、测试和重复使用你的代码带着魔杖的仙女在Python代码中飞舞软件中有没有什么是神奇的小魔法？有，装饰器却非常…

人工智能 2023年7月3日
0068
人工智能-分类模型-评估指标（一）：混淆矩阵【准确率=所有预测正确的样本/总的样本、精确率=将正类预测为正类/所有预测为正类、召回率=将正类预测为正类/所有真正的正类、F1-Measure】

机器学习(ML)，自然语言处理(NLP)，信息检索(IR)等领域，评估(Evaluation)是一个必要的工作。在分类型模型评判的指标中，常见的方法有如下三种：混淆矩阵（也称误…

人工智能 2023年7月3日
0063
CVPR 2022: 图像分割论文大盘点

1 前言本文盘点了CVPR 2022 目前为止的2D图像分割相关论文，包含语义分割和实例分割，总计22篇论文，值得学习。 2 语义分割 2.1 强监督 (1) ReSTR: Co…

人工智能 2023年7月19日
0059
迁移学习的模型训练

用深度学习解决目标检测有两个重要工作： 1、设计、实现、训练和验证模型模型如果设计模型如何编程实现如何收集足够的数据来训练和验证模型是否符合预期 [En] how to co…

人工智能 2023年5月25日
00164
时间序列预测_基于Excel的时间序列分析和预测

时间序列用于描述某种现象随时间发展变化的特征。在生活和工作中经常需要作出预测。比如，预测一只股票价格的走势，预测下一年度的销售额等。时间序列基础概念 1、什么是时间序列？时间序…

人工智能 2023年6月1日
00112
递推最小二乘法(Recursive least square, RLS)详细推导

假设有数据( X , Y ) (X,Y)(X ,Y )，其中X ∈ R m × d X \in {\mathbb{R}^{m \times d}}X ∈R m ×d，Y ∈ R m…

人工智能 2023年6月15日
0050
【Java刷题进阶】基础入门篇⑧

📩很多朋友都问我学完基础知识以后怎样提高编程水平？当然是刷题啦！很多小伙伴都在纠结从哪里开始，今天给大家推荐一个身边朋友都在使用的刷题网站：点击进入牛客网刷题吧！各大互联网大厂…

人工智能 2023年5月30日
0087
python –opencv图像处理轮廓(寻找轮廓、绘制轮廓)详解

什么是轮廓？轮廓是一系列相连的点组成的曲线，代表了物体的基本外形，相对于边缘，轮廓是连续的，边缘并不全部连续。寻找轮廓寻找轮廓 OpenCV 为我们提供了一个现成的函数 fi…

人工智能 2023年6月17日
00100
受限玻尔兹曼机（RBM）

受限玻尔兹曼机（RBM）一起读懂传说中的经典：受限玻尔兹曼机 https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid…

人工智能 2023年6月16日
0093
java计算机毕业设计潮流奢侈品购物网站源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0056
机器学习：丰田卡罗拉价格回归分析案例

使用丰田卡罗拉数据集构建了4个回归模型。这些是线性回归、多项式回归、岭回归、套索回归，然后衡量并可视化模型的性能。借鉴黄海广老师的课件资料。概述数据列:Age: 车龄KM: 累…

人工智能 2023年6月16日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas基础

seriers：

dataframe:

汇总函数：

大家都在看