暑期实践第十七天 2022-7-20

2023年8月9日上午3:17 • Python • 阅读 65

今日学习阶段：

1.DataFrame对象

DataFrame是Pandas库中的一种数据结构，它是由多种类型的列组成的二维表数据结构，类似于Excel、SQL或Series对象构成的字典。DataFrame是最常用的Pandas对象，它与Series对象一样支持多种类型的数据。

1.1图解DataFrame对象

Dataframe既有行索引也有列索引，它可以看作是由Series对象组成的字典，不过这些Series对象共用一个索引。

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]]
index = [0, 1, 2]
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data = data, index = index, columns = columns)
print(df)
for col in df.columns:
    series = df[col]
    print(series)

输出结果

   &#x8BED;&#x6587;  &#x6570;&#x5B66;  &#x82F1;&#x8BED;
0   110   105    99
1   105    88   115
2   109   120   130
0    110
1    105
2    109
Name: &#x8BED;&#x6587;, dtype: int64
0    105
1     88
2    120
Name: &#x6570;&#x5B66;, dtype: int64
0     99
1    115
2    130
Name: &#x82F1;&#x8BED;, dtype: int64

1.2创建一个DataFrame对象

创建主要使用DataFrame方法，语法如下：

pandas.DataFrame(data, index, columns, dtype, copy)

1.2.1 通过二维数组创建DataFrame

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]]
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data = data, columns = columns)
print(df)

输出结果

   语文  数学  英语
0   110   105    99
1   105    88   115
2   109   120   130

1.2.2通过字典创建成绩表

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame({
    '语文':[110, 105, 99],
    '数学':[105, 88, 115],
    '英语':[109, 120, 130],
    '班级':'高一7班'
}, index = [0, 1, 2])
print(df)

输出结果

   &#x8BED;&#x6587;  &#x6570;&#x5B66;  &#x82F1;&#x8BED;     &#x73ED;&#x7EA7;
0   110   105   109  &#x9AD8;&#x4E00;7&#x73ED;
1   105    88   120  &#x9AD8;&#x4E00;7&#x73ED;
2    99   115   130  &#x9AD8;&#x4E00;7&#x73ED;

在以上代码中，”班级”的value值是单个数据，所以每一行都添加了相同的数据”高一7班”。

2.导入外部数据

2.1导入.xls或.xlsx文件

主要使用Pandas的read_excel方法

pandas.read_excel()内部语法自行查询

import pandas as pd
#解决数据输出时列名不对齐问题
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('1月.xlsx')
print(df.head())                   #输出前5条数据

输出结果

  买家会员名  买家实际支付金额 收货人姓名            宝贝标题
0      mrhy1             41.86     周某某      零基础学Python
1      mrhy2             41.86     杨某某      零基础学Python
2      mrhy3             48.86     刘某某      零基础学Python
3      mrhy4             48.86     张某某      零基础学Python
4      mrhy5             48.86     赵某某  C#项目开发实战入门

2.1.1导入指定sheet页

一个Excel文件包含多个Sheet页,通过设置sheet_name参数就可以导入指定Sheet页的数据。

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df=pd.read_excel('1月.xlsx', sheet_name='莫寒')
print(df.head())

运行程序输出部分数据

   &#x4E70;&#x5BB6;&#x4F1A;&#x5458;&#x540D; &#x4E70;&#x5BB6;&#x652F;&#x4ED8;&#x5B9D;&#x8D26;&#x53F7;  &#x4E70;&#x5BB6;&#x5B9E;&#x9645;&#x652F;&#x4ED8;&#x91D1;&#x989D;  &#x8BA2;&#x5355;&#x72B6;&#x6001;  ... &#x8BA2;&#x5355;&#x5907;&#x6CE8; &#x5B9D;&#x8D1D;&#x603B;&#x6570;&#x91CF;      &#x7C7B;&#x522B; &#x56FE;&#x4E66;&#x7F16;&#x53F7;
0  mmbooks101       ********             41.86  &#x4EA4;&#x6613;&#x6210;&#x529F;  ...    'null          1  &#x5168;&#x5F69;&#x7CFB;&#x5217;      B16
1  mmbooks102       ********             41.86  &#x4EA4;&#x6613;&#x6210;&#x529F;  ...    'null          1  &#x5168;&#x5F69;&#x7CFB;&#x5217;      B16
2  mmbooks103       ********             48.86  &#x4EA4;&#x6613;&#x6210;&#x529F;  ...    'null          1  &#x5168;&#x5F69;&#x7CFB;&#x5217;      B17
3  mmbooks104       ********             48.86  &#x4EA4;&#x6613;&#x6210;&#x529F;  ...    'null          1  &#x5168;&#x5F69;&#x7CFB;&#x5217;      B17
4  mmbooks105       ********             48.86  &#x4EA4;&#x6613;&#x6210;&#x529F;  ...    'null          1  &#x5168;&#x5F69;&#x7CFB;&#x5217;      B18

除了直到名字，还可以指定顺序，从0开始，例如，”sheet_name=0″表示导入第一个sheet页的数据，”sheet_name=1″表示导入第二个Sheet页的数据，以此类推。

如果不指定sheet_name参数，则默认导入第一个Sheet页的数据

2.1.2通过行列索引导入指定行列数据

DataFrame是二维数据结构，因此它既有行索引又有列索引。当导入Excel数据时，行索引会自动生成，如0，1，2，而列索引则默认将第0行作为列索引。

如果指定行索引导入Excel数据，需要设置index_col参数。如下

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df1=pd.read_excel('1月.xlsx', index_col=0)
print(df1.head())

输出结果

            &#x4E70;&#x5BB6;&#x5B9E;&#x9645;&#x652F;&#x4ED8;&#x91D1;&#x989D; &#x6536;&#x8D27;&#x4EBA;&#x59D3;&#x540D;            &#x5B9D;&#x8D1D;&#x6807;&#x9898;
&#x4E70;&#x5BB6;&#x4F1A;&#x5458;&#x540D;
mrhy1                  41.86     &#x5468;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
mrhy2                  41.86     &#x6768;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
mrhy3                  48.86     &#x5218;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
mrhy4                  48.86     &#x5F20;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
mrhy5                  48.86     &#x8D75;&#x67D0;&#x67D0;  C#&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;

如果通过指定列索引导入excel数据，则需要设置header参数，如下：

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df2=pd.read_excel('1月.xlsx', header=1)
print(df2.head())

输出结果

   mrhy1  41.86  &#x5468;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
0  mrhy2  41.86  &#x6768;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
1  mrhy3  48.86  &#x5218;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
2  mrhy4  48.86  &#x5F20;&#x67D0;&#x67D0;      &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
3  mrhy5  48.86  &#x8D75;&#x67D0;&#x67D0;  C#&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;
4  mrhy6  48.86  &#x674E;&#x67D0;&#x67D0;  C#&#x9879;&#x76EE;&#x5F00;&#x53D1;&#x5B9E;&#x6218;&#x5165;&#x95E8;

如果将数字作为列索引，可以设置header参数为None,如下：

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df3=pd.read_excel('1月.xlsx', header=None)
print(df3.head())

输出结果

            0                 1           2               3
0  &#x4E70;&#x5BB6;&#x4F1A;&#x5458;&#x540D;  &#x4E70;&#x5BB6;&#x5B9E;&#x9645;&#x652F;&#x4ED8;&#x91D1;&#x989D;  &#x6536;&#x8D27;&#x4EBA;&#x59D3;&#x540D;        &#x5B9D;&#x8D1D;&#x6807;&#x9898;
1       mrhy1             41.86      &#x5468;&#x67D0;&#x67D0;  &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
2       mrhy2             41.86      &#x6768;&#x67D0;&#x67D0;  &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
3       mrhy3             48.86      &#x5218;&#x67D0;&#x67D0;  &#x96F6;&#x57FA;&#x7840;&#x5B66;Python
4       mrhy4             48.86      &#x5F20;&#x67D0;&#x67D0;  &#x96F6;&#x57FA;&#x7840;&#x5B66;Python

2.1.3导入指定列数据

可以通过usecols参数指定需要的列，从0开始（表示第1列，以此类推）

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df1=pd.read_excel('1月.xlsx', usecols=[0])
print(df1.head())

注意参数为列表

输出结果

  &#x4E70;&#x5BB6;&#x4F1A;&#x5458;&#x540D;
0      mrhy1
1      mrhy2
2      mrhy3
3      mrhy4
4      mrhy5

如果导入多列，则可以在列表中指定多个值

df1=pd.read_excel('1月.xlsx', usecols=[0, 3])

不可以使用切片

也可以指定列名称

df1=pd.read_excel('1月.xlsx', usecols=['买家会员名', '宝贝标题'])

输出结果

  买家会员名            宝贝标题
0      mrhy1      零基础学Python
1      mrhy2      零基础学Python
2      mrhy3      零基础学Python
3      mrhy4      零基础学Python
4      mrhy5  C#项目开发实战入门

2.2导入.csv文件

导入.csv文件时主要使用Pandas的read_csv方法

pandas.read_csv() 参数自行查询

import pandas as pd
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
pd.set_option('display.unicode.east_asian_width', True)
df1=pd.read_csv('1月.csv', encoding='gbk')
print(df1.head())

上述代码中指定了编码格式，即encoding=’gbk’。Python常用的编码格式是UTF-8和GBK格式，默认格式为UTF-8.导入.csv文件需要用encoding指定编码格式。将excel文件另存为.csv文件时，默认编码格式为GBK，此时导入就需要设置为GBK，与原文件保持一致，否则会报错。

2.3导入txt文件

导入.txt文件同样使用Pandas模块的read_csv方法，不同的是需要指定sep参数（如制表符\t）。read_csv方法读取.txt文件后将返回一个DataFrame对象，像表格一样的二维数据结构。

import pandas as pd
df1=pd.read_csv('1月.txt', sep='\t', encoding='gbk')
print(df1.head())

2.4导入HTML网页

导入HTML网页数据主要使用Pandas的read_html方法，该方法用于导入带有table标签的网页表格数据

pandas.read_html()参数自行查询

使用read_html方法前，首先要确定网页表格是否为table标签。右键检查表格元素，查看代码是否含有

| |
…

字样，确定后才可以使用。

import pandas as pd
df = pd.DataFrame()
url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
    url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
    url_list.append(url)
#遍历网页中的table读取网页表格数据
for url in url_list:
    df = df.append(pd.read_html(url), ignore_index=True)
#列表解析：遍历dataframe第3列，以子字符串$开头
df = df[[x.startswith('$') for x in df[3]]]
print(df)
df.to_csv('NBA.csv',header=['RK','NAME','TEAM','SALARY'], index=False)

输出结果

       0                      1                      2            3
1      1      Stephen Curry, PG  Golden State Warriors  $48,070,014
2      2  Russell Westbrook, PG     Los Angeles Lakers  $47,063,478
3      3       LeBron James, SF     Los Angeles Lakers  $44,474,988
4      4       Kevin Durant, PF          Brooklyn Nets  $44,119,845
5      5       Bradley Beal, SG     Washington Wizards  $43,279,250

Original: https://blog.csdn.net/m0_63619203/article/details/125888285
Author: 亦晓高
Title: 暑期实践第十七天 2022-7-20

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743794/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【学习笔记】利用chatGPT入门机器学习（附代码）

1. 线性回归的例子：从简单到复杂 2. 使用随机森林分类器对鸢尾花数据集进行分类 3. 使用支持向量机分类器对乳腺癌数据集进行分类机器学习算法可以用很多方法分类，但一种常见的分…

Python 2023年11月4日
0046
matplotlib与tkinter的简单使用，以及内存溢出问题。

matplotlib的简单使用创建画布准备x，y轴数据绘制图像显示图像 matplotlib.pyplot的简单画图使用matplotlib中的pyplot包做画图示例。…

Python 2023年8月31日
0079
【自然语言处理】【ChatGPT系列】InstructGPT：遵循人类反馈指令来训练语言模型

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月24日
0043
项目场景： gyp verb check python checking for Python executable python2 in the PATH

node v16.15.0 npm 8.5.5 npm install 报错 gyp verb check python checking for Python execu…

Python 2023年8月1日
0044
【机器学习kaggle赛事】泰坦尼克号生存预测

目录写在前面数据集情况查看数据清洗 Embarked： Fare Age Cabin 特征工程 1，探究Sex与Survived的相关性 2，探究Pcalss与Survive…

Python 2023年10月9日
0086
python练习题：求10万以内的质数

1、使用质数定义计算 #version1import datetime #导入模块计算效率start = datetime.datetime.now() count = 0 for…

Python 2023年10月30日
0037
RuntimeError: (PreconditionNotMet) The third-party dynamic library (cudnn64_7.dll) that Paddle depen

paddlepaddle-gpu版本安装过程挺复杂的（我安装的是cuda10.2版本的）大概可以分成三步1、先装cuda（官网链接：https://developer.nvidi…

Python 2023年8月3日
0076
scrapy runspider in VScode on WIN10(Enterprise) 找不到下载的output 文件

import scrapy class QuotesSpider(scrapy.Spider): name = ‘quotes’ start_urls = [ ‘http://qu…

Python 2023年10月2日
0040
第11讲：Python列表对象中元素修改操作

第 1 章软件包的安装和介绍………………..1 1.1 Python 简介……&#…

Python 2023年8月1日
0044
青少年软件编程（Python）等级考试试卷（一级A卷）

AI悦创·编程一对一教学（Python 一级）等级考试试卷姓名：_____ AI悦创·推出辅导班啦，包括「Python 语言辅导班、C++辅导班、算法/数据结构辅导班、少儿编程(…

Python 2023年9月18日
0058
Linux终端如何运行py文件【python代码文件】

🍒 作者简介：大学机械本科，野生程序猿，学过C语言，玩过前端，还鼓捣过嵌入式，设计也会一点点，不过如今痴迷于网络爬虫，因此现深耕Python、数据库、seienium、JS逆向、安…

Python 2023年8月2日
0048
Pygame简单深度优先算法生成迷宫

学习路径计算之前需要一个场景，网上查了下迷宫生成方法花了点时间写了个简单的迷宫生成器基本原理十分简单：使用2维矩阵表示迷宫，每一个节点有四面墙，使用深度搜索，随机顺序向四个方向移动…

Python 2023年9月18日
0039
Java注解学习与实战

为什么要再次梳理一下java注解，显而易见，因为重要啊。也是为研究各大类开源框架做铺垫，只有弄清楚Java注解相关原理，才能看懂大部分框架底层的设计。注解也叫做元数据，是JDK1…

Python 2023年10月22日
0037
机器学习实践：提取文章-6

机器学习实践：提取文章摘要 1、实验描述本实验利用自然语言处理提取新闻摘要：”关键字提取”算法和TextRank算法完成新闻摘要提取，旨在理解这两种算法的…

Python 2023年9月22日
0040
AttributeError: ‘AxesSubplot‘ object has no attribute ‘bar_label‘

AttributeError: ‘AxesSubplot’ object has no attribute ‘bar_label’ …

Python 2023年9月15日
0058
Python之Wjango实现Web开发详解—01

Python之Wjango实现Web开发详解—01 本文将会详解： 1、Web框架的搭建、 2、框架以及数据库的初始化、 3、应用的建立文章目录 * – Python…

Python 2023年8月6日
0041

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

暑期实践第十七天 2022-7-20

大家都在看